DE112012000853T5

DE112012000853T5 - Entdeckung, Erkennung und Bookmarking von Gesichtern in Videos

Info

Publication number: DE112012000853T5
Application number: DE112012000853T
Authority: DE
Inventors: Matthew S. Steiner
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2011-02-18
Filing date: 2012-02-13
Publication date: 2013-11-14
Anticipated expiration: 2032-02-14
Also published as: GB2502221A; WO2012112464A1; DE112012000853B4; AU2012217935A1; EP2676273B1; AU2012217935B2; US20160148651A1; CA2827611A1; US9984729B2; EP2676273A1; US9251854B2; US20120213490A1; CA2827611C; GB2502221B; GB201314656D0

Abstract

Verfahren, Systeme und Vorrichtung mit auf einem Computerspeichermedium codierten Computerprogrammen für Bookmarking von Gesichtern in Videos. Nach einem Aspekt umfasst das Verfahren, ein digitales Video zu empfangen, das Videodaten aufweist, die Videodaten zu verarbeiten, um Merkmale zu entdecken, die auf ein menschliches Gesicht in dem digitalen Video hinweisen, aus den Videodaten ein erstes Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden, erste Zeitstempeldaten entsprechend dem ersten Einzelbild zu ermitteln, aus den Videodaten ein zweites Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden, zweite Zeitstempeldaten entsprechend dem zweiten Einzelbild zu ermitteln, einen Identifizierer entsprechend dem menschlichen Gesicht zu erzeugen, einen Datensatz zu erzeugen, der den Identifizierer, die ersten Zeitstempeldaten und die zweiten Zeitstempeldaten umfasst, und den Datensatz an die Videodaten anzufügen, um annotierte Videodaten bereitzustellen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der US-Provisional-Patentanmeldung Nr. 61/444,513, eingereicht am 18. Februar 2011, deren Offenbarung in ihrer Gesamtheit durch Bezugnahme ausdrücklich hierin aufgenommen wird.
TECHNISCHES GEBIET
Diese Beschreibung bezieht sich allgemein auf digitale Videos.
HINTERGRUND
Das Aufkommen von hochwertigen digitalen Videokameras für Endverbraucher und auch Videokameras, die in Handgeräten wie z. B. Smartphones enthalten sind, hat Heim-Videos und -Filme populärer als je zuvor gemacht. Die Leute machen häufig Videos von Ereignissen wie z. B. Geburtstagen, Abschlussfeiern, und auch Videos, die Geschichten erzählen oder Ideen ausdrücken. Im Allgemeinen werden die Videos so gemacht, dass sie für Betrachtung durch einen breiten Zuschauerkreis veröffentlicht werden können. Es ist leichter geworden, Videos unter Verwendung von elektronischer Dateiverbreitung und ”Posting” von Videos gemeinsam zu benutzen, wie z. B. mit Websites, die Videoinhalte und Zugänge für Benutzer bereitstellen, um Videoinhalte bereitzustellen. Websites von sozialen Netzwerken werden ebenfalls benutzt, um Videos mit Familie und Freunden zu teilen.
KURZDARSTELLUNG
Im Allgemeinen können innovative Aspekte des in dieser Beschreibung beschriebenen Gegenstandes in Verfahren verkörpert sein, die Aktionen umfassen, ein digitales Video zu empfangen, das Videodaten enthält, die Videodaten zu verarbeiten, um Merkmale zu entdecken, die auf ein menschliches Gesicht in dem digitalen Video hinweisen, aus den Videodaten ein erstes Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden, erste Zeitstempeldaten entsprechend dem ersten Einzelbild zu ermitteln, aus den Videodaten ein zweites Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden, zweite Zeitstempeldaten entsprechend dem zweiten Einzelbild zu ermitteln, einen Identifizierer entsprechend dem menschlichen Gesicht zu erzeugen, einen Datensatz zu erzeugen, der den Identifizierer, die ersten Zeitstempeldaten und die zweiten Zeitstempeldaten umfasst, und den Datensatz an die Videodaten anzufügen, um annotierte Videodaten bereitzustellen.
Diese und weitere Ausführungen können jeweils optional eines oder mehrere der folgenden Merkmale enthalten. Zum Beispiel, Aktionen umfassen weiterhin: die Videodaten zu verarbeiten, um die Merkmale, die auf das menschliche Gesicht in dem digitalen Video hinweisen, einer bestimmten Person zuzuordnen, und Identitätsdaten zu ermitteln, die der bestimmten Person zugeordnet sind, wobei der Identifizierer auf Basis der Identitätsdaten erzeugt wird; das Verarbeiten der Videodaten zum Entdecken von Merkmalen, die auf ein menschliches Gesicht hinweisen, umfasst, ein oder mehrere Einzelbilder des digitalen Videos als ein Bild zu verarbeiten, wobei jedes Bild unter Verwendung von Gesichtsentdeckungstechniken verarbeitet wird; Aktionen umfassen weiterhin, ein annotiertes Video auf Basis der annotierten Videodaten anzuzeigen, wobei das annotierte Video ein Bookmark (Anglizismus für digitale Lesezeichen) entsprechend dem Datensatz enthält; Aktionen umfassen weiterhin: eine Benutzereingabe auf Basis des Bookmarks zu empfangen und ein dargestelltes Einzelbild in dem digitalen Video als Antwort auf die Benutzereingabe zu dem ersten Einzelbild vorzurücken; Aktionen umfassen weiterhin: eine erste Position der Merkmale, die auf das menschliche Gesicht in dem ersten Einzelbild hinweisen, mit einer zweiten Position von Merkmalen, die auf ein zweites menschliches Gesicht in dem zweiten Einzelbild hinweisen, zu vergleichen und auf Basis der ersten Position und der zweiten Position zu ermitteln, dass die Merkmale, die auf das zweite menschliche Gesicht hinweisen, den Merkmalen entsprechen, die auf das menschliche Gesicht hinweisen; Aktionen umfassen weiterhin: ein Gesichtsmodell des menschlichen Gesichts zu erzeugen und das Gesichtsmodell mit bekannten Gesichtsmodellen zu vergleichen; das Erzeugen des Gesichtsmodells des menschlichen Gesichts umfasst, eine Vielzahl von Gesichtsschablonen zu erzeugen, wobei jede Gesichtsschablone einem Einzelbild in den Videodaten entspricht, in dem das menschliche Gesicht entdeckt wird, wobei das Gesichtsmodell die Vielzahl von Gesichtsschablonen enthält; jedes der bekannten Gesichtsmodelle einem Benutzer eines Sozialnetzwerkdienstes entspricht; Aktionen umfassen weiterhin, ein bekanntes Gesichtsmodell auf Basis von einer oder mehreren von einer Vielzahl von Gesichtsschablonen des Gesichtsmodells zu aktualisieren; die bekannten Gesichtsmodelle jeweils nach Empfang des digitalen Videos erzeugt werden; die bekannten Gesichtsmodelle nach dem Vergleichen von computerlesbarem Speicher gelöscht werden; die bekannten Gesichtsmodelle von einer Dauerspeichereinrichtung abgerufen werden, die eine Datenbank von bekannten Gesichtsmodellen elektronisch speichert; das Vergleichen der Gesichtsmodelle umfasst, jede Gesichtsschablone des Gesichtsmodells mit Gesichtsschablonen jedes der bekannten Gesichtsmodelle zu vergleichen; Aktionen umfassen weiterhin: einen Konfidenzpunktwert zwischen dem Gesichtsmodell und einem bekannten Gesichtsmodell auf Basis von Vergleichen des Gesichtsmodells mit bekannten Gesichtsmodellen zu erzeugen, den Konfidenzpunktwert mit einem Schwellen-Konfidenzpunktwert zu vergleichen und anzuzeigen, dass das Gesichtsmodell dem bekannten Gesichtsmodell entspricht, wenn der Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert ist; Aktionen umfassen weiterhin: Identitätsdaten entsprechend dem bekannten Gesichtsmodell zu ermitteln, das Gesichtsmodell den Identitätsdaten zuzuordnen und die Identitätsdaten an den Datensatz anzufügen; Aktionen umfassen weiterhin, das Gesichtsmodell als ein bekanntes Gesichtsmodell zu speichern; und Aktionen umfassen weiterhin, eine Benutzereingabe zu empfangen, wobei die Benutzereingabe eine Identität entsprechend dem menschlichen Gesicht anzeigt, wobei der Identifizierer der Identität entspricht.
Die Details von einer oder mehreren Ausführungen des in dieser Beschreibung beschriebenen Gegenstandes sind in den begleitenden Zeichnungen und der nachfolgenden Beschreibung dargelegt. Weitere mögliche Merkmale, Aspekte und Vorteile des Gegenstandes ergeben sich aus der Beschreibung, den Zeichnungen und den Patentansprüchen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt eine Beispiel-Systemarchitektur, die in Übereinstimmung mit Ausführungen der vorliegenden Offenbarung benutzt werden kann.
2 zeigt eine Beispiel-Umgebung für Entdeckung, Erkennung und Bookmarking (mit digitalen Lesezeichen versehen) von Gesichtern in Videos.
3 ist ein Flussdiagramm eines Beispiel-Prozesses für Entdeckung und Bookmarking von Gesichtern in Videos.
4 ist ein Flussdiagramm eines Beispiel-Prozesses für Gesichtserkennung in Videos.
5 zeigt einen Beispiel-Sozialgraphen.
Gleiche Bezugszeichen repräsentieren überall entsprechende Teile.
DETAILLIERTE BESCHREIBUNG
Dieses Dokument beschreibt Systeme und Techniken für die automatische Entdeckung von einer oder mehreren Personen in einem digitalen Video und Bookmarking, wo jede der einen oder mehreren Personen in ein Video eintritt und/oder daraus austritt. Im Gegensatz zu Fotografien wird der gesamte Inhalt eines Videos nicht auf eine statische Weise dargestellt. Folglich ist es schwieriger, ein Video mit der Identität jeder Person, die in dem Video auftaucht, zu kennzeichnen oder zu markieren und die Identitätsinformationen darzustellen. Zum Beispiel müsste ein Besitzer eines bestimmten Videos das gesamte Video betrachten und jede Person identifizieren, die in dem Video auftaucht. Für kurze Videos mit einer minimalen Anzahl von Personen in dem Video mag dies zwar praktikabel sein, doch wäre diese Aufgabe bei langen Videos mit zahlreichen verschiedenen Personen arbeitsintensiv und würde wesentliche Zeit benötigen.
In Übereinstimmung mit Ausführungen der vorliegenden Offenbarung kann ein Videoverarbeitungssystem ein digitales Video verarbeiten, um Leute in dem Video zu entdecken und zu erkennen. Das Videoverarbeitungssystem kann Bookmarks erzeugen (z. B. in Form von Zeitstempeln und Positionen in einem oder mehreren Einzelbildern), wo jede bestimmte Person in das Video eintritt und/oder daraus austritt. Das Videoverarbeitungssystem kann Gesichter in dem Video durch Verarbeiten eines oder mehrerer Einzelbilder des Videos erkennen, wobei jedes Einzelbild als ein digitales Bild behandelt wird. Jedes Bild kann unter Verwendung von Gesichtsentdeckungstechniken verarbeitet werden, um das Vorhandensein von einem oder mehreren Gesichtern in dem Bild zu entdecken. Auf diese Weise kann das Videoverarbeitungssystem ermitteln, wann ein bestimmtes Gesicht, und daher eine bestimmte Person, erstmalig in dem Video auftaucht und wann das bestimmte Gesicht aus dem Video austritt, und außerdem, wo das bestimmte Gesicht dargestellt wird (d. h. eine Position in einem oder mehreren Einzelbildern). Zeitstempel der Eintritts- und Austritts-Einzelbilder können als Bookmarks für jedes in dem Video entdeckte Gesicht gespeichert werden. Die Bookmarks können auch die Position enthalten. Das Videoverarbeitungssystem kann weiterhin ein oder mehrere Einzelbilder des Videos verarbeiten, um ein entdecktes Gesicht als das Gesicht einer bestimmten Person zu erkennen (d. h. die Identität von einer oder mehreren in dem Video auftauchenden Personen bestimmen). Die Identität einer bestimmten Person kann mit den Bookmarks verknüpft werden, um Informationen dazu, wann die bestimmte Person in das Video eintritt und/oder daraus austritt, bereitzustellen. Das Videoverarbeitungssystem kann Metadaten erzeugen, die an die dem Video entsprechende computerlesbare Datei angefügt wird oder auf andere Weise damit bereitgestellt wird, um eine annotierte Videodatei zu erzeugen. Die Metadaten können Daten, die die Identität jeder von einer oder mehreren in dem Video vorhandenen Personen anzeigen, und Bookmarks entsprechend wann jede der einen oder mehreren Personen in das Video eintritt und/oder daraus austritt, enthalten.
Das Videoverarbeitungssystem kann die annotierte Videodatei einer oder mehreren Websites bereitstellen, um sie zu veröffentlichen. Zum Beispiel kann das Videoverarbeitungssystem das Video wie hierin erörtert verarbeiten und dann auf Basis von Anweisungen, die der Autor des Videos (z. B. ein Benutzer, der das Video zu dem Videoverarbeitungssystem hochgeladen hat) gegeben hat, sofort ein annotiertes Video auf einer bestimmten Website veröffentlichen. Als ein anderes Beispiel kann das Videoverarbeitungssystem die annotierte Videodatei auf Basis von Anweisungen, die der Autor des Videos gegeben hat, erzeugen und kann die annotierte Videodatei dem Autor zum Veröffentlichen des Videos zurückgeben. Wie auch immer veröffentlicht, kann das annotierte Video Markierungen entsprechend entdeckten Personen und/oder erkannten Personen in dem Video und entsprechende Bookmarks enthalten. In manchen Ausführungen kann das annotierte Video Steuerungen entsprechend den Bookmarks enthalten, so dass, wenn angeklickt, das Video zu einem Einzelbild des Videos springen kann, in dem eine entdeckte Person erstmalig auftaucht und/oder aus dem Video austritt.
In manchen Ausführungen kann das Videoverarbeitungssystem einem Sozialnetzwerkdienst zugeordnet sein. Zum Beispiel kann ein Autor des Videos ein Benutzer des Sozialnetzwerkdienstes sein und kann als ein Autor-Benutzer betrachtet werden. Der Autor-Benutzer des Sozialnetzwerkdienstes kann das Video für Veröffentlichung des Videos unter Verwendung des Sozialnetzwerkdienstes hochladen. In dem Video entdeckte Gesichter können auf Basis von Leuten erkannt werden, mit denen der Benutzer durch den Sozialnetzwerkdienst sozial verbunden ist. Zum Beispiel kann das Videoverarbeitungssystem mit der Erlaubnis des Benutzers und/oder Erlaubnis von anderen Benutzern, die in dem Video erkannt werden sollen, Bilder der sozialen Verbindungen des Benutzers verarbeiten, wenn es Leute in dem Video identifiziert, wie hierin detaillierter erörtert.
Für Situationen, in denen die hierin erörterten Verfahren und Systeme persönliche Informationen über Benutzer sammeln und/oder abrufen, kann den Benutzern Gelegenheit gegeben werden, sich für oder gegen Programme oder Merkmale zu entscheiden, die persönliche Informationen über Benutzer sammeln und/oder Zugang dazu haben können (z. B. Informationen über die Identität oder Präferenzen eines Benutzers, Informationen und Bezug auf den Sozialgraphen des Benutzers oder Beiträge eines Benutzers zu Sozialinhaltsanbietern). Außerdem können bestimmte Daten auf eine oder mehrere Weise anonymisiert werden, bevor sie gespeichert, abgerufen oder benutzt werden, so dass persönlich identifizierbare Informationen entfernt werden. Zum Beispiel kann die Identität eines Benutzers anonymisiert werden, so dass identifizierte Benutzerpräferenzen oder Benutzerinteraktionen generalisiert werden (zum Beispiel, auf Basis von Benutzerdemografien generalisiert werden) statt einem bestimmten Benutzer zugeordnet zu werden.
1 zeigt eine Beispiel-Systemarchitektur 100, die in Übereinstimmung mit Ausführungen der vorliegenden Offenbarung benutzt werden kann. Die Beispiel-Systemarchitektur 100 enthält eine Computereinrichtung 102, die einem Benutzer 104 zugeordnet ist, ein Netzwerk 110, ein Computersystem 112 und ein Computersystem 114. Die Computereinrichtung 102, das Computersystem 112 und das Computersystem 114 können durch das Netzwerk 110 miteinander kommunizieren. Die Computersysteme 112, 114 können eine Computereinrichtung 116 (z. B. einen Server) und eine oder mehrere computerlesbare Speichereinrichtungen 118 (z. B. eine Datenbank) enthalten.
Die Computereinrichtung 102 kann verschiedene Formen von Verarbeitungseinrichtungen darstellen, einschließlich, aber nicht beschränkt auf einen Desktop-Computer, einen Laptop-Computer, einen Hand-Computer, einen persönlichen digitalen Assistenten (PDA), ein Zellulartelefon, ein Netzwerkgerät, eine Kamera, ein Smartphone, ein EGPRS-Mobiltelefon (EGPRS = Enhanced General Packet Radio Service), ein Medienabspielgerät, eine Navigationseinrichtung, eine E-Mail-Einrichtung, eine Spielkonsole oder eine Kombination von zwei oder mehreren dieser Datenverarbeitungseinrichtungen oder anderen Datenverarbeitungseinrichtungen. Den Computereinrichtungen 102, 116 kann Zugang zu und/oder Empfang von Anwendungssoftware ermöglicht werden, die auf irgendeiner der anderen Computereinrichtungen 102, 116 ausgeführt und/oder gespeichert wird. Die Computereinrichtung 116 kann verschiedene Formen von Servern darstellen, einschließlich, aber nicht beschränkt auf einen Web-Server, einen Proxy-Server, einen Netzwerk-Server oder eine Server-Farm. Zum Beispiel kann die Computereinrichtung 116 ein Anwendungsserver sein, der Software ausführt, die von einem Softwareverkaufsunternehmen 102 bereitgestellt wird.
In manchen Ausführungen können die Computereinrichtungen drahtlos durch eine Kommunikationsschnittstelle (nicht gezeigt) kommunizieren, welche erforderlichenfalls Verarbeitungsschaltkreise für digitale Signale enthalten kann. Die Kommunikationsschnittstelle kann Kommunikation unter verschiedenen Betriebsarten oder Protokollen ermöglichen, wie unter anderem Sprachanrufe per GSM (Global System for Mobile communication), Nachrichten per SMS (Short Message Service, EMS (Enhanced Messaging Service) oder MMS (Multimedia Messaging Service), CDMA (Code Division Multiple Access, TDMA (Time Division Multiple Access), PDC (Personal Digital Cellular), WCDMA (Wideband Code Division Multiple Access), CDMA2000 oder GPRS (General Packet Radio System). Zum Beispiel kann die Kommunikation durch einen Funkfrequenz-Transceiver (nicht gezeigt) stattfinden. Außerdem kann Kurzstreckenkommunikation stattfinden, wie z. B. unter Verwendung eines Bluetooth-, WiFi- oder anderen derartigen Transceivers.
In manchen Ausführungen kann die Systemarchitektur 100 ein verteiltes Client/Server-System sein, das ein oder mehrere Netzwerke wie z. B. das Netzwerk 110 überspannt. Das Netzwerk 110 kann ein großes Computernetzwerk sein, wie z. B. ein LAN (Local Area Network), WAN (Wide Area Network), das Internet, ein Zellularnetzwerk oder eine Kombination davon, die irgendeine Anzahl von mobilen Clients, festen Clients und Servern verbindet. In manchen Ausführungen kann jeder Client (z. B. die Computereinrichtung 102) über ein VPN (Virtual Private Network), einen SSH (Secure Shell) Tunnel oder eine andere sichere Netzwerkverbindung mit Servern (z. B. Computereinrichtungen 116) kommunizieren. In manchen Ausführungen können die Netzwerke 110 ein Firmennetzwerk (z. B. Intranet) und einen oder mehrere Drahtloszugangspunkte enthalten.
2 zeigt eine Beispiel-Umgebung 200 für Erkennung und Bookmarking von Gesichtern in Videos. Die Beispiel-Umgebung 200 enthält ein Videoverarbeitungssystem 204, das eine digitale Videodatei 202 empfangen kann, die einem aufgezeichneten oder anderweitig von einem Benutzer autorisierten digitalen Video entspricht. Das Videoverarbeitungssystem 204 verarbeitet die digitale Videodatei 202, wie hierin erörtert, um eine annotierte Videodatei 202' bereitzustellen. In manchen Ausführungen kann das Videoverarbeitungssystem 204 als eine oder mehrere Anwendungen realisiert werden, die unter Verwendung von einer oder mehreren Computereinrichtungen (z. B. Computereinrichtungen 102 und/oder 116 von 1) ausgeführt werden. Zum Beispiel kann das Videoverarbeitungssystem 204 unter Verwendung des Computersystems 114 realisiert werden.
Das Videoverarbeitungssystem 204 verarbeitet ein oder mehrere Einzelbilder des als Daten in der Videodatei 202 bereitgestellten Videos als eine Folge von Bildern 206, 208, 210, 212. Jedes Bild wird unter Verwendung von Gesichtsentdeckungstechniken verarbeitet, die hierin detaillierter erörtert werden, um das Vorhandensein von einem oder mehreren Gesichtern in dem Bild zu entdecken. In manchen Ausführungen kann jedes Bild als ein Vektor von Bildmerkmaldaten modelliert werden, welches nach Charakteristika wie z. B. Gesichtsmerkmalen, Hautfarbe und Hauttextur verarbeitet werden kann. Jedes in jedem Bild entdeckte Gesicht kann mit in den anderen Bildern entdeckten Gesichtern verglichen werden, um zu ermitteln, ob die Gesichter von derselben Person sind. Auf Basis der entdeckten Gesichter kann das Videoverarbeitungssystem 204 ermitteln, wann ein bestimmtes Gesicht, und daher eine bestimmte Person, in das Video eintritt oder erstmalig darin auftaucht, und außerdem, wann die bestimmte Person austritt oder nicht mehr in dem Video vorhanden ist. Das Videoverarbeitungssystem 204 kann Bookmarks erzeugen, die dem entsprechen, wann jedes entdeckte Gesicht in das Video eintritt oder daraus austritt, wie hierin detaillierter erörtert.
Unter fortgesetzter Bezugnahme auf 2 kann ein erstes Einzelbild 206 des Videos als ein Bild bereitgestellt werden. Das Einzelbild 206 kann unter Verwendung von Gesichtsentdeckungstechniken verarbeitet werden, um das Vorhandensein eines Gesichts 202 einer in dem Video 202 auftauchenden Person 222 zu entdecken. Ein dem Einzelbild 206 entsprechender Zeitstempel kann als ein erster Zeitpunkt, in dem die Person 222 in dem Video auftaucht, gespeichert oder anders angezeigt werden. Ein Beispiel-Zeitstempel kann in Form einer Zeit (z. B. [Stunden]:[Minuten]:[Sekunden]:[Zehntelsekunden]) und/oder in Form einer Einzelbildzählung (z. B. Einzelbild #1) bereitgestellt werden. Zum Beispiel, wenn die Person 222 in dem ersten Einzelbild 206 des Videos auftaucht, kann der Zeitstempel ”0:00:00:00” mit einem der Person 222 entsprechenden Identifizierer gespeichert werden. Als ein anderes Beispiel, wenn die Person 222 in dem ersten Einzelbild 206 des Videos 202 auftaucht, kann der Zeitstempel ”Einzelbild #1” mit dem der Person 222 entsprechenden Identifizierer gespeichert werden. Ein Beispiel-Identifizierer kann ”Person A” enthalten. In manchen Ausführungen können unterschiedliche Zeitstempel-Marker oder Metriken und/oder Identifizierer benutzt werden. Die Zeitstempel-Daten können unter Verwendung von unterschiedlichen Zeitcode- oder Zeitstempel-Variationen auf verschiedene Arten auf dem Video codiert werden. Die dem ersten Einzelbild entsprechenden Zeitstempel-Daten können unter Verwendung des Zeitstempels auf dem Video direkt ermittelt werden, oder der Zeitstempel kann in ein anders Format übertragen werden, wie z. B. Minuten und Sekunden.
Alle Einzelbilder oder eine Teilmenge von Einzelbildern des Videos können verarbeitet werden, um das Vorhandensein eines Gesichts in jedem Einzelbild zu entdecken. Jedes entdeckte Gesicht kann verarbeitet werden, um zu ermitteln, ob das Gesicht einem in einem oder mehreren anderen Einzelbildern des Videos entdeckten Gesicht entspricht. Zum Beispiel kann das in dem Einzelbild 206 entdeckte Gesicht 220 als dasselbe Gesicht wie das in dem Einzelbild 208 entdeckte Gesicht 220 und somit als derselben Person 222 entsprechend identifiziert werden. Die Zeitstempel- und Identifizierer-Informationen jeder Person können der Videodatei 202 hinzugefügt werden, um die annotierte Videodatei 202' bereitzustellen, und können als eine oder mehrere Annotationen oder Bookmarks zu dem Video dargestellt werden.
Beim Verarbeiten der Einzelbilder kann erkannt werden, wann eine Person in dem Video bleibt, obwohl ihr Gesicht möglicherweise verdeckt oder auf andere Weise nicht direkt in einem Teil des Videos sichtbar ist. Zum Beispiel kann das Gesicht 220 der Person 222 in dem Einzelbild 206 zu sehen sein. Doch hat sich im Einzelbild 208 die Person 222 von der Kamera weg gedreht, die das Video aufzeichnet, und das Gesicht 220 ist nicht zu sehen. Obwohl daher ein Gesicht möglicherweise nicht mehr in einem bestimmten Einzelbild entdeckt wird, kann eine Person noch in dem Video vorhanden sein. Dementsprechend können benachbarte Einzelbilder (z. B. die Einzelbilder 206, 208) verarbeitet werden, um zu erkennen, dass ein Gesicht (z. B. das Gesicht 220) zwar nicht in einem bestimmten Einzelbild entdeckt wird, aber die Person (z. B. die Person 222) noch in dem Video vorhanden ist. In manchen Ausführungen können bei Entdeckung eines Gesichts in einem ersten Einzelbild andere Merkmale (z. B. Merkmale der menschlichen Anatomie, Kleidungsstil, Kleidungsfarbe, Hautton, Haarstil, Haarfarbe) einer dem Gesicht entsprechenden Person entdeckt werden. Ein zweites Einzelbild kann verarbeitet werden, um zu ermitteln, ob das Gesicht auch in dem zweiten Einzelbild entdeckt wird. Wird das Gesicht nicht in dem zweiten Einzelbild entdeckt, kann das zweiten Einzelbild weiterhin verarbeitet werden, um zu ermitteln, ob eines oder mehrere der anderen Merkmale in dem zweiten Einzelbild entdeckt werden. Wenn das eine oder die mehreren anderen Merkmale in dem zweiten Einzelbild entdeckt werden, wird die Person als noch in dem Video vorhanden erachtet, obwohl das Gesicht nicht entdeckt wird. Wenn das eine oder die mehreren anderen Merkmale nicht in dem zweiten Einzelbild entdeckt werden, wird die Person als nicht mehr in dem Video vorhanden erachtet.
In manchen Ausführungen werden für jede entdeckte Person die Einzelbildnummern, wann die bestimmte Person in das Video eintritt und/oder daraus austritt, als Metadaten gespeichert. Irgendwelche Einzelbilder zwischen einem Zeitstempel, der das erste Erscheinen der bestimmten Person oder den Eintritt in das Video anzeigt, und ein Zeitstempel, der das letzte Erscheinen der bestimmten Person oder den Austritt aus dem Video anzeigt, werden als die bestimmte Person enthaltend angezeigt. In manchen Fällen kann eine Person aus dem Video austreten und zu einem späteren Zeitpunkt wieder in das Video eintreten. Folglich kann ein zweiter Satz von Zeitstempeln für die bestimmte Person bereitgestellt werden.
Unter fortgesetzter Bezugnahme auf 2 kann ein Identifizierer ”Person A” erzeugt werden und kann der Person 222 entsprechen, deren Gesicht in den Einzelbildern 206 bis Einzelbild 212 des Videos entdeckt wird. Es kann ein Zeitstempelsatz erzeugt werden und kann dem Identifizierer ”Person A” zugeordnet werden. Zum Beispiel kann ein erster Zeitstempel für das Einzelbild 206 erzeugt oder daraus identifiziert werden. Da das Einzelbild 206 das erste Einzelbild des Videos ist, kann ein erster Beispiel-Zeitstempel ”0:00:00:00” enthalten. Ein zweiter Zeitstempel kann für das Einzelbild 212 erzeugt oder daraus identifiziert werden. Das Beispiel-Video kann eine Beispiel-Länge oder -dauer von 23 Minuten und 6 Sekunden haben. Da das Einzelbild 206 das letzte Einzelbild des Videos ist, kann der zweite Zeitstempel ”0:23:06:00” enthalten. Der Zeitstempelsatz und der Identifizierer können als Bookmark-Daten 214 bereitgestellt werden. Die Bookmark-Daten 214 zeigen an, dass die Person A vom Beginn des Videos an und bis zum Ende des Videos in dem Video ist (z. B. 23 Minuten und 6 Sekunden in dem Video). Die Informationen, die die Person A mit den Zeiten ”0:00:00 –0:23:06” korrelieren, können als die Bookmark-Daten 214 zu der Videodatei gespeichert und annotiert werden. Die Bookmark-Daten 214 können einem Betrachter dargestellt werden, der das veröffentlichte Video betrachtet.
Die Videodatei 202 kann verarbeitet werden, um das Vorhandensein von mehreren verschiedenen Personen in dem Video zu entdecken. Zum Beispiel kann das Video eine andere Person enthalten und kann den Identifizierer ”Person B” dieser bestimmten Person zuweisen. Zum Beispiel kann die als ”Person B” identifizierte Person in einem oder mehreren Einzelbildern auftauchen, die zwischen dem Einzelbild 208 und dem Einzelbild 210 liegen. Es kann ein Zeitstempelsatz erzeugt werden und kann die Zeitstempel enthalten, wann die Person B in das Video eingetreten und daraus ausgetreten ist. Beispiel-Zeitstempel können ”0:05:00:00” und ”0:10:00:00” enthalten. Der Zeitstempelsatz und der Identifizierer können als Bookmark-Daten 216 bereitgestellt werden. Die Bookmark-Daten 216 zeigen an, dass die Person B von 5 Minuten an in dem Video und bis 10 Minuten in dem Video ist. Die Informationen, die die Person B mit den Zeiten ”0:05:00–0:10:00” korrelieren, können als das Bookmark 216 zu der Videodatei gespeichert und annotiert werden. Die Bookmark-Daten 216 können einem Betrachter dargestellt werden, der das veröffentlichte Video betrachtet.
Die annotierte Videodatei 202' kann für Veröffentlichung einem Zuschauerkreis bereitgestellt werden. Zum Beispiel kann das Videoverarbeitungssystem 204 die annotierte Videodatei 202' direkt einem Veröffentlichungsdienst zum Veröffentlichen des Videos auf Basis von Anweisungen, die der Autor des Videos gegeben hat, bereitstellen. Als ein anderes Beispiel kann das Videoverarbeitungssystem 204 die annotierte Videodatei 202' an den Autor zurücksenden, damit der Autor 202' das Video selbst veröffentlichen kann.
In manchen Ausführungen kann das annotierte Video auf einer Webseite 222 veröffentlicht werden. Die Webseite 222 kann ein Video 224 und Bookmarks 226, 228 auf Basis von in der annotierten Videodatei 202' bereitgestellten Daten enthalten. Die Bookmarks 226, 228 entsprechen jeweils den Bookmark-Daten 214, 216. In manchen Ausführungen können die Bookmarks 226, 228 als benutzerwählbare Verknüpfungen angrenzend an das Video 224 dargestellt werden. Durch Klicken auf ein Bookmark 226, 228 kann ein Betrachter zu einer Zeit in dem Video 224 springen, zu der die dem ausgewählten Bookmark 226, 228 entsprechende Person auftaucht. Auf diese Weise kann ein Benutzer, der das Video 224 betrachtet, direkt dahin springen, wo die mit Bookmark versehene Person in dem Video 224 auftaucht. In manchen Ausführungen können die Bookmarks 226, 228 mit einem Screenshot (Bildschirmfoto) verknüpfen, oder mit dem Einzelbild des Videos 224, das das Einzelbild zeigt, in dem die entsprechende Person erstmalig auftaucht. Der Screenshot kann einen Indikator enthalten, der bezeichnet, wo die Person in dem Einzelbild zu sehen ist. Zum Beispiel kann ein Kasten oder anderer Annotator um die mit Bookmark versehene Person herum gezeichnet werden. Der Indikator kann auch in dem Video enthalten sein, so dass jede Person erkannt werden kann, während das Video abspielt. Zum Beispiel kann ein Kasten oder eine Annotation einschließlich des Identifizierers der Person oder eines anderen Indikators erscheinen, wenn ein Benutzer einen Cursor über einer Person in dem Video positioniert.
Ein entdecktes Gesicht kann als ein zu einer bestimmten Person gehörendes Gesicht erkannt werden, und entsprechende Identitätsdaten können an die annotierte Videodatei 202' angefügt werden. Zum Beispiel kann das entdeckte Gesicht 220, das der anonymen Identität ”Person A” zugrunde liegt, als zu einer bestimmten Person, Davis Morgan, gehörend erkannt werden. Sobald erkannt, kann der Identifizierer ”Person A” durch ”Davis Morgan” ersetzt werden.
In manchen Ausführungen kann ein in dem Video entdecktes Gesicht auf Basis einer Eingabe erkannt werden, die der Autor des Videos und/oder ein Betrachter des Videos getätigt hat. Zum Beispiel kann das Videoverarbeitungssystem 204 den Autor auffordern, eine Eingabe zu tätigen, die ”Person A” und/oder ”Person B” identifiziert. Wenn der Autor nicht im Stande ist, entweder ”Person A” oder ”Person B” zu identifizieren, kann das Videoverarbeitungssystem 204 die Identifizierer ”Person A” oder ”Person B” beigehalten. Wenn der Autor im Stande ist, ”Person A” oder ”Person B” zu identifizieren, kann das Videoverarbeitungssystem 204 Identitätsinformationen als Eingabe von dem Autor empfangen und kann die Identifizierer entsprechend modifizieren (z. B. kann der Identifizierer ”Person A” durch ”Davis Morgan” ersetzt werden). Im Falle eines Betrachters des Videos kann der Betrachter eine Eingabe hinsichtlich der Identität einer einem Identifizierer entsprechenden Person tätigen. Zum Beispiel kann ein Betrachter des Videos 224 die als ”Person A” identifizierte Person als eine bestimmte Person, Davis Morgan, erkennen. Der Betrachter kann eine Eingabe tätigen, dass ”Person A” Davis Morgan ist, und der Identifizierer ”Person A” kann durch ”Davis Morgan” ersetzt werden.
In manchen Ausführungen können von dem Autor und/oder Betrachter bereitgestellte Identitätsdaten Profilinformationen enthalten, die einem Profil der erkannten Person in einem Sozialnetzwerkdienst entsprechen. Zum Beispiel, wenn das Videoverarbeitungssystem 204 Identitätsdaten empfängt, die anzeigen, dass ”Person A” Davis Morgan ist, kann der Identifizierer ”Person A” durch ”Davis Morgan” ersetzt werden, und es kann eine Verknüpfung bereitgestellt werden, die den Identifizierer mit einem Profil von Davis Morgan in einem bestimmten Sozialnetzwerkdienst verknüpft. Wenn daher ein Betrachter des Videos auf die Verknüpfung klickt, kann dem Betrachter eine Profilseite entsprechend Davis Morgan dargestellt werden.
In manchen Ausführungen erkennt das Videoverarbeitungssystem 204 automatisch Gesichter, die es in dem Video entdeckt hat. Zum Beispiel wird ein Gesichtsmodell für jedes in dem Video entdeckte Gesicht erzeugt und kann mit Gesichtsmodellen verglichen werden, die bekannten Identitäten entsprechen. Ein Gesichtsmodell kann eine Sammlung von Gesichtsschablonen enthalten, die einem entdeckten Gesicht entsprechen. Jedes als ein digitales Bild behandelte Einzelbild, das das entdeckte Gesicht enthält, kann verarbeitet werden, um eine Gesichtsschablone bereitzustellen. Zum Beispiel können die Einzelbilder 206–210 jeweils verarbeitet werden, um eine Vielzahl von Gesichtsschablonen zu erzeugen. Jede Gesichtsschablone kann eine andere Umgebung oder einen anderen Zustand des entdeckten Gesichts enthalten. Zum Beispiel kann eine erste Gesichtsschablone das entdeckte Gesicht unter einem ersten Beleuchtungszustand, unter einem ersten Winkel und mit einem ersten Ausdruck zeigen, während eine zweite Gesichtsschablone das entdeckte Gesicht unter einem zweiten Beleuchtungszustand, unter einem zweiten Winkel und/oder mit einem zweiten Ausdruck zeigen kann. Jede Gesichtsschablone kann einen oder mehrere Merkmalvektoren zu dem entdeckten Gesicht enthalten, welche Merkmalvektoren rotiert und normiert werden können. Das Gesichtsmodell enthält sämtliche Gesichtsschablonen, die durch jedes der Bilder bereitgestellt werden, die in dem Video verarbeitet werden, wo das bestimmte Gesicht entdeckt wurde.
Jedes Gesichtsmodell wird mit bekannten Gesichtsmodellen verglichen. Wenn es eine ausreichende Entsprechung zwischen einem Gesichtsmodell und einem bekannten Gesichtsmodell gibt, wie hierin detaillierter erörtert, kann das Gesichtsmodell als von derselben Person wie das bekannte Gesichtsmodell identifiziert werden. Bekannte Gesichtsmodelle können Gesichtsmodelle enthalten, die von dem Videoverarbeitungssystem 204 erzeugt und gespeichert worden sind und ihm zugänglich sind. Bekannte Gesichtsmodelle können Gesichtsmodelle enthalten, die öffentlichen Erscheinungen wie z. B. Berühmtheiten, Politikern, Athleten und anderen in der Öffentlichkeit bekannten Leuten entsprechen. Zum Beispiel können öffentlichen Erscheinungen entsprechende Gesichtsmodelle auf Basis von öffentlich zugänglichen Bildern erzeugt werden, wobei jedes Bild benutzt wird, um eine Gesichtsschablone zu erzeugen.
Bekannte Gesichtsmodelle können Gesichtsmodelle enthalten, die nichtöffentlichen Erscheinungen entsprechen. In manchen Ausführungen kann eine Datenbank von nichtöffentlichen Erscheinungen entsprechenden bekannten Gesichtsmodellen vorher erzeugte Gesichtsmodelle speichern. Die Gesichtsmodelle können auf Basis von Bildern erzeugt werden, die bekannte Personen enthalten. Zum Beispiel kann ein Benutzer ”Bob” eines Sozialnetzwerkdienstes Bilder unter Verwendung des Sozialnetzwerkdienstes hochladen und veröffentlichen und kann sich selbst ”markieren” oder auf andere Weise sein Vorhandensein in den Bildern anzeigen. Solche veröffentlichten Bilder können verarbeitet werden, um ein Gesichtsmodell entsprechend Bob zu erzeugen.
In manchen Ausführungen können die in einer Datenbank gespeicherten Gesichtsmodelle periodisch aktualisiert werden, um deren Qualität zu verbessern. Zum Beispiel können Gesichtsschablonen, die ein bestimmtes Gesichtsmodell bilden, durch qualitativ bessere Gesichtsschablonen ersetzt werden, um die Gesamtqualität des Gesichtsmodells zu verbessern. In manchen Ausführungen können bessere neue Gesichtsschablonen aus Videos und/oder Bildern bereitgestellt werden, die eine bestimmte Person enthalten. Unter Verwendung des obigen Beispiels kann der Benutzer Bob Bilder unter Verwendung des Sozialnetzwerkdienstes hochladen und veröffentlichen und kann sich selbst ”markieren” oder auf andere Weise sein Vorhandensein in den Bildern anzeigen. Die derart bereitgestellten Bilder können verarbeitet werden, um eine oder mehrere Gesichtsschablonen zu erzeugen, welche Gesichtsschablonen benutzt werden können, um ein schon gespeichertes Gesichtsmodell entsprechend Bob zu aktualisieren.
In manchen Ausführungen können bekannte Gesichtsmodelle ”im Flug” erzeugt werden. Das heißt, statt oder zusätzlich zum Bereitstellen einer Datenbank von vorher erzeugten bekannten Gesichtsmodellen können bekannte Gesichtsmodelle für die hierin beschriebenen Gesichtserkennungszwecke erzeugt werden und können nachfolgend gelöscht oder auf andere Weise nicht dauerhaft gespeichert werden. Zum Beispiel kann das Videoverarbeitungssystem 204 eine Anforderung nach bekannten Gesichtsmodellen ausgeben. Als Antwort auf die Anforderung können ein oder mehrere Gesichtsmodelle entsprechend einer bekannten Identität erzeugt und für Vergleichszwecke benutzt werden, wie hierin erörtert. Zum Beispiel können veröffentlichte Bilder entsprechend dem Benutzer Bob abgerufen und verarbeitet werden und kann ein Gesichtsmodell für Bob erzeugt werden. Das Gesichtsmodell kann für Vergleichszwecke benutzt werden und kann nachfolgend gelöscht werden. In manchen Beispielen können ein oder mehrere Gesichtsmodelle auf Verlangen erzeugt werden. Mit dem obigen Beispiel fortfahrend können jeweilige Gesichtsmodelle auf Verlangen für Bob erzeugt werden, ein jedes von Bobs Kontakten. Aus dem Video erzeugte Gesichtsmodelle können mit dem Satz von auf Verlangen erzeugten Gesichtsmodellen verglichen werden.
In manchen Ausführungen können bekannte Gesichtsmodelle Leuten entsprechen, die Benutzer eines Sozialnetzwerkdienstes sind und die Kontakte des Autors des Videos in dem Sozialnetzwerkdienst sind. In manchen Ausführungen stellt ein Sozialnetzwerkdienst das Videoverarbeitungssystem 203 bereit. Der Autor eines Videos, das für Veröffentlichung zu dem Sozialnetzwerkdienst hochgeladen wird, kann mit anderen Benutzern des Sozialnetzwerkdienstes sozial verbunden sein. Derartige soziale Verbindungen werden unter Bezugnahme auf 5 nachfolgend beschrieben. Gesichtsmodelle für jede der sozialen Verbindungen des Autors in dem Sozialnetzwerkdienst können auf Basis von irgendwelchen Bildern oder anderen verfügbaren Informationen (zum Beispiel Bildern, Videos) erzeugt werden. Unter Verwendung des obigen Beispiels kann der Benutzer ”Bob” mit dem Autor des Videos sozial verbunden sein. Folglich kann ein Gesichtsmodell entsprechend Bob erzeugt werden und kann für Gesichtserkennung mit einem oder mehreren Gesichtsmodellen des Videos verglichen werden. In manchen Ausführungen, und wie oben erörtert, können Benutzer des Sozialnetzwerkdienstes private Einstellungen haben, die erlauben oder verhindern, dass Gesichtsmodelle erzeugt und/oder für Gesichtserkennung benutzt werden.
In manchen Ausführungen können bekannte Gesichtsmodelle Leuten entsprechen, die Benutzer eines Sozialnetzwerkdienstes sind und die dem Autors des Videos in dem Sozialnetzwerkdienst indirekt zugeordnet sind. Zum Beispiel kann der Benutzer ”Bob” ein direkter Kontakt des Autors des Videos sein. Ein anderer Autor, Claire, kann ein direkter Kontakt des Benutzers Bob in dem Sozialnetzwerkdienst sein, ist aber kein direkter Kontakt des Autors des Videos. Wie oben erörtert, kann ein Gesichtsmodell entsprechend Bob erzeugt werden und kann mit einem oder mehreren Gesichtsmodellen des Videos für Gesichtserkennung verglichen werden. Zusätzlich, und da Claire ein direkter Kontakt von Bob ist, kann ein Gesichtsmodell entsprechend Claire erzeugt werden und kann für Gesichtserkennung mit einem oder mehreren Gesichtsmodellen des Videos verglichen werden.
Ein auf Basis einer Videodatei erzeugtes Gesichtsmodell (Video-Gesichtsmodell) kann mit einem oder mehreren bekannten Gesichtsmodellen verglichen werden, um eine Identität einer in dem Video auftauchenden Person zu ermitteln. Insbesondere werden die Gesichtsschablonen eines Video-Gesichtsmodells mit Gesichtsschablonen von einem oder mehreren einer Vielzahl von bekannten Gesichtsmodellen verglichen. Zum Beispiel kann ein Video-Gesichtsmodell, das einer in einem Video auftauchenden Person entspricht, N Gesichtsschablonen enthalten. Ein bekanntes Gesichtsmodell, das einer Person entspricht, deren Identität bekannt ist, kann M Gesichtsschablonen enthalten. Vergleichen der Gesichtsmodelle kann einen N × M paarweisen Vergleich enthalten, wobei jede der N Gesichtsschablonen eine nach der andern oder simultan mit jeder der M Gesichtsschablonen verglichen wird. Es kann ein Ähnlichkeitspunktwert entsprechend der Ähnlichkeit zwischen den zwei Gesichtsschablonen erzeugt werden, um eine Vielzahl von Ähnlichkeitspunktwerten bereitzustellen. Jeder Ähnlichkeitspunktwert kann auf Faktoren basieren gelassen werden wie z. B. Hautfarbe und -ton, relative Abstände zwischen Gesichtsmerkmalen, Größen von Gesichtsmerkmalen und anderen biometrischen Informationen, die in den Gesichtsmodellen vorgesehen sind. Die Gesichtsschablonen können nach Größe und/oder Farbe (z. B. Unterschiede in heller Farbe, Lichtmenge, Schwarzweißbilder) normiert werden oder dynamisch für jeden Vergleich adjustiert werden.
Die Ähnlichkeitspunktwerte für jeden Gesichtsmodellvergleich können kombiniert werden, um einen Konfidenzpunktwert zu erzeugen, dass die zwei Gesichtsmodelle derselben Person entsprechen. Die Ähnlichkeitspunktwerte können auf mannigfache Arten kombiniert werden, um den Konfidenzpunktwert zu erzeugen. Zum Beispiel können die Ähnlichkeitspunktwerte aggregiert oder gemittelt werden. Alternativ oder zusätzlich können bestimmte Gesichtsschablonen gewichtet werden, um den Konfidenzpunktwert mehr als andere Gesichtsschablonen zu beeinflussen. In manchen Ausführungen kann der Konfidenzpunktwert eine Funktion des maximalen Ähnlichkeitspunktwerts oder eine Funktion ähnlich einer Maximumfunktion der Ähnlichkeitspunktwerte sein. Es kann eine Vielzahl der Konfidenzpunktwerte bereitgestellt werden, wobei jeder Konfidenzpunktwert einem Vergleich zwischen einem Video-Gesichtsmodell und einem bekannten Gesichtsmodell der Vielzahl von bekannten Gesichtsmodellen entspricht.
In manchen Ausführungen kann der Vergleich mit dem höchsten Konfidenzpunktwert benutzt werden, um die Identität der Person zu ermitteln, die dem Video-Gesichtsmodell entspricht. In manchen Ausführungen kann jeder Konfidenzpunktwert mit einem Schwellen-Konfidenzpunktwert verglichen werden. Wenn ein Konfidenzpunktwert einen Schwellen-Konfidenzpunktwert übersteigt, kann der entsprechende Vergleich ein Kandidatenvergleich zum Ermitteln der Identität der Person, die dem Video-Gesichtsmodell entspricht, sein. Zum Beispiel kann ein Video-Gesichtsmodell mit einem Gesichtsmodell verglichen werden, das dem Benutzer Bob entspricht, um einen ersten Konfidenzpunktwert bereitzustellen. Das Video-Gesichtsmodell kann auch mit einem Gesichtsmodell verglichen werden, das dem Benutzer Claire entspricht, um einen zweiten Konfidenzpunktwert bereitzustellen. Wenn der erste Konfidenzpunktwert und der zweite Konfidenzpunktwert beide unter dem Schwellen-Konfidenzpunktwert liegen, kann das Video-Gesichtsmodell als weder Bob noch Claire entsprechend erachtet werden. Wenn der erste Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert ist und der zweite Konfidenzpunktwert unter dem Schwellen-Konfidenzpunktwert liegt, kann das Video-Gesichtsmodell als Bob entsprechend erachtet werden. Wenn der zweite Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert ist und der erste Konfidenzpunktwert unter dem Schwellen-Konfidenzpunktwert liegt, kann das Video-Gesichtsmodell als Claire entsprechend erachtet werden. Wenn der erste Konfidenzpunktwert und der zweite Konfidenzpunktwert beide größer als der Schwellen-Konfidenzpunktwert sind, kann das Video-Gesichtsmodell als mindestens einem von Bob und Claire entsprechend erachtet werden. In so einem Fall kann der höchste Konfidenzpunktwert ausgewählt werden. Zum Beispiel, wenn sowohl der erste Konfidenzpunktwert als auch der zweite Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert sind und der erste Konfidenzpunktwert größer als der zweite Konfidenzpunktwert ist, kann das Video-Gesichtsmodell als Bob entsprechend erachtet werden. Als ein anderes Beispiel, wenn sowohl der erste Konfidenzpunktwert als auch der zweite Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert sind und der zweite Konfidenzpunktwert größer als der erste Konfidenzpunktwert ist, kann das Video-Gesichtsmodell als Claire entsprechend erachtet werden.
In manchen Ausführungen können zwei oder mehr Konfidenzpunktwerte von einer Vielzahl von Konfidenzpunktwerten größer als der Schwellen-Konfidenzpunktwert sein, aber hinlänglich ähnliche Werte haben, um eine definitive Identifizierung auf Basis von nur einem Konfidenzpunktwert schwierig zu machen. Unter Verwendung der obigen Beispiele, wenn sowohl der erste Konfidenzpunktwert als auch der zweite Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert sind, aber eine Differenz zwischen dem ersten Konfidenzpunktwert und dem zweiten Konfidenzpunktwert kleiner als eine Schwellen-Differenz ist, kann das Video-Gesichtsmodell nicht definitiv als Bob statt Claire oder Claire statt Bob entsprechend erachtet werden. Folglich kann eine Anforderung erzeugt werden und kann einem oder mehreren der Autoren Bob und Claire des Videos zugeführt werden. Die Anforderung kann anfordern, dass der Autor des Videos, Bob und/oder Claire, eine Eingabe tätigt, die anzeigt, welcher bestimmten Person das entdeckte Gesicht entspricht. Die Benutzereingabe kann von mindestens einem der Autoren Bob und Claire des Videos erzeugt werden und kann benutzt werden, um das entdeckte Gesicht definitiv als zu Bob oder Claire gehörend zu identifizieren. Zum Beispiel kann eine Anforderung an Bob gesendet werden. Als Antwort auf die Anforderung tätigt Bob eine Benutzereingabe, die anzeigt, dass das in dem Video entdeckte Gesicht tatsächlich sein Gesicht ist. Folglich kann das entdeckte Gesicht als zu Bob gehörend identifiziert werden.
Das Videoverarbeitungssystem 204 kann Identitätsdaten auf Basis der Vergleiche der Video-Gesichtsmodelle mit dem einen oder den mehreren bekannten Gesichtsmodellen erzeugen und kann die Identifizierer entsprechend modifizieren. Zum Beispiel, wenn das Video-Gesichtsmodell als hinlänglich äquivalent zu dem bekannten Gesichtsmodell, das Claire entspricht, erachtet wird, können Identitätsdaten erzeugt werden, die Claire entsprechen, und der entsprechende Identifizierer kann aktualisiert werden (z. B. kann der Identifizierer ”Person A” durch ”Claire” ersetzt werden). Die Identitätsdaten können in der annotierten Videodatei 202' bereitgestellt werden. Folglich wird eine nachfolgende Veröffentlichung der annotierten Videodatei 202' die oben erörterten Bookmarks und außerdem Identifizierungsinformationen, die in dem Video entdeckten Personen entsprechen, enthalten. Wie oben erörtert, können die Identitätsdaten Profilinformationen enthalten, die einem Profil der erkannten Person in einem Sozialnetzwerkdienst entsprechen.
3 ist ein Flussdiagramm eines Beispiel-Prozesses 300 für Entdeckung und Bookmarking von Gesichtern in Videos. In manchen Ausführungen können in dem Beispiel-Prozess 300 dargestellte Aktionen unter Verwendung von einer oder mehreren Computereinrichtungen (z. B. der Computereinrichtungen 102 und/oder 116 von 1) durchgeführt werden. Zum Beispiel kann der Beispiel-Prozess 300 unter Verwendung des Computersystems 114 von 1 ausgeführt werden.
Es wird eine Videodatei empfangen (302). Die Videodatei kann einem von einem Benutzer über das Netzwerk hochgeladenen digitalen Video entsprechen. Zum Beispiel kann die Videodatei von dem Benutzer 104 unter Verwendung der Computereinrichtung 102 hochgeladen werden und kann von dem Computersystem 114 empfangen werden. Der Benutzer kann die Videodatei für Veröffentlichung unter Verwendung eines Sozialnetzwerkdienstes oder einer Website für gemeinsame Nutzung von Videoinhalten hochladen. Die Videodatei wird verarbeitet, um ein oder mehrere menschliche Gesichter zu erkennen (304). Wie erörtert, können alle Einzelbilder oder eine Teilmenge von Einzelbildern des Videos als separate Bilder unter Verwendung von Gesichtsentdeckungstechniken verarbeitet werden. Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 die Videodatei verarbeiten.
Es wird ein Einzelbild ermittelt, in dem ein bestimmtes Gesicht und folglich eine bestimmte Person in das Video eintritt oder erstmalig darin auftaucht (306). Es werden erste Zeitstempel-Daten ermittelt, die dem Einzelbild entsprechen (308). Es wird ein Einzelbild ermittelt, in dem das bestimmte Gesicht und folglich die bestimmte Person aus dem Video austritt (310). Es werden zweite Zeitstempel-Daten ermittelt, die dem Einzelbild entsprechen (312). Es wird ein Datensatz erzeugt, der Identifizierer-Daten und die ersten und zweiten Zeitstempel-Daten enthält (314). Die Identifizierer-Daten können einen anonymen Identifizierer enthalten (z. B. Person A). Der Datensatz kann an die Videodatei angefügt werden, um eine annotierte Videodatei zu erzeugen, wie hierin erörtert. Ein optionaler Schritt kann umfassen, die Videodatei zu verarbeiten, um das entdeckte Gesicht als zu einer bestimmten Person gehörend zu erkennen (316). Ein Beispiel-Prozess zum Erkennen von Leuten in Videos wird nachfolgend unter Bezugnahme auf 4 beschrieben. Identitätsdaten, die der erkannten bestimmten Person entsprechen, werden an den Datensatz angefügt (318).
4 ist ein Flussdiagramm eines Beispiel-Prozesses 400 für Gesichtserkennung in Videos. In manchen Ausführungen können in dem Prozess 400 dargestellte Aktionen unter Verwendung eines Systems wie z. B. des Computersystems 114 von 1 durchgeführt werden. In manchen Ausführungen können in dem Prozess 400 dargestellte Aktionen als Teilaktionen von in dem Prozess 300 von 3 dargestellten Aktionen durchgeführt werden.
In dem Beispiel-Prozesses 400 wird ein Gesichtsmodell erzeugt, das einem in einem Video entdeckten Gesicht entspricht (402). Zum Beispiel, und wie oben erörtert, können eine Vielzahl von Einzelbildern unter Verwendung des Videoverarbeitungssystems 204 von 2 verarbeitet werden, um eine Vielzahl von Gesichtsschablonen zu erzeugen, wobei das Gesichtsmodell die Vielzahl von Gesichtsschablonen enthält. Das Gesichtsmodell wird mit bekannten Gesichtsmodellen verglichen (404).
In manchen Ausführungen kann das Gesichtsmodell mit öffentlich verfügbaren und zugänglichen Gesichtsmodellen verglichen werden, die dauerhaft in einer computerlesbaren Speichereinrichtung gespeichert sind. Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 öffentlich verfügbare Gesichtsmodelle über ein Netzwerk aus einer Datenbank abrufen. In manchen Ausführungen, und wie oben detaillierter erörtert, können ein oder mehrere bekannte Gesichtsmodelle im Flug zu Zwecken von Gesichtserkennung erzeugt werden und können nachfolgend gelöscht werden, so dass sie nicht dauerhaft gespeichert werden. Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 öffentlich verfügbare Bilder und/oder Videos abrufen, die bekannten Einzelpersonen entsprechen, und kann die Bilder und/oder Videos verarbeiten, um ein temporäres Gesichtsmodell für Vergleichszwecke zu erzeugen. Nach Verwendung des temporären Gesichtsmodells kann das temporäre Gesichtsmodell vom Speicher gelöscht werden. In manchen Ausführungen, und wie oben erörtert, können die bekannten Gesichtsmodelle einem oder mehreren direkten Kontakten und/oder einem oder mehreren indirekten Kontakten des Autors des Videos in einem Sozialnetzwerkdienst entsprechen.
Es wird ermittelt, ob das Gesichtsmodell zu einem bekannten Gesichtsmodell passt (406). Zum Beispiel, und wie oben im Detail erörtert, kann eine Vielzahl von Konfidenzpunktwerten erzeugt werden, wobei jeder Konfidenzpunktwert einem Vergleich zwischen dem Gesichtsmodell und einem bekannten Gesichtsmodell einer Vielzahl von bekannten Gesichtsmodellen entspricht. Eine Übereinstimmung zwischen dem Gesichtsmodell und einem bekannten Gesichtsmodell kann auf Basis der Konfidenzpunktwerte ermittelt werden, wie oben im Detail erörtert. Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 auf Basis eines entsprechenden Konfidenzpunktwerts ermitteln, ob das Gesichtsmodell zu einem bekannten Gesichtsmodell passt.
Wenn das Gesichtsmodell nicht zu einem bekannten Gesichtsmodell passt, wird ein generischer Identifizierer für ein Bookmark vorgesehen (408). Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 ermitteln, dass das Gesichtsmodell nicht zu einem bekannten Gesichtsmodell passt, und kann einen generischen Identifizierer (z. B. Person A, Person B) für ein oder mehrere entsprechende Bookmarks (z. B. die Bookmarks 228, 230) erzeugen. Wenn das Gesichtsmodell zu einem bekannten Gesichtsmodell passt, wird ein spezifischer Identifizierer für ein Bookmark vorgesehen (410). Zum Beispiel kann das Videoverarbeitungssystem 204 von 2 ermitteln, dass das Gesichtsmodell zu einem bekannten Gesichtsmodell passt, und kann einen spezifischen Identifizierer (z. B. Bob, Claire) für ein oder mehrere entsprechende Bookmarks (z. B. die Bookmarks 228, 230) erzeugen. Der spezifische Identifizierer kann auf Basis von Identitätsdaten erzeugt werden, die dem passenden bekannten Gesichtsmodell entsprechen.
5 zeigt einen Beispiel-Sozialgraphen 500. Der Beispiel-Sozialgraph 500 entspricht einem unter Verwendung eines Knotens 502 identifizierten Benutzer (”Alice”). Der Sozialgraph 500 kann auf Basis von Alices Benutzung eines Computer-implementierten Sozialnetzwerkdienstes ermittelt werden. Zum Beispiel kann Alice ein Profil in dem Sozialnetzwerkdienst erzeugen und kann das Profil digital den Profilen von anderen Benutzern des Sozialnetzwerkdienst zuordnen. Alice kann Videos hochladen, die unter Verwendung des Sozialnetzwerkdienstes veröffentlicht werden können. In dem Beispiel-Sozialgraphen 500 von 5 umfassen andere Benutzer des Sozialnetzwerkdienstes den Benutzer (”Bob”), der durch einen Knoten 504 identifiziert wird, den Benutzer (”Claire”), der durch einen Knoten 506 identifiziert wird, den Benutzer (”David”), der durch einen Knoten 508 identifiziert wird, und den Benutzer (”Zach”), der durch einen Knoten 513 identifiziert wird. Bob und David sind beide Kontakte von Alice in dem Sozialnetzwerkdienst, wie durch Kanten 509, 511 angezeigt. Zum Beispiel hat Alice früher Bob und David als Kontakte in dem Sozialnetzwerkdienst genehmigt, so dass von Alice bereitgestellte oder hochgeladene Informationen und/oder Videos automatisch mit Bob und David geteilt werden.
In dem Beispiel-Sozialgraphen 500 von 5 ist Claire kein Kontakt von Alice in dem Sozialnetzwerkdienst. Stattdessen kann Claire ein anderer Benutzer des Sozialnetzwerkdienstes, der begrenzten Zugang zu den von Alice bereitgestellten Informationen oder Postings hat. Zum Beispiel ist Claire ein Kontakt von Bob in dem Sozialnetzwerkdienst. Folglich ist Claire möglicherweise imstande, über Bob von Alice veröffentlichte Informationen abzurufen, je nach den von Alice festgelegten Privatsphäre-Einstellungen. Zach ist ein Kontakt von David, wie durch die Kante 515 angezeigt, ist aber kein Kontakt von Alice.
In dem Beispiel-Sozialgraphen 500 von 5 lädt Alice ein Video 510 für Veröffentlichung unter Verwendung des Sozialnetzwerkdienstes hoch. Das Video 510 kann verarbeitet werden, um Gesichter zu entdecken und um entdeckte Gesichter auf Basis von Alices Kontakten in dem Sozialnetzwerkdienst zu erkennen, wie hierin erörtert. In dem Beispiel von 5 sind sowohl David als auch Zach als in dem Video 510 erkannt dargestellt. In manchen Ausführungen kann das Video 510 eine Privatsphäre-Einstellung enthalten, eingestellt von Alice als derjenigen, die das Video hochgeladen hat, die es einem beliebigen Benutzer des Sozialnetzwerkdienstes ermöglicht, das Video 510 zu sehen und zu kommentieren. Auf diese Weise ist sowohl Bob, der ein Kontakt von Alice ist, als auch Claire, die kein Kontakt von Alice ist, möglicherweise imstande, das Video 510 zu sehen und zu kommentieren. In manchen Ausführungen ist Alice imstande, eine Privatsphäre-Einstellung eines Videos so festzulegen, dass nur Kontakte von Alice in dem Sozialnetzwerkdienst oder eine Teilmenge von Kontakten von Alice in dem Sozialnetzwerkdienst imstande sind, das Video zu sehen und zu kommentieren.
David kann in dem Video 510 erkannt werden, indem Gesichtsmodelle von in dem Video entdeckten Gesichtern mit Gesichtsmodellen von Alices Kontakten in dem Sozialnetzwerkdienst verglichen werden. Folglich können Gesichtsmodelle von Bob und David mit Gesichtsmodellen verglichen werden, die den in dem Video 510 entdeckten Gesichtern entsprechen, und es kann ermittelt werden, dass David mit genug Konfidenz mit einer in dem Video 510 entdeckten Person übereinstimmt, um ein Bookmark für David in dem Video 510 bereitzustellen. Zach kann in dem Video 510 erkannt werden, indem Gesichtsmodelle von Davids Kontakten verglichen werden, da David als in dem Video 510 vorkommend ermittelt worden ist.
In manchen Ausführungen kann eine Privatsphäre-Einstellung eines Benutzers in dem Sozialnetzwerkdienst durch den Benutzer eingestellt werden, sich dafür oder dagegen zu entscheiden, in einem Video erkannt zu werden, das unter Verwendung des Sozialnetzwerkdienste veröffentlicht wird. Zum Beispiel, obwohl Zach in dem von Alice hochgeladenen Video 510 erkannt werden könnte, können Zachs Privatsphäre-Einstellungen so eingestellt sein, dass Gesichtserkennung unter Verwendung von Bildern und/oder Videos, die Zach entsprechen, nicht erlaubt ist. Folglich wird kein Bookmark erzeugt, das Identitätsinformationen enthält, die Zach entsprechen. Alternativ könnte ein anonymes Bookmark mit einem generischen Identifizierer (z. B. Person A, Person B) erzeugt werden, um anzuzeigen, dass ein Gesicht erkannt worden ist (z. B. Zachs Gesicht), aber keinerlei Identitätsinformationen bereitzustellen.
Ausführungen der vorliegenden Offenbarung und sämtliche hierin bereitgestellten funktionellen Operationen können in digitalen elektronischen Schaltkreisen oder in Computersoftware, Firmware oder Hardware realisiert werden, einschließlich der in dieser Beschreibung offenbarten Strukturen und deren struktureller Äquivalente, oder in Kombination mit einem oder mehreren davon. Ausführungen der vorliegenden Offenbarung können als ein oder mehrere Computerprogrammerzeugnisse realisiert werden, d. h. ein oder mehrere Module von Computerprogrammanweisungen, codiert auf einem computerlesbaren Medium für Ausführung durch oder zum Steuern des Betriebs einer Datenverarbeitungsvorrichtung. Das computerlesbare Medium kann ein maschinenlesbares Substrat, eine Speichereinrichtung, eine Stoffzusammensetzung, die ein maschinenlesbar fortgepflanztes Signal bewirkt, oder eine Kombination von einem oder mehreren davon sein. Der Ausdruck ”Datenverarbeitungsvorrichtung” umschließt alle Vorrichtungen, Einrichtungen und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise eines programmierbaren Prozessors, eines Computers oder Mehrfach-Prozessoren oder -Computern. Zusätzlich zu Hardware kann die Vorrichtung Code enthalten, der eine Ausführungsumgebung für das betreffende Computerprogramm erzeugt, z. B. Code, der Prozessor-Firmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem oder eine Kombination von einem oder mehreren davon bildet.
Ein Computerprogramm (auch als Programm, Software, Softwareanwendung, Script oder Code bekannt) kann in einer beliebigen Form von Programmiersprache geschrieben sein, einschließlich kompilierter oder interpretierter Sprachen, und es kann in einer beliebigen Form entfaltet werden, einschließlich als ein alleinstehendes Programm oder als ein Modul, eine Komponente, eine Unterroutine oder andere Einheit, die für Verwendung in einer Computerumgebung geeignet ist. Ein Computerprogramm muss nicht notwendigerweise einer Datei in einem Dateisystem entsprechen. Ein Programm kann in einem Teil einer Datei gespeichert sein, die andere Programme oder Daten innehat (z. B. ein oder mehrere Scripte, die in einer Textauszeichnungssprache gespeichert sind), in einer dedizierten Einzeldatei für das betreffende Programm oder in mehreren koordinierten Dateien (z. B. Dateien, die ein oder mehrere Module, Unterprogramme oder Teile von Code speichern). Ein Computerprogramm kann entfaltet werden, auf einem Computer oder auf mehreren Computern ausgeführt zu werden, die sich an einem Ort befinden oder über mehrere Orte verteilt und durch ein Kommunikationsnetz verbunden sind.
Die in dieser Offenbarung beschriebenen Prozesse und logischen Flüsse können mittels eines oder mehrerer Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Funktionen durch Handhaben von Eingangsdaten und Erzeugen von Ausgabe durchführen. Die Prozesse und logischen Flüsse können auch mittels Spezialzweck-Logikschaltkreisen, z. B. eines FPGA (Field Programmable Gate Array) eines ASIC (Application Specific Integrated Circuit) durchgeführt werden.
Prozessoren, die für die Ausführung eines Computerprogramms geeignet sind, umfassen beispielsweise sowohl Mehrzweck- als auch Spezialzweck-Mikroprozessoren und irgendeinen oder mehrere Prozessoren irgendeiner Art von Digitalcomputer. Im Allgemeinen wird ein Prozessor Anweisungen und Daten von einem Nur-Lese-Speicher oder Direktzugriffsspeicher oder beiden empfangen. Elemente eines Computers können einen Prozessor zum Ausführen von Anweisungen und eine oder mehrere Speichereinrichtungen zum Speichern von Anweisungen und Daten enthalten. Im Allgemeinen wird ein Computer auch eine oder mehrere Massenspeichereinrichtungen zum Speichern von Daten, z. B. magnetische, magnetooptische Platten oder optische Platten, enthalten oder operativ verbunden sein, um Daten davon oder dahin zu übertragen, oder beides. Doch muss ein Computer solche Einrichtungen nicht besitzen. Überdies kann ein Computer in eine andere Einrichtung eingebettet sein, z. B. ein Mobiltelefon, ein persönlicher digitaler Assistent (PDA), ein mobiles Audioabspielgerät, einen GPS (Global Positioning System) Empfänger, um nur ein Paar zu nennen. Computerlesbare Medien, die zum Speichern von Computerprogrammanweisungen und -daten geeignet sind, umfassen alle Formen von nichtflüchtigen Speichern, Medien und Speichereinrichtungen, einschließlich beispielsweise Halbleiterspeichereinrichtungen, z. B. EPROM, EEPROM, und Flash-Speichereinrichtungen; Magnetplatten z. B. interne Festplatten oder entfernbare Platten; magnetooptische Platten; und CD ROM und DVD-ROM Platten. Der Prozessor und der Speicher können durch Spezialzweck-Logikschaltkreise ergänzt oder darin eingegliedert werden.
Um Interaktion mit einem Benutzer zu ermöglichen, können Ausführungen der vorliegenden Offenbarung auf einem Computer ausgeführt werden, der eine Anzeigeeinrichtung, z. B. einen Monitor mit CRT (Kathodenstrahlröhre) oder LCD (Flüssigkristallanzeige), um dem Benutzer Informationen darzustellen, und eine Tastatur und eine Zeigeeinrichtung, z. B. eine Maus oder einen Trackball, womit der Benutzer Eingaben in den Computer tätigen kann, aufweist. Es können auch andere Arten von Einrichtungen benutzt werden, um Interaktion mit einem Benutzer zu ermöglichen; zum Beispiel kann eine dem Benutzer gegebene Rückmeldung eine beliebige Form von sensorischer Rückmeldung sein, z. B. visuelle Rückmeldung, auditive Rückmeldung oder taktile Rückmeldung; und Eingaben vom Benutzer können in einer beliebigen Form empfangen werden, einschließlich akustischen, sprachlichen oder taktilen Eingaben.
Das Computersystem kann Clients und Server enthalten. Ein Client und ein Server sind im Allgemeinen voneinander entfernt und interagieren typischerweise durch ein Kommunikationsnetz. Die Beziehung von Client und ein Server entsteht aufgrund von Computerprogrammen, die auf den jeweiligen Computern laufen und eine Client-Server-Beziehung zueinander haben.
Obwohl diese Offenbarung einige Einzelheiten enthält, sind diese nicht als Beschränkungen des Schutzbereichs der Offenbarung oder dessen, was beansprucht werden mag, anzusehen, sondern vielmehr als Beschreibungen von Merkmalen von Ausführungsbeispielen der Offenbarung. Bestimmte Merkmale, die in dieser Offenbarung im Kontext von separaten Ausführungen beschrieben sind, können auch in Kombination in einer einzigen Ausführung vorgesehen sein. Umgekehrt können verschiedene Merkmale, die im Kontext einer einzigen Ausführung beschrieben sind, auch in mehreren Ausführungen separat oder in irgendeiner geeigneten Unterkombination vorgesehen sein. Überdies, obwohl Merkmale oben möglicherweise als in bestimmten Kombinationen wirkend beschrieben sind oder sogar anfänglich als solche beansprucht sind, können ein oder mehrere Merkmale aus einer beanspruchten Kombination in manchen Fällen aus der Kombination herausgeschnitten werden, und die beanspruchte Kombination kann möglicherweise auf eine Unterkombination oder eine Variante einer Unterkombination gerichtet werden.
Ähnlich, obwohl Operationen in den Zeichnungen in einer bestimmten Reihenfolge gezeigt sind, ist dies nicht so zu verstehen, dass solche Betriebsabläufe in der gezeigten bestimmten Reihenfolge oder in aufeinander folgender Reihenfolge durchgeführt werden oder dass sämtliche dargestellten Betriebsabläufe durchgeführt werden, um wünschenswerte Ergebnisse zu erzielen. Überdies ist die Trennung von verschiedenen Systemkomponenten in den oben beschriebenen Ausführungen nicht als die Trennung in allen Ausführungen erfordernd zu verstehen, und selbstverständlich können die beschriebenen Programmkomponenten und -systeme in einem einzigen Softwareerzeugnis miteinander integriert oder in mehrere Softwareerzeugnisse gepackt werden.
Somit sind bestimmte Ausführungen der vorliegenden Offenbarung beschrieben worden. Andere Ausführungen liegen im Schutzbereich der folgenden Patentansprüche. zum Beispiel können die in den Patentansprüchen rezitierten Aktionen in einer anderen Reihenfolge durchgeführt werden und dennoch wünschenswerte Ergebnisse zu Stande bringen. Es ist eine Anzahl von Ausführungen beschrieben worden. Nichtsdestoweniger können selbstverständlich verschiedene Modifizierungen vorgenommen werden, ohne den Geist und Schutzbereich der Offenbarung zu verlassen. Zum Beispiel können verschiedene Formen der oben gezeigten Abläufe benutzt werden, mit neu geordneten, hinzugefügten oder entfernten Schritten. Dementsprechend liegen andere Ausführungen im Schutzbereich der folgenden Patentansprüche.

Claims

System, umfassend: eine Datenverarbeitungsvorrichtung; und ein Computerspeichermedium, das mit einem Computerprogramm codiert ist, wobei das Programm Anweisungen umfasst, die, wenn durch die Datenverarbeitungsvorrichtung ausgeführt, bewirken, dass die Datenverarbeitungsvorrichtung Operationen durchführt, die umfassen: ein digitales Video zu empfangen, das Videodaten umfasst; die Videodaten zu verarbeiten, um Merkmale zu entdecken, die auf ein menschliches Gesicht in dem digitalen Video hinweisen; aus den Videodaten ein erstes Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; erste Zeitstempeldaten entsprechend dem ersten Einzelbild zu ermitteln; aus den Videodaten ein zweites Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; zweite Zeitstempeldaten entsprechend dem zweiten Einzelbild zu ermitteln; einen Identifizierer entsprechend dem menschlichen Gesicht zu erzeugen; einen Datensatz zu erzeugen, der den Identifizierer, die ersten Zeitstempeldaten und die zweiten Zeitstempeldaten umfasst; und den Datensatz an die Videodaten anzufügen, um annotierte Videodaten bereitzustellen.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen: die Videodaten zu verarbeiten, um die Merkmale, die auf das menschliche Gesicht in dem digitalen Video hinweisen, einer bestimmten Person zuzuordnen; und Identitätsdaten zu ermitteln, die der bestimmten Person zugeordnet sind, wobei der Identifizierer auf Basis der Identitätsdaten erzeugt wird.
System nach Anspruch 1, wobei das Verarbeiten der Videodaten zum Entdecken von Merkmalen, die auf ein menschliches Gesicht hinweisen, umfasst, ein oder mehrere Einzelbilder des digitalen Videos als ein Bild zu verarbeiten, wobei jedes Bild unter Verwendung von Gesichtsentdeckungstechniken verarbeitet wird.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen, ein annotiertes Video auf Basis der annotierten Videodaten anzuzeigen, wobei das annotierte Video ein Bookmark entsprechend dem Datensatz umfasst.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen: eine Benutzereingabe auf Basis des Bookmarks zu empfangen; und ein dargestelltes Einzelbild in dem digitalen Video als Antwort auf die Benutzereingabe zu dem ersten Einzelbild vorzurücken.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen: eine erste Position der Merkmale, die auf das menschliche Gesicht in dem ersten Einzelbild hinweisen, mit einer zweiten Position von Merkmalen, die auf ein zweites menschliches Gesicht in dem zweiten Einzelbild hinweisen, zu vergleichen; und auf Basis der ersten Position und der zweiten Position zu ermitteln, dass die Merkmale, die auf das zweite menschliche Gesicht hinweisen, den Merkmalen entsprechen, die auf das menschliche Gesicht hinweisen.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen: ein Gesichtsmodell des menschlichen Gesichts zu erzeugen; und das Gesichtsmodell mit bekannten Gesichtsmodellen zu vergleichen.
System nach Anspruch 7, wobei das Erzeugen des Gesichtsmodells des menschlichen Gesichts umfasst, eine Vielzahl von Gesichtsschablonen zu erzeugen, wobei jede Gesichtsschablone einem Einzelbild in den Videodaten entspricht, in dem das menschliche Gesicht entdeckt wird, wobei das Gesichtsmodell die Vielzahl von Gesichtsschablonen umfasst.
System nach Anspruch 7, wobei jedes der bekannten Gesichtsmodelle einem Benutzer eines Sozialnetzwerkdienstes entspricht.
System nach Anspruch 7, wobei die Operationen weiterhin umfassen, ein bekanntes Gesichtsmodell auf Basis von einer oder mehreren von einer Vielzahl von Gesichtsschablonen des Gesichtsmodells zu aktualisieren.
System nach Anspruch 7, wobei die bekannten Gesichtsmodelle jeweils nach Empfang des digitalen Videos erzeugt werden.
System nach Anspruch 7, wobei die bekannten Gesichtsmodelle nach dem Vergleichen von computerlesbarem Speicher gelöscht werden.
System nach Anspruch 7, wobei die bekannten Gesichtsmodelle von einer Dauerspeichereinrichtung abgerufen werden, die eine Datenbank von bekannten Gesichtsmodellen elektronisch speichert.
System nach Anspruch 7, wobei das Vergleichen der Gesichtsmodelle umfasst, jede Gesichtsschablone des Gesichtsmodells mit Gesichtsschablonen jedes der bekannten Gesichtsmodelle zu vergleichen.
System nach Anspruch 7, wobei die Operationen weiterhin umfassen: einen Konfidenzpunktwert zwischen dem Gesichtsmodell und einem bekannten Gesichtsmodell auf Basis von Vergleichen des Gesichtsmodells mit bekannten Gesichtsmodellen zu erzeugen; den Konfidenzpunktwert mit einem Schwellen-Konfidenzpunktwert zu vergleichen; und anzuzeigen, dass das Gesichtsmodell dem bekannten Gesichtsmodell entspricht, wenn der Konfidenzpunktwert größer als der Schwellen-Konfidenzpunktwert ist.
System nach Anspruch 7, wobei die Operationen weiterhin umfassen: Identitätsdaten entsprechend dem bekannten Gesichtsmodell zu ermitteln; das Gesichtsmodell den Identitätsdaten zuzuordnen; und die Identitätsdaten an den Datensatz anzufügen.
System nach Anspruch 16, wobei die Operationen weiterhin umfassen, das Gesichtsmodell als ein bekanntes Gesichtsmodell zu speichern.
System nach Anspruch 1, wobei die Operationen weiterhin umfassen, eine Benutzereingabe zu empfangen, wobei die Benutzereingabe eine dem menschlichen Gesicht zugeordnete Identität anzeigt, wobei der Identifizierer der Identität entspricht.
Computerlesbares Medium, das mit einem oder mehreren Prozessoren verbunden ist und auf dem Anweisungen gespeichert sind, die, wenn durch den einen oder die mehreren Prozessoren ausgeführt, bewirken, dass der eine oder die mehreren Prozessoren Operationen durchführt, die umfassen: ein digitales Video zu empfangen, das Videodaten umfasst; die Videodaten zu verarbeiten, um Merkmale zu entdecken, die auf ein menschliches Gesicht in dem digitalen Video hinweisen; aus den Videodaten ein erstes Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; erste Zeitstempeldaten entsprechend dem ersten Einzelbild zu ermitteln; aus den Videodaten ein zweites Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; zweite Zeitstempeldaten entsprechend dem zweiten Einzelbild zu ermitteln; einen Identifizierer entsprechend dem menschlichen Gesicht zu erzeugen; einen Datensatz zu erzeugen, der den Identifizierer, die ersten Zeitstempeldaten und die zweiten Zeitstempeldaten umfasst; und den Datensatz an die Videodaten anzufügen, um annotierte Videodaten bereitzustellen.
Computer-implementiertes Verfahren, umfassend: ein digitales Video zu empfangen, das Videodaten umfasst; die Videodaten zu verarbeiten, um Merkmale zu entdecken, die auf ein menschliches Gesicht in dem digitalen Video hinweisen; aus den Videodaten ein erstes Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; erste Zeitstempeldaten entsprechend dem ersten Einzelbild zu ermitteln; aus den Videodaten ein zweites Einzelbild zu ermitteln, in dem die auf das menschliche Gesicht hinweisenden Merkmale in dem digitalen Video entdeckt werden; zweite Zeitstempeldaten entsprechend dem zweiten Einzelbild zu ermitteln; einen Identifizierer entsprechend dem menschlichen Gesicht zu erzeugen; einen Datensatz zu erzeugen, der den Identifizierer, die ersten Zeitstempeldaten und die zweiten Zeitstempeldaten umfasst; und den Datensatz an die Videodaten anzufügen, um annotierte Videodaten bereitzustellen.