CN101300588A

CN101300588A - 确定收集中的特定人的方法

Info

Publication number: CN101300588A
Application number: CNA2006800409337A
Authority: CN
Inventors: A·C·加拉赫尔; M·达斯; A·C·路易
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2005-10-31
Filing date: 2006-10-27
Publication date: 2008-11-05
Also published as: KR20080060265A; JP2009514107A; EP1955256A1; WO2007053458A1; US20070098303A1

Abstract

一种识别数字图像收集中的特定的人的方法，其中该数字图像收集中的至少一个图像包括多于一个的人，该方法包括为包含特定的人和至少一个其他人的该数字图像收集中的第一图像提供至少一个第一标记；其中该第一标记标识该特定的人，以及为数字图像收集中的第二图像提供识别该特定的人的第二标记；使用第一和第二标记识别该特定的人；从第一图像或第二图像或两者确定与该特定的人有关的特征；以及使用这种特定的特征识别数字图像收集中认为包含该特定的人的另一图像。

Description

确定收集中的特定人的方法

技术领域

本发明一般地涉及图像处理领域。更具体地，本发明涉及基于所捕捉的图像的消失点的对应位置估计和校正图像捕捉时发生的无意的旋转照相镜头视角。此外，本发明涉及在数字照相机中执行这种图像处理。

本发明涉及确定感兴趣的对象或人是否在数字图像收集的特定图像中。

背景技术

随着数字摄影的到来，消费者正收集大量的数字图像和视频集。每个照相者用数字照相机拍摄的图像的平均数量每年都在增加。结果，对于典型的消费者，图像和视频的组织和检索已经成为一个问题。目前，典型的消费者的数字图像收集所跨越的时间长度仅为几年。随着平均数字图像和视频收集所跨越的时间长度的增加，组织和检索问题将继续加剧。

用户希望找到包含特定的感兴趣的人的图像和视频。用户可以进行人工搜索以找到包含感兴趣的人的图像和视频。然而，这是缓慢、费力的过程。即使一些商业软件(例如Adobe Album)允许用户用指示图像中的人的标记给图像做标签，这样以后可以进行搜索，但是最初的做标记过程仍非常乏味并且耗时。

脸部识别软件假定存在一组底实况标记的(ground-truth labeled)图像(即具有对应的人物身份的一组图像)。大多数消费者图像收集没有类似的一组底实况。此外，对图像中的脸部作标记是复杂的，因为许多消费者图像具有多个人物。因此简单地用图像中人的身份标记图像并没有指示图像中的哪个人与哪个身份相关联。

存在许多图像处理包，为了安全或其他目的而试图识别人。一些实例是Cognitec Systems GmbH的FaceVACS脸部识别软件和ImagisTechnologies Inc.和Identix Inc.的Facial Recognition SDK。这些包主要打算用于安全类型的应用，其中人在均匀照明下、正面姿势以及没有表情时面向照相机。由于在个人消费者图像领域的图像中所遇到的姿势、照明、表情和脸部尺寸的很大变化，这些方法不适用于这个领域。

发明内容

本发明的目的在于在数字图像收集中的图像或视频中容易地识别感兴趣的人或物。这个目的是通过识别数字图像收集中的特定人的方法来实现的，其中数字图像收集中的至少其中一个图像包含多于一个人，该方法包括：

(a)为包含特定的人和至少一个其他人的数字图像收集中的第一图像提供至少一个第一标记；其中该第一标记标识该特定的人，以及为数字图像收集中的第二图像提供标识该特定的人的第二标记；

(b)使用第一和第二标记识别该特定的人；

(c)从第一图像或第二图像或两者确定与该特定的人有关的特征；以及

(d)使用这种特定的特征识别数字图像收集中认为包含该特定的人的另一个图像。

该方法具有允许用户以容易使用的界面找到感兴趣的人的优点。此外，该方法具有自动地用与感兴趣的人相关联的标记来标记图像，并且允许用户检查这些标记的优点。

附图说明

参考附图中示出的实施例来描述本发明的主题。

图1是可以实施本发明的基于照相电话的成像系统的框图；

图2是用于在数字图像收集中找到感兴趣的人的本发明的实施例的流程图；

图3是用于在数字图像收集中找到感兴趣的人的本发明的实施例的流程图；

图4示出了用于起动对感兴趣的人的搜索的一组代表性图像；

图5示出了作为对感兴趣的人的搜索的结果显示给用户的代表性的图像子集；

图6示出了在用户已经去除了不包含感兴趣的人的图像之后显示给用户的图像子集；

图7是用于在数字图像收集中找到感兴趣的人的本发明的另一实施例的流程图；

图8示出了图像和相关联的标记；

图9示出了作为对感兴趣的人的搜索的结果显示给用户的图像的代表性子集；

图10示出了在用户已经去除了不包含感兴趣的人的图像之后显示给用户的图像和标记的子集；

图11示出了图2中的特征提取器的更详细视图；

图12A示出了图2中的人物检测器的更详细视图；

图12B是图像捕捉时间的差异与在一个图像中出现的人也在第二图像中出现的概率的关系的曲线图；

图12C是作为图像捕捉时间的差异的函数的脸部尺寸比率的关系的曲线图；

图12D是由图2的特征提取器从脸部中提取的特征点的表示；

图12E是脸部区域、衣服区域和背景区域的表示；

图12F是各种脸部特征区域的表示；

图13示出了图2的人寻找器的更详细视图；

图14示出了15个脸部的局部特征，脸部的实际身份和脸部的可能身份的标示图；以及

图15是用于找到数字图像收集中感兴趣的对象的本发明的实施例的流程图。

具体实施方式

在以下描述中，本发明的一些实施例将被描述为软件程序。本领域技术人员将容易认识到在本发明的范围内这种方法的等同物也可以被构造为硬件或软件。

因为图像处理算法和系统是众所周知的，所以本描述将特别针对形成根据本发明的方法的一部分或更直接地与其协作的算法和系统。没有在这里具体示出或描述的这些算法和系统的其他方面以及用于产生和以其他方式处理其中所涉及的图像信号的硬件或软件可以选自本领域中已知的这些系统、算法、部件和元件。在给出如以下说明书中所呈现的描述的条件下，其所有软件实施方式都是常规的，并且在这些领域的普通技术之内。

图1是可以实施本发明的基于数字照相电话301的成像系统的框图。数字照相电话301是一种类型的数字照相机。优选地，数字照相电话301是便携式用电池做电源的设备，其足够小从而当捕捉和回顾图像时容易地由用户手持。数字照相电话301产生的数字图像用图像/数据存储器330来存储，该存储器330可以是例如内部闪存EPROM存储器或可移动存储卡。其他类型的数字图像存储介质诸如磁硬盘驱动器、磁带或光盘，可以可选地用于提供图像/数据存储器330。

数字照相电话301包括透镜305，其将来自场景(未示出)的光聚焦到CMOS图像传感器311的图像传感器阵列314上。图像传感器阵列314可以使用众所周知的Bayer滤色器格式(color filter pattern)提供彩色图像信息。图像传感器阵列314由定时发生器312控制，定时发生器312还控制闪光灯303，以便当环境照明低时照亮场景。图像传感器阵列314可以具有例如1280列×960行像素。

在一些实施例中，数字照相电话301还可以通过将图像传感器阵列314的多个像素加在一起(例如对图像传感器阵列314的每4列×4行的区域内的相同色彩的像素求和)以产生较低分辨率的视频图像帧，来存储视频片段。每隔一定间隔从图像传感器阵列314读取视频图像帧，例如使用每秒24帧的读出速率。

来自图像传感器阵列314的模拟输出信号被放大并由CMOS图像传感器311上的模数(A/D)转换器电路316转换为数字数据。将该数字数据存储在DRAM缓冲存储器318中并且随后由数字处理器320处理，数字处理器320由存储在固件存储器328中的固件控制，该固件存储器328可以是闪存EPROM存储器。数字处理器320包括实时时钟324，即使当数字照相电话301和数字处理器320处在它们的低电源状态时，该实时时钟324也保持日期和时间。

经过处理的数字图像文件存储在图像/数据存储器330中。图像/数据存储器330也可以用于存储用户的个人日程信息，如稍后将参考图11所描述的。图像/数据存储器还可以存储其他类型的数据，诸如电话号码、待办事项列表等。

在静止图像模式，数字处理器320执行色彩插值，继之以色彩和色调校正，以便产生着色的sRGB图像数据。数字处理器320也可以提供由用户选择的各种图像大小。着色的sRGB图像数据然后被JPEG压缩并作为JPEG图像文件存储在图像/数据存储器330中。JPEG文件使用之前描述的所谓“Exif”图像格式。该格式包括使用各种TIFF标签存储特定图像元数据的Exif应用程序块。单独的TIFF标签可以用于例如存储拍摄照片的日期和时间，透镜f值，以及其他照相机设置，并且存储图像标题。特别地，图像描述(lmage Description)标签可以用于存储标记。实时时钟324提供捕捉日期/时间值，作为日期/时间元数据存储在每个Exif图像文件中。

位置确定器325提供与图像捕捉相关联的地理位置。该位置优选地以纬度和经度的单位存储。注意位置确定器325可能会确定在与图像捕捉时间稍微不同的时间点的地理位置。在该情况下，位置确定器325可以使用来自最接近的时间点的地理位置作为与该图像相关联的地理位置。可选地，位置确定器325可以在图像捕捉时间之前和/或之后的多个时间点的多个地理位置之间进行插值以确定与图像捕捉相关联的地理位置。插值可以是被需要的，因为位置确定器325并不总是能够确定地理位置。例如，GPS接收机在室内时常常不能检测信号。在该情况下，最后的成功地理位置(即在进入建筑物之前)可以由位置确定器325用来估计与特定的图像捕捉相关联的地理位置。位置确定器325可以使用许多方法的任意一种来确定图像的位置。例如，可以通过从众所周知的全球定位卫星(GPS)接收通信来确定地理位置。

数字处理器320还产生低分辨率的“缩略图(thumbnail)”尺寸的图像，其可以如共同受让的Kuchta等的美国专利No.5164831中描述的那样产生，该专利的公开内容通过引用而结合在这里。缩略图图像可以存储在RAM存储器322中并且提供给彩色显示器332，该彩色显示器332可以是例如有源矩阵LCD或有机发光二极管(OLED)。在捕捉图像之后，可以通过使用缩略图图像数据快速地在彩色LCD图像显示器332上回顾图像。

在彩色显示器332上显示的图形用户界面由用户控制334控制。用户控制334可以包括专用的按钮(例如电话键盘)以拨打电话号码、设定模式(例如“电话”模式、“照相机”模式)的控制，包括四方向控制(上、下、左、右)的操纵杆控制器以及按钮中心“OK”开关等。

连接到数字处理器320的音频编解码器340从麦克风342接收音频信号并且提供音频信号给扬声器344。这些部件可以用于电话交谈以及记录和回放音轨以及视频序列或静止图像。扬声器344还可以用于通知用户来电。这可以使用固件存储器328中存储的标准响铃音来完成，或者通过使用从移动电话网络358下载并存储在图像/数据存储器330中的定制响铃音来完成。此外，可以使用振动器件(未示出)提供来电的静音(例如听不到的)通知。

坞站接口(dock interface)362可以用于将数字照相电话301连接到坞站/充电器364，该坞站/充电器364连接到通用控制计算机40。坞站接口362可以符合例如众所周知的USB接口规范。可选地，数字照相机301和通用控制计算机40之间的接口可以是无线接口，诸如众所周知的蓝牙无线接口或众所周知的802.11b无线接口。坞站接口362可以用于从图像/数据存储器330下载图像到通用控制计算机40。坞站接口362还可以用于将日程信息从通用控制计算机40传输到数字照相电话301中的图像/数据存储器。坞站/充电器364还可以用于对数字照相电话301中的电池(未示出)进行再充电。

数字处理器320耦合到无线调制解调器350，该无线调制解调器350使得数字照相电话301能够经由RF信道352发送和接收信息。无线调制解调器350在射频(例如无线)链路上与诸如3GSM网络的移动电话网络358通信。移动电话网络358与相片服务提供商372通信，该相片服务提供商372可以存储从数字照相电话301上传的数字图像。这些图像可以由包括通用控制计算机40的其他设备经由因特网370访问。移动电话网络358还连接到标准电话网络(未示出)以便提供常规的电话服务。

图2中示出了本发明的实施例。人物发现器108搜索包含人的数字图像收集102以便找到感兴趣的人。数字图像收集子集112是来自数字图像收集102的、认为包含感兴趣的人的图像的集合。数字图像收集102包括图像和视频。为了方便起见，术语“图像”指称单个图像和视频两者。视频是具有伴随的音频以及有时候是文本的图像的收集。数字图像收集子集112显示在显示器332上供人用户回顾。

对感兴趣的人的搜索是由用户如下地发起的：数字图像收集102的图像或视频显示在显示器332上并由用户观看。该用户用标记器104为一个或多个图像建立一个或多个标记。特征提取器106从数字图像收集中提取与来自标记器104的标记相关联的特征。该特征与标记相关联地存储在数据库114中。人物检测器110可以可选地用于在做标记和特征提取中提供帮助。当数字图像收集子集112显示在显示器332上时，用户可以回顾结果并进一步给显示的图像做标记。

来自标记器104的标记指示特定的图像或视频包含感兴趣的人，并且包括以下内容的至少其中之一：

(1)图像或视频中感兴趣的人的名字。人的名字可以是教名或昵称。

(2)与感兴趣的人相关联的标识符，诸如文本串或标识符，诸如“人物A”或“人物B”。

(3)图像或视频内感兴趣的人的位置。优选地，感兴趣的人的位置由感兴趣的人的眼睛的坐标(例如行和列的像素地址)(以及在视频情况下相关的帧编号)来指定。可选地，感兴趣的人的位置可以由包围感兴趣的人的身体或脸部的框的坐标来指定。作为又一个可选方案，感兴趣的人的位置可以由表示包含在感兴趣的人之内的位置的坐标来指定。用户可以通过例如使用鼠标点击眼睛的位置来指示感兴趣的人的位置。当人物检测器110检测到人时，可以通过例如在显示器332上圈住脸部来向用户突出显示该人的位置。然后用户可以为突出显示的人提供名字或标识符，从而将该人的位置与用户提供的标记相关联。当在图像中检测到多于一个人时，可以依次突出显示这些人的位置并且由用户为其中任何人提供标记。

(4)从图像收集搜索认为包含感兴趣的人的图像或视频的指示。

(5)不在该图像中的感兴趣的人的名字或标识符。

数字图像收集102包括具有超过一个人的至少一个图像。用户经由标记器104提供标记，指示该图像包括感兴趣的人。由特征提取器106确定与该感兴趣的人有关的特征，并且这些特征由人物发现器108用来识别收集中被认为包含感兴趣的人的其他图像。

注意与术语“标记”意义相同地使用术语“标签”、“标题”和“注释”。

图3是示出使用数字照相机识别认为包含感兴趣的人的图像的方法的流程图。本领域技术人员将认识到使用本发明的处理平台可以是照相机、个人计算机、通过诸如因特网之类的网络访问的远程计算机、打印机等。在该实施例中，用户选择包含感兴趣的人的几个图像或视频，并且系统从数字图像收集的子集确定和显示认为包含感兴趣的人的图像或视频。该显示的图像可以由用户回顾，并且用户可以指示显示的图像是否确实包含感兴趣的人。此外，用户可以验证或提供感兴趣的人的名字。最后，基于用户的输入，系统可以再次确定认为包含感兴趣的人的图像集。

在块202，在显示器332上显示图像。在块204，用户选择图像，其中每个图像包含感兴趣的人。被选择的图像中至少一个包含除了感兴趣的人之外的人。例如，图4示出了三个被选择的图像的集合，每个图像都包含感兴趣的人，并且其中一个图像包括两个人。在块206，用户经由标记器104提供标记，指示选择的图像包含感兴趣的人，并且将由人物发现器108搜索来自该图像收集的图像和视频以识别认为包含感兴趣的人的那些图像和视频。在块208，人物识别器访问存储在数据库114中的特征和相关联的标记，并确定认为包含感兴趣的人的图像和视频的数字图像收集子集112。在块210，数字图像收集子集112显示在显示器332上。例如，图5示出了数字图像收集子集112中的图像。该数字图像收集子集包括被标记的图像220，被正确地认为包含感兴趣的人的图像222，以及被不正确地认为包含感兴趣的人的图像224。这是目前的脸部检测和识别技术还不完善的本性的结果。在块212，用户回顾数字图像收集子集112并且可以指示数字图像收集子集112中每个图像的正确性。在块214，该正确性的用户指示可以用于经由标记器104提供额外的标记。例如，用户经由用户界面指示数字图像收集子集112的所有正确地认为包含感兴趣的人的图像和视频222确实包含感兴趣的人。然后如果已经由用户提供感兴趣的人的名字，用它标记该数字图像收集的每个图像和视频。如果用户还没有提供感兴趣的人的名字，在一些情况下可以由标记器104确定感兴趣的人的名字。对数字图像收集子集112的图像和视频进行检查查找具有指示感兴趣的人的名字的标记的那些以及人物检测器110确定只包含一个人的图像和视频。因为用户已经验证数字图像收集子集112的图像和视频确实包含感兴趣的人并且人物检测器110只发现单个人，所以标记器104推断相关联的标记中的人的名字是感兴趣的人的名字。如果人物检测器110是自动易误(error-prone)算法，那么如果多于一个的图像和视频具有包含人的名字的相关联的标记并且人物检测器110只发现一个人，而且相关联的标记中的人的名字不是一致的，标记器104可能需要实施表决机制。例如，如果数字图像收集子集112中有三个图像，每个图像都包含由人物检测器110检测的一个人，并且每个图像都具有包含人的名字的标记，名字是“Hannah”、“Hannah”和“Holly”，那么标记器104进行的表决机制确定该人的名字是“Hannah”。标记器104然后使用包含感兴趣的人的名字(例如“Hannah”)的标记来标记该数字图像收集子集112的图像和视频。用户可以经由显示器回顾由标记器104确定的感兴趣的人的名字。在用户指示数字图像收集子集112的图像和视频包含感兴趣的人后，消息“标记为Hannah？”出现，并且用户可以通过按下“是”来确认所确定的感兴趣的人的名字，或者通过按下“否”来为感兴趣的人输入不同的名字。如果标记器104不能确定感兴趣的人的名字，那么将当前不使用的标识符分配给感兴趣的人(例如“人物12”)，并且数字图像收集子集112的图像和视频由标记器104相应地标记。

可选地，标记器104可以为感兴趣的人确定几个候选标记。候选标记可以列表的形式显示给用户。该候选标记列表可以是在过去已经用过的标记的列表，或者对于当前特定的感兴趣的人的最可能的标记的列表。用户然后可以从列表中为感兴趣的人的选择希望的标记。

可选地，如果标记器104不能确定感兴趣的人的名字，可以通过在显示器332上显示消息“这是谁？”并允许用户输入感兴趣的人的名字来请求用户输入感兴趣的人的名字，然后标记器104可以使用该名字来标记数字图像收集子集112的图像和视频。

用户还可以经由用户界面指示数字图像收集子集112的不包含感兴趣的人的图像和视频的那些图像。然后从数字图像收集子集112中去除被指示的图像，并且可以如前所述标记剩余的图像。可以标记被指示的图像以指示它们不包含感兴趣的人，使得在对该相同的感兴趣的人的未来搜索中，不向用户显示明确标记为不包含感兴趣的人的图像。例如，图6示出了在去除了被不正确地认为包含感兴趣的人的图像之后的数字图像收集子集112。

图7是示出用于识别认为包含感兴趣的人的图像的另一方法的流程图。在这个实施例中，用户标记一个或多个图像或视频中的人，发起对感兴趣的人的搜索，并且系统从数字图像收集102的子集中确定并显示认为包含感兴趣的人的图像或视频。被显示的图像可以由用户回顾，并且用户可以指示被显示的图像是否确实含有感兴趣的人。此外，用户可以验证或提供感兴趣的人的名字。最后，基于来自用户的输入，该系统可以再次确定认为包含感兴趣的人的图像集。

在块202，在显示器332上显示图像。在块204，用户选择图像，其中每个图像包含感兴趣的人。被选择的图像中至少一个包含多于一个人。在块206，用户经由标记器104提供标记以标识在被选择的图像中的人。优选地，该标记不指示该图像或视频内的人的位置。优选地，该标记指示该被选择的图像或视频内的人或人们的名字。图8示出了两个被选择的图像以及指示这两个被选择的图像的每一个中的人们的名字的相关联的标记226。在块207，用户发起对感兴趣的人的搜索。该感兴趣的人是当标记被选择的图像中的人时已经用作标记的人的名字。例如，用户发起对“Jonah”的图像的搜索。在块208，人物识别器访问来自特征提取器106的特征以及存储在数据库114中的相关联的标记，并且确定认为包含感兴趣的人的图像和视频的数字图像收集子集112。在块210，该数字图像收集子集112被显示在显示器332上。图9示出该数字图像收集子集112包含被标记的图像220、被正确地认为包含感兴趣的人的图像222、以及被不正确地认为包含感兴趣的人的图像224。这是目前的脸部检测和识别技术还不完善的本性的结果。在块212，用户回顾该数字图像收集子集112，并且可以指示该数字图像收集子集112中每个图像的正确性。在块204，该正确性的用户指示用于经由标记器104提供额外的标记。例如，用户经由用户界面指示数字图像收集子集112的所有正确地认为包含感兴趣的人的图像和视频222确实包含感兴趣的人。用户还可以经由用户界面指示数字图像收集子集112的图像和视频中不包含感兴趣的人的那些图像。然后从数字图像收集子集112中去除被指示的图像，并且如前所述地标记剩余图像。然后用感兴趣的人的名字标记数字图像收集子集112的每个图像和视频。用户可以经由显示器回顾由标记器104确定的感兴趣的人的名字。在用户指示数字图像收集子集112的图像和视频包含感兴趣的人后，消息“标记为Jonah？”出现，用户可以通过按下“是”来确认所确定的感兴趣人的名字，或者通过按下“否”来为感兴趣的人输入不同的名字。图10示出了在用户已经去除不正确地认为包含感兴趣的人的图像之后的数字图像收集子集112，以及用于标记用户已经回顾过的图像的自动产生的标记228。

注意可以通过本领域中已知的任何用户界面选择感兴趣的人和图像或视频。例如，如果显示器332是触摸感应显示器，那么感兴趣的人的近似位置可以通过确定用户触摸显示器332的位置来找到。

图11更详细地描述了图2的特征提取器106。特征提取器106从数字图像收集中的图像和视频确定与人相关的特征。这些特征然后由人物发现器108用来在数字图像收集中寻找认为包含感兴趣的人的图像或视频。特征提取器106确定两种类型的与人相关的特征。全局特征检测器242确定全局特征246。全局特征246是与视频的图像中的个体的身份或位置无关的特征。例如，因为不管多少人在图像或视频中，摄影者的身份是不变的，并且同样与人的位置和身份无关，因此摄影者的身份是全局特征。

其他全局特征246包括：

图像/视频文件名。

图像/视频捕捉时间。图像捕捉时间可以精确到时间上的分钟，例如2004年3月27日10：17AM。或者图像捕捉时间可以不那么精确，例如2004年或者2004年3月。图像捕捉时间的形式可以是概率分布函数，例如2004年3月27日+/-2天，置信度是95％。通常捕捉时间嵌入在数字图像或视频的文件报头中。例如，EXIF图像格式(在www.exif.org有所描述)允许图像或视频捕捉设备在文件报头中存储与图像或视频相关的信息。“日期\时间”条目与捕捉图像的日期和时间相关。在一些情况下，数字图像或视频从扫描胶片中得到，并且图像捕捉时间通过检测打印到图像(通常在捕捉时刻完成)区域中的日期而确定，该区域通常在图像的左下角。打印照片的日期经常打印在照片的背面。可选地，一些胶片系统包括胶片中的磁层，用于存储诸如捕捉日期之类的信息。

捕捉条件元数据(例如闪光(flash fire)信息、快门速度、光圈、ISO、场景亮度等)。

地理位置。该位置优选地以纬度和经度的单位存储。

场景环境信息。场景环境信息是从不包含人的区域中的图像或视频的像素值导出的信息。例如，图像或视频中的无人区域的平均值是场景环境信息的实例。场景环境信息的另一个实例是纹理样本(例如从图像中的壁纸区域的像素值的采样)。

地理位置和场景环境信息是相关图像中的人的身份的重要线索。例如，摄影者对祖母房屋的参观可能是拍摄祖母的唯一位置。当两个图像在相似的地理位置和环境中捕捉时，这两个图像中检测到的人更有可能也是相同的。

场景环境信息可以由人物检测器110用来配准两个图像。当被照相的人主要是静止的，但是照相机在连续的照片之间稍微移动时，这是有用的。使用场景环境信息配准这两个图像，从而在这两个画面中对准人的位置。这种对准由人物发现器108使用，因为当在接近的时间捕捉的并且配准的两个图像中两个人具有相同的位置时，那么这两个人是相同个体的可能性很高。

局部特征检测器240计算局部特征244。局部特征是与图像或视频中的人的外表直接相关的特征。对图像或视频中的人的这些特征的计算要求知道人的位置。从人物检测器110、或者数据库114或者两者向局部特征检测器240传递与视频图像中的人物的位置有关的信息。人物检测器110可以是手工操作，其中用户通过勾勒出人的轮廓、指示眼睛位置等输入图像和视频中的人的位置。优选地，人物检测器110实施脸部检测算法。用于检测人脸的方法在数字图像处理领域中是众所周知的。例如，用于在图像中寻找人脸的脸部检测方法在以下文献中有所描述：Jones，M.J.；Viola，P.，“Fast Multi-view Face Detection”，IEEE Conference onComputer Vision and Pattern Recognition(CVPR)，June 2003。

一种有效的人物检测器110是基于与数字图像和视频相关的图像捕捉时间，将参考图12A对其进行描述。数字图像收集102的图像和视频由脸部检测器270分析，诸如上述的Jones和Viola的脸部检测器。调整脸部检测器以提供检测到的人274同时最小化错误检测。结果，图像中的许多人都没有被检测到。这可能是因为例如他们背对着照相机或者手遮住了脸。将来自脸部检测器270的检测到的脸部和数字图像收集102传递到捕捉时间分析器272以寻找包含被脸部检测器270遗漏的人的图像。捕捉时间分析器272的操作基于这样的观点：当两个图像在非常接近的时间捕捉时，很可能如果一个体出现在一个图像中，那么他或她也出现在另一个图像中。实际上，当图像中的人们身份已知时，通过分析大量的图像可以相当精确地确定这种关系。为了处理视频，使用脸部跟踪技术寻找跨过视频的多个帧的人的位置。视频中脸部跟踪的一个方法在美国专利No.6700999中有所描述，其中使用运动分析来跟踪视频中的脸部。

图12B示出了捕捉时间分析器272所使用的关系的曲线图。该曲线图示出了假定一个人出现在第一图像中，该人出现在第二图像中的概率，该概率是图像之间的图像捕捉时间的差的函数。正如所期望的，当两个图像是快速连续捕捉的时侯，一个人出现在一个图像而没有出现在另一个图像中的可能性非常低。

捕捉时间分析器272检查数字图像收集110中的图像和视频。当脸部检测器270在给定图像中检测到脸部时，那么使用图12B示出的关系计算相同的人出现在另一个图像中的概率。

例如，假设脸部检测器270在一个图像中检测到两个脸部，并且在仅1秒后捕捉的第二图像中脸部检测器270只找到一个脸部。假设从第一图像中检测到的脸部是真实的情况，则第二图像也包含两个脸部的概率相当高(0.99*0.99)，而脸部检测器270只找到一个脸部。那么，第二图像检测到的人274是通过脸部检测器270找到的该一个脸部，以及置信度为0.98的第二脸部。该第二脸部的位置未知，但是可以估计出来，因为当捕捉时间差异很小时，不论是照相机还是被拍摄的人都不会很快移动。因此，第二图像中第二脸部的位置由捕捉时间分析器272估计。例如，当一个体出现在两个图像中时，可以检查相对的脸部尺寸(较小脸部相对于较大脸部的尺寸之比)。当包含同一人的两个图像的捕捉时间差异很小，相对的脸部尺寸通常接近1，因为摄影者、被拍摄的人、和照相机设置几乎不变。图12C中画出了作为图像捕捉时间的差异的函数的相对脸部尺寸的下限。这个缩放因子可以与第一图像中的脸部的已知脸部位置一起使用，以估计该脸部出现在第二图像中的区域。

注意捕捉时间分析器272使用的该方法也可以由人物发现器108用来确定感兴趣的人在特定图像或视频中的可能性。

同样，数据库114存储与来自图2的标记器104的标记相关联的信息。当该标记包含与人相关的位置信息时，局部特征检测器240可以确定与该人相关的局部特征244。

一旦知道了人的位置，局部特征检测器240可以检测与该人相关的局部特征244。一旦知道了脸部位置，也可以使用众所周知的方法来定位脸部特征(例如眼睛、鼻子、嘴等)，所述方法诸如Yuille等在“FeatureExtraction From Faces Using Deformable Templates”，Int.Journal ofComp.Vis.，Vol.8，Iss.2，1992，pp.99-111中描述的。作者描述了使用利用模板匹配的能量最小化来定位嘴、眼睛和虹膜/巩膜边界的方法。也可以使用主动表观模型(active appearance model)来找到脸部特征，诸如T.F.Cootes和C.J.Taylor在“Constrained active appearance models”，8thInternational Conference on Computer Vision，volume 1，pp.748-754，IEEEComputer Society Press，July 2001中描述的。在优选的实施例中，使用基于人脸的主动形状模型(active shape model)定位脸部特征点的方法，该方法在Bolin和Chen的“An automatic facial feature finding system forportrait images”，Proceedings of IS&T PICS conference，2002中有所描述。

局部特征244是人的定量描述。优选地，人物发现器特征提取器106为每个检测到的人输出一组局部特征244和一组全局特征246。优选地，局部特征244是基于与特定的脸部特征相关的82个特征点的位置，该82个特征点是使用类似于前述的Cootes等的主动表观模型的方法找到的。作为示例，在图12D示出了脸部的图像的局部特征点的直观表示。局部特征也可以是特定特征点之间的距离或由连接多组特定特征点的线形成的角度，或者将特征点投影到描述脸部表观中的变化性的主分量上的系数。

所用的特征在表1列出，并且它们的计算涉及在图12D中编号示出的脸部上的点。Arc(Pn，Pm)被定义为

其中||Pn-Pm||指的是特征点n和m之间的欧氏距离(Euclidean distance)。这些arc长度特征被除以眼睛间的距离以在不同脸部尺寸之间归一化。点PC是位于点0和1的形心处的点(即正好位于眼睛之间的点)。这里所用的脸部测量是从人脸的人体测量中得到的，已经显示出对于判断性别、年龄、吸引力和种族性是相关的。(参考“Anthropometry of the Head and Face”by Farkas(Ed.)，2^nd edition，Raven Press，New York，1994)

表1：定量(ration)特征列表

名称	分子	分母
名称	分子	分母	眼睛到鼻子/眼睛到嘴	PC-P2	PC-P32
眼睛到嘴/眼睛到下巴	PC-P32	PC-P75	眼睛到鼻子/眼睛到嘴	PC-P2	PC-P32
眼睛到嘴/眼睛到下巴	PC-P32	PC-P75	头到下巴/眼睛到嘴	P62-P75	PC-P32
头到眼睛/眼睛到下巴	P62-PC	PC-P75	头到下巴/眼睛到嘴	P62-P75	PC-P32
头到眼睛/眼睛到下巴	P62-PC	PC-P75	头到眼睛/眼睛到嘴	P62-PC	PC-P32
鼻子到下巴/眼睛到下巴	P38-P75	PC-P75	头到眼睛/眼睛到嘴	P62-PC	PC-P32
鼻子到下巴/眼睛到下巴	P38-P75	PC-P75	嘴到下巴/眼睛到下巴	P35-P75	PC-P75
头到鼻子/鼻子到下巴	P62-P2	P2-P75	嘴到下巴/眼睛到下巴	P35-P75	PC-P75
头到鼻子/鼻子到下巴	P62-P2	P2-P75	嘴到下巴/鼻子到下巴	P35-P75	P2-P75
颌宽度/脸部宽度	P78-P72	P56-P68	嘴到下巴/鼻子到下巴	P35-P75	P2-P75
颌宽度/脸部宽度	P78-P72	P56-P68	眼睛间隔/鼻子宽度	P07-P13	P37-P39
嘴到下巴/颌宽度	P35-P75	P78-P72	眼睛间隔/鼻子宽度	P07-P13	P37-P39

表2：Arc长度特征列表

名称	计算
名称	计算	颚arc	Arc(P69，P81)
眶上arc	(P56-P40)+Int(P40，P44)+(P44- P48)+Arc(P48，P52)+(P52-P68)	颚arc	Arc(P69，P81)
眶上arc	(P56-P40)+Int(P40，P44)+(P44- P48)+Arc(P48，P52)+(P52-P68)	上唇arc	Arc (P23，P27)
下唇arc	Arc(P27，P30)+(P30-P23)	上唇arc	Arc (P23，P27)

一旦人物发现器106定位了人和脸部特征，就容易地从数字图像或视频中提取色彩猫(color cue)。

可选地，也可以使用不同的局部特征。例如，一实施例可以基于脸部相似性度量，这在M.Turk和A.Pentland的“Eigenfaces forRecognition”.Journal of Cognitive Neuroscience.Vol.3，No.1.71-86，1991中有所描述。通过将脸部图像投影到描述脸部表观的变化性的一组主分量函数上而获得脸部描述符。任何两个脸部之间的相似性是通过计算通过将每个脸部投影到相同的函数组上而获得的特征的欧氏距离来测量的。

局部特征244可以包括诸如特征脸(Eigenface)、脸部测量、色彩/纹理信息、小波特征等的几个不同特征类型的组合。

可选地，局部特征244可以额外地用可量化的描述符来表示，所述可量化的描述符诸如眼睛颜色、皮肤颜色、脸部形状、眼镜的存在、衣服的描述、头发的描述等。

例如，Wiskott在“Phantom Faces for Face Analysis”，PatternRecognition，Vol.30，No.6，pp.837-846，1997中描述了一种用于检测脸上的眼镜的存在的方法。该局部特征包括与眼镜的存在和形状有关的信息。

图12E示出了图像中基于脸部检测器所生成的眼睛位置而假设为脸部区域282、衣服区域284和背景区域286的区域。尺寸是用眼睛间距离或IOD(左眼位置和右眼位置之间的距离)来测量的。脸部覆盖三倍IOD乘以四倍IOD的区域，如图所示。衣服区域覆盖五倍IOD并且延伸到图像底部。图像中的剩余区域被当作背景。注意一些衣服区域可以被其他脸部和对应于那些脸部的衣服区域所覆盖。

根据美国专利No.号6606411，数字图像收集102中的图像和视频被分组为具有一致的色彩分布的事件和子事件，并且因此，这些图片可能是以用相同的背景拍摄的。对于每个子事件，为放在一起的所有背景区域一起计算单个色彩和纹理表示。该色彩和纹理表示以及相似性是从Zhu和Mehrotra的美国专利No.号6480840中得到的。根据他们的方法，基于色彩特征的图像表示是基于这样的假设：图像的显著尺寸相关色彩区域在知觉上是重要的。因此，显著尺寸相关色彩区域的色彩被认为是知觉上重要的色彩。因此，对于每个输入图像，首先计算其相关色彩直方图，其中图像的相关色彩直方图是属于相关色彩区域的特定色彩的像素数量的函数。如果像素的色彩等于或类似于预先指定的最小数量的邻近像素的色彩，则认为该像素属于相关色彩区域。此外，图像的基于纹理特征的表示是基于这样的假设：每个知觉上重要的纹理由相同色彩转变的大量重复构成。因此，通过识别经常发生的色彩转变并分析其纹理属性，可以提取并表示知觉上重要的纹理。

使用脸部检测器生成的眼睛位置初始化用于脸部特征寻找的起始脸部位置。图12F示出了脸上的特征点的位置以及可被定位的被命名的次级特征的对应图像块(patch)。

表3列出了对于图12F中示出的这些图像块的边界框，这些图像块为头发区域502、前额头发区域504、眼镜区域506、脸颊区域508、长发区域510、胡子区域512以及络腮胡区域514，其中Pn指的是图12F或图12D中的脸部点数，并且[x]和[y]指的是该点的x坐标和y坐标。(Pn-Pm)是点n和m之间的欧氏距离。“脸颊”和“头发”块被当作参考块(在表中由[R]标注)，分别表示脸部的无特征区域和人的头发。次级特征被计算为包含该次级特征的可能块和适当的参考块之间的灰度等级直方图差异。将左边的块和右边的块组合以产生每个次级特征的直方图。该直方图通过像素数目归一化，使得正被比较的块的相对尺寸不是计算的差异中的因子。将次级特征作为二元特征处理——它们不是存在就是不存在。使用阈值确定次级特征是否存在。表4给出了示出用于要检测的每个次级特征的直方图差异的表。

表3脸部特征区域的边界框

表4次级特征的直方图差异

特征	直方图差异测试
特征	直方图差异测试	长发	长发-头发＜阈值
眼镜	眼镜-脸颊＞阈值	长发	长发-头发＜阈值
眼镜	眼镜-脸颊＞阈值	前额头发	刘海-脸颊＞阈值
络腮胡	络腮胡-脸颊＞阈值	前额头发	刘海-脸颊＞阈值
络腮胡	络腮胡-脸颊＞阈值	胡子	胡子-脸颊＞阈值

再次参考图11，全局特征246和局部特征244存储在数据库114中。与图像中所有人相关的全局特征用F_G表示。与图像中的N个人相关的N组局部特征被表示为F_L0，F_L1，…，F_LN-1。图像中的人n的完整的特征组被表示为F_n并且包括全局特征F_G和局部特征F_Ln。与图像相关联的M个标记被表示为L₀，L₁，…，L_M-1。当标记不包含人的位置时，不能明确知道哪个标记与哪组代表图像或视频中的人的特征相关联。例如，当有描述图像中的两个人的两组特征和两个标记时，哪个特征属于哪个标记并不明显。人物发现器108解决将多个标记与多组局部特征相配的这个约束分类(constrained classification)问题，其中该多个标记和局部特征与单个图像相关联。可以有任意数量的标记和局部特征，并且每个的数量甚至可以不同。

下面是数据库114中与一图像相关联的标记和特征的示范条目：

图像101_346.JPG

标记L₀：Hannah

标记L₁：Jonah

特征F₀：

全局特征F_G：

捕捉时间：2005年8月7日，6：41PM EST.

闪火：无

快门速度：1/724sec.

照相机型号：Kodak C360变焦数字照相机

光圈：F/2.7

环境：

局部特征F_L0：

位置：左眼：[1400 198]右眼：[1548 202]

C₀＝[-0.8-0.01]’；

眼镜：无

相关联标记：未知

图13更详细地描述了图2的人物发现器108。人物识别器250考虑数据库114中的特征和标记并确定用不包含人的位置的标记做标记的图像中的人们的身份(即确定一组相关特征)。人物识别器250将来自特征提取器106的特征与来自标记器104的标记相关联，从而识别图像或视频中的人。人物识别器250更新来自数据库的特征并且产生存储在数据库114中的经过修改的特征254。作为实例，考虑图8中示出的图像。第一图像260包括2个人，根据标记226这两个人是Hannah和Jonah。然而，因为标记不包含位置，不知道哪个人是Hannah，哪个人是Jonah。第二图像262被标记为Hannah。因为只有一个人，可以以高置信度将该人识别为Hannah。通过使用来自第二图像262的与Hannah有关的特征并比较第一图像260中的人的特征，人物识别器250可以确定第一图像260中的人的身份。人266的特征类似于在第二图像262中识别为Hannah的人264的特征。人物识别器250可以高置信度推断第一图像260中的人266是Hannah，并且通过排除推断人268是Jonah。将第一图像260的标记226Hannah与图像的全局特征F_G和与人266相关的局部特征相关联。第一图像260的标记226Jonah与该图像的全局特征和与人268相关的局部特征相关联。由于确定了人们的身份，用户可以使用合适的特征发起对Hannah或Jonah的搜索。

一般来讲，人物识别器250解决分类问题。该问题是将不具有位置信息的标记与局部特征相关联，其中该标记和局部特征都与同一图像相关联。解决该问题的算法由人物识别器250实施。图14示出了从数字图像收集计算的实际的局部特征的表示。在标示图上标志出了15组局部特征的位置。用于表示标志的符号指示与该局部特征相关联的人的真实身份，其中“x”代表Hannah，“+”代表Jonah，“*”代表Holly，而“□”(方块)代表Andy。每组局部特征可以与分配给该图像的任何标记相关联。在图上标出的每组局部特征的附近是可以与该局部特征相关联的可能标记，其中“A”代表Andy、“H”代表Hannah，“J”代表Jonah而“O”代表Holly。下面的表示出了数据。图上的标志之间的连接指示这些局部特征组来自同一图像。用于分配局部特征到标记的算法是通过找到使数据点的集合变量(即分配给每个人的数据点的散布(spread)的和)最小化的局部特征到标记的分配来工作的。局部特征到标记的分配受到这样的限制：对于每个图像一个标记只能使用一次(即对于由连接相连的每组数据点只能使用一次)。优选地，将集合变量计算为每个数据点上的从该数据点到分配给该同一个体的所有数据点的形心的平方距离的和。

用于对局部特征分类的算法可以用下式来概括：

{\min_{d_{j}} \underset{j}{Σ} (c_{d_{j}} - f_{j})}^{T} (c_{d_{j}} - f_{j})

其中：

f_j表示第j组局部特征，

d_j表示第j组局部特征被分配到的类(即个体的身份)，

C_dj表示第j组局部特征被分配到的类的形心。

通过为每一第j组局部特征选择类的分配来最小化该表达式。

在这个式子中，使用欧氏距离度量。本领域技术人员将认识到也可以使用许多不同的距离度量，诸如马氏距离(Mahalanobis distance)或当前数据点和分配到同一类的另一个数据点之间的最小距离。

该算法正确地将实例中的所有15个局部特征与正确的标记相关联。虽然在这个实例中，对于每个图像，每个图像中标记的数量和局部特征组的数量是相同的，但是这对有用的人物识别器250所用的算法并不是必须的。例如，用户可以为包含三个人并且从中导出三组局部特征的图像提供仅两个标记。

在一些情况下，可以直接从数据库114产生来自人物识别器250的经过修改的特征254。例如，当数据库只包含全局特征而没有局部特征时，那么与每个标记相关联的特征(不管标记是否包含位置信息)将是相同的。例如，如果该唯一的特征是图像捕捉时间，那么与图像相关联的每个标记都与图像捕捉时间相关联。还有，如果标记包含位置信息，那么将特征与标记相关联是容易的，因为要么特征不包含局部特征，从而相同的特征与每个标记相关联，或者特征包含局部特征，那么使用在其上计算局部特征的图像区域的位置将特征与标记相关联(基于接近度)。

人物分类器256使用经过修改的特征254和感兴趣的人的身份252来确定认为包含感兴趣的人的图像和视频的数字图像收集子集112。经过修改的特征254包括具有相关联的标记的一些特征(称为已标记的特征)。其他特征(称为未标记的特征)不具有相关联的标记(例如，没有被标记器104标记的数字图像收集102中的所有图像和视频)。人物分类器256使用已标记的特征对未标记的特征进行分类。虽然这个问题在实际中相当困难，但是在模式识别的领域对其进行了研究。可以使用任何分类器对未标记的特征进行分类。优选地，人物分类器为每个未标记的特征确定建议的标记以及与该建议的标记相关联的置信度、信任或概率。通常，分类器通过考虑未标记的特征特定组和已标记的特征组之间的相似性来将标记分配给未标记的特征。利用一些分类器(例如高斯最大似然(Gaussian Maximum Likelihood))，与单个个体的人相关联的已标记的特征组被集合起来以形成该个体的表观的模型。数字图像收集子集112是以超过阈值T₀的概率具有相关联的建议标记的图像和视频的收集，其中T₀的范围是0＜＝T₀＜＝1.0。优选地，数字图像收集子集112还包含与具有匹配感兴趣的人的身份252的标记的特征相关联的图像和视频。对数字图像收集子集的图像和视频进行分类，使得确定为具有包含感兴趣的人的最高信任的图像和视频出现在该子集的顶部，仅跟随具有带有匹配感兴趣的人的身份252的标记的特征的图像和视频。

人物分类器256可以测量与两个或更多人相关联的多组特征之间的相似性以确定这些人的相似性，并且从而确定这些人是同一人的可能性。测量多组特征的相似性是通过测量这些特征的子集的相似性来完成的。例如，当局部特征描述衣服时，使用以下方法比较两组特征。如果图像捕捉时间的差异小(即小于几个小时)，并且如果在这两组特征的每一个中衣服的定量描述是相似的，那么这两组局部特征属于同一个人的可能性增加。此外，如果对于这两组局部特征衣服都具有非常独特或与众不同的图案(例如大块绿色、红色和蓝色的衬衫)，那么相关联的人是同一个体的可能性更大。

可以不同的方式表示衣服。在Zhu和Mehrotra的美国专利No.6480840中描述的色彩和纹理表示以及相似性是一种可能的方式。在另一个可能的表示中，Zhu和Mehrotra描述了一种特别用于表示和匹配诸如在美国专利No.6584465中的纺织品中找到的图案的方法。该方法是与色彩不变的，并且使用边缘方向的直方图作为特征。可选地，从衣服块图像的傅立叶变换系数或边缘图导出的特征可以用作用于匹配的特征。在计算基于边缘或基于傅立叶的特征之前，将这些块归一化到相同的尺寸以使得边缘的频率相对于对象距离照相机/变焦镜头的距离不变。计算乘法因子，该乘法因子将检测到的脸部的眼睛间距离转换为标准的眼睛间距离。由于块尺寸是由眼睛间距离计算的，然后用这个因子对衣服块进行二次采样或扩展，以对应于标准尺寸的脸部。

为每个衣服图案计算独特性度量，该度量确定匹配或不匹配对人的整体匹配分数的贡献，如表5所示，其中+表示正贡献，-表示负贡献，+或-的数量用来指示贡献的强度。该独特性分数被计算为图案独特性和色彩独特性的和。图案独特性与块的傅立叶变换中在阈值之上的傅立叶系数的数量成比例。例如，无图案块和具有单一等间距条纹的块分别具有1个(只有dc)和2个系数，并且因此具有低独特性分数。图案越复杂，对其进行描述所需要的系数的数量越大，并且其独特性分数越高。色彩独特性是通过从人的图像的大数据库中获知特定色彩在衣服中出现的可能性而测量的。例如，穿白衬衫的人的可能性要远远大于穿橙色和绿色衬衫的人的可能性。可选地，在没有可靠的可能性统计的情况下，色彩独特性基于其饱和度，因为饱和的色彩不但较稀少而且可以用较小的不确定性来匹配。通过这种方式，衣服相似性或不相似性以及衣服的独特性，与图像的捕捉时间一起成为人物分类器256识别感兴趣的人的重要特征。

衣服独特性是通过从人的图像的大数据库中获知特定衣服出现的可能性而测量的。例如，穿白衬衫的人的可能性要远远大于穿橙色和绿色格子衬衫的人的可能性。通过这种方式，衣服相似性或不相似性以及衣服的独特性，与图像的捕捉时间一起成为人物分类器256识别感兴趣的人的重要特征。

表5衣服对两个人是同一个体的可能性的影响

表5示出了如何通过使用衣服的描述影响两个人的相似性。当这两个人是来自从同一事件得到的图像或视频时，那么当衣服不匹配时，这两个人是同一个体的可能性大大减小(---)。“同一事件”意味着这些图像在图像捕捉时间之间只有小的差别(即小于几个小时)，或者这些图像已经由用户或通过诸如美国专利No.6606411中描述的算法分类为属于同一事件。简要概括之，基于图像的时间和/或日期分组确定该图像收集的一个或多个最大时间差异，并且基于使事件之间具有对应于该一个或多个最大时间差异的一个或多个边界将该多个图像分为各事件，将图像收集分类为一个或多个事件。

当两个人的衣服匹配并且图像是来自同一事件时，那么这两个人是同一个体的可能性取决于衣服的独特性。在这两个人之间匹配的衣服越独特，这两个人是同一个体的可能性越大。

当这两个人来自属于不同事件的图像时，衣服之间的不匹配对这两个人是同一个体的可能性没有影响(因为人可能换衣服)。

优选地，用户可以通过用户界面调整T₀的值。随着该值增加，数字图像收集子集112包含更少的图像或视频，但是数字图像收集子集112中的图像和视频实际上包含感兴趣的人的可能性增加。通过这种方式，用户可以确定搜索结果的数量和精确度。

本发明可以被推广到识别人以外的如图15中示出的一般对象识别方法，图15类似于图2。人物发现器408搜索包含多个对象的数字图像收集102，以寻找感兴趣的对象。数字图像收集子集112显示在显示器332上，供使用者回顾。

用户如下所述发起对感兴趣的对象的搜索：数字图像收集102的图像或视频显示在显示器332上并由用户观看。用户利用标记器104为一个或多个图像建立一个或多个标记。特征提取器106从数字图像收集中提取与来自标记器104的(多个)标记相关联的特征。该特征被与标记相关联地存储在数据库114中。可以可选地使用对象检测器410帮助作标记和特征提取。当数字图像收集子集112显示在显示器332上时，用户可以回顾结果并进一步标记显示的图像。

(1)图像或视频中的感兴趣的对象的名称。

(2)与感兴趣的人相关联的标识符，诸如文本串或诸如“对象A”或“对象B”的标识符。

(3)图像或视频内感兴趣的对象的位置。优选地，感兴趣的对象的位置可以由围绕感兴趣的对象的框的坐标来规定。用户可以通过例如使用鼠标在眼睛的位置上点击来指示感兴趣的对象的位置。当对象检测器410检测到对象时，可以通过例如在显示器332上圈住该对象来向用户突出显示该对象的位置。然后用户可以为被突出显示的对象提供名称或标识符，从而将对象的位置与用户提供的标记相关联。

(4)从图像收集中搜索认为包含感兴趣的对象的图像或视频的指示。

(5)不在图像中的感兴趣的对象的名称或标识符。例如，感兴趣的对象可以是人、脸部、汽车、车辆或动物。

部件列表

10 图像捕捉

25 一起获取的背景区域

40 通用控制计算机

102 数字图像收集

104 标记器

106 特征提取器

108 人物发现器

110 人物检测器

112 数字图像收集子集

114 数据库

202 204206208210212214块

220 已标记的图像

222 被正确地认为包含感兴趣的人的图像

224 被不正确地认为包含感兴趣的人的图像

226 标记

228 生成的标记

240 局部特征检测器

242 全局特征检测器

244 局部特征

246 全局特征

250 人物识别器

252 感兴趣的人的身份

254 经过修改的特征

256 人物分类器

260 第一图像

262 第二图像

264 266268人

270 脸部检测器

272 捕捉时间分析器

274 检测到的人

282 脸部区域

284 衣服区域

286 背景区域

301 数字照相电话

303 闪光

305 透镜

311 CMOS图像传感器

312 定时发生器

314 图像传感器阵列

316 A/D转换器电路

318 DRAM缓冲存储器

320 数字处理器

322 RAM存储器

324 实时时钟

325 位置确定器

328 固件存储器

330 图像/数据存储器

332 彩色显示器

334 用户控制

340 音频编解码器

342 麦克风

344 扬声器

350 无线调制解调器

352 RF信道

358 电话网络

362 坞站接口

364 坞站/充电器

370 因特网

372 服务提供商

408 对象发现器

410 对象检测器

502 头发区域

504 额前头发区域

506 眼镜区域

508 脸颊区域

510 长发区域

512 胡子区域

514 络腮胡区域

Claims

1.一种识别数字图像收集中的特定的人的方法，其中该数字图像收集中的至少其中一个图像包括多于一个的人，该方法包括：

(a)为包含特定的人和至少一个其他人的该数字图像收集中的第一图像提供至少一个第一标记；其中该第一标记标识该特定的人，以及为数字图像收集中的第二图像提供标识该特定的人的第二标记；

(b)使用该第一和第二标记识别该特定的人；

(c)从该第一图像或第二图像或两者确定与该特定的人有关的特征；以及

2.如权利要求1所述的方法，其中该第一和第二标记每个都包括该特定的人的名字或者该特定的人在第一和第二图像两者中的指示。

3.如权利要求1所述的方法，其中存在对应于数字图像收集中的不同图像的多于两个的标记。

4.如权利要求1所述的方法，其中用户提供该第一和第二标记。

5.如权利要求1所述的方法，其中步骤(c)包括检测图像中的人以确定该特定的人的特征。

6.如权利要求4所述的方法，其中用户不提供图像中该特定的人的位置。

7.如权利要求4所述的方法，其中用户提供该数字图像收集的至少一个图像中的该特定的人的位置。

8.如权利要求1所述的方法，其中该第一标记包括该特定的人的名字和第一图像中该特定的人的位置，并且第二标记指示该特定的人在包含多个人的第二图像中。

9.如权利要求8所述的方法，其中存在标识多个不同的人的多个标记。

10.如权利要求9所述的方法，其中用户提供标识该特定的人的标记和该人在图像中的位置，并且该多个标记被用于识别包含该特定的人并且分析已用的被识别的人以确定特征的那些图像。

11.如权利要求10所述的方法，其中每个标记包括该特定的人的名字。

12.如权利要求1所述的方法，还包括：

(e)显示认为包括该特定的人的(多个)图像给用户；以及

(f)用户观看显示的(多个)图像以验证该特定的人是否包括在显示的(多个)图像中。

13.一种识别数字图像收集中的特定的人的方法，其中至少一个图像包括多于一个的人，该方法包括：

(a)给包含特定的人的图像提供至少一个标记；其中该标记标识该图像包含该特定的人；

(b)确定与该特定的人有关的特征；

(c)使用这种特定的人的特征和该标记识别该收集中认为包含该特定的人的(多个)图像；

(d)显示认为包含该特定的人的(多个)图像给用户；以及

(e)用户观看显示的多个图像以验证该特定的人是否包括在显示的(多个)图像中。

14.如权利要求13所述的方法，其中当用户已经验证该特定的人包含在显示的图像中时，用户提供标记。

15.如权利要求14所述的方法，其中使用用户提供的标记更新所确定的特征。

16.如权利要求1所述的方法，其中从脸部测量、衣服或眼镜或它们的组合确定特征。

17.如权利要求13所述的方法，其中从脸部测量、衣服或眼镜或它们的组合确定特征。