CN102411627A

CN102411627A - 包括面部图像的图像搜索

Info

Publication number: CN102411627A
Application number: CN2011104230598A
Authority: CN
Inventors: Y.马; J.哈米尔顿; 柯启发
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2010-12-16
Filing date: 2011-12-16
Publication date: 2012-04-11
Also published as: US20120155717A1

Abstract

本发明提供了一种用于执行图像匹配的方法和设备。该方法包括将第一图像中的脸部与一组存储图像中的每一个图像中的脸部进行比较以便识别一个或多个脸部匹配的图像，这些脸部匹配的图像包括与第一图像中的脸部相似的面部特征。接下来，将第一图像与每一个脸部匹配的图像进行比较以便识别与第一图像在空间上相似的一个或多个结果图像。因此，一个或多个结果图像具有与第一图像相似的面部特征和相似的整体或背景特征。举例来说，如果查询图像是具有儿童在秋千上荡秋千的运动场，则图像匹配技术可以找到同一儿童在看上去相似的设定中的其他图像。

Description

包括面部图像的图像搜索

背景技术

图像匹配是用于如计算机视觉、物体识别、运动跟踪、3D建模等之类的应用中的基础技术。执行图像匹配来检查两个图像是否具有相同的视觉内容。然而，并不需要这两个图像是完全相同的。举例来说，一个图像与另一个图像相比可以被旋转或者从不同的视点获取，一个图像可以是另一个图像的缩放版本，或者在图像中可以具有使人分心的（distracting）元素。此外，可以在不同的照明条件下获取两个图像。尽管在两个图像中有这样的变化，但它们还是包含相同的内容、场景或物体。因此，使用各种图像匹配技术来有效地对图像进行匹配。

在一种示例情况中，可以执行图像匹配以对照由用户提供的查询图像来识别一个或多个的匹配物。由用户提供的查询图像可以是，例如电影海报的图像、户外假日场所的图片、名人的照片等等。此外，服务器（例如，通信网络中存在的个人计算机或者任何数据处理单元）可以包括来自许多资源（诸如，杂志、海报、报纸、因特网、告示牌广告等等）的成千上万的图像的数据库。可以对照在数据库中存储的图像对来自用户的查询图像进行匹配，以识别对应于该查询图像的适当的匹配图像。

利用当今的技术，计算机用户容易地对成千上万的数字图像进行访问。随着技术不断进步，越来越多的计算机用户将会访问越来越多的图像。然而，随着计算机用户对其进行访问的图像数量增加，定位特定图像的难度也在增加。图像搜索引擎应当能够从查询图像识别出候选图像，即使这些候选在尺度上有变化、被不同地裁剪、或者查询图像/候选图像被（另一个图像）部分地阻挡或仅部分地复制。

各种图像匹配技术可用于识别景象中的各种整体图像特征，并且对照存储图像中的图像特征对这些特征进行匹配。举例来说，这种图像匹配技术可以获取高尔夫球场的查询图像并且找到高尔夫球场的其他图像。以此方式，可以找到具有与查询图像相似的整体特征的图像。举例来说，如果高尔夫球场的查询图像例如包括一个人在打球入洞，则这些图像匹配技术可以找到其他相似的图像，在这些相似的图像中有一个人正在打球入洞或者在高尔夫球场上有人。然而，当基于图像的搜索被用于匹配包括人的脸部的图像时发生了困难。会发生这样的情况，例如，如果用户提交了诸如有一个人在打球入洞的高尔夫球场之类的场景的查询图像，并且希望找到包括相同的人的相似的图像。在此情况下，图像匹配技术可以找到在背景等中具有一些相似的整体特征的图像，但是不能对脸部进行匹配。作为一个示例，运动场的查询图像可以包括正在秋千上荡秋千的儿童。当前可用的图像匹配搜索技术可以找到包括秋千的运动场的其他图像，但是儿童与查询图像中的儿童通常是不同的。

发明内容

在一种实现方式中，提供一种用于执行图像匹配的方法和设备。该方法是这样开始的，通过将第一图像中的脸部与一组存储图像中的每一个图像中的脸部进行比较以便识别一个或多个脸部匹配图像，所述脸部匹配图像包括与第一图像中的脸部相似的面部特征。接下来，将第一图像与每一个脸部匹配图像进行比较以便识别一个或多个结果图像，所述结果图像与第一图像在空间上相似。因此，一个或多个结果图像具有与第一图像相似的面部特征和相似的整体或背景特征。举例来说，如果查询图像是具有儿童在秋千上荡秋千的运动场，则图像匹配技术可以找到在看上去相似的设定中的同一儿童的其他图像。

在另一种实现方式中，提供一种用于实现图像匹配的系统。其中，该系统包括搜索模块，该搜索模块被配置为：在查询图像中识别至少一个脸部的存在；基于一个或多个预先建立的标准确定该脸部与一组存储图像中的脸部的相似性；确定查询图像中的非面部特征与存储图像的子集中的非面部特征的相似性，该存储图像的子集中的每一个存储图像都具有脸部，该脸部与查询图像中的脸部具有至少规定程度的相似性。

提供本发明内容以引入简化形式的概念选择，在下面的具体实施方式中将对其进一步进行描述。本发明内容并不旨在识别出所要求保护的主题的关键特征或实质特征，也没有旨在被用于辅助确定所要求保护的主题的范围。

附图说明

图1是示出了基于图像的搜索过程的流程图。

图2是用于实现基于图像的搜索的说明性系统200的示意性框图。

图3图示出图2中的图像搜索服务器的一个示例。

图4是示出了当用户发起图像搜索时可以被执行的方法的一个特定示例的流程图。

具体实施方式

图1是示出了根据一个说明性实现方式的基于图像的搜索100的流程图，其可广泛应用于任何情况，其中希望搜索与包括一个或多个脸部的一个或多个查询图像相似的图像。在102，用户输入搜索查询。为了搜索与查询图像相似的图像，用户提供查询图像的拷贝。可以通过以下方式提供查询图像：输入查询图像（例如，来自数字摄像机、扫描仪、视频摄像机、摄像机电话或其他图像源）；在多个存储图像当中指定查询图像；从因特网选择查询图像；或者通过另外使得能够得到图像的拷贝以用作查询图像。搜索查询也可以包括文本搜索项以便基于，例如，年龄、性别、种族、位置或其他能够容易地并准确地以文本数据进行记录的信息来进行搜索。可以独立于基于图像的搜索来执行这种基于文本的搜索，或者可以在基于图像的搜索之前来执行这种基于文本的搜索以便缩小在基于图像的搜索期间要被搜索的存储图像的范围。

一旦已经提供了查询图像，就在103，采用脸部检测算法来确定在查询图像中是否真正存在一个或多个脸部。可以使用多种算法中的任何一种来执行在图像中识别脸部的存在。举例来说，如在Wu, H., Chen, Q., Yachida M., Face Detection From Color Images using a Fuzzy Pattern Matching Method（使用模糊模式匹配方法从彩色图像检测脸部）, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, no. 6, pp. 557-563, 1999中讨论的那样，可以使用肤色和发色模型从查询图像提取肤色和发色区域。然后，可以使用基于模糊理论的模式匹配方法将提取的区域与预定义的头型模型进行比较以便检测脸部候选。可以在C. Zhang和Z. Zhang的“Winner-Take-All Multiple Category Boosting for Multi-view Face Detection（用于多视图脸部检测的Winner-Take-All多类别推进）”, ECCV Workshop on Face Detection: Where are we, and what next, Crete, Greece, Sep. 2010；以及C. Zhang和P. Viola的“Multiple-Instance Pruning for Learning Efficient Cascade Detectors（用于学习有效性层叠检测器的多实例修剪）”, NIPS 2007, Vancouver, Canada, Dec. 2007中找到另外的脸部检测技术。

接下来，在104，如果需要，则对查询图像进行对准和裁剪，以便隔离脸部并使查询图像符合预定标准大小、形状和/或指向角度。如果存在一个以上的脸部，则选择占主导地位的脸部（例如，最大的）。可以使用传统的脸部检查系统来定位脸部，诸如例如由Xiao等人在“Robust Multi-Pose Face Detection in Images（图像中的健壮多姿态脸部检测）”, IEEE Trans. on CSTV, special issue on Biometrics, 14(1), p. 31-41中所描述的三步骤脸部检测器，通过引用在此并入其全文。也可以使用各种已知的格式化技术中的任何一种来实现脸部对准和裁剪。

一旦已经定位了脸部，就可以提取不同的面部特征并且基于这些特征进行相似性分析。具体而言，在108，检测并提取面部特征用于基于特征的分析。以示例的方式，在脸部检测之后可以使用贝叶斯切线形状模型来定位特征点，诸如查询图像中的眼睛、嘴、鼻子和脸部形状的控制点。在Zhou等人的“Bayesian Tangent Shape Model: Estimating Shape and Pose Parameters via Bayesian Inference（贝叶斯切线形状模型：经由贝叶斯推论估计形状和姿态参数）”, Intl. Conf. on CVPR, 1, p. 109-111中描述了使用贝叶斯切线形状模型的细节，通过引用在此并入其全文。然后将查询图像分解为与所使用的面部特征数量相等的多个部分（例如，分别对应于眼睛、鼻子、嘴和脸部形状的四个部分），并且针对每一个部分提取纹理、大小和形状。采用具有多比例和多指向的一系列Gabor滤波器，以Yang在其博士论文“Research on Appearance-based Statistical Face Recognition（基于外貌的统计脸部识别的研究）”, at Tsinghua University in Beijing, China中所描述的方式来提取纹理特征，通过引用在此并入其全文。

可以采用的另一种特征提取技术涉及视觉词（visual word）的使用。这种技术在基于特征或对象的图像检索与文本检索之间进行类推。具体而言，将图像特征对待为可以被用作查询的视觉词，类似于针对文本检索的词汇的使用。可以从脸部提取的图像特征的说明性示例可以包括下列中的一个或多个：眼睛、鼻子、嘴、耳朵和脸部形状。取代按照可搜索的索引来存储图像的实际像素值，将每一个特征量化为视觉词。然后可以将视觉词按索引（诸如逆索引）存储。当通过搜索针对在图像查询中出现的视觉词的索引来执行图像查询时，可以搜索索引以得到视觉词。在Zheng, Q.-F., Wang, W.-Q., Gao, W.的Effective and Efficient Object-based Image Retrieval Using Visual Phrases（使用视觉短语有效果的且有效率的基于对象的图像检索）. Proc. of the 14th annual ACM Int'l Conference on Multimedia. October 2006. ISBN: 1-59593-447-2和Zhong Wu, Qifa Ke, Jian Sun和Heung-Yeung Shum的Scalable Face Image Retrieval with Identity-Based Quantization and Multi-Reference Re-ranking（具有基于身份的量化和多参考重排序的可伸缩脸部图像检索）, in CVPR 2010, IEEE Computer Society, June 2010中可以找到关于视觉词的使用的其他细节，通过引用在此并入其全文。

当然，虽然在此描述了脸部定位与特征提取技术的特定示例，但应当理解，可以另外地或替换地使用任何其他已知的定位和提取技术。

在110，将查询图像与多个脸部的存储图像进行比较。如果初始的查询包括基于文本的搜索，则可以只将查询图像与匹配特定的基于文本的搜索标准的存储图像进行比较。可替换地，如果包括基于文本的查询，则可以独立于基于图像的查询来进行基于文本的查询。

可以基于逐个特征地进行查询图像与存储图像的比较。从而该比较与人类的人与人之间相似性的感知近似，可以基于一个或多个人类估计者的调查来确定映射函数。可以提前进行调查（例如，根据一些预先准备的数据提前进行），或者可以实时地产生并更新调查（例如，根据来自基于图像的搜索的用户的评价），以便适应地学习映射函数。

在提前进行调查的一个示例中，可以要求多个估计者或调查者在多（例如，2500）对脸部图像之间在五个不同的感知模式（整体、眼睛、鼻子、嘴和脸部形状）方面标记相似性评分。估计者以任何适当的比例对相似性进行排列。举例来说，比例可以是从0至3的范围，0表示不相似，并且3表示非常相似。脸部图像可以是存储在图像数据库中的图像并且可以包括，例如，各种种族的男性和女性的图像。具体而言，可以使用任意数量的估计者和存储图像，较大数量的估计者和存储图像通常提供与平均用户感知更接近的近似。

一旦确定了映射函数，就在查询图像与每一个存储图像之间计算差向量。然后将每一个差向量映射到相似性评分，这意味着近似人类的相似性感知。然后可以基于相似性评分来呈现搜索结果。

然后，映射函数可以被用于从四种感知（眼睛、鼻子、嘴和脸部形状）中的每一种来计算查询图像和存储图像数据库204中的每一个存储图像之间的匹配评分。基于从高到低的相似性的匹配评分来针对每种感知对结果进行排列。虽然在前述示例中描述了四种不同的感知模式（即，眼睛、鼻子、嘴、耳朵和脸部形状），但是可替换地使用任意数量的一种或多种感知模式。虽然描述了用于对查询图像与存储图像进行比较的特定技术和设备（例如，计算向量差、产生映射函数以及计算匹配评分），但是可以另外地或替换地使用任何其他适当的比较技术。

根据基于文本的查询、基于图像的查询和/或特定特征优选加权的结合，搜索确定一个或多个存储图像，所述一个或多个存储图像与已经在特定查询中识别出的脸部匹配。然后，在112，将查询图像作为整体与一个或多个被发现具有与查询图像相似的脸部的结果图像按照整体的方式进行比较。以此方式，可以识别具有相似脸部的结果图像，这些结果图像具有与查询图像中的特征整体相似（例如，在较大比例上相似）的特征。举例来说，如果在查询图像的前景中出现脸部，并且该脸部与候选结果图像中的脸部相似，则如果查询图像的背景区域与候选结果图像的背景区域也相似的话那么这两个图像就是整体上或空间上相似的。作为具体示例，如果查询图像示出了高尔夫球场上的Barak Obama，则在110识别出包括Obama的结果图像。在112，搜索这些结果图像以识别在相似的设定中的Obama的其他图像。可以在Manjunath, B.S., Ma, W.Y., Texture Features for Browsing and Retrieval of Image Data（用于浏览的纹理特征和图像数据的检索）, IEEE Trans, on Pattern Analysis and Machine intelligence, vol. 18, no. 9, 1996中找到可以被采用来比较整体图像的算法的示例。

在114，以任何适当的方式来显示获得的结果图像。举例来说，可以基于结果图像的整体相似性评分或者基于面部特征的相似性评分按照排列顺序来显示结果图像。可以根据基于文本的查询的结果来另外地或替换地组织显示的结果。

图2是用于实现基于图像的搜索（诸如参考图1进行说明的基于图像的搜索）的说明性系统200的示意性框图。该系统包括图像搜索服务器202或者其他计算设备，一个或多个存储图像数据库204和各种不同的用户终端206经由网络208（诸如因特网）连接到图像搜索服务器202或者其他计算设备。虽然只示出了一个存储图像数据库204，但是存储图像可以被存储在任意数量的分布式数据存储中。另外，虽然将存储图像数据库204示出为远离图像搜索服务器202，但是可以在图像搜索服务器202上至少部分地本地存储图像数据库。系统200的图像存储装置和计算能力的位置并不重要，可以在系统200的组件当中适当地分布存储和计算。

可以使用任何传统的有线连接、无线协议或它们的组合将用户终端206、图像搜索服务器202和数据库204连接到网络208。通常，用户可以使用用户终端206访问基于图像的搜索，用户终端206可以是任何种类的计算设备，诸如桌面个人计算机（PC）、膝上型计算机、个人数字助理（PDA）、智能电话、袖珍型PC或任何其他移动或固定计算设备。

图3更加详细地图示出图2的图像搜索服务器202。图像搜索服务器202可以被配置为能够实现基于图像的搜索的任何适当的计算设备。在一个示例性配置中，图像搜索服务器202包括至少一个处理单元300和存储器302。依赖于计算设备的配置和类型，存储器302可以是易失性的（诸如RAM）和/或非易失性的（诸如ROM、闪存等）。图像搜索服务器202还可以包括另外的可移动存储装置304和/或不可移动存储装置306，其包括但不限定于磁存储装置、光盘和/或带存储装置。

存储器302可以包括：操作系统308；一个或多个应用程序310至316，其用于实现基于图像的搜索的全部或一部分；以及各种其他数据、程序、介质等。在一种实现方式中，存储器302包括图像搜索应用310，其包括用户界面模块312、数据管理模块314和搜索模块316。用户界面模块312为用户呈现出用于基于图像的搜索的图形化用户界面，其包括提示用户输入基于文本和/或基于图像的查询信息的界面以及用于向用户显示搜索结果的界面。数据管理模块314对信息（诸如简档信息、存储图像等）的存储进行管理，并且可以与一个或多个本地和/或远程数据存储（诸如存储图像数据库204）进行通信。搜索模块316与用户界面模块312和数据管理模块314交互以便执行搜索功能，诸如执行使用传统文本搜索方法的文本搜索、对查询图像与例如存储图像数据库204中的存储图像进行比较。

计算机存储介质包括以任何方法或技术实现的易失性的和非易失性的、可移动的和不可移动的介质，用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息。存储器302、可移动存储装置304和不可移动存储装置306都是计算机存储介质的示例。可以存在的计算机存储介质的另外的类型包括但不限定于：RAM、ROM、EEPROM、闪存或其他存储器技术；CD-ROM、数字通用盘（DVD）或其他光存储器；磁带盒、磁带、磁盘存储装置或其他磁存储设备；或者能够被用于存储所期望的信息并且能够被图像搜索服务器202或其他计算设备访问的任何其他介质。

图像搜索服务器202还可以包括一个（或多个）通信连接318，其允许图像搜索服务器202与存储图像数据库204、用户终端206和/或网络208上的其他设备进行通信。一个（或多个）通信连接318是通信介质的一个示例。以示例而非限制的方式，通信介质包括有线介质（诸如有线网络或直接布线连接（direct-wired connection））和无线介质（诸如声学、RF、红外和其他无线介质）。

图像搜索服务器202还可以包括一个（或多个）输入设备302（诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等）和一个（或多个）输出设备322（诸如显示器、扬声器、打印机等）。所有这些设备对于本领域来说是已知的，无需在此详细描述。

图4是示出了当用户发起图像搜索时可以被执行的方法的一个特定示例的流程图。当从用户接收到包括查询图像（以及可能的文字）的查询时，该方法从402开始。在404检查图像以便确定在查询图像中是否有一个或多个脸部。如果发现存在多个脸部，则将其中一个脸部看作为占主导地位的脸部。占主导地位的脸部可以是找到的在该图像中存在的脸部中较大的脸部。

接下来在406，在查询图像中从该脸部提取各种面部特征。将这些面部特征与从一系列存储图像中找到的脸部提取的其对应的面部特征进行比较。在一些实现方式中，比较是这样执行的：通过首先将每一个面部特征量化为视觉词；然后将与查询图像中的脸部相关联的视觉词和与存储图像中的脸部相关联的视觉词进行比较。基于该比较，在408确定查询图像中的脸部与包括脸部的多个存储图像中的脸部之间的相似性。在410，从多个存储图像当中选择多个结果图像。结果图像是包括脸部的图像，该脸部基于第一组标准被确定为与查询图像中的脸部相似。标准可以涉及要求与一些特征相关联的视觉词之间的匹配更加精确，而与其他特征相关联的视觉词的匹配可以只要求较低程度的精确度。通常，在查询图像与存储图像中的特征之间并不要求完美的匹配以便将脸部处理为相似。

一旦已经选择了一组包括脸部的结果图像，这些脸部被认为与查询图像中占主导地位的脸部相似，就在412，将查询图像中的非面部特征（例如，背景）与每一个结果图像中的非面部特征进行比较，以确定它们之间的整体相似性程度。然后，在414，选择一个或多个被确定为具有对于查询中的非面部特征的整体相似性的结果图像。用于进行选择的标准通常是部分地基于用于执行比较的算法的。最后，在416，向用户呈现一个或多个选择的结果图像。

如在本申请中所使用的那样，术语“组件”、“模块”、“引擎”、“系统”、“设备”、“界面”等通常旨在指代与计算机有关的实体，硬件、硬件与软件的结合、软件或者执行中的软件。举例来说，组件可以是但不限定于运行在处理器上的进程、处理器、对象、可执行体、执行的线程、程序和/或计算机。以示例说明的方式，运行在控制器上的应用和该控制器都可以是组件。一个或多个组件可以位于执行的进程和/或线程之中，并且一个组件可以位于一个计算机上和/或分布在两个或更多的计算机之间。

此外，可以将所要求保护的主题实现为方法、设备或使用标准的程序设计和/或工程技术的制造项目，来产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题。在此使用的术语“制造项目”旨在涵盖可以从任何计算机可读的设备、载体或介质访问到的计算机程序。举例来说，计算机可读介质可以包括但不限定于磁存储器设备（例如，硬盘、软盘、磁带…）、光盘（例如，紧致盘（CD）、数字通用盘（DVD）…）、智能卡和闪存设备（例如，卡、棒、键驱动…）。当然，在不脱离所要求保护的主题的范围或精神的情况下，本领域技术人员将会认识到可以对此配置进行很多修改。

虽然已经用专门用于结构特征和/或方法动作的语言描述了主题，但是应当理解，在所附权利要求书中限定的主题并不必需限定于如上所述的特定特征或动作。而是将如上所述的特定特征和动作描述为实现权利要求的示例形式。

Claims

1.一个或多个计算机可读介质，其存储了由计算系统可执行的指令，所述指令包括：

从用户接收（402）包括查询图像的查询；

在查询图像中识别（404）至少一个脸部的存在；

将查询图像中的脸部与包括脸部的多个存储图像进行比较；

确定（408）查询图像中的脸部与包括脸部的多个存储图像中的脸部的相似性；

从多个存储图像当中选择（410）多个结果图像，所述结果图像是包括脸部的图像，该脸部基于一个或多个第一标准被确定为与查询图像中的脸部相似；

将查询图像中的非面部特征与每一个结果图像中的非面部特征进行比较（412），以确定它们之间的整体相似性程度；

基于一个或多个第二标准选择（414）被确定为对于查询图像中的非面部特征具有整体相似性的一个或多个结果图像；以及

向用户呈现（416）一个或多个所选择的结果图像。

2.权利要求1的一个或多个计算机可读介质，其中将查询图像中的脸部与包括脸部的多个存储图像进行比较还包括从脸部提取（406）多个不同的面部特征并且基于逐个特征地对脸部进行比较。

3.权利要求1的一个或多个计算机可读介质，还包括将每一个面部特征量化为视觉词。

4.权利要求3的一个或多个计算机可读介质，还包括按照逆索引对视觉词进行存储。

5.权利要求1的一个或多个计算机可读介质，其中查询图像与多个存储图像的比较包括计算查询图像与每一个被比较的存储图像之间的差向量，并且还包括使用与人类对于不同个体的面部特征之间的相似性感知近似的映射函数将差向量映射到相似性评分，所述映射函数是基于由一个或多个人类估计者指定的相似性评分来确定的。

6.一种用于实现图像匹配的系统，其包括：

存储器（302）和处理器（300）；

存储在存储器中并且可以在处理器上执行的用户界面模块（312），其被配置为提示用户来提供查询图像；

存储在存储器（302）中并且可以在处理器（300）上执行的数据管理模块（314），其被配置为与存储图像数据库进行通信，所述存储图像数据库存储了包括脸部的多个存储图像；以及

存储在存储器（302）中并且可以在处理器（300）上执行的搜索模块（316），其被配置为与数据管理模块（314）协作进行操作以便：识别在查询图像中的至少一个脸部的存在；根据一个或多个预先建立的标准确定查询图像中的脸部与多个存储图像中的脸部的相似性；确定查询图像中的非面部特征与存储图像的子集中的非面部特征的相似性，所述存储图像的子集中的每一个存储图像都具有脸部，该脸部与查询图像中的脸部具有至少规定程度的相似性。

7.权利要求6的系统，其中搜索模块（316）还被配置为：从查询图像和存储图像中的脸部提取多个不同的面部特征并且基于逐个特征地对脸部进行比较；以及将每一个面部特征量化为视觉词。

8.权利要求7的系统，其中搜索模块（316）还被配置为：计算查询图像与每一个存储图像之间的差向量；以及使用与人类对于不同个体的面部特征之间的相似性感知近似的映射函数将差向量映射到相似性评分。

9.一种用于执行图像匹配的方法，其包括：

将第一图像中的脸部与多个存储图中的每一个存储图中的脸部进行比较（110），以便识别包括与第一图像中的脸部相似的面部特征的一个或多个脸部匹配图像；

将第一图像与每一个脸部匹配图像进行比较（112），以便识别一个或多个在空间上相似的结果图像；以及

向用户呈现（114）一个或多个结果图像。

10.权利要求9的方法，其中比较（110）还包括：从脸部提取多个不同的面部特征并且基于逐个特征地对脸部进行比较；将每一个面部特征量化为视觉词；以及按照逆索引对视觉词进行存储。