CN104620240A

CN104620240A - 基于姿势的搜索查询

Info

Publication number: CN104620240A
Application number: CN201380047343.7A
Authority: CN
Inventors: T·梅; J·王; S·李; J-T·孙; Z·陈; S·卢
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2012-09-11
Filing date: 2013-09-06
Publication date: 2015-05-13
Also published as: EP2895967A1; WO2014042967A1; US20140075393A1

Abstract

一种基于图像的文本提取和搜索系统提取用户通过姿势输入选择的图像以及响应于该图像选择的相关联的图像数据和附近的文本数据。所提取的图像数据和文本数据可被用来执行或提升计算机化的搜索。该系统可基于该文本数据确定一个或多个数据库搜索项并生成与该图像数据和文本数据有关的至少第一搜索查询提议。

Description

基于姿势的搜索查询

背景

历史上，通过允许用户以文本形式键入用户提供的搜索术语来进行在线搜索。搜索到结果高度依赖于用户键入的搜索术语。如果用户对一主题不太熟悉，则该用户所提供的搜索术语经常不是将产生有用结果的最佳术语。

而且，随着计算设备已变得更先进，消费者开始更严重地依赖于移动设备。这些移动设备经常具有小屏幕和小用户输入界面，诸如键区(keypad)。从而，经由移动设备来搜索对消费者可能很困难，因为显示屏上的字符的较小尺寸使得所键入的文本难以阅读和/或键区用起来很困难或耗时。

概述

此处描述和要求保护的实现通过提供基于图像的文本提取和搜索而解决了上述问题。根据一个实现，图像可被用户选择，而相关联的图像数据和附近的文本数据可响应于该图像选择而被提取。例如，通过从已选择了网页上的图像的用户接收姿势输入(例如，通过在触摸屏界面上使用手指或指示笔来圈出该图像)，可从该网页提取图像数据和文本数据。该系统随后标识相关联的图像数据和位于所选择的图像附近的文本数据。

根据另一个实现，所提取的图像数据和文本数据可被用来执行计算机化的搜索。例如，可基于所提取的图像数据和所提取的附近的文本数据来向用户呈现一个或多个搜索选项。该系统可基于该文本数据确定一个或多个数据库搜索项并生成与该图像数据和文本数据有关的至少第一搜索查询提议。

提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

此处还描述和列举了其他实现。

附图简述

图1示出从用户选择的图像生成文本数据的示例，该文本数据可在增强用户可用的搜索选项时使用。

图2示出在允许基于用户所选择的图像数据来执行增强的搜索的系统中执行的示例操作。

图3示出用于从输入图像确定文本数据的示例操作。

图4示出用于基于用户所选择的图像来制定计算机化搜索的示例操作。

图5示出用于基于图像数据和来自该图像附近的文本数据来生成搜索查询提议的示例操作。

图6示出用于基于图像数据和文本数据来重新组织所生成的搜索结果的示例操作。

图7示出用于执行基于姿势的搜索的示例系统。

图8示出用于执行基于姿势的搜索的另一个示例系统。

图9示出用于执行基于姿势的搜索的又一个示例系统。

图10示出了可以对实现所描述的技术有用的示例系统。

详细描述

计算设备的用户可使用文本输入来进行搜索。例如，通过输入到浏览器的文本搜索字段中的文本单词的序列，可形成搜索查询。浏览器随后可在计算机网络上执行搜索并向用户返回文本搜索的结果。当消费者知道他或她正在寻找什么的时候，这种系统足以工作，但是当用户关于正搜索的主题或项目知道得不多时，这种系统就不那么有帮助了。例如，用户可能正在搜索他或她在杂志广告上看到但不容易用名字来标识的服饰的文章。而且，消费者可能正搜索消费者不能充分描述的项目。

而且，被呈现给消费者的数据内容是越来越基于图像的数据。而且，这种图像内容经常经由其移动设备，诸如移动电话、平板、和具有基于表面的用户界面的其他设备，来呈现给消费者。这些设备(尤其是移动电话)上的用户界面可能对消费者来说在输入文本时非常难以使用。由于键区的大小，输入文本可能是困难的，并且由于这些移动设备上的显示器的小的尺寸，拼写或标点中的错误可能难以捕捉。从而，文本搜索可能是不方便的，并且有时候是困难的。

图1示出从用户选择的图像生成文本数据的示例，该文本数据可在增强用户可用的搜索选项时使用。使用提供用户界面100的系统，用户能够采用姿势102来选择正被显示的图像以从邻近该图像的文本提取关于该图像的数据和上下文数据。一般而言，姿势是指向计算是河北的输入，其中人的一个或多个物理动作被计算设备检测并解释以向该计算设备传递特定的消息、命令和其他输入。这种物理动作可包括相机检测的移动、触摸屏检测的移动、基于指示笔的输入等，并且可与音频和其他类型的输入相组合。如图1所示，姿势102用围绕设备屏幕上的一图像的圆形描绘或“套索”来表示。根据一个实现，如果用户或作者会认为文本与所发布的图像相关联(例如，基于它相对于所发布的图像的位置)，则认为文本是邻近的。在一个替代实现中，邻近数据可以是从距离图像的边界的预先确定的距离获取的文本。

例如，用户可使用被称为套索的姿势来圈出设备上显示的图像。与显示器相关联的计算设备将套索当作选择所显示的图像的姿势输入来对待，例如，这可使用基于表面的用户界面来完成。

在图1中，用户已利用基于表面的用户界面来圈出用户界面100中所显示的特定的鞋。正显示该图像的计算设备可将该套索与正被显示的内容的特定部分相关。在图1中，该内容是鞋的图像。标识该图像的数据可被用作向数据库的输入以确定与显示器中的鞋的那幅图相关联的文本或数据。在图1的示例中，在用户界面100中在所选择的鞋图像下方列出的文本(即，标识为“在图像附近发布的关键文本”)被该系统确定为邻近该鞋图像并从而与该鞋图像相关联。结果是，该系统可提取该邻近的文本数据，该邻近的文本数据随后可与鞋的图像组合使用以提供增强的搜索选项(如由增强的搜索106所表示的)，诸如所建议的搜索查询。而且，可执行此姿势处理而用户无需键入任何用户生成的搜索项。相反，此实现中的用户可以进使用姿势(例如套索)来选择鞋的图像。

图1中的数据库104可被定位为显示该图像的系统的一部分。替代地，数据库可位于该移动设备的远程。而且，增强的搜索可由该显示设备或由一位于远程的设备执行。

图2示出在允许基于用户所选择的图像数据来执行增强的搜索的系统200中执行的示例操作。该流程的各部分在图2中被分配给用户(在较下部分)、客户端设备(在中间部分)、以及分配给服务器或云(在较上部分)，尽管在其他实现中各操作可被不同地分配。表达操作204指示用户对他或她的意图的表达，诸如通过基于姿势的输入。从而，如由用户界面208所示，用户已圈出在客户端设备的用户界面中呈现的图像。在一个实现中，该图像的源可以是该用户从Web上下载的已准备好的内容。替代地，该图像可以是用户用他或她的移动设备拍摄的照片。也构想了其他替代。用户可选择(例如，通过套索姿势)整个图像或仅选择该图像的一部分以搜索与所选择的部分有关的更多信息。在图2中的该特定实现中，正在显示该图像的设备可基于用户输入姿势来确定哪个图像或图像的哪个部分已被选择。

图2示出了客户端设备不仅能够生成有界的图像查询(查询操作216)，而且还能基于周围的上下文数据(诸如附近的文本数据)(上下文操作212)来生成查询数据。作为对附近的文本数据的替代或附加，该系统可生成与该图像相关联但是未必被显示的嵌入的关键词或元数据。从而，客户端设备可确定哪个文本或元数据邻近或以其他方式与所选择的图像相关联。如同上面指出的，这种确定例如可以通过使用存储图像数据和相关数据(诸如与所显示的图像相关联的相关文本数据)的数据库来做出。相关数据的其他示例包括：图像标题、图像说明(image caption)、描述、标签、围绕或界定该图像的文本、覆盖在图像上的文本、与图像相关联的GPS信息、或其他类型的数据，所有这些均可通过上下文操作212生成。如果文本被覆盖在图像上，则上下文操作212也可通过利用例如光学字符识别来提取文本。

在一个替代实现中，套索输入可被用来围绕图像和文本数据两者。附加的文本数据还可从套索的边界之外提取。用于定位附加属性的搜索可将与被套索的文本有关的信息赋予比与套索外的文本有关的信息更重的权重。

一旦已确定了所选择的图像并且已确定了周围的上下文数据，系统200可生成一个或多个可能的搜索查询。这些搜索查询可基于所提取的数据和所选择的图像来生成，或所提取的数据和图像可首先被用来生成用于文本搜索查询的附加搜索项。

提取操作220执行实体提取，该实体提取可基于通过上下文操作212生成的上下文数据来执行。实体提取操作220可利用邻近所选择的图像的文本数据和词典数据库224来确定附加的可能搜索项。例如，如果在凉鞋的图像的附近发布了单词“凉鞋”，则实体提取操作212可利用文本“凉鞋”和数据库224来生成替代的关键词，诸如“夏季鞋”。从而，系统200不是提议对凉鞋的搜索，而是可提议对夏季鞋的搜索。

类似地，可将所选择的图像数据发送到图像数据库来尝试定位并进一步标识所选择的图像。这种搜索可在图像数据库232中执行。一旦图像在图像数据库232中被检测到，则可定位该数据库中类似的图像。例如，如果用户正在搜索红色鞋子，则数据库可不仅返回对用户所选择的图像的最近匹配，还返回对与其他制造商制造的类似的红色鞋子相对应的图像的最近匹配。这些结果可被用来形成所提议的搜索查询来搜索不同型号的红色鞋子。

根据一个实现，一种可缩放(scalable)的图像索引和搜索算法是基于视觉词汇树(VT)的。通过对表示数据库的一组训练特征描述符执行分层K均值群集来构造VT。从1千万个所采样的密集的规模不变特征变换(SIFT)描述符中可提取总共50,000个虚拟单词，这些虚拟单词随后可被用来构造具有6层分支且每个分支10个节点/子分支的词汇树。该词汇树在高速缓存中的存储可以是约1.7MB，其中每个虚拟单词168字节。VT索引方案提供了适于大规模且可扩展的数据库的快速且可缩放机制。除了VT之外，还可将用户指定的感兴趣区域周围的图像上下文结合到索引方案中。可利用具有数千万图像的大数据库。数据集可从两部分得出，例如：来自Flickr的第一部分，Flickr包括来自10个国家的200个流行陆标的至少700,000个图像，每个图像与其元数据(标题、描述、标签以及概括的用户评论)相关联；以及来自Yelp的本地商业集合的第二部分，Yelp包括350,000个与12个城市中的16,819家餐馆相关联的用户上传的图像(例如，食物、菜单等)。

除了执行对图像的搜索并生成可能图像的输出之外，那些图像的特征可被用来提议搜索查询。例如，如果在搜索中定位的所有图像是女人的鞋，则最终搜索查询可着重于女人的物品，而不是男人和女人两者的物品。如此，系统200不仅提取位于图像附近的数据，而且系统200可利用对所提取的数据的搜索结果以及基于所选择的图像的搜索结果来标识进一步的数据以在所提议的搜索查询中使用。

从而，根据一个实现，可执行不同的分析来便于搜索查询生成。例如，“上下文确认”允许有效的产品专用特性的提取，而大规模图像搜索允许找到类似图像以从视觉角度理解产品的特性。而且，属性挖掘允许从先前的两个分析发现诸如产品的性别、品牌名称、类别名称等属性。

在此示例中生成附加关键词和可能的图像之后，建议操作234制定并建议用户可能想要做出的一个或多个可能的搜索查询。例如，系统200可采用用户选择的网球鞋的图像和指示与网球有关的物品的周围的文本数据并使用该数据来生成网球鞋的不同品牌的提议的搜索查询。从而，系统200可向消费者提议“搜索耐克制造的网球鞋？”或“搜索阿迪达斯制造的网球鞋？”或仅“搜索网球鞋？”的搜索查询。

一旦所提议的搜索查询被呈现给用户，重新制定操作240向用户呈现所述建议并允许用户在适当时重新制定所述搜索。从而，用户可将上面列出的搜索查询中的一个重新制定为：“搜索耐克制造的用于拍墙球(racquetball)的鞋。”替代地，用户可简单地选择所制定的搜索查询中的一个或多个，如果所述搜索查询对用户的预期目的来说令人满意的话。

所提议的搜索查询也可用图像数据来制定。从而，例如，图像可被用于购买特定的服装。可将该图像与所提议的搜索查询一起显示给用户。

所选择的搜索查询可在适当的数据库中实现。例如，图像搜索可在图像数据库中进行。文本搜索可在文本数据库中进行。在用户指导所选择或修改的搜索进行后，搜索操作236执行上下文图像搜索。为了节省时间，所有搜索可在用户思考要选择哪个所提议的搜索查询的同时进行。随后，可为所选择的搜索查询显示相应的结果。

一旦用户已选择了搜索查询且该搜索查询的搜索结果244已经被生成，则可进一步对搜索结果排序。也可用其他方式重新布置搜索结果244(例如，重新分组、过滤等)。

例如，如果用户正在搜索服装，则搜索结果可提供对可购买服装品的各个站点的推荐248。在这种示例中，任务推荐248用于用户从以最低价格提供该服装的站点购买该物品。

从而，如从图2中可见，通过如下动作可实现自然交互体验：1)使用户通过选择图像来明确且有效地表达他或她的意图；2)使客户端计算设备捕捉被界定的图像并从该图像的周围上下文提取数据；3)通过通过分析周围上下文的属性来生成示例性图像并建议新关键词，使服务器重新制定多模态查询；4)使用户在可良好地捕捉他/她的意图的扩展查询中与各项交互；5)使系统基于所选择的搜索查询来搜索；以及6)基于从用户选择的图像生成的属性重新组织搜索结果以推荐具体任务。

图3示出用于从输入图像确定文本数据的示例操作300。接收操作302(例如，通过由用户操作的计算设备执行)从用户接收姿势输入。该姿势可以是经由用户界面输入到该设备的。例如，该姿势可以经由该设备的用户界面输入的。该姿势可被用来选择向用户显示的图像。而且，该姿势可被用来选择向用户显示的图像的一部分。确定操作304确定位于所选择的图像附近的文本数据。这种文本数据可包括围绕该图像的文本、与该图像相关联的元数据、覆盖在该图像上的文本、与该图像相关联的GPS信息、或与特定的所显示的图像相关联的其他类型的数据。此数据可被用来执行增强的搜索。

在一个替代实现中，可允许用户选择图像。可在图像数据库上搜索该图像。希望搜索的排名最前的结果(top result)是所选择的图像。然而，不论该结果是否是所选择的图像，探究该搜索结果的元数据来提取关键词。那些关键词随后可被投射到先前计算的词典上。例如，可使用Okapi BM25排序函数。基于文本的检索(retrieval)结果随后可被重新排序。

图4示出用于基于用户所选择的图像来制定计算机化搜索的示例操作400。输入操作402经由计算设备的用户界面从用户接收姿势输入。该姿势输入可制定特定图像或特定图像的一部分。确定操作404确定位于所选择的图像附近的文本数据(例如，正显示该图像的计算设备可确定该文本数据)。例如，该文本数据可从与作为网页的一部分的图像相关联的HTML代码来确定。替代地，远程设备(诸如远程数据库)可确定位于所选择的图像附近的文本数据。例如，可访问内容服务器并且可从该内容服务器上的文件来确定附近的文本数据。

作为姿势输入的结果，而无需用户提供任何用户生成的搜索项，搜索操作406发起基于文本的搜索。制定操作408使用该用户的姿势所选择的图像和确定与所选择的图像相关联的文本数据的至少一部分来制定计算机化的搜索。

图5示出用于基于图像数据和来自该图像附近的文本数据来生成搜索查询提议的示例操作500。所示出的实现描绘了基于1)输入图像数据和2)位于原始文档中该图像附近的文本数据来生成搜索查询。接收操作502接收从文档提取的图像数据。接收操作504接收文档中位于该图像数据附近的文本数据。确定操作506确定与该文本数据相关的一个或多个搜索项。生成操作508利用图像数据和文本数据来在计算机中生成与该图像数据和文本数据有关的至少第一搜索查询提议。

图6示出用于基于图像数据和文本数据来重新组织所生成的搜索结果的示例操作600。接收操作602接收从文档提取的图像数据。另一接收操作604接收位于该图像数据中的图像附近的文本数据。确定操作606确定与该文本数据相关的一个或多个附加搜索项。确定操作606还可确定与该图像数据相关的一个或多个附加搜索项。类似地，确定操作606还可确定与该文本数据和该图像数据两者均相关的一个或多个附加搜索项。

生成操作608使用该图像数据和文本数据来在计算设备中生成与该图像数据并与该文本数据有关的至少第一搜索查询提议。在许多情况下，可生成多个不同的搜索查询来向用户提供不同的搜索查询选项。呈现操作610向用户呈现该一个或多个所提议的搜索查询选项(例如，经由计算设备上的用户界面)。

接收操作612从用户接收信号(例如，经由该计算设备的用户界面)，该信号可被用作输入以指示用户已选择了第一搜索查询提议。如果向用户提议了多个搜索查询，则该信号可指示用户选择了这多个查询中的哪个。

替代地，用户可修改所提议的搜索查询。被修改的搜索查询可被返回并被指示为是用户想要搜索的搜索查询。

搜索操作614进行与所选择的搜索查询相对应的计算机实现的搜索。一旦接收了来自所选择的搜索查询的搜索结果(如由接收操作616所示)之后，这些搜索结果可被重新组织(如由重新组织操作618所示)。例如，可基于原始图像数据和原始文本数据来重新组织搜索结果。而且，可基于所从原始图像数据和原始文本数据生成的增强的数据来重新组织搜索结果。甚至可以基于在搜索结果中注意到的趋势和原始搜索信息来重新组织搜索结果。例如，如果原始搜索信息指示对特定类型的鞋的搜索但是没有指示与该鞋相关联的可能性别，并且如果从搜索所返回的搜索结果指示大部分搜索结果是对女人的鞋的，则可重新组织搜索结果以将对男人的鞋的结果在结果列表中更靠下，这表示较不可能是用户感兴趣的结果。

呈现操作620向用户呈现搜索结果(例如，经由计算设备的用户界面)。例如，可经由图形显示器向用户呈现该组经组织的搜索结果中的每一个结果的图像数据。此呈现便于用户在该移动设备上选择所述搜索结果或所呈现的图像中的一个。根据一个实现，用户的选择可以是用户购买所显示的结果或执行所显示的结果的进一步比较购买(comparison-shopping)。

图7示出用于执行基于姿势的搜索的示例系统700。在系统700中，示出了计算设备704。例如，计算设备704可以是具有视觉显示器的移动电话。该计算设备被示出为具有可输入基于姿势的信号的用户界面708。计算设备704被示出为与计算设备712耦合。计算设备712可具有文本数据提取模块716以及搜索制定模块720。文本数据提取模块允许计算设备712咨询数据库724来确定位于所选择的图像附近的文本数据。从而，文本数据提取模块可接收具有图像特性的所选择的图像作为输入。那些图像特性可被用来在数据库724上定位所选择的图像在那里出现的文档。可确定该文档中靠近该所选择的图像的文本。

搜索制定模块720可采用所选择的图像数据和所提取的文本数据来如上所述地制定至少一个搜索查询。可经由计算设备704呈现该一个或多个搜索查询以供用户选择。所选择的搜索查询可随后在数据库728中执行。

图8示出用于执行基于姿势的搜索的另一个示例系统800。在系统800中，计算设备804被示出为具有用户界面808、文本数据提取模块812、以及搜索制定模块816。此实现类似于图7，不同在于文本数据提取模块和搜索制定模块驻留于用户的计算设备上而不是远程计算设备上。文本数据提取模块可利用数据库820来定位所选择的图像在那里出现的文件，或者文本数据提取模块可利用已呈现给计算设备804的文件来显示原始文档。搜索制定模块816可按照与图7中示出的搜索制定模块类似的方式操作，并且可访问数据库824以实现最终选择的搜索查询。

图9示出用于执行基于姿势的搜索的又一个示例系统900。示出了可在那里选择图像的用户-计算设备904。可经由计算设备908向用户呈现相应的图像。如在上面描述的实现中指出的，可通过使用所选择的图像作为开始点来生成文本数据和附加的潜在搜索项。计算设备908可利用搜索制定模块912来制定可能的搜索查询。浏览器模块916可在数据库924上实现所选择的搜索查询，而重新组织模块920可重新组织浏览器模块所接收的搜索结果。可经由用户的计算设备904向用户呈现经重新组织的结果。

图10示出了可以对实现所描述的技术有用的示例系统。图10的用于实现所述技术的示例硬件和操作环境包括游戏控制台或计算机20形式的一般用途计算设备之类的计算设备、移动电话、个人数据助理(PDA)、机顶盒或其他类型的计算设备。例如，在图10的实现中，计算机20包括处理单元21、系统存储器22，以及将包括系统存储器的各种系统组件连接到处理单元21的系统总线23。可以有只有一个或可以有一个以上的处理单元21，以便计算机20的处理器包括单一中央处理单元(CPU)，或常常被称为并行处理环境的多个处理单元。计算机20可以是常规计算机、分布式计算机、或者任何其它类型的计算机；各实现不限于此。

系统总线23可以是若干类型的总线结构中的任何一种，包括使用各种总线体系结构中的任何一种的存储器总线或存储器控制器、外围总线，开关互连、点到点连接，以及局部总线。系统存储器也可以简称为存储器，并包括只读存储器(ROM)24和随机存取存储器(RAM)25。基本输入/输出系统(BIOS)26通常存储在ROM 24中，包含了诸如在启动过程中帮助在计算机20内的元件之间传输信息的基本例程。计算机20还包括用于对硬盘(未示出)进行读写的硬盘驱动器27、用于对可移动磁盘29进行读写的磁盘驱动器28、以及用于对可移动光盘31，如CD-ROM、DVD或其它光介质进行读写的光盘驱动器30。

硬盘驱动器27、磁盘驱动器28，以及光盘驱动器30分别通过硬盘驱动器接口32、磁盘驱动器接口33，以及光盘驱动器接口34连接到系统总线23。驱动器以及它们相关联的有形计算机可读介质为计算机20提供了计算机可读指令、数据结构、程序模块，及其他数据的非易失存储器。本领域的技术人员应该理解，诸如磁带盒、闪存卡、数字视盘、随机访问存储器(RAM)、只读存储器(ROM)等等之类的可以存储可被计算机访问的数据的任何类型的有形计算机可读介质，也可以用于示例操作环境中。

可以有若干个程序模块存储在硬盘、磁盘29、光盘31、ROM 24，和/或RAM 25上，包括操作系统35、一个或多个应用程序36、其他程序模块37、以及程序数据38。用户可以通过诸如键盘40和定向设备42之类的输入设备向个人计算机20中输入命令和信息。其他输入设备(未示出)可包括话筒(例如，用于语音输入)、相机(例如，用于自然用户界面(NUI))、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些及其他输入设备常常通过耦合到系统总线的串行端口接口46连接到处理单元21，但是，也可以通过其他接口，如并行端口、游戏端口、通用串行总线(USB)端口、来进行连接。监视器47或其他类型的显示设备也可以通过诸如视频适配器48之类的接口来连接到系统总线23。除了监视器之外，计算机还通常包括其他外围输出设备(未示出)，如扬声器和打印机。

计算机20可以使用到一个或多个远程计算机(如远程计算机49)的逻辑连接，在联网环境中操作。这些逻辑连接由耦合至计算机20或者作为计算机20一部分的通信设备来实现；各实现不限于特定类型的通信设备。远程计算机49可以另一计算机、服务器、路由器、网络PC、客户机、对等设备或其他公共网络节点，并通常包括上文参考计算机20所描述的许多或全部元件，虽然在图10中只示出了存储器存储设备50。图10中所描绘的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这样的网络环境在办公室网络、企业范围的计算机网络、内部网和因特网(它们都是各种网络)中是普遍现象。

当用于LAN网络环境中时，计算机20通过网络接口或适配器53(这是一种通信设备)连接到局域网51。当用于WAN网络环境中时，计算机20通常包括调制解调器54、网络适配器(一种通信设备)，或用于通过广域网52建立通信的任何其他类型的通信设备。或为内置或为外置的调制解调器54经由串行端口接口46连接到系统总线23。在联网环境中，参考个人计算机20所描述的程序引擎，或其某些部分，可以存储在远程存储器存储设备中。可以理解，所示出的网络连接只是示例，也可以使用用于在计算机之间建立通信链路的其他装置和通信设备。

各种应用借助于基于图像的搜索。例如，基于图像的搜索预计在购物中特别有用。它还在标识陆标时有用。而且，它将在提供关于餐馆的信息时具有适用性。这些只是几个示例。

在一示例实现中，用于提供用户界面、提取文本数据、制定搜索、以及重新组织搜索结果的软件或固件指令、和其他硬件/软件块被存储在存储器22和/或存储设备29或31中并由处理单元21处理。搜索结果、图像数据、文本数据、词典、存储图像数据库以及其他数据可以被存储在作为永久性数据存储的存储器22和/或存储设备29或31中。

一些实施方式可包括制品。制品可包括用于存储逻辑的有形存储介质。存储介质的示例可包括能够存储电子数据的一种或多种类型的计算机可读存储介质，包括易失性存储器或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器、可写或可重写存储器等。逻辑的示例可包括各种软件元素，诸如软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组合。例如，在一个实施例中，制品可以存储可执行计算机程序指令，该指令在由计算机执行时使得该计算机执行根据所描述的各实施例的一种方法和/或操作。可执行计算机程序指令可包括任何合适类型的代码，诸如源代码、已编译代码、已解释代码、可执行代码、静态代码、动态代码等。可执行的计算机程序指令可根据用于指示计算机执行特定功能的预定义的计算机语言、方式或句法来实现。这些指令可以使用任何合适的高级、低级、面向对象、可视、编译、和/或解释编程语言来实现。

在此所述的实现可以实现为一个或多个计算机系统中的逻辑步骤。逻辑操作可以实现为(1)在一个或多个计算机系统中执行的处理器实现的步骤的序列，以及(2)一个或多个计算机系统内的互连机或电路模块。该实现是取决于所利用的计算机系统的性能要求的选择的问题。因此，组成在此描述的各实现的逻辑操作另外还可被称为操作、步骤、对象、或模块。此外，还应该理解，逻辑操作也可以以任何顺序执行，除非明确地声明，或者由权利要求语言固有地要求特定的顺序。

以上说明、示例和数据提供了对示例性实现的结构和使用的全面描述。因为可以在不背离所要求保护的发明的精神和范围的情况下做出许多实现，后面所附的权利要求书定义本发明。此外，在又一实现中不同示例的结构特征可以相组合而不背离所记载的权利要求书。

Claims

1.一种方法，包括：

经由计算设备的用户界面接收姿势输入以选择经由所述用户界面显示的图像；以及

标识位于所选择的图像附近的文本数据。

2.如权利要求1所述的方法，其特征在于，还包括：

基于所选择的图像和被确定为在所选择的图像附近的所述文本数据的至少一部分来制定计算机化的搜索。

3.如权利要求1所述的方法，其特征在于，所述标识操作包括：

利用显示所述图像的所述计算设备来确定位于所选择的图像附近的文本数据。

4.如权利要求1所述的方法，其特征在于，所述标识操作包括：

访问位于所述计算设备的远程的数据库；以及

基于来自所述数据库的数据来标识位于所选择的图像附近的文本数据。

5.如权利要求1所述的方法，其特征在于，还包括：

将所述姿势输入解释为选择更大的图像的一部分。

6.如权利要求1所述的方法，其特征在于，还包括：

作为所述姿势输入的结果，在没有经由所述用户界面键入任何文本搜索术语的情况下发起基于文本的搜索。

7.如权利要求1所述的方法，其特征在于，还包括：

基于所述图像数据确定附加搜索术语。

8.如权利要求1所述的方法，其特征在于，还包括：

基于位于所述图像数据附近的所述文本数据来确定附加搜索术语。

9.一个或多个计算机可读存储介质，所述计算机可读存储介质编码有用于在计算机系统上执行计算机过程的计算机可执行指令，所述计算机过程包括：

标识位于所选择的图像附近的文本数据。

10.一种系统，包括：

计算设备，所述计算设备呈现用户界面并被配置成经由计算设备的用户界面接收姿势输入以选择经由所述用户界面显示的图像；以及

文本数据提取模块，所述文本数据提取模块被配置成标识位于所选择的图像附近的文本数据。