CN101449271A - 通过搜索进行注释 - Google Patents

通过搜索进行注释 Download PDF

Info

Publication number
CN101449271A
CN101449271A CNA2007800178426A CN200780017842A CN101449271A CN 101449271 A CN101449271 A CN 101449271A CN A2007800178426 A CNA2007800178426 A CN A2007800178426A CN 200780017842 A CN200780017842 A CN 200780017842A CN 101449271 A CN101449271 A CN 101449271A
Authority
CN
China
Prior art keywords
image
note
visual
trooping
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800178426A
Other languages
English (en)
Other versions
CN101449271B (zh
Inventor
L·张
X-J·王
F·景
W-Y·马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101449271A publication Critical patent/CN101449271A/zh
Application granted granted Critical
Publication of CN101449271B publication Critical patent/CN101449271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

描述了通过搜索进行注释。在一个方面,在数据存储中搜索与给定图象的基线注释语义相关且与该给定图象在视觉上相似的图象。然后用关联于语义和视觉相关的图象的至少一个子集的注释的共同概念来注释该给定图象。

Description

通过搜索进行注释
背景
注释数字图象的传统方法是用一或多个语义相关的关键词注释每个数字图象。这样的关键词通常用于促进在基于计算机的搜索环境中进行基于关键词的图象搜索和检索操作(例如,跨计算设备、数据库、因特网等等)。因为在这样的搜索环境中一般存在非常大量的数字图象,为促进图象搜索和检索操作而对数字图象进行的人工注释是劳动密集且很耗时的任务。
概述
描述通过搜索进行注释。在一个方面,在数据存储中搜索与给定图象的基线注释语义相关且与该给定图象在视觉上相似的图象。然后以关联于语义和视觉上相关的图象的至少一个子集的注释的共同概念来注释该给定图象。
提供本概述以便用简化的形式介绍在下面的详细描述中进一步描述的一些概念。本概要不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
在附图中,组件参考标号的最高位数字标识该组件在其中首次出现的具体附图。
图1按照一个实施例示出用于通过搜索进行注释的示例性系统。
图2按照一个实施例示出用于通过搜索进行注释的示例性过程。
图3按照一个实施例示出用于通过搜索进行注释的示例性数据和过程流。
详细描述
综览
描述用于通过搜索进行注释的系统和方法。该系统和方法对本地和/或远程数据库执行基于关键词的搜索以查找与给定图象的基线注释语义相关的数字图象。该系统和方法度量每一个语义相关图象与该给定图象的视觉相似性。这些视觉相似性度量用于选择在视觉空间中比其它语义相关图象与给定图象更相关的图象。这些选择的图象在文本和视觉空间中与给定图象相似。关联于所选图象的候选补充注释是从所选图象的相应上下文中提取的。群集所提取的注释。每个群集包括具有共同或相关概念的注释。例如,关联于蜜蜂在玫瑰上的图象的注释的群集可包含与蜜蜂、玫瑰等相关的注释。该系统和方法使用一或多个评分准则来对概念的显著程度(saliency)排序以标识排序之前的概念的集合。该系统和方法用由排序在前的概念提供的信息的至少一个子集来注释给定图象。
现在更详细地描述用于通过搜索进行注释的系统和方法的这些和其它方面。
示例性系统
尽管不是必需的,但在由诸如个人计算机的计算设备执行的计算机可执行指令的一般上下文中描述用于通过搜索进行注释的系统和方法。程序模块通常包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。尽管在上述上下文中描述该系统和方法,但在下文描述的动作和操作也可用硬件来实现。
图1按照一个实施例示出用于注释图象的示例性系统100。系统100包括例如计算设备102。计算设备102表示任何类型的计算设备,诸如通用计算设备、服务器、膝上型计算机、移动计算设备等。计算设备102包括耦合至系统存储器106的一或多个处理器104。系统存储器106包括易失性存储器(例如RAM)和非易失性存储器(例如ROM、闪存、硬盘、光盘等)。系统存储器106包括计算机程序模块108和程序数据110。处理器104从各个程序模块108取得并执行计算机程序指令。程序模块108包括例如用无限词汇表的显著且补充的注释来自动注释给定图象114的注释模块112。程序模块108还包括例如诸如提供运行时环境的操作系统、基于关键词的搜索应用程序、图象比较和排序应用程序、文本/文档群集应用程序、web爬寻器应用程序等等之类的其它程序模块118。
为标识显著且补充的注释116,注释模块112对远程数据库119和/或本地数据库执行标准的基于关键词的搜索以查找与给定图象114的基线注释122语义相关的数字图象(即挖掘出的图象120)集合。在一个实现中,基线注释122表示关联于给定图象114的位置、事件名字、文件夹名字、描述等、网页上围绕给定图象114的文本、关联于与给定图象114有关(例如,在同一网页上、在同一文件夹中等等)的其它图象的文本、从用户收到的查询输入等等之类。本地和/或远程数据库表示用于数字图象的任何类型的数据存储。例如,数据存储可以是CD、软盘和/或在任何其它可移动存储介质上、硬盘等中的一或多个。为了示例性说明,本地数据库示为“其它程序数据”124的相应部分。在一个实现中,本地和/或远程数据库是由爬寻器程序模块用带注释的数字图象填充的、由个人上传的等等之类。在该实现中,远程数据库119示为通过网络123耦合至计算设备102。网络123可包括局域网(LAN)和一般广域网(WAN)通信环境的任何组合,诸如在办公室、企业级计算机网络、内联网和因特网中常见的网络。
视觉相似性度量
所述基于关键词的搜索操作返回与基线注释122语义相关的挖掘出的图象120。然而,内容作者使用的词汇差别可能非常大,并且自然语言中的大部分词语具有固有的歧义性。因此,关键词不总是对相关文档内容的良好描述符。这样的歧义性通常导致基于关键词的搜索的关键词/文档项失配问题。因为表示注释的关键词可能是有歧义的,所以注释模块112还评估挖掘出的图象120以标识还至少在概念上在视觉空间中与给定图象114相关的图象(所标识的图象也可能是给定图像114的复制品和/或实质上在视觉上与给定图象114相似)。更具体地,注释模块112比较挖掘出的图象120的视觉特征和给定图象114的视觉特征以生成视觉相似性度量(即排序)来标识不仅在文本空间中(即语义相关)而且在视觉空间中与给定图象114相关的图象。(视觉相似性度量被示为“其它程序数据”124的相应部分)。存在许多已知的用于比较数字图象之间的视觉相似性的技术。
在该实现中,例如,注释模块112如下编码给定图象114和挖掘出的图象120的视觉特征以生成每个数字图象的相应散列签名。在该实现中,注释模块112使用众所周知的基于N-箱(例如36箱)色彩相关图的操作来为给定图象114和每个挖掘出的图象120创建相应的特征向量。除了基于色彩相关图的技术,还可使用其它已知技术来生成特征向量。注释模块112将所生成的特征向量与从大量数字图象(例如数百万图象)生成的PCA变换模型相乘用于随后量化为二进制位进行比较。例如,如果特征向量的一个元素大于关联于PCA变换模型的最大本征向量的平均值,则注释模块112将该元素量化(编码)为1,否则将该元素编码为0。这些二进制编码表示相应的散列签名。
注释模块112使用每个挖掘出的图象120的散列签名和给定图象114的散列签名来度量每个挖掘出的图象120与给定图象114之间的视觉相似性。注释模块120可以使用一或多个已知技术来度量这样的视觉相似性。例如,注释模块112可以实现数字图象视觉空间距离度量的多种技术中的一或多个,诸如散列码去重复加欧几里德距离、散列码距离、加权散列码距离或者可用于度量视觉相似性的其它技术。在一个实现中,例如,注释模块112使用散列码去重复加欧几里德距离来度量挖掘出的图象120与给定图象114之间的视觉相似性。在该示例中,注释模块112使用给定图象114的散列签名的高n位片段作为度量视觉相似性的指数。(高位对应于较大的本征向量,表示视觉空间中的较大距离)。注释模块112基于关联于语义相关图象的相关图计算欧几里德距离。
在另一个示例中,注释模块112使用散列码距离来度量挖掘出的图象120与给定图象114之间的视觉相似性。例如,在一个实现中,注释模块112使用海明距离来度量两个对应图象之间的不同位的数量并且确定图象相似性度量。对于使用加权散列码距离,因为通常认为高位为比低位更重要,所以注释模块112为(关联于正在比较的图象的)高位之间的差提供比低位之间的差大的权重。注释模块112将散列签名均匀地分到各箱中(例如,将32位的散列码分到8个箱中)并且用28-i,1≤i≤8对第i个箱加权。可修改该公式以将它调整至最佳的结果。例如,如果箱数不等于八,则调整该公式来表示正在使用的箱数。如此,第一图象与第二图象之间的视觉距离(排序)就是加权的海明距离。
注释模块112基于各个挖掘出的图象120与给定图象114之间的视觉相似性度量标识挖掘出的图象120中的N个排序在前的图象126。在该实现中,参数N可以基于系统100的具体实现来配置。例如,在一个实现中,N等于2000,但N也可以是不同值。
示例性注释预测
注释模块112检索或提取关联于排序在前的图象126的其它注释。这些其它注释被示为所提取的注释128。这些其它注释是由注释模块(或者从不同的程序模块诸如web爬寻模块)从排序在前的图象126在本地和/或远程数据库中的相应位置中的上下文中检索到的。这样的上下文包括,例如资源(排序在前的图象126)的标题、关联于资源的目录文件夹的名字、资源的描述、网页上或文本中关联于资源的文本、关联于与资源有关(例如在同一网页上、在同一文件夹、文档等中)的其它图象的文本、指定资源位置的通用资源标识符(URI)、资源的类别等等之类。
注释模块112群集所提取的注释128(即将所提取的注释128的每一个作为一个相应的文档来对待)以标识所提取的注释128中排序在前的概念(例如词语和/或短语)。为了示例性说明,这样的群集和概念被示为“其它程序数据”124的相应部分。在一个实现中,例如,注释模块112通过实现(或者从“其它程序模块”118访问)群集操作来标识这些概念,群集操作诸如有Zeng,H.J.、He,Q.C.、Chen,Z.和Ma,W.Y在英国谢菲尔德的第27届信息检索研究与发展国际年会(2004年七月)中第210-217页“Learning to Cluster Web SearchResults(学习群集web搜索结果)”中所述的操作,尽管也可使用不同的群集技术。群集操作生成多个群集,每个群集分配相应的共同概念(或者显著短语)。
为获得每个群集的共同概念(群集名字),群集操作从所提取的注释128提取短语(n元语法),并且计算每一个所提取短语的一或多个性质(例如,短语频次、文档频次(即短语对注释的频次)等等)。群集操作应用预配置的回归模型将计算得到的性质组合成每个群集的单一显著性得分。使用显著性得分,群集操作使用排序在前的短语作为候选群集的共同概念(名字)。这些候选群集进一步按照它们相应的文档(即关联于数字图象的文档)来合并以向每个群集分配最终显著性得分。
在该实现中,并且对于每个群集,使用阈值来为该群集合并(筛选)候选的排序在前的图象126(也可使用其它技术来对于各个群集合并图象)。阈值等于图象相似性权重*平均视觉相似性得分。在该实现中,相似性权重基于特定的群集操作实现选自0.8到1.6的范围,但也可使用其它范围。例如,在该实现中,相似性权重等于1.2(当相似性权重等于1.6时,没有足够的图象用于群集,而当相似性权重被设置为.08时,几乎所有的图象用于群集)。平均图象视觉相似性得分等于图象i与给定图象114的视觉相似性的总和(即由上述关键词和视觉筛选操作输出)除以挖掘出的图象120的数量。
群集的最终显著性得分可以使用各种准则来确定。例如,群集的最终显著性得分可以使用最大群集大小准则、平均成员图象得分准则等来确定。对于最大群集大小准则,即最大后验估计(MAP),该准则假设对于给定图象114具有最大显著性的共同概念是群集成员图象的主要概念的短语。因而,按照该技术,群集的最终显著性得分等于其成员图象的数量。在该实现中,例如,使用最大群集大小准则并且选择最大的3个群集(以及相关联的群集名字)。
关于使用平均成员图象得分准则来向群集分配显著性得分,该技术使用成员图象相似性的平均值作为群集的得分。如果群集中的所有图象是与基线注释122最相关的,则该群集的共同概念将有可能表示给定图象114的概念。为此,使用阈值(或者其它准则)作为确定是否要从最终的群集集合中省略排序在后的群集的间隔。在该实现中,阈值按照下面的公式来设置:0.95*(排序为i-1的群集的得分),其中i表示当前群集的排序。如果当前群集(即,排序为i的群集)的得分小于该阈值,则不使用当前群集和所有其它更低排序的群集。如果多于特定数量的群集(例如,3个或某个其它数量的群集)超过该阈值,则仅使用特定数量(例如,3个或某个其它数量)的排序在前的群集来标识最终提取的概念。
在该实现中,注释模块112通过从关联于具有超过该阈值的最终显著性得分(排序)的群集的共同概念(群集名字)中移除重复的关键词、项等来生成具有显著且补充的注释116。注释模块112用显著且补充的注释116注释给定图象114。
示例性过程
图2按照一个实施例示出用于通过搜索进行注释的示例性过程200。为了示例性说明和描述,参考图1的组件描述过程200的操作。在框202,标识与给定图象114的基线注释122语义相关的数字图象(即挖掘出的图象120)的集合。作为一个示例,注释模块112对本地和/或远程数据库执行基于关键词的搜索以查找与给定图象114的基线注释122语义相关的数字图象(即挖掘出的图象120)的集合。在一个实现中,给定图象114和基线注释122表示来自计算设备102的用户的搜索查询(在“其它程序数据”124中示出)。用户可以经由输入设备(未示出)诸如键盘、定点设备、语音识别等将命令和信息输入到计算机102中。在另一个实现中,给定图象114和基线注释122表示来自远程计算设备132的用户的搜索查询130,远程计算设备132通过网络123耦合至计算设备102。例如,远程计算设备130的用户。
在框204,度量(排序)每个挖掘出的图象120与给定图象114的视觉相似性。在一个实现中,例如,注释模块112度量每个挖掘出的图象120与给定图象114的视觉相似性。存在多种可能的用于度量每个挖掘出的图象120与给定图象114之间的视觉相似性的技术。这样的技术包括,例如散列码去重复加欧几里德距离、散列码距离、加权散列码距离等等。
在框206,标识(得到)挖掘出的图象120中与给定图象114在视觉上最相似的排序在前的图象126。在一个示例中,注释模块112基于各个挖掘出的图象120与给定图象114之间的视觉相似性度量(即视觉相似性排序)从挖掘出的图象120中标识排序在前的图象126。在该实现中,排序在前的图象126的数量可基于系统100的具体实现来配置。在框208,从排序在前的图象126的上下文中提取关联于排序在前的图象126的其它注释(即,所提取的注释128)。这样的上下文包括,例如资源(排序在前的图象126)的标题、关联于资源的目录文件夹的名字、资源的描述、网页上或文本中关联于资源的文本、关联于与资源有关(例如在同一网页上、在同一文件夹、文档等中)的其它图象的文本、指定资源位置的通用资源标识符(URI)、资源的类别等等之类。在一个示例中,注释模块112检索或提取关联于排序在前的图象126的其它注释(即所提取的注释128)。
在框210,群集所提取的注释128以从所提取的注释128中标识排序在前的共同概念(例如,包含显著且补充的注释116的词语和/或短语)。这些排序在前的共同概念被示为显著且补充的注释116。在一个实现中,注释模块112群集所提取的注释128以标识显著且补充的注释116。在框212,用显著且补充的注释116的至少一个子集来注释(补充)给定图象114。例如,在一个实现中,在用显著且补充的注释116注释给定图象114之前从显著且补充的注释116中移除重复的关键词、项等。在一个实现中,注释模块112用显著且补充的注释116的至少一个子集来注释给定图象114。
图3按照一个实施例示出用于通过搜索进行注释的数据和过程流的示例性框架300。为了示例性描述和参考,参考图1和2的组件和/或操作来描述框架300的各方面。在该描述中,参考标号的最高位数字指示其中该组件或操作首次出现的附图。
参考图3,框架300示出用于通过搜索进行注释的三个阶段,包括(由数字(1)示出的)基于关键词的搜索阶段、(由数字(2)示出的)视觉特征搜索阶段和(由数字(3)示出的)注释群集或学习阶段。数据302表示关联于图象304(即给定图象114)和说明文字306(即基线注释122)的查询。在一个实现中,查询302是从计算设备102或远程计算设备132的用户收到的搜索查询(例如请见图1的查询130)。在该示例中,查询图象304是至少包括湖、云和树的风景。可以理解,该查询图象304可以表示任何类型的图象。在该示例中,说明文字306指示用于注释查询图象304的词语“日落”。
操作308使用说明文字306(“日落”)对数据库310执行基于关键词的搜索以标识与该查询图象语义相关的图象312(即挖掘出的图象120)的集合。数据库310表示图1的系统100的本地和/或远程图象数据库的任意组合。关联于说明文字306的信息的数据流在图3中用实线示出。操作309为查询图象304和语义相关图象312中的每一个生成相应的散列映射/签名314用于以后的相似性搜索操作。关联于给定图象114的信息的数据流在图3中用虚线示出。
操作316通过使用每个图象312的相应散列签名314和查询图象304的散列签名314来对语义相关图象312与查询图象314的视觉相似性排序(即度量)。存在各种用于使用散列签名314来度量该视觉相似性(或距离)的技术。这样的技术包括,例如散列码去重复加欧几里德距离、散列码距离、加权散列码距离等等。框架300使用视觉相似性排序来选择可配置数量的、在视觉上比其它图象312与查询图象304更相似的图象312。这些在视觉上更相似的图象312被示为排序在前的图象318(318-1至318-N)。排序在前的图象318表示图1的排序在前的图象126。
框架300从关联于排序在前的图象318的上下文中提取注释。如上所述,这样的上下文包括,例如图象318的标题、关联于图象318的目录文件夹的名字、图象318的描述、网页上或者在文档中关联于图象318的文本、关联于与图象318有关(例如在同一网页上、在同一文件夹、文档等之中)的其它图象的文本、指定图象318的位置的通用资源标识符(URI)、图象318的类别等等之类。这些所提取的注释被示为所提取的注释320(即图1的所提取的注释128)。关联于所提取的注释320的数据流用关联于阶段(3)的虚点线来示出。
在框322,框架300执行搜索结果群集(即分组)操作来从所提取的注释320的群集(例如群集326-1至326-N)标识排序在前的共同概念(例如,补充注释324-1至324-N)。在该实现中,这些共同概念是使用Zeng,H.J.、He,Q.C.、Chen,Z.和Ma,W.Y,于英国谢菲尔德的第27届信息检索研究与发展国际年会(2004年七月)第210-217页“Learning to Cluster Web Search Results(学习群集web搜索结果)”中描述的操作来确定的,但也可使用不同的群集技术。
尽管每个群集326用相应的图象集合和基本的共同概念324示出,但群集326不包含图象。相反,每个群集326包含某些所提取的注释320。该群集中的图象的例示仅仅是象征性的,以示出每个共同概念324与关联于所提取的注释320中相应的一或多个的每个排序在前的图象318的关系。框架300从共同概念324中移除重复关键词、项等等之类以生成补充注释328。补充注释328表示图1的显著且补充的注释116。在操作330,框架300用补充注释328注释查询图象304。
在一个实现中,所述框架300的操作是由图1的相应程序模块108执行的。例如,在一个实现中,注释模块112实现框架300的操作。
结论
尽管已经以专用于结构特征和/或方法学操作或动作的语言描述了用于通过搜索进行注释的系统和方法,但应理解,在所附权利要求书中定义的实现不必受限于上述这些特定特征或动作。例如,尽管系统100已经描述为首先标识语义相关图象然后确定语义相关图象的视觉相似性以生成排序在前的图象126,但在另一个实现中,系统100仅使用下列之一来生成排序在前的图象126:(a)所述关键词搜索操作;或者(b)在本地和/或远程数据库中搜索视觉上相似的图象。当仅从视觉上相似的图象生成排序在前的图象126时,可与基线注释122无关地输入给定图象114作为查询图象。在另一个示例中,在一个实现中,计算设备102通过网络123向远程计算设备132提供通过搜索进行注释的服务。鉴于上述内容,系统100的特定特征和操作是作为实现所要求保护的主题的示例性形式公开的。

Claims (20)

1.一种包含可由处理器执行的计算机程序指令的计算机可读存储介质,所述计算机程序指令包括用于执行以下步骤的指令:
在一或多个数据存储中搜索与给定图象的基线注释语义相关且在视觉上与所述给定图象相似的图象;以及
用关联于所述图象的至少一个子集的注释的共同概念来注释所述给定图象。
2.如权利要求1所述的计算机可读存储介质,其特征在于,所述计算机程序指令还包括用于在注释所述给定图象之前从所述共同概念中移除重复项的指令。
3.如权利要求1所述的计算机可读存储介质,其特征在于,所述计算机程序指令还包括用于接收包含所述给定图象和所述基线注释的搜索查询的指令。
4.如权利要求1所述的计算机可读存储介质,其特征在于,所述计算机程序指令还包括用于执行以下步骤的指令:
度量所述语义相关图象与所述给定图象的视觉相似性;以及
其中,所述图象的至少一个子集包括被确定为比其它图象在视觉上与所述给定图象更相似的一些图象。
5.如权利要求4所述的计算机可读存储介质,其特征在于,所述计算机程序指令还包括用于执行以下步骤的指令:
计算从所述各个注释中提取的短语的性质,所述注释被分组到多个群集中的一个相应群集中;
对于每个群集,组合所述性质中相关联的一些性质以生成所述群集的显著性得分;以及
其中,所述共同概念与同关联于所述群集中的其它一些群集的显著性得分相比具有更高的显著性得分的群集相关联。
6.一种计算机实现的方法包括:
搜索与给定图象的基线注释语义相关的图象的第一集合;
评估所述图象的第一集合中的每个图象以标识至少在概念上与所述给定图象相关的图象的第二集合;
标识关联于所述图象的第二集合的注释;
确定所述各个注释上的共同概念;以及
用所述概念的至少一个子集注释所述给定图象作为补充注释。
7.如权利要求6所述的方法,其特征在于,还包括接收包含所述给定图象和所述基线注释的输入。
8.如权利要求6所述的方法,其特征在于,所述搜索还包括将所述基线注释与关联于所述图象的第一集合的文本相关。
9.如权利要求6所述的方法,其特征在于,所述评估还包括将编码所述给定图象的视觉特征的散列签名与编码所述图象的第一集合中的每个图象的视觉特征的相应散列签名比较。
10.如权利要求6所述的方法,其特征在于,所述评估还包括:
度量所述图象的第一集合中的每个图象与所述给定图象的视觉相似性;
基于在所述度量中确定的视觉相似性度量,标识比所述图象的第一集合中的其它图象在视觉上与所述给定图象更相关的排序在前的图象的集合;以及
其中,所述图象的第二集合是所述排序在前的图象。
11.如权利要求6所述的方法,其特征在于,标识注释还包括从所述图象的第二集合的上下文提取文本。
12.如权利要求6所述的方法,其特征在于,确定概念还包括:
群集所述注释,使得所述群集中的每个群集与所述群集的显著概念相关联;
确定关联于所述群集的多个显著概念中的每个显著概念的显著性得分;
基于所述各个显著性得分从所述多个显著概念中选择排序在前的显著概念的集合;以及
其中,所述排序在前的显著概念的至少一个子集是补充注释。
13.一种计算设备包括:
处理器;以及
耦合到所述处理器的存储器,所述存储器包括计算机程序指令,当由所述处理器执行所述计算机程序指令时,执行下列操作:
接收包含给定图象和所述给定图象的基线注释的搜索查询;以及
用关联于图象的第一集合的附加注释补充所述给定图象,所述图象的第一集合中的每个图象在视觉上与所述给定图象相似并且关联于与所述基线注释语义相关的注释。
14.如权利要求13所述的计算设备,其特征在于,所述附加注释表示相应注释分组的共同概念。
15.如权利要求13所述的计算设备,其特征在于,所述附加注释表示下列各项中的一或多个:标题、描述、类别、来自网页的信息、文件夹名字、统一资源标识符的至少一部分以及关联于不在所述图象的第一集合中的不同图象的文本。
16.如权利要求13所述的计算设备,其特征在于,所述图象的第一集合是图象的较大集合的子集,所述图象的较大集合中的每个图象与所述基线注释语义相关并且独立于与所述给定图象的视觉相似性。
17.如权利要求13所述的计算设备,其特征在于,所述计算机程序指令还包括用于从自一或多个图象数据库挖掘出的图象的第二集合中得到所述图象的第一集合的指令,所述图象的第二集合中的每个图象是基于关联于所述给定图象的文本挖掘出来的。
18.如权利要求13所述的计算设备,其特征在于,所述计算机程序指令还包括用于执行以下步骤的指令:
执行基于关键词的搜索以查找与所述基线注释语义相关的图象的第二集合;
在所述图象的第二集合中搜索具有与所述给定图象实质性的视觉相似性的一或多个图象;
从所述一或多个图象的一或多个上下文中提取文本;以及
其中,所述文本至少包括所述附加注释。
19.如权利要求18所述的计算设备,其特征在于,所述计算机程序指令还包括用于执行以下步骤的指令:
标识所述文本中的短语;
基于相应的短语性质向所述短语分配显著性得分;以及
其中,所述附加注释包括所述文本中具有比关联于所述文本的其它部分的显著性得分高的显著性得分的至少一部分。
20.如权利要求19所述的计算设备,其特征在于,所述相应的短语性质包括短语频次和短语对注释频次中的一或多个。
CN200780017842.6A 2006-05-19 2007-05-17 通过搜索进行注释 Active CN101449271B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/419,368 US8341112B2 (en) 2006-05-19 2006-05-19 Annotation by search
US11/419,368 2006-05-19
PCT/US2007/012193 WO2007136861A2 (en) 2006-05-19 2007-05-17 Annotation by search

Publications (2)

Publication Number Publication Date
CN101449271A true CN101449271A (zh) 2009-06-03
CN101449271B CN101449271B (zh) 2015-09-23

Family

ID=38713143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780017842.6A Active CN101449271B (zh) 2006-05-19 2007-05-17 通过搜索进行注释

Country Status (9)

Country Link
US (1) US8341112B2 (zh)
EP (1) EP2021959A4 (zh)
JP (1) JP5346279B2 (zh)
KR (1) KR101354755B1 (zh)
CN (1) CN101449271B (zh)
BR (1) BRPI0710701B1 (zh)
MX (1) MX2008013657A (zh)
RU (1) RU2439686C2 (zh)
WO (1) WO2007136861A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637509A (zh) * 2013-08-14 2016-06-01 谷歌公司 在图像内搜索和注释
CN106796621A (zh) * 2014-09-10 2017-05-31 皇家飞利浦有限公司 图像报告注释识别
CN108133057A (zh) * 2011-09-27 2018-06-08 三星电子株式会社 用于在便携式终端中剪辑和共享内容的装置和方法
CN109074383A (zh) * 2016-04-13 2018-12-21 微软技术许可有限责任公司 文档背景内可视化的文档搜索
US10558623B2 (en) 2014-04-28 2020-02-11 Convida Wireless, Llc Search engine optimization for resource directory
CN111133429A (zh) * 2017-09-27 2020-05-08 国际商业机器公司 提取表达以供自然语言处理

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8064650B2 (en) * 2002-07-10 2011-11-22 Hewlett-Packard Development Company, L.P. File management of digital images using the names of people identified in the images
US8341112B2 (en) 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8065313B2 (en) * 2006-07-24 2011-11-22 Google Inc. Method and apparatus for automatically annotating images
US8234277B2 (en) * 2006-12-29 2012-07-31 Intel Corporation Image-based retrieval for high quality visual or acoustic rendering
US8321424B2 (en) * 2007-08-30 2012-11-27 Microsoft Corporation Bipartite graph reinforcement modeling to annotate web images
US8180760B1 (en) 2007-12-20 2012-05-15 Google Inc. Organization system for ad campaigns
WO2009093219A1 (en) * 2008-01-25 2009-07-30 Nxp B.V. Method and apparatus for organizing media data in a database
BRPI0913569A2 (pt) * 2008-06-06 2016-10-04 Google Inc anotação de imagens
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
US20090313239A1 (en) * 2008-06-16 2009-12-17 Microsoft Corporation Adaptive Visual Similarity for Text-Based Image Search Results Re-ranking
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
TW201013426A (en) * 2008-09-19 2010-04-01 Esobi Inc Combination method for document clusters
CN101387983B (zh) * 2008-09-28 2011-02-23 北大方正集团有限公司 一种自动测试栅格图像处理器的方法及系统
US8411953B2 (en) * 2008-09-30 2013-04-02 International Business Machines Corporation Tagging images by determining a set of similar pre-tagged images and extracting prominent tags from that set
US8131734B2 (en) * 2008-10-09 2012-03-06 Xerox Corporation Image based annotation and metadata generation system with experience based learning
CN101414307A (zh) 2008-11-26 2009-04-22 阿里巴巴集团控股有限公司 提供图片搜索的方法和服务器
US8196022B2 (en) * 2009-01-16 2012-06-05 International Business Machines Corporation Hamming radius separated deduplication links
JP5268787B2 (ja) * 2009-06-04 2013-08-21 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
US8150860B1 (en) * 2009-08-12 2012-04-03 Google Inc. Ranking authors and their content in the same framework
US8781231B1 (en) 2009-08-25 2014-07-15 Google Inc. Content-based image ranking
US20110072047A1 (en) * 2009-09-21 2011-03-24 Microsoft Corporation Interest Learning from an Image Collection for Advertising
WO2011066456A2 (en) * 2009-11-24 2011-06-03 Scrible, Inc. Methods and systems for content recommendation based on electronic document annotation
US8761512B1 (en) * 2009-12-03 2014-06-24 Google Inc. Query by image
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
US20110191336A1 (en) * 2010-01-29 2011-08-04 Microsoft Corporation Contextual image search
US8554731B2 (en) * 2010-03-31 2013-10-08 Microsoft Corporation Creating and propagating annotated information
KR101116434B1 (ko) * 2010-04-14 2012-03-07 엔에이치엔(주) 이미지를 이용한 쿼리 제공 방법 및 시스템
US8903798B2 (en) 2010-05-28 2014-12-02 Microsoft Corporation Real-time annotation and enrichment of captured video
US9703782B2 (en) * 2010-05-28 2017-07-11 Microsoft Technology Licensing, Llc Associating media with metadata of near-duplicates
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response
WO2012058794A1 (en) * 2010-11-01 2012-05-10 Microsoft Corporation Image search
CN103201718A (zh) * 2010-11-05 2013-07-10 乐天株式会社 关于关键词提取的系统和方法
US8559682B2 (en) 2010-11-09 2013-10-15 Microsoft Corporation Building a person profile database
US8463026B2 (en) * 2010-12-22 2013-06-11 Microsoft Corporation Automated identification of image outliers
US9026942B2 (en) * 2011-02-25 2015-05-05 Cbs Interactive Inc. Song lyric processing with user interaction
US20120290573A1 (en) * 2011-05-12 2012-11-15 Alexander Kachkovsky Information capturing methods and components
US9678992B2 (en) 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
US8606780B2 (en) * 2011-07-08 2013-12-10 Microsoft Corporation Image re-rank based on image annotations
US8832096B1 (en) 2011-09-01 2014-09-09 Google Inc. Query-dependent image similarity
US8533204B2 (en) * 2011-09-02 2013-09-10 Xerox Corporation Text-based searching of image data
CN103136228A (zh) * 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 一种图片搜索方法以及图片搜索装置
US8971644B1 (en) * 2012-01-18 2015-03-03 Google Inc. System and method for determining an annotation for an image
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
US8745059B1 (en) 2012-05-11 2014-06-03 Google Inc. Clustering queries for image search
US20150169525A1 (en) * 2012-09-14 2015-06-18 Leon Gomes Palm Augmented reality image annotation
US9424279B2 (en) 2012-12-06 2016-08-23 Google Inc. Presenting image search results
CN103971244B (zh) 2013-01-30 2018-08-17 阿里巴巴集团控股有限公司 一种商品信息的发布与浏览方法、装置及系统
US10235358B2 (en) * 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US9367646B2 (en) 2013-03-14 2016-06-14 Appsense Limited Document and user metadata storage
US9465856B2 (en) 2013-03-14 2016-10-11 Appsense Limited Cloud-based document suggestion service
KR20140119217A (ko) * 2013-03-27 2014-10-10 (주)네오넷코리아 키워드 검색을 통해 사진 검색이 가능한 사진 공유 시스템 및 사진 공유 방법
CN103164539B (zh) * 2013-04-15 2016-12-28 中国传媒大学 一种结合用户评价与标注的交互式图像检索方法
US9147125B2 (en) * 2013-05-03 2015-09-29 Microsoft Technology Licensing, Llc Hand-drawn sketch recognition
US9183467B2 (en) 2013-05-03 2015-11-10 Microsoft Technology Licensing, Llc Sketch segmentation
US9754177B2 (en) * 2013-06-21 2017-09-05 Microsoft Technology Licensing, Llc Identifying objects within an image
US10319035B2 (en) 2013-10-11 2019-06-11 Ccc Information Services Image capturing and automatic labeling system
US10175850B2 (en) 2013-11-23 2019-01-08 Sharp Laboratories Of America Search inquiry method using contextual annotation
KR101827764B1 (ko) * 2013-11-30 2018-03-22 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 시각적 어의적 복잡계 네트워크 및 그의 형성 방법
CN104008146B (zh) * 2014-05-09 2017-02-15 中国科学院信息工程研究所 一种基于共同视觉模式的图像查询扩展方法及系统
US9628805B2 (en) * 2014-05-20 2017-04-18 AVAST Software s.r.o. Tunable multi-part perceptual image hashing
US9607216B2 (en) * 2015-03-30 2017-03-28 International Business Machines Corporation Identifying updated content in images
US9898452B2 (en) * 2015-10-16 2018-02-20 International Business Machines Corporation Annotation data generation and overlay for enhancing readability on electronic book image stream service
EP3552151A1 (en) * 2016-12-08 2019-10-16 Koninklijke Philips N.V. Learning annotation of objects in image
CN107909088B (zh) * 2017-09-27 2022-06-28 百度在线网络技术(北京)有限公司 获取训练样本的方法、装置、设备和计算机存储介质
CN109598716B (zh) * 2018-12-05 2020-08-07 武汉楚精灵医疗科技有限公司 基于计算机视觉的肠镜退镜速度实时监测方法和系统
KR102522926B1 (ko) * 2019-02-21 2023-04-19 한국전자통신연구원 전자책 변환 저작 시스템
US11676701B2 (en) 2019-09-05 2023-06-13 Pearl Inc. Systems and methods for automated medical image analysis
CN112581477A (zh) * 2019-09-27 2021-03-30 京东方科技集团股份有限公司 图像处理方法、图像匹配方法、设备以及存储介质
US11055789B1 (en) 2020-01-17 2021-07-06 Pearl Inc. Systems and methods for insurance fraud detection
WO2022150821A1 (en) 2021-01-06 2022-07-14 Pearl Inc. Computer vision-based analysis of provider data

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01196176A (ja) 1988-02-01 1989-08-07 Sharp Corp Mis型半導体装置
JPH05506953A (ja) 1990-04-26 1993-10-07 サザーランド ジョン 人工ニューラル装置
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5913205A (en) * 1996-03-29 1999-06-15 Virage, Inc. Query optimization for visual information retrieval system
US5852823A (en) * 1996-10-16 1998-12-22 Microsoft Image classification and retrieval system using a query-by-example paradigm
JP3500930B2 (ja) * 1997-09-22 2004-02-23 ミノルタ株式会社 キーワード付与方法およびキーワード自動付与装置
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
AU1365699A (en) * 1997-10-27 1999-05-17 Imagen Incorporated Image search and retrieval system
US6128446A (en) * 1997-12-11 2000-10-03 Eastman Kodak Company Method and apparatus for annotation of photographic film in a camera
US6804659B1 (en) * 2000-01-14 2004-10-12 Ricoh Company Ltd. Content based web advertising
US6285995B1 (en) * 1998-06-22 2001-09-04 U.S. Philips Corporation Image retrieval system using a query image
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
AU2001238354A1 (en) * 2000-02-18 2001-08-27 The University Of Maryland Methods for the electronic annotation, retrieval, and use of electronic images
US20020038299A1 (en) * 2000-03-20 2002-03-28 Uri Zernik Interface for presenting information
US20050210393A1 (en) * 2000-07-05 2005-09-22 Forgent Networks, Inc. Asynchronous collaboration via audio/video annotation
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
US6813618B1 (en) * 2000-08-18 2004-11-02 Alexander C. Loui System and method for acquisition of related graphical material in a digital graphics album
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US6970860B1 (en) * 2000-10-30 2005-11-29 Microsoft Corporation Semi-automatic annotation of multimedia objects
CN1531826A (zh) * 2001-02-09 2004-09-22 带有数据注释的全向图像和3维数据获取的方法和装置以及动态范围扩展方法
US6804684B2 (en) * 2001-05-07 2004-10-12 Eastman Kodak Company Method for associating semantic information with multiple images in an image database environment
US20020184196A1 (en) 2001-06-04 2002-12-05 Lehmeier Michelle R. System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
US7068309B2 (en) * 2001-10-09 2006-06-27 Microsoft Corp. Image exchange with image annotation
DE60217450T2 (de) 2001-10-19 2007-10-11 Xerox Corp. Verfahren und Anordnung zur vorherigen Anmerkung von Dokumente und zur Erstellung einer Zusammenfassung anhand von Dokumentbilddaten
US7716199B2 (en) * 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US20040003351A1 (en) 2002-06-28 2004-01-01 Microsoft Corporation Navigating a resource browser session
US20040021780A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Method and apparatus for automatic photograph annotation with contents of a camera's field of view
KR100644016B1 (ko) 2002-12-18 2006-11-10 삼성에스디에스 주식회사 동영상 검색 시스템 및 방법
JP2004234228A (ja) * 2003-01-29 2004-08-19 Seiko Epson Corp 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
US7394947B2 (en) * 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
JP2005011079A (ja) 2003-06-19 2005-01-13 Canon Inc 情報検索装置、情報検索方法及びプログラム
AU2003903728A0 (en) 2003-07-21 2003-07-31 Hao Hang Zheng Method and system for performing combined image classification storage and rapid retrieval on a computer database
JP4478513B2 (ja) * 2004-06-10 2010-06-09 キヤノン株式会社 デジタルカメラ、デジタルカメラの制御方法、プログラムおよびそれを格納した記録媒体
US8156123B2 (en) * 2004-06-25 2012-04-10 Apple Inc. Method and apparatus for processing metadata
FR2872660B1 (fr) 2004-07-05 2006-12-22 Eastman Kodak Co Appareil de prise de vue et procede pour la formation d'images annotees
US20060179453A1 (en) * 2005-02-07 2006-08-10 Microsoft Corporation Image and other analysis for contextual ads
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
US20080235724A1 (en) * 2005-09-30 2008-09-25 Koninklijke Philips Electronics, N.V. Face Annotation In Streaming Video
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US20070160275A1 (en) * 2006-01-11 2007-07-12 Shashidhar Sathyanarayana Medical image retrieval
US20070240060A1 (en) * 2006-02-08 2007-10-11 Siemens Corporate Research, Inc. System and method for video capture and annotation
US20070255618A1 (en) * 2006-04-28 2007-11-01 Meerbergen Jason R System and method for improving online advertising effectiveness and promoting digital content creation
US20070266001A1 (en) * 2006-05-09 2007-11-15 Microsoft Corporation Presentation of duplicate and near duplicate search results
US8341112B2 (en) 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US20070288453A1 (en) * 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Searching Multimedia using Exemplar Images
US20080004953A1 (en) * 2006-06-30 2008-01-03 Microsoft Corporation Public Display Network For Online Advertising
US7559017B2 (en) * 2006-12-22 2009-07-07 Google Inc. Annotation framework for video
US7739304B2 (en) * 2007-02-08 2010-06-15 Yahoo! Inc. Context-based community-driven suggestions for media annotation
US20080319844A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Image Advertising System
US8140973B2 (en) * 2008-01-23 2012-03-20 Microsoft Corporation Annotating and sharing content
US8229865B2 (en) * 2008-02-04 2012-07-24 International Business Machines Corporation Method and apparatus for hybrid tagging and browsing annotation for multimedia content
US9646025B2 (en) * 2008-05-27 2017-05-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
US8566353B2 (en) * 2008-06-03 2013-10-22 Google Inc. Web-based system for collaborative generation of interactive videos
US20090313239A1 (en) * 2008-06-16 2009-12-17 Microsoft Corporation Adaptive Visual Similarity for Text-Based Image Search Results Re-ranking
US20090319883A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Automatic Video Annotation through Search and Mining
US7961986B1 (en) * 2008-06-30 2011-06-14 Google Inc. Ranking of images and image labels
US8145648B2 (en) * 2008-09-03 2012-03-27 Samsung Electronics Co., Ltd. Semantic metadata creation for videos
US20100076923A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Online multi-label active annotation of data files
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US8719249B2 (en) * 2009-05-12 2014-05-06 Microsoft Corporation Query classification

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133057A (zh) * 2011-09-27 2018-06-08 三星电子株式会社 用于在便携式终端中剪辑和共享内容的装置和方法
US11361015B2 (en) 2011-09-27 2022-06-14 Samsung Electronics Co., Ltd. Apparatus and method for clipping and sharing content at a portable terminal
US10210181B2 (en) 2013-08-14 2019-02-19 Google Llc Searching and annotating within images
CN105637509B (zh) * 2013-08-14 2018-04-20 谷歌有限责任公司 在图像内搜索和注释
CN108763244A (zh) * 2013-08-14 2018-11-06 谷歌有限责任公司 在图像内搜索和注释
CN105637509A (zh) * 2013-08-14 2016-06-01 谷歌公司 在图像内搜索和注释
CN108763244B (zh) * 2013-08-14 2022-02-01 谷歌有限责任公司 在图像内搜索和注释
US10558623B2 (en) 2014-04-28 2020-02-11 Convida Wireless, Llc Search engine optimization for resource directory
CN106796621B (zh) * 2014-09-10 2021-08-24 皇家飞利浦有限公司 图像报告注释识别
CN106796621A (zh) * 2014-09-10 2017-05-31 皇家飞利浦有限公司 图像报告注释识别
CN109074383A (zh) * 2016-04-13 2018-12-21 微软技术许可有限责任公司 文档背景内可视化的文档搜索
CN109074383B (zh) * 2016-04-13 2022-04-01 微软技术许可有限责任公司 文档背景内可视化的文档搜索
CN111133429A (zh) * 2017-09-27 2020-05-08 国际商业机器公司 提取表达以供自然语言处理

Also Published As

Publication number Publication date
US8341112B2 (en) 2012-12-25
MX2008013657A (es) 2008-11-04
EP2021959A4 (en) 2010-12-29
BRPI0710701B1 (pt) 2021-02-09
CN101449271B (zh) 2015-09-23
KR20090012243A (ko) 2009-02-02
BRPI0710701A8 (pt) 2017-01-17
BRPI0710701A2 (pt) 2011-08-23
KR101354755B1 (ko) 2014-02-07
JP5346279B2 (ja) 2013-11-20
JP2009537901A (ja) 2009-10-29
RU2008145584A (ru) 2010-05-27
RU2439686C2 (ru) 2012-01-10
WO2007136861A2 (en) 2007-11-29
EP2021959A2 (en) 2009-02-11
WO2007136861A3 (en) 2008-01-31
US20070271226A1 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
CN101449271B (zh) 通过搜索进行注释
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
Pons-Porrata et al. Topic discovery based on text mining techniques
US8073877B2 (en) Scalable semi-structured named entity detection
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
US20220261427A1 (en) Methods and system for semantic search in large databases
CN108304502B (zh) 基于海量新闻数据的快速热点检测方法及系统
CN107844493B (zh) 一种文件关联方法及系统
Kallipolitis et al. Semantic search in the World News domain using automatically extracted metadata files
CN109840325B (zh) 基于点互信息的文本语义相似性度量方法
Chasin et al. Extracting and displaying temporal and geospatial entities from articles on historical events
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
Groza et al. Reference information extraction and processing using random conditional fields
Abimbola et al. A Noun-Centric Keyphrase Extraction Model: Graph-Based Approach
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Panagiotou et al. A general framework for first story detection utilizing entities and their relations
Zhang et al. Topic level disambiguation for weak queries
Yuan et al. Formula Citation Graph Based Mathematical Information Retrieval
US20230282018A1 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
El Hassani et al. Search for Information in Text Files
Li et al. Retrieving Similar Software from Large-scale Open-source Repository by Constructing Representation of Project Description.
CN115828904A (zh) 分词方法及电子设备
CN115186065A (zh) 一种目标词语的检索方法及装置
Yin et al. Domain thesaurus construction from Wikipedia

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150720

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150720

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant