CN101622618B - 具有基于概念的搜索和分级的信息检索系统、方法和软件 - Google Patents

具有基于概念的搜索和分级的信息检索系统、方法和软件 Download PDF

Info

Publication number
CN101622618B
CN101622618B CN200780051927.6A CN200780051927A CN101622618B CN 101622618 B CN101622618 B CN 101622618B CN 200780051927 A CN200780051927 A CN 200780051927A CN 101622618 B CN101622618 B CN 101622618B
Authority
CN
China
Prior art keywords
file
word
search
document
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200780051927.6A
Other languages
English (en)
Other versions
CN101622618A (zh
Inventor
T·库斯蒂斯
K·阿尔-科法希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN101622618A publication Critical patent/CN101622618A/zh
Application granted granted Critical
Publication of CN101622618B publication Critical patent/CN101622618B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Abstract

为改进传统的基于关键字的搜索引擎,本发明人特别设计了系统、方法和软件,它们使用单词的并发概率,不仅识别概念上与用户查询相关的文件而且还对搜索结果进行评分和分级。一个示例系统将反向文件频率(inverse‑document‑frequency)搜索与基于单词的并发概率的概念搜索结合以促进文件的查找,这些文件使用给定的查询时不会被找到的。该示例系统还允许基于关键字匹配和概念的出现两者对搜索结果进行分级,促进了对搜索结果的更有效率的组织和评论。

Description

具有基于概念的搜索和分级的信息检索系统、方法和软件
版权公告和许可
本专利文献的一部分包含受版权保护的资料。对于以专利文献或者专利披露中的任一种方式来精确复制专利商标局文件或记录中内容的行为,版权所有人不持异议,但保留除此之外的所有版权。以下公告适用于下列文件:版权2006,ThomsonGlobalResources(一家根据爱尔兰法律成立的机构)。
相关申请的交叉引用
本申请要求在2006年12月29日提交的美国临时申请60/878,014的优先权。该申请以引用方式合并于此。
技术领域
本发明的各种实施例涉及信息检索系统和相关的查询处理单元以及方法。
背景技术
互联网及其它计算机网络的日益普及不仅推动利用率的增加,而且推动了计算机用户间对于数字信息的需求的增加。用户通常采用访问装置(例如计算机)与联机信息检索系统通信,以试图访问这样的信息。信息检索系统通常包括图形用户界面,用于输入对信息的请求(被称为查询)并将其送至远程搜索引擎。搜索引擎识别通常以电子文件的形式存在的相关信息并向用户的访问装置返回结果列表。
本发明人认识到的一个问题涉及典型搜索引擎的操作,这些搜索引擎要求查询和文档以包含匹配单词。基于至少三个理由,这是有问题的。首先,搜索结果可能包括这样的文件,它们包含该查询项但却是不相关的,因为用户对于该查询项有不同的含义(或者意思),而项匹配(term matching)无法对此作出辨别。这最终使得用户在搜索最相关文件时人工过滤不相关的结果。
第二,依赖于查询项到文件项的匹配还可能因为概念上相关的文件未包含用户输入的精确的查询项而导致搜索结果遗漏这些文件。采用传统搜索引擎检索这些相关文件要求用户理解所给出概念的词选项是变化的并构造出更好的查询。或者,用户可以简单地进行检索而遗漏这些有价值的文件。
第三,传统的关键字搜索引擎基于那些文件中查询项的出现情况来对文件的相关性进行评分和分级。这意味着,一些具有匹配的查询项和虽然概念上相关但不匹配的项的文件可能低于期望的分级,虽然它们实际上与给定的查询在概念上是相关的。这些错误的降等分级(lower ranking)可能迫使用户在搜索到更相关的文件之前在相关性较弱的文件上花费力气,或者迫使其完全忽略这些文件的其中一些。
因此发明人已经认识到需要进一步改进信息检索系统处理用户查询的方式。
发明内容
为满足这种和/或其它的需要,本发明人特别设计了这样的系统、方法和软件,它们使用单词的并发概率,从而不仅识别概念上与用户查询相关的文件,而且还对搜索结果进行评分和分级。一个示例系统将反向文件频率(inverse-document-frequency)搜索与基于单词的并发概率的概念搜索结合以助于查找到使用给定的查询的方式查找不到的文件。该示例系统还允许基于关键字匹配和概念出现情况两者对搜索结果分级,促使搜索结果的组织和评论更有效率。
附图说明
图1是对应于本发明一个或多个实施例的示例信息检索系统100的框图。
图2是对应于本发明一个或多个实施例的操作系统100的示例方法的流程图。
具体实施方式
本文件描述发明的一个或多个具体的实施例。这些提供的实施例并非用来限定本发明而只是给出本发明的示例和教导,它们以足够详细的方式加以展示和描述以使得本领域的技术人员能够实现或者实践本发明。因此,如果不影响本发明的清楚性,则描述可以省略某些为本领域技术人员所知的信息。
概述
本示例系统使用一对单词之间的“翻译”概率作为识别概念上与用户查询相关的文件的基础。“翻译”概率是一个单词可以被译成另一个的概率。这是容易理解的,当从一种语言翻译到另一种时-例如,法语中的“pomme(苹果)”被译成英语中的“apple(苹果)”是高概率的;而“pomme(苹果)”被译成“sock(短袜)”的概率接近于零。
在该示例实施例中,“翻译”概率是单语的,并且可以获取单词之间的同义及其它语义的关系。两个单词在它们的含义上越相关,它们的翻译概率就越高。例如,“律师(lawyer)”和“法律代理人(attorney)”是可互换的同义词,所以它们有高的翻译概率。如另一个例子,考虑诸如“足球”、“美国国家足球联盟”、“四分卫”、“教练”等等这些单词之间的相关性。这些不是同义词,但是它们语义上相关并且因此具有一定的可度量的翻译概率。
在该示例实施例中,翻译概率得自于单词并发数据。并发单词对的信息被用于在统计上获取语义的(概念上的)关系。在该示例实施例中,表示特定单词(单词X)的“概念”被处理为等价于所有在该并发数据中与单词X并发的单词。当与单词X组对的单词在一个文件中出现越多时,就越能证明在该文件中讨论单词X的概念的想法。当单词X是查询项时,这种证据转而导致了较高的文件评分(不管单词X是否出现在该文件中)。
采用由并发数据得来的翻译概率允许检索算法返回包含语义上与用户的查询项相关(例如,高翻译概率)的单词的文件。由于这样,不要求实际的查询单词出现于作为相关结果返回的文件中。例如,在搜索“律师”时,可以检索到不包含单词“律师”但包含“法律代理人”、“审判”、“费用”和/或“法官”的文件作为相关的文件。
在另一个例子中,基于关键字的搜索中,查询“热咖啡”没能找到包括项“热”但省略项“咖啡”的以下文件。但是,本示例实施例对该查询在概念上作了拓展以有效地包含所有在一个窗口内统计上并发的单词,该窗口位于各个查询项的周围。这使得能够基于示出的其它项的出现而检索到文件,这些项在统计意义上与“热的”(加下划线)、“咖啡”(粗体)或“咖啡”和“热”两者(粗体和加下划线)相关。查询项“热的”以双下划线示出。
原告请求精神痛苦的赔偿费,声称她现在看到人们喝 饮料时就会受到焦虑的侵袭。原告主张$1,785的医疗赔偿和作为从事面部按摩的美容师的$14,000的误工费。作为证据,被告提交了一盘显示原告正在喝 饮料的监控录像带。
侵害:原告经过麦当劳的免下车店时要了两杯 。原告声称保拉.爱德华递给她托盘,或者“热”和“咖啡”两者(无修饰或者粗体和加下划线):
原告被泼上两杯 的左臂遭受了二级烧伤,她丢掉了托盘并将 茶洒到阿莱密小姐的手臂上。尽管没有在审判时出示证据,但是原告声称麦当劳餐厅在雇佣和培训方面是有过失的。被告认为原告是将 茶洒到了她自己身上。
有人可能会考虑让领域内的专家以人工方式构造概念,而不是从并发数据得到概念。以人工方式构造概念是困难的、耗时的并且是带有主观倾向的过程。另外,针对一个领域的精心剪裁的概念并不一定能扩展到另外一个领域。通过以统计方式,依靠并发来获取概念,可以自动获取该领域,将主观性排除在过程之外。
这种新形式的概念搜索的应用有很多。在法律领域,概念搜索是电子信息取证(e-discovery)中的有用的工具,在那里找到所有与案件相关的文件是重要的。通常,在用户可能不是她所搜索的领域的专家的情况下,以及在用户不知道某些事物的技术的或特定的术语的情况下,概念搜索是有用的。
示例信息检索系统
图1示出示例性的联机信息检索系统100。系统100包括一个或多个数据库110、一个或多个服务器120和一个或多个访问装置130。
示例数据库
数据库110包括一个或多个数据库的集合。示例的法律数据库包括判例法数据库和法条数据库,其分别包括来自一个或多个本地的、州的、联邦的和/或国际司法管辖的法律意见和法条。示例的法律数据库还包括法律分类数据库和法律评论。其它示例的数据库提供法律代理人、法官、律师事务所、产品(product)和法人(corporate)简介。在一些实施例中,判例法文件通过数据结构与其它数据库中的文件或简介在逻辑上相关联。其它实施例可以包括非法律数据库,这些数据库包括金融、科学或保健信息。另外其它的实施例提供公共或私用数据库(诸如那些通过INFOTRAC可用的)。一些实施例允许互联网搜索,并且因此包含网站和网页,以及其它实施例允许用户依照电子信息取证(electronic discovery)来定义其自己的数据库(例如文件的数据库,文件例如是电子邮件文件)。
数据库110采取一个或多个电子、磁或光学的数据存储装置的示例形式,包含或者关联于相应的索引(未示出)。每一个索引包括关联于对应的文件地址、标识符和其它常规信息的项和词组。数据库110耦合到服务器120,或者通过无线或有线通信网络(例如,局域网络、广域网络、私有网络和虚拟私有网络)可耦合到服务器120。
示例服务器
服务器120,通常典型的是一个或多个用于提供(serving)网页或其它标记语言形式的数据的服务器,其配备相关的小应用程序(applet)、Active X控件、远程调用对象或其它相关的软件和数据结构,从而为各种“厚度”的客户端提供服务。更具体地,服务器120包括处理器模块121、存储器模块122、订户数据库123、初级搜索模块124、概念搜索模块125和用户界面模块126。
处理器模块121包括一个或多个本地或分布式的处理器、控制器或虚拟机。在该示例实施例中,处理器模块121采取任何方便或理想的形式。
存储器模块122采用一个或多个电子、磁或光学的数据存储装置的示例形式,存储了订户数据库123、初级搜索模块124、概念搜索模块125和用户界面模块126。
订户数据库123包括与订户相关的数据,用于控制、执行和管理对数据库110的付费通行(pay-as-you-go)或基于订阅的访问。在该示例实施例中,订户数据库123包括一个或多个偏好数据结构,其中的数据结构1231是典型的例子。数据结构1211包含客户或用户标识符部分1231A,其逻辑地关联于一个或多个概念搜索或表示形式偏好(presentationpreferences),例如偏好1231B、1231C和1231D。偏好1231B包括决定(governing)概念搜索是否可以进行的默认值。偏好1231C包括决定搜索结果的表示形式的默认值,例如,只被概念搜索检索出来的文件是否作标记或提供在单独的标签(tab)或文件夹中。偏好1231D包括决定是否允许或者在多大程度上允许概念搜索对搜索结果的相关计算产生影响的默认值。(当临时用户无控制权限(override)(例如在特定的查询或会话期间的控制权限)时,概念搜索的默认值起作用。)
初级搜索模块124包括一个或多个搜索引擎和相关的用户界面部分,用于用于接收和处理用户对一个或多个数据库110的查询。在该示例实施例中,一个或多个关联于搜索模块124的搜索引擎提供布尔(Boolean)、tf-idf、自然语言搜索能力。
概念搜索模块125包括一个或多个概念搜索引擎,用于使用这里描述的概念搜索技术接收和处理对一个或多个数据库110的查询。一些实施例对通过概念搜索进行的搜索和/或访问文件进行单独或额外的收费。具体地,概念搜索模块125包括概念搜索数据1251和概念搜索引擎1252。
概念搜索数据1251包括一个或多个关于文件中的并发单词对的统计数据组,以隐含地获取语义(概念上的)关系。关于并发对的统计数据被直接用于示例的信息检索算法,因而在该示例实施例中无需将现有的、单独的概念与现有的搜索机制相结合。
更具体地,概念搜索数据1251包括来自文件的文集(“全体”)的单词对的并发概率1251A和目标文件集合(数据库110)的并发概率1251A的索引。
在该示例实施例中,并发概率1251A根据单独的源而不是目标文件集合决定,以提高概念的稳定性,该稳定性不依赖于目标文件集合。例如,在法律领域,该全体包括2000万件有判词提要的(headnoted)文件。尽管在示例性实施例中,由人类编辑者为判例法文件人工定义判词提要,但是一些实施例可以使用机器生成的文件摘要(machine documentssummaries)、百科全书的引用等等方式。对于示例的新领域,单个总体或文集包括900,000个文件。(通常,目前认为用作并发数据基础的文集在文件数量上应当比目标数据库大。但是据推测,数量较少但是信息量更大的文件集合(例如基于罕见单词的频度)也可以用。)
单词对按照以下方式从文集中构造:停用单词(stop word)被去除,并且然后将每个单词与其两边的距离为5个单词的所有其它单词(包括它自己)组对,每个单词生成11个单词对。在该示例实施例中,单词对是无序的(即,X_Y=Y_X)。(但是一些实施例可以使用有序单词对。)另外,该示例实施例将单词对中的单词在8个字符处进行截取,为单词对数据提供了一定的平滑(smoothing)。
每一单词对关联于一个或多个频率计数。因为每个单词也与自己组对,所以计数也为单个的项保留。使用文集中的单词对的这些频率计数,该示例实施例确定了并发概率。具体地,这需要进行以下最大似然估计(MLE)的计算:
Pmle(w1|w2)=单词对w1_w2的频率/w2_w2的频率等式(1)
这些是(未平滑(unsmoothed))的概率估计,被用于语言模型的概念搜索部分,在等式中以P(q|d)示出。这些概率允许我们量化q和d并发的可能性。对于所有D中的d(d∈D)求和得到在特定文件中的项和q之间的所有的并发,其提供了在那个文件中包含q的概念(以q表示)和与q的概念建立有并发关系的所有单词的证据。尽管相关项(即,单词对)不一定是专家人工定义概念时选取的单词,但是这些单词对(更广义的词是N元文法(n-grams))通过统计并发来隐含地获取“概念”。
索引1251B基于为文集而确定的并发概率。目标文件集合(例如,数据库110的一个或多个部分)根据P(w|D)概率为建立索引。为避免稀疏,使用Jelinek-Mercer平滑对整个集合平滑这些概率,该平滑由下式决定:
P(w|D)=λPmle(w|Document)+(1-λ)Pmle(w|Collection) 等式(2)
为每个集合,按照经验设定用于平滑的希腊字母λ的值,该值受诸如集合中文件的长度和集合的大小等因素的影响。
概念搜索引擎1252基于与用户查询项的概念上的关系从数据库110中识别文件。在该示例实施例中,这需要组合关键字搜索和概念搜索数据1241中的并发概率和使用语言建模技术,该建模技术用于信息检索并且根据统计机器翻译。在实现信息检索的基于关键字的语言建模方式中,每个文件基于查询单词(q)在那个文件(D)中出现的概率(P)进行评分:P(q|D)≈q出现在D中的次数除以D的长度。在该关键字模型中,根据以下等式对文件进行评分:
文件分数=P(q1|D)xP(q2|D)x...xP(qn|D)
=∏i P(qi|D)对于Q中的所有q等式(3)
其中Q表示整个查询。搜索的结果通常以得分最高排在首位的顺序返回给用户。另一方面,在统计机器翻译的语言建模技术中,评分基于“翻译”概率P(q|D):或文件中的单词可以被解释成该查询单词的概率。但是,代之以逐字“翻译”文件中的单词,该示例实施例使用单词对并发概率作为概念上的接近程度的量度,以作目标更广的翻译。
将这两种方式组合为新的混合模型,该示例实施例根据下式为文件评分:
文件分数=∏i1P(qi|D)+λ2kP(qi|dk)P(dk|D)] 等式(4)
其中P(q|D)=∏iP(qi|D)表示信息检索的基于关键字的语言模型:
P(Q|D)=∏ikP(qi|dk)P(dk|D) 等式(5)
表示Berger & Lafferty的(1999)翻译语言模型;并且λ1和λ2表示两个搜索部分的权重因子。该示例实施例赋予关键字和概念搜索部分同样的权重0.5。但是通过改变λ1和λ2的值(在λ12=1的约束条件下),任一部分可以被给予更大的权重。
总的来说,该示例概念搜索将关键字搜索和并发概率组合,将与用户的查询既是关键字相关又是概念相关的文件检索考虑进来。在该方式中,可以理解的是:
并发对的使用扩大了检索结果范围(recall),使得所有相关文件中有更多的相关文件被检索到;
基于关键字的语言建模的使用具有高精确度;并且
该模型具有灵活性,这是因为它允许以不同的方式对其各个部分“赋予权重”,从而最大化检索结果范围和精确度。
一些实施例加大了查询的依赖性,认识到查询本身表示用户正在搜索的概念。具体地,该方式的一个实施例使用单词对建立查询单词之间依赖性的模型,从而获取概念的信息。因此,代之以将查询分成单个查询项,该示例实施例将该查询表示成包含在其内的所有可能的单词对。例如,查询“大的红色气球”产生以下查询单词对:大的_大的、红色_红色、气球_气球、大的_红色、大的_气球、红色_气球。对于这些单词对,文件分数由下式定义:
文件分数=∏[λ1P(q1_q2|D)+λ2∑[[P(q1|d)+P(q2|d)]P(d|D)]]
等式(6)
其中P(q1|d)+P(q2|d)只有在P(q1|d)和P(q2|d)都不为零的情况下才估算。因为该示例实施例缺少给定文件项下的双项对(biterm pair)的概率P(w1_w2|d),因此它通过下列方式粗略地(on the fly)地取这些概率的近似值:使评分等式的概念搜索部分依赖于双项中的两个单词相对于该文件项的并发概率。对于查询单词双项q1_q2,该示例实施例将P(q1|d)和P(q2|d)的并发概率相加,然后乘以每个文件项在P(q1|d)和P(q2|d)都存在时的P(d|D)。如果P(q1|d)或P(q2|d)不存在,那么P(q1|d)+P(q2|d)被设置为等于零。对于一元(unigram)概念搜索语言模型,λ1和λ2两者被设置成0.5,因此该关键字和概念搜索部分被赋予相等的权重。
一些实施例使用等式(4)或(6)的修正形式,这些修正形式使用另一种类型的相关性指示器来代替或补充概念部分。例如,一个这样的实施例加入了相关性因子,其基于文件的使用习惯的统计数据。该统计数据可基于该文件的打印、电子邮件或点击率,以用于类似的查询;用户对该文件的评述或分级日期(rating date);和/或该文件的引用情况的统计数据。这些因子可以由λ因子赋予权重,其约束条件是这些λ因子的总和为1。
用户界面模块126包括机器可读和/或可执行指令集,用于在一个或多个访问装置(例如访问装置130)上完全或部分地定义位于无线或有线通信网络之上的基于网络(web-based)的用户界面,例如搜索界面1261和结果界面1262。
示例的访问装置
访问装置130通常典型的是一个或多个访问装置。在该示例实施例中,访问装置130采用的形式有个人计算机、工作站、个人数字助理、移动电话或能够向服务器或数据库提供有效的用户界面的任何其它装置。具体地,访问装置130包括处理器模块131(一个或多个处理器(或处理电路)131)、存储器132、显示器133、键盘134和图形指针或选择器135。
处理器模块131包括一个或多个处理器、处理电路或控制器。在该示例实施例中,处理器模块131取任何方便或期望的形式。存储器132耦合到处理器模块131。
存储器132存储操作系统136、浏览器137和图形用户界面(GUI)138的代码(机器可读或可执行指令)。在该示例实施例中,操作系统136采用Microsoft Windows操作系统版本的形式,并且浏览器137采用Microsoft Internet Exploer版本的形式。操作系统136和浏览器137不仅从键盘134和选择器135接收输入,而且还支持在显示器133上提供GUI 138。在提供之后,GUI 138示出与一个或多个交互控制特征(或用户界面元素)关联的数据。(该示例实施例使用来自服务器120的小应用程序(applets)或其它编程对象(programmaticobject)或结构来定义界面138的一个或多个部分,以实现上面示出的或在本说明其它地方描述的界面)
在该示例实施例中,这些控制特征的每一个采用超链接或其它浏览器可兼容的命令输入的形式,并且提供对查询区域1381和搜索结果区域1382的接入和对查询区域1381和搜索结果区域1382的控制。区域1382中的控制特征用户选择(尤其是文本查询到输入区域1381A的输入和通过提交按钮1381B的驱动到服务器120的查询的提交),使得在结果区域1382显示搜索结果列表1382A。从列表1382A选择列出的文件,致使了界面138区域中的对应文件的至少一部分的检索和显示(该图中未示出)。尽管图1同时地示出了区域1381和1382,但是一些实施例在单独的时间示出它们。以下描述界面的其他功能的方面。
示例操作方法
图2示出操作例如系统100的系统的一个或多个示例方法的流程图200。流程图200包括块210-240,其在该示例实施例中的一系列执行序列中被安排和描述。但是,其他实施例使用多处理器或类处理器装置或组织成两个或多个虚拟机或子处理器的但处理器并行执行两个或多个块。其他实施例也改变处理序列或提供不同的功能划分以达到类似的结果。例如,一些实施例可以改变客户端-服务器功能的分配,使得在服务器端示出和描述的功能在客户端全部或部分地被实现,反之亦然。另外,还有其他实施例将块实现为两个或多个互连的硬件模块,使相关的控制和数据信号在这些模块之间和通过这些模块进行通信。因此,该示例处理流程应用于软件、硬件和固件的实现。
在块210中,该方法以接收来自用户的查询开始。在该示例实施例中,这需要用户使用接入装置130中的浏览器能力以接入在线信息检索系统100,具体地,使用常规登录过程接入服务器120。一旦登录,例如界面138的用户界面被显示,使能用户定义和提交查询到服务器120。执行进行到块220。
块220需要使用在常规关键字或自然语言搜索引擎中的接收的查询定义来自文件集的一个或多个文件的分级的结果集。在该实施例中,这需要搜索数据库110,例如法律、科学或者专利数据库,使用tf-idf-type搜索引擎基于与接收的查询的关系来识别和分级文件集。然后执行进行到块230。
块230需要基于与接收的查询的概念或语义的关系修改该结果集。在第一实施例中,这需要单独地基于接收的查询的所有或一个或多个部分的概念上的关系识别文件集。这需要将该查询解析成所有可能的n元的集合,例如单元(one-grams)或双元(bigrams(biterms))并且使用这些n元来识别具有充分高的概率包括与查询中的项并发的项的文件集。在该实施例中,双项中的每个项被截至8个字符。然后这些识别的文件与分级的结果集结合到一起以定义修改的结果集。然后该修改的结果集根据是否使用单个查询项或查询项双项按照等式(4)或等式(6)进行打分和重新分级。
在第二实施例中,没有进行基于概念或语义关系的进一步搜索并且结果集简单地根据等式(4)或等式(6)进行打分和重新分级。一些实施例可以从第三方简单地接收查询和结果集并且使用等式(2)和/或(5)重新将它们分级。然后执行进行到块240。
在块240中,修改的搜索结果被呈现给用户。在该示例实施例中,这需要在关联于用户的显示器(例如,系统100中的接入装置130的显示器)上定义和显示超链接的列表。在一些实施例中,文件仅仅基于概念搜索被识别,即,缺乏任何该查询项的文件通过字体差异和/或邻近符号被标记以突出概念搜索在改进相关文件的取回上的价值。其他实施例还可以为包括匹配关键字和概念两者的文件提供标记或者指示相关性作为提升改进的取回的方法。还有其他实施例可以呈现带有控制特性的列表,其允许将基于匹配关键字所找到的文件与仅仅基于关键字搜索所找到的文件分离,例如通过提供分割文件夹或标签。另一实施例允许用户选择性地调用阻挡或标记潜在的不相关的文件的控制特性,即,具有低概率在字面上与该查询概念上相关的文件,即使它们字面上满足了查询的项。这些文件被识别的基础是缺少项以足够高的概率与查询项统计上并发。
结论
以上描述的所述仅仅用于阐释和教导一种或多种实践或实现本发明的方法,而不是限制它的宽度和范围。本发明的包括了该发明的教导的实践或实现的所有的方法的实际范围仅由所发布的权利要求及它们的等同物定义。

Claims (11)

1.一种处理查询的系统,包括:
目标文件集;以及
装置,用于基于用户的查询来搜索目标文件集的一个或多个文件并将所述一个或多个文件识别为结果文件,所述用户的查询与至少一个概念相关联,用于搜索和识别的所述装置包括:用于基于单词并发概率的集合来识别一个或多个第一文件的装置,其中所述单词并发概率的集合从不同于所述目标文件集的文件集得到并且与所述至少一个概念有关,
其中,通过下列方式平滑单词并发概率:
P(w|D)=λPmle(w|Document)+(1-λ)Pmle(w|Collection)。
2.如权利要求1所述的系统,其中用于搜索和识别目标文件集的一个或多个文件的所述装置包括:用于将基于反向文件频率信息的一个或多个第二文件识别为结果文件的装置和用于基于所述反向文件频率信息和所述单词并发概率的集合来分级结果文件的装置。
3.如权利要求1所述的系统,其中所述目标文件集包括判例法文件。
4.如权利要求1所述的系统,其中所述目标文件集包括公司电子邮件。
5.如权利要求2所述的系统,其特征在于,通过下列方式进行分级:
文件分数=Πi1P(qi|D)+λ2ΣkP(qi|dk)P(dk|D)]
λ22=1。
6.一种处理查询的方法,包括:
使用反向文件频率类型的第一搜索引擎,基于所述查询来识别和分级第一文件集,所述查询与至少一个概念相关联;
基于从不同于所述第一文件集的第二文件集得到的单词并发概率,对包括所述第一文件集的文件的结果集的相关性进行分级,所述单词并发概率与所述至少一个概念相关;以及
以相关性的分级顺序显示文件的结果集的至少一部分的列表,
其中,通过下列方式平滑单词并发概率:
P(w|D)=λPmle(w|Document)+(1-λ)Pmle(w|Collection)。
7.如权利要求6所述的方法,其中文件的结果集包括基于单词并发概率识别的文件。
8.如权利要求6所述的方法,其特征在于,通过下列方式进行分级:
文件分数=Πi1P(qi|D)+λ2ΣkP(qi|dk)P(dk|D)]
λ22=1。
9.一种处理查询的方法,包括:
响应于查询,提供由搜索引擎识别的经过分级的搜索结果文件的集合,所述查询与至少一个概念相关联;
基于单词并发概率来调整经过分级的搜索结果文件的集合中的一个或多个文件的分级,所述单词并发概率与所述至少一个概念相关;以及
显示调整后的经过分级的搜索结果文件的集合,
其中,通过下列方式平滑单词并发概率:
P(w|D)=λPmle(w|Document)+(1-λ)Pmle(w|Collection)。
10.如权利要求9所述的方法,其中所述搜索引擎是反向文件频率类型搜索引擎。
11.如权利要求9所述的方法,其特征在于,通过下列方式进行分级:
文件分数=Πi1P(qi|D)+λ2ΣkP(qi|dk)P(dk|D)]
λ22=1。
CN200780051927.6A 2006-12-29 2007-12-27 具有基于概念的搜索和分级的信息检索系统、方法和软件 Expired - Fee Related CN101622618B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US87801406P 2006-12-29 2006-12-29
US60/878,014 2006-12-29
PCT/US2007/088927 WO2008083211A1 (en) 2006-12-29 2007-12-27 Information-retrieval systems, methods, and software with concept-based searching and ranking

Publications (2)

Publication Number Publication Date
CN101622618A CN101622618A (zh) 2010-01-06
CN101622618B true CN101622618B (zh) 2017-06-20

Family

ID=39276259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780051927.6A Expired - Fee Related CN101622618B (zh) 2006-12-29 2007-12-27 具有基于概念的搜索和分级的信息检索系统、方法和软件

Country Status (10)

Country Link
US (1) US8321425B2 (zh)
EP (1) EP2115638A1 (zh)
JP (2) JP5379696B2 (zh)
CN (1) CN101622618B (zh)
AR (1) AR064694A1 (zh)
AU (1) AU2007339839A1 (zh)
BR (1) BRPI0720718A2 (zh)
CA (1) CA2674294C (zh)
NZ (1) NZ578672A (zh)
WO (1) WO2008083211A1 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5379696B2 (ja) 2006-12-29 2013-12-25 トムソン ルーターズ グローバル リソーシーズ 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
CN101286150B (zh) 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US20090058820A1 (en) 2007-09-04 2009-03-05 Microsoft Corporation Flick-based in situ search from ink, text, or an empty selection region
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US20100191746A1 (en) * 2009-01-26 2010-07-29 Microsoft Corporation Competitor Analysis to Facilitate Keyword Bidding
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8180755B2 (en) * 2009-09-04 2012-05-15 Yahoo! Inc. Matching reviews to objects using a language model
US8949248B2 (en) 2009-10-29 2015-02-03 At&T Intellectual Property I, L.P. Method and apparatus for generating a web page
US8515972B1 (en) 2010-02-10 2013-08-20 Python 4 Fun, Inc. Finding relevant documents
US11386510B2 (en) * 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
CN102419755B (zh) 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置
US9589053B1 (en) * 2010-12-17 2017-03-07 The Boeing Company Method and apparatus for constructing a query based upon concepts associated with one or more search terms
US9519714B2 (en) * 2010-12-22 2016-12-13 Microsoft Technology Licensing, Llc Presenting list previews among search results
US8396871B2 (en) 2011-01-26 2013-03-12 DiscoverReady LLC Document classification and characterization
US8868567B2 (en) 2011-02-02 2014-10-21 Microsoft Corporation Information retrieval using subject-aware document ranker
US9633012B1 (en) 2011-08-25 2017-04-25 Infotech International Llc Construction permit processing system and method
US9116895B1 (en) 2011-08-25 2015-08-25 Infotech International Llc Document processing system and method
US9785638B1 (en) 2011-08-25 2017-10-10 Infotech International Llc Document display system and method
US9817898B2 (en) 2011-11-14 2017-11-14 Microsoft Technology Licensing, Llc Locating relevant content items across multiple disparate content sources
US9667514B1 (en) 2012-01-30 2017-05-30 DiscoverReady LLC Electronic discovery system with statistical sampling
US10467252B1 (en) 2012-01-30 2019-11-05 DiscoverReady LLC Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
US9218344B2 (en) 2012-06-29 2015-12-22 Thomson Reuters Global Resources Systems, methods, and software for processing, presenting, and recommending citations
US20140025687A1 (en) * 2012-07-17 2014-01-23 Koninklijke Philips N.V Analyzing a report
US8898154B2 (en) * 2012-09-19 2014-11-25 International Business Machines Corporation Ranking answers to a conceptual query
US10152538B2 (en) 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
US10242090B1 (en) * 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
US9754020B1 (en) 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
GB2541566A (en) 2014-03-29 2017-02-22 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
US11144555B2 (en) * 2015-05-06 2021-10-12 App Annie Inc. Keyword reporting for mobile applications
US9904916B2 (en) * 2015-07-01 2018-02-27 Klarna Ab Incremental login and authentication to user portal without username/password
US10387882B2 (en) 2015-07-01 2019-08-20 Klarna Ab Method for using supervised model with physical store
US20170116194A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10474704B2 (en) 2016-06-27 2019-11-12 International Business Machines Corporation Recommending documents sets based on a similar set of correlated features
US20180018333A1 (en) 2016-07-18 2018-01-18 Bioz, Inc. Continuous evaluation and adjustment of search engine results
WO2018096514A1 (en) 2016-11-28 2018-05-31 Thomson Reuters Global Resources System and method for finding similar documents based on semantic factual similarity
CN108628906B (zh) * 2017-03-24 2021-01-26 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN110785754B (zh) * 2017-08-30 2023-11-21 深圳市欢太科技有限公司 应用资源处理方法及相关产品
US20240086433A1 (en) * 2022-09-12 2024-03-14 Thomson Reuters Enterprise Centre Gmbh Interactive tool for determining a headnote report

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116242A (ja) * 1988-10-26 1990-04-27 Fuji Xerox Co Ltd 電子メールシステム
JPH04130839A (ja) * 1990-09-21 1992-05-01 Nec Corp 電子メールのキーワード検索方式
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
JP3431836B2 (ja) * 1998-06-18 2003-07-28 株式会社トレンディ ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
US6728695B1 (en) * 2000-05-26 2004-04-27 Burning Glass Technologies, Llc Method and apparatus for making predictions about entities represented in documents
US6684202B1 (en) * 2000-05-31 2004-01-27 Lexis Nexis Computer-based system and method for finding rules of law in text
JP2002108914A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
EP1288794A1 (en) * 2001-08-29 2003-03-05 Tarchon BV Methods of ordering and of retrieving information from a corpus of documents and database system for the same
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
JP4163524B2 (ja) * 2003-02-03 2008-10-08 日本電信電話株式会社 共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
BRPI0506675A (pt) * 2003-12-31 2007-05-15 Thomson Global Resources sistema, métodos, interfaces e software para estender resultados de busca além dos limites definidos pela consulta inicial
CA2577376C (en) * 2004-08-23 2012-02-21 Lexisnexis, A Division Of Reed Elsevier Inc. Point of law search system and method
US7765178B1 (en) * 2004-10-06 2010-07-27 Shopzilla, Inc. Search ranking estimation
US20060179051A1 (en) * 2005-02-09 2006-08-10 Battelle Memorial Institute Methods and apparatus for steering the analyses of collections of documents
JP2006227823A (ja) * 2005-02-16 2006-08-31 Canon Inc 情報処理装置及びその制御方法
US7519588B2 (en) * 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20100153107A1 (en) * 2005-09-30 2010-06-17 Nec Corporation Trend evaluation device, its method, and program
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
JP5379696B2 (ja) 2006-12-29 2013-12-25 トムソン ルーターズ グローバル リソーシーズ 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases

Also Published As

Publication number Publication date
AR064694A1 (es) 2009-04-22
NZ578672A (en) 2012-08-31
BRPI0720718A2 (pt) 2014-04-01
CA2674294A1 (en) 2008-07-10
CA2674294C (en) 2017-03-07
JP2013077333A (ja) 2013-04-25
AU2007339839A1 (en) 2008-07-10
JP2010515171A (ja) 2010-05-06
US20090198674A1 (en) 2009-08-06
JP5379696B2 (ja) 2013-12-25
CN101622618A (zh) 2010-01-06
WO2008083211A1 (en) 2008-07-10
US8321425B2 (en) 2012-11-27
EP2115638A1 (en) 2009-11-11

Similar Documents

Publication Publication Date Title
CN101622618B (zh) 具有基于概念的搜索和分级的信息检索系统、方法和软件
JP5328896B2 (ja) ソーシャルネットワークを活用したクエリーの絞込みおよび提案
US7617199B2 (en) Characterizing context-sensitive search results as non-spam
JP5168961B2 (ja) 最新評判情報通知プログラム、記録媒体、装置及び方法
AU2005330021B2 (en) Integration of multiple query revision models
US11386471B2 (en) Pay-for-access legal research system with access to open web content
US20070250501A1 (en) Search result delivery engine
US9092756B2 (en) Information-retrieval systems, methods and software with content relevancy enhancements
US20060230005A1 (en) Empirical validation of suggested alternative queries
JP4917061B2 (ja) 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
Belen Sağlam et al. A framework for automatic information quality ranking of diabetes websites
JP2004110386A (ja) 連想検索システム
US7844602B2 (en) Method and system for establishing document relevance
Vattikonda et al. Interpreting advertiser intent in sponsored search
EP2438541A2 (en) Improved systems, methods, and interfaces for extending legal search results
Qumsiyeh et al. Web Search Using Summarization on Clustered Web Documents Retrieved by User Queries
Cirad Document complémentaires (Annexe 4)
Meij et al. on the World Wide Web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Swiss Swiss

Applicant after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Switzerland Zug

Applicant before: THOMSON REUTERS GLOBAL RESOURCES

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Swiss Swiss

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP01 Change in the name or title of a patent holder
CP02 Change in the address of a patent holder

Address after: Chug, Switzerland

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Bahr, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200422

Address after: Chug, Switzerland

Patentee after: Thomson Reuters Enterprise Center Co.,Ltd.

Address before: Chug, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170620

CF01 Termination of patent right due to non-payment of annual fee