CN1940930A

CN1940930A - 索引实体的方法和系统

Info

Publication number: CN1940930A
Application number: CNA2006101413420A
Authority: CN
Inventors: 乔尔格·梅尔; 简·H.·派博; 丹尼尔·H.·梅里蒂斯; 安德鲁·S.·托姆金斯; 纳达维·埃洛恩
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2007-04-04
Anticipated expiration: 2026-09-29
Also published as: JP5128101B2; JP2007102786A; CN100423005C; US20070078880A1; US8600997B2

Abstract

一种索引位于分类体系中的多个实体的系统和方法，所述实体包括项的集合，所述方法包括：在索引结构中接收项；为实体建立关于定义实体的项的集合的位置和与各个项关联的数据的记录列表；以及索引包括组内的位于实体位置的实体的组的名称，所述组的数据包括在每个位置的各个实体的名称。记录列表的建立包括将项的位置以及与项关联的数据存储在该项的记录列表的条目中。该方法包括索引包括所述项的组的名称的别名，并使用倒排表索引以将数据与索引项的每个出现关联。

Description

索引实体的方法和系统

技术领域

本发明的实施例总的来说涉及信息检索系统，更具体地说，涉及用于在全文倒排表(full text inverted list)信息检索系统中的数据搜索的技术。

背景技术

分类体系(taxonomy)是对事物的分类。例如，大多数操作系统中的公知目录结构是用于将单独的文件组织成组的方法。在全文索引中，索引利用的是许多文档共享相同的标记(token)(例如，单词或字符)的事实。尽管每个独特的标记在文档的原始集合中会出现多次，但是倒排表索引通常仅将该标记存储一次。因此，通常，可将倒排表索引看作压缩文档的集合的一种形式。典型地，压缩率依赖于索引的范围。通常，基本的倒排索引仅记录某个项(term)是否出现在文档之内，而并不记录它出现了多少次或者它出现在哪里。全倒排索引通常记录每个标记在每个文档之内的每次出现(occurrence)。尽管基本的倒排索引在存储方面更加紧凑，但是它通常不能支持搜索标记的序列，或在标记的特定窗之内搜索标记的存在。然而，全倒排索引通常允许这样的复杂搜索。在基本的倒排索引和全倒排索引之间，存在可以存储在某个项的倒排表之内的各种级别的信息。

关于倒排表，一种最众所周知的索引形式是书本中的索引。几乎每本书都在书的末尾具有单词或单词序列(例如，段落和章节标题)的通常按字母顺序排列的列表，连同论述它们的页码。使用索引，人们可避免为了找到包含特定单词的页面而逐页地浏览。类似地，在例如网络搜索引擎的信息检索应用的情况下的倒排表索引所作的也正是上述内容。抽象地来说，可将网络看作一本书，各个网络文档代表书中的页面。通过扫描要被索引的所有文档并将它们分成标记来执行建立倒排表索引的处理。这一处理称作分析(parsing)或标记化(tokenization)，它产生可以是英文文档中的单词、中文字符、4字节数字等的标记。

对全文索引的查询与所有查询项的倒排表的交集/结合(取决于查询操作符，例如，OR、AND)相同。因此，查询结果本身是一个倒排表。对于查询的每个项，通常必须访问倒排表。数据挖掘(mining)的处理涉及从较大的数据集合中提取诸如模式、关系等信息。数据挖掘者(所谓的注解者)通常逐文档地操作所述集合，并将元数据添加到所述集合。可将实体(entity)理解为人们用许多名称或描述来引用的内容。实体可以是个人、机构、组织、建筑或国家。所有这些具有的共同点在于可以用不同的语言、不同的名称或别名、或者其名称的变化的简称来描述同一个事物。因此，通常也可将实体表示为搜索查询。

上述概念允许用户搜索多个单词或挖掘的实体。然而，通常这是不够的。计算机用户通常趋于想要把事物组织和集中到一起。这种例子包括使用用于集中相关文件的目录或将电子邮件地址集中到一起的寄送列表的文件系统。基本的想法在于可通过引用单个别名(alias)(即，目录名称或寄送列表的名称)对一组事物执行操作。

在搜索应用中，期望相似的功能。并不是搜索包含一组特定项的文档，使用别名来索引和搜索所述组通常更加高效。例如，可使用单个的项“政治家”将文档中出现的所有政治家的名字集中。这样，人们可以高效地搜索文档的集合，而不必单独地列出所有政治家。当搜索一组事物时，其通常不仅有助于找到匹配所述组的文档，还有助于了解组名称的出现的背后“隐藏”着哪个实体。

针对这一问题的第一种传统解决方案为通过分别查询例如“政治家”的组中的每个政治家来查询该组。然而，由于该组会包含数千、数百万或者某些情况下数亿的条目(例如，所有人名的组)，并且在这种情况下的处理速度会从几分之一秒到数日，所以这通常是不可接受的。

第二种传统解决方案为创建与该组相对应的新标记。然而，这种解决方案通常无法提供重要的功能。用户知道结果集合中的文档涉及政治家，但是并不知道涉及哪个政治家。对于特定的分析应用，这一方法也是不可接受的。关系数据库是用于存储关系数据的比较成熟的工具。在组中包含实体也是一种关系。然而，关系数据库通常不适于建立大规模的文本索引。因此，需要一种新型的索引技术，其能够找到包含属于组的实体的文档，并且能够找出在组名称的出现的背后“隐藏”着哪个实体。

发明内容

考虑到以上内容，本发明的实施例提供一种索引位于分类体系中的多个实体的方法，所述实体包括项(term)的集合。在另一实施例中，由计算机可读的计算机存储设备，有形地包含由计算机可执行的指令的程序，所述程序用于执行索引位于分类体系中的多个实体的方法，其中，该方法包括：在索引结构中接收项；为实体建立关于项的位置以及与从索引结构接收的项关联的数据的记录列表(postinglist)；以及将组的名称索引到实体的位置，组的数据包括实体的名称。优选的是，建立记录列表的处理包括：将所述实体的位置以及与所述实体关联的数据存储在用于该组的记录列表的条目中。此外，该方法还包括：使用倒排表索引将数据与索引项的每次出现相关联，并搜索倒排表索引以允许在文档命中的集合中进行统计聚集，其中，统计聚集指示哪些单独的实体存在于文档集合中。此外，该方法还包括：对于索引器找到的每个文档提取某个项的所有出现的数据字段。

本发明的另一方面提供一种索引位于分类体系中的多个实体的系统，所述实体包括项的集合，其中，该系统包括适于接收项的索引结构；以及它们各自的记录列表，所述记录列表包括项的位置和与每个位置有关的数据，其中，索引结构包括组的名称和它的各个记录列表，所述记录列表包括组内的所有实体的位置，每个数据字段包括每个位置的相应实体的名称。优选的是，记录列表适于将项的位置以及与项关联的数据存储在用于该项的记录列表的条目中。该系统还包括适于将数据与索引项的每个出现相关联的倒排表索引结构。此外，该系统还包括查询机制，其适于搜索倒排表索引结构以允许在文档命中的集合中进行统计聚集(aggregation)，其中，统计聚集指示哪些单独的实体存在于文档集合中。此外，该系统还包括索引器，适于对于该索引器找到的每个文档提取某个项的所有出现的数据字段。

当结合下面的描述以及附图进行考虑时，将更好地认识和理解本发明的实施例的这些和其它方面。然而，应理解，以下描述在表示本发明的优选实施例以及其许多特定细节的同时，仅作为示例示出，而并不是限制性的。在不脱离本发明的精神的情况下，在本发明的实施例的范围之内可进行各种改变和修改，本发明的实施例包括所有这样的修改。

附图说明

通过下面参照附图进行的详细描述，将更好地理解本发明的实施例，其中：

图1是示出本发明实施例的优选方法的流程图；

图2示出分类体系顺序的示意图；

图3是根据本发明实施例的系统图；以及

图4是根据本发明实施例的计算机结构图。

具体实施方式

参照在附图中示出并在下面的描述中详细说明的非限制性实施例，将更加全面地解释本发明的实施例及其各种特征和有利细节。应注意到，并不一定按照比例来绘制附图所示的特征。将公知部件和处理技术的描述省略，以便避免不必要地模糊本发明的实施例。这里使用的示例仅仅是为了有助于理解可实施本发明实施例的方式，并进而使得本领域的技术人员能够实施本发明的实施例，因此，不应将示例解释为限制本发明实施例的范围。

如上所述，需要一种新型的索引技术，其能够找到包含属于组的实体的文档，并且能够找出在组名称的出现的背后“隐藏”着哪个实体。本发明的实施例通过提供一种在大规模全文索引中支持索引和搜索分类体系的方法和构架来实现上述目的。更具体地说，本发明的实施例提供一种用于索引包括多个成员的集合的技术，其中，索引提供允许对引用所述集合的成员的文档的顺序访问的数据结构，其中，以用于确定引用了哪个特定成员的信息来扩充所述数据结构。现在参照附图，特别是图1到图4，其示出了本发明的优选实施例。

图1示出索引位于分类体系中的多个实体的方法的流程图，所述实体包括项的集合，其中，该方法包括：在索引结构中接收项(101)；为实体建立关于项的集合的位置以及与项有关的数据的记录列表(103)；以及索引包括组内的实体的位置的组的名称，每个位置的数据包括每个位置的相应实体的名称(105)。优选的是，记录列表的建立(103)包括：将项的位置以及与项关联的数据存储在该项的记录列表的条目中。此外，该方法还包括：使用倒排表索引将数据与索引项的每次出现相关联；以及搜索倒排表索引以允许在文档命中的集合中进行统计聚集，其中，统计聚集指示哪些单独的实体存在于文档集合中。此外，该方法还包括：对于由索引器发现的每个文档提取某个项的所有出现的数据字段。

总地来说，本发明的实施例提供一种实现分类体系的积累(roll-up)的索引建立处理，即，当索引文档中某位置上的特定实体时，将组的名称用作索引项，直接或间接(通过子组)地索引包含所述实体的所有组。接着，本发明的实施体提出一种允许将数据与索引项的每次出现关联的倒排表索引格式。此后，如以下进一步所描述的，本发明的实施例提供一种搜索倒排表以允许在文档命中的集合中进行统计聚集并向用户提供关于哪些实体存在于页面上的信息的方法。

在分类体系中定义实体，即，实体是关于何种文本序列表示这种实体的出现的描述。在图1中示出简单的一个分类体系。可将单独的实体集中成组，并可将组进一步集中，这类似于文件系统中目录的概念。诸如可扩展标记语言(XML)的树状文档结构允许分类体系的表示。当索引实体，代表实体的项(别名)，以及包含所述实体的组的所有别名的出现时，每个组别名的出现与实际实体的名称关联。搜索文档可使用单词、实体别名或实体组别名的任意组合。此外，可通过返回带有组别名的出现信息的实体名称来使用组别名的关联数据注释搜索结果。这是基础索引的功能。本发明的实施例支持使用组中的项的关联数据提供关于文档命中的组的统计信息的应用。返回带有组别名的数据的能力可用于基于文档命中的集合聚集信息并收集统计。例如，查找包含任何人的文档(使用该人的组别名)，可以根据“人”的出现的数据字段选择使所有个人连同文档被返回。所述应用随后可使用这一数据并对其进行聚集，并显示n个最频繁的个人。

此外，本发明的实施例提供使用组别名以基础搜地索项的集合的能力，这简化了查询结构，减少了查询长度和查询之内项的数量。允许使用组别名将用户从必须知道组之内的所有条目以便搜索组中的所有条目的情况中解脱出来。通常，查询中的每个单独的项需要项查找并可能需要盘寻找(disk-seek)。在这种情况下，当以多个项(例如，单词)进行查询时，“项查找”是找出该项是否存在于索引中，即，任何被索引的文档是否包含该给定的项至少一次的处理。术语“盘寻找”指的是在例如硬盘的辅助存储设备上执行的任何操作。在这种情况下，当之前从未看到某个项和它的倒排表并且需要从盘上加载它们时，有必要进行盘寻找。因为CPU和内部存储器(RAM)以及CPU和例如硬盘的外部存储器之间的速度差为多个数量级，所以在进行较大集合中的搜索时减少盘寻找是主要目的之一。通过减少项查找和盘寻找的数量，输入/输出(I/O)操作更加连续，这对于实时性能起到积极作用。

根据本发明的实施例，因为增长的集合被自动处理，所以简化了查询再使用。换言之，在下一索引建立中获得对分类体系的更新，即，将新的人添加到人的组中。如果将一个成员添加到组，则自动将其索引为组的一部分并随着索引更新来获得所述成员。因此，当组成员发生改变的时候，使用组别名的查询不需要改变。此外，根据本发明的实施例，利用每个记录(posting)存储数据允许对于由查询返回的结果集合的仅索引(index-only)数据分析。如果人们仅知道某个人存在于页面上以及存在于哪里(单词或字节偏移)，则不得不加载所有满足查询的文档，并从所述页面提取信息，以得到实际名称。使得数据可通过索引获得对于实时性能是有利的。利用使用本发明的实施例建立的索引，仅访问一个记录列表，可以对于匹配该查询的任何文档，返回分类体系中任何实体的所有出现。因为组的倒排表包括它的孩子的所有出现，所以上述处理可以实现。这实现了仅索引数据检索，其在传统的解决方案中通常需要包含文档的元数据的外部数据存储。如先前所述，检索文档、分析文档和提取数据的传统技术方案是在运行时间方面是不可行的。由本发明的实施例提供的好处能够减少网络或盘往返。

通常，本发明的实施例如下工作。首先，进行索引建立处理。这里，索引处理检索项(单词、实体别名等)。优选的是，将所述索引具体化为文件的集合，所述文件存储在例如硬盘的辅助存储介质上。某个项的每个出现可以具有与其关联的数据。对于每个独特的项建立记录列表。记录的格式是[位置|数据]。对于分类体系中的项，建立处理进行以下操作：(1)利用其在文档中出现的位置x插入实体叶；(2)对于包含(直接或间接)所述实体的每个组，本发明的实施例将组的名称索引到相同的位置x，并将实体别名的名称置于数据字段中。例如，假设存在两个实体，JohnKerry和GeorgeBush，它们在美国政治家的组中，而该组又包含在组“人”中。假设实体JohnKerry出现在某文档的位置x，而实体GeorgeBush出现在某文档的位置y。索引建立处理产生三个别名(一个用于实体，两个用于组名称)的三个记录列表，如表1所示：

表1：记录列表

项名称	记录列表
项名称	记录列表	人/美国政治家/GeorgeBush	...][y\|无数据][...
人/美国政治家/JohnKerry	...][x\|无数据][...	人/美国政治家/GeorgeBush	...][y\|无数据][...
人/美国政治家/JohnKerry	...][x\|无数据][...	人/美国政治家	...][x\|JohnKerry][y\|GeorgeBush][...
人	...][x\|美国政治家\|JohnKerry][y\|美国政治家\|GeorgeBush][...	人/美国政治家	...][x\|JohnKerry][y\|GeorgeBush][...

处理的下一步骤涉及查询处理。这里，使用上述方法建立的索引随后可用于搜索包含任何组成员的出现的文档。通过搜索引擎来促进搜索，所述搜索引擎使用索引来查找项并访问所述项的倒排表。所述查询引擎逐个查询记录列表的所有出现。索引包括文件的集合，所述文件包括所有项和它们各自的记录列表，搜索引擎确定项是否存在，然后使用索引文件中的信息以找到所述项的倒排表(记录)。使用如任何操作系统中使用的传统文件访问方法从盘加载记录。将分类体系之内的实体的记录列表当作普通索引项，并且所述记录列表可与例如页面上的单词的常规索引项进行组合。接着，进行查询项的数据字段的提取。这里，当处理寻找包含项的集合的文档的查询时，索引器对于它找到的每个文档返回某个项的所有出现信息。由于对于每个查询项能够逐个查询所述记录，所以搜索引擎从每个记录返回信息，其为文档之内的位置以及关联的数据。通过提取落入文档的所有出现的所有数据字段来实现上述处理。

图3示出根据本发明实施例的系统框图。索引位于分类体系内的包括项的集合的多个实体的系统200包括：索引结构201，适于接收项；以及记录列表203，包括项的位置和与项的每个位置关联的数据；其中，索引结构201包括组的名称和它的记录列表203，其包括所述组之内所有实体的位置，以及包括在每个位置的各个实体名称的每个数据字段。优选的是，记录列表203适于将项的位置和与项关联的数据存储在项的记录列表203的条目中。系统200还可包括倒排表索引结构205，其适于将数据与索引项的每个出现关联。此外，系统200还可包括查询机制207，其适于搜索倒排表索引结构205以允许在文档命中的集合中进行统计聚集，其中，统计聚集指示哪些单独的实体存在于文档集合中。此外，系统200还可包括索引器209，其适于对于由索引器209找到的每个文档提取某个项的所有出现的数据字段。

本发明的实施例可采用全部硬件实施例、全部软件实施例或包括硬件和软件部件两者的实施例的形式。在优选实施例中，以软件来实现本发明，所述软件包括但不限于固件、驻留软件、微代码等。

此外，本发明的实施例可采用通过计算机可用或计算机可读介质可访问的计算机程序产品的形式，所述计算机产品提供程序代码以由计算机或任何指令执行系统使用或结合计算机或任何指令执行系统使用。为了描述的目的，计算机可用或计算机可读介质可以是任何可包括、存储、通信、传播或传输程序以由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用的装置。

介质可以是电、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。计算机可读介质的示例包括：半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。

适于存储和/或执行程序代码的数据处理系统将包括至少一个直接或间接通过系统总线连接到存储部件的处理器。存储部件可包括在程序代码的实际执行期间使用的本地存储器、海量存储器、提供至少某些程序代码的临时存储以便减少必须在执行期间从海量存储器检索代码的次数的高速缓冲存储器。

输入/输出(I/O)设备(包括但不限于键盘、显示器、指引设备等)可直接或通过中间I/O控制器连接到系统。也可将网络适配器连接到系统以使得数据处理系统能够通过中间的私用或公共网络连接到其它数据处理系统或远程打印机或存储设备。调制解调器、有线调制解调器和以太网卡仅是一些当前可用的网络适配器。

在图4中示出用于实施本发明的实施例的代表性硬件环境。这一示意图示出根据本发明的实施例的信息处理/计算机系统的硬件配置。所述系统包括至少一个处理器或中央处理单元(CPU)10。CPU 10通过系统总线12与诸如随机访问存储器(RAM)14、只读存储器(ROM)16和输入/输出(I/O)适配器18的各种设备相互连接。I/O适配器18可连接到外围设备，诸如盘单元11和带驱动器13、或系统可读的其它程序存储设备。所述系统可读取程序存储设备上的本发明指令，依照这些指令以执行本发明的实施例的方法。所述系统还包括用户接口适配器19，其将键盘15、鼠标17、扬声器24、麦克风22和/或诸如触摸屏设备(未示出)的其它用户接口设备连接到总线12以收集用户输入。此外，通信适配器20将总线12连接到数据处理网络25，显示器适配器21将总线连接到显示设备23，所述显示设备23可具体化为诸如以监视器、打印机或发送器为例的输出设备。

以上对于特定实施例的描述将充分揭示本发明的总体特性，从而其他人可在不脱离总体概念的情况下，通过应用当前知识容易地修改和/或改变这些特定实施例的各种应用，因此，这种改变和修改应该并试图理解为在公开的实施例的等同物的含义和范围之内。要理解到，这里使用的措辞或术语是为了描述的目的，而不是限制性的。因此，尽管以优选实施例描述了本发明的实施例，但是本领域的技术人员将认识到，在实施本发明的实施例时可以在所附权利要求的精神和范围之内进行修改。

Claims

1、一种索引位于分类体系中的多个实体的方法，所述实体包括项的集合，所述方法包括：

在索引结构中接收所述项的集合；

为实体建立关于所述项的集合的位置和与所述项的集合关联的数据的记录列表；以及

索引包括位于所述项的集合的所述位置的所述实体的组的名称，所述组的数据包括所述实体的名称。

2、如权利要求1所述的方法，其中，记录列表的建立包括：将所述实体的所述位置以及与所述实体关联的数据存储在所述实体的所述记录列表的条目中。

3、如权利要求1所述的方法，还包括：使用倒排表索引将数据与索引项的每次出现相关联。

4、如权利要求3所述的方法，还包括：搜索所述倒排表索引以允许在文档命中的集合中进行统计聚集，其中，所述统计聚集指示哪些单独的实体存在于文档集合中。

5、如权利要求1所述的方法，还包括：对于由索引器找到的每个文档提取某个项的所有出现的数据字段。

6、一种计算机可读的程序存储设备，其有形地包含可由所述计算机执行的指令的程序，以执行索引位于分类体系中的多个实体的方法，所述实体包括项的集合，所述方法包括根据先前方法权利要求的任何一种方法。

7、一种索引位于分类体系中的多个实体的系统，所述实体包括项的集合，所述系统包括：

适于接收项的索引结构；以及

关于所述项的位置以及与所述项关联的数据的、包括实体的多个记录列表，

其中，所述索引结构包括组的名称，其包括所述实体在组内的所述位置，所述组的数据包括所述实体的名称。

8、如权利要求7所述的系统，其中，所述记录列表适于将所述项的位置以及与所述项关联的数据存储在所述项的所述记录列表的条目中。

9、如权利要求7所述的系统，还包括：倒排表索引结构，适于将数据与索引项的每次出现相关联。

10、如权利要求9所述的系统，还包括：查询机制，适于搜索所述倒排表索引结构以允许在文档命中的集合中进行统计聚集，其中，所述统计聚集指示哪些单独的实体存在于文档集合中。

11、如权利要求7所述的系统，还包括：索引器，适于对于由所述索引器找到的每个文档提取某个项的所有出现的数据字段。