CN102317937A

CN102317937A - 用于聚集来自多个web站点的数据的系统和方法

Info

Publication number: CN102317937A
Application number: CN2009801568512A
Authority: CN
Inventors: 迈克尔·鲁巴诺维奇; 德米特里·巴比斯基
Original assignee: ForNova Ltd
Current assignee: ForNova Ltd
Priority date: 2008-12-31
Filing date: 2009-12-27
Publication date: 2012-01-11
Also published as: WO2010076785A1; WO2010076785A4; EP2380099A1; US20100169301A1; RU2011130218A; US9430569B2; JP2013515977A; JP5501373B2; US8880498B2; US20150134636A1

Abstract

本发明公开了用于从多个相关站点收集信息、分析信息以及将相关信息储存在数据库中用于日后使用的系统和方法。根据本发明的一个实施方式，系统使用所提供的站点的列表——不管是自动地还是单独地获得的，查询它们并分析从每个站点检索的结果。信息也可以可选地且优选地被排名。

Description

用于聚集来自多个web站点的数据的系统和方法

本申请要求2008年12月31日提交的第61/193,862号美国临时申请的优先权，该申请特此通过引用被并入，好像在本文完全阐述的一样。

发明领域

本发明涉及从web站点检索信息，并且特别是涉及来自多个web站点的信息的自动聚集，并且可选地对这样的信息排名。

发明背景

互联网已经成为用于搜索信息的主要资源。提供服务或有关多个主题的信息的web站点已变得非常普及。这样的web站点可以是例如提供汽车销售的站点、提供房地产的房地产站点或使用户能够得到有关他所关注的人的联系信息的社交网络站点。

不幸的是，寻找对于某个项目如汽车的信息的个人例如必须从不同站点检索信息并人工地组合这样的信息。此外，一些信息可能是多余的；例如，有关同一房地产的信息可能出现在一个以上的房地产站点上。

一些web站点已经与相关web站点建立了协议，以从这些站点收集信息并在另一站点上显示此信息。不幸的是，由于操作人工地完成并且基于协议，从中收集信息的站点的数量是有限的。

发明概述

背景技术没有教导或建议完全自动化的过程，其基于对从相关web站点收集的信息进行的几何和语义分析的结合并且提供在一个站点中收集的相关信息。

在本发明的至少一些实施方式中，本发明通过提供从多个相关站点收集信息、在几何上和语义上分析信息以及将相关信息储存在数据库中用于日后使用的系统和方法来克服背景技术的不足。结合语义分析的几何分析与仅仅语义分析相比提供更准确和有效的搜索。

根据本发明的一个实施方式，系统自动地且优选地定期查询相关站点并分析从每个站点检索的结果。这样的结果可以从HTML/XML页面或从任何其他文本格式的页面检索到。根据这个实施方式，浏览器将其渲染组成器引擎应用在HTML文档上，以例如可选地通过生成文档对象模型(DOM)树来确定文档的一个或多个几何特性。这种树的几何特性被优选地分析，以确定文档的布局。然后根据文档布局，优选地从文档检索信息。可选地，也应用语义分析。

根据本发明的又一实施方式，提供用于将通过这样的几何分析获得的信息排名的方法。该方法可选地以单独地且分开地将所分析的文档内包含的信息的一个或多个记录或单元排名而不是仅将完整的文档本身排名为特征。所谓“记录”是指从关联于或形成网站“后台”部分的信息的数据库或其他储存器获得或得到的信息的任何单元，例如记录可以是数据库内列表的条目。信息单元关于数据库中储存的数据的域优选地形成连贯的整体。作为非限制性实例，对于房地产数据库，记录可选地是列表中的房地产条目(例如用于建筑物、办公室、公寓等的出售或出租)。这个实施方式使相关信息能够被排名，而不考虑文档本身及其排名。当信息单元是所关注的和/或当信息单元可存在于“深网”上时，这样的排名是有用的，其中信息单元是被动态地创建的web页面的一部分。

如前所述，web页面通常包含多个信息。诸如有关广告等的信息的部分不包括相关信息。发现相关信息可以通过基于内容和上下文相关性的搜索的语义分析例如通过搜索关键词来完成。发现相关信息也可以通过基于页面的布局和基于关于相关信息的位置的假设或者基于两者组合的几何分析来完成。不幸的是，在本领域中不存在基于相关信息的位置的预先确定的描述和基于这样的几何分析与语义分析的结合来提供几何分析的系统和方法。在至少一些实施方式中，在本发明的许多重要特征之中的是它克服了已知技术的这些缺点。

于2006年10月24日提交、2008年4月24日公布的第2008/0098300号美国申请教导用于通过几何分析渲染页面从web页面获取相关信息的系统和方法。然而，这个申请没有具体地教导或建议如何几何分析页面以及如何将语义分析与几何分析结合。

于2005年4月25日提交、2006年7月20日公布的第2006/0161569号美国专利申请教导通过搜索上下文的相关性来识别树结构中所关注的节点；然而，这项专利没有教导或建议如何通过分析页面的几何结构来检查web页面中数据的相关性。

除非另有规定，本文所使用的所有技术和科学术语具有与本发明所属领域的普通技术人员所普遍理解的相同含义。本文提供的材料、方法和实例仅是说明性的而没有被规定是限制性的。

本发明的方法和系统的实现涉及人工地、自动地或两者组合地执行或完成某些选定的任务或步骤。此外，根据本发明的方法和系统的优选实施方式的实际仪器和装置，几个选定的步骤可在任何固件的任何操作系统上通过硬件或通过软件或两者组合地实现。例如，作为硬件，本发明的选定步骤可以被实现为芯片或电路。作为软件，本发明的选定步骤可以被实现为由计算机使用任何合适的操作系统执行的多条软件指令。在任何情况下，本发明的方法和系统的选定步骤可以被描述为通过数据处理器例如用于执行多条指令的计算平台来执行。

虽然关于“计算机网络”上的“计算机”描述了本发明，但是应注意，可选地，以数据处理器和/或执行一个或多个指令的能力为特征的任何设备可以被描述为计算机，包括但不限于PC(个人计算机)、服务器、小型计算机。互相通信的这样的设备的任何两个或多个和/或与任何其他计算机通信的任何计算机可以可选地包括“计算机网络”。

附图的简要说明

参考附图，在本文仅作为例子描述本发明。现详细地特别参考附图，强调的是，所示的细节作为例子并且仅是为了本发明的优选实施方式的说明性讨论的目的，并且被呈现以便提供被认为是最有用且最易理解本发明的原理和概念方面的描述的内容。在这方面，没有试图比基本理解本发明所必需的更详细地示出本发明的结构细节，使用附图理解的描述使得本发明的几种形式可以如何在实践中体现对本领域的那些技术人员变得明显。

在附图中：

图1是系统的示意图。

图2是描述关于特定站点的数据库的建设的示意性流程图。

图3是描述页面分析的高级流程图。

图4是示出渲染页面的图。

图5是示出页面内所选的记录容器的图。

图6是示出记录容器内的组的图。

图7是描述识别记录容器的过程的示例性图。

图8是描述识别记录容器内的组的示例性过程的图。

图9示出根据本发明的至少一些实施方式用于根据文档内的记录的语义分析与还有几何特性的组合给记录排名的示例性、说明性过程。

图10描述根据本发明的至少一些实施方式的用于执行相关性排名系统910的示例性、说明性过程。

详细描述

在至少一些实施方式中，本发明是用于从web站点检索信息并且特别是用于从多个web站点自动聚集信息的系统和方法。根据至少一个实施方式，系统和方法从多个相关站点收集信息、在几何上和语义上分析信息以及可选地将相关信息储存在数据库中用于日后使用。结合语义分析的几何分析与只有语义分析相比提供更准确且高效的搜索。

文档对象模型表示树状结构中的HTML或XML文档。DOM提供允许数据分离和分类成定义明确的树状结构用于简化检索的数据结构。

可选地且优选地，测量从内部浏览器框架到封闭矩形区域的左上角的以像素为单位的距离的X、Y坐标位置与树节点关联。该区域的宽度、高度、左边界、顶边界尺寸、内左侧和顶部空白也是可选的且以在树中为特征。与DOM树节点关联的所有几何特性被称为文档的布局。

一旦构建了文档的DOM树，系统就优选地搜索布局内的记录容器。记录容器可选地是与DOM树节点关联的布局的部分，DOM树节点包含具有类似几何结构的布局的部分。节点也可以可选地包含也是布局的部分的其他非记录部件或子区。此外，记录容器可以可选地以在几何上不与记录相似的布局的一个或多个部分为特征。

如果存在一个以上的候选记录容器，则通过对容器的面积大小和容器的几何中心到文档布局的几何中心的接近度排名来优选地选择单个记录容器；例如，具有最大面积且具有最接近页面中心的中心的容器排名高并被选择为记录容器。

两个或多个布局子区(记录)之间的几何相似度可选地且优选地至少部分地由包括记录的重复出现的元素(形状)的等级确定。几何特性优选地包括诸如长度、宽度和位置的参数。每个记录是大概包含一个单位的相关数据的布局的一部分，例如，汽车的广告或用于房地产的出售或出租的建筑物或其部分的列表。根据本发明的至少一些实施方式，记录的相关性可选地且优选地由语义分析仪进一步定义，其中记录内包含的信息的语义相关性被优选地确定，以便在确定记录的相关性时，这种语义相关性也被优选地考虑。

通过使用扫描线算法的变形优选地发现几何相似度。扫描线算法是计算机图形算法，其在逐行的基础上而不是在逐像素的基础上操作。所有形状首先按照它们首先出现的顶部x坐标而分类，然后图像的每行或扫描线使用扫描线与几何形状的交点来计算。

接下来，系统优选地将所选的记录容器内的记录划分成组。具有相同几何图案的记录被优选地识别为属于同一组。通过识别记录容器内的几何矩形或其他几何上定义的形状以及通过给矩形排序、优选地通过使用扫描线算法来优选地完成定义组和几何图案的过程。

系统对来自每组的一个代表性记录或一组记录优选地执行语义分析。如果代表性记录(该组记录)被发现是相关的，则来自所有组成员的相关数据以及组的图案(识别组的结构)被优选地储存用于数据的进一步检索。例如，语义分析通过搜索关键词或其组合或通过使用语义web技术来完成，而不希望以任何方式限制。例如，如果系统从处理航班的web页面聚集信息，则系统优选地搜索诸如航班号、座位、到达等的关键词。如果发现这样的关键词，则几何图案被优选地识别为相关的，并且来自此图案的所有实例的数据被优选保留在数据库中。

根据本发明的其他实施方式，一旦在一个页面上识别出图案，系统就可以在接下来的页面中用相同图案识别记录，并且通过在这些图案上呈现相同文字结构来优选地获取相关数据而没有进一步分析。

根据本发明的其他实施方式，系统将检索的数据保存在数据库中。一旦用户优选地通过使用专用web站点来查询该数据，就从数据库中检索出它。查询结果优选地包括从相关站点以及到这些站点的链接检索到的信息。

根据本发明的又一实施方式，提供用于将通过这样的几何分析获得的信息排名的方法。该方法可选地以单独地且分开地对所分析的文档内包含的信息的一个或多个记录或单元排名而不是仅对完整的文档本身排名为特征。这个实施方式使相关信息能够被排名，而不考虑文档本身及其排名。当信息单元是所关注的和/或当信息单元可存在于“深网”上时，这样的排名是有用的，在“深网”中信息单元是被动态创建的web页面的一部分。

现转向附图，图1是根据本发明的示例性、说明性系统的示意图。系统100以服务器120为特征，服务器120与外部数据库101通过web站点接口102通信，以便从相关站点获取数据。服务器120以用于从相关web站点109提供的列表获取数据的网络爬虫进程105为特征。这种列表109可以可选地存在于文件中或可选地由另一网络爬虫收集。调度器106调度网络爬虫105，以通过web站点接口102自动地查询数据库101，以便检索相关数据。这样的数据可以是例如通过查询大学的web站点得到的高等教育计划。网络爬虫进程105可选地且优选地使用浏览器104的API，以便与外部数据库101通信并渲染页面。渲染是本领域已知的进程，其基于存在于DOM(文档对象模型)中的分级和与其关联的几何信息产生页面布局，该几何信息根据从web站点109接收的web页面数据被检索。分级信息具体地存在于DOM树中；每个标记语言标签(如每个HTML或XML标签)与DOM树中的节点关联。对于树中的每个节点，浏览器104也关联其几何表示用于渲染相应的web页面。几何表示记为XY原点偏移、宽度、高度等。

网络爬虫105将包括DOM树连同页面几何表示的渲染页面传输到几何分析仪进程107，其发现由语义分析仪108进行文本地分析的相关层，如图3更详细解释的。语义分析仪进程107优选地与几何分析仪进程107通信，以便接收具有相同图案的组并分析每个组。语义分析仪进程107也优选地与网络爬虫105通信(优选地只有当页面已经被识别为相关结果页面时，网络爬虫105才搜索到接下来的结果页面的链接)。

包括记录、数据和到相关web页面的链接的分析结果被优选地储存在结果数据库110中。当用户使用搜索网站111查询信息例如用户区域中的所有高等教育计划的列表时，从结果数据库110检索信息。根据上面执行的分析，信息优选地包括数据和到用于检索额外数据的相关站点的链接。

图2是描述关于特定网站的数据库的建设的示意性流程的示例性、说明性实施方式的图。系统对特定区域的相关站点的列表例如房地产站点的列表工作。在步骤1中，系统自动地且定期地从给定站点列表查询每个相关站点。通过优选地使用审查站点URL列表的网络爬虫、优选地通过使用web浏览器如微软Internet Explorer、Mozilla Firefox等来完成查询。网络爬虫优选地基于由浏览器提供的、由web站点的URL指定的文档的DOM(文档对象模块)来建立渲染页面(web浏览器优选地嵌入网络爬虫中，虽然可选地这些部件可以是单独的并可为了网络爬虫的操作而通信)。

在步骤2中，通过识别来自渲染页面的几何图案和通过从图案提取数据，系统寻找由web站点的URL指定的文档中的相关数据。这种方法在图3中被更详细解释。在步骤3中，数据和到数据的链接被优选地保存在系统的数据库中用于进一步使用。如果在主页中找到相关数据，则网络爬虫获取接下来的页面并且对接下来的每页重复步骤2-3。对由网络爬虫找到的每个web站点优选地重复步骤1和2。在步骤4中，用户优选地通过使用由系统提供的专用web站点来查询信息(例如房地产信息)。在步骤5中，系统提供来自数据库以及到相关web站点的链接的所有相关信息。系统优选地提供关于在页面中的每个所保存的记录的简要信息；用户被重新引导到记录被找到的原始网页以便查看记录本身。

图3是描述页面分析的高级流程图。在步骤1中，几何分析仪根据存在于DOM(文档对象模块)中的信息从嵌入式浏览器渲染引擎获得页面布局，DOM是从web页面检索到的，优选地包括如前所述的DOM树。在步骤2中，通过几何分析仪来分析布局以找出一个或多个记录。每个记录代表一信息单元。这种记录可以可选地是例如通过经销商web站点销售的汽车的广告。

在步骤3中，几何分析仪根据找出的记录优选地搜索特定的记录容器。记录在几何上呈现为位于记录容器内的结构。

通过假设相关数据存在于记录容器中，方法优选地搜索包含在几何上彼此相似的记录的这种记录容器。如果存在一个以上的候选容器，则根据记录的一个或多个几何特性优选地选择记录；例如，可选地更接近页面几何中心的更大和更中心的记录被选择。示例性、说明性记录容器在图5中被示出。

在步骤4中，具有相同几何图案的矩形(记录)的组在所选的记录容器内被确定。系统优选地按照坐标对记录容器内部的所有矩形(记录)排序。接下来，矩形彼此分离。具有相同几何结构的矩形被定义为属于通过独特几何图案识别的同一组。记录容器到组的划分在图6中被示出。在步骤5中，一个代表性记录或一组记录选自在步骤4中定义的每组并被语义地分析。在步骤6中，如果通过语义分析仪发现该代表性记录或这组记录是相关的，则来自所有组成员的相关数据以及该组的图案(识别组的结构)被储存用于数据的进一步检索。对每一组重复步骤5和6。

如果数据记录在表格中被表示，则几何分析仪例如通过使每个记录与表格行关联根据这个几何结构优选地分析记录。语义分析识别表格的标题行和每个标题条目的几何位置(偏移)。在分析非标题行时，使用列的偏移使每列与相应标题条目关联。这种技术确保来自表格的准确的记录提取。

图4是示出渲染页面的图。渲染页面400优选地从渲染引擎(未示出)产生。渲染通过结合从DOM检索的几何和结构信息来完成。结构信息由DOM(文档对象模型)、由分级树(被示为DOM树402)提供，而几何信息由DOM通过指定树402中的每个节点的坐标来提供。DOM树402和渲染页面400之间的对应性被示出。

DOM树402的根节点是HTML 404。HTML404以对应于页面布局408的主体406为特征。主体406以多个DIV节点410为特征，每个DIV节点代表渲染页面400内的划分412。DIV节点410的一个以表格节点414为特征，表格节点414对应于渲染页面400内的表格416。表格节点414又以对应于表格416的表格行418的多个TR(表格行)节点418为特征。

图5示出渲染页面510内的记录容器520。通过具有彼此相似的记录的子树(内部矩形)，记录容器520被识别为具有在渲染页面内最有组织的内部结构的记录。

图6示出记录容器内的组。每个组包含具有相同内部几何结构的记录。在图中，记录容器630内的记录631、632和635属于一个组，而记录633、634、636和637属于另一组。

图7是描述识别记录容器的过程的示例性图。在步骤1中，通过渲染进程产生页面的布局。在步骤2中，通过例如使用扫描线算法来几何地扫描文档布局，以便发现布局中的相似区域。在步骤3中，包含相似区域的DOM树节点被识别为候选记录容器。在步骤4中，通过对容器的面积大小和容器的几何中心到文档布局的几何中心的接近度排名从候选容器选择记录容器；例如具有更大面积和最接近页面中心的中心的容器以高等级被排名，并被选择为记录容器。

图8是描述识别记录容器内的组的过程的图。在步骤1中，找到记录容器内的每个记录的几何结构。在步骤2中，根据记录的几何结构对记录分组，以便具有相似结构的记录被放置到同一组中。在步骤3中，从每组记录优选地选择一个代表性记录或一组记录。在步骤4中，语义地分析该代表性记录或该组记录，以确定每个代表性记录或每组记录的内容。在步骤5中，分析结果以结构被优选地储存在系统数据库中用于日后检索，例如用于分析具有相同或相似结构的其他记录。

根据本发明的一些实施方式，根据文档内如上所述确定的记录的语义分析和还有几何特性的结合可以可选地对记录排名。如图9所示，进程900优选地以从多个数据库902分析多个记录904为特征。数据库902可以可选地包括通过如上所述的计算机网络例如互联网--可选地且更优选地包括所谓的“深网”--得到的任何类型的信息，其是从动态生成的web页面获得的记录。

系统906优选地从数据库902提取记录904。系统906可选地且优选地如前所述操作，以便提取记录并还确定其几何特性，更优选地还包括关于记录所在的文档的文档布局的记录的几何特性。由系统906确定的信息被优选地储存在结果数据库908中。

相关性排名系统910优选地分析结果数据库908中的信息以对如上所述获得的记录排名。相关性排名系统910优选地至少使用关于图10更详细描述的语义比较，以及还有基于每个记录的几何特性的排名，以确定多个记录的相关性排名。关于几何特性，至少地，优选地，原始文档上的记录的突出度(prominence)从关于文档布局的记录的几何特性确定，并被用于排名。这种突出度涉及由网站设计者做出的有关记录重要性的一个或多个决策；更突出的记录大概更重要。

根据前面描述的几何图案和每个记录的位置信息优选地确定突出度。对于给定网站及其记录，通过组合图案的平均深度和具有这种图案的记录的数量，相关性排名系统910可评估每个图案的突出度。

作为说明性非限制性实例，每天扫描网站X并提取1000条记录。在这个实例中，记录被分为两组：具有图案A的记录和具有图案B的记录。假设存在990条具有图案A的记录并且它们已从页面一到五十被提取(图案A的平均深度为25)，而只存在只出现在第一页上的十条具有图案B的记录(图案B的平均深度为1)。若干公式可以被应用在该数据上以计算图案(记录组)的突出度。具有图案B的记录可被假设为更加突出，假定它们只出现在一组页面的第一页上。

类似的分析可以可选地应用到web页面内的位置(顶部和中心或底部和一个侧面，其中顶部和中心位置可以可选地被确定为更突出)、记录的大小(更大的记录被认为更突出)以及可选地还有记录内包含的信息类型。关于信息类型，根据记录内包含的信息域，优选地，突出度与信息类型关联。例如，对于房地产广告和汽车广告的领域，可选地且优选地，照片或其他类型的图像的包括增加了记录的突出度，因为通常这样的图像将用于更重要的项目，假定它们消耗web页面上的空间。然而，对于诸如“需要帮助”广告的其他领域，图像的存在不一定用信号表示记录的增加的重要性，在这种情况下，这种类型的信息将优选地不用来确定记录的突出度。

可选地，相关性排名系统910还可以使用记录的“新鲜度”，因为所提取的具有旧日期的记录不太可能相关；此外，它们的推测的相关性随着年龄而下降。因此，较新的记录优选地接收此属性的更高分数。

可选地，相关性排名系统910还可以使用用于优选地按照普及性和可靠性来排名的记录源。例如，人们可使用网站主页URL的谷歌排名或估计其网络流量以确定普及性。该属性还允许例如通过组合记录出现的网站的谷歌排名来给在若干网站上同时出现的记录提供更高优先级，因此给它指定更高的排名。

关于可靠性，这样的排名可以可选地人工地或根据相关性排名系统910外部的自动分析来确定；例如，新闻网站有时是由外部机构根据其中包含的信息的可靠性来排名。这样的外部第三方排名可以可选地被包括以确定特定网站作为记录源的可靠性。

可选地，相关性排名系统910也可以使用记录的完整性，其是哪些项目在记录中提供值的程度；因为在记录中定义项目越多(以便记录具有较少的

或空变量)，根据这个参数的记录的排名就越大。例如，如果记录是可包括图像的类型，则优选地以图像为特征的记录接收比没有图像的记录大的排名。

当用户通过用户计算机912提交查询时，用户计算机912可选地且优选地例如通过网络914如互联网与相关性排名系统910通信，则查询优选地与由相关性排名系统910排名的记录比较。既根据查询和记录的语义分析以及还优选地根据由相关性排名系统910分析的几何信息来优选地执行这样的排名。关于图10更详细地描述这个进程。答案然后优选地返回给用户计算机912，用于显示给用户。

图10描述根据本发明的至少一些实施方式的用于执行相关性排名系统910的示例性、说明性过程。如所示，来自多个记录904的信息与用户查询1000通过相似度比较模块1002进行比较，相似度比较模块1002可以可选地由任何类型的计算机或多个计算机操作。相似度比较模块1002优选地将记录904如下分成一个或多个不相关记录1004和一个或多个相关记录1006。

优选地，相似度比较模块1002(或者在相似度比较模块1002之前的上游分开地、可选地以及优选地操作的另一模块)将记录904分隔成多个域。每一域可选地且优选地由项目集<i₁，i₂，…，i_n>定义。例如，对于房地产记录，下列项目可以可选地被定义：房地产类型、价格、地址、楼层、面积等。对于二手车领域，人们可以可选地定义像汽车型号、价格、电机体积以及里程的项目。对于不同领域，项目可不同，虽然，当然一个或多个项目可以可选地在多个领域中出现。

数据库中多个记录904的记录优选地表示为变量向量R＝<r₁，r₂，…，r_n>。每个变量r_k包含特定项目i_k的值。记录可能不包含关于描述域的一些项目的信息。如果此信息缺失或不存在，那么对应于缺失项目的变量的值被优选地分配特定的空值，如

(如上所述)。

用户查询也优选地由相似度比较模块1002变换成描述特定域的项目的变量向量Q＝<q₁，q₂，…，q_n>。用户查询也可能不包含对给定域定义的一些项目，在这种情况下，对应于缺失项目的变量的值再次被优选地分配特定空值，如

(如上所述)。例如，人们可以搜索在伦敦的3间卧室的公寓，而不考虑价格或具体房产面积；价格和具体房产面积的缺失值被优选地转换为空值。

当相似度比较模块1002接收查询Q＝<q₁，q₂，…，q_n>时，对数据库中多个记录904的每个记录优选地计算查询的相似率SR(Q，R)(SR(Q，R)∈[0，1])。相似率是项目的每个查询-记录对变量的相似率的乘积：SR(Q，R)＝∏sr(q_k，r_k)。对于不同类型的项目，不同地计算项目的相似率。

可选地，不同的权重可被分配到不同项目；在这种情况下，优选地为这样的微分加权提供每个项目的新因数(幂)：SR(Q，R)＝∏sr^wk(q_k，r_k)。

对于一些项目，相似率可通过变量的严格比较来定义并可只被分配二进制值，例如，房产卧室的数量或汽车品牌。

在其他项目中，可进行松散比较。在数值项目中，可使用数字的简单比较。例如，如果有人寻找30万USD(美元)价格的房产，则这样的用户很可能有兴趣看到30.5万USD或者甚至27万USD价格的房产。在这种情况下，相似率可使用下列公式计算：

对于非数值项目，相似率可通过文本相似度算法如像余弦相似度或反转文档频率(IDF)来计算。

在广义域的情况下，优选地只存在一个项目，其是自由文本。记录和查询然后优选地都由通过文本相似度算法进行比较的单个变量定义。

如果查询变量q_k＝φ，则优选地不对SR(Q，R)考虑它，因为sr(q_k，r_k)对于所有记录是相同的且不会影响相关性顺序。如果除sr(q_k，r_k)外的记录变量r_k＝φ优选地接收预定值τ_k，则τ_k∈(0，1)。很明显，不能得到值0或1(它不能被视为不相关的，且也不能接收满秩，因为具有与对这个项目的查询相同的值的记录应该排名较高)。

在SR(Q，R)的计算之后，记录被优选地分为两组，如前所述。具有低SR(Q，R)(比预定阈值低，例如-0.1)的记录被认为是不相关的(被示为不相关记录1004)并且将不会显示给用户。具有高相似率的记录(被示为相关记录1006)将通过扩展相关性排名模块1008排名(组合除相似率之外的排名相关性的额外参数)。

扩展相关性记录排名EXR(Q，R)通过下列公式计算：

其中排名属性变量的向量A＝<a₁，a₂，…，a_m>乘以相对权重向量W＝<w₁，w₂，…，w_m>。根据具体特性(属性)，属性变量a_i是描述记录的排名的实数a_i∈[0，1]。权重因数w_i描述排名计算中属性的相对权重。加权因数是实数w_i∈[0，1]，以便

具体属性可以可选地以由相似度比较模块1002可选地使用记录的一个或多个几何特性、“新鲜度”、根据可靠性和/或普及性的源网站的排名、记录的完整性、网站内记录的突出度等确定的加权为特征。

最后分类和排名的记录1010可以可选地例如根据某种最小排名的删除提供给用户。

虽然关于有限数量的实施方式描述了本发明，但是应认识到，可进行本发明的许多变化、修改和其他应用。

权利要求书(按照条约第19条的修改)

1.一种用于从多个web站点自动聚集数据的方法，包括：

i.从多个相关站点自动地且定期地查询所述数据；

ii分析来自所述查询的结果，所述结果包括至少一个文档，所述分析包括对所述文档的页面布局的几何分析，其中，所述几何分析包括确定所述文档的一个或多个几何特性；分析所述一个或多个几何特性以确定所述文档的布局；搜索所述布局内的多个记录容器；以及根据语义分析和根据所述一个或多个几何特性，确定来自至少一个记录容器的记录的相关性；

iii.将相关记录数据储存在数据库中；以及

iv在用户要求时，从所述数据库检索所述数据。

2.如权利要求1所述的方法，其中，所述搜索所述布局内的多个记录容器还包括识别来自每个记录容器的多个记录；将所述多个记录分成组，每组具有相同的几何图案；所述方法还包括语义地分析来自每个所述组的代表；以及其中，如果所述语义分析的结果识别相关数据，则将所述数据和所述图案保存在数据库中。

3.如权利要求2所述的方法，其中，在其他页面中具有相同的所述图案的组被认为具有相同的语义结构，以便来自所述组的数据被获取而没有另外的语义分析。

4.如权利要求1所述的方法，其中，所述搜索所述布局内的多个记录容器还包括对所述容器的面积大小和所述容器的几何中心到所述文档的布局的几何中心的接近度排名；以及根据所述排名选择记录容器以形成选定的记录容器，以便所述确定所述相关性对所述选定的记录容器执行。

5.如权利要求4所述的方法，其中，所述确定所述记录的所述相关性包括识别所述选定的记录容器内的多个记录；根据几何图案将所述多个记录分组成组，以便具有相同的几何图案的记录被识别为属于同一组；对每组的代表性记录执行语义分析；以及如果所述代表性记录是相关的，则储存来自所述组的记录的数据。

6.如权利要求5所述的方法，其中，根据几何图案的所述分组通过识别所述记录容器内的几何矩形或其他几何上定义的形状以及通过对所述矩形或其他几何上定义的形状排序来执行。

7.如权利要求6所述的方法，还包括从用户接收查询并比较所述查询与多个记录；以及根据对所述比较所述查询的所述几何图案对多个记录排名。

8.如权利要求7所述的方法，还包括根据“新鲜度”、按照可靠性和/或普及性的源网站的排名、所述记录的完整性或所述网站内的记录的突出度中的一个或多个来对多个记录排名。

9.如权利要求7所述的方法，还包括根据多个加权属性对所述多个记录排名。

10.如权利要求7所述的方法，还包括在所述对所述多个记录排名之前，将所述多个记录划分成一组一个或多个相关记录和一组一个或多个非相关记录，以便所述对所述多个记录排名仅对所述一组一个或多个相关记录执行，其中，所述将所述多个记录划分包括分析所述用户查询以将所述查询分解为多个项目；分析每个记录以将所述记录分解为多个项目；以及比较所述用户查询的所述项目的值和所述记录的所述项目的值。

11.如权利要求10所述的方法，其中，所述比较所述查询和多个记录还包括将每个记录和所述查询表示为变量的向量，所述变量具有微分加权；以及比较所述变量的向量以确定它们的相似度。

12.一种用于几何地分析包括数据库查询结果的页面布局的方法，所述方法包括：

a.通过根据所述布局识别所述记录容器，确定所述布局内的至少一个记录容器；

b.如果多个记录容器被确定，则通过使用布局记录的大小关系或者通过推导页面上的最规则的区域来选择记录容器；

c.将所述记录容器内的记录分成组，每组具有相同的几何图案；以及

d.根据语义分析来分析所述记录，所述语义分析包括根据多个关键词来分析。

13.如权利要求12所述的方法，其中，所述选择的记录容器内的矩形被识别。

14.如权利要求13所述的方法，其中，所述识别通过对所述记录容器内部的所述记录排序并通过使用线边界分隔它们来完成。

15.一种用于从多个web站点自动聚集数据的系统，包括：

a.网络爬虫进程，其用于从所提供的相关web站点的列表获取数据；

b.几何分析仪进程，其用于分析所述数据，所述数据包括至少一个文档，所述分析包括对所述文档的页面布局的几何分析，其中，所述几何分析包括确定所述文档的一个或多个几何特性；分析所述一个或多个几何特性以检测几何图案；搜索所述布局内的多个记录容器；以及根据所述几何图案确定来自至少一个记录容器的记录的相关性；

c.语义层，其用于对所述相关记录进行文本地分析；以及

d.数据库，其用于储存由所述语义层检索的信息。

Claims

1.一种用于从多个web站点自动聚集数据的方法，包括：

i.从多个相关站点自动地且定期地查询所述数据；

ii分析来自所述查询的结果；

iii.将来自所述结果的相关数据储存在数据库中；以及

iv在用户要求时，从所述数据库检索所述数据。

2.如权利要求1所述的方法，其中，所述分析包括后面是语义分析的几何分析。

3.如权利要求2所述的方法，其中，所述几何分析在结果页面的渲染布局上完成。

4.如权利要求3所述的方法，其中，从所述布局定义一个或多个记录容器。

5.如权利要求4所述的方法，其中，一个记录容器选自所述识别的记录容器。

6.如权利要求5所述的方法，其中，所述选择的记录容器内的记录被识别。

7.如权利要求6所述的方法，其中，所述记录被分成组，每组具有相同的几何图案。

8.如权利要求7所述的方法，其中，来自每个所述组的代表被语义地分析。

9.如权利要求8所述的方法，其中，如果所述语义分析的结果识别相关数据，则所述数据和所述图案被保存在数据库中。

10.如权利要求7所述的方法，其中，在其他页面中具有相同的所述图案的组被认为具有相同的语义结构。

11.如权利要求10所述的方法，其中，来自所述组的数据被获取而没有语义分析。

12.如权利要求1所述的方法，其中，从web站点检索所述聚集的数据。

13.如权利要求4所述的方法，还包括从用户接收查询并比较所述查询与多个记录。

14.如权利要求13所述的方法，还包括根据所述比较所述查询的一个或多个几何特性对多个记录排名。

15.如权利要求14所述的方法，还包括根据“新鲜度”、按照可靠性和/或普及性的源网站的排名、所述记录的完整性或所述网站内的记录的突出度中的一个或多个来对多个记录排名。

16.如权利要求15所述的方法，还包括根据多个加权属性对所述多个记录排名。

17.如权利要求14所述的方法，还包括在所述对所述多个记录的所述排名之前，将所述多个记录划分为一组一个或多个相关记录和一组一个或多个非相关记录，以便对所述多个记录的所述排名仅对所述一组一个或多个相关记录执行。

18.如权利要求17所述的方法，其中，所述将所述多个记录划分包括：

分析所述用户查询以将所述查询分解为多个项目；分析每个记录以将所述记录分解为多个项目；以及比较所述用户查询的所述项目的值和所述记录的所述项目的值。

19.一种用于几何地分析包括数据库查询结果的页面布局的方法，所述方法包括：

a.确定所述布局内的至少一个记录容器；以及

b.将所述记录容器内的记录分成组，每组具有相同的几何图案。

20.如权利要求19所述的方法，其中，从所述布局识别一个或多个记录容器，并且其中，一个记录容器选自所述识别的记录容器。

21.如权利要求20所述的方法，其中，所述记录容器通过使用布局记录的大小关系或者通过推导页面上的最规则的区域来选择。

22.如权利要求21所述的方法，其中，所述选择的记录容器内的矩形被识别。

23.如权利要求22所述的方法，其中，所述识别通过对所述记录容器内部的所述记录排序并通过使用线边界分隔它们来完成。

24.如权利要求23所述的方法，其中，所述记录被分成组，每组具有相同的几何图案。

25.一种用于从多个web站点自动聚集数据的系统，包括：

b.几何分析仪进程，其用于将页面分解成分级的层并找到相关层；

c.语义层，其用于对所述相关层进行文本地分析；以及

d.数据库，其用于储存由所述语义层检索的信息。