CN1760867A

CN1760867A - 用于内联网搜索的方法和装置

Info

Publication number: CN1760867A
Application number: CNA2005101041635A
Authority: CN
Inventors: M·S·杜尔索
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-10-15
Filing date: 2005-09-16
Publication date: 2006-04-19
Anticipated expiration: 2025-09-16
Also published as: US7779012B2; US20140081947A1; US20060085447A1; CN1760867B; US8595223B2; US9507828B2; US20060085397A1; US20060085427A1

Abstract

一种用于处理内联网的方法包括爬行该内联网以标识该内联网中的至少某些页面，以及对每一标识的页面，确定从根页面到所标识的页面的最短路径中的链接数。

Description

用于内联网搜索的方法和装置

技术领域

本发明涉及内联网的搜索引擎。

背景技术

搜索引擎通常用于定位诸如整个因特网等网络中感兴趣的信息，或企业内联网的更集中的搜索。响应于用户的查询，典型的搜索引擎提供了已分等级次序的列表，它包括对于揭露内容的简要描述，以及到相关联网页的文本链接。列表的分级排序通常基于出现在查询中的单词和出现在内容中的单词之间的匹配。现有搜索方法中典型的限制通常导致响应于查询而返回不相关的内容。尤其是，大量可用内容会削弱搜索引擎的功效，因为很难将不相关内容从相关内容中分离开来。

典型的引擎部分地基于搜索页面中发现的关键词的出现次数来选择页面。可向页面分配对应于页面上的搜索词的出现次数的相关性，它被归一化成页面的长度。某些引擎试图通过向由更多其它页面链接的网页给予更大的重要性，采用链接数作为重要性的指示符，来改进搜索结果。

大多数搜索引擎遵循在基于网络的页面集合中处理信息的同一基本过程。该引擎使用爬行(crawl)和语法分析技术，以形成网络页面中找到的词的索引。该索引包括由搜索系统用于处理查询和标识相关页面的数据。在构建索引之后，可将查询提交给搜索引擎。查询标识用户的信息请求，并且使用由搜索引擎定义的查询语言和句法来表达。搜索引擎使用网络的索引数据来处理查询，并返回搜索引擎标识为话题上相关的对象的命中列表。用户然后可从该命中列表中选择相关对象来查看和处理。引擎的用户也可使用来自命中列表的页面作为通过网络进一步导航的起始点。

发明内容

依照本发明的某些原理，一种搜索工具可基于结果是与一般还是特定主题内容相关联来组织搜索结果。例如，响应于特定查询，可返回具有相关特定内容的页面，而响应于一般查询，可返回具有相关一般内容的页面。该搜索工具可包括爬行相关、语法分析相关和查询相关特征的任一个或全部。

因此，在一方面，本发明的特征是一种用于处理包括页面的内联网的方法，其中至少一个页面是根页面。该处理方法包括爬行内联网以标识内联网中的至少某些页面，并且对每一所标识的页面确定从根页面到所标识的页面的最短路径中的链接数。可响应于确定的最短路径中的链接数分配所标识页面的分层层级。

在另一方面，本发明的特征是一种用于对内联网的至少一个页面进行语法分析的方法，其中该页面包括以分层结构排列的词。该方法包括对该页面进行语法分析以标识页面中的词，以及对所标识的词确定一个或多个特殊性相关参数。特殊性相关参数可例如与该词在页面的分层结构中的位置或与关联于该词的标签类型相关联。

在又一方面，本发明的特征是一种用于处理对内联网的查询的方法。该方法包括接收包括至少一个搜索词的查询，以及确定该查询的特殊性程度。

附图说明

图1依照本发明的一个实施例示出了用于爬行内联网的方法的流程图。

图2依照本发明的原理示出了内联网的分层组织的框图，它可用于推导每一页面的特殊性或一般性。

图3依照本发明的一个实施例示出了用于对内联网进行语法分析的方法的流程图。

图4依照本发明的原理示出了页面结构的分层组织的框图，它可用于推导页面中每一词的特殊性或一般性；以及

图5依照本发明的一个实施例示出了用于处理搜索引擎查询的方法的流程图。

具体实施方式

申请人理解，常规的搜索引擎通常由于例如可用于搜索的大量页面以及由于通常由用户提交的非常宽泛的搜索查询而给出不令人满意的结果。宽泛的查询可导致向搜索者返回有极少或几乎没有用处的许多命中。此外，相关命中可能埋藏在搜索结果列表的深处，使得搜索者几乎没有机会来找出列表中的相关页面。

申请人还理解，常规搜索引擎不能很好地适用于内联网搜索。寻求一般信息的用户通常输入用于搜索查询的一般搜索词。搜索引擎然后可返回具有感兴趣页面的冗长的命中列表，而用户由于感兴趣页面埋藏在列表深处而可能无法注意到该页面。此外，该列表可包括具有与所寻求的一般信息无关的特定主题的页面。

术语“内联网”此处在宽泛的意义上使用，指的是web站点(也称为web存在状态)或专用网络(例如，仅雇员可用的内联网或仅顾客可用的外联网)。由此，某些内联网可由公众访问，而其它具有限制的访问。内联网包含用导航工具链接在一起的信息集合，使得信息作为一组内聚信息而呈现。

内联网包括页面，其一个或多个是位于分层结构顶端的根页面。根页面可以是，例如主页和/或概念页。内联网可由一个或多个实体控制，但是通常是由例如单个公司、组织或个人来控制。内联网的结构的一个示例在图2中示出，这将在下文更详细讨论。

申请人还理解，内联网通常具有分层结构，其中，页面在不同的层级排列，每一层级由从一个或多个根页面到达页面所需的链接来定义。该结构可被视为树的类似分支或类似根的结构，其中根页面在树的底部(即，在树根的顶层，或在树枝的底层)。位于离根页面距离更远的层级上的页面通常比位于更接近根页面的层级上的页面具有更窄和/或更详细的主题覆盖范围，更接近根的页面往往具有更一般的内容。依照本发明的一个实施例，可影响响应于搜索队列获得的结果，取决于搜索队列是寻找一般还是特定信息，这将在下文进一步讨论。

页面指具有格式化信息的文件，该信息在通过显示器将该文件作为页面呈现给网络用户时控制其可视布局。页面具有相关联的网络地址。页面也可以被称为例如节点或文档。通常，页面链接到一个或多个其它页面。链接可例如通过选择与该链接相关联的词来跟随。页面内容通常通过使用超文本标记语言(HTML)来格式化。以下描述使用了基于HTML的页面的示例，但是应当理解，这些示例是说明性而非限制性的，并且本发明的特征适用于包括基于包括除HTML以外的语言的任何语言的页面的内联网。

个别页面可具有结构层次。例如，基于HTML的页面可具有与其相关联的节点分层结构，例如，包括根标签以及位于与该根标签相关的各种层级的其它标签的HTML标签。该结构的一个示例在图4中示出并在下文讨论。申请人理解，页面分层结构中较低的信息通常更特定，而页面中较高的信息通常更一般。在一个实施例中，信息的分层位置的知识用于影响响应于一般或特定搜索而返回的结果，如在下文详细描述的。

表达方式“概念页”在此处用于指担当特定主题话题的主页面或父页面的页面，使得主题的概念页位于对该主题专用的信息层次的顶部。从概念页延伸出来的链接通常提供了与该概念页的主题话题有关的附加信息，即，这类页面可担当父概念页的子页面。

术语“词”此处用于指页面中存在的单词、短语、符号或其它信息单元。内联网的用户可例如通过向搜索引擎提交包括与感兴趣的信息相关联的一个或多个词的查询，在内联网中搜索感兴趣的信息。

术语“权重”此处用于指与页面或词有关的特殊性级别。它也用于指在查询时分配给页面的值，以确定在返回给搜索者的结果列表中该页面的位置。例如，权重可以指基于其在内联网中的层次而分配给页面的特殊性程度，或词在页面中词层次内的特殊性程度。

此外，可向页面分配与页面中的词相关联的特殊性值，并且由此，页面对位于该页面中的每一不同的词具有不同的特殊性程度。被分配了较大特殊性程度的页面比分配了较小特殊性程度的页面具有更高的特定主题内容概率，后者具有相对较大的一般主题内容似然性。

特殊性可被分配给页面/词组合，并且例如从页面在内联网结构中的位置和/或词在页面结构中的位置来确定。例如，当在查询时向页面分配与页面相关性程度相关联的页面权重时，更大潜在相关性的页面可被定向到例如查询响应结果列表的顶部。

本发明在各方面部分地产生自对于内联网搜索引擎可充分利用对内联网公用的结构特征来提供改进相关性的搜索结果和/或减少用户定位相关信息所花费的时间的认识。例如，内联网包括通过位于离主页或概念页距离越来越远的一系列页面层级链接的页面。申请人认识到，内联网结构中更远的页面往往包括更大特殊性的信息。即，申请人认识到，内联网作者和设计者往往将更一般的信息放置在位于或接近于根页面的页面中，并将更详细的、话题上更特定的信息放置在远离根页面处。

此外，例如，企业存在状态网站管理员往往将其站点的结构组织成逻辑概念区域的组。这些概念区域也可以用将更特定内容放置在离概念主页比关于同一主题的一般内容更远之处的方式来组织。由此，内联网可具有链接结构，它往往被组织成概念聚类，这些概念聚类本身是通过从一般到特定的链接来组织的。

由此，近层级页面通常趋向于在更一般的宽度上覆盖更宽泛的主题，而更远层级的页面通常趋向于提供关于底部或接近底部层级页面主题的某一方面的更窄、更详细且更特定的信息。由此，在一个实施例中，依照本发明的原理，例如，可充分利用内联网的结构以提供更相关的搜索结果，例如，通过爬行内联网中的页面来确定其分层位置，并基于其分层位置推导所爬行页面的特殊性程度。在另一实施例中，可基于页面内的结构来推导内容的特殊性程度。

在下文描述的一个实施例中，关于页面分层结构和页面内词的分层结构的信息一起使用。然而，本发明不限于这一点，任一特征可一起使用或单独使用。

在另一实施例中，一旦推导了关于特殊性的信息，则可检查搜索查询以确定所请求的特殊性的级别，然后可返回具有所描述的特殊性级别的内容。

依照本发明的原理，例如，搜索引擎可充分利用以上所描述的结构趋向来提供更相关和/或更有用的页面命中。例如，响应于相对特定的查询，具有更特定信息的页面可被推入命中列表的顶部，而响应于相对宽泛的查询，具有更一般信息的页面可被推入命中列表的顶部。由此，例如，用户可通过在做出特定查询时花费更少的时间审阅一般主题页面，或在做出一般查询时花费更少的时间审阅不适当的特定页面，来更容易且快速地定位感兴趣的页面。

相反，现有技术的搜索引擎通常响应于包括查询词的查询而返回页面；这些页面可响应于例如定向到页面的链接数来重新排序，该链接数可被视为页面重要性的指示符。然而，常规搜索引擎不利用如此处相对于本发明所描述的内联网的结构层次。例如，常规搜索引擎可趋向于响应于窄查询而返回具有一般主题的高层级页面，或可响应于宽泛查询而返回具有窄主题的不相关的较深层级页面。

由此，依照本发明的原理，一般查询可用于将搜索者定向到内联网中包含与查询相关的一般主题的部分；从这些部分，用户通常可通过向下到具有更特定且相关主题的页面的进一步站点导航来找出他们需要的信息。相反，特定查询可用于将搜索者定向到内联网中包含与查询相关的特定主题的部分。

图1是依照本发明的一个实施例用于处理内联网的方法100的流程图。方法100包括爬行(110)内联网以标识内联网中的页面的动作。爬行(110)可以用任何合适的方式来完成，并且由此不限于任何特定的技术。爬行(110)可标识内联网中的所有页面，但是本发明不限于这一点，每一页面的处理可能是不需要的。

该方法也包括对每一所标识的页面确定(120)从根页面到所标识的页面的最短路径中的链接数的动作。最短路径可以用任何合适的方法来确定。当标识(110)每一页面时，可以确定(120)路径。或者，例如，可首先标识(110)页面，然后可确定(120)最短路径。

方法100还包括对每一所标识的页面储存(130)指示从至少一个根页面到所标识的页面的最短路径中的链接数的信息的动作，该信息指定了所标识的页面在内联网中的分层层级。该信息可采用任何形式。它可以是链接，它可以是依照任何标度或任何其它方式来对特殊性分级的信息。

由此，依照图1的本发明的实施例，关于页面的主题内容的信息可从内联网结构，诸如页面层次中推导。例如，具有到根路径的较短路径的所标识页面具有其主题比具有来自根页面的较长路径的所标识页面更一般的可能性，后者可被假定为持有相对较窄、更特定的主题。

最短路径是在从根页面开始爬行时所标识的页面的首次发现的路径。最短路径可通过从根页面开始爬行，并通过嵌入在根页面中的链接前进到下一层级页面来确定。可类似地跟随嵌入在下一层级页面中的链接到达内联网分层结构的更深处。嵌入在分层结构更深处的页面中到根页面的链接较佳地被忽略，因为内联网中的所有页面可包括这一嵌入的链接，以使用户能够容易地返回到诸如内联网主页等根页面。由此，最短路径通常是由有意地放置在内联网页面中的链接来决定的。

图2是可由方法100处理的内联网结构200的一个示例的图示。该结构具有主页201、位于从主页出发的一个链接的第一层级页面210(图2的层级1)、位于从主页201出发的两个链接的第二层级页面220(图2的层级2)、以及位于从主页210出发的三个链接的第三层级页面230(图2的层级3)。依照本发明的原理，第一层级页面210被推导为包含比包含在第二层级页面220中包含的主题更一般的主题。类似地，第二层级页面220被推导为包含比第三层级页面230中包含的主题更一般的主题，依此类推。

图3示出了基于词在由页面的内联网结构定义的分层结构中的位置和/或处理对页面进行语法分析以收集关于内容特殊性的附加信息的方法300的流程图。方法300包括对至少一个页面进行语法分析(310)以标识页面中的至少一个词，以及对每一标识的词确定(320)与词特殊性相关联的一个或多个特殊性相关参数的动作。这类参数包括，例如页面结构参数和标签类型参数。页面结构参数可以是，例如从页面的根出发的距离。

方法300可包括对每一标识的词储存(330)指示诸如从根出发的距离等特殊性相关参数的信息。该信息由此可对页面中所标识的词指定分层层级。对页面中所标识的词指定分层层级的信息可采用任何形式。它可以是从页面的根出发的层级，它可以是依照任何标度或任何其它合适的方式对特殊性分级的信息。

依照本发明的一个实施例，可至少部分地从词在内部页面结构中的位置来推导词特殊性。例如，HTML页面具有如参考图4所示的节点分层结构。尽管以下描述涉及HTML页面，然而本发明的实施例可应用于具有其它格式的内联网页面。

HTML页面分层结构包括HTML标签，它进而通常与内部文本相关联。依照一个实施例，这些节点分层结构可用于推导页面中的一般和特定内容。例如，包含当前内部文本的节点离页面的根越近，该内部文本包含不特定地集中于特定主题的一般内容的似然性也越大。相反，节点离根越远，该节点的内部文本对特定主题专用的似然性也越大。

此外，申请人理解，诸如词的加粗、词的下划线和/或词的链接等格式化方面可指示该词与更大特殊性相关联的更大的重要性级别，并且也导致文本位于离页面的根更远。

以上描述的页面层级结构信息可用于推导例如页面对于包含在文档中的给定词应当具有的权重。由此，例如，可对于页面中被标识为与比页面中的其它词更大的特殊性级别相关联的词，向页面分配更大的特殊性级别。

在本发明的一个实施例中，基于页面长度，对照同一词在其它页面中的词权重，来归一化页面的词权重。该归一化有助于防止长页面表现为比短页面更特定，即，具有更长长度的页面往往包括词的更多出现。当使用时，归一化可以用任何合适的方式来执行。

图4是基于HTML的页面结构400的一个示例的图示。与结构400相关联的页面可以例如在具有图2的结构200的内联网中定位，并可由参考图3所描述的方法300来处理。结构400包括根标签401、页面首部标签410、页面标题标签411、首部元标签412、标识页面400的正文部分的正文标签420、正文首部标签421、正文表格标签422、正文段落标签423a、423b、粗体字体标签424a、424b、以及锚标签425a、425b。某些标签具有相关联的内部文本430a、430b、430c，他们可在显示该页面时被用户看到。这些标签类型及其与内部文本的关联在HTML领域中是已知的。

如上所述，在本发明的某些实施例中，页面结构400中离根标签401更远的词可被推导为对应于更大特殊性的信息。例如，根标签410可与层级0相关联，页面首部标签410和正文标签420可与层级1相关联，页面标题标签411、首部元标签412、正文首部标签421、正文表格标签422以及正文段落标签423a可与层级2相关联，而正文段落标签423b可与层级3相关联。

此外，具有附加格式的词可与更大的特殊性级别相关联。指示特殊性的附加格式可包括，例如粗体或其它有区别的字体或颜色、超文本链接、和/或标题或元标签中的存在状态。因此，词可与对应于其附加格式(如果有的话)的页面层次结构的更深层级相关联。

附加标签类型可以指示页面分层结构中更深的层级。这类标签类型可包括，但不限于，代码标签。词特殊性然后可与页面分层结构中的词深度相关联。此外，词特殊性可依照标签类型来加权，如下文更详细描述的。由此，特殊性计算可通过利用由标签类型提供的特殊性级别指示来改进。

较佳地，向内部文本分配与其直接节点层级相关联的页面分层结构中的层级。即，节点可包括内部文本，而子节点也可具有内部文本。由此，子节点的内部文本较佳地被视为驻留在与直接关联于父节点的内部文本相比不同的分层结构层级处。

如上所述，关于页面中内容的特殊性或一般性的信息可基于页面在内联网分层结构中的位置以及控制内容在页面结构中的位置的信息来推导。关于内容的特殊性/一般性的信息的这两个基础可以用任何合适的方法来组合，并且采用两者的本发明的一个实施例不限于任何特定的技术。以下描述了采用两个信息源的一个具体示例，但是它仅是示例，对内容的特殊性/一般性的确定可以用其它方法来完成。

爬行(110)(见图2)以标识页面可以例如通过使用如上所述的任何合适的爬行技术来实现，并且不限于已知的技术。例如，可通过使用软件机器人、蜘蛛程序(spider)、漫步程序(wanderer)、蠕虫等爬行内联网来标识页面。依照本发明的原理，保留关于所确定(120)的到所标识页面的最短路径中的链接数的信息。例如，爬行可从内联网的根页面和/或从概念页开始，这些页面可以用任何合适的方式对爬行程序标识。

使用诸如上文所描述的技术，爬行(110)和确定(120)的动作可用于收集链接信息以确定页面在内联网结构中的位置。例如爬行(110)可提供标识每一所标识的页面在内联网中的页面层级的参数DL。参数DL可以用任何合适的方法来指定。例如，DL可方便地被标识为以层级为单位从根页面到特定页面的距离，其中，根页面在层级0，从根页面延伸出去的每一后续层级相对于前一层级递增1。

在本示例中，除在爬行(110)过程中确定的页面层级之外，在对所标识的页面进行语法分析的过程中对词确定词在页面内的嵌套层级，这可通过使用方法300来完成。依照本发明的某些原理，将关于内联网分层结构内页面位置以及页面内的内容位置的信息组合可通过使用公式来实现，接下来描述公式的示例。

在本示例中，以下公式涉及分配相关联页面内的词层次。所标识的页面内的词的归一化词层次被定义如下：

NLW＝NL-TTL其中，NLW是与特定页面中的词相关联的归一化词层级或特殊性。NL是该特定页面的分层结构内词的原始词层级，这可从页面的根标签中测量。

TTL是定义内联网中包括该词的所有页面的词的归一化最小嵌套层级的阈值词层级。TTL对于所标识的包括该词的所有页面的词具有常数值。例如，TTL常规地可通过首先确定词在内联网中包括该词的所有页面中的最大嵌套级别来选择。TTL然后可被设为离该最大词层级有某一距离的层级。例如，如果词的最大嵌套层级是层级10，则该词的TTL可被设为层级5。

或者，例如，TTL可基于统计考虑来选择。例如，TTL可被设为超过最大词层级两个标准偏差的层级。

不论以什么方式选择TTL，TTL参数的效果是对词消除包括仅位于页面的高层次层级的词的页面。TTL参数实际上通过消除尽管包括该词，但没有足够的特殊性以保证在结果列表中向搜索者的呈现的页面，截去了来自包括词的页面列表的噪声。

为进一步细化与词相关联的特殊性，对于页面中的词，可通过向标签权重参数TagW添加NLW参数来确定词特殊性参数TW，如下：

TW＝TagW+NLW其中，TW是对于特定页面，与分配给词的总特殊性相关联的词特殊性，而TagW是基于词的直接父节点的HTML标签类型可归于该词的标签特殊性参数。为实现这一目的，可向标签类型分配对每一标签类型在内联网上定义的常量值。例如，权重1可被分配给内联网上最常用的标签类型，而更大的权重可取决于其相对模糊性被分配给其它标签类型。例如，具有权重2的标签的频率可以是具有权重1的标签的频率的一半。同样，例如，页面首部中的标签可以与页面正文中的标签不同地处理。例如，可向首部中的标签给予可调的权重。即，可使用任何合适的过程将特殊性级别分配给各种标签类型。

例如，可部分地通过统计分析，并部分地通过人类选择，向标签分配值。例如，标签可具有1到20的值，较大的值与较大的特殊性相关联。例如，统计分析可产生标签使用频率，较大的频率指示较大的一般性。

以上描述的活动可用于产生内联网中页面的词索引。词索引可包括包含特定词的页面的清单，以及每一页面对于该词的特殊性值，诸如上述TW参数。此外，在本发明的某些实施例中，可创建搜索领域的普通技术人员已知的反向关键词索引用于查询时的搜索。可搜索反向关键词索引以获取包括搜索词的页面清单。

在某些实施例中，使用了总的词特殊性参数(例如，以下描述的NTW参数)，它是对于涉及页面中的特定词的所有出现的页面定义的。归一化的总词特殊性参数NTW定义如下：

NTW＝log(STW/ASTW)

STW是特定页面中词的所有出现的所有词特殊性(TW)值的总和。ASTW是其中词在整个内联网上出现的所有页面的词的所有STW参数值的平均值。STW与ASTW之比提供了原始的归一化总词特殊性，而NTW是对于页面中的词的归一化总词特殊性。NTW为了方便按照对数来定义；对数的底数可以是底数10或另一值。使用对数限制了NTW值的范围，这便于计算目的。

以上描述的示例公式可用于例如协助响应于搜索引擎查询，如参考图5所描述的。

接下来参考图5，例如，可充分利用本发明的特征，以改进搜索引擎对用户查询的响应。图5是依照本发明的一个实施例用于处理对内联网的搜索引擎查询的方法500的流程图。方法500包括接收查询(510)，其中，该查询包括至少一个搜索词，以及确定(520)该查询的特殊性程度。

确定(520)的动作可以用任何合适的方式来实现。在一个实施例中，特殊性是以与响应于查询所返回的潜在页面数量成反比的关系来确定的。页面数量可以是包括查询中找到的任何词的页面的数量。例如，明确地要求若干搜索词中的任一个出现在返回页面中的查询可提供这一潜在页面数量。或者，页面数量可以是包括例如所有搜索词的页面的数量。如果查询明确地要求所有搜索词都驻留在一个页面中，或者如果当没有提供任何偏好时该要求是默认的，则可获得这一潜在页面数量。

方法500可包括选择(530)内联网的至少某些页面作为匹配该查询。选择(530)可利用至少部分地依赖于查询的特殊性程度的选择过程。方法500也可包括对至少某些选中的页面进行分级(540)以响应于查询来呈现。分级(540)可利用至少部分地依赖于查询的特殊性程度的分级过程。

分级(540)可依照与查询的特殊性级别相关的页面特殊性级别而需要对页面进行分级。由此，如果查询被认为是特定的，则呈现的分级可向具有特定内容的页面给予优先选择。如果查询被认为是一般或普通的，则分级可向具有一般或普通主题内容的页面给予优先选择。

例如，在方法500的一个实现中，通过向每一选中的页面分配相关性值R，可以按已分类的顺序对页面进行分级。例如，选中的页面可以是最匹配查询中所有词的页面。分配给每一这样的页面的值R然后可确定选中页面的分类顺序以向搜索者呈现。

在用于计算页面相关性值R的一组说明性公式中，R被定义如下：

R＝log(r)，其中

NDL＝IDL-TDL，以及

r＝(twK*NTW)+(nlK*NDL))的总和这些公式中的参数具有以下定义。

NDL是响应于特定查询将返回的每一页面的归一化页面层级。NDL参数提供了搜索结果和选中页面的特殊性之间的连接。如下所述，选中的页面可以依照以上描述的词参数来进一步加权，以进一步细化呈现给搜索者的结果列表。

IDL是反向页面层级，它对应于内联网上从所有页面层级的最大标识深度处的页面开始的特定页面的距离；从最大深度层级出发的每一后续层级通过从前一页面层级递减1来确定。由此，IDL类似于如上所述在语法分析(110)过程中确定的页面层级参数DL，然而，该页面层级从内联网的所有标识页面的最大深度的层级确定，而非从根页面确定。

阈值页面层级TDL是主题内容被假定为重要的最小页面层级。TDL的值响应于特定查询的特殊性来选择，该特殊性本身是由响应于查询的页面命中数来确定的。TDL可以主要用经验来确定。例如，TDL值的范围可被分配给页面命中数的范围。例如，如果最大页面层级为10，则可向特定查询的特定特殊性分配TDL值5。在本示例中，NDL的计算将用于消除命中列表中具有5以下的页面层级的所有页面。

由此，TDL可取决于查询的特殊性。由此，例如，可对更特定的查询选择更深的TDL，因为离根更远的页面层级可能与更特定的查询更相关。当从IDL参数中减去TDL时，丢弃了具有负NDL参数的页面。由此，保留在页面列表中包括查询词的页面是具有大于由TDL的动作选择的层级的特殊性的那些页面。

R是分配给响应于查询选择的页面的相关性。R控制响应于特定查询从搜索中返回的页面列表的分类顺序。R被计算为原始相关性值(见下文的r)的对数，以将R的范围限于从0到1。限制值的范围可便于计算的目的。此外，所计算的值可被截尾，例如仅使用4个数字，以进一步限制由搜索施加的计算要求。

r是响应于查询选择的每一页面的原始相关度，并且是由词权重系数(twK，见下文)调整的归一化总词特殊性(NTW)参数以及由页面权重系数(nlK，见下文)调整的归一化页面层级(NDL)的总和。由此，原始相关性提供了对与页面特殊性参数和页面内词特殊性参数相关的页面命中的分级。

twK是词层级系数，它与页面层级系数(见nlK)一起使用，以在原始相关性r的计算过程中，对给予归一化总词特殊性(NTW)的效果，以及给予归一化页面层级(NDL)的效果进行平衡。nlK是页面层级系数。选择twK和nlK来获取相关性确定中词特殊性和页面特殊性的使用之间的期望平衡。

这一平衡可以用任何合适的方式来选择。twK和nlK对于所有的查询可以是常数，或者可以对不同的查询来调整。twK和nlK可至少部分地选择来调整NTW的值(该值进而是词层级值)的单位，以及NDL的值(进而是页面层级值)的单位。

可向这些常数分配值，例如0、1、2或更高，以改变在相关性计算中给予词特殊性和页面层级的相对权重。这些值可以用任何合适的方式来选择。例如，可向抽样用户组呈现用不同的所分配的常数值生成的搜索结果，并且该用户组随后可标识哪一组结果是最令人满意的。由此，例如，可以通过主管、经验主义的方法来选择常数值。

如上所述，在一个实施例中，搜索词或查询词的一般性是由潜在结果列表中的页面数量决定的。例如，Microsoft.com网站上包括单词“windows”的查询将匹配上千万个页面，并且依照本发明的一个实施例，该单词被认为是对该站点的相对一般的搜索词。要理解，词“windows”是一般查询，依照本发明的原理，它可以使搜索引擎能够上推页面结果集中的一般结果，即，具有宽泛主题的页面将被推到呈现给搜索引擎的用户的结果列表的顶端。

相反，具有相对较少页面命中的查询可被认为是相对特定的。作为响应，可向离根页面较远距离处的页面命中给予更大的权重，以将它们推到结果列表的顶部。与较少特殊性值相关联的一般内容页面，如可存在与根页面附近的页面，类似地可被推离列表的顶部。搜索者然后可被定向到具有与搜索的相关性更大的特殊性的页面，由此提高成功搜索的速度和/或似然性。

例如，通过上述过程，可以响应于特定查询，向具有较长路径的页面给予较大的权值，而响应于一般查询，可以向具有较短路径的页面给予较大的权值。由此，例如，一般查询可接收具有被推到列表顶部的一般页面的页面列表，而特定查询可接收具有被推到列表顶部的特定页面的页面列表。

由此，提出一般查询的用户不需要通过具有较窄的不合需要信息的许多页面进行分类。该用户可以从一般主题页面开始，该主题页面更可能将用户带到具有期望信息的页面。类似地，提出特定查询的用户可避免检查具有太一般以致于无法满足特定搜索的信息的页面。

应当理解，此处列出的方法100、300的某些特征可被编码为可在采用各种操作系统或平台的任一个的一个或多个处理器上执行的软件。另外，这类软件可以使用多个合适的编程语言和/或方便的编程或脚本工具中的任一个来编写，并且也可被编译为可执行机器语言代码。

应当理解，术语“程序”此处以一般的意义使用，指的是可用于对计算机或其它处理器编程以实现上述本发明的各方面的任何类型的计算机代码或指令集。另外，应当理解，依照本发明的一个方面，当被执行时实现本发明的方法的一个或多个计算机程序不需要驻留在单个计算机或处理器上，而是可以用模块化的方式分布在多个不同的计算机或处理器之间，以实现本发明的各方面。

本发明的各方面可单独使用、组合使用或以以上描述的实施例中未具体讨论的各种排列来使用，并且因此不限于其对以上描述中陈述或附图中示出的组件的细节和排列的应用。具体地，每一顶层活动可包括各种子活动中的任一个。例如，此处描述的顶层活动可包括此处描述的子活动中的一个或任一组合，或可包括细化指令和管理补丁管理过程的分层结构的其它子活动。

权利要求书中使用诸如“第一”、“第二”、“第三”等普通术语来修改权利要求的元素本身并不意味着任何优先级、优先顺序或一个权利要求元素优于另一个的顺序，或执行方法动作的时间顺序，而是仅用作标签以将具有某一名称的一个权利要求元素与具有同一名称(但用于普通术语)的另一元素区分开来，以区分权利要求元素。

同样，此处使用的措词和术语是为了描述的目的，并不应当被认为是限制。对“包括”、“由……组成”或“具有”、“包含”、“涉及”以及此处其变体的使用，意味着包含之后列出的项及其等效项，以及其它项。

Claims

1.一种用于处理内联网的方法，所述内联网由包括至少一个根页面的多个页面组成，所述方法包括以下动作：

(A)爬行所述内联网，以标识所述内联网中所述多个页面中的至少一些；以及

(B)对至少一个所标识的页面，确定从所述至少一个根页面到所标识页面的最短路径中的链接数。

2.如权利要求1所述的方法，其特征在于，还包括以下动作：

(C)对所述至少一个所标识的页面，储存指示从所述至少一个根页面到所标识页面的最短路径中的链接数的信息，所述信息指定了所述内联网中所标识的页面的分层层级。

3.如权利要求2所述的方法，其特征在于，还包括以下动作：

(D)对所标识的页面，定义与所标识的页面的分层层级相关的主题特殊性级别。

4.如权利要求3所述的方法，其特征在于，所述主题特殊性级别对于在其从所述至少一个根页面开始的较短路径中具有较大链接数的所标识页面，与在其从所述至少一个根页面开始的最短路径中具有较小链接数的所标识页面的值相比，具有较大的值。

5.如权利要求1所述的方法，其特征在于，还包括以下动作：

(C)选择多个概念页作为多个根页面。

6.如权利要求1所述的方法，其特征在于，所述动作(C)包括通过从所述多个根页面的每一个起始，开始多次爬行通过所述内联网，来爬行所述内联网。

7.如权利要求1所述的方法，其特征在于，所述动作(A)包括标识所述内联网中所述多个页面的全部的动作。

8.如权利要求1所述的方法，其特征在于，所述多个页面的至少一个包括HTML格式。

9.如权利要求1所述的方法，其特征在于，所述内联网与网站相关联。

10.如权利要求1所述的方法，其特征在于，还包括以下动作：

(C)对每一所标识的页面，确定与所述最短路径中的链接数相关联的反向页面层级。

11.如权利要求10所述的方法，其特征在于，还包括以下动作：

(D)在所标识的页面中，排除具有其链接数少于阈值链接数的最短路径的页面。

12.如权利要求1所述的方法，其特征在于，还包括以下动作：

(C)对所述多个页面的每一页面进行语法分析，以标识所述页面中的任何词。

13.如权利要求12所述的方法，其特征在于，还包括以下动作：

(D)对所标识的每一词，确定从所述页面的根节点开始的距离。

14.如权利要求13所述的方法，其特征在于，还包括以下动作：

(E)对每一所标识的词，储存指示从所述根开始的距离的信息，所述信息指定了所标识的词在所述页面中的分层层级。

15.如权利要求1所述的方法，其特征在于，还包括以下动作：

(C)确定查询的特殊性，所述查询的特殊性与响应于所述查询而返回的潜在页面数量成反比关系。

16.如权利要求15所述的方法，其特征在于，还包括以下动作：

(D)响应于所述查询，返回所标识的页面中具有与所述查询的特殊性级别相关联的特殊性级别的页面。

17.如权利要求16所述的方法，其特征在于，所述动作(D)包括以与所返回的页面的特殊性级别相关的顺序列出所返回的页面。

18.一种用于对包括多个页面的内联网的至少一个页面进行语法分析的方法，所述至少一个页面包括按分层结构排列的多个词，所述方法包括以下动作：

(A)对所述至少一个页面进行语法分析以标识所述多个词中的至少一个；以及

(B)对每一所标识的词，确定每一所标识的词在所述页面的分层结构中的位置。

19.如权利要求18所述的方法，其特征在于，还包括以下动作：

(C)对每一所标识的词，储存指示所标识的词在所述页面的分层结构中的位置的信息。

20.如权利要求18所述的方法，其特征在于，所述分层结构由包括至少一个根层级的多个层级组成，并且其中，所述动作(B)包括通过确定从所述至少一个根层级的层级到所标识的词的层级的最短路径中的层级数，来确定所述位置。

21.如权利要求20所述的方法，其特征在于，所述至少一个页面是依照HTML来排列的。

22.如权利要求21所述的方法，其特征在于，所述至少一个根与HTML根标签相关联。

23.如权利要求21所述的方法，其特征在于，所述至少一个页面的分层结构中的层级与所述页面的HTML结构中的节点层级相关联。

24.如权利要求23所述的方法，其特征在于，所述HTML结构中的节点层级至少部分地与格式特征相关联。

25.如权利要求24所述的方法，其特征在于，所述格式特征包括选自标签类型组的至少一个标签类型，所述标签类型组包括区别字体、区别颜色、超文本链接、标题、编码标签以及元标签。

26.如权利要求25所述的方法，其特征在于，还包括以下动作：

(C)对所标识的词，确定至少部分地与关联于所标识的词的标签类型的特殊性加权因子相关联的主题特殊性级别。

27.如权利要求26所述的方法，其特征在于，所述标签类型的特殊性加权因子至少部分地基于所述内联网中所述标签类型的频率。

28.如权利要求18所述的方法，其特征在于，还包括以下动作：

(C)对所标识的词，确定至少部分地与所标识的词在所述页面的分层结构中的位置相关联的主题特殊性级别。

29.如权利要求28所述的方法，其特征在于，所述主题特殊性级别对于位于所述分层结构较深处的所标识的词，具有比位于所述分层结构较高处的所标识的词更大的特殊性程度。

30.如权利要求28所述的方法，其特征在于，所标识的词在所述至少一个页面中具有一个以上实例，并且所述动作(C)包括对所标识的词，确定至少部分地与所标识的词的一个以上实例的所有位置相关联的主题特殊性级别。

31.如权利要求28所述的方法，其特征在于，所述动作(C)包括至少部分地基于对所述至少一个页面确定的特殊性值确定所述主题特殊性级别。

32.如权利要求28所述的方法，其特征在于，所述主题特殊性级别对于具有从所述分层结构的根层级开始的更大距离的所标识的词，与具有从所述根层级开始的相对较短距离的所标识的词的值相比，具有更大的值。

33.如权利要求18所述的方法，其特征在于，所述动作(A)包括标识所述页面中多个词的全部的动作。

34.如权利要求18所述的方法，其特征在于，所述内联网包括多个页面，并且其中，所述方法包括对所述多个页面的每一个执行所述动作(A)和(B)。

35.如权利要求18所述的方法，其特征在于，所述内联网与网站相关联。

36.一种用在至少一个处理器上执行的程序编码的计算机可读介质，当在所述至少一个处理器上执行所述程序时，执行一种用于处理包括多个页面的内联网的查询的方法，所述多个页面的每一个包括至少一个内容词，所述方法包括以下动作：

(A)接收所述查询，其中，所述查询包括至少一个搜索词；以及

(B)确定所述查询的特殊性程度。

37.如权利要求36所述的计算机可读介质，其特征在于，所述方法还包括以下动作：

(C)使用一选择过程选择所述多个页面中的至少一些作为匹配所述查询，所述选择过程至少部分地取决于在所述动作(B)中确定的所述查询的特殊性程度。

38.如权利要求36所述的计算机可读介质，其特征在于，所述内联网是以具有至少一个根的页面的分层结构来排列的，其中，对所述多个页面的每一个，基于所述多个页面中的一个在所述分层结构中的位置识别所述页面的特殊性，较接近于所述至少一个根的页面被认为是更一般的，并且其中，所述动作(C)包括使用一选择过程选择所述多个页面中的至少一些作为匹配所述查询，所述选择过程有利于具有类似于在所述动作(B)中确定的所述查询的特殊性程度的页面特殊性的页面。

39.如权利要求38所述的计算机可读介质，其特征在于，所述选择过程通过基于在匹配所述动作(B)中所确定的查询的特殊性程度时的接近性，对所选择的页面进行分级，以有利于具有类似于所述动作(B)中确定的所述查询的特殊性程度的页面特殊性的页面。

40.如权利要求36所述的计算机可读介质，其特征在于，所述方法还包括以下动作：

(C)选择所述多个页面的至少一些作为匹配所述查询；以及

(D)基于一分级过程，对所选择的页面的至少一些进行分级以响应于所述查询来呈现，所述分级过程至少部分地取决于在所述动作(B)中确定的所述查询的特殊性程度。

41.如权利要求36所述的计算机可读介质，其特征在于，所述动作(B)包括确定匹配所述查询的多个页面的数量。

42.如权利要求41所述的计算机可读介质，其特征在于，所述动作(B)包括确定包括匹配所述至少一个搜索词的内容词的多个页面的数量。

43.如权利要求41所述的计算机可读介质，其特征在于，所述动作(B)包括确定所述查询的特殊性程度与包括匹配所述查询的词的多个页面的数量成反比关系。