CN1930545A - 反向和正向非归一化链接权重分析方法,系统以及计算机程序产品 - Google Patents

反向和正向非归一化链接权重分析方法,系统以及计算机程序产品 Download PDF

Info

Publication number
CN1930545A
CN1930545A CNA2004800339693A CN200480033969A CN1930545A CN 1930545 A CN1930545 A CN 1930545A CN A2004800339693 A CNA2004800339693 A CN A2004800339693A CN 200480033969 A CN200480033969 A CN 200480033969A CN 1930545 A CN1930545 A CN 1930545A
Authority
CN
China
Prior art keywords
node
weight
normalized
weights
described node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800339693A
Other languages
English (en)
Inventor
杰弗里·坎瑞特
肯特·恩格-蒙森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telenor ASA
Original Assignee
Telenor ASA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telenor ASA filed Critical Telenor ASA
Publication of CN1930545A publication Critical patent/CN1930545A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

用于超文本链接分析的方法,系统和计算机程序产品,包括独立使用非归一化的反向和正向运算符,以获得超文本链接图中每个文档的两个独立权重,用于随后的排序和分析。

Description

反向和正向非归一化链接权重分析方法, 系统以及计算机程序产品
技术领域
本发明包括用于对在具有超文本链接的分布式网络上找到的信息源进行排序的方法,系统和计算机程序产品。方法的软件/固件实现构成了用于旨在基于所公开的超文本链接分析方法提供节点排序而搜索分布式信息系统的系统的一个部件。完整系统还可以具有若干其它部件,包括基于文本关联提供排序得分(ranking scores)的工具;索引系统;涂写器(crawler);以及用户接口。
背景技术
许多装置和算法所处理的问题涉及到在分布式信息数据库上搜索之后的命中排序。也就是说,在通过主题(关键词)来引导的搜索-而不是搜索特定文档-的那些情况下,通常出现比用户能够评价或者甚至比用户能够查看的更多的与查询规则的匹配-“命中”。命中的多达数千个,或者甚至更高。因此,命中的排序是至关重要的-在没有关于哪些命中是最相关的或最有价值的指示的情况下,好的命中可能会在大量普通或无关的命中中被错过。
当一个人将从通过超链接数据库的关键词搜索中所得到的命中排序时,存在两种一般类型的排序可能:文本相关性排序,以及基于链接分析的排序。虽然在很多情况下使用最简单的可能的链接分析技术,即链接广泛度,但是典型的搜索引擎同时使用这两种类型的排序。
文本相关性排序是基于被排序文档的内容,即该内容与搜索关键词的相关性。因此,文本相关性排序对人们是查看文档的全集(“全图”,或者WG)还是只查看文档的子集(“子图”)非常不敏感。
相反,链接分析基于文档在超链接网络-一种“文档社区”-中的位置来对文档排序。某些文档被认为在链接网络中具有“高”位置或“中心”位置,并且因而被提供以高排序。由于链接分析排序(初级 链接广泛度技术除外)对网络的这个结构(图形)敏感,所以排序结果对人们查看全图还是只查看子图是敏感的。
图1-4表示了文本相关性排序和链接分析排序之间的关系,对于这两种情况,只描述了:(i)基于全图的链接分析排序(图1和图2);以及(ii)基于子图的链接分析排序(图3和图4)。图1和图3分别给出了情况(i)和(iii)的简化的一般图,而图2和图4给出了每种情况的系统体系结构的更多细节。
我们从图1开始。在该图中,和图1-4中所有图一样,我们假设涂写器或其它技术已经建立了描述全图WG的内容和链接结构的数据库。在图1中,我们看到,链接分析113被应用到全图数据库103,使得文档的链接分析排序是基于文档在全图中的位置,并且因此与搜索项无关。然后,搜索项101被用于挑选出一组命中105,接着这组命中105被提供给文本相关性排序107。最后,将来自全图链接分析113的排序和文本相关性排序107结合起来,以给出每个文档的优先化命中列表111净排序得分。
在图2中,全图数据库103被分解为两个主要组成部分:内容数据库103a,以及链接结构数据库103b。这里,链接分析排序113a是基于全图而进行的,并且得到链接分析数据库113b。我们再次看到,关键词101a被命中列表发生器105a用于选择命中列表105b。然后,通过利用来自内容数据库103a的信息,这个列表105b经受文本相关性排序107a,并且被提供给文本相关性排序107b。随后,通过利用大量不同的可能规则中的任何规则,这两个排序113b、107b被结合111a,并且产生每个文档在命中列表中的净排序得分。最后,排序列表被截取到预定大小101b,因此只有最高排序的文档111b被存储和被显示。
图3以示意图的形式描绘了当链接分析排序只被应用到子图中时,文本相关性排序与链接分析排序结合的使用。根据文本相关性107对命中列表105进行排序,然后在执行链接分析排序113之前,对命中列表进行截取。被截取的列表(子图)被馈送给链接分析程序113,其中该链接分析程序还需要来自WG数据库101的信息(虚线)。所得到的子图链接分析排序最后与同一子图的文本相关性排序相结合,从而提供所选子图的合并排序得分111。
图4对其进行了更详细的表示。与图2相反,这里,由命中列表发生器105a通过搜索项101a所生成的命中列表105b被提供给文本相关性排序107a1,并且在进行链接分析排序之前,以截断大小101b而被截取。被截取的列表107b1被发送到子图发生器113c中,其中该子图发生器将以这样的方式将列表放大为扩展的子图113d,以提供与主题相关的文档的相干链接“社区”。然后,对该扩展子图113d进行链接分析排序113a和文本相关性排序107a2,以产生扩展子图相关性排序107b2以及扩展子图链接分析排序113e。最后,所得到的排序得分被结合111a,以提供子图中所有文档的单一排序111b。
本发明涉及一种用于链接分析排序的新颖方法、装置和计算机程序产品。由于图1-4中任何一个图中没有示出关于链接分析排序方法的细节,所以这些图并没有对本发明进行描述,而是只提供了可以应用本发明、或者任何其他链接分析排序方法的环境。
当前,存在命中排序方法的两种粗略的分类。第一种根据所发现文档中的文本分析来评价命中的相关性,被称为文本相关性分析。例如,如果搜索关键词是“Norwegian elkhounds”,则使用算法来试图评价所发现文档中搜索词的相关性。虽然这种排序是有效的,但是其可能被文档作者“欺骗”,文档作者通过使重要的关键词(人为地)重复多次而达到高排序。
第二种算法不是基于命中自身的内容,而是基于它们如何位于更大信息网络中,而评价命中的“权重”或“重要性”。也就是说,这种算法使用链接分析来确定特定命中(文档或节点)是如何“中央地”位于文档的链接网络中。本发明是一种超文本链接分析。
在超文本链接分析中,超文本链接可以被简单地看作是从一个文档指向另一文档的有向箭头。文档和超文本链接的集合一起形成了有向图。然后,人们基于有向图的链接结构(拓扑),寻求用于为图中每个节点(文档)分配权重或重要性的规则。
例如,多个节点所指向的一个节点被认为具有高的入度(indegree)。人们可以仅基于节点的入度来为每个节点分配权重。但是,由于人们能够创建大量假文档-所有这些文档都指向一个文档并且为其人工地提供高的入度,所以这种简单的加权方式-通常被称为“链接广泛度”方法-很容易受骗。然而,大量商业搜索引擎使用链接广泛度排序,这很有可能是因为链接广泛度排序简单。
Google的PageRank算法(美国专利No.6,285,999,该专利的内容在这里被引入作为参考)以及搜索引擎WiseNut(美国专利申请2002-0129014,该专利的内容在这里被引入作为参考)所使用的另一种方法涉及找出随机行走者-在图上移动并且跟随节点之间的有向链接-在每个节点上耗费的时间片段。显然,高的入度对这个得分有积极作用;但是,每个节点邻域中的其它方面也很重要。例如,指向具有高入度的节点的那些节点也必须具有大的权重;否则,高入度为所讨论的节点提供小权重。因此,随机行走者方法对图的整体拓扑结构更敏感。
有向图上随机行走的一个问题在于,随机行走很容易被中断在“汇点(sink)”-具有进来的路但是没有出去的路的图区域。PageRank通过添加具有特定概率的完全随机跳跃(与链接无关),而对汇点进行修正,而WiseNut通过使用“页面权重库”来修正汇点,其中“页面权重库”是与图中其他每个节点双向连接的假想节点。汇点通常存在于分布式超文本系统中;因此,每种包含有向图上随机行走的方法都必须以某种方式对解决该问题。
Cornell大学(美国)的Jon Kleinberg基于与IBM的CLEVER工程的工作已经获得了另一种方法的专利权(美国专利No.6,112,202,该专利的内容在这里被引入作为参考)。该算法通常被称为是HITS(“超文本诱发主题选择”)。
通过定义两个简单运算符:F(正向)和B(反向),很容易解释HITS。在随机行走的精神中,可以假想与有向图上每个节点相关联的特定权重(正数)。F运算符在每个节点i上取权重w(i),并且将其正向发送,即发送到节点i所指向的全部节点。B运算符与箭头相反地发送w(i),即发送到指向节点i的每个节点。
以下,我们解释复合运算符的使用。例如假设,总是希望首先使用F运算符,再接着使用B运算符。通过使用标准矩阵表示,该复合运算符(F后面接有B)将被表示为BF。(矩阵运算符向右作用于向量;因此最右面的运算符首先起作用)。同样地,由后面接有F的B组成的复合运算符被表示为FB。
以下,使用术语“非复合运算符”表示运算符F和B(以及它们的归一化形式,被表示为f和b)。当然,运算符(矩阵)的任何乘积是新的运算符(矩阵),其可以被用于重新分配图上的权重。但是,复合运算符BF和FB具有特定属性,即它们总是在“以”超链接的箭头流动以及“相对于”这些箭头流动之间改变权重分布的“流动”方向。相反,非复合运算符B和F中每一个可以相互独立地使用,因此从不使流动反向。我们将看到,这种不同可能对用于文档排序的这些运算符的应用结果具有较大影响。
HITS算法使用复合运算符BF和FB的重复应用,以获得每个节点的两个重要得分。例如,在FB的多次重复以后,每个节点上的权重将收敛到一个稳定值,该值被称为它们的“权威程度(Authorityscore)”。同样地,BF的重复操作提供了“中心程度(Hub score)”。因此,可以说:“好的中心指向好的权威”。也就是说,如果一个节点指向许多好的(或少数非常好的)的权威-即具有相关内容的节点,则该节点具有高的中心程度。而且,如果许多好的(或少数非常好的)中心指向一个节点,则该节点具有高的权威程度。因此,这两个程度是相互限定的。
由于在遵循箭头方向(有向弧)和与箭头相反地移动之间交替变换,所以不存在已知的关于HITS方法中汇点的问题。该方法及其变体在若干专利中涉及(例如美国专利6,112,203,6,321,220,6,356,899以及6,560,600,这些申请的内容在这里被引入作为参考),而HITS的变体似乎在商业搜索引擎Teoma和Alta Vista中被使用。该陈述是基于对公共可得到的关于现有搜索引擎的文档的检查,包括它们所拥有的专利-特别地,Alta Vista具有基于HITS方法变体的多个美国专利。
HITS方法的一个重要特征是运算符F和B不被“归一化”。归一化的运算符不改变图上存在的“权重”的总量。例如,归一化的F运算符(我们将会把它写成f)将取权重w(i),并且将其重新分配到节点i的所有“下游”节点。也就是说,对于f运算符,从节点i发出的总权重等于在节点i处发现的权重。相反,(非归一化的)F运算符将权重w(i)的“副本”发送到在节点i下游处找到的每个节点-因此所发出的总权重是w(i)乘以i的出度(outdegree)。
该特征可能看上去是微不足道的,但是它可以具有相当大的影响。存在一种被称为是SALSA的算法(SALSA(The StochasticApproach for Link-Structure Analysis):链接结构分析的随机方法,ACM Transactions on Information System 19(2),第131-160页,2001年4月,这篇文章的全部内容在这里被引入作为参考),该算法与HITS算法本质上是相同的,除了它使用归一化运算符fb和bf。这个小变化被证明是非常重要的:SALSA算法的中心程度和权威程度被证明分别是每个节点的出度和入度。因此,HITS算法的归一化(使其“权重守恒”)完全消除了该方法对图结构作为整体的任何敏感性-但是,结果与初级链接广泛度方法等效。
相似的结果适用于非有向图(其中F和B变为相同的)。这里,归一化形式只提供节点度,而非归一化形式提供重要的得分(“特征向量中心性”),该得分对整体图结构是敏感的。
人们可能会由此推断出,归一化运算符在对图上节点进行排序中不能提供有用结果。然而,该结论是错误的。Google所使用的PageRank算法-在上文中被描述成随机行走-与使用f运算符等效(通过完全随机跳跃来补充,以脱离汇点)。Google是当今万维网上占主导地位的搜索引擎,并且它的PageRank算法是其优势地位的重要原因之一:该算法提供了有意义并且有用的排序结果。
Ding等人的研究论文(LNBL Tech Report 49372,2002年9月更新,其内容在这里被引入作为参考)中已经简要提到另一种归一化的运算符(b)。Ding等人提供了关于以该运算符为基础的文档排序的性能的非常简短的讨论(一句话),暗示其所提供的结果与HITS算法的中心程度相似。我们使用‘DHHZS’(作者姓的第一个字母)来表示该论文中b运算符的研究。
在下文中,对用于通过利用超文本链接分析来进行排序的方法的上述讨论进行总结。两种方法(SALSA和HITS)使用复合运算符。这两种方法提供了用于每个文档的两种类型的得分。然而,SALSA与链接广泛度等效,而HITS提供了依赖于整体链接结构的重要结果。PageRank只使用归一化的正向运算符,并且产生单一得分,该单一得分也比初级链接计数有用。最后,DHHZS的论文提到了一种归一化的反向运算符,该运算符也产生单一而且重要的得分。
下面讨论以上列举的四种算法(即归一化的组合正向/反向;仅仅归一化的反向,仅仅归一化的正向;非归一化的组合反向/正向)的缺点。
某些方法在它们的排序中根本不使用链接分析。这些方法包括文本相关性排序(上文中讨论);付费排序;以及根据人为判断的排序。
●付费排序是一种非常简单的系统,其具有完全不同的销售方法和受众。利用付费排序的引擎由于除了查找最佳信息之外的其它目的而被用户使用。
●根据人为判断的排序具有明显的缺陷,即其对于覆盖相当大的系统-例如万维网-太慢和昂贵。
●所有商业搜索引擎使用文本排序。认为文本排序是任何好的排序系统的重要组成部分。事实上,最佳搜索系统将包括文本排序系统以及通过链接分析排序的系统(参看,例如,Google搜索引擎)。
在使用中和/或授予专利的、采用超文本分析的页面(即文档)排序方法中大多数-如果不是全部-基于三种方法中的一种。
●链接广泛度。这里,人们只是对被链接到给定页面的页面数量(它的“度”)进行计数。超链接具有方向;因此,每个节点具有链接广泛度的两个测量:入度(指向给定页面的页面数量)以及出度(来自给定页面的链接数量)。链接广泛度的这两个不同测量分别粗略地对应于HITS方法中的权威程度和中心程度。
●PageRank。这里,页面的排序大致等同于“随机冲浪者”访问页面的时间片段。随机冲浪者只跟随出链(outlink)(以某个概率);否则,该冲浪者随机转移到新页面。因为PageRank只遵从出链,所以其结果更接近于权威程度而非中心程度。也就是说,高的PageRank得分表示很多好页面指向给定页面。
●HITS。这里,存在两个“相互增强”得分。事实上,它们被相互限定:如果(很多)好的中心指向一个页面,则该页面是好的权威;如果一个页面指向(很多)好的权威,则该页面就是好的中心。基本思想与链接广泛度相似,即好的权威可能具有高的入度,而好的中心更可能具有高的出度。
可以比较通过超文本链接分析来排序的不同已知方法。链接广泛度具有上述明显缺陷-它太容易受到通过向站点简单地添加多个入链(inlink)来提高自身得分的人为方法的影响。链接广泛度相对于其它方法的唯一优点是它的简单性。另外两种方法-HITS和PageRank-都是有前途的技术。计算大网络-诸如万维网-的PageRank得分比计算权威程度和中心程度更切合实际。HITS方法典型地通过对全图的较小子图进行链接分析来避免该问题。该子图由命中、它们的入邻居(in-neighbors)和出邻居(out-neighbors)、以及这些文档之间的链接的集合组成。
总之,如图1和图2所示,PageRank链接分析技术被应用到全图。相反,HITS以及相关技术被应用到与主题有关的子图,如图3和图4所示。HITS方法中两类得分的紧密耦合使HITS方法应用于不确定优点的全图。另一方面,就我们所知,PageRank还没有被应用于子图,而且并不清楚将会得到哪类结果。
正如本发明的发明人所发现的,需要的是一种算法,其可以被用于整个万维网图(如很多PageRank),并且(与PageRank不同)为每个文档产生两种不同得分。也就是说,新算法不应该使用复合运算符(从而避免了HITS方法中的已知问题),并且应该可以将其应用于全图,或者应用于被限制到单一主题的文档子集。
发明内容
考虑到用于当前可用于超文本链接分析的方案的上述缺陷,本发明的一个目的是提供基于规则的方法、以及相应的系统和基于计算机的产品,用于对超链接网络中的文档排序。
特别地,本发明的目的是提供一种方法、系统和计算机程序产品,其能够通过与有向图上每个节点相关的两种不同的权重或得分对文档排序。图中的节点是文档,而有向链接是超文本指针。与使用其它类型的链接分析算法一样,本发明使用有向图结构来获得每个节点(文档)的重要性权重。通过重复应用运算符而得到节点上的权重。运算符对每次迭代中出现的权重进行重新分配。在多次迭代以后,权重停止改变,收敛到稳定值。这些收敛值是节点的重要性权重。
具体地,本发明的目的是开发一种方法、系统、和计算机程序产品,用于查找节点排序权重的两个新运算符:非归一化的正向运算符F和非归一化的反向运算符B。与常规方法不同,本发明的方法是要用于两种情况:全图或与主题相关的子图。该方法与PageRank的相同之处在于它在一个方向(正向或反向)反复传播权重,直到获得权重的稳定分配。然而,与PageRank不同,该方法允许为全图中所有页面计算中心程度和权威程度。是这两种程度的去耦合使本方法可以应用(与HITS相反)到全图中。然而,我们的方法还可以应用到与主题相关的子图中。在这种情况中,对于在导航通过与主题相关的子图中的最佳结果,希望具有两种类型的得分(中心和权威)。
附图说明
由于通过在结合附图考虑时参考下面的详细描述能够更好地理解本发明,所以对本发明以及本发明的许多附加优点的更完整理解将会很容易获得,其中:
图1示出用于将链接分析应用于整个链接数据库(图)的常规方法;
图2示出对应于图1中方法的排序机制的架构,其中链接分析被应用于全图;
图3示出用于将链接分析应用于已经被先前主题搜索选择的文档子集的常规方法;
图4示出对应于图3中方法的排序机制的架构,其中链接分析被应用于子图;
图5示出本发明的第一测试情况;
图6示出本发明的第二测试情况;
图7是与本发明相关的流程图;以及
图8是与本发明相关的计算机系统的框图。
具体实施方式
在本发明中,图中节点权重的确定需要反复应用两个非归一化运算符中的一个,其中这两个非归一化运算符在下文中被表示成F运算符和B运算符。通常,权重随着每次应用而改变;但是,在多次迭代以后,权重固定为稳定数值,该稳定值是计算结果。
首先讨论F运算符的实现。假设一个在给定迭代中,节点i处的权重为w(i)。F运算符将权重w(i)布置到通过从i指向j的链接被链接到i的每个节点j。F为网络中每个节点i进行该操作。因此,F的一次应用的结果是:
w ( j ) ( new ) = Σ i → j w ( i ) ( old )
其中 是指向节点j的那些节点i上的和。
由于图上的总权重会随着每次迭代而增长,所以权重必须都周期地减小一个常数因子,以便防止权重增长到进行计算的计算机不能处理的数字。这个减小并不影响权重的相对值-并且它只是为了排序目的所需要的相对值。由于其仅仅是重新调节,所以可以将这个减小称为使权重“归一化”。注意,在计算期间必须有规律地对权重进行归一化,因为正作用于权重的运算符本身不被归一化。
可以将上面的等式象征性地写成:
w(new)=F·w(old)
其中w是权重向量,而F是非归一化的正向运算符-事实上,它是图形邻接矩阵的转置矩阵。
正如归一化情况一样,该过程遭受汇点的问题。因此,可以应用相同的补救措施。假设R是“随机化”运算符,其将权重从任一节点转移到其它具有相同概率的任何节点。因此,R是这样的矩阵,即除对角线元素为0以外,所有元素都为1。然后,通过下式来执行添加随机跳转的某种概率:
w(new)=(F+cR)·w(old)
这里,c是自由参数,其可以被调整以提供好的性能。
对于所有节点对,当相对值w(i)/w(j)停止变化时,得到权重的稳定值。该条件等价于向量w改变其长度,但不改变其方向。换句话说,在收敛点得到:
w=λ(F+cR)·w
其中λ是另一常数,其数值对于排序过程不重要。当权重w服从上面的等式时,它们根据超链接分析提供节点的相对排序。
现在讨论B运算符。非归一化的B运算符只是F的转置矩阵。也就是说,B=FT。因此,B是有向图的邻接矩阵。否则,过程和讨论与前一部分相同。对于B,仍然存在汇点-这些汇点是图的这种区域,即箭头从这些区域中指出,但不指入。因此,如上所述,必须包括R运算符。
通过这两个运算符,可以在文档排序中使用两个得分。并且,与前文中所述的那些产生两个得分的常规方法一样,本发明所计算的两种得分与“被指向”(入度,或权威)、以及“指向”(出度,或中心)的常规得分相似。但是,虽然相似,本发明所计算的两种得分与HITS所计算的得分在数学上和功能上不同,这至少因为本发明的两种排序计算在数学上是去耦合的。我们在以下将会看到这可以具有重要的影响。
同样,本发明在至少两个方面不同于PageRank:(i)本发明在跟随箭头重复进行“权重传播”步骤时,不通过出度划分权重;以及(ii)本发明计算两个得分,基于正向传播(我们的F运算符)的得分,以及基于反向传播(我们的B运算符)的得分。PageRank只使用正向传播,并且以不同的方式进行。
最后,本发明与链接广泛度明显不同(如PageRank和HITS一样),因为链接文档的权重起重要作用-不只是它们的数量。这意味着,本发明与PageRank和HITS一样,对超链接文档网络的整体结构敏感。
现在通过利用某些简单的超链接图来说明所有这些方法之间的某些差异。图5示出由三个节点A、B和C所构成的小型超链接图。该图出现在Page、Brin、Motwani和Winograd的论文“PageRankCitation Ranking:Bringing Order to the Web”中(也参看美国专利6,285,999)。
下面的表1表示了通过使用不同方法所得到的图5中三个节点的排序得分。这里(以及图6中),所有得分被按比例缩放,从而使得每一列的得分总和等于1。
  节点   入度(广泛度)“类似权威”权重   出度(广泛度)“类似中心”权重   PageRank“类似权威”权重   HITS权威权重   HITS中心权重   非归一化正向“类似权威”权重   非归一化反向“类似中心”权重
  A   0.25   0.5   0.4   0   0.62   0.32   0.43
  B   0.25   0.25   0.2   0.38   0.38   0.25   0.25
  C   0.5   0.25   0.4   0.62   0   0.43   0.32
表1
这里,已经引入一些新语言:以下,“类似权威权重”(没有大写字母)的意思是用于任何给定方法的一般的“被指向权重”;同样地,“类似中心权重”是用于任何方法的“指向”权重。(有大写字母的“权威”和“中心”具体表示从HITS方法中所得到的那些得分。)这两种得分(即类似权威权重和类似中心权重)都是搜索者感兴趣的:权威可能是搜索的终点,而中心是可能在少量的进一步跳跃之后通向好终点的位置。正如前文中所指出的,本发明使用正向运算符以得到类似权威程度,并且使用反向运算符以得到类似中心程度。
初级方法(链接广泛度)向节点C提供最高的类似权威排序(即入度=0.5),并且向节点A提供最高的类似中心排序(即出度=0.5)。PageRank方法不能区别A和C(即PageRank=0.4)。HITS方法坚定地挑选C作为最高权威(即权威=0.62),而挑选A作为最佳中心(即中心=0.62)。但是,我们看到,HITS对PageRank得分给出了相当极端的修正-例如,它向A提供了零权威。
本发明通过使权威程度和中心程度的计算去耦合-即通过在数学上使正向计算和反向计算去耦合-纠正了这种过度修正。正向计算提供C作为最高类似权威权重(即0.43)-其是敏感的-但是,不同于HITS,还向A提供第二高类似权威权重(即0.32)。A的这个类似权威权重来自链接C→A(由C指向A)。
注意,由于某些情况中的同分(tie score),表1中所示的所有方法对于类似权威程度的情况和对于类似中心程度的情况提供不同排序。当然,同分在大图中-诸如WWW中-是很少发生的。但是,来自该图的点保持有效:本发明通常将提供与通过其它方法所得到的那些排序不同的排序。
我们还看到,本发明提供的结果(至少对于类似权威程度)是在PageRank结果和HITS结果的“中间”。这是两种计算之间去耦合的结果。
在图6中,考虑具有四个节点:A、B、C和D的更加复杂的第二实例图。表2中提供了对于图6中每个节点的不同方法的得分。
  节点   入度(广泛度)“类似权威”权重   出度(广泛度)“类似中心”权重   PageRank“类似权威”权重   HITS权威权重   HITS中心权重   非归一化正向“类似权威”权重   非归一化反向“类似中心”权重
  A   0.29   0.29   0.29   0.29   0.28   0.30   0.25
  B   0.14   0.14   0.14   0.16   0.21   0.16   0.16
  C   0.43   0.29   0.38   0.46   0.17   0.35   0.30
  D   0.14   0.29   0.19   0.10   0.34   0.19   0.30
表2
由于其它每个节点指向C,所以它是任何方法的最高类似权威。但是,在这种情况中,类似中心程度更不清楚:哪些节点最指向好节点?四个节点中的三个具有相同的出度(即0.29)。还要注意,即使在大图中,出度同分也不罕见。因此,显然需要超过初级方法的一些方法。
PageRank没有给出关于任何节点的类似中心等级(rating)的信息。因此,只可以将HITS与本发明做比较。HITS选择D作为最佳中心,并且选择A作为第二佳中心。该结果被与权威计算的耦合强烈地影响:D和A由于它们与高权威C的“相互增强”关系(即两种链接方式)而出现在顶部。本发明(参看“反向”列)给出不同的答案,发现C和D是两个最佳中心。A排序第三,因为它的两个出链中的一个指向相当边缘的节点B,然而C和D指向“好”节点(如本发明所评价)。因此,用户将通过当前发明的方法被引导沿着不同的路径户:例如,类似中心程度高的节点可以被表示作为“值得进一步跟随”。
该实例还说明不同方法给出不同排序。每个方法具有其自身的逻辑;但是结果是有区别的,并且在许多情况中,使用不同方法的用户体验将会不同。同样,虽然实例2集中于比较类似中心程度,但是显然,所有箭头的简单反向给出了这样一个图,该图产生用于权威程度的相同点。入度同分在大图中-诸如WWW或者WWW的子图中-有些罕见。但是,仍然存在这样的情况,其中超过简单入度的细微差异将起到重要作用;并且在这些情况中,本发明将提供与PageRank或HITS所提供的不同的类似权威观点。
在计算得分时,本发明-与PageRank和HITS一样-寻找矩阵的主特征向量。寻找矩阵主特征向量的最简单并且最通常的方法是幂法(参看A.Arasu,J.Novak,A.Tomkins和J.Tomlin的“PageRankComputation and the structure of the Web:Experiments andAlgorithms”。技术报告,2001年11月IBM Almaden研究中心。http://citeseer.nj.nec.com/arasu02pagerank.html,其内容在这里被引入作为参考)。该方法涉及权重向量与矩阵反复相乘。权重向量与矩阵相乘等价于上文中所说的“权重传播”:它根据规则重新分配一组权重,跟随链接上的箭头,“随着”箭头(正向)或者“逆着”箭头(反向)。权重的反复重新分配(通过总权重的整体归一化,对于本发明和对于HITS)产生稳态分布,该分布是占优势的或主特征向量。它们是用于排序的得分,如(例如)上面表1和表2所示。
为了清楚,图解了将幂法应用于图7中的正向运算符。这里,通过使用前面所说明的等式,过程开始,并且选择起始向量w0(S401)。在每次迭代中,通过根据正向运算符的动作重新分配权重、并且或然地解释随机跳转,计算新的权重wnew(S403)。然后,该新权重被归一化(S405)。接着进行收敛检验(S407)。如果权重已经收敛,则过程结束。否则,计算新的权重,并且过程重复,直到权重收敛为止。反向运算符的流程图是相同的,在F被替换为B之后。
当然,存在其它方法寻找主特征向量(参看,例如前文中指出的Arasu等人的论文)。这些可选方法中的每一种都在本发明的范围之内。
可以将本发明的某些优点归入以下三类:简单性;质量;以及对其它问题的适用性。
关于简单性(并且忽略初级链接广泛度方法,该方法是最简单的),HITS方法要找到两个积矩阵BF和FB(在我们的表示中)的主特征向量。对于大图,计算这些积矩阵可能不是解决该问题的最有效方法,因为两个大矩阵相乘是耗时的运算(参看P.Bjrstad,F.Manne,T.Srevik和M.Vajtersic的“Efficient Matrix Multiplicationon SIMD Computers”;SIAM,J.Matrix Anal.Appl.,13(1992),第386-401页,其内容在这里被引入作为参考)。因此,对HITS计算的有效方法涉及权重向量与B和F的反复交替相乘。这又是幂法。PageRank还典型地使用幂法。因此,这三种方法(除了度的计数,其是微不足道的)在计算复杂性方面大致相同-都涉及稀疏N×N矩阵的反复应用(其中N是图中的文档数)。
关于结果的质量,本发明可以给出的排序结果在质量上不同于已知方法所得到的那些排序结果,并且比它们更有用。PageRank只提供用于每个文档的单一得分,其是这样一种得分,我们称之为“类似权威”或“被好的文档指向”。本发明给出两个得分,而复杂性几乎没有增加,并因此提供了关于搜索中所找到的相关文档的两种信息。
HITS也给出关于文档的两种信息。但是,这两个得分的计算的耦合可能是不利的。当-如在发明HITS方法时所想象的那样-根据搜索的主题已经聚焦所考虑的图时,HITS可能最有用以藕荷这两个得分。当所有文档都与一个主题相关时,它对于在权威方面判断中心可能是有意义的,反之亦然。对于更大的图,它可能不是这样。
本发明使类似权威程度计算与类似中心程度计算去耦合。如上所示,本发明可以提供的结果与HITS一样好,或者优于HITS,即使对于小的并且聚焦的图。本发明还具有这样的优点,即它可以被有用地应用于大的、未聚焦的图。
关于本发明的其它应用,本发明-和这里所讨论的其它一样-可被应用于可以被抽象地表示为通过有向链接连接的节点的任何系统。在前面所有讨论中显式或隐式地假设的应用是这样的系统,其中节点是信息文档,而目的是对通过主题搜索所找到的文档进行排序。
总之,本发明包括一组方法,这些方法用于使用超文本链接分析来对通过超文本链接被链接在一起的文档进行排序。从上文中显然可以看出,本发明可以用作商业万维网搜索引擎的关键组件-这无疑是本发明的可能实施例之一。搜索引擎通常通过文本相关性排序来补充链接分析排序,如本发明所实现的;但是,原则上,链接分析排序可以与文本相关性排序无关地进行。此外,本发明还有许多其它用途。
例如,本发明对于改进用于组织个人计算机(PC)上内容的分级文件夹方法是有用的。现今的用于组织的分级方法正迅速地变得不适合于一般PC用户。问题在于,分级树上的搜索天然地效率低下。也就是说,现今的操作系统提供搜索特定文件的方法-即通过穷举搜索。如果用户想要与给定文件、或与给定主题相关的所有文件该怎么办?链接所有文件的分级树可能似乎是一种解决方案;但是它要求组织一个树中所有种类信息的有效方式-并不是对任何用户都可行的目标。
相反地,假设可以并且正被存储在每台个人PC上的信息激增,可以预料到在不久的将来将需要一种更有效的搜索机制。一组综合机制-与现今的万维网搜索引擎很相似-可以是搜索PC上个人内容的非常有用的方法。对于这种有用的技术,必须规定在PC上的文档之间建立超文本链接。这些超文本链接可以手动或自动地建立-优选地以这两种方式。它们优选地链接所有类型的文件。结果是“私人万维网”,其中个人文档在类似万维网的有向图中被链接在一起。假定私人万维网,本发明对于关于用户启动的对他的/她的个人文档的搜索的命中进行排序是有用的。前面针对万维网分析所述的优点在这里同样适用。
此外,还可以考虑本发明的不同种类的应用。文件和用户系统运行的一个重要方面是安全。人们希望保护系统免遭有害信息,诸如病毒,或者泄漏的敏感信息。于是,保护涉及两个目标:(i)首先是避免引入这种有害信息;以及(ii)如果这种有害信息已经被引入到系统中,则阻止或限制它的传播。
该用户/文件系统可以被表示成有向图。文件对不同用户组具有读写权限;写权限是允许信息从用户流向文件的有向链路,而读权限是指向其它路线的箭头。此外,节点(用户或文件)的排序对于上述目的(ii)-阻止损害的扩散-可以是非常有用的根据。人们希望根据节点在扩散中起多大的作用而对节点进行排序:一些节点(网络“边缘”上弱连接的节点)将起到边缘作用,而其它节点(高度居中的节点)将起到大的作用。因此,对节点排序就允许系统管理员将他的或她的精力集中在对排序最高的节点的监控和保护上。权重传播方法-与上文中所讨论一样-对于该问题可以是有用的。下面让我们比较各种方法。
由于初级度计数方法提供的关于扩散的有用信息很少,所以可以立即将该方法排除;该方法被限制到完全局部信息,并且因此可以向实际上与系统相当隔离的节点提供高的得分。然后,我们考虑PageRank。由于有害信息可以在其每次经过链接时复制自身,所以在对节点进行排序时通过节点的出度来划分(如PageRank方法所做的)是不明智的。同样,PageRank方法只产生一种关于每个节点的信息(得分)-即它的“类似权威”程度,该程度试图量化节点在多大程度上被重要节点指向。但是,为了限制损害的扩散,人们还希望知道节点的“类似中心”程度。显然,中心在指向重要节点方面是良好的,因此容易将损害扩散到重要节点上。另一方面,权威节点受到损害的影响,因为它们“被指向”的程度最大。因此,人们需要两种类型的得分,以便对系统保护做出最佳的安排。
HITS方法给出两种类型的得分。但是,这里,两种得分计算的紧密耦合可能极为不利。也就是说,对于损害扩散来说,节点不应该在其中心(扩散器(spreader))程度上获得大的增加,这只是因为它指向好的权威(高度暴露节点)。相反地,高中心程度应该意味着所讨论的节点指向其它好的中心(扩散器)。该规定优选地与本发明相匹配,本发明简单地重复反向运算符,以评估中心程度。
因此,简而言之,本发明在被应用于限制用户/文件网络上损害扩散的问题时,相对于已知方法(使用链接分析来对节点排序)具有显著优点。相同的论点可能对损害扩散是重要问题的其它种类的系统也成立;可应用本发明所必须满足的唯一标准是,节点之间的链接是有向的。
图8图解了本发明的实施例可以在其上实施的计算机系统1201。计算机设计在STALLINGS,W.,Computer Organization andArchitecture,4th ed.,Upper Saddle River,NJ,Prentice Hall,1996中被详细讨论,其全部内容在这里被引入作为参考。计算机系统1201包括总线1202或其它用于传送信息的通信机构,以及与总线1202耦合、用于处理信息的处理器1203。计算机系统1201还包括耦合到总线1202、用于存储信息和将由处理器1203执行的指令的主存储器1204,诸如随机存取存储器(RAM)或其它动态存储设备(例如动态RAM(DRAM),静态RAM(SRAM),以及同步DRAM(SDRAM))。此外,主存储器1204可以被用于在处理器1203执行指令期间存储临时变量或其它中间信息。计算机系统1201还包括被耦合到总线1202、用于存储处理器1203的静态信息和指令的只读存储器(ROM)1205或其它静态存储设备(例如,可编程ROM(PROM),可擦除PROM(EPROM),以及电可擦除PROM(EEPROM))。
计算机系统1201还包括与总线1202耦合的磁盘控制器1206,以控制用于存储信息和指令的一个或多个存储设备,诸如硬磁盘1207,以及可拆卸介质驱动器1208(例如,软盘驱动器,只读光盘驱动器,读/写光盘驱动器,光盘机,磁带驱动器,以及可拆卸磁光驱动器)。可以通过使用适当的设备接口(例如,小型计算机系统接口(SCSI),集成设备电子电路(IDE),增强型IDE(E-IDE),直接存储器存取(DMA),或者超DMA),将存储设备添加到计算机系统1201。
计算机系统1201还可以包括特殊用途的逻辑设备(例如,特定用途集成电路(ASIC)),或者可配置逻辑设备(例如,简单可编程逻辑设备(SPLD),复杂可编程逻辑设备(CPLD),以及现场可编程门阵列(FPGA))。
计算机系统1201还可以包括与总线1202耦合的显示控制器1209,用于控制用于向计算机用户显示信息的显示器1210,诸如阴极射线管(CRT)。计算机系统包括输入设备,诸如键盘1211和定位设备1212,用于与计算机用户交互作用,并且向处理器1203提供信息。定位设备1212可以是,例如鼠标、跟踪球、或者定位杆,用于向处理器1203传送方向信息和命令选择,并且用于控制显示器1210上的光标移动。此外,打印机可以提供由计算机系统1201所存储和/或生成的数据的打印清单。
计算机系统1201响应于处理器1203执行存储器-诸如主存储器1204-中所包含的一个或多个指令的一个或多个序列,进行本发明的一部分或全部处理步骤。这些指令可以从另一计算机可读介质-诸如硬盘1207或可拆卸介质驱动器1208读入到主存储器1204中。多处理结构中的一个或多个处理器还可以被用于执行主存储器1204中所包含的指令序列。在可选实施例中,可以使用硬线电路代替软件指令,或者与软件指令结合使用。因此,实施例并不限于硬件电路和软件的任何特定组合。
如上所述,计算机系统1201包括至少一个计算机可读介质或存储器,用于保存根据本发明的教导所编制的指令,并且用于包含数据结构、表格、记录或这里所描述的其它数据。计算机可读介质的实例为光盘、硬盘、软盘、磁带、磁光盘、PROM(EPROM,EEPROM,闪速EPROM)、DRAM、SRAM、SDRAM、或其它任何磁性介质、光盘(例如CD-ROM)或其它任何光学介质、穿孔卡片、纸带、或具有孔图案的其它物理介质、载波(将在下文中说明)、或计算机可以读取的其它任何介质。
存储在任何一种计算机可读介质或计算机可读介质的组合上,本发明包括软件,用于控制计算机系统1201,用于驱动实现本发明的一个或多个设备,以及用于使计算机系统1201能够与用户(例如打印人员)交互作用。这种软件可以包括,但并不局限于设备驱动器、操作系统、开发工具、以及应用软件。这种计算机可读介质还包括本发明的计算机程序产品,用于进行在实现本发明中所执行的全部或部分(如果处理是分布式的)的处理。
本发明的计算机编码设备可以是任何可解释或可执行的代码机构,包括,但并不局限于脚本、可解释程序、动态链接库(DLL)、Java类、以及完全可执行程序。此外,为了更好的性能、可靠性和/或成本,本发明的部分处理可以是分布式的。
这里所使用的术语“计算机可读介质”是指任何参与提供处理器1203执行的指令的任何介质。计算机可读介质可以采用许多形式,包括但并不局限于非易失介质、易失介质、以及传输介质。非易失介质包括例如,光盘,磁盘,以及磁光盘,诸如硬盘1207或可拆卸介质驱动器1208。易失介质包括动态存储器,诸如主存储器1204。传输介质包括同轴电缆,铜线,以及光纤,包含构成总线1202的线。传输介质也可以采用声波或光波的形式,诸如在无线电波和红外线数据通信中所生成的那些。
运行处理器1203执行的一个或多个指令的一个或多个序列可涉及到多种形式的计算机可读介质。例如,指令可以最初在远程计算机的磁盘上执行。远程计算机可以将用于实现全部或部分本发明的指令远程加载到动态存储器中,并且利用调制解调器通过电话线发送指令。计算机系统1201的本地调制解调器可以接收电话线上的数据,并且使用红外线发射器将数据转换为红外线信号。与总线1202耦合的红外线探测器可以接收红外线信号中所携带的数据,并且将数据放到总线1202上。总线1202将数据传送到主存储器1204,处理器1203从主存储器1204中取回指令,并且执行指令。主存储器1204所接收的指令在处理器1203执行之前或以后,可以可选地被存储在存储设备1207或1208上。
计算机系统1201还包括与总线1202耦合的通信接口1213。通信接口1213提供与网络链接1214耦合的双向数据通信,其中网络链接1214被连接到例如局域网(LAN)1215或被连接到另一通信网络1216,诸如因特网。例如,通信接口1213可以是网络接口卡,用于与任何分组交换LAN连接。作为另一个实例,通信接口1213可以是不对称数字用户线(ADSL)卡,综合业务数字网(ISDN)卡,或者调制解调器,用于向相应类型的通信线路提供数据通信连接。也可以实施无线链接。在任何这种实施中,通信接口1213发送和接收电信号、电磁信号或光信号,其中这些信号携带表示各类信息的数字数据流。
网络链接1214典型地提供通过一个或多个网络到其它数据设备的数据通信。例如,网络链接1214可以提供通过本地网络1215(例如LAN)或者通过由服务提供商所运营的设备到另一计算机的连接,其中服务提供商通过通信网络1216提供通信服务。本地网络1214和通信网络1216使用例如携带数字数据流的电信号,电磁信号或者光信号,以及相关的物理层(例如,CAT5电缆,同轴电缆,光纤等等)。通过不同网络的信号、以及网络链接1214上并且通过通信接口1213的信号-其中这些信号携带数字数据往返通过计算机系统1201-可以在基带信号、或者基于载波的信号中实现。基带信号传送作为未调制电脉冲的数字数据,该电脉冲是数字数据位流的描述,其中术语“位”一般地指符号,每个符号传送至少一个或多个信息位。数字数据还可以被用于调制载波,诸如通过振幅、相位和/或频移键控信号进行调制,其中这些信号在传导介质传播,或者作为电磁波通过传播介质被传送。因此,数字数据可以作为未调制基带数据通过“有线”通信信道发送,和/或在不同于基带的预定频段内通过调制载波而被发送。计算机系统1201可以通过网络1215和1216、网络链接1214、以及通信接口1213发送和接收数据,包括程序编码。此外,网络链接1214可以提供通过LAN 1215到移动设备1217-诸如个人数字助理(PDA)、膝上型计算机、或者蜂窝电话-的连接。
总之,通过对现有算法的讨论,应该清楚的是,非归一化正向运算符F和非归一化反向运算符B可以提供非常好的链接分析结果。更重要的是,回顾SALSA和HITS技术的结果之间大的差别,除去PageRankf运算的归一化对于任何链接分析结果都将有重要影响。同样,使用不成对的反向运算符,而不是复合运算符BF或FB,将给出不同于其它任何结果的结果。迄今对b运算符极其有限的测试暗示了结果是有意义的。非归一化B运算符同样要值得注意。反向运算符一般可能提供更在HITS方法的中心程度的精神范围内的得分。
为了在集中的网络搜索引擎中对命中进行排序而实现本发明就需要其与多个其它组件结合:文本排序系统,索引系统,涂写器,以及用户接口。本发明在该实现中表示整个工作搜索引擎的一部分,并且不能与该系统的其它组件分隔地实现。
本发明还可以作为对保存在单个PC上的内容进行操作的搜索引擎的一部分。该实现需要在PC(即“私人网络”)上所存储的所有文档(邮件,文本,表现等)之间引入超链接。据我们所知,该构思(单个PC上文档之间的超链接)在现今操作系统中只在非常有限的范围内被实现。因此,将本发明实现为“私人网络”的一部分将需要PC中许多文件操作应用程序的修正。此外,需要索引系统,用户接口,以及(有可能)基于文本关联性的排序系统。
考虑到上面的教导,明显可以对本发明做出许多修改和变化。因此,应该理解,本发明可以在所附权利要求的范围内、而非这里具体描述的范围内被实施。

Claims (37)

1.一种用于对一组链接节点中节点相关性进行排序的方法,包含:
通过使用非复合的、非归一化的正向运算符,确定所述节点的类似权威权重;以及
通过使用非复合的、非归一化的反向运算符,确定所述节点的类似中心权重,
其中所述确定步骤在数学上去耦合。
2.根据权利要求1所述的方法,其中所述确定节点类似权威权重的步骤包含:
选择正向起始向量;
通过使用非复合的、非归一化的正向运算符,确定节点权重;
对所述节点权重进行归一化;以及
收敛检验,其中所述确定节点权重的步骤和所述对节点权重进行归一化的步骤反复进行,直到所述节点权重收敛到恒定值为止。
3.根据权利要求1所述的方法,其中所述确定节点的类似中心权重的步骤包含:
选择反向起始向量;
通过使用非复合的、非归一化的反向运算符,确定节点权重;
对所述节点权重进行归一化;以及
收敛检验,其中所述确定节点权重的步骤和所述对节点权重进行归一化的步骤反复进行,直到所述节点权重收敛到恒定值为止。
4.根据权利要求1所述的方法,还包括:
确定矩阵的主特征向量。
5.根据权利要求1所述的方法,还包含
选择搜索项;以及
显示排序结果。
6.根据权利要求1所述的方法,还包含:
对所述节点的文本内容进行排序。
7.一种用于对一组链接节点中节点相关性进行排序的系统,包括:
计算器,被配置为通过分别使用非复合的、非归一化的正向运算符和非复合的、非归一化的反向运算符而计算所述节点的类似权威权重以及所述节点的类似中心权重,
其中所述计算在数学上去耦合。
8.根据权利要求7所述的系统,其中所述计算器包含:
计算器,被配置为反复计算节点正向权重,对所述节点正向权重进行归一化,并且进行收敛检验,直到所述节点正向权重收敛到恒定值。
9.根据权利要求7所述的系统,其中所述计算器包含:
计算器,被配置为反复计算节点反向权重,对所述节点反向权重进行归一化,并且进行收敛检验,直到所述节点反向权重收敛到恒定值。
10.根据权利要求7所述的系统,所述计算器包含:
计算器,被配置为计算矩阵的主特征向量。
11.根据权利要求7所述的系统,还包含:
搜索项选择设备;以及
显示器。
12.根据权利要求7所述的系统,还包含:
文本内容排序机构。
13.一种用于对一组链接节点中节点相关性进行排序的方法,其改进包括:
执行以下步骤其中之一:
通过使用非复合的、非归一化的正向运算符,确定所述节点的类似权威权重;以及
通过使用非复合的、非归一化的反向运算符,确定所述节点的类似中心权重。
14.根据权利要求13所述的方法,其中所述确定节点的类似权威权重的步骤包含:
选择正向起始向量;
通过使用非复合的、非归一化的正向运算符,确定节点权重;
对所述节点权重进行归一化;以及
收敛检验,
其中所述确定节点权重的步骤和所述对节点权重进行归一化的步骤反复进行,直到所述节点权重收敛到恒定值为止。
15.根据权利要求13所述的方法,其中所述确定节点的类似中心权重的步骤包含:
选择反向起始向量;
通过使用所述非复合的、非归一化的反向运算符,确定节点权重;
对所述节点权重进行归一化;以及
收敛检验,
其中所述确定节点权重的步骤和所述对节点权重进行归一化的步骤反复进行,直到所述节点权重收敛到恒定值为止。
16.根据权利要求13所述的方法,还包含:
确定矩阵的主特征向量。
17.根据权利要求13所述的方法,还包含:
选择搜索项。
18.根据权利要求13所述的方法,还包含:
对所述节点的文本内容进行排序。
19.一种用于对一组链接节点中节点相关性进行排序的系统,包含:
计算器,被配置为分别通过使用非复合的、非归一化的正向运算符和非复合的、非归一化的反向运算符,计算所述节点的类似权威权重以及所述节点的类似节点权重,其中所述计算在数学上去耦合;以及
连接到所述计算器的中继模块,被配置为将所计算出的相应类似权威权重和类似中心权重中继到显示器。
20.根据权利要求19所述的系统,其中所述计算器包含:
计算器,被配置为反复计算节点正向权重,对所述节点正向权重进行归一化,并且进行收敛检验,直到所述节点正向权重收敛到恒定值。
21.根据权利要求19所述的系统,其中所述计算器包含:
计算器,被配置为反复计算节点反向权重,对所述节点反向权重进行归一化,并且进行收敛检验,直到所述节点反向权重收敛到恒定值。
22.根据权利要求19所述的系统,所述计算器包含:
计算器,被配置为计算矩阵的主特征向量。
23.根据权利要求19所述的系统,还包含:
搜索项选择设备;以及
显示器。
24.根据权利要求7所述的系统,还包含:
文本内容排序机构。
25.一种计算机程序产品,被配置为作为对应于权利要求1-6和13-18中任何一个步骤的指令的主机。
26.一种用于对一组链接节点中节点相关性进行排序的系统,包含:
用于通过使用非复合的、非归一化的正向运算符而确定所述节点的类似权威权重的装置;以及
用于通过使用非复合的、非归一化的反向运算符而确定所述节点的类似中心权重的装置,
其中所述用于确定类似权威权重的装置和所述用于确定类似中心权重的装置在数学上去耦合。
27.根据权利要求26所述的系统,其中所述用于确定节点的类似权威权重的装置包含:
用于选择正向起始向量的装置;
用于通过使用非复合的、非归一化的正向运算符而确定节点权重的装置;
用于对所述节点权重进行归一化的装置;以及
用于检验收敛的装置,
其中所述用于确定节点权重的装置和所述用于对节点权重进行归一化装置被配置为重复进行它们各自的操作,直到所述节点权重收敛到恒定值。
28.根据权利要求26所述的系统,其中所述用于确定节点的类似中心权重的装置包含:
用于选择反向起始向量的装置;
用于通过使用所述非复合的、非归一化的反向运算符而确定节点权重的装置;
用于对所述节点权重进行归一化的装置;以及
用于检验收敛的装置,
其中所述用于确定节点权重的装置和所述用于对节点权重进行归一化的装置被配置为重复进行它们各自的操作,直到所述节点权重收敛到恒定值。
29.根据权利要求26所述的系统,还包含:
用于确定矩阵的主特征向量的装置。
30.根据权利要求26所述的系统,还包含:
用于选择搜索项的装置;以及
用于显示排序结果的装置。
31.根据权利要求26所述的系统,还包含:
用于对所述节点的文本内容进行排序的装置。
32.一种用于对一组链接节点中节点相关性进行排序的系统,其改进包含:
用于执行以下步骤之一的装置:
通过使用非复合的、非归一化的正向运算符而确定所述节点的类似权威权重;以及
通过使用非复合的、非归一化的反向运算符而确定所述节点的类似中心权重。
33.根据权利要求32所述的系统,其中所述用于确定节点的类似权威权重的装置包含:
用于选择正向起始向量的装置;
用于通过使用所述非复合的、非归一化的正向运算符而确定节点权重的装置;
用于对所述节点权重进行归一化的装置;以及
用于检验收敛的装置,
其中所述用于确定节点权重的装置和所述用于对节点权重进行归一化的装置被配置为重复进行它们各自的操作,直到所述节点权重收敛到恒定值。
34.根据权利要求32所述的系统,其中所述用于确定节点的类似中心权重的装置包含:
用于选择反向起始向量的装置;
用于通过使用所述非复合的、非归一化的反向运算符而确定节点权重的装置;
用于对所述节点权重进行归一化的装置;以及
用于检验收敛的装置,
其中所述确定节点权重的装置和所述用于对节点权重进行归一化的装置被配置为重复进行它们各自的操作,直到所述节点权重收敛到恒定值。
35.根据权利要求32所述的系统,还包含:
用于确定矩阵的主特征向量的装置。
36.根据权利要求32所述的系统,还包含:
用于选择搜索项的装置。
37.根据权利要求32所述的系统,还包含:
用于对所述节点的文本内容进行排序的装置。
CNA2004800339693A 2003-10-20 2004-10-07 反向和正向非归一化链接权重分析方法,系统以及计算机程序产品 Pending CN1930545A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/687,602 2003-10-20
US10/687,602 US7281005B2 (en) 2003-10-20 2003-10-20 Backward and forward non-normalized link weight analysis method, system, and computer program product

Publications (1)

Publication Number Publication Date
CN1930545A true CN1930545A (zh) 2007-03-14

Family

ID=34521005

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800339693A Pending CN1930545A (zh) 2003-10-20 2004-10-07 反向和正向非归一化链接权重分析方法,系统以及计算机程序产品

Country Status (10)

Country Link
US (1) US7281005B2 (zh)
EP (1) EP1690152A4 (zh)
JP (1) JP4268638B2 (zh)
KR (1) KR20060085916A (zh)
CN (1) CN1930545A (zh)
AR (1) AR046125A1 (zh)
MY (1) MY138887A (zh)
NO (1) NO20062242L (zh)
RU (1) RU2006117359A (zh)
WO (1) WO2005043284A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317807A (zh) * 2014-09-24 2015-01-28 中国人民武装警察部队工程大学 一种基于网络科学的微博用户关系网络演化模型构造方法
CN104834662A (zh) * 2014-02-07 2015-08-12 富士通株式会社 管理方法、管理设备和管理系统
CN108055346A (zh) * 2017-12-26 2018-05-18 广东睿江云计算股份有限公司 一种优化邮件终端链接的方法

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792827B2 (en) * 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
JP2005135071A (ja) * 2003-10-29 2005-05-26 Hewlett-Packard Development Co Lp 商品購入における信頼値の算出方法及び装置
US7464075B2 (en) * 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings
US20060294124A1 (en) * 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7673253B1 (en) * 2004-06-30 2010-03-02 Google Inc. Systems and methods for inferring concepts for association with content
US7493320B2 (en) * 2004-08-16 2009-02-17 Telenor Asa Method, system, and computer program product for ranking of documents using link analysis, with remedies for sinks
US7328136B2 (en) * 2004-09-15 2008-02-05 Council Of Scientific & Industrial Research Computer based method for finding the effect of an element in a domain of N-dimensional function with a provision for N+1 dimensions
US20060074910A1 (en) * 2004-09-17 2006-04-06 Become, Inc. Systems and methods of retrieving topic specific information
US20060069675A1 (en) * 2004-09-30 2006-03-30 Ogilvie John W Search tools and techniques
US8595225B1 (en) * 2004-09-30 2013-11-26 Google Inc. Systems and methods for correlating document topicality and popularity
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations
US7991755B2 (en) * 2004-12-17 2011-08-02 International Business Machines Corporation Dynamically ranking nodes and labels in a hyperlinked database
US7668822B2 (en) * 2004-12-23 2010-02-23 Become, Inc. Method for assigning quality scores to documents in a linked database
US7797344B2 (en) * 2004-12-23 2010-09-14 Become, Inc. Method for assigning relative quality scores to a collection of linked documents
US8626775B1 (en) 2005-01-14 2014-01-07 Wal-Mart Stores, Inc. Topic relevance
US9286387B1 (en) 2005-01-14 2016-03-15 Wal-Mart Stores, Inc. Double iterative flavored rank
KR100952391B1 (ko) * 2005-04-14 2010-04-14 에스케이커뮤니케이션즈 주식회사 인터넷 네트워크에서 콘텐츠의 평가에 따른 가치 분석시스템, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수있는 기록 매체
US7958120B2 (en) 2005-05-10 2011-06-07 Netseer, Inc. Method and apparatus for distributed community finding
US9110985B2 (en) * 2005-05-10 2015-08-18 Neetseer, Inc. Generating a conceptual association graph from large-scale loosely-grouped content
JP2006330880A (ja) * 2005-05-24 2006-12-07 Hewlett-Packard Development Co Lp 信頼ネットワークにおける矢の重み値の算出方法及び装置
US7962462B1 (en) * 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
US8583627B1 (en) * 2005-07-01 2013-11-12 Google Inc. Display-content alteration for user interface devices
EP1746521A1 (fr) * 2005-07-22 2007-01-24 France Telecom Procédé de classement d'un ensemble de documents électroniques du type pouvant contenir des liens hypertextes vers d'autres documents électroniques
US7565358B2 (en) * 2005-08-08 2009-07-21 Google Inc. Agent rank
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US8583628B2 (en) * 2005-12-22 2013-11-12 Oracle International Corporation Recursive document network searching system having manual and learned component structures
WO2007084616A2 (en) 2006-01-18 2007-07-26 Ilial, Inc. System and method for context-based knowledge search, tagging, collaboration, management and advertisement
US8825657B2 (en) 2006-01-19 2014-09-02 Netseer, Inc. Systems and methods for creating, navigating, and searching informational web neighborhoods
US7584183B2 (en) * 2006-02-01 2009-09-01 Yahoo! Inc. Method for node classification and scoring by combining parallel iterative scoring calculation
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
WO2007100923A2 (en) * 2006-02-28 2007-09-07 Ilial, Inc. Methods and apparatus for visualizing, managing, monetizing and personalizing knowledge search results on a user interface
JP2007241459A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd ドキュメントデータ分析装置
CN100495398C (zh) * 2006-03-30 2009-06-03 国际商业机器公司 文件系统中搜索排序的方法及相关搜索引擎
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US7752198B2 (en) 2006-04-24 2010-07-06 Telenor Asa Method and device for efficiently ranking documents in a similarity graph
US7603350B1 (en) 2006-05-09 2009-10-13 Google Inc. Search result ranking based on trust
US7949661B2 (en) * 2006-08-24 2011-05-24 Yahoo! Inc. System and method for identifying web communities from seed sets of web pages
US7912831B2 (en) * 2006-10-03 2011-03-22 Yahoo! Inc. System and method for characterizing a web page using multiple anchor sets of web pages
US9817902B2 (en) * 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
TWI337712B (en) * 2006-10-30 2011-02-21 Inst Information Industry Systems and methods for measuring behavior characteristics, and machine readable medium thereof
US7809705B2 (en) * 2007-02-13 2010-10-05 Yahoo! Inc. System and method for determining web page quality using collective inference based on local and global information
JP2008217637A (ja) * 2007-03-07 2008-09-18 Fuji Xerox Co Ltd 情報分析装置及びプログラム
US20080228700A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
KR100898462B1 (ko) * 2007-05-16 2009-05-21 엔에이치엔(주) 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US7792854B2 (en) 2007-10-22 2010-09-07 Microsoft Corporation Query dependent link-based ranking
US20090234829A1 (en) * 2008-03-11 2009-09-17 Microsoft Corporation Link based ranking of search results using summaries of result neighborhoods
US10387892B2 (en) * 2008-05-06 2019-08-20 Netseer, Inc. Discovering relevant concept and context for content node
US20090300009A1 (en) * 2008-05-30 2009-12-03 Netseer, Inc. Behavioral Targeting For Tracking, Aggregating, And Predicting Online Behavior
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US8417695B2 (en) * 2008-10-30 2013-04-09 Netseer, Inc. Identifying related concepts of URLs and domain names
US20100169338A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Search System
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8166072B2 (en) * 2009-04-17 2012-04-24 International Business Machines Corporation System and method for normalizing and merging credential stores
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
EP2337280A1 (en) 2009-12-21 2011-06-22 Thomson Licensing Method to manage an opportunistic communication network
US8606792B1 (en) 2010-02-08 2013-12-10 Google Inc. Scoring authors of posts
US8533319B2 (en) * 2010-06-02 2013-09-10 Lockheed Martin Corporation Methods and systems for prioritizing network assets
US8954425B2 (en) * 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking
US8458115B2 (en) 2010-06-08 2013-06-04 Microsoft Corporation Mining topic-related aspects from user generated content
GB201011062D0 (en) * 2010-07-01 2010-08-18 Univ Antwerpen Method and system for using an information system
AU2010202901B2 (en) * 2010-07-08 2016-04-14 Patent Analytics Holding Pty Ltd A system, method and computer program for preparing data for analysis
US8285728B1 (en) * 2010-08-24 2012-10-09 The United States Of America As Represented By The Secretary Of The Navy Knowledge discovery and dissemination of text by mining with words
US9251123B2 (en) * 2010-11-29 2016-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for converting a PDF file
CN102546230B (zh) * 2010-12-08 2014-05-07 中国科学院声学研究所 一种p2p流媒体系统覆盖网拓扑优化方法
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US10311085B2 (en) 2012-08-31 2019-06-04 Netseer, Inc. Concept-level user intent profile extraction and applications
US9892210B2 (en) * 2014-10-31 2018-02-13 Microsoft Technology Licensing, Llc Partial graph incremental update in a social network
US10037376B2 (en) 2016-03-11 2018-07-31 Microsoft Technology Licensing, Llc Throughput-based fan-out control in scalable distributed data stores
CN110598073A (zh) 2018-05-25 2019-12-20 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
WO2021124933A1 (ja) * 2019-12-20 2021-06-24 桂太 杉原 情報処理システム及び情報処理方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2331166B (en) * 1997-11-06 2002-09-11 Ibm Database search engine
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6112202A (en) * 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6555465B2 (en) 1997-12-05 2003-04-29 Yamaha Corp. Multi-layer wiring structure of integrated circuit and manufacture of multi-layer wiring
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6457028B1 (en) 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6334131B2 (en) * 1998-08-29 2001-12-25 International Business Machines Corporation Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures
US6356899B1 (en) * 1998-08-29 2002-03-12 International Business Machines Corporation Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages
US6321220B1 (en) * 1998-12-07 2001-11-20 Altavista Company Method and apparatus for preventing topic drift in queries in hyperlinked environments
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US7260774B2 (en) * 2000-04-28 2007-08-21 Inceptor, Inc. Method & system for enhanced web page delivery
JP2001319129A (ja) 2000-05-04 2001-11-16 Apex Interactive Inc インターネットウェブサイトのサーチエンジンランキングを向上させるためのシステム、方法、およびコンピュータプログラム製品
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US6701312B2 (en) * 2001-09-12 2004-03-02 Science Applications International Corporation Data ranking with a Lorentzian fuzzy score
WO2003057648A2 (fr) * 2002-01-11 2003-07-17 Enrico Maim Procedes et systemes de recherche et d'association de ressources d'information telles que des pages web
MXPA04011507A (es) 2002-05-20 2005-09-30 Tata Infotech Ltd Identificador de estructura de documento.

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834662A (zh) * 2014-02-07 2015-08-12 富士通株式会社 管理方法、管理设备和管理系统
US10074058B2 (en) 2014-02-07 2018-09-11 Fujitsu Limited Management method, management device, and management system
CN104834662B (zh) * 2014-02-07 2019-03-01 富士通株式会社 管理方法、管理设备和管理系统
CN104317807A (zh) * 2014-09-24 2015-01-28 中国人民武装警察部队工程大学 一种基于网络科学的微博用户关系网络演化模型构造方法
CN104317807B (zh) * 2014-09-24 2017-05-31 中国人民武装警察部队工程大学 一种基于网络科学的微博用户关系网络演化模型构造方法
CN108055346A (zh) * 2017-12-26 2018-05-18 广东睿江云计算股份有限公司 一种优化邮件终端链接的方法
CN108055346B (zh) * 2017-12-26 2020-12-22 广东睿江云计算股份有限公司 一种优化邮件终端链接的方法

Also Published As

Publication number Publication date
EP1690152A2 (en) 2006-08-16
KR20060085916A (ko) 2006-07-28
US7281005B2 (en) 2007-10-09
WO2005043284A3 (en) 2006-07-20
AR046125A1 (es) 2005-11-23
NO20062242L (no) 2006-05-18
JP2007511815A (ja) 2007-05-10
WO2005043284A2 (en) 2005-05-12
US20050086260A1 (en) 2005-04-21
RU2006117359A (ru) 2007-12-20
JP4268638B2 (ja) 2009-05-27
EP1690152A4 (en) 2007-09-19
MY138887A (en) 2009-08-28

Similar Documents

Publication Publication Date Title
CN1930545A (zh) 反向和正向非归一化链接权重分析方法,系统以及计算机程序产品
Chiew et al. A new hybrid ensemble feature selection framework for machine learning-based phishing detection system
Henzinger Link analysis in web information retrieval
Hoffmann et al. Assieme: finding and leveraging implicit references in a web search interface for programmers
US20080243812A1 (en) Ranking method using hyperlinks in blogs
Hill et al. Exploring the neighborhood with dora to expedite software maintenance
US7849081B1 (en) Document analyzer and metadata generation and use
US8494897B1 (en) Inferring profiles of network users and the resources they access
Ding et al. Link analysis: hubs and authorities on the World Wide Web
US7424472B2 (en) Search query dominant location detection
Dean et al. Finding related pages in the World Wide Web
US7505961B2 (en) System and method for providing search results with configurable scoring formula
Dourisboure et al. Extraction and classification of dense implicit communities in the web graph
Huang et al. Malicious URL detection by dynamically mining patterns without pre-defined elements
Liu et al. Identifying web spam with the wisdom of the crowds.
Scholer et al. Query association surrogates for web search
US20110161260A1 (en) User-driven index selection
Lu et al. Evaluation of result merging strategies for metasearch engines
JP2006164246A (ja) エンティティ固有の調整された検索
US8296304B2 (en) Method, system, and program for handling redirects in a search engine
Geng et al. Evaluating web content quality via multi-scale features
Bahri et al. Choppy: Cut transformer for ranked list truncation
Bagade et al. The Kauwa-Kaate fake news detection system
Matsuo et al. Average-clicks: A new measure of distance on the World Wide Web
Prieto et al. Analysis and detection of web spam by means of web content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1099100

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070314

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1099100

Country of ref document: HK