CN101711389A - 基于一系列文档图对文档进行排名 - Google Patents

基于一系列文档图对文档进行排名 Download PDF

Info

Publication number
CN101711389A
CN101711389A CN200880020987A CN200880020987A CN101711389A CN 101711389 A CN101711389 A CN 101711389A CN 200880020987 A CN200880020987 A CN 200880020987A CN 200880020987 A CN200880020987 A CN 200880020987A CN 101711389 A CN101711389 A CN 101711389A
Authority
CN
China
Prior art keywords
webpage
probability
rank
document
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880020987A
Other languages
English (en)
Other versions
CN101711389B (zh
Inventor
T·刘
H·李
B·高
L·杨
L·齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101711389A publication Critical patent/CN101711389A/zh
Application granted granted Critical
Publication of CN101711389B publication Critical patent/CN101711389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

提供基于随着时间收集的一系列web图的文档排名。排名系统提供表示不同快照或时间的多个转移概率分布。每一转移概率分布表示在文档的集合内使用文档的链接从一个文档转移到另一文档的概率。排名系统基于快照的转移概率分布和之前的快照的固定概率分布来为每一快照确定固定概率分布。固定概率分布表示随着时间的文档的排名。

Description

基于一系列文档图对文档进行排名
背景
如Google(谷歌)和Yahoo(雅虎)等许多搜索引擎服务能够搜索能经由因特网访问的信息。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬寻(crawl)”web(即,万维网)来标识每一网页的关键词来生成。为爬寻web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键词与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于排名的顺序显示给用户,该排名可以按照所标识的网页与查询的相关度、流行度、重要性和/或某一其它度量来确定。
用于页面排名的一种公知技术是PageRank,其基于网页将具有到重要网页的链接(即,“引出链接”)的原理。网页重要性基于链接到该网页的其它网页(即,“引入链接”)的数量与重要性。PageRank基于访问web图(顶点表示网页而链接表示超链接)的网页的随机冲浪(surfer)模型,且将网页的重要性表示为访问此网页的固定概率。在随机冲浪模型中,访问当前页面的冲浪者将通过随机选择当前网页的链接或通过随机跳转到任何网页来访问下一页面。如果当前网页具有三个到目标网页的引出链接,则使用当前网页的链接来从当前网页访问每一目标网页的转移概率是1/3。跳转到任何网页的概率通常被设置为与跳转到任何其它网页的概率相等。所以,如果存在n个网页,则对每一网页的跳转概率被设置为1/n,这被称为跳转向量。PageRank因此基于仅依赖于当前网页的信息(例如,超链接)和跳转概率的马尔可夫随机游动。
web图可被表示为G=<V,E>,其中V={1,2,...,n}是顶点集合而E={<i,j>|i,j∈V}是边集合。可以通过邻接矩阵A表示网页之间的链接,其中当存在从源网页i到目标网页j的引出链接时将Aij设为一。网页j的重要性分数wj可以如以下表示:
wj=∑iAijwi    (1)
该等式可以通过基于下式的迭代计算来求解:
ATw=w    (2)
其中w是网页的重要性分数的向量,并且是AT的主特征向量。
如上所述,页面排名算法还可以将冲浪者可以随机选择要接下来访问的未由当前网页链接到的网页计算在内。因此,冲浪者可以以α的概率接下来访问当前网页的目标网页,而以1-α的概率接下来访问随机所选的网页。为了将网页的这种随机选择计算在内,页面排名算法通过使用它的元素的总和来归一化邻接矩阵的每一非零行来生成初始转移概率矩阵P。页面排名算法随后将矩阵P中的零行的每一元素设为1/n以生成转移概率矩阵P。表示对目标网页的链接的随机选择和对网页的随机选择的模型可如下表示:
P = = &alpha; P &OverBar; + ( 1 - &alpha; ) U - - - ( 3 )
其中
Figure G2008800209876D00022
是组合转移概率矩阵,而U是其中每一元素被设置为1/n的均匀概率分布矩阵。均匀概率分布矩阵U可通过如下表示地将跳转向量乘以单位向量来生成:
P ~ = &alpha;P + ( 1 - &alpha; ) e t v
其中e表示单位向量而v表示跳转向量。页面排名算法考虑转移概率矩阵
Figure G2008800209876D00024
的固定概率分布π=(π1,π2,…,πn)T以表示每一网页的重要性。页面排名算法可以通过如下表示的迭代过程来计算固定分布:
&pi; ( t + 1 ) = ( P = ) T &pi; ( t ) - - - ( 4 )
其中π(0)=(1,1,...,1)n T,t表示迭代计数,且迭代过程继续直到π收敛于一解。固定概率分布由主特征向量所表示,该主特征向量可使用标准幂()迭代技术来计算。
尽管页面排名技术可以是非常有用的,但部分地由于它是独立于查询的重要性度量,因此它尤其易受“链接垃圾信息”的欺诈。“垃圾信息”一般指的是被采取来不公正地增加网页或网站的排名、相关性、流行度、重要性等的故意的动作。在链接垃圾信息的情况下,垃圾信息发送者可操纵链接来不公正地增加网页的重要性。例如,垃圾信息发送者可以向具有有用信息的网页提供到垃圾网页的隐藏链接。在许多网页指向该有用信息时,该垃圾网页的重要性被间接地增加了。作为另一示例,诸如博客站点和web目录等许多网站允许访问者张贴链接。垃圾信息发送者可以张贴到其垃圾网页的链接以直接或间接地增加这些垃圾网页的重要性。作为另一示例,一组垃圾信息发送者可以建立其中他们的网站指向彼此的链接交换机制以增加垃圾信息发送者的网站的网页的重要性。
web垃圾信息给依赖于web数据的各种技术带来了问题。例如,部分基于网页的相关性、流行度、或重要性来对搜索结果定序的搜索引擎服务可能由于垃圾信息而使垃圾网页排得不公正的高。此类搜索引擎服务的用户在垃圾页面被排得不公正的高时可能失望且可能停止使用此搜索引擎服务。作为另一示例,web爬寻器可能花费宝贵时间来爬寻垃圾网站的链接,这增加了web爬寻的总体成本并可能减少其有效性。
概述
提供基于随着时间收集的一系列文档图的文档排名。排名系统通过包括基于之前文档图的文档的排名来基于文档图对文档进行排名。排名系统可提供多个指示在文档的集合内使用文档的链接从一个文档转移到另一文档的概率的转移概率分布。每一转移概率分布表示基于可在集合中的不同文档和这些文档之间的不同链接的概率。排名系统为第一转移概率分布确定初始固定概率分布以表示文档的排名。排名系统随后基于下一转移概率分布和初始固定概率分布来确定下一固定概率分布。排名系统可随后至少部分地基于下一固定概率分布对文档进行排名。可随后在对搜索结果的文档进行排名时或在其中需要文档的排名(重要性)的任何其它应用中使用文档的排名。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
图1是示出某些实施例中由排名系统随时间进行的对网页重要性的计算的框图。
图2是示出某些实施例中的排名系统的组件的框图。
图3是例示某些实施例中用于生成文档的排名的组件的处理的流程图。
图4是例示某些实施例中排名系统中生成页面排名组件的处理的流程图。
图5是例示某些实施例中排名系统中计算页面排名组件的处理的流程图。
详细描述
提供基于随时间作为不同的快照被收集的一系列文档图的文档排名。排名系统通过包括从之前的文档图导出的文档的排名来基于文档图对文档进行排名。在某些实施例中,排名系统提供多个指示在文档的集合内使用文档的链接从一个文档转移到另一文档的概率的转移概率分布。每一转移概率分布表示基于可在集合中的不同文档和这些文档之间的不同链接的概率。例如,在文档是网页时,排名系统从各时刻收集的web图导出转移概率分布。排名系统为第一转移概率分布确定初始固定概率分布以表示文档的排名。例如,排名系统可使用标准幂()迭代技术来标识第一转移概率分布的主特征向量以表示文档的排名。排名系统随后基于下一转移概率分布和初始固定概率分布来确定下一固定概率分布。例如,为确定下一固定概率分布,排名系统可将初始固定概率分布用作用于确定下一固定概率分布的跳转向量。排名系统可随后至少部分地基于下一固定概率分布对文档进行排名。因为下一固定概率分布的确定是基于初始固定概率分布的,所以排名系统将文档的初始排名包括在文档的下一排名内。因此,被初始固定概率分布排得高的文档将具有被下一固定概率分布排得较高的趋势。类似地,被初始固定概率分布排得不高的文档将具有被下一固定概率分布排得较低的趋势。在文档是网页时,在初始web图与下一web图的web的爬寻之间新引入的链接垃圾信息的效果可在某种程度上衰弱,因为被初始固定概率分布排得高的网页往往将继续被排得高。
图1是示出某些实施例中由排名系统随时间计算网页重要性的框图。排名系统以初始跳转向量v0 100和作为web的初始快照的初始web图G0 101开始。排名系统随后确定网页的初始排名π0 102。排名系统随后可以修改103(如下所述)排名π0以给出跳转向量v1 104。排名系统使用该跳转向量v1和作为web的第二快照的第二web图G1 105来确定网页的第二排名π1 106。排名系统随后可以修改107排名π1以给出跳转向量v2 108。排名系统对所有web图重复此过程。对最终web图Gn 112,排名系统修改110排名πn-1 109以给出跳转向量vn 111。排名系统使用跳转向量vn和最终web图Gn来确定网页的最终排名πn 113。
排名系统可以修改跳转向量以便为用户个性化它们、以考虑垃圾网页、以考虑web图中的改变等。排名系统可为每一用户个性化初始跳转向量v0。例如,排名系统可分析用户的历史以标识用户访问网页的频率。初始跳转向量可基于此历史(例如,点进数据)以便不使用链接访问网页的概率可基于用户访问网页的频率,而不是使用相等概率。由于排名系统使用不同web图对网页重新进行排名,初始的个性化将影响之后的排名。排名系统还可个性化除初始跳转向量之外的跳转向量。排名系统可修改之前的web图的排名以包括个性化。只要排名系统个性化或以其它方式修改跳转向量,它就可能需要归一化该跳转向量以确保其表示概率分布。
排名系统还可设置包括已知垃圾网页的初始跳转向量v0。例如,排名系统可将不使用链接而访问垃圾网页的概率设置为零以使访问垃圾网页的固定概率将较低,且因此垃圾网页的排名也将较低。一般而言,排名系统可基于排名系统所具有的网页实际是垃圾信息的置信度来降低被怀疑的垃圾网页的概率。例如,排名系统可仅稍微降低被标识为仅具有10%的置信度是垃圾网页的网页的概率且可以显著降低被标识为具有90%的置信度是垃圾网页的网页的概率。排名系统可调整任何之后的跳转向量以包括额外的垃圾信息。此外,排名系统可使用即为用户个性化又包括已知垃圾网页的跳转向量。
排名系统可调整跳转向量以包括新的和被移除的网页。每次爬寻web时,可能遇到新的网页(例如,网站增加了新的网页)且之前遇到过的网页可能不会再次遇到(例如,网站移除了网页)。为考虑新的和被移除的网页,排名系统可向跳转向量添加元素和从中移除元素,并设置其初始概率。排名系统随后归一化跳转向量以使其表示概率分布。
图2是示出某些实施例中的排名系统的组件的框图。排名系统210可经由通信链接260连接到搜索引擎服务器230、网页服务器240、以及最终用户计算设备250。搜索引擎服务器可提供被修改来基于由排名系统所提供的网页的排名来对搜索结果进行排名的常规搜索引擎服务。排名系统可向搜索引擎服务器提供网页的排名以用于搜索结果的排名。排名系统还可从网页服务器或搜索引擎服务器输入用户的点进数据,该点进数据用于个性化跳转向量。排名系统还可从垃圾检测系统输入网页被疑为垃圾网页的指示(未示出)。
排名体统可包括爬寻web组件211和web图存储212。爬寻web组件可周期性地爬寻web并生成由存储在web图存储中的邻接矩阵所表示的web图。例如,爬寻web组件可在每周或每月的基础上爬寻web。排名系统可归一化每一web图的邻接矩阵以为每一web图生成一转移概率分布矩阵。web图可仅表示web中与特定主题相关的部分。例如,爬寻web组件可聚焦于以某种方式相关于历史主题的网页以支持聚焦于历史主题的搜索引擎服务。
排名系统还包括排名子系统220,该排名子系统220包括生成页面排名组件221、初始化跳转向量组件222、计算页面排名组件223、以及页面排名存储224。生成页面排名组件调用初始化跳转向量组件来生成初始跳转向量。生成页面排名组件随后以初始web图开始选择每一web图,并调用计算页面排名组件以将所选web图的转移概率分布和从之前所选web图生成的固定概率分布作为跳转向量传递。计算出的页面排名随后被存储在页面排名存储中以供在为下一web图计算页面排名时使用。
在其上实现排名系统的计算设备可包括中央处理单元、存储器、输入设备(例如,键盘和定点设备)、输出设备(例如显示设备)和存储设备(例如,盘驱动器)。存储器和存储设备是可以用实现该排名系统的计算机可执行指令来编码的计算机可读介质,这意味着包含该指令的计算机可读介质。此外,指令、数据结构和消息结构可被存储或经由诸如通信链路上的信号之类的数据传送介质发送。可以使用各种通信链路,诸如因特网、局域网、广域网、点对点拨号连接、蜂窝电话网络等。
该系统的实施例可以在各种操作环境中实现并由其使用,这些操作环境包括个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、数码相机、网络PC、小型计算机、大型计算机、包括任何上述系统或设备中任一种的计算环境等。
该排名系统可以在由一个或多个计算机或其他设备执行的诸如程序模块等计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。通常,程序模块的功能可以在各个实施例中按需进行组合或分布。例如,与实现排名系统的计算系统分开的计算系统可以爬寻web并为web图生成邻接矩阵和转移概率分布矩阵。作为另一示例,排名系统可被主存在与搜索引擎服务或链接垃圾检测系统相同的计算系统上。同样,搜索引擎可被主存在单独的计算系统上。
图3是例示某些实施例中用于生成文档的排名的组件的处理的流程图。在框301,组件提供第一和第二文档图(例如,表示web的不同快照的web图)。在框302,组件使用第一文档图来确定文档的第一排名。第一排名的确定可包括文档的初始排名(例如,跳转向量)。在框303,组件使用第二文档图和在框302中生成的文档的第一排名来确定文档的第二排名。组件随后以表示文档的重要性或静态排名的第二排名来完成。
图4是例示某些实施例中排名系统中生成页面排名组件的处理的流程图。该组件循环选择每一web图并使用web图的转移概率分布和从之前web图的固定概率分布导出的跳转向量来确定其固定概率分布。在框401,该组件初始化初始跳转向量。在框402,组件选择下一web图。在判定框403,如果所有web图都已被选择,则该组件完成,否则该组件在框404处继续。在框404,组件调用计算页面排名组件来使用从之前的web图的页面排名导出的跳转向量以便为所选web图计算页面排名或固定概率分布。在框405,组件基于当前页面排名为下一web图设置跳转向量。组件随后循环至框402以选择下一web图。组件可在框405中设置跳转向量以包括用户的浏览历史、被怀疑的垃圾网页、新的和移除的网页等。
图5是例示某些实施例中排名系统中计算页面排名组件的处理的流程图。本领域的技术人员可以理解,因为固定概率分布可由主特征向量表示,所以可使用用于标识主特征向量的各种公知技术中的任何一种。在此实施例中,该组件使用标准幂()迭代技术来计算固定概率分布。在框501,该组件在每一迭代处初始化索引固定概率分布的变量并初始化初始固定概率分布。在框502,该组件递增到下一迭代。在框503,组件将web图的概率分布矩阵(即,包括转移概率分布和从跳转向量导出的概率分布)乘以在上一迭代期间计算出的固定概率分布。在判定框504,如果满足终止条件,则组件将固定概率分布作为网页的排名返回,否则组件循环至框502以开始下一迭代。终止条件可基于特定的迭代次数、固定概率分布收敛于一解(例如,两个连续迭代的固定概率分布之间的差小于收敛阈值)等。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。本领域的技术人员可以理解,文档可以包括任何包含链接或以其它方式标识其它内容的信息内容。例如,文档可以是具有到其它网页的链接的网页、具有对其它学术文章的引用的学术文章、具有对其它司法意见的引用的司法意见、具有对其它专利的引用的专利等等。文档的排名可在许多应用中使用,如基于网页的重要性来指示web爬寻、基于网页的排名来对网站进行排名、推荐网页和网站等。因此,本发明只由所附权利要求来限制。

Claims (20)

1.一种计算设备中的用于对具有文档之间的链接的文档进行排名的方法,所述方法包括:
提供(301)第一文档图和第二文档图;
基于所述第一文档图确定(302)所述文档的第一排名;以及
基于所述第二文档图和基于所述第一文档图的所述文档的第一排名来确定(303)所述文档的第二排名。
2.如权利要求1所述的方法,其特征在于:
提供包括提供指示使用链接从一个文档转移到另一文档的概率的第一和第二转移概率分布;
所述第一排名的确定包括基于指示转移到每一文档的固定概率的第一转移概率分布来确定第一固定概率分布;以及
所述第二排名的确定包括基于所述第二转移概率分布和所述第一固定概率分布来确定第二固定概率分布,其中所述第二固定概率分布表示所述文档的排名。
3.如权利要求2所述的方法,其特征在于,所述第二固定概率分布的确定将所述第一固定概率分布用作转移到每一文档而不使用链接的概率的指示。
4.如权利要求2所述的方法,其特征在于,所述第一固定概率分布的确定还基于转移到每一文档而不使用链接的初始概率分布。
5.如权利要求4所述的方法,其特征在于,所述初始概率分布至少部分地基于用户访问文档的历史。
6.如权利要求4所述的方法,其特征在于,所述初始概率分布至少部分地基于文档被认作垃圾信息。
7.如权利要求2所述的方法,其特征在于,所述文档是网页且所述转移概率分布基于所述网页之间的链接而被生成。
8.一种包含用于控制计算设备通过一方法对网页进行排名的指令的计算机可读介质,所述方法包括:
提供(212)在不同时间收集的web图,web图表示网页和网页之间的链接;以及
对按时间次序的web图,基于转移到每一网页的概率生成(221)所述网页的排名,所述转移到每一网页的概率基于使用如所述web图所示的链接从每一网页转移到每一其它网页的概率和下次访问每一网页而不使用链接的概率,其中下次访问的概率基于以较早时间的web图为基础的网页的排名。
9.如权利要求8所述的计算机可读介质,其特征在于,web图的网页的排名的生成使用其中转移的概率从自所述web图导出的邻接矩阵中导出且下次访问每一网页而不使用链接的概率是跳转向量的页面排名算法。
10.如权利要求9所述的计算机可读介质,其特征在于,所述跳转向量从基于较早时间的web图的网页的排名中导出。
11.如权利要求10所述的计算机可读介质,其特征在于,至少部分地基于用户访问文档的历史来修改所述跳转向量。
12.如权利要求10所述的计算机可读介质,其特征在于,至少部分地基于网页被认作垃圾信息来修改所述跳转向量。
13.如权利要求8所述的计算机可读介质,其特征在于,所述网页的排名基于从所述转移的概率和所述下次访问的概率中导出的固定概率分布。
14.如权利要求8所述的计算机可读介质,其特征在于,包括接收搜索请求的搜索结果,所述搜索结果标识相关于所述搜索请求的网页,且至少部分地基于所生成的网页的排名对所述搜索结果的网页进行排名。
15.如权利要求14所述的计算机可读介质,其特征在于,所述搜索结果的网页的排名使用所生成的从最新近的web图导出的网页的排名。
16.一种用于对具有网页之间的链接的网页进行排名的计算设备,包括:
具有指示使用当前被访问的网页的链接来从一个网页转移到另一网页的概率的第一和第二转移概率分布的转移概率分布存储(212);
指示下次访问每一网页而不使用当前被访问的网页的链接的概率的初始跳转向量;
用于基于所述第一转移概率分布和所述初始跳转向量来确定第一固定概率分布并基于所述第二转移概率分布和从所述第一固定概率分布导出的跳转向量来确定第二固定概率分布的组件(220);以及
至少部分地基于确定所述第二固定概率分布来对搜索结果的网页进行排名的组件(230)。
17.如权利要求16所述的计算设备,其特征在于,所述跳转向量至少部分地基于用户访问文档的历史。
18.如权利要求16所述的计算设备,其特征在于,所述跳转向量至少部分地基于网页被认作垃圾信息。
19.如权利要求16所述的计算设备,其特征在于,包括以基于所述搜索结果的网页的排名的次序来显示所述搜索结果的网页的指示的组件。
20.如权利要求16所述的计算设备,其特征在于,所述第一和第二转移概率分布从在不同时间收集的web图生成。
CN2008800209876A 2007-06-18 2008-06-18 基于一系列文档图对文档进行排名 Active CN101711389B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/764,554 US8244737B2 (en) 2007-06-18 2007-06-18 Ranking documents based on a series of document graphs
US11/764,554 2007-06-18
PCT/US2008/067325 WO2008157595A1 (en) 2007-06-18 2008-06-18 Ranking documents based on a series of document graphs

Publications (2)

Publication Number Publication Date
CN101711389A true CN101711389A (zh) 2010-05-19
CN101711389B CN101711389B (zh) 2013-07-31

Family

ID=40133303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800209876A Active CN101711389B (zh) 2007-06-18 2008-06-18 基于一系列文档图对文档进行排名

Country Status (4)

Country Link
US (1) US8244737B2 (zh)
EP (1) EP2174246A4 (zh)
CN (1) CN101711389B (zh)
WO (1) WO2008157595A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9110975B1 (en) 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US8577866B1 (en) * 2006-12-07 2013-11-05 Googe Inc. Classifying content
US8983970B1 (en) 2006-12-07 2015-03-17 Google Inc. Ranking content using content and content authors
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8368698B2 (en) * 2008-09-24 2013-02-05 Microsoft Corporation Calculating a webpage importance from a web browsing graph
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US20100318531A1 (en) * 2009-06-10 2010-12-16 Microsoft Corporation Smoothing clickthrough data for web search ranking
US9213780B2 (en) * 2009-06-26 2015-12-15 Microsoft Technology Licensing Llc Cache and index refreshing strategies for variably dynamic items and accesses
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US20110238686A1 (en) * 2010-03-24 2011-09-29 Microsoft Corporation Caching data obtained via data service interfaces
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
WO2012129102A2 (en) * 2011-03-22 2012-09-27 Brightedge Technologies, Inc. Detection and analysis of backlink activity
US9129214B1 (en) * 2013-03-14 2015-09-08 Netflix, Inc. Personalized markov chains
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9965521B1 (en) 2014-02-05 2018-05-08 Google Llc Determining a transition probability from one or more past activity indications to one or more subsequent activity indications
US9338489B2 (en) 2014-04-23 2016-05-10 Netflix, Inc. Recommending media items based on take rate signals
CN103995893A (zh) * 2014-06-04 2014-08-20 深圳市腾讯计算机系统有限公司 一种浏览器中的快链推荐方法、装置和系统
US9934466B2 (en) * 2014-07-30 2018-04-03 Oath Inc. Enhanced personalization in multi-user devices
EP3281122A4 (en) * 2015-07-24 2018-04-25 Samsung Electronics Co., Ltd. Method for automatically generating dynamic index for content displayed on electronic device
US10558429B2 (en) * 2016-08-24 2020-02-11 International Business Machines Corporation Switching matrix representation for an incremental algorithm computing connected components
US10366368B2 (en) * 2016-09-22 2019-07-30 Microsoft Technology Licensing, Llc Search prioritization among users in communication platforms
US20210304039A1 (en) * 2020-03-24 2021-09-30 Hitachi, Ltd. Method for calculating the importance of features in iterative multi-label models to improve explainability

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6112203A (en) 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
WO2000016210A1 (en) * 1998-09-17 2000-03-23 Nexchange Corporation Affiliate commerce system and method
US6792418B1 (en) * 2000-03-29 2004-09-14 International Business Machines Corporation File or database manager systems based on a fractal hierarchical index structure
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US7398271B1 (en) * 2001-04-16 2008-07-08 Yahoo! Inc. Using network traffic logs for search enhancement
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US7089252B2 (en) * 2002-04-25 2006-08-08 International Business Machines Corporation System and method for rapid computation of PageRank
US7792827B2 (en) 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
US7509344B1 (en) * 2003-08-18 2009-03-24 Google Inc. Method for detecting link spam in hyperlinked databases
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050076003A1 (en) 2003-10-06 2005-04-07 Dubose Paul A. Method and apparatus for delivering personalized search results
US7464075B2 (en) 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings
US20060294124A1 (en) * 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7716223B2 (en) 2004-03-29 2010-05-11 Google Inc. Variable personalization of search results in a search engine
US20050234877A1 (en) 2004-04-08 2005-10-20 Yu Philip S System and method for searching using a temporal dimension
US7251654B2 (en) * 2004-05-15 2007-07-31 International Business Machines Corporation System and method for ranking nodes in a network
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US20060036598A1 (en) * 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US8255413B2 (en) 2004-08-19 2012-08-28 Carhamm Ltd., Llc Method and apparatus for responding to request for information-personalization
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US7467349B1 (en) * 2004-12-15 2008-12-16 Amazon Technologies, Inc. Method and system for displaying a hyperlink at multiple levels of prominence based on user interaction
US7797344B2 (en) * 2004-12-23 2010-09-14 Become, Inc. Method for assigning relative quality scores to a collection of linked documents
US7747632B2 (en) 2005-03-31 2010-06-29 Google Inc. Systems and methods for providing subscription-based personalization
US7577651B2 (en) 2005-04-28 2009-08-18 Yahoo! Inc. System and method for providing temporal search results in response to a search query
US8606781B2 (en) 2005-04-29 2013-12-10 Palo Alto Research Center Incorporated Systems and methods for personalized search
US7805113B2 (en) 2005-06-30 2010-09-28 Cypress Semiconductor Corporation Circuit and method for selectable high/low side injection in an intermediate frequency transceiver
US8069182B2 (en) * 2006-04-24 2011-11-29 Working Research, Inc. Relevancy-based domain classification
US7739275B2 (en) * 2006-05-19 2010-06-15 Yahoo! Inc. System and method for selecting object metadata evolving over time
US7624104B2 (en) * 2006-06-22 2009-11-24 Yahoo! Inc. User-sensitive pagerank
US7593935B2 (en) * 2006-10-19 2009-09-22 Paxfire Methods and systems for node ranking based on DNS session data

Also Published As

Publication number Publication date
EP2174246A1 (en) 2010-04-14
EP2174246A4 (en) 2011-10-12
WO2008157595A1 (en) 2008-12-24
US20080313168A1 (en) 2008-12-18
US8244737B2 (en) 2012-08-14
CN101711389B (zh) 2013-07-31

Similar Documents

Publication Publication Date Title
CN101711389B (zh) 基于一系列文档图对文档进行排名
US7676520B2 (en) Calculating importance of documents factoring historical importance
US9171078B2 (en) Automatic recommendation of vertical search engines
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US20100241647A1 (en) Context-Aware Query Recommendations
CN101652773B (zh) 前瞻文档排名系统
Shmueli-Scheuer et al. Extracting user profiles from large scale data
US20090276729A1 (en) Adaptive user feedback window
RU2720954C1 (ru) Способ и система построения поискового индекса с использованием алгоритма машинного обучения
US7974957B2 (en) Assessing mobile readiness of a page using a trained scorer
KR20120026682A (ko) 이동통신 단말기에서 인터넷 서비스 제공 방법 및 장치
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
Tahery et al. Customized query auto-completion and suggestion—A review
Chauhan et al. Web page ranking using machine learning approach
Baker et al. A novel web ranking algorithm based on pages multi-attribute
KR101180371B1 (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템
Sharma et al. An efficient semantic clustering of URLs for web page recommendation
CA3096119A1 (en) System and method for link prediction with semantic analysis
CN114741587A (zh) 一种物品推荐方法、装置、介质及设备
Mittal et al. Evaluation of websites’ performance and search engine optimization: a case study of 10 Indian University Websites
Vishwakarma et al. Web user prediction by: integrating Markov model with different features
HewaNadungodage et al. A GPU-oriented online recommendation algorithm for efficient processing of time-varying continuous data streams
Thakur et al. Performance based novel techniques for semantic web mining
Adhiya et al. AN EFFICIENT AND NOVEL APPROACH FOR WEB SEARCH PERSONALIZATION USING WEB USAGE MINING.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150507

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150507

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.