CN101390096A - 使用传播的文档相关性来训练排名功能 - Google Patents

使用传播的文档相关性来训练排名功能 Download PDF

Info

Publication number
CN101390096A
CN101390096A CNA2007800067137A CN200780006713A CN101390096A CN 101390096 A CN101390096 A CN 101390096A CN A2007800067137 A CNA2007800067137 A CN A2007800067137A CN 200780006713 A CN200780006713 A CN 200780006713A CN 101390096 A CN101390096 A CN 101390096A
Authority
CN
China
Prior art keywords
document
assembly
correlativity
algorithm
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800067137A
Other languages
English (en)
Other versions
CN101390096B (zh
Inventor
王珏
李明敬
马韦莹
李智伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101390096A publication Critical patent/CN101390096A/zh
Application granted granted Critical
Publication of CN101390096B publication Critical patent/CN101390096B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随后可以被用于训练排名功能。

Description

使用传播的文档相关性来训练排名功能
背景
如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬行(crawl)”web(即,万维网)来标识每一网页的关键词来生成。为爬行web,搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排名的顺序显示给用户。
用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要网页的链接(即,“引出链接”)的原理。因而,网页重要性基于链接到该网页(即,“引入链接”)的其它网页的数量与重要性。用简单形式,网页之间的链接可以由邻接矩阵A表示,其中Aij表示从网页i到网页j的引出链接的数量。网页wj的重要性分数j可以由以下等式表示:
wj=∑iAijwi
该等式可以通过基于下面的等式的迭代计算来求解:
ATw=w
其中w是网页的重要性分数的向量,并且是AT的主本征向量。
HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重要的原理。因而,HITS将网页的“重要性”分成两个相关属性:“中心(hub)”和“权威(authority)”。“中心”是由网页所链接到的网页的“权威”分数来测量的,而“权威”是由链接到该网页的网页的“中心”分数测量的。与独立于查询来计算网页重要性的PageRank相比,HITS基于结果的网页和通过跟随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索引擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加作为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心分数可以由以下等式来表示:
a ( p ) = Σ q → p h ( q ) h ( p ) = Σ p → q a ( q )
其中a(p)表示网页p的权威分数而h(p)表示网页p的中心分数。HITS使用邻接矩阵A来表示这些链接。邻接矩阵由以下等式表示:
Figure A200780006713D00063
向量a和h分别对应于该集合中所有网页的权威和中心分数,并且可以用以下等式表示:
a=ATh和h=Aa
因而,a和h是矩阵ATA和AAT的本征向量。HITS还可被修改来将按访问数量测量的网页的流行度计算在内。基于对点进数据的分析,每当用户从网页i移动至网页j时就增加邻接矩阵的bij
DirectHIT基于过去的具有类似查询的结果的用户历史对网页排名。例如,如果提交类似查询的用户通常首先选择结果的第三个网页,则该用户历史会是第三个网页的排名应更高的指示。作为另一示例,如果提交类似查询的用户通常首先花费最多的时间查看结果的第四个网页,则该用户历史会是第四个网页的排名应更高的指示。DirectHIT从点进数据的分析中导出这些用户历史。
某些排名技术使用机器学习算法从包括查询、表示页面的特征向量和对于每一查询的每一页面排名的训练数据中学习排名功能。排名功能用作从页面特征到其对于一给定查询的排名的映射。排名功能的学习被某些人认为是对于学习特征向量到已排序数值排名集合的一个成员的映射的回归问题。某些基于回归的技术试图提供可被用来对页面排名的绝对相关性分数。然而,排名功能不必提供绝对相关分数而仅仅需要提供页面的相对排名。因而,这些基于回归的技术解决比所需更困难的问题。
用于排名功能的机器学习算法使用查询、特征向量和用户标记的相关性分数作为训练数据。为生成该训练数据,可以将查询提交给生成搜索结果的页面的搜索引擎。算法随后为这些页面生成特征向量并从用户输入每一页面的相关性分数。这种方法的一个难点是搜索引擎可以返回上百个页面作为其搜索结果。用户标记搜索结果的所有页面的代价很高。此外,用户准确评估这么大数量的页面的相关性是困难的。虽然用户可以只标记页面的一小部分,但是基于这一小部分的学习可能不能提供准确的排名功能。
概述
提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的相关性的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随后可以用于训练排名功能。
提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
图1是示出文档图的一部分的图。
图2是示出一实施例中传播系统的组件的框图。
图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。
图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。
图5是示出一实施例中传播系统的构建图组件的处理的流程图。
图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。
图7是示出一实施例中传播系统的归一化图权重组件的处理的流程图。
图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的流程图。
详细描述
提供了用于将对于一查询的已标记文档的相关性传播至未标记文档的方法和系统。在一实施例中,该传播系统提供包括查询、以其对这些查询的相关性标记的文档(由特征向量所表示)和未标记文档的训练数据。例如,传播系统可以向搜索引擎提交查询并将搜索结果用作文档(例如,网页)。传播系统随后可以提示用户基于其与查询的相关性来标记搜索结果中的某些文档。传播系统随后计算训练数据中文档对之间的相似性。例如,该传播系统可以用特征向量表示每一文档并且可以基于特征空间中的欧几里得距离或基于余弦相似性度量来计算文档之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记,直到其收敛于一解。具有所传播的相关性的训练数据随后可以用于训练排名功能。以此方式,传播系统可以基于文档之间的相似性用附加的训练数据来自动扩充训练数据。
在一实施例中,传播系统使用文档图来表示文档,该图中的每一节点表示一个文档且每一边表示由所连接的节点表示的文档之间的相似性。传播系统可以将该图表示为对每一文档有一行和一列的方阵,该方阵中每一非0值指示该行的节点和该列的节点之间的一条边。传播系统可以使用各种技术来图定义边。例如,传播系统可以认为图形是全连接的,在这种情况下每一节点具有到所有其它节点的边。作为另一示例,传播系统可以认为节点通过最小生成树来连接。在一个实施例中,传播系统认为节点使用k最近邻居算法来连接。具体地,传播系统为每一节点标识k最近邻居并添加从该节点到其k个最近邻居中的每一个的边。传播系统随后基于由所连接的边表示的文档之间相似性来为这些边计算权重。传播系统可以使用各种技术来确定文档之间的相似性。在一实施例中,传播系统使用特征空间中的基于文档的特征向量表示的欧几里得距离度量。传播系统将相似性存储为方阵的值,从而得到相似性或仿射矩阵。传播系统还可以归一化该相似性矩阵。传播系统还可以将对角值设置为0以防止相关性传播期间的自强化(self-reinforcement)。
生成相似性矩阵之后,传播系统使用基于流形排名的传播算法将已标记文档的相关性传播至未标记的文档。基于流形排名的算法在He,J.,Li,M.,Zhang,H.J.等人的"Manifold-Ranking Based Image Retrieval",2004年第12届ACM国际会议多媒体方向(the 12th Annual ACM International Conf.onMultimedia,2004)会刊中有描述。传播系统最初将已标记文档的相关性设置为用户所提供的相关性分数并将未标记的文档的相关性分数设置为0。传播系统随后将由相似性矩阵所指示的相似性计算在内,将已标记文档的相关性传播至其相连的未标记文档。传播系统迭代地传播相关性分数,直到相关性分数收敛于一解。未标记文档的所得的相关性分数与其与已标记文档相同的查询相关的概率成比例。与许多具有高相关性分数的已标记文档非常相似的未标记文档因而具有高相关性分数。相反,与任何已标记文档都不非常相似的未标记文档具有低相关性分数。
传播系统可以使用可由如下方程表示的拉普拉斯核来表示相似性:
k L ( x i , x j ) = Π l = 1 t 1 2 σ l exp ( - | x il - x jl | / σ l ) - - - ( 1 )
其中xil和xjl分别表示xi和xj的第1维,t表示特征空间的维数,而σl表示反映相似性计算中不同维的权重的正参数。因而,传播系统以如下方程表示边的权重:
W ij = k L ( x i , x j ) = Π l = 1 t exp ( - | x il - x jl | / σ l ) - - - ( 2 )
其中,Wij表示文档i和j之间的相似性。由于常数系数1/2σl对相似性矩阵W的影响会被矩阵的归一化所抵消,故传播系统将其省略。传播系统如由以下方程所表示地归一化相似性矩阵:
S=D-1/2WD-1/2        (3)
其中,S表示归一化的相似性矩阵而D表示对角矩阵,其中(i,i)等于相似性矩阵W的第i行的和。该归一化将相似性归一化为相关于所连接的文档的相似性。
传播系统可以将每一文档表示为形成欧几里得空间中的一点的t维特征向量x。对于一个查询,传播系统接收文档的结果集
Figure A200780006713D00093
前m点(特征空间中)表示用户标记的文档,而后n点(特征空间中)表示未标记的文档。传播系统还接收相对应的标记向量γ=[yl1,yl2,...,ylm,0,0,...,0]T。后n个标记具有为0的值以表示未标记文档。传播系统还可以允许指定负标记,而不仅仅是正标记,以表示负相关示例。传播系统将特征空间中文档之间的距离表示为这对每一对点xi和xj分配一距离d(xi,xj),并将文档的排名函数表示为
Figure A200780006713D00102
这向每一点xi分配了排名分数fi。排名功能学习问题是从一组具有特征X={χq}和标记Y={γq}的查询中学习
Figure A200780006713D00103
传播系统通过如下方程表示相关性传播的限制:
f*=(1-α)(I-αS)-1y     (4)
其中,f*表示相关性的限制,y表示初始标记,而α表示衰减因子。因为计算归一化的相似性矩阵S的逆在计算上是困难的,所以传播系统使用泰勒级数展开来逼近f*。传播系统通过如下方程表示该泰勒级数展开:
f*=(I-αS)-1y
  =(I+αS+α2S2+...)y
  =y+αSy+αS(αSy)+...            (5)
传播系统迭代地求解f*,直到其收敛于一解或迭代了固定次数。
相关性被传播之后,传播标记的系统可以使用训练数据集(查询和已标记特征向量)来训练排名功能。排名功能可以被实现为支持向量机、自适应增强分类器(boosting classifier)、神经网络分类器等等。支持向量机通过在可能的输入的空间中寻找超曲面来操作。超曲面尝试通过将正和负示例中最接近的两个之间的距离最大化到该超曲面来从负示例中分出正示例。这允许相似于但不同于训练数据的数据的正确的分类。可使用各种技术来训练支持向量机。一种技术使用将大二次规划问题分解成一系列可被分析上解决的小二次规划问题的顺序最小优化算法。(请参考http://research.microsoft.com/~jplatt/smo.html上的顺序最小优化。)
自适应增强是在训练数据的集合上运行多次测试的迭代过程。自适应增强将弱学习算法(仅以比偶然性稍好的级别执行的算法)变换成强学习算法(显示低误差率的算法)。弱学习算法在训练数据的不同子集上运行。该算法越来越专注于其前导倾向于显示错误的那些示例。该算法校正由早先的弱学习算法所造成的误差。因为其调整其前导的误差率,因此该算法是自适应的。自适应增强组合粗略和适度地不准确的经验法则以创建高性能算法。自适应增强将各独立运行测试的结果组合成单个、非常准确的分类器。
神经网络模型具有三个主要组件:架构、成本函数和搜索算法。架构定义将输入和输出相关的功能形式(按照网络拓扑、单元连通度和激活功能)。训练过程是在权重空间中搜索最小化目标函数的一组权重。神经网络模型可以使用径向基函数(“RBF”)网络并用标准梯度下降作为其搜索技术。
图1是示出作为查询的搜索结果返回的文档图的图示。在该示例中,子图100表示搜索结果中所返回的文档的一部分。节点101-112表示搜索结果的12个文档。节点101和106表示已标记文档。由节点101所表示的文档用相关性分数.75标记,而由节点106所表示的文档用相关性分数.6标记。传播系统使用最近邻居算法生成节点之间的边。在该示例中,节点102、103和104是节点101的k个最近邻居中的每一个,但节点105-112不是k个最近邻居中的一个。传播系统随后使用相似分数算法计算所连接的节点之间的相似性。例如,节点101以具有指示所连接的节点之间的相似性的权重8的边连接到节点102。
图2是示出一实施例中的传播系统的组件的框图。传播系统230通过通信链路220(例如,因特网)连接到文档存储210(例如,网站)。传播系统包括收集训练数据组件231、训练数据存储232和文档索引233。文档索引包含文档存储中的文档(例如,网页)的索引。该文档索引可由web爬行器生成。文档索引可以包括用以训练排名功能的每一文档的特征向量。这些特征向量可以表示文档的许多不同类型的特征,如逆文档频率、关键字、字体大小等等。收集训练数据组件向搜索引擎(未示出)提交查询,并接收匹配这些查询的文档。搜索引擎可以独立于传播系统。在这种情况下,传播系统可以从搜索结果中动态地生成特征向量。收集训练数据组件可以提示用户标记匹配这些查询的文档中的某一些的相关性。收集训练数据组件将查询、搜索结果(例如,特征向量)和标记存储在训练数据存储中。传播系统还包括传播相关性组件235、构建图组件236、生成图权重组件237、归一化图权重组件238和基于图传播相关性组件239。传播相关性组件将已标记文档的相关性传播至存储于训练数据存储中的未标记文档。传播相关性组件调用构建图组件以构建包括表示搜索结果的文档的边的图。传播相关性组件随后调用生成图权重组件来为图的各边生成初始权重。传播相关性组件调用归一化图权重组件来归一化所生成的权重。传播相关性组件随后调用基于图传播相关性组件以执行从已标记文档到未标记文档的相关性的实际传播。传播系统还包括创建排名功能组件241和排名功能242。创建排名功能使用具有所传播的相关性的训练数据来创建排名功能。
其上可以实现传播系统的计算设备可以包括中央处理单元、存储器、输入设备(例如,键盘和定点设备)、输出设备(例如,显示设备)和存储设备(例如,盘驱动器)。存储器和存储设备是可以包含实现传播系统的指令的计算机可读介质。此外,数据结构和消息结构可被存储或经由诸如通信链路上的信号之类的数据传输介质发送。可以使用各种通信链路,如因特网、局域网、广域网或点对点拨号连接。
传播系统可以向各种计算系统或设备提供服务,包括个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括任一上述系统或设备的分布式计算环境等等。
传播系统可以在诸如程序模块等由一个或多个计算机或其他设备执行的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。通常,程序模块的功能可以在各个实施例中按需进行组合或分布。
图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。创建排名功能组件收集训练数据,将已标记文档的相关性传播至未标记文档,并随后训练一排名功能。在框301,该组件收集训练数据。在框302,该组件为训练数据的一个子集输入标记。在框303,该组件调用传播相关性组件以将已标记文档的相关性传播至未标记文档。在框304,该组件使用该传播的相关性来训练排名功能。
图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。该组件被提供训练数据并将已标记文档的相关性传播至未标记文档。在框401,该组件调用构建图组件以构建包括边的初始图。在框402,该组件调用生成图权重组件以生成指示由连接的节点所表示的文档之间的相似性的权重。在框403,该组件调用归一化图权重组件以归一化图的权重。在框404,该组件调用基于图传播相关性组件以执行相关性的传播。随后该组件完成。
图5是示出一实施例中传播系统的构建图组件的处理的流程图。该组件创建每一行和列表示一文档的方阵。该组件随后在每一节点和其k个最近邻居(例如,k=10)之间标识并添加连接。在框501,该组件选择下一个文档i。在判定框502,如果已经选择了所有文档i,则该组件返回,否则该组件继续至框503。在框503,该组件选择下一个文档j。在判定框504,如果已为所选文档i选择了所有的文档j,则该组件继续至框506,否则该组件继续至框505。在框505,该组件计算所选文档i和所选文档j之间的距离,并随后循环至框503以选择下一文档j。在框506,该组件选择具有对于文档i的最小距离的10个文档j(即,最近的邻居),并随后循环至框501以选择下一文档i。
图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。该组件基于曼哈顿(Manhattan)度量计算连接的节点之间的相似性。在框601,该组件选择下一个文档i。在判定框602,如果已经选择了所有文档i,则该组件返回,否则该组件继续至框603。在框603,该组件将文档与其自身的相似性初始化为0。在框604,该组件选择对所选文档i的下一最近文档j(例如,一连接的文档)。在判定框605,如果已选择了对于所选文档i的所有最近文档j,则该组件循环至框601以选择下一文档i,否则该组件继续至框606。在框606,该组件将所选文档i和所选文档j之间的相似性初始化为1。在框607-609,该组件循环计算距离度量。在框607,该组件选择特征向量的下一维l。在判定框608,如果已经选择了所有维,则该组件循环至框604以选择下一个最近文档j,否则该组件继续至框609。在框609,该组件根据方程2将所选文档i和所选文档j之间的相似性设置为其当前相似性乘以所选文档i和所选文档j的所选特征l之间的差异的函数。该组件随后循环至框607以选择下一维。
图7是示出一个实施例中传播系统的归一化图权重组件的处理的流程图。该组件归一化相似性矩阵的权重。在框701,该组件选择相似性矩阵的下一行i。在判定框702,如果已选择了所有行,则该组件继续至框706,否则该组件继续至框703。在框703-705,该组件计算对角矩阵D的所选行的值。在框703,该组件选择相似性矩阵的下一列j。在判定框704,如果已经选择了所有列,则该组件循环至框701以选择下一行,否则该组件继续至框705。在框705,该组件将所选行i和所选列j的权重添加至所选行i的对角元素。该组件随后循环至框703以为所选行i选择下一列j。在框706,该组件根据方程3归一化相似性矩阵。
图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的流程图。该组件迭代地计算方程5的泰勒级数展开,直到其收敛于一解。在框801,该组件将索引i初始化为0。在框802,该组件将解向量初始化为0。在框803-805,该组件循环直到其收敛于一解。在框803,该组件基于前一迭代的值加上泰勒级数展开的下一因子计算下一迭代的值。在判定框804,如果各值收敛于一解,则该组件返回,否则该组件继续至框805。在框805,该组件将索引递增至下一迭代,并循环至框803以执行下一迭代。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作作为实现权利要求的示例形式公开的。传播系统可以被用来扩充搜索结果。例如,搜索引擎可以基于某一文档语料库来生成搜索结果。随后可以使用该传播系统将搜索结果的文档的相关性传播至不同语料库。具有最高相关性的不同语料库的文档随后可以被添加至搜索结果中。传播系统可以被用来从以其对于一查询的相关性来标记的文档到未标记文档来传播相关性(查询内传播),或从以其对于多个查询的相关性来标记的文档到未标记文档来传播相关性(查询间传播)。该传播组件为每一查询用查询内传播单独训练该训练组件并同时用查询间传播为多个查询训练该训练组件。因此,本发明只由所附权利要求来限制。

Claims (20)

1.一种用于训练文档排名组件的系统,包括:
包含训练数据的训练数据存储(232),所述训练数据包括文档的表示,以及对于多个查询中的每一查询,用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记;
基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235);以及
训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。
2.如权利要求1所述的系统,其特征在于,所述文档排名组件实现选自由神经网络算法、自适应增强算法和支持向量机算法所组成的组的分类算法。
3.如权利要求1所述的系统,其特征在于,所述文档排名组件实现基于回归的算法。
4.如权利要求1所述的系统,其特征在于,所述传播相关性组件为每一查询单独传播相关性,且所述训练组件使用所述单独传播的相关性来训练所述文档排名组件。
5.如权利要求1所述的系统,其特征在于,所述传播相关性组件同时为多个查询传播相关性,且所述训练组件使用所述同时传播的相关性来训练所述文档排名组件。
6.如权利要求1所述的系统,其特征在于,包括创建其中文档被表示为由表示文档之间的相似性的边所连接的节点的图的图组件。
7.如权利要求6所述的系统,其特征在于,所述图组件包括:
构建其中表示相似文档的节点通过边进行连接的图的构建图组件;以及
基于由所述连接的节点所表示的文档的相似性为所述边生成权重的生成权重组件。
8.如权利要求7所述的系统,其特征在于,所述构建图组件使用最近邻居算法在节点之间建立边。
9.如权利要求1所述的系统,其特征在于,所述传播相关性组件使用基于流形排名的算法来传播相关性。
10.一种包含用于控制计算机系统以一种方法来训练文档排名组件的指令的计算机可读介质,所述方法包括:
提供(232)文档的表示以及对所述文档中的某一些的的标记,所述标记指示文档对于一查询的相关性;
创建(236)其中文档被表示为由边连接的节点的图,所述边表示由所述连接的节点表示的文档之间的相关性;
根据由所创建的图形所指示的文档之间的相似性并根据基于流形排名的算法将已标记文档的相关性传播(239)至未标记文档;以及
训练(241)文档排名组件以基于所述文档的所传播的相关性来对文档对于查询的相关性排名。
11.如权利要求10所述的计算机可读介质,其特征在于,所述文档排名组件实现选自贝叶斯网络算法、自适应增强算法和支持向量机算法所组成的组中的分类算法。
12.如权利要求10所述的计算机可读介质,其特征在于,所述文档排名组件实现基于回归的排名算法。
13.如权利要求10所述的计算机可读介质,其特征在于,所述相关性的传播为每一查询单独传播相关性,且所述文档排名组件的训练使用所述单独传播的相关性来训练。
14.如权利要求10所述的计算机可读介质,其特征在于,所述传播相关性组件传播相关性〔查询间传播〕。
15.如权利要求10所述的计算机可读介质,其特征在于,图的创建包括:
构建其中表示相似文档的节点通过边进行连接的图;以及
基于由所述连接的节点所表示的文档的相似性为所述边生成权重。
16.一种用于训练文档排名组件的系统,包括:
提供文档的表示以及对所述文档中的某一些的标记的组件(231),所述标记指示所述文档对于查询的相关性;
创建其中文档被表示为由边连接的节点的图的组件(236),所述边表示由所述连接的节点表示的文档之间的相关性;
基于由所创建的图指示的文档之间的相似性将已标记文档的相关性传播至未标记文档的组件(239);以及
生成基于所述文档的所传播的相关性来对文档对于查询的相关性进行排名的文档排名组件的组件。
17.如权利要求16所述的系统,其特征在于,所述传播相关性的组件根据基于流形排名的算法来传播相关性。
18.如权利要求17所述的系统,其特征在于,所述传播相关性的组件同时为多个查询传播相关性,且所述生成文档排名组件的组件使用所述同时传播的相关性来生成所述组件。
19.如权利要求16所述的系统,其特征在于,所述创建图的组件构建图,基于由所述连接的节点所表示的文档之间的相似性为所述边生成权重。
20.如权利要求16所述的系统,其特征在于,所述文档排名组件实现基于回归的排名算法。
CN2007800067137A 2006-02-27 2007-02-27 使用传播的文档相关性来训练排名功能 Expired - Fee Related CN101390096B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/364,576 2006-02-27
US11/364,576 US8001121B2 (en) 2006-02-27 2006-02-27 Training a ranking function using propagated document relevance
PCT/US2007/005141 WO2007100844A1 (en) 2006-02-27 2007-02-27 Training a ranking function using propagated document relevance

Publications (2)

Publication Number Publication Date
CN101390096A true CN101390096A (zh) 2009-03-18
CN101390096B CN101390096B (zh) 2011-06-08

Family

ID=38445261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800067137A Expired - Fee Related CN101390096B (zh) 2006-02-27 2007-02-27 使用传播的文档相关性来训练排名功能

Country Status (11)

Country Link
US (2) US8001121B2 (zh)
EP (1) EP1999653A4 (zh)
JP (1) JP2009528627A (zh)
KR (1) KR101377341B1 (zh)
CN (1) CN101390096B (zh)
AU (1) AU2007221013A1 (zh)
BR (1) BRPI0708330A2 (zh)
CA (1) CA2640230A1 (zh)
NO (1) NO20083363L (zh)
RU (1) RU2008134901A (zh)
WO (1) WO2007100844A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020116A (zh) * 2012-11-13 2013-04-03 中国科学院自动化研究所 在社交媒体网络上自动筛选有影响力用户的方法
CN112733040A (zh) * 2021-01-27 2021-04-30 中国科学院地理科学与资源研究所 一种旅游行程推荐方法

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US7752198B2 (en) * 2006-04-24 2010-07-06 Telenor Asa Method and device for efficiently ranking documents in a similarity graph
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US8126881B1 (en) 2007-12-12 2012-02-28 Vast.com, Inc. Predictive conversion systems and methods
US7814108B2 (en) * 2007-12-21 2010-10-12 Microsoft Corporation Search engine platform
US8407214B2 (en) * 2008-06-25 2013-03-26 Microsoft Corp. Constructing a classifier for classifying queries
US8255412B2 (en) * 2008-12-17 2012-08-28 Microsoft Corporation Boosting algorithm for ranking model adaptation
WO2010075408A1 (en) * 2008-12-22 2010-07-01 The Trustees Of Columbia University In The City Of New York System and method for annotating and searching media
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US20100191734A1 (en) * 2009-01-23 2010-07-29 Rajaram Shyam Sundar System and method for classifying documents
US20100293175A1 (en) * 2009-05-12 2010-11-18 Srinivas Vadrevu Feature normalization and adaptation to build a universal ranking function
WO2010134363A1 (ja) * 2009-05-18 2010-11-25 株式会社東芝 携帯端末
JP5211000B2 (ja) * 2009-09-09 2013-06-12 日本電信電話株式会社 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
US9104812B2 (en) 2010-04-10 2015-08-11 Hewlett-Packard Development Company, L.P. Injection of data into a software application
US20110295845A1 (en) * 2010-05-27 2011-12-01 Microsoft Corporation Semi-Supervised Page Importance Ranking
JP5519406B2 (ja) * 2010-05-28 2014-06-11 株式会社Nttドコモ サーバ装置、ジャンルスコア算出方法およびプログラム
US9449282B2 (en) * 2010-07-01 2016-09-20 Match.Com, L.L.C. System for determining and optimizing for relevance in match-making systems
US8407211B1 (en) 2010-12-16 2013-03-26 Google Inc. Determining relevance scores for locations
US8478740B2 (en) 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
JP5432936B2 (ja) * 2011-02-17 2014-03-05 日本電信電話株式会社 ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
US8583669B2 (en) * 2011-05-30 2013-11-12 Google Inc. Query suggestion for efficient legal E-discovery
US9529915B2 (en) * 2011-06-16 2016-12-27 Microsoft Technology Licensing, Llc Search results based on user and result profiles
US8589408B2 (en) 2011-06-20 2013-11-19 Microsoft Corporation Iterative set expansion using samples
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
US8805767B1 (en) * 2012-05-23 2014-08-12 Amazon Technologies, Inc. Machine learning memory management and distributed rule evaluation
US9536338B2 (en) * 2012-07-31 2017-01-03 Microsoft Technology Licensing, Llc Animating objects using the human body
JP5881048B2 (ja) * 2012-09-18 2016-03-09 株式会社日立製作所 情報処理システム、及び、情報処理方法
US10007946B1 (en) 2013-03-07 2018-06-26 Vast.com, Inc. Systems, methods, and devices for measuring similarity of and generating recommendations for unique items
US9465873B1 (en) 2013-03-07 2016-10-11 Vast.com, Inc. Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items
US9104718B1 (en) 2013-03-07 2015-08-11 Vast.com, Inc. Systems, methods, and devices for measuring similarity of and generating recommendations for unique items
US9830635B1 (en) 2013-03-13 2017-11-28 Vast.com, Inc. Systems, methods, and devices for determining and displaying market relative position of unique items
US10558935B2 (en) * 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US9953271B2 (en) 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US10127596B1 (en) 2013-12-10 2018-11-13 Vast.com, Inc. Systems, methods, and devices for generating recommendations of unique items
US20170316012A1 (en) * 2016-04-29 2017-11-02 DynAgility LLC Systems and methods for ranking electronic content using topic modeling and correlation
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter
US10068666B2 (en) * 2016-06-01 2018-09-04 Grand Rounds, Inc. Data driven analysis, modeling, and semi-supervised machine learning for qualitative and quantitative determinations
US11157829B2 (en) 2017-07-18 2021-10-26 International Business Machines Corporation Method to leverage similarity and hierarchy of documents in NN training
KR102410825B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
US10268704B1 (en) 2017-10-12 2019-04-23 Vast.com, Inc. Partitioned distributed database systems, devices, and methods
CN110009113B (zh) * 2018-01-02 2021-05-11 中国移动通信有限公司研究院 物联网设备自主学习方法、装置、设备、存储介质
US10846290B2 (en) * 2018-01-30 2020-11-24 Myntra Designs Private Limited System and method for dynamic query substitution
US20220027400A1 (en) * 2018-05-21 2022-01-27 State Street Corporation Techniques for information ranking and retrieval
CN110535892B (zh) * 2018-05-24 2021-12-24 株洲中车时代电气股份有限公司 轨道交通车载数据快速转储系统、方法及状态监测方法
WO2020033559A1 (en) * 2018-08-07 2020-02-13 Walmart Apollo, Llc System and method for structure and attribute based graph partitioning
US11651016B2 (en) * 2018-08-09 2023-05-16 Walmart Apollo, Llc System and method for electronic text classification
RU2019128026A (ru) * 2019-09-05 2021-03-05 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для ранжирования множества цифровых документов
CN112906388A (zh) * 2021-01-28 2021-06-04 武汉纺织大学 一种基于流形排序的未登录词处理方法、装置及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
DE69426541T2 (de) * 1993-03-12 2001-06-13 Toshiba Kawasaki Kk Dokumentdetektionssystem mit Darstellung des Detektionsresultats zur Erleichterung des Verständnis des Benutzers
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5600831A (en) * 1994-02-28 1997-02-04 Lucent Technologies Inc. Apparatus and methods for retrieving information by modifying query plan based on description of information sources
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
US5897639A (en) * 1996-10-07 1999-04-27 Greef; Arthur Reginald Electronic catalog system and method with enhanced feature-based search
US6272507B1 (en) * 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6286018B1 (en) * 1998-03-18 2001-09-04 Xerox Corporation Method and apparatus for finding a set of documents relevant to a focus set using citation analysis and spreading activation techniques
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
EP1025518A2 (en) * 1998-07-24 2000-08-09 Jarg Corporation Distributed computer database system and method for performing object search
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US20020049705A1 (en) * 2000-04-19 2002-04-25 E-Base Ltd. Method for creating content oriented databases and content files
US7024418B1 (en) * 2000-06-23 2006-04-04 Computer Sciences Corporation Relevance calculation for a reference system in an insurance claims processing system
AUPR208000A0 (en) * 2000-12-15 2001-01-11 80-20 Software Pty Limited Method of document searching
CN1375786A (zh) * 2001-03-20 2002-10-23 非常网科技股份有限公司 在网站上提供使用者命理分析评比的方法和系统
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
EP1485825A4 (en) 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS
US7555485B2 (en) * 2002-08-22 2009-06-30 Yahoo! Inc. System and method for conducting an auction-based ranking of search results on a computer network
EP1411448A3 (en) * 2002-10-17 2007-12-05 Matsushita Electric Industrial Co., Ltd. Data searching apparatus
US7107520B2 (en) 2002-11-18 2006-09-12 Hewlett-Packard Development Company, L.P. Automated propagation of document metadata
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US20060004753A1 (en) * 2004-06-23 2006-01-05 Coifman Ronald R System and method for document analysis, processing and information extraction

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020116A (zh) * 2012-11-13 2013-04-03 中国科学院自动化研究所 在社交媒体网络上自动筛选有影响力用户的方法
CN103020116B (zh) * 2012-11-13 2015-12-16 中国科学院自动化研究所 在社交媒体网络上自动筛选有影响力用户的方法
CN112733040A (zh) * 2021-01-27 2021-04-30 中国科学院地理科学与资源研究所 一种旅游行程推荐方法
CN112733040B (zh) * 2021-01-27 2021-07-30 中国科学院地理科学与资源研究所 一种旅游行程推荐方法

Also Published As

Publication number Publication date
EP1999653A1 (en) 2008-12-10
AU2007221013A1 (en) 2007-09-07
NO20083363L (no) 2008-09-04
US8001121B2 (en) 2011-08-16
US20070203908A1 (en) 2007-08-30
BRPI0708330A2 (pt) 2011-05-24
US20110264659A1 (en) 2011-10-27
KR101377341B1 (ko) 2014-03-25
RU2008134901A (ru) 2010-03-10
CN101390096B (zh) 2011-06-08
CA2640230A1 (en) 2007-09-07
EP1999653A4 (en) 2010-03-24
KR20080106190A (ko) 2008-12-04
JP2009528627A (ja) 2009-08-06
WO2007100844A1 (en) 2007-09-07

Similar Documents

Publication Publication Date Title
CN101390096B (zh) 使用传播的文档相关性来训练排名功能
CN1758245B (zh) 利用摘要来分类显示页的方法和系统
US8019763B2 (en) Propagating relevance from labeled documents to unlabeled documents
CN1702654B (zh) 计算显示页面中块的重要度的方法和系统
CN101454750B (zh) 命名实体的消歧
CN101567011B (zh) 文档处理装置、文档处理方法以及检索系统
Lin et al. Continuous improvement of knowledge management systems using Six Sigma methodology
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
US20110258054A1 (en) Automatic Generation of Bid Phrases for Online Advertising
Deng et al. Enhanced models for expertise retrieval using community-aware strategies
CN105069103A (zh) App搜索引擎利用用户评论的方法及系统
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
CN101652773A (zh) 前瞻文档排名系统
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
US8185528B2 (en) Assigning human-understandable labels to web pages
Lu et al. Semantic link analysis for finding answer experts
Aznag et al. Multilabel learning for automatic web services tagging
JP2010282403A (ja) 文書検索方法
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
Palahan Improving Access to Trade and Investment Information in Thailand through Intelligent Document Retrieval.
Deepak et al. Unsupervised Learning from URL Corpora.
CN114372223A (zh) 一种主观题智能评阅系统
CN115391479A (zh) 用于文档搜索的排序方法、装置、电子介质及存储介质
Fissaha Adafre et al. Fact discovery in wikipedia

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150430

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150430

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110608