CN101390096A

CN101390096A - 使用传播的文档相关性来训练排名功能

Info

Publication number: CN101390096A
Application number: CNA2007800067137A
Authority: CN
Inventors: 王珏; 李明敬; 马韦莹; 李智伟
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-02-27
Filing date: 2007-02-27
Publication date: 2009-03-18
Anticipated expiration: 2027-02-27
Also published as: EP1999653A1; AU2007221013A1; NO20083363L; US8001121B2; US20070203908A1; BRPI0708330A2; US20110264659A1; KR101377341B1; RU2008134901A; CN101390096B; CA2640230A1; EP1999653A4; KR20080106190A; JP2009528627A; WO2007100844A1

Abstract

提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记，直到其收敛于一解。具有所传播的相关性的训练数据随后可以被用于训练排名功能。

Description

使用传播的文档相关性来训练排名功能

背景

如Google(谷歌)和Overture(建议)等许多搜索引擎服务提供对能经由因特网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面，如网页。在用户提交包含搜索项的搜索请求(即，查询)之后，搜索引擎服务标识可能与这些搜索项相关的网页。为快速标识相关的网页，搜索引擎服务可维护关键词到网页的映射。该映射可以通过“爬行(crawl)”web(即，万维网)来标识每一网页的关键词来生成。为爬行web，搜索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种公知信息检索技术来标识，如标识标题行的文字、在网页的元数据中提供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键字与查询的文字匹配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于可以按照其与查询的相关度、流行度、重要性和/或其它度量来确定的排名的顺序显示给用户。

用于网页排名的三种公知技术是PageRank(页排名)、HITS(“引起超链接的主题搜索”)和DirectHIT(直接HIT)。PageRank基于网页将具有到重要网页的链接(即，“引出链接”)的原理。因而，网页重要性基于链接到该网页(即，“引入链接”)的其它网页的数量与重要性。用简单形式，网页之间的链接可以由邻接矩阵A表示，其中A_ij表示从网页i到网页j的引出链接的数量。网页w_j的重要性分数j可以由以下等式表示：

w_j＝∑_iA_ijw_i

该等式可以通过基于下面的等式的迭代计算来求解：

A^Tw＝w

其中w是网页的重要性分数的向量，并且是A^T的主本征向量。

HITS技术另外基于具有到其它重要网页的许多链接的网页本身可能是重要的原理。因而，HITS将网页的“重要性”分成两个相关属性：“中心(hub)”和“权威(authority)”。“中心”是由网页所链接到的网页的“权威”分数来测量的，而“权威”是由链接到该网页的网页的“中心”分数测量的。与独立于查询来计算网页重要性的PageRank相比，HITS基于结果的网页和通过跟随引入和引出链接而与结果的网页相关的网页来计算重要性。HITS向搜索引擎服务提交查询并且使用结果的网页作为初始网页集。HITS向该集合添加作为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网页。HITS随后使用迭代算法计算每一网页的权威和中心分数。权威和中心分数可以由以下等式来表示：

a (p) = \underset{q &RightArrow; p}{Σ} h (q)

和

h (p) = \underset{p &RightArrow; q}{Σ} a (q)

其中a(p)表示网页p的权威分数而h(p)表示网页p的中心分数。HITS使用邻接矩阵A来表示这些链接。邻接矩阵由以下等式表示：

向量a和h分别对应于该集合中所有网页的权威和中心分数，并且可以用以下等式表示：

a＝A^Th和h＝Aa

因而，a和h是矩阵A^TA和AA^T的本征向量。HITS还可被修改来将按访问数量测量的网页的流行度计算在内。基于对点进数据的分析，每当用户从网页i移动至网页j时就增加邻接矩阵的b_ij。

DirectHIT基于过去的具有类似查询的结果的用户历史对网页排名。例如，如果提交类似查询的用户通常首先选择结果的第三个网页，则该用户历史会是第三个网页的排名应更高的指示。作为另一示例，如果提交类似查询的用户通常首先花费最多的时间查看结果的第四个网页，则该用户历史会是第四个网页的排名应更高的指示。DirectHIT从点进数据的分析中导出这些用户历史。

某些排名技术使用机器学习算法从包括查询、表示页面的特征向量和对于每一查询的每一页面排名的训练数据中学习排名功能。排名功能用作从页面特征到其对于一给定查询的排名的映射。排名功能的学习被某些人认为是对于学习特征向量到已排序数值排名集合的一个成员的映射的回归问题。某些基于回归的技术试图提供可被用来对页面排名的绝对相关性分数。然而，排名功能不必提供绝对相关分数而仅仅需要提供页面的相对排名。因而，这些基于回归的技术解决比所需更困难的问题。

用于排名功能的机器学习算法使用查询、特征向量和用户标记的相关性分数作为训练数据。为生成该训练数据，可以将查询提交给生成搜索结果的页面的搜索引擎。算法随后为这些页面生成特征向量并从用户输入每一页面的相关性分数。这种方法的一个难点是搜索引擎可以返回上百个页面作为其搜索结果。用户标记搜索结果的所有页面的代价很高。此外，用户准确评估这么大数量的页面的相关性是困难的。虽然用户可以只标记页面的一小部分，但是基于这一小部分的学习可能不能提供准确的排名功能。

概述

提供了一种用于将已标记文档对于一查询的相关性传播至未标记文档的相关性的方法和系统。传播系统提供包括查询、以其对于这些查询的相关性标记的文档和未标记文档的训练数据。传播系统随后计算训练数据中文档对之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记，直到其收敛于一解。具有所传播的相关性的训练数据随后可以用于训练排名功能。

提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图简述

图1是示出文档图的一部分的图。

图2是示出一实施例中传播系统的组件的框图。

图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。

图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。

图5是示出一实施例中传播系统的构建图组件的处理的流程图。

图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。

图7是示出一实施例中传播系统的归一化图权重组件的处理的流程图。

图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的流程图。

详细描述

提供了用于将对于一查询的已标记文档的相关性传播至未标记文档的方法和系统。在一实施例中，该传播系统提供包括查询、以其对这些查询的相关性标记的文档(由特征向量所表示)和未标记文档的训练数据。例如，传播系统可以向搜索引擎提交查询并将搜索结果用作文档(例如，网页)。传播系统随后可以提示用户基于其与查询的相关性来标记搜索结果中的某些文档。传播系统随后计算训练数据中文档对之间的相似性。例如，该传播系统可以用特征向量表示每一文档并且可以基于特征空间中的欧几里得距离或基于余弦相似性度量来计算文档之间的相似性。传播系统随后将已标记文档的相关性传播至类似但未标记的文档。传播系统可以迭代地传播文档的标记，直到其收敛于一解。具有所传播的相关性的训练数据随后可以用于训练排名功能。以此方式，传播系统可以基于文档之间的相似性用附加的训练数据来自动扩充训练数据。

在一实施例中，传播系统使用文档图来表示文档，该图中的每一节点表示一个文档且每一边表示由所连接的节点表示的文档之间的相似性。传播系统可以将该图表示为对每一文档有一行和一列的方阵，该方阵中每一非0值指示该行的节点和该列的节点之间的一条边。传播系统可以使用各种技术来图定义边。例如，传播系统可以认为图形是全连接的，在这种情况下每一节点具有到所有其它节点的边。作为另一示例，传播系统可以认为节点通过最小生成树来连接。在一个实施例中，传播系统认为节点使用k最近邻居算法来连接。具体地，传播系统为每一节点标识k最近邻居并添加从该节点到其k个最近邻居中的每一个的边。传播系统随后基于由所连接的边表示的文档之间相似性来为这些边计算权重。传播系统可以使用各种技术来确定文档之间的相似性。在一实施例中，传播系统使用特征空间中的基于文档的特征向量表示的欧几里得距离度量。传播系统将相似性存储为方阵的值，从而得到相似性或仿射矩阵。传播系统还可以归一化该相似性矩阵。传播系统还可以将对角值设置为0以防止相关性传播期间的自强化(self-reinforcement)。

生成相似性矩阵之后，传播系统使用基于流形排名的传播算法将已标记文档的相关性传播至未标记的文档。基于流形排名的算法在He，J.，Li，M.，Zhang，H.J.等人的＂Manifold-Ranking Based Image Retrieval＂，2004年第12届ACM国际会议多媒体方向(the 12th Annual ACM International Conf.onMultimedia，2004)会刊中有描述。传播系统最初将已标记文档的相关性设置为用户所提供的相关性分数并将未标记的文档的相关性分数设置为0。传播系统随后将由相似性矩阵所指示的相似性计算在内，将已标记文档的相关性传播至其相连的未标记文档。传播系统迭代地传播相关性分数，直到相关性分数收敛于一解。未标记文档的所得的相关性分数与其与已标记文档相同的查询相关的概率成比例。与许多具有高相关性分数的已标记文档非常相似的未标记文档因而具有高相关性分数。相反，与任何已标记文档都不非常相似的未标记文档具有低相关性分数。

传播系统可以使用可由如下方程表示的拉普拉斯核来表示相似性：

k_{L} (x_{i}, x_{j}) = Π_{l = 1}^{t} \frac{1}{2 σ_{l}} \exp (- | x_{il} - x_{jl} | / σ_{l}) - - - (1)

其中x_il和x_jl分别表示x_i和x_j的第1维，t表示特征空间的维数，而σ_l表示反映相似性计算中不同维的权重的正参数。因而，传播系统以如下方程表示边的权重：

W_{ij} = k_{L} (x_{i}, x_{j}) = Π_{l = 1}^{t} \exp (- | x_{il} - x_{jl} | / σ_{l}) - - - (2)

其中，W_ij表示文档i和j之间的相似性。由于常数系数1/2σ_l对相似性矩阵W的影响会被矩阵的归一化所抵消，故传播系统将其省略。传播系统如由以下方程所表示地归一化相似性矩阵：

S＝D^-1/2WD^-1/2 (3)

其中，S表示归一化的相似性矩阵而D表示对角矩阵，其中(i，i)等于相似性矩阵W的第i行的和。该归一化将相似性归一化为相关于所连接的文档的相似性。

传播系统可以将每一文档表示为形成欧几里得空间中的一点的t维特征向量x。对于一个查询，传播系统接收文档的结果集

前m点(特征空间中)表示用户标记的文档，而后n点(特征空间中)表示未标记的文档。传播系统还接收相对应的标记向量γ＝[y_l1，y_l2，...，y_lm，0，0，...，0]^T。后n个标记具有为0的值以表示未标记文档。传播系统还可以允许指定负标记，而不仅仅是正标记，以表示负相关示例。传播系统将特征空间中文档之间的距离表示为这对每一对点x_i和x_j分配一距离d(x_i，x_j)，并将文档的排名函数表示为

这向每一点x_i分配了排名分数f_i。排名功能学习问题是从一组具有特征X＝{χ_q}和标记Y＝{γ_q}的查询中学习

传播系统通过如下方程表示相关性传播的限制：

f^*＝(1-α)(I-αS)^-1y (4)

其中，f^*表示相关性的限制，y表示初始标记，而α表示衰减因子。因为计算归一化的相似性矩阵S的逆在计算上是困难的，所以传播系统使用泰勒级数展开来逼近f^*。传播系统通过如下方程表示该泰勒级数展开：

f^*＝(I-αS)^-1y

＝(I+αS+α²S²+...)y

＝y+αSy+αS(αSy)+... (5)

传播系统迭代地求解f^*，直到其收敛于一解或迭代了固定次数。

相关性被传播之后，传播标记的系统可以使用训练数据集(查询和已标记特征向量)来训练排名功能。排名功能可以被实现为支持向量机、自适应增强分类器(boosting classifier)、神经网络分类器等等。支持向量机通过在可能的输入的空间中寻找超曲面来操作。超曲面尝试通过将正和负示例中最接近的两个之间的距离最大化到该超曲面来从负示例中分出正示例。这允许相似于但不同于训练数据的数据的正确的分类。可使用各种技术来训练支持向量机。一种技术使用将大二次规划问题分解成一系列可被分析上解决的小二次规划问题的顺序最小优化算法。(请参考http://research.microsoft.com/～jplatt/smo.html上的顺序最小优化。)

自适应增强是在训练数据的集合上运行多次测试的迭代过程。自适应增强将弱学习算法(仅以比偶然性稍好的级别执行的算法)变换成强学习算法(显示低误差率的算法)。弱学习算法在训练数据的不同子集上运行。该算法越来越专注于其前导倾向于显示错误的那些示例。该算法校正由早先的弱学习算法所造成的误差。因为其调整其前导的误差率，因此该算法是自适应的。自适应增强组合粗略和适度地不准确的经验法则以创建高性能算法。自适应增强将各独立运行测试的结果组合成单个、非常准确的分类器。

神经网络模型具有三个主要组件：架构、成本函数和搜索算法。架构定义将输入和输出相关的功能形式(按照网络拓扑、单元连通度和激活功能)。训练过程是在权重空间中搜索最小化目标函数的一组权重。神经网络模型可以使用径向基函数(“RBF”)网络并用标准梯度下降作为其搜索技术。

图1是示出作为查询的搜索结果返回的文档图的图示。在该示例中，子图100表示搜索结果中所返回的文档的一部分。节点101-112表示搜索结果的12个文档。节点101和106表示已标记文档。由节点101所表示的文档用相关性分数.75标记，而由节点106所表示的文档用相关性分数.6标记。传播系统使用最近邻居算法生成节点之间的边。在该示例中，节点102、103和104是节点101的k个最近邻居中的每一个，但节点105-112不是k个最近邻居中的一个。传播系统随后使用相似分数算法计算所连接的节点之间的相似性。例如，节点101以具有指示所连接的节点之间的相似性的权重8的边连接到节点102。

图2是示出一实施例中的传播系统的组件的框图。传播系统230通过通信链路220(例如，因特网)连接到文档存储210(例如，网站)。传播系统包括收集训练数据组件231、训练数据存储232和文档索引233。文档索引包含文档存储中的文档(例如，网页)的索引。该文档索引可由web爬行器生成。文档索引可以包括用以训练排名功能的每一文档的特征向量。这些特征向量可以表示文档的许多不同类型的特征，如逆文档频率、关键字、字体大小等等。收集训练数据组件向搜索引擎(未示出)提交查询，并接收匹配这些查询的文档。搜索引擎可以独立于传播系统。在这种情况下，传播系统可以从搜索结果中动态地生成特征向量。收集训练数据组件可以提示用户标记匹配这些查询的文档中的某一些的相关性。收集训练数据组件将查询、搜索结果(例如，特征向量)和标记存储在训练数据存储中。传播系统还包括传播相关性组件235、构建图组件236、生成图权重组件237、归一化图权重组件238和基于图传播相关性组件239。传播相关性组件将已标记文档的相关性传播至存储于训练数据存储中的未标记文档。传播相关性组件调用构建图组件以构建包括表示搜索结果的文档的边的图。传播相关性组件随后调用生成图权重组件来为图的各边生成初始权重。传播相关性组件调用归一化图权重组件来归一化所生成的权重。传播相关性组件随后调用基于图传播相关性组件以执行从已标记文档到未标记文档的相关性的实际传播。传播系统还包括创建排名功能组件241和排名功能242。创建排名功能使用具有所传播的相关性的训练数据来创建排名功能。

其上可以实现传播系统的计算设备可以包括中央处理单元、存储器、输入设备(例如，键盘和定点设备)、输出设备(例如，显示设备)和存储设备(例如，盘驱动器)。存储器和存储设备是可以包含实现传播系统的指令的计算机可读介质。此外，数据结构和消息结构可被存储或经由诸如通信链路上的信号之类的数据传输介质发送。可以使用各种通信链路，如因特网、局域网、广域网或点对点拨号连接。

传播系统可以向各种计算系统或设备提供服务，包括个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括任一上述系统或设备的分布式计算环境等等。

传播系统可以在诸如程序模块等由一个或多个计算机或其他设备执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。通常，程序模块的功能可以在各个实施例中按需进行组合或分布。

图3是示出一实施例中传播系统的创建排名功能组件的处理的流程图。创建排名功能组件收集训练数据，将已标记文档的相关性传播至未标记文档，并随后训练一排名功能。在框301，该组件收集训练数据。在框302，该组件为训练数据的一个子集输入标记。在框303，该组件调用传播相关性组件以将已标记文档的相关性传播至未标记文档。在框304，该组件使用该传播的相关性来训练排名功能。

图4是示出一实施例中传播系统的传播相关性组件的处理的流程图。该组件被提供训练数据并将已标记文档的相关性传播至未标记文档。在框401，该组件调用构建图组件以构建包括边的初始图。在框402，该组件调用生成图权重组件以生成指示由连接的节点所表示的文档之间的相似性的权重。在框403，该组件调用归一化图权重组件以归一化图的权重。在框404，该组件调用基于图传播相关性组件以执行相关性的传播。随后该组件完成。

图5是示出一实施例中传播系统的构建图组件的处理的流程图。该组件创建每一行和列表示一文档的方阵。该组件随后在每一节点和其k个最近邻居(例如，k＝10)之间标识并添加连接。在框501，该组件选择下一个文档i。在判定框502，如果已经选择了所有文档i，则该组件返回，否则该组件继续至框503。在框503，该组件选择下一个文档j。在判定框504，如果已为所选文档i选择了所有的文档j，则该组件继续至框506，否则该组件继续至框505。在框505，该组件计算所选文档i和所选文档j之间的距离，并随后循环至框503以选择下一文档j。在框506，该组件选择具有对于文档i的最小距离的10个文档j(即，最近的邻居)，并随后循环至框501以选择下一文档i。

图6是示出一实施例中传播系统的生成图权重组件的处理的流程图。该组件基于曼哈顿(Manhattan)度量计算连接的节点之间的相似性。在框601，该组件选择下一个文档i。在判定框602，如果已经选择了所有文档i，则该组件返回，否则该组件继续至框603。在框603，该组件将文档与其自身的相似性初始化为0。在框604，该组件选择对所选文档i的下一最近文档j(例如，一连接的文档)。在判定框605，如果已选择了对于所选文档i的所有最近文档j，则该组件循环至框601以选择下一文档i，否则该组件继续至框606。在框606，该组件将所选文档i和所选文档j之间的相似性初始化为1。在框607-609，该组件循环计算距离度量。在框607，该组件选择特征向量的下一维l。在判定框608，如果已经选择了所有维，则该组件循环至框604以选择下一个最近文档j，否则该组件继续至框609。在框609，该组件根据方程2将所选文档i和所选文档j之间的相似性设置为其当前相似性乘以所选文档i和所选文档j的所选特征l之间的差异的函数。该组件随后循环至框607以选择下一维。

图7是示出一个实施例中传播系统的归一化图权重组件的处理的流程图。该组件归一化相似性矩阵的权重。在框701，该组件选择相似性矩阵的下一行i。在判定框702，如果已选择了所有行，则该组件继续至框706，否则该组件继续至框703。在框703-705，该组件计算对角矩阵D的所选行的值。在框703，该组件选择相似性矩阵的下一列j。在判定框704，如果已经选择了所有列，则该组件循环至框701以选择下一行，否则该组件继续至框705。在框705，该组件将所选行i和所选列j的权重添加至所选行i的对角元素。该组件随后循环至框703以为所选行i选择下一列j。在框706，该组件根据方程3归一化相似性矩阵。

图8是示出一个实施例中传播系统的基于图传播相关性组件的处理的流程图。该组件迭代地计算方程5的泰勒级数展开，直到其收敛于一解。在框801，该组件将索引i初始化为0。在框802，该组件将解向量初始化为0。在框803-805，该组件循环直到其收敛于一解。在框803，该组件基于前一迭代的值加上泰勒级数展开的下一因子计算下一迭代的值。在判定框804，如果各值收敛于一解，则该组件返回，否则该组件继续至框805。在框805，该组件将索引递增至下一迭代，并循环至框803以执行下一迭代。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的示例形式公开的。传播系统可以被用来扩充搜索结果。例如，搜索引擎可以基于某一文档语料库来生成搜索结果。随后可以使用该传播系统将搜索结果的文档的相关性传播至不同语料库。具有最高相关性的不同语料库的文档随后可以被添加至搜索结果中。传播系统可以被用来从以其对于一查询的相关性来标记的文档到未标记文档来传播相关性(查询内传播)，或从以其对于多个查询的相关性来标记的文档到未标记文档来传播相关性(查询间传播)。该传播组件为每一查询用查询内传播单独训练该训练组件并同时用查询间传播为多个查询训练该训练组件。因此，本发明只由所附权利要求来限制。

Claims

1.一种用于训练文档排名组件的系统，包括：

包含训练数据的训练数据存储(232)，所述训练数据包括文档的表示，以及对于多个查询中的每一查询，用所述文档中的某一些对于所述查询的相关性而对所述文档进行的标记；

基于文档之间的相似性将已标记文档的相关性传播至未标记文档的传播相关性组件(235)；以及

训练文档排名组件以基于所述训练数据中的所传播的所述文档的相关性来对文档对于查询的相关性进行排名的训练组件(241)。

2.如权利要求1所述的系统，其特征在于，所述文档排名组件实现选自由神经网络算法、自适应增强算法和支持向量机算法所组成的组的分类算法。

3.如权利要求1所述的系统，其特征在于，所述文档排名组件实现基于回归的算法。

4.如权利要求1所述的系统，其特征在于，所述传播相关性组件为每一查询单独传播相关性，且所述训练组件使用所述单独传播的相关性来训练所述文档排名组件。

5.如权利要求1所述的系统，其特征在于，所述传播相关性组件同时为多个查询传播相关性，且所述训练组件使用所述同时传播的相关性来训练所述文档排名组件。

6.如权利要求1所述的系统，其特征在于，包括创建其中文档被表示为由表示文档之间的相似性的边所连接的节点的图的图组件。

7.如权利要求6所述的系统，其特征在于，所述图组件包括：

构建其中表示相似文档的节点通过边进行连接的图的构建图组件；以及

基于由所述连接的节点所表示的文档的相似性为所述边生成权重的生成权重组件。

8.如权利要求7所述的系统，其特征在于，所述构建图组件使用最近邻居算法在节点之间建立边。

9.如权利要求1所述的系统，其特征在于，所述传播相关性组件使用基于流形排名的算法来传播相关性。

10.一种包含用于控制计算机系统以一种方法来训练文档排名组件的指令的计算机可读介质，所述方法包括：

提供(232)文档的表示以及对所述文档中的某一些的的标记，所述标记指示文档对于一查询的相关性；

创建(236)其中文档被表示为由边连接的节点的图，所述边表示由所述连接的节点表示的文档之间的相关性；

根据由所创建的图形所指示的文档之间的相似性并根据基于流形排名的算法将已标记文档的相关性传播(239)至未标记文档；以及

训练(241)文档排名组件以基于所述文档的所传播的相关性来对文档对于查询的相关性排名。

11.如权利要求10所述的计算机可读介质，其特征在于，所述文档排名组件实现选自贝叶斯网络算法、自适应增强算法和支持向量机算法所组成的组中的分类算法。

12.如权利要求10所述的计算机可读介质，其特征在于，所述文档排名组件实现基于回归的排名算法。

13.如权利要求10所述的计算机可读介质，其特征在于，所述相关性的传播为每一查询单独传播相关性，且所述文档排名组件的训练使用所述单独传播的相关性来训练。

14.如权利要求10所述的计算机可读介质，其特征在于，所述传播相关性组件传播相关性〔查询间传播〕。

15.如权利要求10所述的计算机可读介质，其特征在于，图的创建包括：

构建其中表示相似文档的节点通过边进行连接的图；以及

基于由所述连接的节点所表示的文档的相似性为所述边生成权重。

16.一种用于训练文档排名组件的系统，包括：

提供文档的表示以及对所述文档中的某一些的标记的组件(231)，所述标记指示所述文档对于查询的相关性；

创建其中文档被表示为由边连接的节点的图的组件(236)，所述边表示由所述连接的节点表示的文档之间的相关性；

基于由所创建的图指示的文档之间的相似性将已标记文档的相关性传播至未标记文档的组件(239)；以及

生成基于所述文档的所传播的相关性来对文档对于查询的相关性进行排名的文档排名组件的组件。

17.如权利要求16所述的系统，其特征在于，所述传播相关性的组件根据基于流形排名的算法来传播相关性。

18.如权利要求17所述的系统，其特征在于，所述传播相关性的组件同时为多个查询传播相关性，且所述生成文档排名组件的组件使用所述同时传播的相关性来生成所述组件。

19.如权利要求16所述的系统，其特征在于，所述创建图的组件构建图，基于由所述连接的节点所表示的文档之间的相似性为所述边生成权重。

20.如权利要求16所述的系统，其特征在于，所述文档排名组件实现基于回归的排名算法。