CN102542003A

CN102542003A - 用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型

Info

Publication number: CN102542003A
Application number: CN2011104091561A
Authority: CN
Inventors: 王刚; 陈伟柱; 陈正
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-12-01
Filing date: 2011-11-30
Publication date: 2012-07-04
Anticipated expiration: 2031-11-30
Also published as: CN102542003B; US20120143789A1

Abstract

本发明公开了用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型。一种生成用于搜索引擎的训练数据的方法通过检索涉及用户点击行为的日志数据来开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与查询的相关性，该参数涉及表示用户在执行搜索时的意图的用户意图偏差。然后将这些页面的相关性转换成训练数据。

Description

用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型

技术领域

本发明搜索引擎，尤其涉及生成用于搜索引擎的训练数据的方法。

背景技术

对于连接到万维网(“web”)的主计算机的用户而言，采用web浏览器和搜索引擎来定位具有用户感兴趣的特定内容的网页已经是常见的。诸如微软的Live搜索等搜索引擎索引由全世界的计算机维护的数百亿个网页。主计算机的用户编撰查询，而搜索引擎标识匹配这些查询的页面或文档，例如包括查询的关键字的页面。这些页面或文档被称为结果集。在许多情况下，在查询时对结果集中的页面进行排名是计算上昂贵的。

多个搜索引擎在它们的排名技术中依靠许多特征。证据源可包括查询和页面或查询和指向页面的超链接的锚文本之间的文本相似性、例如经由浏览器工具栏或通过对搜索结果页面中的链接的点击来测量的页面的用户流行度、以及作为内容提供者之间的对等背签的形式来查看的页面之间的超接合(hyper-linkage)。排名技术的有效性能够影响页面相对于查询的相对质量或相关性，以及页面被查看的概率。

一些现有搜索引擎经由对页面进行打分的函数来对搜索结果进行排名。该函数从训练数据中自动习得。训练数据又通过向人类判定者提供查询/页面组合来创建，该人类判定者被要求基于页面有多好地匹配查询来标记页面，例如完美、优秀、良好、一般或差。每一查询/页面组合都被转换成特征向量，特征向量然后被提供给能够导出归纳训练数据的函数的机器学习算法。

对于常识查询，人类判定者能够得出对页面有多好地匹配查询的合理评估是很有可能的。然而，在判定者如何评估查询/页面组合时存在广泛的变化。这部分地是由于对于查询的较好或较差页面的先验知识，以及定义对查询的“完美”回答的主观特性(这对于诸如“优秀”、“良好”、“一般”和“差”之类的其他定义亦如此)。实际上，查询/页面对通常仅由一个判定者来评估。此外，判定者可能不具有查询的任何知识并因此提供不正确的评级。最终，web上的大量查询和页面暗示将需要判定非常多的对。将该人类判定过程缩放到越来越多的查询/页面组合将会是富有挑战性的。

点击日志中嵌入关于用户对搜索引擎的满意度的重要信息并且能够提供相关性信息的高度有价值的源。与人类判定者相比，获取点击便宜得多并且点击通常反映当前相关性。然而，已知点击由于呈现次序、文档的外观(例如，标题和摘要)以及各个站点的声誉而发生偏差。已经作出各种尝试以解决在分析点击和搜索结果相关性之间的关系时出现的这种和其他偏差。这些模型包括位置模型、级联模型以及动态贝叶斯网络(DNB)模型。

发明内容

具有不同搜索意图的用户可能向搜索引擎提交相同的查询却期望不同的搜索结果。因此，在用户搜索意图和用户指定的查询之间可能存在偏差，而导致用户点击时可观察到的差异。换而言之，搜索结果的吸引力不仅受到其相关性的影响，也是由查询背后用户潜在的搜索意图所确定的。由此，用户点击可以由意图偏差和相关性两者确定。如果用户没有清楚地制定其输入查询以精确地表达其信息需求，就会有较大的意图偏差。

在一个实现中，提供包含此处被称为意图假设的新的假设的点击模型。意图假设假定仅在结果或摘录符合用户的搜索意图，即它是用户所需的之后才点击它。由于查询部分地反映出用户的搜索意图，因此如果文档与查询无关那么假定根本不需要它是合理的。另一方面，相关文档是否需要是唯一地受到用户意图和查询之间的间隙的影响。

根据另一实现，生成用于搜索引擎的训练数据的方法从检索关于用户点击行为的日志数据开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与查询的相关性，该参数涉及表示用户在执行搜索时的意图的用户意图偏差。接着将页面的相关性转换成训练数据。在一个特定的实现中，点击模型是包括表示文档是否被点击的可观察到的二进制值以及表示文档是否被用户检查和被用户需要的隐藏的二进制变量。

提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。

附图简述

图1示出了搜索引擎在其中运行的示例性环境100。

图2描述了意图、查询和在会话期间找到的文档之间的三角关系，其中连接两个实体的边度量两个实体时间的匹配度。

图3是在为用五个随机挑选的查询对两组搜索会话执行的实验中每一个查询的点进率的图示。

图4示出了用于图3中使用的所有搜索查询的第一和第二组之间的点进率之间的差值的分布。

图5将检查假设和意图假设的图形模型作比较。

图6是用于从点击日志生成训练数据的方法的实现的操作流程。

具体实施方式

图1示出了搜索引擎可在其中运行的示例性环境100。环境包括由网络130，例如因特网、广域网(WAN)或局域网(LAN)彼此连接的一个或多个客户计算机110和一个或多个服务器计算机120(通常是“主机”)。网络130提供对诸如万维网(“web”)131的服务的访问。

Web 131允许客户计算机110访问包含包含在例如由服务器计算机120维护和服务的网页121(例如网页或其他文档)中的基于文本的或多媒体内容的文档。通常，这是由在客户计算机110中执行的web浏览器应用程序114完成。每一个页面121的位置可以由诸如输入到web浏览器应用程序114中以访问网页121的。许多网页可以包括到其他网页121的超链接123。超链接也可以是URL的形式的。虽然此处关于是页面的文档描述了实现，但是应当理解环境可以包括具有可以被表征的内容和连接性的任何链接数据对象。

为了帮助用户定位感兴趣的内容，搜索引擎140可以在例如盘存储、随机访问存储器(RAM)或数据库的存储器中包含页面的索引141。响应于查询111，搜索引擎140返回满足查询111的项(例如关键词)的结果集112。

由于搜索引擎140存储上百万的页面，尤其是当查询111是松散地指定时，结果集112可以包括许多合格的页面。这些页面可以与用户的实际信息需求有关或无关。因此，向客户机110呈现的结果集112的顺序影响用户关于搜索引擎140的经验。

在一个实现中，排序过程可以作为搜索引擎140中的排序引擎的一部分来实现。排序过程可以是基于此处进一步描述的点击日志150的，以改进结果集112中页面的排序，这样可以更加精确地标识与特定话题相关的页面113。

对于提供给搜索引擎140的每一个查询111，点击日志150可以包括提供的查询111、提供它的时间、作为结果集112向用户示出的多个页面(例如十个页面、二十个页面等)以及用户点击过的结果集112的页面。如此处所使用的，项点击是指用户通过任何适当的用户界面设备选择页面或其他对象的任何方式。点击可以被组合到会话中，并且可用于推断用户对于给定的查询点击的页面的顺序。点击日志150由此可用于推断关于特定页面的相关性的人类判断。虽然仅示出了一个点击日志150，但是可以关于此处所描述的技术和方面使用任何数目的点击日志。

点击日志150可以被解释并用于生成可以由搜索引擎140的使用的训练数据。较高质量的训练数据提供更好地排列的搜索结果。用户点击的页面和跳过的页面可用于评估页面与查询11的相关性。此外，用于训练数据的标签可以基于来自点击日志150的数据生成。标签可以改进搜索引擎相关性排序。

累计多个用户的点击比单个人类判断提供更好的相关性确定。用户一般知道一点查询并且因此点击结果的多个用户带来意见的多样性。对于单个人类的判断，判断有可能没有查询的知识。此外，点击大部分是彼此独立的。每一个用户的点击不是由其他用户的点击确定。具体地，更多用户发出查询并点击他们感兴趣的结果。存在某些细微的相关性，例如朋友可以向彼此推荐链接。然而，在很大程度上，点击是独立的。

由于考虑来自多个用户的点击数据，因此相对于可能或可能不知道查询以及可能不知道查询结果的人类判断而言，可以获取特例和有关局部知识的描绘。除了更多的“判断”(用户)之外，点击日志也提供关于更多查询的判断。此处所描述的技术可以被应用到头查询(经常询问的查询)和尾查询(不经常询问的查询)。由于提出来自他们自身兴趣的查询的用户更可能能够评估作为查询的结果呈现的页面的相关性，因此而改进每一个率的质量。

排序引擎142可以包括日志数据分析器145和训练数据生成器147。日志数据分析器145可以例如经由数据源访问引擎143从点击日志150接收点击日志数据152。日志数据分析器145可以分析点击日志数据152并且向训练数据生成器147提供分析的结果。训练数据生成器147可以使用例如工具、应用程序和累加器来基于分析的结果确定特定页面的相关性或标签，并且可以将相关性和标签应用到页面上，如此处进一步描述的。排序引擎142可以包括可包括日志数据分析器145、训练数据生成器147和数据源访问引擎143的计算设备，并且可用于此处所描述的技术和操作的性能。

在结果集中，向用户呈现较小的页面或文档。这些较小页面被称为摘要。应该注意向用户示出的文档的较好的摘录(看起来高度相关的)可以人工地造成较差的(例如不相关的)页面被更多地点击，并且相似地，较差的摘录(看起来不相关的)可以造成高度相关的页面被较少地点击。构想了摘录的质量可以与文档的质量捆绑。摘录通常可以包括搜索标题、来自页面或文档的文本的简要部分以及URL。

已经发现用户更可能点击排名较高的页面，而不管该页面是否实际上与查询相关。这被称为位置偏差。试图解决位置偏差的一种点击模式是位置点击模式。该模式假设仅当用户实际检查摘录并得出结果与搜索相关的结论时才点击结果。这个想法稍后被公式化为检查假设。此外，模型假定检查的概率仅与结果的位置相关。被称为检查点击模型的另一模型通过用倍增因数奖励在搜索结果中位置较低的相关文档来扩展位置点击模型。检查假设假定如果检查了文档，那么对于给定的查询文档的点进率是常数，其值由查询和文档之间的相关性来确定。被称为级联点击模型的另一模型通过假定用户完全扫描搜索结果来进一步扩展检查点击模型。

上述点击模型不在结果(即摘录)的实际和感知相关性之间区分。即，当用户检查结果并认为它相关时，用户仅感知该结果是相关的，而不是确实知道。仅当用户实际点击结果并检查页面或文档自身时，用户才能够了解结果是否实际相关。在结果的实际和感知相关性之间区分的一个模型是DBN模型。

尽管它们在解决位置偏差问题方面的成功，但是用户点击不能完全用相关性和位置偏差来解释。具体地，具有不同搜索意图的用户可能向搜索引擎提交相同的查询，却期望不同的搜索结果。因此，可能在用户搜索意图和用户制定的查询之间存在偏差，这导致用户点击中可观察到的多样性。换而言之，单个查询可能不能精确地反映出用户搜索意图。取查询“iPad^TM”作为一个示例。由于用户希望浏览有关iPad的一般信息，她可能提交该查询，且假定从apple.com或wikipedia.com接收到的搜索结果对她是有吸引力的。相反地，提供相同的查询的另一用户可能查找诸如用户对iPad的评论或反馈的信息。在这种情况下，更有可能点击如技术评论和讨论的搜索结果。该示例表明搜索结果的吸引力不仅受到其相关性的影响，也是由查询背后用户潜在的搜索意图所确定的。

图2描述了意图、查询和在会话期间找到的文档之间的三角关系，其中连接两个实体的边度量两个实体时间的匹配度。每一个用户在提交查询前有内在的搜索意图。当用户来到搜索引擎时，她根据其搜索意图制定查询，并且将查询提交给搜索引擎。意图偏差度量意图和查询之间的匹配度。搜索引擎接收查询并返回经排序的文档列表，而相关性度量查询和文档之间的匹配度。用户检查每一个文档并且更可能点击相对于其他文档更好地满足其信息需求的文档。

图2中的三角关系表明用户点击是由意图偏差和相关性两者确定的。如果用户没有清楚地定制其输入查询以精确地表达其信息需求，那么将会有较大的意图偏差。由此，用户不可能点击不符合其搜索意图的文档，即使该文档与查询非常相关。检查假设可以被认为是简化的情况，其中搜索意图和输入查询是等价的并且没有意图偏差。因此，当仅采用检查假设时，可能会错误地估计查询和文档之间的相关性。

以下定义和注解对于描述此处所述的方法和系统的各方面和实现会是有用的。用户提交查询q并且搜索引擎返回包含M(例如10)个结果或摘要的搜索结果页面，由

表示，其中i是在第i个位置处结果的索引。用户检查每一个搜索结果的摘录并且点击它们中的一些或一个都不点击。相同的查询内的搜索被称为搜索会话，用s表示。在一个搜索会话中不考虑对赞助商广告或其他web元素的点击。随后对查询的重新提交或重新制定被作为新的会话来对待。

三个二元随机变量C_i、E_i和R_i被定义为在第i个位置处的模型用户点击、用户检查和文档相关性事件：

C_i：用户是否点击了结果；

E_i：用户是否检查了结果；

R_i：对应于结果的目标文档是否是相关的

其中第一事件可以从搜索会话观察到，而后两个事件是隐藏的。Pr(C_i＝1)是第i个文档的CTR，Pr(E_i＝1)是检查第i个文档的概率，而Pr(R_i＝1)是第i个文档的相关性。参数r_i被用于表示文档相关性如下：

\Pr (R_{i} = 1) = r_{π_{i}} - - - (1)

接着，上述的检查假设可以如下表示：

假设1(检查假设)。当且仅当结果被检查且相关时才点击结果，其被公式化为

E_{i} = 1, R_{i} = 1 &DoubleLeftRightArrow; C_{i} = 1 - - - (2)

其中R_i和E_i是彼此独立的。

等价地，公式(2)可以以概率的方式重新用公式表示为：

Pr(C_i＝1|E_i＝1，R_i＝1)＝1 (3)

Pr(C_i＝1|E_i＝0)＝0 (4)

Pr(C_i＝1|R_i＝0)＝0 (5)

在对R_i求和之后，该假设被简化为

\Pr (C_{i} = 1 | E_{i} = 1) = r_{π_{i}} - - - (6)

Pr(C_i＝1|E_i＝0)＝0 (7)

结果，文档点进率被表示为

其中位置偏差和文档相关性被分解。该假设已被用在各种点击模型中以减轻位置偏差问题。

上述另一点击模型，级联点击模型是基于级联假设的，其可以被公式化为如下：

假设2(级联假设)。用户没有遗漏地完全检查搜索结果，并且第一结果总是被检查：

Pr(E_i＝1)＝1 (8)

Pr(E_i+1＝1|E_i＝0)＝0 (9)

级联模型将检查假设和级联假设组合在一起，并进一步假定用户在达到第一点击之后停止检查并放弃搜索会话：

Pr(E_i+1＝1|E_i＝1，C_i)＝1-C_i (10)

然而，该模型过于受到限制并且只能处理最多具有一个点击的搜索会话。

相关点击模型(DCM)级联模型推广到包括具有多个点击的会话，并且引入一组位置相关的参数，即

Pr(E_i+1＝1|E_i＝1，C_i＝1)＝λ_i (11)

Pr(E_i+1＝1|E_i＝1，C_i＝0)＝1 (12)

其中λ_i表示在点击之后检查下一文档的概率。这些参数是全局性的，且因此在所有搜索会话之间共享。该模型假定用户检查最后一次点击以下的所有后续的摘要。实际上，如果用户对最后点击的文档感到满意，她通常不继续检查后续的搜索结果。

动态贝叶斯网络模型(DBN)假定摘要的吸引力确定用户是否点击它以查看相应的文档，而用户对文档的满意度确定用户是否检查下一文档。从形式上而言，

\Pr (E_{i + 1} = 1 | E_{i} = 1, C_{i} = 1) = γ ({1 - 8}_{π_{i}}) - - - (13)

Pr(E_i+1＝1|E_i＝1，C_i＝0)＝γ，(14)

其中参数γ是用户无需点击而检查下一文档的概率，而参数sπ_i是用户满意度。实验比较表明DBN模型优于基于级联假设的其他点击模型。DBN模型采用期望最大化算法来估计参数，其可能需要为收敛做出大量迭代。用于DBN方法的贝叶斯推断方法，期望传播，在T.P.Minka的“Expectation propagation forapproximate Bayesian inference(用于近似贝叶斯推断的期望传播)”，UAI’10第362-369页(Morgan Kaufmann Publishers Inc.)中介绍。

又一点击模型，用户浏览模型(UBM)，也是基于检查假设的，但是不遵循级联假设。相反地，它假定检查概率E_i与先前点击的摘录l_i＝max{j ∈{1，...，i-1}|C_j＝1}的位置和第i个位置与l_i的位置之间的距离相关：

\Pr (E_{i} = 1 | C_{1 : i - 1}) = β_{l_{i}, {i - l}_{i}} - - - (15)

如果对位于位置i之前的摘录没有点击，就将l_i设置为0。UBM模型下搜索会话的似然性在形式上相当简单：

\Pr (C_{1 : M}) = Π_{i = 1}^{M} {(r_{π_{i}} β_{l_{i}, i - l_{i}})}^{C_{i}} {(1 - r_{π_{i}} β_{l_{i}, {i - l}_{i}})}^{1 - C_{i}} - - - (16)

其中在所有的搜索会话之间共享

个参数。在Pr(E_i+1＝1|E_i＝1，C_i＝1)＝γ(1-S_π1)中讨论的贝叶斯浏览模型(BBM)与UBM遵循相同的假设，但是采用贝叶斯推断算法。

如上所述，检查假设是许多现有的点击模型的基础。假设主要针对对点击日志数据中的位置偏差建模。具体地，它假定点击发生的概率是在用户检查结果之后，由查询和结果唯一确定的。然而，控制实验证明检查假设所持有的假设不能完全解释点进日志数据。相反地，给定查询和经检查的结果，在对该文档的点进率之间仍然存在多样性。该现象清楚地表明位置偏差不仅是影响点击行为的偏差。

在一个实验中，用五个随机挑选的查询对两组搜索会话计算文档点进率。一个组包括实际上在位置2到10有一个点击的会话，而另一组包括在位置2到10有至少两个点击的会话。对于每一个查询，对相同的文档计算点进率，而该文档总是处于第一位置的。该实验的结果在图3中示出，图3是关于每一个查询的点进率的图示。

根据检查假设，如果文档已经被检查，那么查询和结果之间的相关性是常数。这意味着两个组中的点进率应该彼此相等，因为总是检查处于顶部位置的文档。然而，如图3中所示，对于两个组没有一个查询呈现出相同的点进率。相反地，观察到第二组中的点进率显著地高于第一组中的点进率。

为了进一步调查该分析，将第二组中的点进率减去第一组中的点进率，并且在所有搜索查询上绘制该差值的分布。图4示出了对于所有查询两个组之间的点进率的差值。所得的分布匹配高斯分布，其中心在大约0.2的正值处。具体地，对应的差值位于[-0.01，0.01]中的查询的数目仅占到所有查询的3∶34％，这表明检查假设不能精确地表征大部分查询的点击行为。

由于当用户浏览第一文档时用户可能还未阅读最后九个文档，因此相对于对最后九个文档做出的任何点击而言是否已点击了第一文档是独立的事件。由此，对于该现象唯一合理的解释是在查询背后有内在的搜索意图，而该意图导致两个组之间的点击多样性。

可以用新的假设来解决该多样性，该新的假设在此处被称为意图假设。意图假设保留检查假设提出的检查的概念。此外，意图假设假定仅在结果或摘录符合用户的搜索意图，即用户需要它时才点击该结果或摘录。由于查询部分地反映出用户的搜索意图，因此假定如果文档与查询无关，则根本不需要它是合理的。另一方面，是否需要相关文档唯一地受到用户的意图和查询之间的间隙的影响。从该定义，如果用户过去总是提交准确地反映其搜索意图的查询，那么意图假设将被降低为检查假设。

形式上，意图假设包括以下三个语句：

1.当且仅当文档被检查且是用户所需时，用户才点击搜索结果列表中的摘录以访问相应的文档。

2.如果感知到文档是不相关的，那么用户不会需要它。

3.如果感知到文档是相关的，那么是否需要它仅受到用户的意图和查询直接的间隙的影响。

图5将检查假设和意图假设的图形模型作比较。如可以在意图假设中看到的，隐藏的事件N_i被插入到R_i和C_i之间，以区分文档相关度和被点击的文档。

为了用概率的方式表示意图假设，将介绍以下注解和符号。假设在会话s中有m个结果或摘录。第i个摘录用dπ₁表示，而它是否被点击用C_i表示。C_i是二元变量。C_i＝1表示摘录被点击，而C_i＝0表示它没有被点击。相似地，摘录dπ₁是否被检查、是否被感知相关和是否所需分别用二元变量E_i、R_i和N_i来表示。在该定义下，意图假设可以被公式化为：

E_{i} = 1, N_{i} = 1 &DoubleLeftRightArrow; C_{i} = 1 - - - (17)

\Pr (R_{i} = 1) = r_{π_{i}} - - - (18)

Pr(N_i＝1|R_i＝0)＝0 (19)

Pr(N_i＝1|R_i＝1)＝μ_s (20)

此处，rπ₁是摘录dπ₁的相关性，而μ_s被定义为意图偏差。由于意图假设假定μ_s应该仅受到意图和查询的影响，因此μ_s在相同的会话中的所有摘要之间共享，这意味着它是会话s中的全局隐藏变量。然而，它在不同的会话中一般是不同的，因为意图偏差一般会是不同的。

将等式(17)、(18)、(19)和(20)组合，不难得出：

\Pr (C_{i} = 1 | E_{i} = 1) = μ_{s} r_{π_{i}} - - - (21)

Pr(C_i＝1|E_i＝0)＝0 (22)

与从检查假设导出的等式(6)相比，等式(21)将系数μ_s添加到原始的相关性π₁上。直观上，可以看出从其相关性减去折扣μ_s。

对于诸如上述基于检查假设的点击模型的点击模型，从检查假设转换到意图假设是相当简单的。实际上，只要用公式(21)代替公式(6)，而无须改变任何其他规范。此处，隐藏的意图偏差μ_s对于每一个会话s而言是局部的。每一个会话维护它自己的意图偏差，并且不同的会话的意图偏差是彼此互相独立的。

当采用意图假设来构建或重构点击模型时，所得的点击模型在此处被称为无偏差的模型。出于说明的目的，两个点击模型，DBN和UBM模型将示出意图假设的影响。基于DBN和UBM的新模型将分别被称为无偏差DBN和无偏差UBM模型。

如上所述，当构建无偏差模型时，应该为每一个会话估计μ_s的值。在已知所有μ_s后，接着应该确定点击模型的其他参数(诸如相关性)。然而，由于μ_s的估计可能也与为模型的其他参数确定的值相关，因此整个推断过程可能会停止。为了防止这个问题，可以采用表1中所示的迭代推断过程。

表1

如图1中所示，每一个迭代有两个阶段组成。在阶段A中，基于从最新的迭代获取的估计的μ_s的值来确定点击模型参数。在阶段B中，基于在阶段A中确定的参数为每一个会话估计μ_s的值。μ_s的值可以通过最大化似然函数来估计，该似然函数在这种情况下是条件概率，即在该会话期间执行的实际点击事件按照点击模型指定的发生，将μ_s作为条件。阶段A和阶段B应该被替换地和迭代地执行直至所有参数收敛。

如果可以使用在线贝叶斯推断方法确定除了s之外的参数，那么可以修改该一般推断框架。在这种情况下，即使是在包括μ_s的估计之后，推断也保留在在线模式中(即其中顺序地接收输入会话的模式)。具体地，当接收或载入会话时，将从先前的会话确定的后验分布用于获取μ_s的估计。接着，将s的估计值用于更新其他参数的分布。由于每一个参数的分布在更新前后几乎不经历改变，因此无需重新估计μ_s的值，并且无需迭代步骤。相应地，在所有的参数被更新之后，载入下一会话并且过程继续。

如上所述，UBM和DBN两个模型都可以采用贝叶斯范例来推断模型参数。根据上述方法，当要将新传入的查询会话用作训练数据时，要执行三个步骤：

综合除了μ_s之外的所有参数以获取似然函数pr(C₁：m|μ_s)。

最大化似然函数以估计μ_s的值。

固定μ_s的值并且使用贝叶斯推断方法更新其他参数。

这种在线贝叶斯推断过程便于单向和增量计算的使用，当涉及非常大规模的数据处理时这是有利的。

给定不用作训练数据的查询会话，可以从以下公式计算该会话中点击事件的联合概率分布：

\Pr (C_{1 : m}) = {&Integral;}_{0}^{1} \Pr (C_{1 : m} | μ_{s}) p (μ_{s}) d (μ_{s}) - - - (23)

为了确定P(μ_s)，调查训练过程中估计的μ_s的分布，并且为每一个查询准备s的密度柱状图。接着将密度柱状图用于近似P(μ_s)。在一个实现中，范围[0，1]被平均地分成100段，并且计算落入每一个段中的μ_s的密度。结果被用作密度分布P(μ_s)。

值得注意的是该方法不能为不包括在训练集中的会话预测意图偏差的准确值。这是因为仅当实际用户点击可用时可以估计意图偏差，而在测试数据中，用户点击是隐藏的并且对于点击模型是未知的。由此，根据从训练集获取的意图偏差分布在所有意图偏差上平均预测的未来点击的结果。该平均步骤放弃了意图假设的优点。在极端的情况下，查询从未发生在训练数据中，意图偏差可以被设置为1，其中意图假设降低为检查假设并且预测与原始模型相同的结果。

作为过程的一个示例，现在将呈现用户浏览模型(UBM)作为展示如何可以将意图假设应用到点击模式上的一个示例。也引入估计参数的贝叶斯推断程序。

给定搜索会话，UBM模型使用文档的相关性和转移概率作为其参数。如上所述，该模型中的参数用

表示。此外，如果将意图假设应用到UBM模型上，那么应该包括新的参数。该参数是关于会话s的意图偏差，用μ_s表示。在意图假设下，UBM模型的经修订的版本用公式(21)、(22)和(15)表示。

根据模型的需求，关于会话s的似然Pr(s|θ，μ_s)可以如下得到：

\Pr (s | θ, μ_{s}) \overset{Δ}{=} \Pr (C_{1 : M} | θ, μ_{s})

= Π_{i = 1}^{M} Σ_{k = 0}^{1} [\Pr (C_{i} | E_{i} = k, μ_{s}, r_{π_{i}}) . - - - (24)

\Pr (E_{i} = k | C_{1 : i - 1}, β_{l_{i}, {i - l}_{i}})]

= Π_{i = 1}^{M} {(μ_{s} r_{π_{i}} β_{l_{i}, i - l_{i}})}^{C_{i}} {(1 - μ_{s} r_{π_{i}} β_{l_{i}, {i - l}_{i}})}^{1 - C_{i}} - - - (25)

此处，C_i表示位置i处的结果是否被点击。整个数据集的总似然是每一个单个会话的似然的乘积。

该模型的参数可以使用贝叶斯范例来推断。学习过程是递增的：搜索会话一个接一个地被加载和处理，并且在贝叶斯推断过程中处理了关于该会话的数据之后就丢弃它。给定新传入的会话s，每一个参数θ∈θ的分布是基于会话数据和点击模型来更新的。在更新之前，每一个参数具有先验分布p(θ)。计算似然函数P(s|θ)并将其乘以先验分布p(θ)，就得出后验分布P(s|θ)。最后，关于θ的先验分布来更新θ的分布。

更详细地检查更新程序，首先在θ上更新似然函数(25)以得到仅被意图偏差占据的边缘似然函数：

Pr(s|μ_s)＝∫_R|θ|p(θ)Pr(s|θ，μ_s)dθ

由于Pr(s|μ_s)是单峰函数，因此它可以通过对参数μ_s进行三元搜索程序来最大化，参数μ_s在[0，1]的范围内。接着用μ_s表示μ_s的最优值。

一旦优化了μ_s，就经由贝叶斯法则对每一个参数θ∈θ得出后验分布：

p (θ | s, μ_{s} = μ_{s}^{*}) &Proportional; p (θ) {&Integral;}_{R | θ^{'} |} \Pr (s | θ, μ_{s} = μ_{s}^{*}) = p (θ^{'}) d θ^{'}

其中为了简化记法θ′＝θ\{θ}。

最后的步骤是根据

来更新p(θ)。为了使得整个推断过程易于操作，通常必须将p(θ)的数学形式限定为特定的分布族。在该示例中，在Y.Zhang、D.Wang、G.Wang、Z.Zhang和W.Chen的“Learning click models via probitBayesian inference(经由概率贝叶斯推断学习点击模型)”CIKM’10要出版的页面中讨论的概率贝叶斯推断(PBI)被用于获取最后的更新。PBI将通过概率链接将每一个θ与辅助变量x连接，并且限定p(x)使得它总是在高斯族中。由此，为了更新p(x)，从

得出

并且用高斯密度近似它是足够的。接着使用近似来更新p(x)并进一步更新p(θ)。由于学习过程是递增的，因此为每一个会话执行一次更新程序。

图6是从点击日志生成训练数据的方法200的实现的操作流程。在210处，从一个或多个点击日志和/或诸如工具栏日志等记录用户点击行为的任何源检索日志数据。可以在220处分析日志数据以便以上述方式计算点击模型参数。接着，在230，从日志数据确定每一个文档的相关性。在240处，相关性确定的结果可以被转换成训练数据。在一个实现中，训练数据可以包括对于给定查询一个页面关于另一页面的相关性。该训练数据可以采用对于给定查询一个页面比另一页面更相关的形式。在其他实现中，可以关于其对于查询的匹配或相关性的强度来排列或标记页面。排序可以用数字表示(例如在诸如1到5、0到10的数字刻度上等)，其中每一个数字属于不同的相关性级别，或用文本表示(例如“完美”、“极好”、“好”、“较好”、“差”等)。

如在本申请中所使用的，术语“组件”、“模块”、“引擎”、“系统”、“装置”、“接口”等一般旨在表示计算机相关的实体，该实体可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如，组件可以是，但不限于是，在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明，运行在控制器上的应用程序和控制器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程中，并且组件可以位于一个计算机内和/或分布在两个或更多计算机之间。

此外，所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。在此使用的术语“制品”旨在涵盖可以从任何计算机可读设备、载体或介质访问的计算机程序。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，紧致盘(CD)、数字多功能盘(DVD)……)、智能卡和闪存设备(例如，卡、棒、钥匙驱动器……)。当然，本领域的技术人员将会认识到，在不背离所要求保护的主题的范围或精神的前提下可以对这一配置进行许多修改。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上文所描述的具体特征和动作是作为实现权利要求的示例形式来公开的。

Claims

1.一种生成用于搜索引擎的训练数据的方法，包括：

检索(210)关于用户点击行为的日志数据；

基于包括参数的点击模型来分析(220)日志数据以确定多个页面中每一个页面与查询的相关性，所述参数涉及表示用户在执行搜索时的意图的用户意图偏差；以及

将所述页面的相关性转换(240)成训练数据。

2.如权利要求1所述的方法，其特征在于，所述用户意图偏差通过查询(111)和文档相关性之间的关系来确定，所述查询由所述用户通过所述搜索引擎来执行以获取包括在搜索结果(112)中的文档。

3.如权利要求1所述的方法，其特征在于，所述点击模型是包括可观察到的二进制值和隐藏二进制变量的图形模型，所述可观察到的二进制值表示文档是否被点击，而所述隐藏二进制变量表示所述文档是否被所述用户检查并且是否被所述用户需要。

4.如权利要求1所述的方法，其特征在于，所述点击模型是被重构成包括涉及所述用户意图偏差的参数的DBN模型。

5.如权利要求1所述的方法，其特征在于，所述点击模型是被重构成包括涉及所述用户意图偏差的参数的UBM模型。

6.如权利要求1所述的方法，其特征在于，多个模型参数与所述点击模型相关联并且所述方法还包括：

使用涉及所述用户意图偏差的参数的初始化值来确定用于一系列训练查询会话的所述多个模型参数中的每一个的值；

对于每一个查询会话，使用已经确定的每一个模型参数的值来估算涉及所述用户意图偏差的参数的值；

以迭代方式重复所述确定和估算步骤直到所有参数收敛。

7.如权利要求6所述的方法，其特征在于，所述确定和估算步骤使用概率图形模型来与基于似然的推断一起执行。

8.如权利要求7所述的方法，其特征在于，所述概率图形模型是贝叶斯网络。

9.如权利要求6所述的方法，其特征在于，还包括对于每一个查询会话：

集成全部模型参数以导出似然函数；

最大化所述似然函数以估算涉及所述用户意图偏差的参数的值；以及

使用已经估算出的涉及所述用户意图偏差的参数的值来更新所述模型参数。

10.如权利要求6所述的方法，其特征在于，与出现在所述查询结果列表中的较高处的被点击页面相比，所述点击模型对出现在查询结果列表中的较低处的被点击页面施加更高的权重。