Suche Bilder Maps Play YouTube News Gmail Drive Mehr »
Anmelden
Nutzer von Screenreadern: Klicke auf diesen Link, um die Bedienungshilfen zu aktivieren. Dieser Modus bietet die gleichen Grundfunktionen, funktioniert aber besser mit deinem Reader.

Patentsuche

  1. Erweiterte Patentsuche
VeröffentlichungsnummerCN102542003 B
PublikationstypErteilung
AnmeldenummerCN 201110409156
Veröffentlichungsdatum20. Jan. 2016
Eingetragen30. Nov. 2011
Prioritätsdatum1. Dez. 2010
Auch veröffentlicht unterCN102542003A, US20120143789
Veröffentlichungsnummer201110409156.1, CN 102542003 B, CN 102542003B, CN 201110409156, CN-B-102542003, CN102542003 B, CN102542003B, CN201110409156, CN201110409156.1
Erfinder王刚, 陈伟柱, 陈正
Antragsteller微软技术许可有限责任公司
Zitat exportierenBiBTeX, EndNote, RefMan
Externe Links:  SIPO, Espacenet
用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型
CN 102542003 B
Zusammenfassung
本发明公开了用于顾及当用户在搜索引擎中提出查询时的用户意图的点击模型。一种生成用于搜索引擎的训练数据的方法通过检索涉及用户点击行为的日志数据来开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与查询的相关性,该参数涉及表示用户在执行搜索时的意图的用户意图偏差。然后将这些页面的相关性转换成训练数据。
Ansprüche(10)
1. 一种生成用于搜索引擎的训练数据的方法,包括: 检索(210)关于用户点击行为的日志数据; 基于包括参数的点击模型来分析(220)日志数据,所述参数涉及表示用户在执行搜索 时的意图的用户意图偏差,其中对于每一个查询会话,使用已经估算出的涉及所述用户意 图偏差的参数的值来更新所述点击模型的参数; 从所述日志数据中确定每一个文档的相关性;以及 将所述文档的相关性转换(240)成训练数据。
2. 如权利要求1所述的方法,其特征在于,所述用户意图偏差通过查询(111)和文档相 关性之间的关系来确定,所述查询由所述用户通过所述搜索引擎来执行以获取包括在搜索 结果(112)中的文档。
3. 如权利要求1所述的方法,其特征在于,所述点击模型是包括可观察到的二进制值 和隐藏二进制变量的图形模型,所述可观察到的二进制值表示文档是否被点击,而所述隐 藏二进制变量表示所述文档是否被所述用户检查并且是否被所述用户需要。
4. 如权利要求1所述的方法,其特征在于,所述点击模型是被重构成包括涉及所述用 户意图偏差的参数的DBN模型。
5. 如权利要求1所述的方法,其特征在于,所述点击模型是被重构成包括涉及所述用 户意图偏差的参数的UBM模型。
6. 如权利要求1所述的方法,其特征在于,多个模型参数与所述点击模型相关联并且 所述方法还包括: 使用涉及所述用户意图偏差的参数的初始化值来确定用于一系列训练查询会话的所 述多个模型参数中的每一个的值; 对于每一个查询会话,使用已经确定的每一个模型参数的值来估算涉及所述用户意图 偏差的参数的值; 以迭代方式重复所述确定和估算步骤直到所有参数收敛。
7. 如权利要求6所述的方法,其特征在于,所述确定和估算步骤使用概率图形模型来 与基于似然的推断一起执行。
8. 如权利要求7所述的方法,其特征在于,所述概率图形模型是贝叶斯网络。
9. 如权利要求6所述的方法,其特征在于,还包括对于每一个查询会话: 集成全部模型参数以导出似然函数;以及 最大化所述似然函数以估算涉及所述用户意图偏差的参数的值。
10. 如权利要求6所述的方法,其特征在于,与出现在查询结果列表中的较高处的被点 击页面相比,所述点击模型对出现在所述查询结果列表中的较低处的被点击页面施加更高 的权重。
Beschreibung
用于顾及当用户在搜索引擎中提出查询时的用户意图的点 击模型

技术领域

[0001] 本发明搜索引擎,尤其涉及生成用于搜索引擎的训练数据的方法。

背景技术

[0002] 对于连接到万维网("web")的主计算机的用户而言,采用web浏览器和搜索引擎 来定位具有用户感兴趣的特定内容的网页已经是常见的。诸如微软的Live搜索等搜索引 擎索引由全世界的计算机维护的数百亿个网页。主计算机的用户编撰查询,而搜索引擎标 识匹配这些查询的页面或文档,例如包括查询的关键字的页面。这些页面或文档被称为结 果集。在许多情况下,在查询时对结果集中的页面进行排名是计算上昂贵的。

[0003] 多个搜索引擎在它们的排名技术中依靠许多特征。证据源可包括查询和页面或查 询和指向页面的超链接的锚文本之间的文本相似性、例如经由浏览器工具栏或通过对搜索 结果页面中的链接的点击来测量的页面的用户流行度、以及作为内容提供者之间的对等背 签的形式来查看的页面之间的超接合(hyper-linkage)。排名技术的有效性能够影响页面 相对于查询的相对质量或相关性,以及页面被查看的概率。

[0004] -些现有搜索引擎经由对页面进行打分的函数来对搜索结果进行排名。该函数从 训练数据中自动习得。训练数据又通过向人类判定者提供查询/页面组合来创建,该人类 判定者被要求基于页面有多好地匹配查询来标记页面,例如完美、优秀、良好、一般或差。每 一查询/页面组合都被转换成特征向量,特征向量然后被提供给能够导出归纳训练数据的 函数的机器学习算法。

[0005] 对于常识查询,人类判定者能够得出对页面有多好地匹配查询的合理评估是很有 可能的。然而,在判定者如何评估查询/页面组合时存在广泛的变化。这部分地是由于对 于查询的较好或较差页面的先验知识,以及定义对查询的"完美"回答的主观特性(这对于 诸如"优秀"、"良好"、"一般"和"差"之类的其他定义亦如此)。实际上,查询/页面对通常 仅由一个判定者来评估。此外,判定者可能不具有查询的任何知识并因此提供不正确的评 级。最终,web上的大量查询和页面暗示将需要判定非常多的对。将该人类判定过程缩放 到越来越多的查询/页面组合将会是富有挑战性的。

[0006] 点击日志中嵌入关于用户对搜索引擎的满意度的重要信息并且能够提供相关性 信息的高度有价值的源。与人类判定者相比,获取点击便宜得多并且点击通常反映当前相 关性。然而,已知点击由于呈现次序、文档的外观(例如,标题和摘要)以及各个站点的声 誉而发生偏差。已经作出各种尝试以解决在分析点击和搜索结果相关性之间的关系时出现 的这种和其他偏差。这些模型包括位置模型、级联模型以及动态贝叶斯网络(DNB)模型。

发明内容

[0007] 具有不同搜索意图的用户可能向搜索引擎提交相同的查询却期望不同的搜索结 果。因此,在用户搜索意图和用户指定的查询之间可能存在偏差,而导致用户点击时可观察 到的差异。换而言之,搜索结果的吸引力不仅受到其相关性的影响,也是由查询背后用户潜 在的搜索意图所确定的。由此,用户点击可以由意图偏差和相关性两者确定。如果用户没 有清楚地制定其输入查询以精确地表达其信息需求,就会有较大的意图偏差。

[0008] 在一个实现中,提供包含此处被称为意图假设的新的假设的点击模型。意图假设 假定仅在结果或摘录符合用户的搜索意图,即它是用户所需的之后才点击它。由于查询部 分地反映出用户的搜索意图,因此如果文档与查询无关那么假定根本不需要它是合理的。 另一方面,相关文档是否需要是唯一地受到用户意图和查询之间的间隙的影响。

[0009] 根据另一实现,生成用于搜索引擎的训练数据的方法从检索关于用户点击行为的 日志数据开始。基于包括参数的点击模型来分析日志数据以确定多个页面中每一个页面与 查询的相关性,该参数涉及表示用户在执行搜索时的意图的用户意图偏差。接着将页面的 相关性转换成训练数据。在一个特定的实现中,点击模型是包括表示文档是否被点击的可 观察到的二进制值以及表示文档是否被用户检查和被用户需要的隐藏的二进制变量。

[0010] 提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述 的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不 旨在用于限定所要求保护的主题的范围。

[0011] 附图简述

[0012] 图1示出了搜索引擎在其中运行的示例性环境100。

[0013] 图2描述了意图、查询和在会话期间找到的文档之间的三角关系,其中连接两个 实体的边度量两个实体时间的匹配度。

[0014] 图3是在为用五个随机挑选的查询对两组搜索会话执行的实验中每一个查询的 点进率的图示。

[0015] 图4示出了用于图3中使用的所有搜索查询的第一和第二组之间的点进率之间的 差值的分布。

[0016] 图5将检查假设和意图假设的图形模型作比较。

[0017] 图6是用于从点击日志生成训练数据的方法的实现的操作流程。

具体实施方式

[0018] 图1示出了搜索引擎可在其中运行的示例性环境100。环境包括由网络130,例如 因特网、广域网(WAN)或局域网(LAN)彼此连接的一个或多个客户计算机110和一个或多 个服务器计算机120 (通常是"主机")。网络130提供对诸如万维网("web")131的服务 的访问。

[0019] Web 131允许客户计算机110访问包含包含在例如由服务器计算机120维护和服 务的网页121(例如网页或其他文档)中的基于文本的或多媒体内容的文档。通常,这是由 在客户计算机110中执行的web浏览器应用程序114完成。每一个页面121的位置可以由 诸如输入到web浏览器应用程序114中以访问网页121的。许多网页可以包括到其他网页 121的超链接123。超链接也可以是URL的形式的。虽然此处关于是页面的文档描述了实 现,但是应当理解环境可以包括具有可以被表征的内容和连接性的任何链接数据对象。

[0020] 为了帮助用户定位感兴趣的内容,搜索引擎140可以在例如盘存储、随机访问存 储器(RAM)或数据库的存储器中包含页面的索引141。响应于查询111,搜索引擎140返回 满足查询111的项(例如关键词)的结果集112。

[0021] 由于搜索引擎140存储上百万的页面,尤其是当查询111是松散地指定时,结果集 112可以包括许多合格的页面。这些页面可以与用户的实际信息需求有关或无关。因此,向 客户机110呈现的结果集112的顺序影响用户关于搜索引擎140的经验。

[0022] 在一个实现中,排序过程可以作为搜索引擎140中的排序引擎的一部分来实现。 排序过程可以是基于此处进一步描述的点击日志150的,以改进结果集112中页面的排序, 这样可以更加精确地标识与特定话题相关的页面113。

[0023] 对于提供给搜索引擎140的每一个查询111,点击日志150可以包括提供的查询 111、提供它的时间、作为结果集112向用户示出的多个页面(例如十个页面、二十个页面 等)以及用户点击过的结果集112的页面。如此处所使用的,项点击是指用户通过任何适 当的用户界面设备选择页面或其他对象的任何方式。点击可以被组合到会话中,并且可用 于推断用户对于给定的查询点击的页面的顺序。点击日志150由此可用于推断关于特定页 面的相关性的人类判断。虽然仅示出了一个点击日志150,但是可以关于此处所描述的技术 和方面使用任何数目的点击日志。

[0024] 点击日志150可以被解释并用于生成可以由搜索引擎140的使用的训练数据。较 高质量的训练数据提供更好地排列的搜索结果。用户点击的页面和跳过的页面可用于评估 页面与查询11的相关性。此外,用于训练数据的标签可以基于来自点击日志150的数据生 成。标签可以改进搜索引擎相关性排序。

[0025] 累计多个用户的点击比单个人类判断提供更好的相关性确定。用户一般知道一点 查询并且因此点击结果的多个用户带来意见的多样性。对于单个人类的判断,判断有可能 没有查询的知识。此外,点击大部分是彼此独立的。每一个用户的点击不是由其他用户的 点击确定。具体地,更多用户发出查询并点击他们感兴趣的结果。存在某些细微的相关性, 例如朋友可以向彼此推荐链接。然而,在很大程度上,点击是独立的。

[0026] 由于考虑来自多个用户的点击数据,因此相对于可能或可能不知道查询以及可能 不知道查询结果的人类判断而言,可以获取特例和有关局部知识的描绘。除了更多的"判 断"(用户)之外,点击日志也提供关于更多查询的判断。此处所描述的技术可以被应用到 头查询(经常询问的查询)和尾查询(不经常询问的查询)。由于提出来自他们自身兴趣 的查询的用户更可能能够评估作为查询的结果呈现的页面的相关性,因此而改进每一个率 的质量。

[0027] 排序引擎142可以包括日志数据分析器145和训练数据生成器147。日志数据分 析器145可以例如经由数据源访问引擎143从点击日志150接收点击日志数据152。日志 数据分析器145可以分析点击日志数据152并且向训练数据生成器147提供分析的结果。 训练数据生成器147可以使用例如工具、应用程序和累加器来基于分析的结果确定特定页 面的相关性或标签,并且可以将相关性和标签应用到页面上,如此处进一步描述的。排序引 擎142可以包括可包括日志数据分析器145、训练数据生成器147和数据源访问引擎143的 计算设备,并且可用于此处所描述的技术和操作的性能。

[0028] 在结果集中,向用户呈现较小的页面或文档。这些较小页面被称为摘要。应该注 意向用户示出的文档的较好的摘录(看起来高度相关的)可以人工地造成较差的(例如不 相关的)页面被更多地点击,并且相似地,较差的摘录(看起来不相关的)可以造成高度相 关的页面被较少地点击。构想了摘录的质量可以与文档的质量捆绑。摘录通常可以包括搜 索标题、来自页面或文档的文本的简要部分以及URL。

[0029] 已经发现用户更可能点击排名较高的页面,而不管该页面是否实际上与查询相 关。这被称为位置偏差。试图解决位置偏差的一种点击模式是位置点击模式。该模式假设 仅当用户实际检查摘录并得出结果与搜索相关的结论时才点击结果。这个想法稍后被公式 化为检查假设。此外,模型假定检查的概率仅与结果的位置相关。被称为检查点击模型的 另一模型通过用倍增因数奖励在搜索结果中位置较低的相关文档来扩展位置点击模型。检 查假设假定如果检查了文档,那么对于给定的查询文档的点进率是常数,其值由查询和文 档之间的相关性来确定。被称为级联点击模型的另一模型通过假定用户完全扫描搜索结果 来进一步扩展检查点击模型。

[0030] 上述点击模型不在结果(即摘录)的实际和感知相关性之间区分。即,当用户检 查结果并认为它相关时,用户仅感知该结果是相关的,而不是确实知道。仅当用户实际点击 结果并检查页面或文档自身时,用户才能够了解结果是否实际相关。在结果的实际和感知 相关性之间区分的一个模型是DBN模型。

[0031] 尽管它们在解决位置偏差问题方面的成功,但是用户点击不能完全用相关性和位 置偏差来解释。具体地,具有不同搜索意图的用户可能向搜索引擎提交相同的查询,却期望 不同的搜索结果。因此,可能在用户搜索意图和用户制定的查询之间存在偏差,这导致用户 点击中可观察到的多样性。换而言之,单个查询可能不能精确地反映出用户搜索意图。取查 询"iPad™"作为一个示例。由于用户希望浏览有关iPad的一般信息,她可能提交该查询, 且假定从apple, com或wikipedia. com接收到的搜索结果对她是有吸引力的。相反地,提 供相同的查询的另一用户可能查找诸如用户对iPad的评论或反馈的信息。在这种情况下, 更有可能点击如技术评论和讨论的搜索结果。该示例表明搜索结果的吸引力不仅受到其相 关性的影响,也是由查询背后用户潜在的搜索意图所确定的。

[0032] 图2描述了意图、查询和在会话期间找到的文档之间的三角关系,其中连接两个 实体的边度量两个实体时间的匹配度。每一个用户在提交查询前有内在的搜索意图。当用 户来到搜索引擎时,她根据其搜索意图制定查询,并且将查询提交给搜索引擎。意图偏差度 量意图和查询之间的匹配度。搜索引擎接收查询并返回经排序的文档列表,而相关性度量 查询和文档之间的匹配度。用户检查每一个文档并且更可能点击相对于其他文档更好地满 足其信息需求的文档。

[0033] 图2中的三角关系表明用户点击是由意图偏差和相关性两者确定的。如果用户没 有清楚地定制其输入查询以精确地表达其信息需求,那么将会有较大的意图偏差。由此,用 户不可能点击不符合其搜索意图的文档,即使该文档与查询非常相关。检查假设可以被认 为是简化的情况,其中搜索意图和输入查询是等价的并且没有意图偏差。因此,当仅采用检 查假设时,可能会错误地估计查询和文档之间的相关性。

[0034] 以下定义和注解对于描述此处所述的方法和系统的各方面和实现会是有用的。 用户提交查询q并且搜索引擎返回包含M(例如10)个结果或摘要的搜索结果页面,由 {dTTi}Ml表示,其中i是在第i个位置处结果的索引。用户检查每一个搜索结果的摘录并 1 = 且点击它们中的一些或一个都不点击。相同的查询内的搜索被称为搜索会话,用S表示。在 一个搜索会话中不考虑对赞助商广告或其他web元素的点击。随后对查询的重新提交或重 新制定被作为新的会话来对待。

[0035] 三个二元随机变量Q、EjP R i被定义为在第i个位置处的模型用户点击、用户检 查和文档相关性事件:

[0036] C1:用户是否点击了结果;

[0037] E1:用户是否检查了结果;

[0038] R1:对应于结果的目标文档是否是相关的

[0039] 其中第一事件可以从搜索会话观察到,而后两个事件是隐藏的。PHC1= 1)是第 i个文档的CTR,Pr (E1= 1)是检查第i个文档的概率,而Pr (R1= 1)是第i个文档的相关 性。参数A被用于表示文档相关性如下:

[0041] 接着,上述的检查假设可以如下表示:

[0042] 假设1 (检查假设)。当且仅当结果被检查且相关时才点击结果,其被公式化为

[0044] 其中民和E肩彼此独立的。

[0045] 等价地,公式(2)可以以概率的方式重新用公式表示为:

[0046] PrCC,= IlE1= LR1=I) =1 (3)

[0047] Pr (C1= IlE1=O) = 0 (4)

[0048] Pr (C1= IjR1=O) = 0 (5)

[0049] 在对民求和之后,该假设被简化为

[0052] 结果,文档点进率被表示为

[0055] 其中位置偏差和文档相关性被分解。该假设已被用在各种点击模型中以减轻位置 偏差问题。

[0056] 上述另一点击模型,级联点击模型是基于级联假设的,其可以被公式化为如下:

[0057] 假设2 (级联假设)。用户没有遗漏地完全检查搜索结果,并且第一结果总是被检 查:

[0058] Pr (E1= I) = 1 (8)

[0059] Pr(Ew=IlE1=O)=O (9)

[0060] 级联模型将检查假设和级联假设组合在一起,并进一步假定用户在达到第一点击 之后停止检查并放弃搜索会话:

[0061] Pr(Ew=IlE1=LC1)=I-C1 (10)

[0062] 然而,该模型过于受到限制并且只能处理最多具有一个点击的搜索会话。

[0063] 相关点击模型(DCM)级联模型推广到包括具有多个点击的会话,并且引入一组位 置相关的参数,即

[0064] Pr(Ei+1= IlEi=LCi=D = Ai (11)

[0065] Pr (Ei+1 = IjEi= LCi=O) = I (12)

[0066] 其中λ 1表示在点击之后检查下一文档的概率。这些参数是全局性的,且因此在 所有搜索会话之间共享。该模型假定用户检查最后一次点击以下的所有后续的摘要。实际 上,如果用户对最后点击的文档感到满意,她通常不继续检查后续的搜索结果。

[0067] 动态贝叶斯网络模型(DBN)假定摘要的吸引力确定用户是否点击它以查看相应 的文档,而用户对文档的满意度确定用户是否检查下一文档。从形式上而言,

[0070] 其中参数γ是用户无需点击而检查下一文档的概率,而参数s π 1是用户满意度。 实验比较表明DBN模型优于基于级联假设的其他点击模型。DBN模型采用期望最大化算法 来估计参数,其可能需要为收敛做出大量迭代。用于DBN方法的贝叶斯推断方法,期望传 播,在Τ. Ρ. Minka 的"Expectation propagation forapproximate Bayesian inference (用 于近似贝叶斯推断的期望传播)",UAI' 10第362-369页(Morgan Kaufmann Publishers Inc.)中介绍。

[0071] 又一点击模型,用户浏览模型(UBM),也是基于检查假设的,但是不遵循级联假设。 相反地,它假定检查概率E i与先前点击的摘录1 ;= max{j e {1,. . .,i-1} |C_j= 1}的位 置和第i个位置与U的位置之间的距离相关:

[0073] 如果对位于位置i之前的摘录没有点击,就将I1设置为0。UBM模型下搜索会话 的似然性在形式上相当简单:

[0075] 其中在所有的搜索会话之间共寧

个参数。在Pr (Ei+1= I |E ;= 1,C ; =1) = γ (I-S111)中讨论的贝叶斯浏览模型(BBM)与UBM遵循相同的假设,但是采用贝叶 斯推断算法。

[0076] 如上所述,检查假设是许多现有的点击模型的基础。假设主要针对对点击日志数 据中的位置偏差建模。具体地,它假定点击发生的概率是在用户检查结果之后,由查询和结 果唯一确定的。然而,控制实验证明检查假设所持有的假设不能完全解释点进日志数据。相 反地,给定查询和经检查的结果,在对该文档的点进率之间仍然存在多样性。该现象清楚地 表明位置偏差不仅是影响点击行为的偏差。

[0077] 在一个实验中,用五个随机挑选的查询对两组搜索会话计算文档点进率。一个组 包括实际上在位置2到10有一个点击的会话,而另一组包括在位置2到10有至少两个点 击的会话。对于每一个查询,对相同的文档计算点进率,而该文档总是处于第一位置的。该 实验的结果在图3中示出,图3是关于每一个查询的点进率的图示。

[0078] 根据检查假设,如果文档已经被检查,那么查询和结果之间的相关性是常数。这意 味着两个组中的点进率应该彼此相等,因为总是检查处于顶部位置的文档。然而,如图3中 所示,对于两个组没有一个查询呈现出相同的点进率。相反地,观察到第二组中的点进率显 著地高于第一组中的点进率。

[0079] 为了进一步调查该分析,将第二组中的点进率减去第一组中的点进率,并且在所 有搜索查询上绘制该差值的分布。图4示出了对于所有查询两个组之间的点进率的差值。 所得的分布匹配高斯分布,其中心在大约〇. 2的正值处。具体地,对应的差值位于[-0. 01, 0.01]中的查询的数目仅占到所有查询的3 : 34%,这表明检查假设不能精确地表征大部 分查询的点击行为。

[0080] 由于当用户浏览第一文档时用户可能还未阅读最后九个文档,因此相对于对最后 九个文档做出的任何点击而言是否已点击了第一文档是独立的事件。由此,对于该现象唯 一合理的解释是在查询背后有内在的搜索意图,而该意图导致两个组之间的点击多样性。

[0081] 可以用新的假设来解决该多样性,该新的假设在此处被称为意图假设。意图假设 保留检查假设提出的检查的概念。此外,意图假设假定仅在结果或摘录符合用户的搜索意 图,即用户需要它时才点击该结果或摘录。由于查询部分地反映出用户的搜索意图,因此假 定如果文档与查询无关,则根本不需要它是合理的。另一方面,是否需要相关文档唯一地受 到用户的意图和查询之间的间隙的影响。从该定义,如果用户过去总是提交准确地反映其 搜索意图的查询,那么意图假设将被降低为检查假设。

[0082] 形式上,意图假设包括以下三个语句:

[0083] 1.当且仅当文档被检查且是用户所需时,用户才点击搜索结果列表中的摘录以访 问相应的文档。

[0084] 2.如果感知到文档是不相关的,那么用户不会需要它。

[0085] 3.如果感知到文档是相关的,那么是否需要它仅受到用户的意图和查询直接的间 隙的影响。

[0086] 图5将检查假设和意图假设的图形模型作比较。如可以在意图假设中看到的,隐 藏的事件N 1被插入到R满C i之间,以区分文档相关度和被点击的文档。

[0087] 为了用概率的方式表示意图假设,将介绍以下注解和符号。假设在会话s中有m 个结果或摘录。第i个摘录用(Ijt1表示,而它是否被点击用Ci表示。Ci是二元变量。C i = 1表示摘录被点击,而Ci= 0表示它没有被点击。相似地,摘录d π i是否被检查、是否被感 知相关和是否所需分别用二元变量RJPN1来表示。在该定义下,意图假设可以被公式 化为:

[0092] 此处,r Ji1是摘录cU ^勺相关性,而μ s被定义为意图偏差。由于意图假设假定 yJZ该仅受到意图和查询的影响,因此μ 3在相同的会话中的所有摘要之间共享,这意味 着它是会话S中的全局隐藏变量。然而,它在不同的会话中一般是不同的,因为意图偏差一 般会是不同的。

[0093] 将等式(17)、(18)、(19)和(20)组合,不难得出:

[0096] 与从检查假设导出的等式(6)相比,等式(21)将系数ys添加到原始的相关性π i 上。直观上,可以看出从其相关性减去折扣μ s。

[0097] 对于诸如上述基于检查假设的点击模型的点击模型,从检查假设转换到意图假设 是相当简单的。实际上,只要用公式(21)代替公式(6),而无须改变任何其他规范。此处, 隐藏的意图偏差μ 3对于每一个会话s而言是局部的。每一个会话维护它自己的意图偏差, 并且不同的会话的意图偏差是彼此互相独立的。

[0098] 当采用意图假设来构建或重构点击模型对时,所得的点击模型在此处被称为无偏 差的模型。出于说明的目的,两个点击模型,DBN和UBM模型将示出意图假设的影响。基于 DBN和UBM的新模型将分别被称为无偏差DBN和无偏差UBM模型。

[0099] 如上所述,当构建无偏差模型时,应该为每一个会话估计μ s的值。在已知所有μ s 后,接着应该确定点击模型的其他参数(诸如相关性)。然而,由于μ s的估计可能也与为 模型的其他参数确定的值相关,因此整个推断过程可能会停止。为了防止这个问题,可以采 用表1中所示的迭代推断过程。

[0102] 如图1中所示,每一个迭代有两个阶段组成。在阶段A中,基于从最新的迭代获取 的估计的y s的值来确定点击模型参数。在阶段B中,基于在阶段A中确定的参数为每一 个会话估计μs的值。μ 3的值可以通过最大化似然函数来估计,该似然函数在这种情况下 是条件概率,即在该会话期间执行的实际点击事件按照点击模型指定的发生,将μ s作为条 件。阶段A和阶段B应该被替换地和迭代地执行直至所有参数收敛。

[0103] 如果可以使用在线贝叶斯推断方法确定除了 S之外的参数,那么可以修改该一般 推断框架。在这种情况下,即使是在包括μ s的估计之后,推断也保留在在线模式中(即其 中顺序地接收输入会话的模式)。具体地,当接收或载入会话时,将从先前的会话确定的后 验分布用于获取ys的估计。接着,将S的估计值用于更新其他参数的分布。由于每一个参 数的分布在更新前后几乎不经历改变,因此无需重新估计μ s的值,并且无需迭代步骤。相 应地,在所有的参数被更新之后,载入下一会话并且过程继续。

[0104] 如上所述,UBM和DBN两个模型都可以采用贝叶斯范例来推断模型参数。根据上 述方法,当要将新传入的查询会话用作训练数据时,要执行三个步骤:

[0105] 综合除了 μ s之外的所有参数以获取似然函数pr (C 1:m| μ s)。

[0106] 最大化似然函数以估计μ s的值。

[0107] 固定μ s的值并且使用贝叶斯推断方法更新其他参数。

[0108] 这种在线贝叶斯推断过程便于单向和增量计算的使用,当涉及非常大规模的数据 处理时这是有利的。

[0109] 给定不用作训练数据的查询会话,可以从以下公式计算该会话中点击事件的联合 概率分布:

[0111] 为了确定P(μ s),调查训练过程中估计的μ s的分布,并且为每一个查询准备S的 密度柱状图。接着将密度柱状图用于近似P(ys)。在一个实现中,范围[0,1]被平均地分 成100段,并且计算落入每一个段中的y s的密度。结果被用作密度分布Ρ(μ s)。

[0112] 值得注意的是该方法不能为不包括在训练集中的会话预测意图偏差的准确值。这 是因为仅当实际用户点击可用时可以估计意图偏差,而在测试数据中,用户点击是隐藏的 并且对于点击模型是未知的。由此,根据从训练集获取的意图偏差分布在所有意图偏差上 平均预测的未来点击的结果。该平均步骤放弃了意图假设的优点。在极端的情况下,查询 从未发生在训练数据中,意图偏差可以被设置为1,其中意图假设降低为检查假设并且预测 与原始模型相同的结果。

[0113] 作为过程的一个示例,现在将呈现用户浏览模型(UBM)作为展示如何可以将意图 假设应用到点击模式上的一个示例。也引入估计参数的贝叶斯推断程序。

[0114] 给定搜索会话,UBM模型使用文档的相关性和转移概率作为其参数。如上所述,该 模型中的参数用

.表示。此外,如果将意图假设应用到UBM模型上,那么应该 包括新的参数。该参数是关于会话s的意图偏差,用y s表示。在意图假设下,UBM模型的 经修订的版本用公式(21)、(22)和(15)表示。

[0115] 根据模型的需求,关于会话s的似然Pr(s| Θ,ys)可以如下得到:

[0120] 此处,(^表示位置i处的结果是否被点击。整个数据集的总似然是每一个单个会 话的似然的乘积。

[0121] 该模型的参数可以使用贝叶斯范例来推断。学习过程是递增的:搜索会话一个接 一个地被加载和处理,并且在贝叶斯推断过程中处理了关于该会话的数据之后就丢弃它。 给定新传入的会话s,每一个参数θ e θ的分布是基于会话数据和点击模型来更新的。在 更新之前,每一个参数具有先验分布Ρ(θ)。计算似然函数P(s| Θ)并将其乘以先验分布 Ρ(θ),就得出后验分布P(s| Θ)。最后,关于θ的先验分布来更新θ的分布。

[0122] 更详细地检查更新程序,首先在Θ上更新似然函数(25)以得到仅被意图偏差占 据的边缘似然函数:

[0123] Pr(s| μ5) = I R| 〇 |P ( θ ) Pr (s | θ , μ s) d θ

[0124] 由于Pr(s| ys)是单峰函数,因此它可以通过对参数ys进行三元搜索程序来最大 化,参数以 ;3在[0,1]的范围内。接着用μ s表示μ s的最优值。

[0125] 一旦优化了 ys,就经由贝叶斯法则对每一个参数θ e θ得出后验分布:

[0127] 其中为了简化记法θ ' = θ \ { θ}。

[0128] 最后的步骤是根据ρ(θ丨S,A= /4来更新ρ(θ)。为了使得整个推断过程易于 操作,通常必须将ρ(θ)的数学形式限定为特定的分布族。在该示例中,在Y.Zhang、 D. Wang、G. Wang、Ζ· Zhang 和 W. Chen 的 "Learning click models via probitBayesian inference (经由概率贝叶斯推断学习点击模型)" CIKM' 10要出版的页面中讨论的概率贝 叶斯推断(PBI)被用于获取最后的更新。PBI将通过概率链接

将每一个Θ与辅助 变量X连接,并且限定P (X)使得它总是在高斯族中。由此,为了更新P(X),从

得出

I并且用高斯密度近似它是足够的。接着使用近似来更新P(X)并进一步更 新P (Θ)。由于学习过程是递增的,因此为每一个会话执行一次更新程序。

[0129] 图6是从点击日志生成训练数据的方法200的实现的操作流程。在210处,从一 个或多个点击日志和/或诸如工具栏日志等记录用户点击行为的任何源检索日志数据。可 以在220处分析日志数据以便以上述方式计算点击模型参数。接着,在230,从日志数据确 定每一个文档的相关性。在240处,相关性确定的结果可以被转换成训练数据。在一个实 现中,训练数据可以包括对于给定查询一个页面关于另一页面的相关性。该训练数据可以 采用对于给定查询一个页面比另一页面更相关的形式。在其他实现中,可以关于其对于查 询的匹配或相关性的强度来排列或标记页面。排序可以用数字表示(例如在诸如1到5、0 到10的数字刻度上等),其中每一个数字属于不同的相关性级别,或用文本表示(例如"完 美"、"极好"、"好"、"较好"、"差"等)。

[0130] 如在本申请中所使用的,术语"组件"、"模块"、"引擎"、"系统"、"装置"、"接口 "等一 般旨在表示计算机相关的实体,该实体可以是硬件、硬件和软件的组合、软件、或者执行中 的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、对象、可执行码、 执行的线程、程序和/或计算机。作为说明,运行在控制器上的应用程序和控制器都可以是 组件。一个或多个组件可以驻留在进程和/或执行的线程中,并且组件可以位于一个计算 机内和/或分布在两个或更多计算机之间。

[0131] 此外,所要求保护的主题可以使用产生控制计算机以实现所公开的主题的软件、 固件、硬件或其任意组合的标准编程和/或工程技术而被实现为方法、装置或制品。在此使 用的术语"制品"旨在涵盖可以从任何计算机可读设备、载体或介质访问的计算机程序。例 如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁带……)、光盘 (例如,紧致盘(⑶)、数字多功能盘(DVD)……)、智能卡和闪存设备(例如,卡、棒、钥匙驱 动器……)。当然,本领域的技术人员将会认识到,在不背离所要求保护的主题的范围或精 神的前提下可以对这一配置进行许多修改。

[0132] 尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权 利要求书中定义的主题不必限于上述具体特征或动作。相反,上文所描述的具体特征和动 作是作为实现权利要求的示例形式来公开的。

Patentzitate
Zitiertes PatentEingetragen Veröffentlichungsdatum Antragsteller Titel
CN101320375A *4. Juli 200810. Dez. 2008浙江大学基于用户点击行为的数字图书搜索方法
CN101789017A *9. Febr. 201028. Juli 2010清华大学;北京搜狗科技发展有限公司基于用户浏览行为的网页描述文档构建方法及装置
*US2006064411 Titel nicht verfügbar
*US2010125570 Titel nicht verfügbar
Klassifizierungen
Internationale KlassifikationG06F17/30
UnternehmensklassifikationG06F17/30864
Juristische Ereignisse
DatumCodeEreignisBeschreibung
4. Juli 2012C06Publication
5. Sept. 2012C10Entry into substantive examination
19. Aug. 2015C41Transfer of patent application or patent right or utility model
19. Aug. 2015ASSSuccession or assignment of patent right
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC
Free format text: FORMER OWNER: MICROSOFT CORP.
Effective date: 20150728
20. Jan. 2016C14Grant of patent or utility model