CN101789017A

CN101789017A - 基于用户浏览行为的网页描述文档构建方法及装置

Info

Publication number: CN101789017A
Application number: CN201010109570A
Authority: CN
Inventors: 周博; 刘奕群; 张敏; 金奕江; 马少平; 茹立云; 杨磊
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2010-02-09
Filing date: 2010-02-09
Publication date: 2010-07-28
Anticipated expiration: 2030-02-09
Also published as: CN101789017B

Abstract

本发明提出一种基于用户互联网浏览行为的网页描述文档构建方法，包括以下步骤：提取用户浏览日志中记录的用户浏览事件；根据用户浏览事件建立用户浏览链接/网页模型；根据用户浏览链接/网页模型生成网页描述文档。本发明实施例提出的网页描述文档构建方法融合了用户的网页浏览行为，从而可以在不需要人工刻意参与的情况下，准确客观和快捷及时的进行检索。

Description

基于用户浏览行为的网页描述文档构建方法及装置

技术领域

本发明涉及互联网信息检索技术领域，特别涉及一种基于用户互联网浏览行为的网页描述文档构建方法及装置。

背景技术

随着网络的不断普及，搜索引擎已经成为用户从互联网中获取知识的主要手段。目前，用户与搜索引擎进行交互的方式主要是：用户将所要寻找的信息转换成查询词，再将这些查询词提交搜索引擎，最后由搜索引擎完成信息的检索并提交给用户。

然而，用户输入的查询词往往长度有限，据统计，目前搜索引擎所接受查询词的平均长度只有2-3个字。搜索引擎有时很难从2-3个字长度的查询清楚的推测出用户实际的信息需求。因此，为了提升搜索引擎的性能，更好的满足用户的信息需求，目前搜索引擎主要通过两种方式弥补用户输入查询词的信息缺失。

第一种方式是查询扩展，即通过各种已经具备的知识或者数据挖掘出的知识对用户输入的查询词进行扩展，使得扩展后的查询能够更加清晰的描述用户的信息需求，从而提升搜索引擎的检索性能。

另一种方式是构建网页描述文档，即通过各种已经具备的知识或者数据挖掘出的知识构建网页的描述文档，其中网页描述文档一般需要具备能够描述网页主要内容或者主题思想的性质。网页描述文档可以有效增加目标网页与用户查询匹配的概率。

目前，构建网页描述文档的技术主要是：通过网页链接文本构建目标网页的网页描述文档，但是这种构建网页描述文档方法存在着以下的缺点：

1)需要首先提取并分析互联网中所有网页的链接文本，该过程会耗费巨大的计算资源与计算开销。

2)网页链接文本只是网页设计者对于目标网页的描述，仅仅体现了网页设计者对于网页主题的认识，这种对于网页的描述在很多情况下与实际用户对于网页的描述不一致。

3)网页设计者对于目标网页的描述不受任何监管，所以利用网页链接文本生成描述文档的方式无法克服网页设计者的可能的作弊行为。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是解决目前通过网页链接文本构建目标网页的网页描述文档所引起的缺陷。

为实现以上目的，本发明一方面提出了一种基于用户互联网浏览行为的网页描述文档构建方法，包括以下步骤：提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；根据所述用户浏览事件建立用户浏览链接模型；根据所述用户浏览链接模型生成网页描述文档。

在本发明的一个实施例中，通过以下公式根据用户浏览事件建立用户浏览链接模型：

P_{ul} (R | [a, d]) = \frac{| ClkIncomPage (a, d) |}{Σ_{d &Element; D} | ClkIncomPage (a, d) |},

其中，P_ul(R|[a，d])代表网页描述文档中不同链接文本a的权重，ClkIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合，D代表所有网页的集合。

在本发明的一个实施例中，所述用户浏览链接模型确定网页描述文档中各词语的权重。

本发明另一方面还提出了一种搜索引擎服务器，包括：提取模块，用于提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；模型建立模块，用于根据所述用户浏览事件建立用户浏览链接模型；文档生成模块，用于根据所述用户浏览链接模型生成网页描述文档。

本发明再一方面还提出了一种基于用户互联网浏览行为的网页描述文档构建方法，包括以下步骤：提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；根据所述用户浏览事件建立用户浏览网页模型；根据所述用户浏览网页模型生成网页描述文档。

作为本发明的一个实施例，通过以下公式根据用户浏览事件建立用户浏览网页模型：

P_{up} (R | [a, d]) = \frac{| CondIncomPage (a, d) |}{Σ_{d &Element; D} | CondIncomPage (a, d) |},

其中，R_up(R|[a，d])代表网页描述文档中不同链接文本a的权重，CondIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且满足CUE(d)*CAE(d)＞δ的超链接集合，CUE(d)代表点击某网页的用户熵值以度量某页面被不同用户点击的程度，CAE(d)代表点击某网页的点击分散熵值以用于度量某页面上用户点击的分散程度。具体地，

其中，P([u_i，d])代表页面d被用户u_i点击的概率，

其中，ClkEvent(u_i，d)代表所有由UserID是u_i的用户浏览事件。其中，P([a_i，d])代表页面d上的链接文本a_i被用户点击的概率，

ClkEvent(a_i，d)代表所有由ClkAncText是a_i的用户浏览事件。

作为本发明的一个实施例，所述用户浏览网页模型确定网页描述文档中各词语的权重。

本发明再一方面还提出了一种搜索引擎服务器，包括：提取模块，用于提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；模型建立模块，用于根据所述用户浏览事件建立用户浏览网页模型；文档生成模块，用于根据所述用户浏览网页模型生成网页描述文档。

本发明实施例提出的网页描述文档构建方法融合了用户的网页浏览行为，例如用户的浏览链接或者用户的浏览网页，从而可以在不需要人工刻意参与的情况下，准确客观和快捷及时的进行检索。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一的基于用户互联网浏览行为的网页描述文档构建方法流程图；

图2为本发明实施例一的搜索引擎服务器的结构图；

图3为本发明实施例二的基于用户互联网浏览行为的网页描述文档构建方法流程图；

图4为本发明实施例二的搜索引擎服务器的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

用户通过网页上的超链接访问互联网，当用户点击某超链接时，被点击超链接上的链接文本相较于其它超链接文本更加具有对目标网页的描述作用，因此本发明主要在于，通过用户浏览行为，如浏览时所点击的链接文本或者浏览的网页等，改进传统基于纯链接文本的网页描述文档构建方法，以达到提升信息检索性能的目的。在本发明中，可采用用户浏览日志中的数据来反映用户的浏览行为。如表1所示，为搜索引擎用户访问日志中记录的主要信息。

表1

字段名称	字段功能说明
字段名称	字段功能说明	UserID	根据用户上网时使用机器的特征给出的对用户的唯一标识
SrcURL	用户当前浏览的页面	UserID	根据用户上网时使用机器的特征给出的对用户的唯一标识

字段名称	字段功能说明
字段名称	字段功能说明	DstURL	用户点击指向的目标页面
ClkAncText	用户导航时所点击的链接文本	DstURL	用户点击指向的目标页面

以下就以具体实施例的方式对本发明的上述思想进行详细的描述，本发明可通过浏览链接和浏览网页等用户浏览行为构建网页描述文档，从而可以有效地提升信息检索的性能。但是需要说明的是，本发明不仅局限于以下两个实施例，其他能够反映用户浏览行为的特性也应包含在本发明的保护范围之内。

实施例一，

如图1所示，为本发明实施例一的基于用户互联网浏览行为的网页描述文档构建方法流程图，该实施例以用户的浏览链接为模型生成网页描述文档，包括以下步骤：

步骤S101，提取用户浏览日志中记录的用户浏览事件，其中用户浏览事件至少包括用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本等，当然本领域技术人员还可以对上述的浏览事件进行扩展，但这些扩展也应包含在本发明的保护范围之内。

步骤S102，根据用户浏览事件建立用户浏览链接模型。在本发明的一个实施例中，通过以下公式根据用户浏览事件建立用户浏览链接模型：

P_{ul} (R | [a, d]) = \frac{| ClkIncomPage (a, d) |}{Σ_{d &Element; D} | ClkIncomPage (a, d) |},

其中，P_ul(R|a，d])代表网页描述文档中不同链接文本a的权重，ClkIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合，D代表所有网页的集合。

步骤S103，根据用户浏览链接模型生成网页描述文档。其中，用户浏览链接模型可确定网页描述文档中各词语的权重，从而在检索时起作用。

对于上述方法，本实施例还提出了一种搜索引擎服务器，如图2所示，为本发明实施例一的搜索引擎服务器的结构图。该搜索引擎服务器100包括提取模块110、模型建立模块120和文档生成模块130。提取模块110用于提取用户浏览日志中记录的用户浏览事件，该用户浏览事件至少包括用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本。模型建立模块120用于根据用户浏览事件建立用户浏览链接模型，其模型建立方式与上述方法相同，在此不再赘述。文档生成模块130用于根据用户浏览链接模型生成网页描述文档。

实施例二，

如图3所示，为本发明实施例二的基于用户互联网浏览行为的网页描述文档构建方法流程图，与实施例一不同的是，该实施例以用户的浏览网页为模型生成网页描述文档，包括以下步骤：

步骤S301，提取用户浏览日志中记录的用户浏览事件，该用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本。

步骤S302，根据用户浏览事件建立用户浏览网页模型。在本发明的一个实施例中，可通过以下公式根据用户浏览事件建立用户浏览网页模型：

P_{up} (R | [a, d]) = \frac{| CondIncomPage (a, d) |}{Σ_{d &Element; D} | CondIncomPage (a, d) |},

其中，P_up(R|[a，d])代表网页描述文档中不同链接文本a的权重，CondIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且满足CUE(d)*CAE(d)＞δ的超链接集合，CUE(d)代表点击某网页的用户熵值以度量某页面被不同用户点击的程度，CAE(d)代表点击某网页的点击分散熵值以用于度量某页面上用户点击的分散程度。

在本发明的一个实施例中，其中，P([u_i，d])代表页面d被用户u_i点击的概率，

其中，ClkEvent(u_i，d)代表所有由UserID是u_i的用户浏览事件。

在本发明的一个实施例中，

其中，P([a_i，d])代表页面d上的链接文本a_i被用户点击的概率，

ClkEvent(a_i，d)代表所有由ClkAncText是a_i的用户浏览事件。

步骤S303，根据用户浏览网页模型生成网页描述文档。其中，用户浏览网页模型可确定网页描述文档中各词语的权重，从而在检索时起作用。

同样对于上述方法，本实施例也提出了一种搜索引擎服务器，如图4所示为本发明实施例二的搜索引擎服务器的结构图，该搜索引擎服务器200包括提取模块210、模型建立模块220和文档生成模块230。提取模块210用于提取用户浏览日志中记录的用户浏览事件，用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本。模型建立模块220用于根据用户浏览事件建立用户浏览网页模型，其模型建立方式与上述方法相同，在此不再赘述。文档生成模块230用于根据用户浏览网页模型生成网页描述文档。

为了验证本发明上述实施例的有效性和可靠性，我们进行了性能评测的相关试验。性能评测中使用了1.3亿网页数据集合，存储规模达5T；使用了搜狗搜索引擎2008年12月的用户浏览日志。同时使用了3000个来自真实搜索引擎用户的查询作为测试集合，这些查询的正确答案由专业的标注人员进行标注。评价指标采用了信息检索领域公认的评测指标MAP，该评测指标的公式如下：

MAP (Q) = \frac{1}{| Q |} Σ_{j = 1}^{| Q |} \frac{1}{m_{j}} Σ_{k = 1}^{m_{j}} Precision (R_{jk}),

最后的测试结果是：

	全部查询	导航类查询	信息类查询	事务类查询
	全部查询	导航类查询	信息类查询	事务类查询	原始链接文本	0.113	0.136	0.125	0.096
用户浏览链接模型	0.19	0.318	0.131	0.111	原始链接文本	0.113	0.136	0.125	0.096
用户浏览链接模型	0.19	0.318	0.131	0.111	用户浏览网页	0.209	0.302	0.173	0.138
模型					用户浏览网页	0.209	0.302	0.173	0.138

从表中的结果可以看出两种模型生成的网页描述文档相较于原始链接文本都有明显的性能优势。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，包括以下步骤：

提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；

根据所述用户浏览事件建立用户浏览链接模型；

根据所述用户浏览链接模型生成网页描述文档。

2.如权利要求1所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，通过以下公式根据用户浏览事件建立用户浏览链接模型：

P_{ul} (R | [a, d]) = \frac{| ClkIncomPage (a, d) |}{Σ_{d &Element; D} | ClkIncomPage (a, d) |},

其中，R_ul(R|[a，d])代表网页描述文档中不同链接文本a的权重，ClkIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合，D代表所有网页的集合。

3.如权利要求1所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，所述用户浏览链接模型确定网页描述文档中各词语的权重。

4.一种搜索引擎服务器，其特征在于，包括：

提取模块，用于提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；

模型建立模块，用于根据所述用户浏览事件建立用户浏览链接模型；

文档生成模块，用于根据所述用户浏览链接模型生成网页描述文档。

5.如权利要求4所述的搜索引擎服务器，其特征在于，所述模型建立模块通过以下公式根据用户浏览事件建立用户浏览链接模型：

P_{ul} (R | [a, d]) = \frac{| ClkIncomPage (a, d) |}{Σ_{d &Element; D} | ClkIncomPage (a, d) |},

6.一种基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，包括以下步骤：

根据所述用户浏览事件建立用户浏览网页模型；

根据所述用户浏览网页模型生成网页描述文档。

7.如权利要求6所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，通过以下公式根据用户浏览事件建立用户浏览网页模型：

P_{up} (R | [a, d]) = \frac{| CondIncomPage (a, d) |}{Σ_{d &Element; D} | CondIncomPage (a, d) |},

8.如权利要求7所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，

CUE (d) = - \underset{u_{i} &Element; U}{Σ} P ([u_{i}, d]) \log (P ([u_{i}, d])),

其中，P([u_i，d])代表页面d被用户u_i点击的概率，

P ([u_{i}, d]) = \frac{| ClkEvent (u_{i}, d) |}{Σ_{u_{i} &Element; U} | ClkEvent (u_{i}, d) |},

其中，ClkEvent(u_i，d)代表所有由UserID是u_i的用户浏览事件。

9.如权利要求7或8所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，

CAE (d) = - \underset{a_{i} &Element; A}{Σ} P ([a_{i}, d]) \log (P ([a_{i}, d])),

ClkEvent(a_i，d)代表所有由ClkAncText是a_i的用户浏览事件。

10.如权利要求6所述的基于用户互联网浏览行为的网页描述文档构建方法，其特征在于，所述用户浏览网页模型确定网页描述文档中各词语的权重。

11.一种搜索引擎服务器，其特征在于，包括：

模型建立模块，用于根据所述用户浏览事件建立用户浏览网页模型；

文档生成模块，用于根据所述用户浏览网页模型生成网页描述文档。

12.如权利要求11所述的搜索引擎服务器，其特征在于，通过以下公式根据用户浏览事件建立用户浏览网页模型：

P_{up} (R | [a, d]) = \frac{| CondIncomPage (a, d) |}{Σ_{d &Element; D} | CondIncomPage (a, d) |},

13.如权利要求12所述的搜索引擎服务器，其特征在于，

CUE (d) = - \underset{u_{i} &Element; U}{Σ} P ([u_{i}, d]) \log (P ([u_{i}, d])),

其中，P([u_i，d])代表页面d被用户u_i点击的概率，

P ([u_{i}, d]) = \frac{| ClkEvent (u_{i}, d) |}{Σ_{u_{i} &Element; U} | ClkEvent (u_{i}, d) |},

其中，ClkEvent(u_i，d)代表所有由UserID是u_i的用户浏览事件。

14.如权利要求12或13所述的搜索引擎服务器，其特征在于，

CAE (d) = - \underset{a_{i} &Element; A}{Σ} P ([a_{i}, d]) \log (P ([a_{i}, d])),

ClkEvent(a_i，d)代表所有由ClkAncText是a_i的用户浏览事件。