CN104462084A

CN104462084A - 基于多个查询提供搜索细化建议

Info

Publication number: CN104462084A
Application number: CN201310416371.3A
Authority: CN
Inventors: 王恒; 孙谷飞; 黎文宪
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2013-09-13
Filing date: 2013-09-13
Publication date: 2015-03-25
Anticipated expiration: 2033-09-13
Also published as: US20150081656A1; US9430584B2; CN104462084B

Abstract

查询收集器可以被配置为接收由搜索引擎施加的多个查询以便获得相应的搜索结果。图形管理器可以被配置为基于多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点，而且图形管理器还被配置为基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点，而且生成代表合并的节点的至少一个代表性查询。建议生成器可以被配置为将当前查询与节点的匹配节点进行匹配，确定合并的节点是有向图内匹配节点的后续节点，而且提供至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

Description

基于多个查询提供搜索细化建议

技术领域

本说明书涉及提供搜索建议。

背景技术

诸如互联网搜索引擎的搜索引擎被广泛用于定位期望的信息。传统的搜索引擎可以被配置为，例如，抓取部分或全部的计算机网络，以识别可期望包括在未来的搜索结果内的信息。然后，这样的信息可以被编索引，以便于对它们进行搜索。以这种方式，在接收到搜索查询时，搜索引擎可以快速识别并返回对应的搜索结果。

但是，可能难以确保返回的搜索结果包括最佳或最期望的信息。例如，用户可能难以选择包括在搜索查询中的适当的关键词。为了解决这个困难和有关问题，传统的搜索引擎可以被配置为提供查询关键词的建议。不幸的是，这样的搜索建议往往不能为用户提供适当的关键词从而使得用户能够定位所期望的信息。因此，用户可能在定位所期望的信息时经历附加的挫折或延误，或者可能无法定位所期望的信息。

发明内容

根据一个总的方面，系统可以包括记录在非临时性计算机可读介质上并且能够由至少一个处理器执行的指令。系统可以包括查询收集器，其被配置为使所述至少一个处理器接收由搜索引擎施加的多个查询以便获得相应的搜索结果。系统可以包括图形管理器，其被配置为使所述至少一个处理器基于所述多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点，而且图形管理器还被配置为使所述至少一个处理器基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点，而且生成代表所述合并的节点的至少一个代表性查询。系统可以包括建议生成器，其被配置为使所述至少一个处理器将当前查询与节点的匹配节点进行匹配，确定所述合并的节点是有向图内所述匹配节点的后续节点，而且提供所述至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

实现方式可以包括以下特征中的一个或多个。例如，查询收集器还可以被配置为使所述至少一个处理器在一个或多个相关的搜索会话期间指定接收到的多个查询，而且存储在所述一个或多个相关的搜索会话期间接收所述多个查询相对于彼此的序列。

每对节点可以通过有向图内的有向边连接，所述有向边反映基础查询对的接收的次序。然后，每条有向边可以利用权重注释，所述权重指示相应的查询序列发生的次数。附加地，或者可替换地，图形管理器还可以被配置为使所述至少一个处理器构建初始有向图，评估所述初始有向图内的环路中所选择的环路内的每条边，而且移除至少一条这样的边从而将所述初始有向图形成为有层次的树图。

图形管理器可以包括：图形构建器，其被配置为使所述至少一个处理器基于由查询收集器接收的所述多个查询的序列来构建初始有向图，其中每对节点通过初始有向图内的有向边连接，所述有向边反映基础查询对的接收的次序；以及冲突解决器，其被配置为使所述至少一个处理器识别和打破所述初始有向图内的环路。冲突解决器还可以被配置为使所述至少一个处理器评估环路中所选择的环路内的每条边，而且移除被确定为从相对更高值查询指向相对更低值查询的至少一条这样的边。

然后，冲突解决器还可以被配置为使所述至少一个处理器评估所选择的环路内的每条边，包括评估该边所连接的一对节点之间的相对搜索质量。而且可以基于指示相应的查询被提交的次数的查询计数、指示相应的搜索结果被选择的次数的点击计数、和节点对的序列出现的次数中的一个或多个来评估所述相对搜索质量。

图形管理器还可以被配置为使所述至少一个处理器基于相应查询的搜索结果的相似性来从至少两个节点形成合并的节点。

根据另一总的方面，用于执行存储在计算机可读存储介质上的指令的计算机实施的方法可以包括接收由搜索引擎施加的多个查询以便获得相应的搜索结果，以及基于所述多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点。该方法还可以包括基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点，以及生成代表所述合并的节点的至少一个代表性查询。该方法还可以包括将当前查询与节点的匹配节点进行匹配，确定所述合并的节点是有向图内所述匹配节点的后续节点，以及提供所述至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

实现方式可以包括以下特征中的一个或多个。例如，每对节点可以通过有向图内的有向边连接，所述有向边反映基础查询对的接收的次序，而且每条有向边可以利用权重注释，所述权重指示相应的查询序列发生的次数。

在该方法中，生成有向图可以包括：构建初始有向图；评估所述初始有向图内的环路中所选择的环路内的每条边；以及移除至少一条这样的边从而将所述初始有向图形成为有层次的树图。在生成所述有向图时，该方法还可以包括评估所选择的环路内的每条边，包括评估该边所连接的一对节点之间的相对搜索质量。

根据另一总的方面，计算机程序产品可以被有形地具体实施在非临时性计算机可读存储介质上而且可以包括指令，当该指令运行时被配置为使至少一个处理器接收由搜索引擎施加的多个查询以便获得相应的搜索结果，基于所述多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点。当该指令运行时还可以被配置为使至少一个处理器基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点，以及生成代表所述合并的节点的至少一个代表性查询。当该指令运行时还可以被进一步配置为使至少一个处理器将当前查询与节点的匹配节点进行匹配，确定所述合并的节点是有向图内所述匹配节点的后续节点，以及提供所述至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

当该指令运行时可以被配置为生成有向图包括：构建初始有向图；评估所述初始有向图内的环路中所选择的环路内的每条边；以及移除至少一条这样的边从而将所述初始有向图形成为有层次的树图。当该指令运行时可以被进一步配置为生成有向图包括评估所选择的环路内的每条边，而且还包括评估该边所连接的一对节点之间的相对搜索质量。

可以基于指示相应的查询被提交的次数的查询计数、指示相应的搜索结果被选择的次数的点击计数、和节点对的序列出现的次数中的一个或多个来评估所述相对搜索质量。当该指令运行时可以被配置为基于存储与所述合并的节点有关的至少一个主题的本体库生成至少一个代表性查询。

在附图和下面的描述中阐明一个或多个实现方式的细节。从说明书和附图以及权利要求中，其它的特征将是显而易见的。

附图说明

图1是用于基于多个查询提供搜索细化建议的系统的框图。

图2是图示图1的系统的示例性操作的流程图。

图3A是使用图1的系统中的多个查询构建的有向图的示图。

图3B是图示图3A的有向图的细化的有向图。

图3C是从图3B的图形推导的有层次的树图。

图3D是从图3C的图形的合并节点推导的有层次的树图。

图4是图3D的合并的节点的框图。

图5是图示图1的系统的示例性操作的过程流的、图1的系统的更详细的架构的框图。

具体实施方式

图1是用于基于多个查询提供搜索细化建议的系统100的框图。在图1的例子中，建议管理器102向用户104提供搜索细化建议，从而帮助用户104利用搜索引擎106进行成功搜索。更具体地，如下面详细描述的，建议管理器102可以被配置为监视由用户104提交到搜索引擎106的多个查询，其中所述多个查询与用户104正在执行的单个搜索有关。例如，当用户104寻求获得特定、所期望的搜索结果时，多个查询可以代表从用户104接收到的多个查询细化。通过监测和分析从用户104接收到的多个查询（例如，在对于特定搜索结果的一个或多个搜索过程中的多个查询细化），建议管理器102可以向用户104提供用于附加的搜索细化的建议，从而用户104更有可能利用最少的时间和精力获得所期望的搜索结果。

用户104可以实质上代表，例如，能够向搜索引擎106提交查询的任何人或机器。通过本说明书中的非限制性的例子，用户104可以被描述为通过公共互联网访问搜索引擎106的人类用户。例如，尽管在图1的简化例子中没有具体示出，但是用户104可以利用本地的其它传统计算设备与搜索引擎106通信。例如，用户104可以利用桌面计算设备、膝上型计算机、笔记本计算机、上网本、平板计算机或智能电话来实施其他传统网络浏览器，并可以使用网络浏览器与搜索引擎106交互。因此，例如，用户104可以使用网络浏览器的指定窗口或标签进行搜索。

当然，在各种实现方式中，用户104实质上可以在任何适当的公用或私有网络上进行搜索，诸如例如，由各个企业实施的私有网络。因此，搜索引擎106应被理解为实质上代表任何现有或未来的搜索引擎，其可操作以从用户104接收查询并且向用户104返回搜索结果。

在这方面，可以理解的是，搜索引擎106可以包括各种适当类型的基础设施，或与各种适当类型的基础设施相关联。例如，搜索引擎106可以与收集信息的抓取器（crawler）以及对所收集的信息编索引的索引器相关联。搜索引擎106还可以包括被配置为存储所收集的、已编索引的信息的数据库，以及适当的数据库管理功能，其用于响应于从用户104接收到的查询来定位和返回数据库内的特定信息。搜索引擎106还可以具有相对于接收、记录和处理查询的各种能力，以及用于响应于接收到的查询来选择和向用户104提供搜索结果的能力。这样的实现细节本身一般特定于搜索引擎106的特定实现，因此，这里没有更详细地进行描述，除非可能是必要的或有助于理解图1的系统100的示例性操作。

在图1的例子中，建议管理器102被示出为包括查询收集器108，其可以配置为收集由用户104提交到搜索引擎106的多个查询。查询索引生成器110可以被配置为接收所收集的查询中的一些或全部，并且还可以被配置为利用所收集的查询生成查询索引（在图1的例子中被图示为查询索引128，如下更详细地描述）。基于此，建议生成器112可以被配置为向用户104提供搜索细化建议。以这种方式，建议管理器102向用户104提供搜索细化建议，其相对于用户104所期望的搜索结果的类别或属性而言更准确且更具体。如所描述的，生成搜索细化建议的过程是协作，而且当用户104尝试定位所期望的信息时，可以基于由用户104做出的连续查询细化（其中，查询细化可以被理解为代表任何连续查询，其跟随以前的查询以不断地尝试定位所期望的信息）。此外，生成这样的搜索细化建议的过程可以迅速地执行，从而可以及时地将搜索细化建议提供给用户104，从而有助于确保用户104以快速和方便的方式定位所期望的搜索结果。

在图1中，查询收集器108被图示为包括查询处理器114和会话管理器116，查询处理器114被配置为收集由用户104提交的请求和相关信息，而且会话管理器116被配置为表征并存储由查询处理器114获得的、关于定义的各个会话的信息。例如，查询处理器114可以获得由用户104提交的各个查询，包括每个查询内的各个搜索关键词。查询处理器114也可以获得接收到的查询的次序或序列、每个查询被提交的次数、响应于每个查询被提供给用户104的搜索结果、以及由用户104选择的对这样的搜索结果的选择（如果有的话）。

同时，如提到的，会话管理器116可以被配置为组织和存储由查询处理器114所收集的关于各个搜索会话定义的信息。在这方面，如上面提到的，假设用户104试图找到特定的搜索结果或特定的信息，并且在这样做时，用户104提交多个查询。换句话说，假设用户104第一次尝试获得所期望的信息未能成功，而且随后在进一步尝试中提交附加的、相关的或其他方式的细化查询以获得所期望的信息。

因此，会话管理器116被配置为识别各个搜索会话，在该搜索会话中，用户104做出这样的反复尝试以获得所期望的信息。例如，在简单的例子中，用户104可以通过提交包含单个关键词的第一查询来开始搜索。在查看随后的搜索结果时，用户104可以认识到单个关键词相对于与用户104感兴趣的关键词相关的特定方面或类别而言过于宽泛，从而用户104提交具有关于所述方面或类别的一个或多个附加关键词的第二查询。在查看第二查询的相应搜索结果时，用户104可以再次决定，所获得的搜索结果包含过多或者在其他方面不可取。因此，用户104可以提交具有附加或替换关键词的第三查询。在相关的例子中，用户104有时可以重新提交先前已提交的查询，并且当然，有时可以查看响应于各个查询所接收到的各个搜索结果。

因此，会话管理器116被配置成试图将这样的相关查询组织成各个搜索会话。例如，会话管理器116可以定义时间窗，使得在时间窗内从用户104接收到的所有查询被定义为包含在单个搜索会话内。

此外，或可替换地，会话管理器116可以相对于从用户104接收到的登录信息来定义搜索会话。例如，用户104可以登录到系统、提交多个查询、然后退出系统。在这个例子中，在用户104登录的时间段内提交的用户查询可以被分类为单个会话。

类似地，在用户104利用网络浏览器进行搜索的情况下，用户104可以打开浏览器窗口或浏览器标签与启动搜索活动相结合。在这种情况下，会话管理器116可以将窗口和/或标签的打开识别为会话的开始，而且可以将定义会话结束与例如从打开开始所测量的时间窗相结合和/或与窗口/标签的闭合相结合。

因此，会话管理器116可以被配置为与定义的搜索会话相结合地存储由查询处理器114获得的信息。例如，会话管理器116可以为每个搜索会话分配唯一标识符，并且可以记录在定义的会话内接收到的每个查询的序列号（换句话说，可以识别接收到的每个查询相对于之前查询和之后查询的次序）。会话管理器116还可以存储每个查询，其包括各个搜索关键词。会话管理器116还可以存储查询计数，其指示会话内提交特定查询的次数。在最后的例子中，会话管理器116可以记录点击数，其指示响应于用户104选择（例如，点击）特定查询而提供搜索结果的次数。表1图示了用于存储以上提到的会话信息的示例表格式。

会话ID	搜索会话的唯一ID
		序列	当前会话中这个查询的序列号
查询	用户输入关键词
		查询计数	提交查询的次数
点击计数	查看查询的搜索结果的次数

表1

当然，由会话管理器116收集和组织的会话信息可以以各种附加或替换格式进行组织。例如，表1图示了记录上述会话信息的单个表。然而，可以理解的是，会话信息可以被记录在多个、更小的相关表中，而且使用关系数据库进行存储，在该关系数据库中，各个表的各个字段/记录被用作使各个表彼此相关的键（key）。

在图1的例子中，会话管理器116被描述为相对于各个搜索时间窗和/或由用户104执行的登录或其他系统交互来定义搜索会话。换句话说，在这个例子中，会话管理器116没有被描述为考虑各个查询的实际内容。因此，可能发生的是，会话管理器116在特定会话内捕获无关查询，诸如当用户104只决定在给定的时间窗内执行不同的搜索查询。此外，用户104可以暂时退出对特定期望的信息的搜索，但是可以在以后的时间返回以便在将被定义的以后的会话内恢复相关搜索尝试。

当然，在各种附加的或替换的示例性实现方式中，会话管理器116可以被定义为包括与考虑与由用户104提交的查询的内容有关的这样的问题有关的功能。然而，在图1的示例性架构中，查询索引生成器110被配置为从内容的角度，组织和以其他方式分析从查询收集器108接收到的查询/会话信息。

因此，例如，索引生成器110被图示为包括聚类分析器118，其可以被配置为执行各个查询的相关性的初始确定。例如，在一方面中，聚类分析器118可以被配置成组合或聚类被认为字面上彼此相似或相同的各个查询。另一方面，聚类分析器118可以被配置为分离和/或删除被认为与会话内的其他查询明显无关的各个查询。当然，在这样的例子中，聚类分析器118可以被配置为存储（或者使会话管理器116存储）分离的会话中的这样的无关查询，以用于分离其分析。

然后，查询索引生成器110的图形管理器120可以被配置为创建代表一个或多个相关搜索会话的查询的有向图，其中有向图的各个节点对应于各个查询（例如，一起提交的关键词的各个组合），而且其中连接节点的边指示接收到的查询对的次序或序列。

更具体地，图形构建器122可以被配置为构造初始有向图。下面相对于图3A描述和图示这样的初始图形的例子。然而，仅将图1作为参考，可以理解的是，图形构建器122被配置为将每个单个查询（和相关联的搜索关键词）与有向图中的节点相关联。图形构建器122可以利用有向边来连接节点对，所述有向边指示接收到的相应查询对相对于彼此的次序。还如相对于图3A所示，图形构建器122可以利用权重注释每个这样的边，所述权重指示以所示的次序发生的查询的给定次序对的次数。

如从图3A的例子中还可以观察到的，而且如相对于其所详细描述的，可能发生的是，由图形构建器122所构建的初始图形可以包括多个环路。例如，第一查询之后可以跟随第二查询，第二查询本身之后可以再次跟随第一查询。在另一个例子中，用户104可以执行第一、第二和第三查询，然后可以第二次执行第一查询。

如将在下面详细描述的，这样的环路代表相对于连续查询的细化或改善的方向的含糊不清。因此，如相对于图3B和图3C描述的，冲突解决器124被配置为从接收自图形构建器122的初始图形移除各个边，以这种方式解决这样的含糊不清并提供了有层次的树图，树图图示了从较不精细到更加精细的查询细化的过程。

在这样做时，冲突解决器124可以利用来自查询收集器108的信息来评估已连接的查询/节点对相对于彼此的搜索质量。例如，参照表1，冲突解决器124可以相对于每对已连接的节点考虑每个相应的查询被提交的次数（即，查询计数）、序列中直接跟随在前面的查询之后的一个查询的次数、以及对应的搜索结果被选择的每个查询的次数（即，表1的点击计数）。通过考虑搜索质量的这样的度量，作为参考，冲突解决器124可以确保得到的有层次的树图不包含任何环路，并且总体上沿从较低质量向更高质量（或从较不精细到更加精细）搜索的方向发展。

因此，图形管理器120的代表性查询生成器126可以从冲突解决器124接收这样的得到的有层次树图（如相对于图3C所示）。如下面相对于图3D和图4所详细描述的，代表性查询生成器126可以被配置为合并来自从冲突解决器124接收的有层次树图内的两个或多个节点，从而获得至少一个合并的节点。然后，代表性查询生成器126可以基于例如被合并的至少两个节点之间的相似性以及其他方面来生成用于合并的节点的代表性查询。如上相对于建议生成器112所描述的，而且如下面相对于图3D、图4和图5更详细描述的，得到的基础的合并的节点的代表性查询可以用作向用户104提供搜索建议的基础。

具体而言，如图所示，建议生成器112被提供来自图形管理器120的查询索引128。如上所述，查询索引128包括从较低质量、较不精细向更高质量、更加精细搜索的方向发展的有序节点的树图。

在给定的时间点，用户104可以提交新的或当前的查询，其可以与查询索引128的查询的主题有关。查询匹配器130可以考虑从用户104接收到的当前查询，而且可以尝试使接收到的查询与索引128的树图的单个节点相关。

将接收到的当前查询与查询索引128的单个节点匹配时，查询选择器132可以被配置为考虑索引128内的已匹配的节点的所有后续节点。换句话说，查询选择器132可以沿着从索引128的已匹配的节点到存在已匹配的节点的树索引128的分支的末端的方向。在这样做时，查询选择器132可以识别包含在所考虑的分支内的任何合并的节点。最后，查询选择器132可以向用户104提供与识别的合并后的节点相关联地存储的任何代表性查询，以作为搜索建议。以这种方式，建议生成器112预计可能由用户104做出的潜在细分的方向，而且在用户104所考虑的这样的潜在细分的方向上快速和准确地提供一个或多个搜索建议。

因此，建议生成器112可以向用户104提供有用和及时的搜索细化建议。建议生成器112可以以各种方式提供这样的建议。例如，在单个搜索或搜索会话的上下文中，当这样的建议可用时（例如，当由图表管理器120构建的图形的两个合并的节点的代表性查询可用时），建议生成器112就开始为用户104提供搜索建议。在这样的场景中，用户104可以开始提交多个连续查询的搜索过程，而且可以在搜索进行时开始实时接收建议的查询和/或关键词。

在附加的或替换的例子中，可能发生的是，用户104在一定时间段内，例如，在一天中，提供相关搜索。在这种情况下，建议管理器102可以被配置为存储来自在先搜索会话的索引128，而且可以在用户104随后搜索的开始时提供相应建议。此外，建议生成器112可以在扩展在先搜索的过程中所构造的索引128时利用图形管理器120的进一步操作，从而在当前搜索会话的上下文提供当前建议时利用（leverage）图形管理器120的先前操作。

在图1的例子中，建议管理器102被示出为由至少一个计算设备134执行，至少一个计算设备134被示出为包括至少一个处理器134A和计算机可读存储介质134B。因此，至少一个处理器134A可以代表并行执行的两个或更多个处理器，而且计算机可读存储介质134B可以实质上代表任意非瞬时性介质，其可以用于存储用于执行建议管理器102的指令和相关数据。另外，至少一个计算设备134可以代表可以相互通信的两个或更多个计算设备。

例如，可能发生的是，至少一个计算设备134代表与用户104使用的计算设备和/或搜索引擎106中的一个或两者分开的计算设备。然而，也可能发生的是，至少一个计算设备134代表与搜索引擎106相关联的计算设备和与用户104相关联的第二计算设备。换句话说，可以理解，建议管理器102的一些部分可以在搜索引擎106上执行，而建议管理器102的其他部分可以与用户104的计算设备一起实施。

例如，在上面提到的用户104利用网络浏览器通过使用搜索引擎106进行搜索的场景中，网络浏览器的可用特征和功能可以被用于执行建议管理器102的一些功能或相关的功能。例如，网络浏览器的本地缓存可以被用于存储与查询收集器108的操作相结合的查询。同样，可以使用用户104的网络浏览器存储cookie，而且查询收集器108可以利用cookies来执行上面相对于查询收集器108的操作所描述的功能。

同时，可以理解，建议管理器102可以由搜索引擎106的提供者提供，从而方便搜索引擎106的各个用户。因此，除了可以在用户104的位置处实用或方便地实现建议管理器102的功能，搜索引擎106可以被配置为作为整体向它的用户提供建议管理器102的功能。因此，可以理解的是，搜索引擎106的各种特性和功能可以被建议管理器102利用以提供这里所描述的部分或全部功能，其一些例子在下面提供。

关于建议管理器102本身以及相对于其所描述的各种模块和子模块108-132，可以理解的是，所示的架构是非限制性的，而且仅仅是示例。例如，可以理解的是，任何单个的模块可以被实现为两个或更多个子模块。相反，可能发生的是，也可以组合任何两个或更多个模块或子模块，以实现为单个的模块或单个的子模块。

图2是图示图1的系统100的示例性操作的流程图200。在图2的例子中，操作202至214被示出为分离的、顺序的操作。然而，可以理解，在可替换的实施例中，操作202至214中的两个或更多个可以以部分或完全重叠或并行的方式执行，和/或以迭代、嵌套、循环或分支的方式执行。此外，在任何这样的实现方式中，附加的或可替换的操作可以被包括在内，而在其他的实现方式中，一个或多个操作可以被省略。

在图2的例子中，可以接收由搜索引擎施加的多个查询以获得对应的搜索结果（202）。例如，如所描述的，查询收集器108可以接收由用户104提交到搜索引擎106的这样的多个查询。

基于多个查询，可以生成节点的有向图，每个节点对应至少一个查询并被连接到其他节点（204）。例如，查询索引生成器110可以被配置为生成节点的初始有向图，如下面相对于图3A所示和所描述的。虽然在图2的例子中未具体示出，但是查询索引生成器110（例如，冲突解决器124）可以被进一步配置（如果必要的话）为从生成的有向图移除任何环路，或以其他方式解决有向图内的现有冲突，从而获得总体上从较低质量/较不精细搜索向更高质量/更加精细搜索的方向发展的有层次的树图，如相对于图3B和图3C所示和所描述的。

可以基于至少两个节点的相应查询的相似性来合并所述至少两个节点以获得合并的节点（206）。例如，如相对于图3B所示和所描述的，查询索引生成器110（例如，代表性查询生成器126）可以被配置为合并从语义或概念角度足够相似的其他分离的查询。

然后，可以生成代表合并的节点的至少一个代表性查询（208）。例如，查询索引生成器110，例如，代表性查询生成器126，可以被配置成针对基础的（underlying）合并的节点生成这样的代表性查询。

接着，可以将当前查询与节点中的匹配节点进行匹配（210）。例如，建议生成器112可以被配置为接收来自用户104的当前查询，并且可以被配置为例如，使用查询匹配器130将接收到的当前查询与查询索引128的至少一个节点进行匹配。例如，匹配可以基于字面相似发生，而且也可以基于具有相似的词形或同义词的相同词来考虑相似性。

合并的节点可以被确定为有向图内匹配节点的后继节点（212）。例如，建议生成器112，例如，查询选择器132，可以检查跟随在查询索引128的匹配的节点之后的后继节点，并因而发现合并的节点是匹配的节点的后续节点。

可以提供至少一个代表性查询，作为将由搜索引擎进行的未来搜索的建议查询（214）。例如，建议生成器112可以向用户104提供这样的代表性查询，以供用户104关于制定将由搜索引擎106进行的未来搜索时考虑。例如，在用户104利用网络浏览器或相似的接口的情况下，搜索细化建议可以被相关地提供在用于输入查询关键词的文本输入框中，或者可以被提供在响应于当前查询所提供的搜索结果的页面中

图3A是图示搜索计数表302及其相应的有向图304A的示图。即，搜索计数表302总体上对应于上面的表1中所包含的信息。例如，搜索计数表302包括用于六种不同搜索会话中的每一种的会话标识符（sid）。搜索计数表302还包含用于图示每个单个搜索会话内的查询的接收的序列的序列号（seq）。最后，搜索计数表302包括代表在每个搜索会话期间接收到的各种查询的列Q。具体而言，如图所示，每个查询被表示为四个查询Q1、Q2、Q3和Q4之一。

同时，有向图304A捕获存储在搜索计数表302内的信息。具体而言，如图所示，与查询Q1相对应的节点306通过边308连接到代表查询Q2的节点310。节点310本身通过边312连接到代表查询Q3的节点320，而且通过边316自代表查询Q4的节点318连接。另外，节点320通过边322连接到节点306，而节点306通过边324连接到节点320。

在图3A中，有向图304的各边表示接收查询对的方向或序列。此外，每条边利用权重进行注释，所述权重指示接收到的查询的相应序列发生的次数。例如，边308指示查询Q2在两个不同场合跟随在查询Q1的后面。因此，在聚集和包括各个边的权重时，节点的所有传入的边指示相应的查询被搜索的总次数（其中初始节点作为第一查询将包括附加查询次数）。例如，代表查询Q3的节点320具有传入的边312和324，从而指示查询Q3在两个不同场合被搜索。

从有向图304A同样可以观察到，可能发生的是，相对于两个或更多查询和相关联的节点可能存在回路。例如，节点306和320图示了由边322和324形成的环路，其指示在接收到查询Q1之后接收到查询Q3，但是在接收到查询Q3之后再次接收到查询Q1。在另一个例子中，在有向图304A内由边308、312和322形成环路，其指示查询Q2跟随在查询Q1的后面，查询Q3跟随在查询Q2的后面，查询Q1又跟随在查询Q3的后面。查询Q1、Q2和Q4的相似环路相对于节点/边306/308、310/316和318/326定义。

这样的环路可以被理解为代表自然产生的迭代方式的结果，其中，用户104可以在反复尝试在搜索结果内定位所期望的信息的过程中提交查询。然而，这样的环路代表冲突，该冲突将相对于将查询索引128建立为有层次的树索引的上述目的来解决，所述有层次的树索引从代表较低质量/较不精细的查询的节点向代表更高质量/更加精细的查询的节点发展。因此，如上相对于图1所提到的，为了解决这些和其他冲突，图形管理器120的冲突解决器124可以被配置成为了必要修改（例如，移除某些冲突边）而分析有向图304A，以获得如上相对于图1所描述的查询索引128。

因此，冲突解决器124可以被配置为通过消除环路中的一条边从而断开环路来解决这些类型的冲突。在这样做时，冲突解决器124必须确定哪条边或哪些边将被消除。为了做到这一点，冲突解决器124可以考虑节点的环路内的每条边，而且如果确定一条边从与更高质量/更加精细搜索相关联的节点指向与较低质量/较不精细搜索相关联的节点，则可以消除该边。因此，例如，冲突解决器124可以将形成图形304A内的环路的一部分的边所连接的每对节点进行比较，从而确定两个节点中的哪一个节点的相应查询相对更高质量/更加精细。通过消除这样的边，冲突解决器124确保得到的图形（例如，图1的查询索引128）的整体方向是从较低质量/较不精细到更高质量/更加精细搜索的方向。

例如，参考图3B，如上相对于图3A所提到的，在节点306、320之间存在由边322和324定义的环路。因此，如刚才所描述的，冲突解决器124可以比较与节点306和320相关联的查询、确定查询对中的哪一个查询相对更高质量/更加精细、然后消除源自该节点的边（例如，导致消除图3B的例子中的边322）。

为了比较分别由节点306和320代表的查询Q1和Q3的相对搜索查询质量，冲突解决器124可以施加并考虑一个或多个搜索质量度量。换句话说，冲突解决器124可以使用一种或多种技术来量化每个考虑的查询的搜索质量，从而基于量化的搜索度量，两个查询的相对搜索质量的比较变得简单。

可以利用不同的技术来量化查询的搜索质量。为了便于举例，下面的算法1图示了三种独立的搜索质量度量，以及彼此组合地利用所述三种搜索质量度量来判断所考虑的查询对的整体相对搜索质量的示例性技术。

在算法1的例子中，第一搜索质量度量涉及连接所考虑的节点对的每条边的边权重。换句话说，如果指向节点的加权边具有相对高的权重，则该节点被认为具有相对较高的质量。在算法1的符号中，加权边由字母“w”和代表被比较的每个节点的数字表示。因此，例如，加权边308将由w12表示，因为边308连接第一节点/查询306和第二节点/查询310。因此，边308的权重可以由w12=2表示。

另一个可以使用的搜索质量度量是上面相对于表1提到的点击计数。如上相对于此所描述的，点击计数指的是用户104从响应于由搜索引擎106评估的查询所返回的给定的一组搜索结果内实际选择各个文件或其他链接的次数。

例如，相对于节点306和320，可能发生的是，搜索引擎106响应于节点306的查询Q1的提交而向用户104返回一组结果，但在用户104不选择所提供的任何链接。相反，可能发生的是，用户104可以选择响应于节点320的查询Q3的提交由搜索引擎106提供的多个链接。因此，节点320的查询Q3将被观察为具有比节点306的查询Q1更高的点击计数。在算法1的符号中，点击计数由符号Cr和被考虑的查询/节点的数量表示。因此，代表查询Q1的节点306的点击计数将被表示为Cr1。

作为可以由算法1使用的搜索质量度量的最后的例子，可以利用表1的搜索计数表的查询计数。如以上所提到的，查询次数指的是每个查询被用户104提交的次数，而且可以通过为正被讨论的节点来聚集所有传入边的边权重，而从图形304B观察到。如上面提到的，起始节点（例如，节点306）作为初始查询还将具有查询计数，其将不由传入边表示。在算法1的符号中，查询计数由C和正被讨论的节点/查询的数量表示，从而例如，节点306的查询Q1的查询计数由C1=3表示。

如从算法1可以观察到的，对于被考虑的每对查询，算法从考虑有向边权重发展到点击计数并发展到查询计数。考虑每个搜索质量度量包括考虑度量值彼此的比率与阈值的比较。

例如，对于第1行示出的比较查询Q1、Q2，第2-10行示出可以考虑诸如边322和324的加权边。如图所示，如果有更高的权重，则可以与所考虑的任意环路内的其他边的更低权重相关地考虑该更高的权重。然后，如果得到的w12对于w21的比率高于阈值threshold_w时，与更高的边权重相对应的查询可以被认为搜索质量足够优越，从而消除源自其的边。

但是，如果比率w12/w21不高于阈值时，则对于点击计数Cr2/Cr1执行相似的计算。再次，如果得到的比率不高于定义的阈值threshold_Cr，则算法1进行到对于查询计数C1、C2执行相似的计算。再次，如果得到的比率不高于预定义的阈值，则算法确定所考虑的两个查询被认为是大致相等的值。在这种情况下，冲突解决器124可以简单地移除所考虑的两条边。

另一方面，随着算法1的进行，如果超过三个定义的阈值中的任一个，则该算法可以确定与更高的值（例如，更高的边权重、更高的点击计数、或更高的查询计数）相对应的节点足够优越，并因此可以移除源自该节点的有向边并且终止用于比较两个节点的算法1的操作。

算法1被描述如下：

算法1

因此，例如，相对于以上提及的由节点306和320之间的边322和324所形成的环路，并且相对于图3A和图3B所图示的，算法1将首先考虑每条边322和324的边权重等于一，从而使边权重的比例不超过定义的阈值。然后，如果为了举例假设比率超过预定义的阈值，节点320的查询Q3的点击计数高于节点306的查询Q1的点击次数，则查询Q3可以被确定相对于查询Q1具有优越的质量。因此，冲突解决器124可以消除边322，而且对于这个环路可以完成算法1。

继续图3C的例子，通过边308、316和326在节点306、310和318之间形成的环路可以通过移除边326被类似地打破。在附加的或替换的例子中，如所提到的，可能发生的是，两个节点之间的边可能在两个节点都被认为具有大致相等的值的情况下出现，在这种情况下，该边可以被移除。此外，可能发生的是，算法1中所用的各种阈值在冲突解决器124的操作的迭代过程中可以被调整，以便达到最佳效果。

相对于图3D。图1的代表性查询生成器126可以被配置为识别这样的查询，它们在语义或上下文的角度具有相同的含义而使用不同的措辞。那么，这样的查询可以被合并，以减少构建查询索引结构的图形的大小，并作为代表性查询的基础。

例如，在图3D，代表性查询生成器126可以确定查询节点310的查询Q2和节点318的查询Q4应该合并。因此，图3D图示了合并的节点328，其代表节点310、318的合并，合并的节点328通过边330连接到节点306。

以这种方式组合查询的一种技术是从语言的角度将具有相同含义的查询组合。例如，文本分析、语言分析或自然语言处理（NLP）技术也可以使用。例如，单个查询字符串可以被视为文档，而且文档检索技术可以被用于计算查询之间的距离。然后，如果两个查询足够接近，则将这两个查询合并。

组合两个查询的第二种技术是如果两个查询生成相同或足够相似的结果集则合并这两个查询。例如，如上所提到的，搜索引擎106可以实施用于所有用户的记录系统。通过使用这样的记录系统时，搜索引擎106可以避免为不同的用户所执行的相同的搜索复制结果集，以便充分地利用资源。因此，代表性查询生成器126可以利用来自记录系统的信息，以更新结果集和查询之间的关系，从而确定不同但相似的查询生成非常相似的结果集的情况。

在一个示例中为了以这种方式比较搜索结果，代表性查询生成器126可以向所比较的两个结果集中第一/最早的结果页面施加相对更高的权重。然后，例如，第一结果页面可以通过使用已知的算法比较词集来针对每个查询进行比较，其通常可以被配置为考虑所包括的各个搜索结果的次序和内容二者。

图4图示了与代表性查询402相关联的合并的节点328。如相对于框404所图示的，而且如刚才所描述的，当两个或更多个查询被认为具有相同的含义、和/或相同的结果，合并的节点328和代表性查询402可以使用，这仅是如上相对于图3D描述的。

为了选择代表性查询402，可以开发词的语料库，其包括从不同的角度代表所识别的主题的词。例如，可以使用本体库（ontology base）。一般地，这样的本体可以代表所识别的知识领域的表示的形式。因此，这样的本体抽象定义特定领域词汇，以及各词汇术语之间的关系。

图5是图示图1的系统100的示例性过程流的更详细的示例性架构。在图5的例子中，收集阶段502总体上对应查询收集器108，而编索引阶段504总体上对应查询索引生成器110。另外，匹配阶段506总体上对应建议生成器112的操作。

因此，在图示的收集阶段502，作为例子图示了四个搜索会话508、510、512、514。如从关于会话514的框516所观察的，可以由用户104使用的示例查询细化过程反映了对“HIV（艾滋病毒）”的初始搜索。在查看第一查询Q1的结果时，用户104可以认识到，他或她最感兴趣的是对“HIV”的“补救”。随后，再次查看一些相应的搜索结果页面，用户104可能想知道更多关于“HIV”的“补充医学”，如在第三查询会话514中所反映的。

在编索引阶段504，类似于图1的聚类分析器118的文本聚类518可能发生。在图5的文本聚类518过程中，可以分析各个查询的内容，也可以组合字面上相似的查询。在这种情况下，为了未来分析，也可以对组合的查询的查询计数和点击计数进行组合。有些相似的是，如果有充分地不相似的查询，则可以将其丢弃

随后，可以构建初始查询细化图形520，其图5的例子中再次由图3A的图形304A表示。可以进行清洁过程522，在该过程中可以移除弱边（例如，相似查询之间的边），并识别冲突（例如，环路）。

因此，可以基于比较的查询的质量因素进行冲突解决524。如上所述，可以利用诸如查询计数、查询转变计数和点击计数的质量度量。

在确定每个合并的节点的代表性查询期间，根据已知主题的识别的属性，可以合并生成相似结果的查询或其他相似的查询，而且可以生成相应的代表性查询以作为对得到的合并的节点的潜在搜索建议。如上所提到的，可以利用本体库，诸如人类辅助本体库528，其可以是针对相关领域主题预先开发的。

然后，在匹配阶段506期间，可以利用查询得到的索引530来将当前查询与索引530的现有节点相匹配，如框532所示。然后，可以考虑匹配的节点的后继节点。例如，相对于图3D，可能发生的是，当前接收到的查询与节点306的查询Q1匹配。通过跟随其后继节点，可以识别合并的节点328。以这种方式，如由框534所示，可以选择直接后继节点的代表性查询。

例如，如在框536中所示，如果节点306再次与“HIV”的查询Q1相关联，则与合并的节点328相关联的代表性查询可以包括“补救”（包括相关概念，诸如“治疗”）、“诊断”、“症状”、“发源地”和潜在的其他建议术语。作为进一步的例子，可能发生的是，用户104选择“补救”，在这种情况下，可以重复过程以确定附加的合并的节点和代表性查询（如果有的话）。在图5的例子中，因此，可能发生的是，随后合并的节点的相应代表性查询可以包括相关的概念“抗病毒”和“免费药物”。

以这种方式，用户104可以迭代地与搜索引擎106和建议管理器102交互，以便逐步识别用户104感兴趣的特定搜索主题的属性和类别，并由此获得所期望的结果。也就是说，例如，在实践中，可能发生的是，由用户104选择和使用的建议细化被视为当前搜索会话内的附加查询。然后，这样的查询其自身（in their own right）将被包括在相应的有向图，也将与其他节点/查询进行匹配以便对任何这样的匹配的（多个）节点的任何后继合并的节点（以及相关联的代表性查询）重复该过程。

这里描述的各种技术的实现方式可以被实施在数字电子电路中，或者实施在计算机硬件、固件、软件，或者它们的组合中。实现方式可以实施为计算机程序产品，即有形地具体实施在信息载体（例如机器可读存储设备或者传播的信号）中的计算机程序，以供数据处理装置执行或者控制数据处理装置的操作，所述数据处理装置例如是可编程处理器、计算机或多个计算机。计算机程序，诸如上面描述的（多个）计算机程序，可以用任何形式的编程语言编写，包括汇编语言或解释语言，并且，它可以被以任何形式部署，包括作为独立的程序或者作为模块、组件、子程序或其他适于在计算环境中使用的单元。计算机程序可以被部署为在一个计算机上执行或在位于一个地点或跨过多个地点分布并被通信网络互连起来的多个计算机上执行。

方法步骤可以被一个或多个可编程处理器执行，所述可编程处理器执行计算机程序，以便通过对输入数据操作和产生输出来执行功能。方法步骤还可以被专用逻辑电路执行，而且装置可以被实施为专用逻辑电路，所述专用逻辑电路例如是FPGA（现场可编程门阵列）或ASIC（专用集成电路）。

作为例子，适于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任意一个或多个处理器。一般来说，处理器将从只读存储器或随机存取存储器接收指令和数据，或者从两者都接收指令和数据。计算机的元件可以包括至少一个用于执行指令的处理器，和用于存储指令和数据的一个或多个存储器设备。一般来说，计算机还可以包括海量储存设备，或者被可操作地连接到海量储存设备，以从一个或多个用于存储数据的海量储存设备接收数据，或把数据传送到海量储存设备，或者二者皆有，所述海量储存设备例如：磁盘、磁光盘或光盘。适于具体实施计算机程序指令和数据的非临时性信息载体包括所有形式的非易失性存储器，作为例子，包括半导体存储器器件，例如：EPROM、EEPROM和闪存设备、磁盘，例如内置硬盘或可移动磁盘、磁光盘和CD-ROM以及DVD-ROM盘。处理器和存储器可以以专用逻辑电路补充，或者被包含在专用逻辑电路中。

为了提供和用户的交互，实现方式可以在具有显示设备和键盘以及定点设备的计算机上实施，显示设备例如阴极射线管（CRT）或液晶显示器（LCD）监视器，用于向用户显示信息，键盘和指示设备例如鼠标或轨迹球，用户利用它们可以提供到计算机的输入。其他种类的设备也可以被用来提供和用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈，并且，可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

实现方式可以被在包括后端组件或包括中间件组件或包括前端组件的计算系统中实施，或者在这些后端、中间件、前端组件的任意组合中实施，后端组件例如数据服务器，中间件组件例如应用服务器，前端组件例如具有图形用户界面，或Web浏览器的客户端计算机，通过图形用户界面或Web浏览器，用户可以与实现方式进行交互。可以利用数字数据通信的任何形式或介质互连组件，数字数据通信介质例如通信网络。通信网络的例子包括：局域网（LAN）和广域网（WAN），例如因特网。

虽然如这里所描述的那样已经示出了所描述的实现方式的某些特征，但是本领域普通技术人员现在应当想到很多修改、替换、变化或等同物。因此应当理解，所附权利要求旨在覆盖落入实施例的实质精神内的所有这样的修改和变化。

Claims

1.一种系统，包括记录在非临时性计算机可读介质上并且能够由至少一个处理器执行的指令，所述系统包括：

查询收集器，其被配置为使所述至少一个处理器接收由搜索引擎施加的多个查询以便获得相应的搜索结果；

图形管理器，其被配置为使所述至少一个处理器基于所述多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点，而且图形管理器还被配置为使所述至少一个处理器基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点，而且生成代表所述合并的节点的至少一个代表性查询；以及

建议生成器，其被配置为使所述至少一个处理器将当前查询与节点的匹配节点进行匹配，确定所述合并的节点是有向图内所述匹配节点的后续节点，而且提供所述至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

2.如权利要求1所述的系统，其中，所述查询收集器还被配置为使所述至少一个处理器在一个或多个相关的搜索会话期间指定接收到的多个查询，而且存储在所述一个或多个相关的搜索会话期间接收所述多个查询相对于彼此的序列。

3.如权利要求1所述的系统，其中，每对节点通过有向图内的有向边连接，所述有向边反映基础查询对的接收的次序。

4.如权利要求3所述的系统，其中，每条有向边利用权重注释，所述权重指示相应的查询序列发生的次数。

5.如权利要求1所述的系统，其中，所述图形管理器还被配置为使所述至少一个处理器构建初始有向图，评估所述初始有向图内的环路中所选择的环路内的每条边，而且移除至少一条这样的边从而将所述初始有向图形成为有层次的树图。

6.如权利要求1所述的系统，其中，所述图形管理器包括：

图形构建器，其被配置为使所述至少一个处理器基于由查询收集器接收的所述多个查询的序列来构建初始有向图，其中每对节点通过初始有向图内的有向边连接，所述有向边反映基础查询对的接收的次序；以及

冲突解决器，其被配置为使所述至少一个处理器识别和打破所述初始有向图内的环路。

7.如权利要求6所述的系统，其中，所述冲突解决器还被配置为使所述至少一个处理器评估环路中所选择的环路内的每条边，而且移除被确定为从相对更高值查询指向相对更低值查询的至少一条这样的边。

8.如权利要求7所述的系统，其中，所述冲突解决器还被配置为使所述至少一个处理器评估所选择的环路内的每条边，包括评估该边所连接的一对节点之间的相对搜索质量。

9.如权利要求8所述的系统，其中，基于指示相应的搜索查询被提交的次数的查询计数、指示相应的搜索结果被选择的次数的点击计数、和节点对的序列出现的次数中的一个或多个来评估所述相对搜索质量。

10.如权利要求1所述的系统，其中，所述图形管理器还被配置为使所述至少一个处理器基于相应查询的搜索结果的相似性来从至少两个节点形成合并的节点。

11.一种用于执行存储在计算机可读存储介质上的指令的计算机实施的方法，该方法包括：

接收由搜索引擎施加的多个查询以便获得相应的搜索结果；

基于所述多个查询生成节点的有向图，每个节点对应至少一个查询而且连接到其他节点；

基于节点的相应查询的相似性来合并至少两个节点以便获得合并的节点；

生成代表所述合并的节点的至少一个代表性查询；

将当前查询与节点的匹配节点进行匹配；

确定所述合并的节点是有向图内所述匹配节点的后续节点；以及

提供所述至少一个代表性查询作为将由搜索引擎进行的未来搜索的推荐的查询。

12.如权利要求11所述的计算机实施的方法，其中，每对节点通过有向图内的有向边连接，所述有向边反映基础查询对的接收的次序，而且其中，每条有向边利用权重注释，所述权重指示相应的查询序列发生的次数。

13.如权利要求11所述的计算机实施的方法，其中，生成所述有向图包括：

构建初始有向图；

评估所述初始有向图内的环路中所选择的环路内的每条边；以及

移除至少一条这样的边从而将所述初始有向图形成为有层次的树图。

14.如权利要求13所述的计算机实施的方法，其中，生成所述有向图包括评估所选择的环路内的每条边，包括评估该边所连接的一对节点之间的相对搜索质量。

15.一种计算机程序产品，该计算机程序产品被有形地具体实施在非临时性计算机可读存储介质上而且包括指令，当该指令运行时被配置为使至少一个处理器：

接收由搜索引擎施加的多个查询以便获得相应的搜索结果；

生成代表所述合并的节点的至少一个代表性查询；

将当前查询与节点的匹配节点进行匹配；

16.如权利要求15所述的计算机程序产品，其中，每对节点通过有向图内的有向边连接，所述有向边反映基础查询对的接收的次序，而且其中，每条有向边利用权重注释，所述权重指示相应的查询序列发生的次数。

17.如权利要求15所述的计算机程序产品，其中，当该指令运行时被配置为生成有向图包括：

构建初始有向图；

18.如权利要求17所述的计算机程序产品，其中，当该指令运行时被配置为生成有向图包括评估所选择的环路内的每条边，而且还包括评估该边所连接的一对节点之间的相对搜索质量。

19.如权利要求17所述的计算机程序产品，其中，基于指示相应的查询被提交的次数的查询计数、指示相应的搜索结果被选择的次数的点击计数、和节点对的序列出现的次数中的一个或多个来评估所述相对搜索质量。

20.如权利要求17所述的计算机程序产品，其中，当该指令运行时被配置为基于存储与所述合并的节点有关的至少一个主题的本体库生成至少一个代表性查询。