CN102934110A - 研究任务识别 - Google Patents

研究任务识别 Download PDF

Info

Publication number
CN102934110A
CN102934110A CN2011800257617A CN201180025761A CN102934110A CN 102934110 A CN102934110 A CN 102934110A CN 2011800257617 A CN2011800257617 A CN 2011800257617A CN 201180025761 A CN201180025761 A CN 201180025761A CN 102934110 A CN102934110 A CN 102934110A
Authority
CN
China
Prior art keywords
task
user
inquiry
detecting device
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800257617A
Other languages
English (en)
Inventor
黛博拉·杜拉图
弗朗西斯科·伯恩驰
梁-宇·池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excalibur IP LLC
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN102934110A publication Critical patent/CN102934110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本文说明了一种系统和方法,该系统和方法自动判断搜索引擎的用户是否在执行研究任务,然后响应于确定研究任务正被执行而提供一个或多个研究工具、一个或多个专业搜索、一个或多个定向广告和/或一个或多个市场事件。响应于研究任务的检测而自动提供各种事件和/或工具能够有利地改进用户执行研究任务的体验。

Description

研究任务识别
技术领域
本发明一般涉及用于自动查明信息检索系统的用户,包括但不限于网络搜索引擎的用户的信息需求系统和方法。
背景技术
自从网络(Web)搜索引擎问世以来,解决用户的信息需求一直是其主要目标之一。在某些情况下,用户发现他们的需求仅仅因为这些需求过于复杂并且涉及到单个网络或搜索结果页面不能覆盖的多个方面而不能立即通过搜索结果得到解答。这种情况通常在用户调查诸如教育、旅行或健康之类的领域中的某个主题时(这通常需要从很多页面中收集事实和信息)发生。这些类型的活动可被称作“研究任务”。据观察,这些“研究任务”可以占到用户会话的10%和全部查询量的超过25%。
如果这样的“研究任务”能够在被执行时以高精确度被自动识别,则将是有利的。由于这些“研究任务”可以占据全部查询量的相当大的百分比,因此识别和应答用户对这样大百分比的用户查询的需求将会增强用户的体验。常规系统倾向于检验单独的查询,而“研究任务”的识别会使网络搜索引擎理解用户在本不相关的查询背后的意图。通过自动识别“研究任务”从而理解用户意图,网络搜索引擎能够主动提供专业搜索、研究工具、定向广告、(一个或多个)市场事件和/或其他特征,以解决用户需求。
发明内容
根据本发明一个实施例的系统和方法自动检测搜索引擎的用户何时执行针对特定主题的研究任务。然后基于这样的自动检测,可以为用户提供对诸如研究相关工具或专业搜索之类的一个或多个特征的访问,并且为用户提供与研究任务相关的定向广告和/或市场事件。响应于研究任务的检测而自动提供这些各种工具、广告和事件能够有利地改善用户执行研究任务的体验。
具体而言,这里说明了一种用于自动判断搜索引擎的用户是否在执行研究任务的方法。根据该方法,生成与用户提交到搜索引擎的一系列查询相关的多个特征。基于所述多个特征的第一子集,使用第一机器学习检测器检测所述用户是否在执行复杂研究。基于所述多个特征的第二子集,使用第二机器学习检测器检测所述用户是否在执行与特定信息需求相关的任务。至少响应于所述复杂研究检测和所述任务检测,对所述用户是否在执行研究任务作出判断。
这里还说明了一种系统。所述系统包括搜索引擎和研究任务识别系统。所述搜索引擎被配置成接收由用户提交的一系列查询,并且还被配置成响应于所述一系列查询中的每个查询来识别一个或多个文档。所述研究任务识别系统包括会话单元、特征单元、研究检测器、任务检测器和混合器。所述会话单元被配置成接收所述一系列查询并生成一系列结构化查询。所述特征单元被配置成基于所述一系列结构化查询的分析而生成多个特征。所述研究检测器被配置成基于所述多个特征的第一子集,使用第一机器学习规则来检测所述用户是否在执行复杂研究。所述任务检测器被配置成基于所述多个特征的第二子集,使用第二机器学习规则来检测所述用户是否在执行与特定信息需求相关的任务。所述混合器被配置成至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务。
这里还说明了另一种系统。所述系统包括搜索引擎和研究任务识别系统。所述搜索引擎被配置成接收由用户提交的一系列查询,并且还被配置成响应于所述一系列查询中的每个查询来识别一个或多个文档。所述研究任务识别系统包括特征单元、检测器单元和机器学习系统。所述特征单元被配置成基于所述一系列查询的分析而生成多个特征。所述检测器单元被配置成基于所述多个特征,通过测量所述用户参与搜索的程度来检测所述用户是否在执行复杂研究。所述检测器单元还被配置成基于所述多个特征,通过测量连续查询之间的主题连贯性来确定所述用户是否在执行与特定信息需求相关的任务。所述机器学习系统被配置成至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务。
以下参照附图详细说明本发明的更多特征和优点以及本发明各实施例的结构和操作。注意,本发明不限于这里所述的特定实施例。这样的实施例仅为了说明之目的而在这里提出。基于本文所包含的教导,另外的实施例对于(一个或多个)相关领域的技术人员将变得清楚。
附图说明
本文结合的形成说明书的一部分的附图用于说明本发明,并与说明书一起进一步用于解释本发明的原理并使(一个或多个)相关领域的技术人员能够实践和使用本发明。
图1是可以实现本发明实施例的信息检索系统的方框图。
图2示出了可由用户提交到搜索引擎的示例查询。
图3是描绘根据本发明实施例的用于自动判断用户是否在执行研究任务的方法的流程图。
图4是描绘根据本发明实施例的用于自动判断用户是否在执行研究任务的系统的方框图。
图5描绘了根据本发明实施例的由用户张贴到搜索引擎的示例性的一系列查询。
图6A为描绘了根据本发明实施例的被实现为机器学习系统的检测器的示图。
图6B为描绘了根据本发明实施例的被实现为机器学习系统的混合器的示图。
图7是描绘了根据本发明实施例的用于自动判断用户是否在执行研究任务的替代系统的方框图。
图8是可以实现本发明实施例的示例计算机系统的方框图。
根据以下作出的详细说明并结合附图,本发明的特征和优点将变得清楚,在整个附图中相似的参考符号代表相应的元素。在附图中,相似的参考数字通常表示相同的、功能上相似和/或结构上相似的元素。一个元素第一次出现在其中的附图由相应参考数字中最左边的(一个或多个)数字表示。
具体实施方式
A.引言
本说明书公开了结合本发明特征的一个或多个实施例。公开的(一个或多个)实施例仅例示本发明。本发明的范围不限于公开的(一个或多个)实施例。本发明由所附的权利要求书限定。
说明书中提及的“一个实施例”、“实施例”、“示例实施例”等表示所述示例可以包括特定特征、结构或特点,但每个实施例都可能不一定包括该特定特征、结构或特点。此外,这样的词语不一定指代相同的实施例。另外,当与一个实施例相关地说明特定特征、结构或特点时,应理解的是,无论是否进行了明确说明,在本领域的技术人员的知识范围内可以与其他实施例相关地实现这种特征、结构或特点。
根据本发明一个实施例的系统和方法自动检测搜索引擎的用户何时在执行关于特定主题的研究任务。然后基于这样的自动检测,可以为用户提供对诸如研究相关工具和专业搜索之类的一个或多个特征的访问,并且/或者为用户提供与研究任务相关的定向广告和/或市场事件,虽然这些示例不打算是限制性的。响应于研究任务的检测而自动触发这些各种工具、广告和事件能够有利地改进用户执行研究任务的体验。
图1是可以实现本发明实施例的信息检索系统100的方框图。系统100在这里仅为了说明之目的而描述,注意,本发明的实施例可以在替代的环境下实现。如图1所示,系统100包括搜索引擎106。一个或多个计算机104,例如第一计算机104a、第二计算机104b和第三计算机104c被连接到通信网络105上。网络105可以是任何类型的通信网络,例如局域网(LAN)、广域网(WAN)或通信网络的组合。在实施例中,网络105可以包括互联网和/或内联网。计算机104可以通过网络105从实体检索文档。在网络105包括互联网的实施例中,形成万维网102的一部分的包括文档103的文档集可供计算机104通过网络105检索使用。在互联网上,文档可以通过例如http://www.yahoo.com的统一资源定位器(URL)并/或通过其他机制进行识别/定位。计算机104可以通过将与文档103相应的URL提供给文档服务器(图1中未示出)而通过网络105访问文档103。
如图1所示,搜索引擎106被耦合到网络105上。搜索引擎106访问索引了文档(如万维网102的文档)的被存储索引114。想要检索与特定主题相关的一个或多个文档但不知道该文档的标识符/位置的计算机104a的用户可以通过网络105向搜索引擎106提交查询112。搜索引擎106接收查询112,并分析索引114,以找到与查询112相关的文档。例如,搜索引擎106可以识别包括查询112的术语的由索引114索引的一组文档。该组文档可以包括任何数量的文档,包括几十、几百、几千、几百万或者甚至几十亿的文档。搜索引擎106可以使用评级或相关性功能、按照与用户的相关性的顺序对检索的该组文档进行评级。该组中被确定为最有可能相关的文档可以被提供到返回文档列表的顶部,以试图避免用户不得不解析整组文件的情况发生。返回文档列表可以在称为“搜索结果页面”的文档的上下文中提供。
搜索引擎106可以在硬件、软件、固件或其任意组合中实现。例如,搜索引擎106可以包括在一个或多个计算机系统的一个或多个处理器(例如一个或多个服务器)中运行的软件/固件。通过网络105可访问的搜索引擎106的示例包括但不限于Yahoo!、SearchTM(网址:http://www.yahoo.com)、Ask.comTM(网址:http://www.ask.com)和GoogleTM(网址:http://www.google.com)。
图2示出了可由图1的计算机104a-104c之一的用户提交到搜索引擎106的示例查询112。如图2所示,查询112包括一个或多个术语202,例如第一个术语202a、第二个术语202b和第三个术语202c。任何数量的术语202都可以被呈现在查询中。如图2所示,查询112的术语202a、202b和202c分别为“1989”“红色”“护卫舰”。搜索引擎106将这些术语202a-202c应用于索引114以检索文档定位器,例如URL,来寻找匹配“1989”“红色”“护卫舰”的一个或多个被索引文档,并且可以根据评级来排列文档列表。
另外如图1所示,搜索引擎106可以生成查询日志108。查询日志108是使用搜索引擎106进行的搜索的记录。查询日志108可以通过将查询术语(例如查询112的术语202)与每个查询的更多信息/属性一同列出而包括查询列表,其中每个查询的更多信息/属性例如是:由于查询而产生的文档列表,审阅列表的用户选择/在其上点击的(“点击的”)列表中的文件的列表/指示,被点击的文档的评级,指示查询何时被搜索引擎106接收的时间戳,识别查询术语被提交的来源的唯一设备(例如计算机、手机等)的IP(互联网协议)地址,与提交查询术语的用户相关联的标识符(例如网络浏览器cookie中的用户标识符),和/或更多信息/属性。
如图1进一步所示,系统100还包括连接到搜索引擎106和查询日志108的研究任务识别系统116。研究任务识别系统116被配置成判断搜索引擎106的用户是否在执行关于特定主题的研究任务。如果研究任务识别系统116确定搜索引擎106的用户在执行关于特定主题的研究任务,那么研究任务识别系统116就可以自动触发应用118的执行。根据该实现方式,应用118可以包括研究工具(例如Yahoo!Search Pad)、专业搜索应用、直接广告交付应用或市场事件,虽然这些示例不是限制性的。例如,用户可以通过获得对用于做笔记和/或进行组织的研究工具的访问而具有更好的搜索体验。研究任务识别系统116可能能够提供反应用户研究任务的意图的专业搜索。自动提供针对用户研究任务的定向广告和/或市场事件会有助于利用用户对研究任务的意图。
通过响应于研究任务的自动检测而自动断言用于触发应用118的运行的触发信号,研究任务识别系统116能够有利地改进用户执行研究任务的体验。例如,根据某些实施例,这样的特征确保在适当的时间和在用户方便的上下文中提供对针对研究任务和/或(一个或多个)研究相关工具的专业搜索的访问。该方法还代表优于以下方法的改进:用户必须提前认识到关于特定主题的研究任务即将开始,然后基于该认识而采取主动措施来初始化任何专业搜索和/或(一个或多个)研究工具。后述方法需要用户的额外规划和努力。由研究任务识别系统116实现的方法还可以被视为优于这样的系统:在该系统中,始终为用户提供研究工具、专业搜索、定向广告和/或市场事件,因为这实际上可能使得用户习惯于忽视它们,特别是当这样的事件和(一个或多个)工具在用户执行的多数搜索会话中无用之时。
以下将详细说明研究任务识别系统116自动判断用户是否在使用搜索引擎106执行研究任务的方式以及研究任务识别系统116响应于该判断而断言触发信号的方式。
相似的搜索引擎106、研究任务识别系统116可以在硬件、软件、固件或其任意组合中实现。例如,研究任务识别系统116可以包括在一个或多个计算机系统的一个或多个处理器(例如一个或多个服务器)中运行的软件/固件。
B.研究任务识别
图3描绘了根据本发明实施例的用于自动判断搜索引擎(例如搜索引擎106)的用户是否在执行关于特定主题的研究任务的方法的流程图300。将参照系统100的元件来说明流程图300的方法。然而,应注意的是,该方法不限于该实现方式。而且,为了得到(一个或多个)替代实施例,本领域的技术人员可以对流程图300的方法进行修改。另外,这些步骤可以按照与所示不同的顺序发生,一些步骤可以同时执行,一些步骤可以与其他步骤相结合,并且/或者一些步骤可以根据需要而不存在。
如图3所示,流程图300的方法从步骤302开始,在该步骤中研究任务识别系统116生成与用户提交到搜索引擎106的一系列查询相关的多个特征。用户可以是例如计算机104a-104c的任一个用户,并且查询可以按照前述方式通过网络105从计算机104a-104c中的任一个被提交到搜索引擎106。特征可以由用于刻画查询的特征功能单独地和/或成对地生成。每个特征可以涉及查询的不同方面,例如该系列中查询的总数、响应于查询而检索的文档的数量、查询之间的经过时间等。以下将详细说明示例特征。注意,可以在研究任务识别系统116(例如通过使用特征功能)针对查询生成多个特征之前被格式化(为例如结构化查询)。
依赖于实现方式,特征功能可以根据查询日志108和/或直接根据搜索引擎108来刻画一系列查询。此外,可以从可由维护搜索引擎106的同一实体所维护的浏览历史日志(在图1中未示出)获得与该系列查询相关的所有或部分信息。浏览历史日志维护由用户先前访问的文档的列表,无论该用户是否通过搜索引擎106所提供的诸如搜索结果页面的接口访问文档。依赖于实现方式,对于特定用户的浏览历史信息的维护可以或可以不需要在用于访问文档的计算机上安装某种浏览器软件。进一步地,可以从可由维护搜索引擎106的同一实体所维护的一个或多个网络层服务器日志获得与该系列查询相关的所有或部分信息。更进一步地,可以将与该系列查询相关的所有或部分信息本地存储在计算机104a-104c之一上,然后作为计算机与搜索引擎106之间交互的一部分、通过网络105来传输。
现在返回到图3的说明,在步骤302中生成与用户所提交的一系列查询相关的特征之后,由第一机器学习检测器接收一部分特征(特征的第一子集)。第一机器学习检测器使用针对该系列查询而生成的所述多个特征的第一子集来检测搜索引擎106的用户是否在执行复杂研究,如步骤304所示。确切地说,第一机器学习检测器通过测量用户参与搜索的程度来执行复杂研究检测。
第一机器学习检测器使用特征的第一子集来分析该系列查询中的两个或更多个连续查询以得出用户个人参与搜索的指示,例如查询之间经过的时间、对用于同一查询的结果的链接的连续用户点击等。以下将详细说明第一机器学习检测器使用特征的第一子集来检测搜索引擎106的用户是否在执行复杂研究的具体方式。该步骤的输出被表示为“复杂研究检测”,并且取决于实现方式,该输出可以按照各种方式中的一种或多种被传递/传播到下一个步骤中。
第二机器学习检测器接收针对该系列查询而生成的所述多个特征的第二子集,然后使用所述多个特征的第二子集来检测搜索引擎106的用户是否在执行与特定信息需求相关的任务,如步骤306所示。确切地说,第二机器学习检测器通过测量该系列查询中的两个或更多个连续查询之间的主题连贯性(例如通过查找针对同一主题(因此是相同任务的一部分)的连续查询的指示)来执行任务检测。
第二子集中的特征可以包括文本特征,例如连续查询之间的文本相似性。特征的第二子集还可以包括时间的(例如时间相关)特征。以下将详细说明第二机器学习检测器使用特征的第二子集来检测搜索引擎106的用户是否在执行与特定信息需求相关的任务的具体方式。该步骤的输出被表示为“任务检测”,并且取决于实现方式,该输出可以按照各种方式中的一种或多种被传递/传播到随后的步骤中。
可选地,主题相似性检测器可以例如通过使用主题分类树来确定两个或更多个连续查询的第一和第二主题,如可选步骤308所示。然后主题相似性检测器可以例如通过确定在分层组织的分类中与每个查询相关联的主题类别之间的距离来检测所述两个或更多个连续查询的第一和第二查询之间是否存在主题相似性。此处,主题检测器可以直接分析连续的查询并且不一定接收任何特征。以下将详细说明主题相似性检测器确定第一和第二主题然后检测二者之间的任何相似性的具体方式。该步骤的输出被表示为“主题相似性检测”,并且取决于实现方式,该输出可以按照各种方式中的一种或多种被传递/传播到下一个步骤中。
在步骤310中,响应于用户是否在执行复杂任务以及用户是否在执行与特定信息需求相关的任务的检测(并且可选地响应于主题相似性检测),研究任务识别系统116判断用户是否在执行研究任务。研究任务识别系统116可以在作出其判断之前针对几个连续查询对、从机器学习检测器接收检测信息。例如,在一个实施例中,研究任务识别系统116存储与多个连续查询对相关联的检测信息,并且针对所述多个连续查询对、基于检测信息作出判断。以下将详细说明研究任务识别系统116判断用户是否在执行研究任务的具体方式。该步骤的输出被表示为“研究任务触发”。
1.研究任务识别系统
以下将参照图4详细说明研究任务识别系统116。研究任务识别系统116可以实现用于自动检测搜索引擎(例如搜索引擎106)的用户在执行针对特定主题的研究任务的方法300。注意,图4的方框图只是示例性的。另外,图4的各方框/单元可能以与所示顺序不同的顺序出现,或者可能根据需要而不存在。而且,各种其他方框/单元可能根据需要被包含在内。
例如,如果执行方法300的研究任务识别系统116是在硬件中执行,则物理和/或逻辑信号就可以在执行该方法的各方框/单元之间传播。例如,研究任务识别系统116可以使用可编程逻辑(例如FPGA)或使用定制硬件芯片(例如ASIC)等来实现。如果方法300是在软件中实现的,则可以使用软件对象、值、数据、数据地址、指针和/或函数调用。研究任务识别系统116还可以在软件和硬件二者中实现。例如,方法300的一部分可以在硬件中实现,而另一部分可以使用基于软件的部件,例如基于软件的机器学习部件来实现。
会话单元402可以接收由用户提交到搜索引擎106的一系列查询以及针对该系列查询的任何搜索结果和/或这些搜索结果所链接到的任何文档/网页,并生成一系列结构化查询。如上所述,用户可以是例如图1的计算机104a-104c的任何用户。例如,用户可能在一个或多个研究会话期间使用搜索引擎106。研究会话可以因各种原因而被执行,因此可以包含搜索各种相关和不相关的主题的一系列查询。会话单元402可以从搜索引擎106和/或查询日志108接收该系列查询/搜索结果/文档/网页。然后会话单元402可以通过该系列查询生成一系列结构化查询。结构化查询可以简单地为这些查询提供统一的格式。一种这样的统一格式是<q,u,t,C格式,其中是q查询,u是用户,t是提交查询的时间,并且C是用于会话的点击信息,该格式可以被存储在查询日志108中。注意,在本文档中,术语“一系列查询”可以指一系列查询或一系列结构化查询。
如以上参照方法步骤302所述,特征单元404可以接收和分析来自会话单元402的一系列查询(例如一系列结构化查询),以及针对该系列查询的任何搜索结果和/或搜索结果所链接到的任何文档。具体而言,特征单元404可以例如在查询对的基础上通过应用分析该系列查询的一个或多个特征功能(“特征功能”)来分析该系列查询/搜索结果/文档。换言之,特征单元404可以一次输出针对一对查询的多个特征。特征单元404还可以输出刻画搜索结果和/或文档的多个特征。
在以下示例中,该个或多个特征功能被应用于查询,但相同的原理适用于分析搜索结果/文档时。各种特征功能可以被研究任务识别系统116中的特征单元404使用。由它们各自的特征功能生成的这些特征中的一个或多个特征可以被研究检测器406和/或任务检测器408中的一个或多个考虑。在一个实施例中,检测器406和408中的每一个可以使用特征的不同子集来执行针对每个查询对的检测功能。注意,以下特征仅通过举例的方式被说明,不打算限制本发明。
特征单元404的特征功能可以被应用于一系列查询中的两个或更多个连续查询。例如,在图5的一系列查询500中,特征功能可以被应用于第一查询ql 502和第二查询q2504。这些特征功能可以包括针对文本特征、会话特征和时间相关特征等的功能。针对文本特征的特征功能能够计算两个或更多个连续查询之间的文本相似性。针对会话特征的特征功能能够计算用于两个或更多个连续查询的会话特性。针对时间相关特征的特征功能能够计算用于两个或更多个连续查询的时间特性。
随后,第一和第二机器学习检测器406和408可以从特征单元404接收与一系列查询/研究结果/文档相关的输出(即多个特征)。在一个实施例中,第一机器学习检测器406可以是研究检测器,并且第二机器学习检测器408可以是任务检测器。基于接收的多个特征,第一和第二机器学习检测器406和408各自可以执行关于该系列查询/研究结果/文档的相应判断。
继续上述示例,研究检测器406和任务检测器408可以接收刻画两个查询q1 502和q2 504的多个特征。研究检测器406和任务检测器408中的每一个可以接收和/或使用所述多个特征的不同子集—例如,研究检测器406可以接收和/或使用所述多个特征的第一子集(“第一特征子集”),并且任务检测器408可以接收和/或使用所述多个特征的第二子集(“第二特征子集”)。根据实现方式,第一和第二特征子集可以包含不同的特征、相同的特征,或者这两个特征子集可以包含重叠特征。这些特征子集可以基于它们刻画查询的能力以每个相应的检测器406和408所需的方式(由系统开发人员)进行选择。
研究检测器406和任务检测器408二者都可以使用机器学习规则来处理第一和第二特征子集以基于它们各自的机器学习规则执行相应的判断。研究检测器406和任务检测器408二者都可以在接收所述多个特征之前被训练。例如,如图6A所示,研究检测器406和任务检测器408(为了简单起见均被示为检测器602)二者都可以通过输入一组训练数据604而被训练。在一个实施例中,训练数据604包括一组查询对,以及针对每个查询对的一组特征和预期结果。预期结果可以由人工编辑器(例如注解器)提供。例如,人工编辑器可以为每个查询对提供标签(即预期结果),该标签指示所述查询对是否代表用于研究检测器406的研究,或者所述查询对是否代表用于任务检测器408的任务。
检测器602被配置成自动处理训练数据,以例如通过使用本领域已知的任何监督学习法来构造机器学习规则。例如,检测器602可以基于增长的决策树来建立机器学习规则。因此,检测器602可以使用其相应的训练数据来导出用于基于特征来判断查询对是否代表研究(对于研究检测器406)或任务(对于任务检测器408)的模型或算法。在一个实施例中,检测器602可以得知特定特征对于作出决策而言是特别相关的。在该情况下,该特征将在算法中较突出地显现。对比之下,如果检测器602得知一个特定特征对于作出该决策而言不是相关的,则该特征可以不在算法中突出地显现或者根本不显现。一旦建立了用于检测器602的机器学习规则,就可以使用本领域已知的任何技术验证这些机器学习规则。
因此,由检测器602接收的训练数据604可以包括与训练的成对连续查询(例如图5的一系列查询500)相对应的一组特征(即通过特征功能分析的结果)。例如,该系列查询500的五个连续查询包括四对查询:查询q1502和q2 504、查询q2 504和q3 506、查询q3 506和q4 508以及查询q4 508和q5 510。示出了对于五个连续查询q1-q5 502-510的四个查询对,以说明在训练以及分析和刻画该系列查询500时使用的用于该系列查询500的(例如由两个连续查询组成的一对查询的)移动窗口的概念。
在检测器602的机器训练期间,查询可以被输入到特征单元404中以生成其特征。预期训练结果也与每对连续查询相关联。例如,研究检测器406的训练结果可以指示训练的成对查询是否对应于用户执行复杂研究(例如用户参与研究)。类似地,任务检测器408的训练结果可以指示训练的成对查询是否对应于用户执行与特定信息需求相关的任务(例如相应的成对查询具有主题连贯性)。每个查询对的训练结果可以例如通过人工注解器手动生成,或者例如通过训练程序自动生成。
研究检测器
现在返回到图4的说明,研究检测器406可以通过测试用户对正被执行的实际研究的参与程度来测试两个连续查询是否为复杂研究的一部分。例如,用户可能在一个或多个研究会话期间使用搜索引擎,例如搜索引擎106。研究会话可以因各种原因而执行,因此可以包含对各种相关和不相关的主题的搜索查询。研究检测器406可以检验一对查询的特征的第一子集,并应用机器学习规则以基于(通过将机器学习规则应用于特征的第一子集而确定的)用户的参与来判断该对查询是否为复杂研究的一部分。用于研究检测器406的机器学习规则能够检验特征,例如指示用户对实际研究的参与程度的基于会话的特征。例如,如果接收的特征指示大量用户点击、自从研究会话开始的大量查询、和/或如果实际查询的长度长(例如较长查询可以指示复杂查询),则用于研究检测器406的机器学习规则可以检测到复杂研究。研究检测器406主要测试在搜索处理期间用户的参与程度,例如用户付出的努力。
因此,研究检测器406可以接收针对两个或更多个查询的第一特征子集,然后使用机器学习规则来检测用户是否在执行对于这两个或更多个查询的复杂研究,如以上参照方法步骤304所述。例如,研究检测器406可以接收针对第一查询q1 502和第二查询q2 504的第一特征子集,并使用机器学习规则、针对第一查询q1 502和第二查询q2 504来生成指明用户是否在执行复杂研究的研究检测结果。除了生成研究检测结果之外,研究检测器406还可以生成指示研究检测结果的置信的统计度量的相关联的置信度(例如90的置信度可以指示在100个测试结果中,预计有90个可以具有相同的预期结果)。用于研究检测器406的机器学习规则在这里可以被称作第一机器学习规则。
任务检测器
任务检测器408可以通过在正被执行的搜索中测试连续查询之间的主题连贯性来测试两个连续查询(即一对查询)是否为同一任务的一部分。例如,研究会话可以因各种原因而执行,因此可以包含对各种相关和不相关的主题的搜索查询。任务检测器408可以检验一对查询的特征的第一子集,并应用机器学习规则以基于(通过将机器学习规则应用于特征的第二子集而确定的)主题连贯性来判断该对查询是否指示用户在执行与特定信息需求相关的任务。用于任务检测器408的机器学习规则能够检验特征,例如指示该对查询中的第一和第二查询之间的文本相似性的基于文本的特征,以及可以表明第一和第二查询在时间上有多接近的时间相关特征。例如,如果查询q1 502和q2504之间存在文本相似性,则用于任务检测器408的机器学习规则可以检测到用户在执行与特定信息需求相关的任务。在一个实施例中,任务检测器408还可以使用时间相关特征来查看两个查询ql502和q2504是否在相近的时间作出。
因此,如以上参照方法步骤306所述,任务检测器408可以接收第二特征子集,然后检测用户是否在执行与特定信息需求相关的任务。例如,任务检测器408可以接收针对第一查询502和第二查询504的第二特征子集,并使用机器学习规则、针对第一查询502和第二查询504来生成指明用户是否在执行与特定信息需求相关的任务的任务检测结果。除了生成任务检测结果之外,任务检测器408还可以生成指示任务检测结果的置信的统计度量的相关联的置信度。用于任务检测器408的机器学习规则在这里可以被称作第二机器学习规则。
主题分类器
如以上参照可选方法步骤308所述,主题分类器410还可以从会话单元402接收一系列查询/研究结果/文档,并确定该系列查询500中的第一和第二连续查询(例如分别为第一查询502和第二查询504)的第一和第二主题。然后主题分类器410可以判断第一和第二主题之间是否存在相似性,从而判断第一查询502和第二查询504之间是否存在主题相似性。
主题分类器410可以使用基于主题类别的分层组织分类的层次树来刻画第一查询502和第二查询504。这种分层组织分类的一个示例包括在深度为七的层次树中组织的1026个主题类别,但作为替代,也可以使用具有不同数量的主题类别和/或深度的其他分层系统。除了此处所述的分层组织分类技术之外,还可以补充使用或者替代使用其他分层组织分类技术。在一个实施例中,主题分类器410所使用的主题分类系统可以是搜索引擎106已经使用的主题分类系统。
随后,主题分类器410可以使用主题确定功能来确定第一查询502和第二查询504中每一个的主题类别(即层次树的节点)。主题分类器410可以确定用于第一查询502和第二查询504的相应层次树节点之间的距离。例如,如果用于与第一查询502相关联的主题类别的节点和用于与第二查询504相关联的主题类别的节点之间的层次树上的距离在预定值(例如距离二)内,则主题分类器410就可以输出指示在第一查询502和第二查询504之间检测到主题相似性的结果。主题分类器410还可以输出与主题相似性结果相关联的置信度。
例如,在一个实施例中,第一查询502“罗马”和第二查询504“巴黎”可以映射到层次树分开的节点上,共享相同的上一父节点“欧洲”。由于与第一查询502相关联的节点和与第二查询504相关联的节点二者共享相同的父节点“欧洲”,因此与第一查询502相关联的节点和与第二查询504相关联的节点之间的距离为二。由于距离二可以在预定值内,因此主题分类器410可以指示在第一查询502和第二查询504之间检测到主题相似性。然而,其他主题分类和主题相似性检测方法也是可能的。
混合器
随后,混合器412可以针对一系列查询500从研究检测器406、任务检测器408和(可选的)主题分类器410中的每一个接收结果。混合器412还可以从特征单元404接收特征,并且从检测器406和408的每一个(并可选地从主题分类器410)接收与结果相关联的置信度。混合器412可以至少基于复杂研究检测和任务检测并且还可选地基于主题分类器检测、使用另一组机器学习规则来判断310用户是否在执行研究任务。在一个实施例中,混合器412可以使用两个连续的查询对来作出判断310。在其他实施例中,混合器412可以在作出判断310时使用三个、四个或更多个连续的查询对。可替代地,混合器412可以在作出判断310时使用不连续的查询对。
关于图5,混合器412可以针对第一对查询ql 502和q2 504以及随后的第二对查询q2 504和q3 506而使用来自研究检测器406和任务检测器408以及可选地来自主题分类器410的结果。混合器412还可以检验从特征单元404直接接收的直接针对这两个查询对的一个或多个特征。为了对多个查询对作出判断310,混合器412使用状态数据414来存储先前的复杂研究检测、任务检测和/或主题分类器的结果以及关于用户是否在执行研究任务的先前判断310。换言之,混合器412在作出关于用户的研究任务的当前判断310时使用存储的对于先前的查询对的检测结果。
在一个实施例中,由于混合器412的结果可以用于触发应用118(例如(一个或多个)研究工具、(一个或多个)专业搜索、(一个或多个)定向广告和/或(一个或多个)市场事件),因此混合器412还可以在事件数据416中跟踪当前是否提供了应用118。如果已经提供了应用118,则即使混合器412确定用户在执行研究任务,混合器412也可以不生成另一个触发信号。可替代地,无论当前事件状态如何(无论事件数据416是否指示提供了应用118),如果混合器412确定用户在执行研究任务,则它都可以生成触发信号,因此接收触发信号的任何方框/逻辑/单元都将需要确定如何对触发信号作出反应。
在一个实施例中,混合器412可以包括对用户是否在执行研究任务作出判断310的混合器决策器单元418。混合器决策器单元418可以使用存储的来自研究检测器406和任务检测器408以及可选地来自主题分类器410的、针对第一对查询ql 502和q2 504以及第二对查询q2 504和q3 506的结果(如使用状态数据414)。混合器决策器单元418还可以检验直接从功能单元404接收的对于这两个查询对的一个或多个特征,以及任何其他状态数据414和/或事件数据416。
混合器412(和/或混合器决策器单元418)可以被实现为另一个机器学习系统。在该情况下,混合器412可以使用逻辑回归来学习规则,但也可以替代地使用其他机器学习技术。例如,混合器412可以按照与参照图6A所述方式类似的方式如图6B所示那样被训练。在混合器612的训练期间,对来自检测器406和408(和可选地来自主题分类器410)以及特征单元404的、针对若干个查询对的结果进行模拟的训练数据614可以被输入到混合器612中。训练数据614还包括与每个查询对相关联的预期训练结果。训练数据614可以包括针对连续几个查询对的数据。一旦混合器612学习了机器规则,这些规则就可以根据需要被验证。
因此,一旦学习了(并且可选地验证了)用于混合器412(和/或混合器决策器单元418)的规则,混合器412就可以在内部生成概率p,概率p指示用户是否在执行研究任务的概率。因此概率p可以是对来自检测器406和408(和可选地来自主题分类器410)的、针对这两个连续查询对的结果应用学习规则所得的结果。在一个实施例中,混合器412可以随后使用针对这两个连续查询对的概率p来基于触发阈值T、助推因子B和一些另外的规则等生成触发信号。注意,除此处所述的示例性阈值和因子之外还可以补充使用或者替代地使用其他阈值和/或因子。这些另外的规则可以对当前判断起到助推作用或者将其列入黑名单。
具体而言,如果混合器412从主题分类器410接收到这样的信号:第一和第二主题中的至少一个包括预定流行研究主题,这两个或更多个连续查询的重要性就可以例如通过降低阈值T而被提高。例如,如果第一主题或第二主题中的任何一个是预定流行主题(例如如果它在助推列表上),则可以将阈值T与助推因子B相除,其结果是阈值T降低。示例性流行研究主题包括针对旅行、健康和职位搜索等的研究主题。
可替代地,如果混合器412从主题分类器410接收到这样的信号:第一和第二主题中的至少一个包括被列入黑名单的研究主题,则这两个或更多个连续查询的重要性至少可以被大大限制,或者判断可以被完全取消。例如,触发阈值T可以被提高预定因子(例如黑名单因子)。在一个实施例中,混合器412可以简单地确定用户没有在执行研究任务,无论来自其他检测器406和408(或者来自主题分类器410)的是什么结果。示例性的列入黑名单的研究主题可以包括成人主题的搜索、非法搜索等。
2.特征
所述多个特征可以由特征单元404使用被应用于分析和刻画一系列查询500的多个特征功能来生成。例如,特征功能可以被应用于以查询对(例如第一查询502和第二查询504)为基础来分析该系列查询500。特征功能404可以为每个查询对生成多个特征。检测器406和408的每一个可以根据它们各自检测的需求而使用所述多个特征的不同子集。
文本特征
在一个实施例中,针对文本特征的特征功能(文本特征功能)被应用于计算两个或更多个连续查询之间的文本相似性。例如,可以对第一查询q1 502和第二查询q2 504计算文本特征。文本特征可以包括这两个连续查询q1和q2中的每一个的查询术语的长度和/或数量、这两个连续查询q1和q2之间的余弦相似度、这两个连续查询q1和q2的杰卡德(Jaccard)系数、这两个连续查询q1和q2的字符交集的大小和/或这两个连续查询ql和q2之间的Levenshtein编辑距离等。该系列查询中的查询的术语之间的文本相似度的度量还可以包括本领域中已知的用于测量两个查询502和504的不同字或字串之间文本相似度的各种技术中的任一技术。例如,这些技术可以涉及识别这些不同字或字串之间的共同术语或基本概念。
会话特征
在一个实施例中,针对会话特征的特征功能(会话特征功能)被应用于计算两个或更多个连续查询(例如第一查询502和第二查询504)的会话特性。例如,会话特征可以包括当前搜索会话中的用户点击和/或查询的次数和/或自从上次用户点击以来的用户点击和/或查询的次数等。其他会话特征可以包括在信息检索会话期间访问的文档的数目。例如当用户激活由搜索引擎106提供的搜索结果页面上文档的链接时,该文档可以被访问。访问的文档的数目可以被单独分析,与文档被识别所针对的特定查询相关地被分析,或者与用户提交的查询的总次数相关地被分析。
时间特征
在一个实施例中,针对时间相关特征的特征功能(时间相关特征功能)被配置成计算两个或更多个连续查询(例如第一查询502和第二查询504)的时间特性。例如,时间相关特征包括用户张贴第一查询502与第二查询504之间经过的时间、这两个查询之间经过的时间的倒数以及包含两个查询502和504的会话(即信息检索会话)的总会话时间等。
其他特征
在一个实施例中,特征功能还可以测量由搜索引擎106响应于接收到这两个连续查询502和504中的每一个而识别的文档之间的相似度。这些文档相关特征还可以用于辨别用户对该部分的研究任务意图。比较文档可以包括仅比较由搜索引擎106响应于这两个连续查询502和504而识别的文档的子集。例如,可以比较被识别为与这两个连续查询502和504中的每一个最相关的预定数量的文档。可替代地,可以在比较中只使用在包含这两个连续查询502和504的信息检索会话期间由用户访问的文档。
例如,比较文档可以包括比较文档内的文本,或比较代表文档内容的其他信息,例如文档的标题、与文档相关联的URL、由搜索引擎106生成的文档的摘要或提要、与文档相关联的标志或与文档相关联的各种元数据。当比较若干文档内的文本时,可以仅比较选择部分的文本。例如,在一个实施例中,只比较每个文档内的一定数量的最频繁出现的术语。在待比较的信息包括文本的情况下,现有技术中已知的用于测量不同字或字串之间的相似度的多种多样的技术中的任一技术均可用于提供相似性度量。如以上指出的,这些技术可以涉及识别这些不同字或字串之间的共同术语或基本概念。以此方式识别的共同术语或基本概念可以进一步用于帮助识别并描述研究会话的主题(如果检测到了主题)。
相关领域的(一个或多个)技术人员将容易理解,除了所描述的特征之外,可以取代或补充地考虑以上列出的特征的其他类型。
3.调谐研究任务识别系统
在一个实施例中,系统管理员可以例如通过调谐混合器412和/或混合器决策器单元418来调谐研究任务识别系统116的灵敏度。例如,可以根据真实世界触发数据(例如事件是否被触发得太快或不够快)来将混合器412的触发阈值T设置得较高或较低。真实世界触发数据可以通过可用性研究、市场营销研究、(一个或多个)用户的特定需求以及地理因素来收集。例如,触发阈值T可以被修改以支持精确度或再调用(recall)。较高的精确度指示用户执行研究任务的较高概率,而较高再调用指示较高的触发概率。一些地理区域可能支持精确度,意味着除非研究任务识别系统116对于正在发生的研究任务具有高置信度,否则(一个或多个)事件不会被触发,或者换句话说,会有小的误报率。相反地,其他地理区域可能支持再调用,意味着即使研究任务识别系统116对于正在发生的研究任务具有中等置信度,(一个或多个)事件也会被触发,或者换句话说,会有较高的误报率。
此外,在一个实施例中,系统管理员可以调谐由研究任务识别系统116中的混合器412和/或混合器决策器单元418使用的每个检测器的相对影响。例如,主题分类器410的相对权重可以基于(一个或多个)用户的特定需求和/或其他因素而被增大或减小。在一个实施例中,混合器412可能响应于系统管理员对由混合器412使用的每个检测器的相对影响的调谐而被再训练,以便重新学习和/或修改其机器学习规则。在一个实施例中,混合器412可能能够响应于系统管理员对由混合器412使用的每个检测器的相对影响的调谐而简单地在其机器学习规则中使用不同的用于每个检测器的权重和/或系数,而无需混合器412被重新训练以学习新的机器学习规则。
4.替代的研究任务识别系统
如图7所示,在一个实施例中,研究任务识别系统116可以包括会话单元702、特征单元704、(一个或多个)检测器706和(一个或多个)机器学习系统708。会话单元702可以基本上类似于图4中的会话单元402并且具有相似的功能。特征单元704也可以基本上类似于图4中的特征单元404并且具有相似的功能。检测器706可以被配置成执行研究检测器406、任务检测器408以及可选地主题分类器410的功能。例如,检测器706可以被配置成从特征单元704接收多个特征并且应用机器学习规则(或一组硬编码规则)来创建与置信度相关联的两个或更多个分开的结果。因此,检测器706基于生成的特征来检测用户是否在执行复杂任务、判断用户是否在执行与特定信息需求相关的任务、并且可选地检测一系列查询中的两个或更多个连续查询之间是否存在主题相似性。
因此,检测器706可以具有能够执行研究检测器406、任务检测器408以及可选地主题分类器410的功能的单组机器学习规则。可替代地,检测器706可以具有针对研究检测器406、任务检测器408以及可选地主题分类器410中每一个功能的分开的多组机器学习规则。在任一情况中,检测器706都可以传播将机器学习规则应用于机器学习系统708的结果。可替代地,检测器706可以使用针对研究检测器406、任务检测器408以及可选地主题分类器410中的每一个功能的硬编码规则。
除了内部状态数据414和事件数据416都可以被状态单元710存储之外,机器学习系统708可以按照与图4的混合器412相似的方式来运行。应理解的是,研究任务识别系统116可以根据需要被实现为参照图4和图7来描述的实施例的任意组合。
5.模块化系统
在一个实施例中,研究任务识别系统116可以是模块化系统。模块性使研究任务识别系统116的各部分能够被添加、移除和/或修改,而不必影响研究任务识别系统116的其他部分。在某些情形下,混合器412和/或一个或多个检测器406和408的机器学习规则可能需要被重新训练。
例如,除了参照图4和图7来描述的检测器模块之外,研究任务识别系统116可以使用其他的检测器模块。例如,新的检测器单元可以被配置成检测针对两个连续查询的特征的第三子集是否指示这两个连续查询涉及相同的商业产品。
在另一个示例中,另外的特征可以被添加到特征单元404中。这些另外的特征可以仅由研究检测器406使用,而不由任务检测器408使用。在该情况下,只有用于研究检测器406的机器学习规则可能需要被重新学习(例如通过重新训练研究检测器406以学习新的或改变的第一机器学习规则)。由研究检测器406使用该另外的特征可以使研究检测器406更加精确。然而,研究检测器406对混合器412的输出是同样的,因此混合器412中的机器学习规则不受这些另外特征的影响。
因此可以看出,研究任务识别系统116的模块性给予了系统架构师在设计和维护定制的研究任务识别系统116时很大的灵活性。
6.用于专业搜索应用的下一个查询的识别
在一个实施例中,研究任务识别系统116可以被用于改进被识别为研究任务的一部分的查询的搜索结果。例如,如果一系列查询中的三个连续查询被识别为研究任务的一部分(即被使用以便识别研究任务),则研究任务识别系统116就可能能够猜测该系列查询中的第四个查询。第四个查询可以被例如专业搜索应用之类的应用118(和/或搜索引擎106的任何部件)使用,以在搜索引擎106的用户能够实际上发出第四个查询之前找出结果并将结果呈现给用户。换言之,研究任务识别系统116可以被配置成在用户的下一个查询被发出之前猜测和使用该查询。在一个实施例中,混合器412可以使用机器学习规则来猜测一系列查询中的下一个查询,但作为替代,也可以使用研究任务识别系统116的(一个或多个)其他部件。
然而,本发明不限于这样的实施例,也可以使用其他用于判断搜索引擎的用户是否在执行研究任务的装置。
C.示例计算机系统实现方式
这里所述的包括系统、方法/处理和/或设备的实施例可以使用公知的服务器/计算机(例如图8所示的计算机800)来实现。例如,图1的搜索引擎106和研究任务识别系统116、图3描绘的流程图所述的方法以及图4和/或图7的研究任务识别系统116可以使用一个或多个计算机800来实现。
计算机800可以是任何可商购的能够执行此处所述功能的公知计算机,例如可从International Business Machines,Apple,Sun,HP,Dell,Cray购得的计算机等。计算机800可以是任何类型的计算机,包括台式计算机、服务器等。
计算机800包括一个或多个处理器(也被称作中央处理单元或CPU),例如处理器804。处理器804被连接到通信基础设施802(例如通信总线)。在某些实施例中,处理器804能够同时操作多个计算线程。
计算机800还包括初级存储器或主存储器806,例如随机存取存储器(RAM)。主存储器806中存储了控制逻辑828A(计算机软件)和数据。
计算机800还包括一个或多个次级存储设备810。次级存储设备810包括例如硬盘驱动器812和/或可移除存储设备或驱动器814以及其他类型的存储设备,例如存储卡和记忆棒。例如,计算机800可以包括工业标准接口,例如用于与诸如记忆棒的设备进行接口的通用串行总线(USB)接口。可移除存储驱动器814代表软盘驱动器、磁带驱动器、光盘驱动器、光存储设备、磁带备份等。
可移除存储驱动器814与可移除存储单元816交互作用。可移除存储单元816包括其中存储了计算机软件828B(控制逻辑)和/或数据的计算机可使用或可读的存储介质824。可移除存储单元816代表软盘、磁盘、光盘、DVD、光存储盘或任何其他计算机数据存储设备。可移除存储驱动器814按照公知的方式从可移除存储单元816读取和/或向可移除存储单元816写入。
计算机800还包括输入/输出/显示设备822,例如监视器、键盘、指点设备等。
计算机800进一步包括通信或网络接口818。通信接口818使计算机能够与远程系统和设备通信。例如,通信接口818允许计算机800通过通信网络或介质842(例如LAN、WAN和互联网等)进行通信。通信接口818可以通过有线或无线连接与远程站点或网络进行接口。
控制逻辑828C可以通过通信介质842被发送到计算机800或从计算机800被发送。更特定地,计算机800可以通过通信介质842接收并发送用控制逻辑828C调制的载波(电磁信号)。
包括在其中存储了控制逻辑(软件)的计算机可使用或可读介质的任何装置或制品在这里被称作计算机程序产品或程序存储设备。这包括但不限于计算机800、主存储器806、次级存储设备810和可移除存储单元816。其中存储了当被一个或多个数据处理设备执行时使得该数据处理设备如这里所述地操作的控制逻辑的此类计算机程序产品代表本发明的实施例。
本发明可以利用除此处所述之外的软件、硬件和/或操作系统实现方式来工作。适合执行此处所述功能的任何软件、硬件和操作系统实现方式都可以被使用。
D.结论
虽然上文已经说明了本发明的各实施例,但应理解的是这些实施例只是通过举例而非限制性的方式来介绍的。相关领域的(一个或多个)技术人员将领会到,在不脱离如所附权利要求书所限定的本发明精神和范围的情况下,可以对上述实施例作出形式和细节上的各种更改。因此,本发明的宽度和范围不应受到任何上述示例性实施例的限制,而应仅根据以下权利要求书及其等同物被限定。

Claims (20)

1.一种用于判断搜索引擎的用户是否在执行研究任务的计算机实现的方法,包括:
生成与所述用户提交到所述搜索引擎的一系列查询相关的多个特征;
基于所述多个特征的第一子集,使用第一机器学习检测器检测所述用户是否在执行复杂研究;并且
基于所述多个特征的第二子集,使用第二机器学习检测器检测所述用户是否在执行与特定信息需求相关的任务;
至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务。
2.如权利要求1所述的方法,进一步包括:
确定所述一系列查询中的第一查询的第一主题;
确定所述一系列查询中的第二查询的第二主题;以及
检测至少在所述第一主题和所述第二主题之间是否存在主题相似性;
其中所述判断所述用户是否在执行研究任务是进一步基于所述主题相似性检测的。
3.如权利要求2所述的方法,
其中确定所述第一查询的第一主题包括将主题类别的分层组织分类中的第一主题类别指派给所述第一查询;
其中确定所述第二查询的第二主题包括将主题类别的分层组织分类中的第二主题类别指派给所述第二查询;并且
其中所述检测至少在所述第一主题和所述第二主题之间是否存在主题相似性包括确定主题类别的所述分层组织分类中的所述第一主题类别和所述第二主题类别之间的距离。
4.如权利要求1所述的方法,其中所述至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务包括:
至少基于所述复杂研究检测和所述任务检测来计算所述用户在执行研究任务的概率;并且
判断所述概率是否超过了预定义的阈值。
5.如权利要求4所述的方法,进一步包括:
确定所述一系列查询中至少一个查询的主题;并且
如果所述主题包括预定流行研究主题,则用与所述预定流行研究主题相关联的助推因子降低所述预定义的阈值。
6.如权利要求4所述的方法,进一步包括:
确定所述一系列查询中的至少一个查询的主题;并且
如果所述主题包括被列入黑名单的研究主题,则确定所述用户没有在执行研究任务。
7.如权利要求1所述的方法,其中所述使用第一机器学习检测器检测所述用户是否在执行复杂研究包括:
所述第一机器学习检测器接收针对所述一系列查询中的两个或更多个连续查询的所述多个特征的第一子集;并且
所述第一机器学习检测器将一个或多个机器学习规则应用于所述多个特征的所述第一子集,以生成复杂研究检测结果和相关联的置信度,其中所述复杂研究检测结果指示用户参与搜索的程度;
其中所述多个特征的所述第一子集包括会话特征和时间相关特征。
8.如权利要求7所述的方法,
其中所述会话特征指示与作出两个或更多个连续查询的会话相关的各种可点击事件;并且
其中所述时间相关特征指示用于所述各种可点击事件和所述会话的各种时间特性。
9.如权利要求1所述的方法,其中所述使用第二机器学习检测器检测所述用户是否在执行与特定信息需求相关的任务包括:
所述第二机器学习检测器接收针对所述一系列查询中的两个或更多个连续查询的所述多个特征的第二子集;并且
所述第二机器学习检测器将一个或多个机器学习规则应用于所述多个特征的所述第二子集,以生成任务检测结果和相关联的置信度,其中所述任务检测结果指示所述两个或更多个连续查询之间的主题连贯性;
其中所述多个特征的所述第二子集包括文本特征,其中所述文本特征指示所述两个或更多个连续查询之间的文本相似性。
10.如权利要求1所述的方法,
其中所述至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务是针对两对连续查询而执行的,其中所述两对连续查询中的第一对中的第二查询和所述两对连续查询中的第二对中的第一查询是相同的查询。
11.如权利要求1所述的方法,进一步包括:
基于所述确定,触发以下各项中的一项或多项:
一个或多个搜索工具;
一个或多个专业搜索;
一个或多个定向广告;
以及一个或多个市场事件。
12.如权利要求1所述的方法,进一步包括:
保持以下各项中的一项或多项的状态数据:
所述用户是否在执行研究任务的先前判断;
所述复杂研究检测;
所述任务检测;和
所述用户提交的所述一系列查询中的至少一部分;
其中所述判断所述用户是否在执行研究任务是进一步基于所述状态数据的。
13.如权利要求1所述的方法,其中所述复杂研究检测和所述任务检测中的一个或多个具有相关联的置信度;
其中所述判断所述用户是否在执行研究任务使用所述复杂研究检测和所述任务检测中的一个或多个的各自的相关联的置信度。
14.如权利要求1所述的方法,进一步包括:
所述至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务包括使用机器学习系统;
所述机器学习系统将一个或多个机器学习规则应用于所述复杂研究检测和所述任务检测,以生成研究任务决策和相关联的研究任务决策置信度。
15.一种用于检测研究任务的系统,包括:
搜索引擎,所述搜索引擎被配置成接收由用户提交的一系列查询,并且响应于所述一系列查询中的每个查询来识别一个或多个文档;
研究任务识别系统,所述研究任务识别系统包括:
会话单元,所述会话单元被配置成接收所述一系列查询并生成一系列结构化查询;
特征单元,所述特征单元被配置成基于所述一系列结构化查询的分析而生成多个特征;
研究检测器,所述研究检测器被配置成使用第一机器学习规则基于所述多个特征的第一子集来检测所述用户是否在执行复杂研究;
任务检测器,所述任务检测器被配置成使用第二机器学习规则基于所述多个特征的第二子集来检测所述用户是否在执行与特定信息需求相关的任务;和
混合器,所述混合器被配置成至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务。
16.如权利要求15所述的系统,其中所述研究任务识别系统进一步包括:
主题分类器,所述主题分类器被配置成基于所述一系列结构化查询来检测所述一系列查询中的两个或更多个连续查询之间是否存在主题相似性;
其中所述混合器被配置成还基于所述主题相似性检测来判断所述用户是否在执行研究任务。
17.如权利要求15所述的系统,其中所述研究检测器被进一步配置成:
接收针对所述一系列查询中的两个或更多个连续查询的所述多个特征的所述第一子集;并且
将一个或多个机器学习规则应用于所述多个特征的所述第一子集,以生成复杂研究检测结果和相关联的置信度,其中所述复杂研究检测结果指示用户参与搜索的程度;
其中所述多个特征的所述第一子集包括会话特征和时间相关特征。
18.如权利要求15所述的系统,其中所述任务检测器被进一步配置成:
接收针对所述一系列查询中的两个或更多个连续查询的所述多个特征的所述第二子集;并且
将一个或多个机器学习规则应用于所述多个特征的所述第二子集,以生成任务检测结果和相关联的置信度,其中所述任务检测结果指示所述两个或更多个连续查询之间的主题连贯性;
其中所述多个特征的所述第二子集包括文本特征,其中所述文本特征指示所述两个或更多个连续查询之间的文本相似性。
19.一种用于检测研究任务的系统,包括:
搜索引擎,所述搜索引擎被配置成接收由用户提交的一系列查询,并且响应于所述一系列查询中的每个查询来识别一个或多个文档;
研究任务识别系统,所述研究任务识别系统包括:
特征单元,所述特征单元被配置为生成针对所述一系列查询的多个特征;
检测器,所述检测器被配置成:
通过测量用户参与搜索的程度基于所述多个特征来检测所述用户是否在执行复杂研究;并且
通过测量连续查询之间的主题连贯性基于所述多个特征来确定所述用户是否在执行与特定信息需求相关的任务;和
机器学习系统,所述机器学习系统被配置成至少基于所述复杂研究检测和所述任务检测来判断所述用户是否在执行研究任务。
20.如权利要求19所述的系统,其中所述检测器被进一步配置成:
检测所述一系列查询中的两个或更多个连续查询之间是否存在主题相似性;
其中所述机器学习系统被配置成基于所述主题相似性检测来判断所述用户是否在执行研究任务。
CN2011800257617A 2010-05-31 2011-05-11 研究任务识别 Pending CN102934110A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/790,895 2010-05-31
US12/790,895 US8768861B2 (en) 2010-05-31 2010-05-31 Research mission identification
PCT/US2011/036065 WO2011152971A2 (en) 2010-05-31 2011-05-11 Research mission identification

Publications (1)

Publication Number Publication Date
CN102934110A true CN102934110A (zh) 2013-02-13

Family

ID=45022905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800257617A Pending CN102934110A (zh) 2010-05-31 2011-05-11 研究任务识别

Country Status (6)

Country Link
US (1) US8768861B2 (zh)
EP (1) EP2577522A4 (zh)
JP (1) JP5543020B2 (zh)
KR (1) KR101452082B1 (zh)
CN (1) CN102934110A (zh)
WO (1) WO2011152971A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105164676A (zh) * 2013-03-29 2015-12-16 惠普发展公司,有限责任合伙企业 查询特征和问题

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768861B2 (en) 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification
US9489457B2 (en) * 2011-07-14 2016-11-08 Nuance Communications, Inc. Methods and apparatus for initiating an action
WO2014050002A1 (ja) * 2012-09-28 2014-04-03 日本電気株式会社 クエリ類似度評価システム、評価方法、及びプログラム
US9594837B2 (en) * 2013-02-26 2017-03-14 Microsoft Technology Licensing, Llc Prediction and information retrieval for intrinsically diverse sessions
CN105564670B (zh) * 2015-11-24 2017-06-30 沈阳航空航天大学 一种空间站动力学与控制实验平台设计方法
US10769547B2 (en) 2015-12-30 2020-09-08 Oath Inc. Mobile searches utilizing a query-goal-mission structure
US10146815B2 (en) 2015-12-30 2018-12-04 Oath Inc. Query-goal-mission structures
US10430451B2 (en) * 2016-02-22 2019-10-01 Arie Rota System and method for aggregating and sharing accumulated information
JP6584613B1 (ja) * 2018-09-19 2019-10-02 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6679683B2 (ja) * 2018-09-20 2020-04-15 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7258988B2 (ja) * 2019-02-08 2023-04-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6982017B2 (ja) * 2019-02-08 2021-12-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269362B1 (en) * 1997-12-19 2001-07-31 Alta Vista Company System and method for monitoring web pages by comparing generated abstracts
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4363868B2 (ja) * 2002-08-23 2009-11-11 株式会社東芝 検索キーワード分析プログラム及びシステム並びに方法
US7231375B2 (en) 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US7480667B2 (en) 2004-12-24 2009-01-20 Microsoft Corporation System and method for using anchor text as training data for classifier-based search systems
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
JP2007156932A (ja) 2005-12-06 2007-06-21 Just Syst Corp 学習方法、学習装置、および検索方法、検索装置
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US7603348B2 (en) 2007-01-26 2009-10-13 Yahoo! Inc. System for classifying a search query
JP2009169519A (ja) * 2008-01-11 2009-07-30 Nec Corp 情報提示装置、情報提示方法、および情報提示用プログラム
US8768861B2 (en) 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269362B1 (en) * 1997-12-19 2001-07-31 Alta Vista Company System and method for monitoring web pages by comparing generated abstracts
CN101000611A (zh) * 2006-08-29 2007-07-18 曾文均 利用互联网为公众提供和查询信息的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEBORA DONATO等: "Do You Want to Take Notes? Identifying Research Missions in Yahoo! Search Pad", 《PROCEEDINGS OF THE 19TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》, 30 April 2010 (2010-04-30), pages 321 - 329 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105164676A (zh) * 2013-03-29 2015-12-16 惠普发展公司,有限责任合伙企业 查询特征和问题

Also Published As

Publication number Publication date
US8768861B2 (en) 2014-07-01
JP2013528873A (ja) 2013-07-11
EP2577522A4 (en) 2015-06-17
JP5543020B2 (ja) 2014-07-09
US20110295776A1 (en) 2011-12-01
EP2577522A2 (en) 2013-04-10
WO2011152971A3 (en) 2012-04-12
WO2011152971A2 (en) 2011-12-08
KR101452082B1 (ko) 2014-10-16
KR20130029787A (ko) 2013-03-25

Similar Documents

Publication Publication Date Title
CN102934110A (zh) 研究任务识别
Popat et al. Credibility assessment of textual claims on the web
US9519686B2 (en) Confidence ranking of answers based on temporal semantics
US8494897B1 (en) Inferring profiles of network users and the resources they access
Sahni et al. What? Why? When? How? Where? of Technology-Based Bibliometric Review
US20130246383A1 (en) Cursor Activity Evaluation For Search Result Enhancement
US20050125390A1 (en) Automated satisfaction measurement for web search
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
JP2005316998A (ja) 製品のサポートに関するサービス要求のマイニング
WO2001025947A1 (en) Method of dynamically recommending web sites and answering user queries based upon affinity groups
CN108207119A (zh) 对损坏网络连接的基于机器学习的识别
Chen et al. The best answers? think twice: online detection of commercial campaigns in the CQA forums
US10346856B1 (en) Personality aggregation and web browsing
Stanik et al. Which app features are being used? Learning app feature usages from interaction data
Colbaugh et al. Emerging topic detection for business intelligence via predictive analysis of'meme'dynamics
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品
Chen et al. Ian: Interpretable attention network for churn prediction in lbsns
Kelly et al. A user-centered approach to evaluating topic models
Khatiwada et al. Big Data Analytics and Deep Learning Based Sentiment Analysis System for Sales Prediction
Chen et al. The best answers? Think twice: identifying commercial campagins in the CQA forums
Segall et al. Web mining technologies for customer and marketing surveys
CN111382331A (zh) 一种基于大数据的处理舆情话题的方法、装置和系统
CN116150541B (zh) 后台系统的识别方法、装置、设备及存储介质
Saura et al. Does SEO matter for early-stage startups? Insights from visual data mining and topic-modeling techniques
Carragher et al. Detection and Discovery of Misinformation Sources using Attributed Webgraphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1180780

Country of ref document: HK

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160729

Address after: American California

Applicant after: EXCALIBUR IP LLC

Address before: American California

Applicant before: Yahoo Corp.

RJ01 Rejection of invention patent application after publication

Application publication date: 20130213

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1180780

Country of ref document: HK