CN102349072B - 识别查询方面 - Google Patents
识别查询方面 Download PDFInfo
- Publication number
- CN102349072B CN102349072B CN201080011911.4A CN201080011911A CN102349072B CN 102349072 B CN102349072 B CN 102349072B CN 201080011911 A CN201080011911 A CN 201080011911A CN 102349072 B CN102349072 B CN 102349072B
- Authority
- CN
- China
- Prior art keywords
- candidate
- entity
- inquiry
- candidate aspect
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
用于生成与实体相关联的方面的方法、系统和装置,包括计算机程序产品。在某些实现中,一种方法包括:接收标识实体的数据;生成用于实体的一组候选方面;修改该一组候选方面以生成一组经修改的候选方面,包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;基于多样性得分和流行性得分对该一组经修改的候选方面中的一个或多个经修改的候选方面排名;以及存储一个或多个排名最高的经修改的候选方面与实体之间的关联。这些方面可以用于响应于针对实体的查询而组织和呈现搜索结果。
Description
技术领域
本说明书涉及响应于搜索查询而提供标识在搜索查询中识别出的实体的方面的信息,以及响应于搜索查询而在呈现信息时使用这些方面。
背景技术
因特网搜索引擎提供关于响应于用户的搜索查询的因特网可访问资源(例如网页、图像、文本文档、多媒体内容)的信息并且以对用户有用的方式呈现关于这些资源的信息。因特网搜索引擎响应于用户所提交的查询而返回搜索结果集(例如作为已排名的结果列表)。搜索结果包括例如URL以及来自对应的资源的信息的摘录。常规搜索引擎是在用户的搜索查询能够通过单一结果得到满足的假定下实现的,并且用于帮助用户发现结果。遗憾的是,用户并不总是在寻找单一的结果,而是取而代之使用查询作为出发点来探究关于他们可能以通用的方式初始地指向的某种事物的信息的未知空间。
例如,用户可以提交对实体命名或指向实体的查询作为出发点来探索与该实体相关联的各种方面。当参考信息检索系统(例如搜索引擎)的操作而使用时,术语“实体”是指对某种事物命名或标识某种事物的文本。这一事物可以是可以具有相关联的性质的任何对象(例如在物理上的、概念上的或者虚幻的世界中的对象)。例如,实体可以是指位置、人、虚构的人物、状态、事物、想法等等。当可以从上下文中清楚其含义时,并且为避免不必要的赘述,术语“实体”还可以用于指代事物本身。
方面是不同的信息轴,沿这些轴能够获得关于实体的附加信息。例如,对于实体“夏威夷”,可能的方面可以包括“海滩”、“旅馆”和“天气”。对于术语“实体”,当参考信息检索系统(例如搜索引擎)的操作而使用时,术语“方面”是指对正在讨论的方面命名的文本,相反,当可以从上下文中清楚其含义时,该术语还可以用于指代方面本身。
由常规搜索引擎提供的单一的已排名的结果列表通常不能为用户提供实体的不同的方面的概况。当然,单一的已排名列表通常提供指向单一的或少量的方面的很多结果。此外,所呈现的结果通常并不标识所代表的方面。
发明内容
本说明书描述了与识别与实体相关联的方面有关的技术。
一般地,在本说明书中描述的主题的一个方面可以体现为包括以下动作的方法:在计算机系统中接收查询,计算机系统包括一个或多个计算机,该查询包括实体;在计算机系统中生成用于实体的一组候选方面;在计算机系统中修改该一组候选方面以生成一组经修改的候选方面,包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;在计算机系统中基于多样性得分和流行性得分对该一组经修改的候选方面中的一个或多个经修改的候选方面排名;在计算机系统中将一个或多个排名最高的经修改的候选方面与实体相关联;在计算机系统中接收一个或多个搜索结果集;以及响应于查询而提供对搜索结果的呈现,该呈现呈递了根据与实体相关联的方面而组织的搜索结果。这一方面的其他实施例包括对应的系统、装置以及编码在计算机存储设备上的配置为执行方法动作的计算机程序。
这些和其他实施例每个都可以可选地包括以下特征中的一个或多个。该方法可以进一步包括根据方面呈现关于实体的信息的概要。该一个或多个搜索结果集可以包括响应于查询的搜索结果集。该一个或多个搜索结果集中的每一个可以对应于与实体相关联的相应方面。
一般地,在本说明书中描述的主题的另一方面可以体现为包括以下动作的方法:接收标识实体的数据;在计算机系统中生成用于实体的一组候选方面,计算机系统包括一个或多个计算机;在计算机系统中修改该一组候选方面以生成一组经修改的候选方面,包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;在计算机系统中基于多样性得分和流行性得分对该一组经修改的候选方面中的一个或多个经修改的候选方面排名;以及在计算机系统的数据存储设备中存储一个或多个排名最高的经修改的候选方面与实体的关联。这一方面的其他实施例包括对应的系统、装置以及编码在计算机存储设备上的配置为执行方法动作的计算机程序。
这些和其他实施例每个都可以可选地包括以下特征中的一个或多个。该方法可以进一步包括:接收包括实体的查询;识别与实体相关联的一个或多个方面;接收响应于查询的搜索结果;以及基于识别出的方面而呈现搜索结果。该方法可以进一步包括:接收包括实体的查询;识别与实体相关联的一个或多个方面;接收一个或多个搜索结果集,每个集对应于识别出的方面之一;以及基于识别出的方面而呈现搜索结果。
该方法可以进一步包括接收标识一个或多个实体性质的数据,其中:生成该一组候选方面包括使用该一个或多个实体性质;以及该一个或多个排名最高的候选方面与实体和实体性质两者相关联。该方法可以进一步包括:将实体与类别相关联,该类别具有包括实体的一个或多个类别成员;并且其中生成该一组候选方面包括生成对应于实体和类别的候选方面。生成该一组候选方面可以包括:分析一个或多个第一用户搜索历史以识别与实体相关联的查询;以及分析一个或多个第二用户搜索历史以识别与实体以外的类别成员相关联的查询。
组合候选方面可以包括:计算相似度得分,其中每个相似度得分是对两个候选方面之间的相似度的估计;并且基于相似度得分将候选方面组合为单一的经修改的候选方面。将每个候选方面表示为文本,并且两个候选方面之间的相似度得分基于对与每个候选方面相关联的文本的字符串的比较。计算两个候选方面之间的相似度得分可以包括:接收针对每个方面的相应搜索结果集;以及基于对搜索结果集的比较计算相似度得分。对搜索结果集的比较可以包括将搜索结果集之一中的搜索结果的路径与搜索结果集的另一个中的搜索结果的路径相比较。对搜索结果集的比较可以包括将搜索结果集之一中的搜索结果的标题和摘录与搜索结果集的另一个中的搜索结果的标题和摘录相比较。基于相似度得分组合候选方面可以进一步包括使用图划分算法来确定组合哪些方面。
使用一个或多个方面类别对候选方面进行归组可以包括:将两个或更多候选方面与相应的方面类别相关联;以及基于两个或更多候选方面的方面类别将其归组到单一的经修改的候选方面。单一的经修改的候选方面是方面类别。
基于多样性得分和流行性得分对一个或多个经修改的候选方面排名可以包括:计算针对每个方面的流行性得分;将流行性得分最高的方面排名为最高;以及通过重复以下步骤一次或多次来对其余方面排名:计算针对每个未排名的方面的相似度得分,其中相似度得分将未排名的方面与已排名的方面的相似度相比较;以及将下一最高排名指派给其流行性得分除以其相似度得分的结果为最高的方面。
可以实现在本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。可以识别出搜索查询中的实体的方面。可以呈现方面以使得用户容易沿多个轴探索搜索空间。使用方面使得用户可以探索超出其原始查询的范围的搜索空间。呈现方面还使得用户可以迅速地得到关于搜索的可能的轴是什么的概况。呈现方面能够使得用户可以例如通过使用分面浏览来高效地浏览搜索空间。可以将与方面相关的信息识别和呈现给用户。这一信息能够使得用户可以迅速地得到其所需的关于实体的多个方面的信息。可以将混搭呈现给用户作为使关于实体的方面的信息可视化的方式。混搭呈现信息在单一的集成接口中与若干方面相关联。
在下面的附图和描述中阐明了本发明的一个或多个实施例的细节。本发明的其他特征、方面和优点将从描述、附图和权利要求中变得显然。
附图说明
图1图示了用于提供与所提交的查询相关的搜索结果的示例搜索系统。
图2图示了用于将方面与实体相关联的示例方法。
图3图示了组合类似的候选方面的示例。
图4图示了基于方面的方面类别对方面进行归组的示例。
图5图示了在给定预先存在的一组一个或多个已排名的方面的情况下对未排名的方面排名的示例。
图6图示了用于接收包括对应于实体的一个或多个词的查询并且基于识别出的实体的方面呈现搜索结果的示例方法。
图7图示了在用户提交搜索查询之后所显示的示例混搭(mashup)。
图8图示了系统的示例体系结构。
各图中的相似的参考标号和名称表示相似的元素。
具体实施方式
图1图示了用于提供与所提交的查询相关的搜索结果的示例搜索系统114,该搜索系统114可以实现在因特网、内网或者另一客户端和服务器环境中。搜索系统114是其中能够实现下面描述的系统、组件和技术的信息检索系统的示例。
用户102可以通过客户端设备104与搜索系统114交互。例如,客户端104可以是通过局域网(LAN)或例如因特网的广域网(WAN)耦合至搜索系统114的计算机。在某些实现中,搜索系统114和客户端设备104可以是一个机器。例如,用户可以在客户端设备104上安装桌面搜索应用。客户端设备104将一般地包括随机存取存储器(RAM)106和处理器108。
用户102可以向搜索系统114内的搜索引擎130提交查询110。当用户102提交查询110时,查询110通过网络传送到搜索系统114。搜索系统114可以实现为例如运行在一个或多个位置上的、通过网络彼此耦合的一个或多个计算机上的计算机程序。搜索系统114包括索引数据库122和搜索引擎130。搜索系统114通过生成搜索结果128来对查询110进行响应,该搜索结果128以能够呈现给用户102的形式(例如要显示在运行在客户端设备104上的web浏览器中的搜索结果网页)通过网络传送到客户端设备104。
当搜索引擎130接收到查询110时,搜索引擎130识别与查询110匹配的资源。搜索引擎130还可以识别与查询相关的每个资源的“摘录”或部分。搜索引擎130将一般地包括对在资料库(例如内容的集合或存储库)中找到的资源(例如因特网上的网页、图像或者新闻文章)进行索引的索引引擎120,存储索引信息的索引数据库122,以及用以对与查询110匹配的资源进行排名的排名引擎152(或其他软件)。可以使用常规方法来执行对资源的索引和排名。搜索引擎130可以通过网络向客户端设备104传送搜索结果128,例如,以便呈现给用户102。
搜索系统114还可以基于其从用户接收的查询来维持一个或多个用户搜索历史。一般而言,用户搜索历史存储从用户接收的一系列查询。用户搜索历史还可以包括附加信息,诸如在执行了搜索之后选择了哪些结果以及所选择的每个结果被查看了多久。
在某些实现中,搜索系统114包括方面确定器(aspector)140。作为替代,方面确定器140可以实现在耦合到搜索系统114的一个或多个截然不同的系统中。方面确定器140将方面与特定实体相关联。此外,方面确定器140可以接收查询110,并且结合搜索引擎130来向用户102提供基于方面的搜索结果。下面将更详细地描述对方面的识别和使用。
图2图示了用于将方面与实体相关联的示例方法200。为方便起见,将参考执行方法200的系统来描述示例方法200。该系统可以是例如搜索系统114或单独的系统。
该系统接收实体(步骤202)。实体可以是可以具有相关联的性质的任何对象(例如在物理上的或概念上的世界中的对象)。例如,实体可以是位置、人、事物、想法等。该系统可以从各种各样的源接收实体。例如,该系统可以直接从用户接收实体,或者响应于由系统执行的动作(例如执行处理的动作)而接收实体。例如,通过解析查询并且将查询的词与可能实体的数据库相比较,可以从接收到的来自用户或搜索系统114的搜索查询提取实体。实体的其他源也是可能的,例如可以从诸如用户搜索历史之类的查询数据提取实体。
在某些实现中,系统还接收标识实体的一个或多个性质的数据。实体的性质是与实体相关联的、可以用于进一步细化实体的附加元素。例如,“旅行”可以是实体“越南”的性质,因为人们会到越南旅行。
系统生成用于实体的一组候选方面(步骤204)。可以基于实体,或者作为替代,基于与实体相关联的类别来生成候选方面。类别是实体的抽象。例如,“巧克力蛋糕”可以与类别“食物”相关联,因为巧克力蛋糕是一种食物。黄水仙可以与类别“花”相关联,因为黄水仙是一种花。类别可以具有多个成员。每个成员也是实体。例如,类别“花”可以包括很多类型的花,包括“郁金香”、“六出花”、“玫瑰”等等。
在某些实现中,使用基于实体的方面和基于类别的方面两者。对基于实体的方面和基于类别的方面两者的依赖可能引起更具有鲁棒性的方面集。例如,某些实体非常稀少以至于只有少量数据来作为方面的基础。对于这些实体,依赖于基于类别的方面能够增加候选方面的数量。然而,某些实体非常流行并且可以具有例如能够从用户搜索历史中识别的、特定于实体的方面。因此,还包括基于实体的方面对于这些更流行的实体来说可以是有用的。
在某些实现中,生成用于实体的一组候选方面包括分析用于包括实体的查询的查询数据。可以分析查询数据,例如以便识别查询细化和查询超级字符串。
当用户第一次发布针对实体的查询时,发生查询细化,然后跟随该查询接下来是另一相关的查询。例如,如果用户发布针对“爆米花”的查询,接下来是针对“微波炉爆米花”的查询,则可以将微波炉爆米花识别为针对爆米花的查询细化。查询细化不必包括原始查询。例如,如果用户发布针对“计算机”的查询,接下来是针对“笔记本计算机”的查询,则可以将笔记本计算机识别为针对计算机的查询细化。查询细化能够提供关于实体的有价值的信息,这是因为它们表明了给定用户如何进行选取以探究用于实体的搜索空间。
可以将查询细化生成如下。能够识别包括针对实体的查询的一个或多个用户搜索历史。然后,将每个用户搜索历史分为会话,其中每个会话代表由给定用户发布的、针对给定信息找寻任务的一组查询。可以用多种方式来度量会话,例如用规定的时间段(例如三十分钟)、用规定的查询数量(例如15个查询)来度量,直到规定的不活动时段(例如十分钟不执行搜索)为止,或者在用户登录搜索系统的那段时间。
可以过滤掉不包括针对实体的查询的会话。在其余会话中对在针对实体的查询后面的查询是查询细化。查询细化中的每一个表明潜在的候选方面。例如,候选方面可以是查询细化本身,或者不包括实体的查询细化的部分。还可以通过如下方式来识别候选方面,即通过使用语言分析技术来分析查询细化(例如使用词典或统计分析来识别查询细化中的、很可能会是方面的词),或者通过在将查询细化与方面相关联的数据库中查找查询细化。可以跨用户而聚合潜在的候选方面,并且可以过滤掉没有出现多于阈值次数的候选方面。
在某些实现中,基于查询中的实体和实体的相关联的性质(而不仅仅是实体)、针对查询生成查询细化。
一般而言,当查询包括其他查询时,该查询是另一查询的超级字符串。例如,“越南旅行套餐”是“越南旅行”的超级字符串,因为其包括了文本“越南旅行”。与查询细化不同,查询超级字符串不必在与该查询超级字符串作为其超级字符串的查询相同的会话期间发送。
通过考虑一个或多个用户搜索历史并且识别包括实体的查询来生成查询超级字符串。每个查询超级字符串表明潜在的候选方面。例如,候选方面可以是不包括实体的查询超级字符串的部分。在某些实现中,在识别候选方面之前对查询超级字符串进行过滤以移除诸如“一”、“该”之类的常用措辞。如上所述,还可以使用语言学技术或数据库来从查询超级字符串中识别候选方面。可以跨用户而聚合潜在的候选方面,并且可以过滤掉没有出现多于阈值次数的候选方面。
在某些实现中,针对包括对实体及其性质(而不仅仅是实体)命名的文本的查询识别查询超级字符串。
在某些实现中,系统将实体与类别相关联并且生成用于实体的基于类别的候选方面。
在某些实现中,系统基于将实体与类别相关联的预定数据库来将实体与类别相关联。可以例如通过分析知识库信息(例如来自由Wikimedia Foundation公司运行的WikipediaTM的信息,或者来自由Metaweb公司运行的FreebaseTM的信息)来生成这一预定数据库。一般而言,知识库是用于一个或多个实体的信息的集合。知识库可以规定实体之间的关系,诸如类别关系,并且还可以规定实体的特征。例如,知识库可以规定“加拿大”在称为“国家”的类别中以及其特征之一是其“GDP”。可以从知识库信息中识别实体-类别关系,并且可以将基于关系的关联存储在数据库中以供将来使用。还可以通过在搜索系统114中查询Hearst模式来生成预定数据库,例如如果实体是“波士顿”,则可以向搜索系统发布针对“诸如波士顿之类的X”的查询。然后,可以针对包括“诸如波士顿”的句子分析结果,并且可以识别所得到的类别。例如,如果若干搜索结果包括短语“诸如波士顿之类的城市”,则波士顿可以与类别“城市”相关联。在某些实现中,实体不必是与数据库中的实体的完美匹配,以便识别关联。例如,可以忽略诸如实体是单数还是复数之类的较小差异。例如,如果数据库中存储了单数“玫瑰”,但实体是复数的“玫瑰”,则可以使用用于玫瑰的类别信息。还可以忽略其他较小的差异,诸如拼写变化。
在某些实现中,系统通过如下方式将实体与即时的类别相关联,即通过访问知识库信息(例如浏览诸如Wikipedia之类的网址)并且识别与所接收的实体相关联的类别,或者发布包括实体的具有Hearst模式的查询。用于将实体与类别相关联的其他技术也是可能的。例如,可以基于诸如支持向量机之类的机器学习技术来对实体分类。作为替代,用户可以规定与实体相关联的类别。
可以通过分析针对包括实体以外的类别成员的查询的查询数据来生成基于类别的方面。例如,如果实体是“黄水仙”并且其类别是“花”,则可以针对包括“玫瑰”的查询来分析查询数据,这是因为“玫瑰”是花类别的成员之一。可以分析用于类别成员的查询数据以识别方面,就像如上所述地分析用于实体的查询数据以识别方面一样。当实体与一个或多个性质相关联时,可以将这些性质与每个类别成员一起包括,以便用于识别方面的目的。在某些实现中,仅从充分接近实体(例如在时间或空间或者实体之间的距离的另一度量的阈值内)的类别成员生成基于类别的方面。例如,“加拿大”、“比利时”和“法国”全都在类别“国家”中。然而,比利时和法国是邻国。因此,如果实体是“比利时”,则系统可以基于类别成员“法国”而不是类别成员“加拿大”来识别基于类别的方面,这是因为加拿大也远离比利时。阈值可以是若干英里,或者很多天,或者距离的其他度量。可以根据经验确定阈值。
生成候选方面的其他方法也是可能的,例如可以通过分析与实体或其类别成员相关联的知识库信息来生成候选方面。知识库能够提供给定实体与其特征之间的二元联系。例如,WikipediaTM提供用于某些实体的“Infobox”。用于柬埔寨的Infobox列出了诸如资本、旗帜、人口、面积和GDP之类的特征。这些能够提供用于实体柬埔寨的附加方面。还可以从将实体或类别成员与潜在的候选方面相关联的数据库获取候选方面。
在某些实现中,基于用户对先前已经与实体相关联并且呈现给用户的方面的反馈来对候选方面进行过滤。用户反馈可以表明哪些方面是实体的有用方面,以及哪些方面并非实体的有用方面。用户反馈可以用于直接过滤掉用户已经表明并非有用的方面。作为替代,用户反馈可以用作训练输入以训练机器使用机器学习技术来对候选方面进行过滤。
系统修改该组候选方面(步骤206)。修改该组候选方面可以包括组合类似的候选方面并且基于一个或多个候选方面的类别对候选方面进行归组。这一组合和归组减小了冗余的方面并且帮助集中于在各种搜索轴上的方面。
经常生成类似的方面。例如,对于查询“越南旅行”,方面“一个套餐”、“多个套餐”以及“成交”全都能够生成。所有这些方面指代相同的基本概念—将旅行的各个方面捆绑到一个套餐中的产品。因此,可以将这些方面组合为单一的方面。
图3图示了组合类似的候选方面的示例。初始的一组候选方面302包含四个方面:方面1、方面1’、方面2和方面3。
可以针对该组候选方面302中的每对方面计算相似度得分。例如,方面1和方面1’具有0.9的相似度得分304。方面1和方面2具有0.5的相似度得分306,并且方面1’和方面2具有0.3的相似度得分308。
在某些实现中,计算两个方面的相似度得分包括识别对应于针对每个方面的查询的相应搜索结果集,然后将搜索结果相比较。可以通过针对每个方面向搜索引擎(例如图1中的搜索引擎130)发布查询来生成搜索结果。然后,选取用于每个查询的最前面的n个搜索结果作为用于相应方面的搜索结果集(n可以是选取为给定充分的信息量以便进行比较的任何整数(例如8或10))。出于图示的目的,令Di为对应于第一方面的搜索结果集di∈Di,并且令Dj为对应于与第一方面相比较的第二方面的搜索结果集dj∈Dj。可以将针对两个搜索结果集的相似度得分,从而可以将两个方面计算如下。
针对Di和Dj中的每个搜索结果生成特征向量。例如,特征向量可以包括一个或多个特征(例如词)以及特征对用户的重要性的对应统计度量(例如用于每个特征的词频(tf)权重或词频逆向文档(tf-idf)权重)。词可以是搜索结果中的所有措词,或者搜索结果的措词的子集(例如由搜索引擎识别的结果的标题和摘录)。
在某些实现中,将tf权重用作特征对用户的重要性的统计度量。可以使用tf权重是因为特征对用户的重要性可以根据特征在文档的集合中发生的频率(例如词频)而按比例增加,文档的集合例如是由搜索系统(例如图1中的搜索系统114)进行索引的所有文档,或者由搜索系统进行索引的、与该词使用相同语言的所有文档。
搜索结果中的词频是特定词在搜索结果中发生的相对频率,可以表示为:
其中词频是特定词tq在搜索结果(dp)中发生的次数nq,p除以所有词tk在dp中发生的次数。
在某些实现中,将tf-idf权重用作特征对用户的重要性的统计度量。tf-idf权重可以通过将词频乘以逆向文档频率(idf)来计算。
idf是对词在文档的集合中出现得有多频繁的估计,文档的集合例如是由搜索系统进行索引的所有文档,或者由搜索系统进行索引的、与该词使用相同语言的所有文档。逆向文档频率可以表示为:
其中用所有文档在文档资料库中的数量D除以包含词tq的文档dp的数量Dp。在某些实现中,使用自然对数而不是以10为底的对数。
tdf idf权重可以表示为:
tf_idfq,p=tfq,p·idfq,p
针对每对搜索结果{di,dj}计算相似度得分。针对每对的相似度得分可以通过确定用于两个结果的特征向量之间的距离来计算。例如,如果搜索结果di具有特征向量X=(x1,x2,x3)并且搜索结果dj具有特征向量Y=(y1,y2,y3),则sim(di,dj)可以表示为余弦距离:
可以基于其各自的搜索文档之间的相似度得分来整体地计算针对两个搜索结果集的相似度得分Di和Dj。在某些实现中,对针对每对搜索结果的相似度求平均。在某些实现中,如下式所示地使用针对每个搜索结果的最高相似度得分的平均:
其中
sim(di,Dj)=maxk sim(di,dk)并且sim(dj,Di)=maxk sim(dk,dj)
并且其中maxk sim(di,dk)是搜索结果di与Dj中的所有搜索结果之间的相似度得分的最大相似度得分,并且maxk sim(dk,dj)是搜索结果di与Di中的所有搜索结果之间的相似度得分的最大相似度得分。
还可以使用其他相似性度量,例如,确定用于针对每个方面的所有搜索结果的单一特征向量,并且基于两个特征向量的相似度(例如基于余弦距离)计算相似度得分。
作为替代,可以通过如下方式计算针对两个方面的相似度得分,即通过将针对每个方面的搜索结果的路径(例如web地址、文件路径)相比较,例如通过解析路径的文本并且提取特征(诸如域名或文件系统中的目录),然后将所提取的特征相比较。还可以通过将方面本身的文本相比较,例如通过将两个方面的文本中的字符相比较来计算针对两个方面的相似度得分。
一旦识别出了针对每对方面应当相似度得分,就可以使用相似度得分来识别应当组合为单一的方面的候选方面。可以使用各种集群技术来确定何时应当组合两个候选方面。例如,可以使用图划分算法。图划分算法创建图表,其中图表的节点是方面并且如果两个节点充分类似(例如如果其相似度得分超过阈值)则边缘连接两个节点。例如,在图3中,有方面1与方面1’之间的边缘(用实线标示),这是因为方面1与方面1’之间的相似度得分大于阈值。然而,在图表中没有其他已连接的边缘。可以例如基于测试方面集、根据经验确定阈值。然后,图划分算法将已连接的方面组合为单一的方面。例如,在图3中,所得到的方面集316仅列出了方面1、方面2和方面3。方面1’已经与方面1组合。
组合两个方面可以包括在该组方面中保持一个方面并且从该组方面移除另一个。可以例如通过选择具有最高的流行性得分的方面来进行关于要保持哪一方面的判决。下面更详细地讨论方面流行性得分。
可以使用其他集群技术,例如K平均值集群(其中基于相似度得分将方面分为预定数量的集群)、频谱集群、分级集群以及星形集群。
可以基于候选方面的类别来对其进行归组。如上所述,例如,可以就像确定实体类别一样确定方面类别。在某些实现中,确定方面类别包括确定方面的同义词,然后确定同义词的类别。例如,“纽约大学”经常被缩写为“NYU”。然而,例如,可能难以确定用于“NYU”的方面类别,这是因为很多知识库仅对用于给定实体的可能名称之一进行分类。因此,可能没有数据来作为“NYU”分类的基础。然而,更正式的“纽约大学”很可能包括在知识库中。因此,可以通过将“NYU”与其同义词“纽约大学”相关联然后识别用于该同义词的类别来确定用于“NYU”的类别。可以例如通过在辞典或字典中查找方面来确定同义词。还可以例如通过使用诸如WikipediaTM之类的知识库的重定向网页来确定同义词。重定向页面各种词到由WikipediaTM分类的同义词的映射。
从相似度得分角度来看,方面可能不同,但在它们属于同一类别的意义上仍然相关。当发生这一点时,可以将方面归组为同一类别。例如,方面“纽约”、“旧金山”和“华盛顿DC”是不同的,这是因为它们指向具有不同的食物、文化、街道等的不同城市,然而它们全都能够与类别“美国城市”相关联。因此,可以将方面归组为类别“美国城市”。在某些实现中,将方面归组为其类别的子集。例如,“纽约”和“华盛顿DC”是类别“美国城市”和子集“东海岸城市”的成员。因此,可以作为替代,将它们一起归组为“东海岸城市”。
图4图示了基于方面的方面类别对方面进行归组的示例。一组方面402每个都与相应类别相关联。方面1和方面3两者都在类别1中,而方面2在类别2中。当基于方面的类别对其进行归组时,新的一组方面404包括方面2和类别1。方面2在该新的一组方面404中保持不变,这是因为其类别与任何其他方面的类别不匹配。将方面1和方面3组合为等同于其类别(类别1)的新方面,因为它们具有同一类别。
在某些实现中,将某些方面与多个类别相关联。确定用于这些不明确的方面的类别可能是成问题的。例如,设想实体“越南”以及两个方面“食物”和“历史”。这两个方面是不明确的。除指代你会吃的一些东西之外,“食物”可以指代“F.O.O.D.”音乐专辑。除指代过去的一些事情之外,“history”(历史)可以指代“HIStory:Past,Present and Future,Book 1”音乐专辑。因此,可以将这两个不明确的方面分类为“专辑”,然后将其一起归组为“专辑”方面。食物和历史是用于探究越南的两个截然不同的方面,并且将它们保持分开是有价值的。因此,不应当将它们归组在一起。在某些实现中,不对不明确的方面进行归组,以便避免这一潜在的问题。
可以例如通过使用用多种含义来标识方面的歧义消除数据库来识别不明确的方面。还可以例如通过使用诸如WikipediaTM之类的网址的歧义消除网页来识别不明确的方面。这些歧义消除页面标识了用于给定方面的多种含义。
在某些实现中,一旦确定了经修改的一组候选方面,就对该组进行过滤,例如,以便移除潜在地令人不快的方面(例如对色情内容进行过滤)。这一过滤可以通过将方面与潜在地令人不快的方面的列表相比较并且移除在该列表上的任何方面来进行。
如图2所示,系统对用于实体的一个或多个候选方面进行排名(步骤280)。基于每个方面的多样性得分和流行性得分对候选方面进行排名。排名的目标是识别用户感兴趣的并且足够多样的方面,以便为用户给出对接下来将其搜索向何处引导的选择。可以将排名执行如下。
排名最高的方面是具有最高的流行性得分的方面。流行性得分是方面的常见程度的度量。依赖于方面是如何生成的,可以用各种各样的方式来计算流行性得分。
当方面被生成为查询细化时,流行性得分可以基于查询细化出现的频率,例如,通过查询细化出现在其中的会话的总数除以会话的总数得到。
例如,可以将查询q的细化qj的流行性得分pr(qj|q)计算如下:
其中fq(qj)是查询细化qj在用户搜索历史中出现的频率。
当方面被生成为查询超级字符串时,流行性得分可以基于查询超级字符串在用户搜索历史中出现的频率,例如,通过得到查询超级字符串在用户搜索历史中出现的总次数并且用查询超级字符串在用户搜索历史中的总次数加上针对实体的查询在用户搜索历史中出现的总次数来除以它。
例如,可以将针对给定查询超级字符串qj的流行性得分pss(qj|q)计算如下:
其中fq(qj)是超级字符串查询qj在搜索历史中出现的频率,并且fq(q)是针对实体的查询在搜索历史中出现的频率。
例如,还可以通过用超级字符串在搜索历史中出现的总次数除以查询超级字符串在搜索历史中的总数夹计算流行性得分。
当将查询细化和查询超级字符串两者识别为候选方面时,可以将这两者组合为单一的方面。可以用多种方式确定针对方面的流行性得分,这些方式包括例如得到两个得分中较高的那个,得到两个得分的平均,或者得到两个得分中较低的那个。
例如,可以将针对与既是查询细化又是查询超级字符串的给定查询qj相关联的方面的得分pinst(qj|q)计算如下:
pinst(qj|q)=max(p(qj|q),pss(qj|q))
当通过分析用于与该实体在同一类别中的其他类别成员实体的查询日志数据识别了方面时,可以如上所述地生成针对该方面的流行性得分,例如,
pinst(ai|q)=max(p(ai|q),pss(ai|q))
可以调节针对基于类别的方面的流行性得分,从而使得与该类别相关联的方面不会淹没与特定实体相关联的方面。更稀少的实体需要基于类别的方面,以便具有充足的数量和种类的方面。然而,更流行的实体可以具有比基于类别的方面更重要的基于实体的方面。可以通过对方面的得分进行加权来达到平衡。
例如,可以为包含类别C的实体的查询的候选方面ai指派加权得分p(ai|q)如下:
其中K是控制方面的各自得分和类别得分的相对重要性的设计参数并且可以根据经验确定,并且
其中count(a)是包括方面的查询日志中的查询的数量,并且|C|是类别C中的实体的数量。
针对基于类别的候选方面的流行性得分还可以反映例如从时间或空间或其他角度看实体与方面所基于的类别成员有多接近。例如,如果实体是“11月”,则基于类别成员“12月”的方面可能具有比基于类别成员“5月”的方面更好的得分,这是因为按月份的顺序,11月比5月更接近12月。例如,如果实体是“旧金山”,则基于“洛杉矶”的方面可能具有比基于“纽约”的方面更好的得分,这是因为从距离的角度看,旧金山更接近洛杉矶而不是纽约。
还可以设想其他流行性得分。例如,流行性得分可以基于针对给定方面的点击率,例如,用户在发布针对方面(或实体和方面)的查询之后选择搜索结果的次数除以用户发布针对方面的查询的总次数。流行性得分还可以基于与对应于针对方面或方面和实体的查询的一个或多个搜索结果相关联的停留时间。停留时间是用户花费在查看搜索结果上的时间量。停留时间可以是连续的数字,诸如用户花费在查看搜索结果上的秒数,或者其可以是离散的间隔,例如对应于小于三十秒的点击的“短点击”,对应于多于三十秒但小于一分钟的点击的“中等点击”,以及对应于数分钟的点击的“长点击”。在某些实现中,一个或多个结果的更长的停留时间与更高的流行性得分相关联。得分更高是因为用户用了更长的停留时间来发现这些结果足够有用以至于要查看更长的时间段。
一旦对第一方面进行了排名,就基于后续方面的流行性得分和多样性得分对后续方面进行排名,多样性得分例如是关于后续方面与已经排名的方面有多类似的度量。可以例如通过计算未排名的方面与每个已排名的方面之间的相似度得分来生成针对未排名的方面的多样性得分,然后得到该得分的最小值、最大值或平均值。
图5图示了在给定预先存在的一组一个或多个已排名的方面508的情况下对未排名的方面502进行排名的示例。
使用流行性得分生成器504来针对未排名的方面502生成流行性得分506。例如,如上所述,流行性得分生成器生成针对方面的流行性得分。然后,由多样性得分生成器510针对未排名的方面502生成多样性得分512。多样性得分512是对未排名的方面502与已排名的方面508有多类似的估计。可以通过如下方式来确定未排名的方面502与已排名的方面集508之间的多样性得分,即例如如上所述地计算集508中未排名的方面502与每个已排名的方面之间的相似度得分,然后使用该得分的最小值、最大值、平均值或总和作为多样性得分。
一旦生成了流行性得分506和多样性得分512,就将它们传递给总得分生成器514。总得分生成器514例如通过用流行性得分506除以多样性得分512、基于流行性得分506和多样性得分612生成总得分516。
还可以设想对候选方面进行排名的其他方法。例如,可以基于流行性得分选取排名最高的候选方面,并且可以基于多样性得分选取所有后续方面(例如通过选取具有最低的多样性得分的方面)。还可以仅仅基于候选方面的流行性得分或者仅仅基于候选方面的多样性得分来对候选方面进行排名。
返回到图2,然后,系统将多个排名最高的候选方面与实体或实体及其性质相关联(步骤210)。可以基于系统的需要以及系统的存储能力将任何数目的候选方面与实体(及其性质)相关联。例如,如果系统将在图形环境中向用户呈现方面,其中一次只能显示少量方面,则方面的数量可能较小。相反,如果系统可以向用户或处理提供大量方面,则候选方面的数量可能更大。
一旦将该多个排名最高的候选方面与实体(及其性质)相关联,就在将给定实体与其方面相关联的数据库中将关联存储在系统可访问的位置上。
图6图示了用于接收包括对应于实体的一个或多个词的查询并且基于识别出的实体的方面呈现搜索结果的示例方法600。为方便起见,将参考执行方法600的系统(例如图1的搜索系统114或另一系统)描述示例方法600。可以结合上面参考图2而描述的方法来执行该方法。
系统接收包括对应于实体的一个或多个词的查询(步骤602)。可以例如从用户或从搜索系统114接收该查询。在某些实现中,该系统和搜索系统114是同一系统。
该系统识别与实体相关联的方面(步骤604)。在某些实现中,查询包括实体及其性质,并且系统能够识别与实体及其性质相关联的方面。例如,如果查询是“夏威夷度假”,则可以将“夏威夷”识别为实体,并且可以将“度假”识别为实体“夏威夷”的性质。可以如上面参考图2而描述的那样识别方面,或者可以例如从包括使用上面参考图2而描述的方法生成的已排名的方面的数据库获取方面。系统可以识别与实体相关联的所有方面。当对方面进行了排名时,系统可以作为替代地识别前k个已排名的方面,其中k是将要呈现给用户的方面的数量。
系统接收一个或多个搜索结果集(步骤606)。每个搜索结果集对应于实体以及识别出的方面之一。例如,如果实体是“夏威夷”并且识别出的方面是“海滩”、“旅馆”、“天气”以及“食物”,则可能针对“夏威夷海滩”、“夏威夷旅馆”、“夏威夷天气”以及“夏威夷食物”接收到单独的搜索结果集。可以响应于针对实体和方面而向搜索引擎130发布的查询来接收搜索结果。系统基于识别出的方面而呈现搜索结果(步骤608)。
在某些实现中,在“混搭”中呈现搜索结果,其中在一个显示中呈现根据方面组织的相关结果以及用于一个或多个方面的其他信息。
图7图示了在用户通过点击“search”(搜索)按钮704而提交针对“Mount Bachelor”(巴奇勒山)的搜索查询702之后显示的示例混搭。根据方面标记了搜索结果以及对应于用于巴奇勒山的方面(例如“weather”(天气)、“hotels”(旅馆)、“community college”(社区学院)以及“mountains”(山脉))的其他信息,并且在框706、708、710和712中呈现给用户。可以针对方面而定制信息呈现。例如,针对对“weather”(天气)方面感兴趣的用户,在框706中呈现了“ski and snow report”(滑雪和下雪报告)。在框708中呈现了对应于“hotels”(旅馆)的搜索结果,在框710中呈现了对应于“community college”(社区学院)的搜索结果,并且在框712中呈现了对应于“mountains”(山脉)的搜索结果。
如图7所示,并非必须针对给定方面呈现用于该方面的所有搜索结果。例如,可以接收到比所呈现的两个搜索结果更多的用于“hotels”(旅馆)方面的搜索结果。例如,通过基于对搜索结果的排名(例如由搜索系统114提供的排名)得到最前面多个搜索结果,从接收到的搜索结果中选取所呈现的搜索结果。该数量可以例如基于用于实体的方面的数量以及/或者可用于呈现搜索结果的空间来确定。不必针对识别出的所有方面呈现搜索结果。
在某些实现中,呈现根据方面之一的实体概要。根据方面的实体概要是对可通过对应于实体和方面的搜索结果而获得的信息的直接呈现。例如,在框706中呈现的“ski and snow report”(滑雪和下雪报告)是用于实体“mount bachelor”(巴奇勒山)和方面“weather”(天气)的信息的概要。对“weather”(天气)方面感兴趣的用户很可能对了解当前天气感兴趣,因此作为对要求用户点击搜索结果以察看天气信息的替代,系统可以取而代之地直接呈现关于天气的信息。作为另一示例,如果实体是“南加州大学足球队”并且方面是“赛季记录”,则可以呈现该球队的赛季记录的概要。作为又一示例,如果实体是特定电影,并且方面是电影评论,则可以并排呈现多条评论。在某些实现中,概要事先与方面和实体相关联并且存储在例如数据库中。然后,在需要时,系统能够获取概要。
还可以设想基于方面而呈现搜索结果的其他方法。例如,系统可以创建用于对应于每个方面的搜索结果的单独网页。到对应于识别出的方面的网页的链接可以随同用于原始查询的搜索结果而呈现。作为替代,可以将到网页的链接呈现为单独的网页。系统可以将方面呈现为用于用户的“相关搜索”选项,然后一旦用户选择了该方面就呈现对应于给定方面的搜索结果。
在某些实现中,查询包括对应于多个实体的词。当查询包括多个实体时,系统能够识别与每个查询相关联的方面,然后基于其排名(例如基于每个方面的流行性得分和多样性得分)来组合识别出的方面。然后,用于排名在最前面的方面的搜索结果可以被接收到并且呈现给用户。作为替代,系统能够单独地呈现用于对应于每一个实体的方面的搜索结果。
在某些实现中,系统(例如从搜索系统114)接收对应于实体而不是实体和方面的搜索结果。在这些实现中,可以例如通过基于方面对搜索结果进行分类或者使用集群技术将搜索结果围绕方面集群而基于方面对搜索结果进行归组。在这些实现中,可以如上所述地基于方面呈现搜索结果。
图8图示了系统800的示例体系结构。系统一般地包括数据处理装置802和用户设备828。数据处理装置802和用户设备828通过网络826连接。在某些实现中,用户设备828和数据处理装置802是同一设备。
尽管在802中将数据处理装置示出为单一的数据处理装置,可以使用多个数据处理装置。数据处理装置802运行多个模块,例如处理,例如可执行软件程序。在各种实现中,这些处理包括实体-类别关联器804、方面生成器806、方面组合器808、方面归组器810、方面排名器812以及方面关联器814。
实体-类别关联器804例如基于将实体与类别相关联的预定数据库或者通过访问用于实体的知识库信息来将给定实体与类别相关联。
方面生成器806通过如下方式生成用于给定实体的方面,即,例如,正如上面参考图2而描述的那样,分析用户搜索历史以识别针对实体的查询细化和查询超级字符串、其类别成员,或者实体及其类别成员。
方面组合器808例如如上面参考图2和图3而描述的那样基于方面的相似度得分而对方面进行组合。方面组合器808还可以如上面参考图2和图3而描述的那样针对成对的方面计算相似度得分。
方面归组器810例如如上面参考图2和图4而描述的那样基于方面的类别对方面进行归组。在某些实现中,方面组合器808和方面归组器810是同一处理。
排名器812例如如上面参考图2和图5而描述的那样基于每个方面的流行性得分和多样性得分对方面进行排名。
方面关联器814例如如上面参考图2而描述的那样将一个或多个方面与给定实体或者给定实体及其性质相关联。
在某些实现中,数据处理装置802存储将给定实体与其类别相关联的一个或多个实体-类别数据库,将给定方面与其类别相关联的方面-类别数据库,用户搜索历史,以及将给定实体与一个或多个方面相关联的实体-方面数据库。在某些实现中,实体-类别数据库和方面-类别数据库是同一数据库。在某些实现中,将数据存储在计算机可读介质820上。在某些实现中,将数据存储在附加设备818上。
数据处理装置802还可以具有硬件或固件设备,包括一个或多个处理器816、一个或多个附加设备818、计算机可读介质820、通信接口822以及一个或多个用户接口设备824。处理器816能够处理指令以供执行。在一种实现中,处理器816中的至少一个是单线程处理器。在另一实现中,处理器816中的至少一个是多线程处理器。处理器816能够处理存储在存储器中或存储设备上的指令以显示用于用户接口设备824上的用户接口的图形信息。用户接口设备824可以包括例如显示器、摄像头、扬声器、麦克风或者触觉反馈设备。
数据处理装置802使用其通信接口822与用户设备828通信。
用户设备828可以是任何数据处理装置,例如用户的计算机。用户使用用户设备828来通过网络826向数据处理装置802提交搜索查询,并且例如通过运行在用户设备上的web浏览器(例如可以从加利福尼亚Mountain View的Mozilla Project公司获得的FirefoxTM)来从数据处理装置802接收搜索结果。用户设备828可以例如通过在显示设备上显示结果、传送对应于结果的声音或者提供对应于结果的触觉反馈来向用户呈现搜索结果。可以根据与实体相关联的方面来组织搜索结果。当用户使用其计算机来选择要查看搜索结果时,关于用户选择的信息可以被发送给数据处理装置802并且用于生成用户搜索历史数据。
在某些实现中,作为对数据处理装置802运行模块的替代或补充,用户设备828运行模块804、806、808、810、812和814中的一个或多个。
尽管图8的系统800设想了通过其计算机提交搜索查询的用户,但搜索查询不必从用户或用户的计算机接收,而是可以从任何数据处理装置、处理或者人接收,例如从计算机或运行在计算机上的处理接收,无论有还是没有直接的用户输入。类似地,结果和方面不必呈现给用户的计算机,而是可以呈现给任何数据处理装置、处理或者人。用户搜索历史可以从一群用户接收,而非必须从用于接收基于搜索查询中的实体的方面而组织的搜索结果的同一用户设备828接收。
在本说明书中描述的主题和操作的实施例可以实现在数字电子电路中,或者实现在计算机软件、固件或硬件中,包括在本说明书中所公开的结构及其结构上等同的形式,或者实现在它们中的一个或多个的组合中。在本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在计算机存储介质上的用于由数据处理装置执行或者用以控制数据处理装置的操作的一个或多个计算机程序指令模块。作为替代或补充,程序指令可以编码在例如机器生成的电的、光学的或者电磁的信号之类的人工生成的传播信号上,该传播信号生成为对信息进行编码以便向合适的接收机装置传送从而由数据处理装置执行。计算机存储介质可以是或者可以包括在计算机可读存储设备、计算机可读存储衬底、随机或串行存取存储器阵列或设备或者它们中的一个或多个的组合中。
在本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。
术语“数据处理装置”涵盖了各种各样的用于处理数据的装置、设备和机器,举例而言,包括可编程处理器、计算机、片上系统或者其组合。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外,该装置还可以包括创建用于正在讨论的计算机程序的执行环境的代码(例如构成处理器固件的代码)、协议栈、数据库管理系统、操作系统、跨平台运行时环境(例如虚拟机)或者它们中的一个或多个的组合。该装置和执行环境能够实现各种不同的计算建模基础设施,诸如web服务、分布式计算和网格计算基础设施。
计算机程序(又称为程序、软件、软件应用、脚本或者代码)可以用任何形式的编程语言(包括汇编或解释语言)编写,并且其可以用任何形式(包括作为独立程序或者作为模块、组件、子例程或者适合用于计算环境中的其他单元)部署。计算机程序并不一定对应于文件系统中的文件。程序可以存储在保持其他程序或数据的文件(例如存储在标记语言文档中的一个或多个脚本)的一部分中,存储在专用于正在讨论的程序的单一文件中,存储在多个已协调的文件(例如存储一个或多个模块、子程序或者代码的部分的文件)中。计算机程序可以部署为在一个计算机上或者在位于一个地点处或跨多个地点分布并且通过通信网络互连的多个计算机上执行。
在本说明书中描述的处理和逻辑流可以由一个或多个可编程处理器执行,该可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作和生成输出来执行功能。处理和逻辑流还可以由专用逻辑电路执行,并且装置还可以实现为专用逻辑电路,该专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例而言,适合于执行计算机程序的处理器包括通用和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。一般地,处理器将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。一般地,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或者光盘),或者可操作地耦合为从其接收数据或者向其传递数据,或者这两者。然而,计算机不需要具有这种设备。另外,可以将计算机嵌入另一设备中,该另一设备例如移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器,仅举数例。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质以及存储器设备,举例而言,包括半导体存储器设备,诸如EPROM、EEPROM或闪速存储器设备;磁盘,诸如内部硬盘或可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以以专用集成电路作为补充或者并入在专用逻辑电路中。
为提供与用户的交互,在本说明书中描述的主题的实施例可以实现在如下计算机上,该计算机具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示)监视器)以及键盘和指示设备(例如用户可用以向计算机提供输入的鼠标或跟踪球)。同样可以使用其他种类的设备来提供与用户的交互;例如提供给用户的反馈可以是任何形式的传感反馈,例如视觉反馈、听觉反馈或者触觉反馈;并且可以用任何形式接收来自用户的输入,包括声学、语音或者触觉输入。
在本说明书中描述的主题的实施例可以实现在如下计算系统中,该计算系统包括后端组件(例如作为数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如具有用户可以用以与在本说明书中描述的主题的实现进行交互的图形用户接口或web浏览器的客户端计算机),或者一个或多个这种后端、中间件或前端组件的任何组合。系统的组件可以用任何形式或介质的数字数据通信(诸如通信网络)来互连。通信网络的示例包括局域网(“LAN”)以及广域网(“WAN”),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此相距遥远并且通常通过通信网络来交互。客户端和服务器的关系凭借运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序来提升。
尽管本说明书包含很多特定细节,但这些都不应当解释为对本发明范围或者可能要求保护的内容的限制,而应当解释为对特定于本发明特定实施例的特征的描述。在本说明书中单独实施例的上下文中描述的特定特征还可以在单一实施例中组合地实现。相反地,在单一实施例的上下文中描述的各种特征还可以在多个实施例中单独地实现或者在任何合适的子组合中实现。另外,虽然上面可能将特征描述为在特定组合中进行操作并且甚至初始地这样要求保护,但来自所要求保护的组合的一个或多个特征在某些情况下可以从该组合删除,并且所要求保护的组合可以针对子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应当理解为要求这种操作以所示出的特定顺序或者以相继顺序执行,或者要求执行所图示的所有操作,以实现所希望的结果。在特定环境中,多任务和并行处理可能是有利的。另外,在上述实施例中各种系统组件的分立不应当理解为在所有实施例中都要求这种分立,并且应当理解,可以一般地将所描述的程序组件和系统一起集成在单一的软件产品中或者封装到多个软件产品中。
因此,已经描述了本发明的特定实施例。其他实施例在所附权利要求书的范围内。例如,在权利要求书中所记载的动作可以用不同的顺序执行并且仍然实现所希望的结果。
Claims (36)
1.一种响应于搜索查询而呈现信息的方法,包括:
在计算机系统中接收查询,所述计算机系统包括一个或多个计算机,所述查询包括实体;
解析所述查询以提取所述实体;
在所述计算机系统中生成用于所述实体的一组候选方面,其中所述候选方面是不同的信息轴,沿所述轴能够获得关于实体的附加信息;
针对一对或多对候选方面中的每对候选方面,基于识别与所述一对候选方面中的候选方面的各查询相对应的各搜索结果集合、以及比较搜索结果集合中的搜索结果,计算相似度得分;
在所述计算机系统中基于所述候选方面的所述相似度得分而修改所述一组候选方面以生成一组经修改的候选方面,修改包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;
在所述计算机系统中基于多样性得分和流行性得分对所述一组经修改的候选方面中的一个或多个经修改的候选方面进行排名,所述经修改的候选方面的每一个的所述流行性得分是所述经修改的候选方面有多常见的度量,并且所述经修改的候选方面中的每一个的所述多样性得分是所述经修改的候选方面与所述经修改的候选方面中的已经排名的经修改的候选方面有多相似的度量;
在所述计算机系统中将一个或多个排名最高的经修改的候选方面与所述实体相关联;
在所述计算机系统中接收一个或多个搜索结果集;以及
响应于所述查询而提供对所述搜索结果的呈现,所述呈现呈递了根据与所述实体相关联的方面而组织的搜索结果。
2.根据权利要求1的方法,进一步包括:
根据方面呈现关于实体的信息的概要。
3.根据权利要求1的方法,其中所述一个或多个搜索结果集包括响应于所述查询的搜索结果集。
4.根据权利要求1的方法,其中所述一个或多个搜索结果集中的每一个对应于与所述实体相关联的相应方面。
5.一种响应于搜索查询而呈现信息的方法,包括:
接收标识实体的数据;
解析所述数据以提取所述实体;
在计算机系统中生成用于所述实体的一组候选方面,所述计算机系统包括一个或多个计算机,其中所述候选方面是不同的信息轴,沿所述轴能够获得关于实体的附加信息;
针对一对或多对候选方面中的每对候选方面,基于识别与所述一对候选方面中的候选方面的各查询相对应的各搜索结果集合、以及比较搜索结果集合中的搜索结果,计算相似度得分;
在所述计算机系统中基于所述候选方面的所述相似度得分而修改所述一组候选方面以生成一组经修改的候选方面,修改包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;
在所述计算机系统中基于多样性得分和流行性得分对所述一组经修改的候选方面中的一个或多个经修改的候选方面进行排名,所述经修改的候选方面的每一个的所述流行性得分是所述经修改的候选方面有多常见的度量,并且所述经修改的候选方面中的每一个的所述多样性得分是所述经修改的候选方面与所述经修改的候选方面中的已经排名的经修改的候选方面有多相似的度量;以及
在所述计算机系统的数据存储设备中存储一个或多个排名最高的经修改的候选方面与所述实体的关联。
6.根据权利要求5的方法,进一步包括:
接收包括所述实体的查询;
识别与所述实体相关联的一个或多个方面;
接收响应于所述查询的搜索结果;以及
基于识别出的方面而呈现所述搜索结果。
7.根据权利要求5的方法,进一步包括:
接收包括所述实体的查询;
识别与所述实体相关联的一个或多个方面;
接收一个或多个搜索结果集,每个集对应于识别出的方面之一;以及
基于识别出的方面而呈现所述搜索结果。
8.根据权利要求5的方法,进一步包括接收标识一个或多个实体性质的数据,其中:
生成所述一组候选方面包括使用所述一个或多个实体性质;以及
所述一个或多个排名最高的候选方面与所述实体和所述实体性质两者相关联。
9.根据权利要求5的方法,进一步包括:
将所述实体与类别相关联,所述类别具有包括所述实体的一个或多个类别成员;以及
其中生成所述一组候选方面包括生成对应于所述实体和所述类别的候选方面。
10.根据权利要求9的方法,其中生成所述一组候选方面包括:
分析一个或多个第一用户搜索历史以识别与所述实体相关联的查询;以及
分析一个或多个第二用户搜索历史以识别与所述实体以外的类别成员相关联的查询。
11.根据权利要求5的方法,其中每个相似度得分是对两个候选方面之间的相似度的估计。
12.根据权利要求11的方法,其中将每个候选方面表示为文本,并且两个候选方面之间的相似度得分基于对与每个候选方面相关联的文本的字符串的比较。
13.根据权利要求5的方法,其中对所述搜索结果集的比较包括将所述搜索结果集之一中的搜索结果的路径与所述搜索结果集的另一个中的搜索结果的路径相比较。
14.根据权利要求5的方法,其中对所述搜索结果集的比较包括将所述搜索结果集之一中的搜索结果的标题和摘录与所述搜索结果集的另一个中的搜索结果的标题和摘录相比较。
15.根据权利要求11的方法,其中基于所述相似度得分组合候选方面进一步包括:
使用图划分算法来确定组合哪些方面。
16.根据权利要求5的方法,其中使用一个或多个方面类别对候选方面进行归组包括:
将两个或更多候选方面与相应的方面类别相关联;以及
基于两个或更多候选方面的方面类别将其归组到单一的经修改的候选方面。
17.根据权利要求16的方法,其中所述单一的经修改的候选方面是方面类别。
18.根据权利要求5的方法,其中基于多样性得分和流行性得分对一个或多个经修改的候选方面进行排名包括:
针对每个方面计算流行性得分;
将流行性得分最高的方面排名为最高;以及
通过重复以下步骤一次或多次来对其余方面排名:
计算针对每个未排名的方面的相似度得分,其中所述相似度得分将未排名的方面与已排名的方面的相似度相比较;以及
将下一最高排名指派给其流行性得分除以其相似度得分的结果为最高的方面。
19.一种用于响应于搜索查询而呈现信息的装置,包括:
用于接收包括实体的查询的装置;
用于解析所述查询以提取所述实体的装置;
用于生成用于所述实体的一组候选方面的装置,其中所述候选方面是不同的信息轴,沿所述轴能够获得关于实体的附加信息;
针对一对或多对候选方面中的每对候选方面,用于基于识别与所述一对候选方面中的候选方面的各查询相对应的各搜索结果集合、以及比较搜索结果集合中的搜索结果,计算相似度得分的装置;
用于基于所述候选方面的所述相似度得分而修改所述一组候选方面以生成一组经修改的候选方面的装置,修改包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;
用于基于多样性得分和流行性得分对所述一组经修改的候选方面中的一个或多个经修改的候选方面进行排名的装置,所述经修改的候选方面的每一个的所述流行性得分是所述经修改的候选方面有多常见的度量,并且所述经修改的候选方面中的每一个的所述多样性得分是所述经修改的候选方面与所述经修改的候选方面中的已经排名的经修改的候选方面有多相似的度量;
用于将一个或多个排名最高的经修改的候选方面与所述实体相关联的装置;
用于接收一个或多个搜索结果集的装置;以及
用于响应于所述查询而提供对所述搜索结果的呈现的装置,所述呈现呈递了根据与所述实体相关联的方面而组织的搜索结果。
20.根据权利要求19的装置,进一步包括:
用于根据方面呈现关于实体的信息的概要的装置。
21.根据权利要求19的装置,其中所述一个或多个搜索结果集包括响应于所述查询的搜索结果集。
22.根据权利要求19的装置,其中所述一个或多个搜索结果集中的每一个对应于与所述实体相关联的相应方面。
23.一种用于响应于搜索查询而呈现信息的装置,包括:
用于接收标识实体的数据的装置;
用于解析所述查询以提取所述实体的装置;
用于生成用于所述实体的一组候选方面的装置,其中所述候选方面是不同的信息轴,沿所述轴能够获得关于实体的附加信息;
针对一对或多对候选方面中的每对候选方面,用于基于识别与所述一对候选方面中的候选方面的各查询相对应的各搜索结果集合、以及比较搜索结果集合中的搜索结果,计算相似度得分的装置;
用于基于所述候选方面的所述相似度得分而修改所述一组候选方面以生成一组经修改的候选方面的装置,修改包括使用一个或多个方面类别来组合类似的候选方面并且将候选方面归组,每个方面类别与一个或多个候选方面相关联;
用于基于多样性得分和流行性得分对所述一组经修改的候选方面中的一个或多个经修改的候选方面进行排名的装置,所述经修改的候选方面的每一个的所述流行性得分是所述经修改的候选方面有多常见的度量,并且所述经修改的候选方面中的每一个的所述多样性得分是所述经修改的候选方面与所述经修改的候选方面中的已经排名的经修改的候选方面有多相似的度量;以及
用于存储一个或多个排名最高的经修改的候选方面与所述实体的关联的装置。
24.根据权利要求23的装置,进一步包括:
用于接收包括所述实体的查询的装置;
用于识别与所述实体相关联的一个或多个方面的装置;
用于接收响应于所述查询的搜索结果的装置;以及
用于基于识别出的方面而呈现所述搜索结果的装置。
25.根据权利要求23的装置,进一步包括:
用于接收包括所述实体的查询的装置;
用于识别与所述实体相关联的一个或多个方面的装置;
用于接收一个或多个搜索结果集,每个集对应于识别出的方面之一的装置;以及
用于基于识别出的方面而呈现所述搜索结果的装置。
26.根据权利要求23的装置,进一步包括:
用于接收标识一个或多个实体性质的数据的装置,其中:
用于生成所述一组候选方面的装置包括用于使用所述一个或多个实体性质的装置;以及
所述一个或多个排名最高的候选方面与所述实体和所述实体性质两者相关联。
27.根据权利要求23的装置,进一步包括:
用于将所述实体与类别相关联,所述类别具有包括所述实体的一个或多个类别成员的装置;以及
其中用于生成所述一组候选方面的装置包括用于生成对应于所述实体和所述类别的候选方面的装置。
28.根据权利要求27的装置,其中用于生成所述一组候选方面的装置包括:
用于分析一个或多个第一用户搜索历史以识别与所述实体相关联的查询的装置;以及
用于分析一个或多个第二用户搜索历史以识别与所述实体以外的类别成员相关联的查询的装置。
29.根据权利要求23的装置,其中每个相似度得分是对两个候选方面之间的相似度的估计。
30.根据权利要求29的装置,其中将每个候选方面表示为文本,并且两个候选方面之间的相似度得分基于对与每个候选方面相关联的文本的字符串的比较。
31.根据权利要求23的装置,其中对所述搜索结果集的比较包括将所述搜索结果集之一中的搜索结果的路径与所述搜索结果集的另一个中的搜索结果的路径相比较。
32.根据权利要求23的装置,其中对所述搜索结果集的比较包括将所述搜索结果集之一中的搜索结果的标题和摘录与所述搜索结果集的另一个中的搜索结果的标题和摘录相比较。
33.根据权利要求29的装置,其中所述用于基于所述相似度得分组合候选方面的装置进一步包括:
用于使用图划分算法来确定组合哪些方面的装置。
34.根据权利要求23的装置,其中所述用于基于所述候选方面的所述相似度得分而修改所述一组候选方面以生成一组经修改的候选方面的装置包括用于使用一个或多个方面类别对候选方面进行归组的装置,所述用于使用一个或多个方面类别对候选方面进行归组的装置包括:
用于将两个或更多候选方面与相应的方面类别相关联的装置;以及
用于基于两个或更多候选方面的方面类别将其归组到单一的经修改的候选方面的装置。
35.根据权利要求34的装置,其中所述单一的经修改的候选方面是方面类别。
36.根据权利要求23的装置,其中所述用于基于多样性得分和流行性得分对一个或多个经修改的候选方面进行排名的装置包括:
用于针对每个方面计算流行性得分的装置;
用于将流行性得分最高的方面排名为最高的装置;以及
用于通过重复以下步骤一次或多次来对其余方面排名的装置:
计算针对每个未排名的方面的相似度得分,其中所述相似度得分将未排名的方面与已排名的方面的相似度相比较;以及
将下一最高排名指派给其流行性得分除以其相似度得分的结果为最高的方面。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14889709P | 2009-01-30 | 2009-01-30 | |
US61/148,897 | 2009-01-30 | ||
US12/512,908 | 2009-07-30 | ||
US12/512,908 US8458171B2 (en) | 2009-01-30 | 2009-07-30 | Identifying query aspects |
PCT/US2010/022274 WO2010088299A1 (en) | 2009-01-30 | 2010-01-27 | Identifying query aspects |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102349072A CN102349072A (zh) | 2012-02-08 |
CN102349072B true CN102349072B (zh) | 2014-12-24 |
Family
ID=42132655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080011911.4A Active CN102349072B (zh) | 2009-01-30 | 2010-01-27 | 识别查询方面 |
Country Status (9)
Country | Link |
---|---|
US (3) | US8458171B2 (zh) |
EP (1) | EP2391959A1 (zh) |
JP (1) | JP5623431B2 (zh) |
KR (2) | KR101669191B1 (zh) |
CN (1) | CN102349072B (zh) |
AU (1) | AU2010208318B2 (zh) |
BR (1) | BRPI1007939B1 (zh) |
CA (1) | CA2751172C (zh) |
WO (1) | WO2010088299A1 (zh) |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577909B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
US8577910B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
US8538957B1 (en) * | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
US9454606B2 (en) * | 2009-09-11 | 2016-09-27 | Lexisnexis Risk & Information Analytics Group Inc. | Technique for providing supplemental internet search criteria |
US20110270819A1 (en) * | 2010-04-30 | 2011-11-03 | Microsoft Corporation | Context-aware query classification |
US7933859B1 (en) | 2010-05-25 | 2011-04-26 | Recommind, Inc. | Systems and methods for predictive coding |
US9158846B2 (en) | 2010-06-10 | 2015-10-13 | Microsoft Technology Licensing, Llc | Entity detection and extraction for entity cards |
US20110307482A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Search result driven query intent identification |
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
US8799260B2 (en) * | 2010-12-17 | 2014-08-05 | Yahoo! Inc. | Method and system for generating web pages for topics unassociated with a dominant URL |
US9684690B2 (en) | 2011-01-12 | 2017-06-20 | Google Inc. | Flights search |
US9781091B2 (en) | 2011-03-14 | 2017-10-03 | Verisign, Inc. | Provisioning for smart navigation services |
US9811599B2 (en) | 2011-03-14 | 2017-11-07 | Verisign, Inc. | Methods and systems for providing content provider-specified URL keyword navigation |
US10185741B2 (en) * | 2011-03-14 | 2019-01-22 | Verisign, Inc. | Smart navigation services |
US9646100B2 (en) | 2011-03-14 | 2017-05-09 | Verisign, Inc. | Methods and systems for providing content provider-specified URL keyword navigation |
US9298776B2 (en) | 2011-06-08 | 2016-03-29 | Ebay Inc. | System and method for mining category aspect information |
US9298816B2 (en) | 2011-07-22 | 2016-03-29 | Open Text S.A. | Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation |
JP5932035B2 (ja) | 2011-08-04 | 2016-06-08 | グーグル インコーポレイテッド | 検索結果を伴う知識パネルを提供すること |
US8756218B1 (en) * | 2011-08-16 | 2014-06-17 | Google Inc. | Query classification based on search engine results |
EP2568396A1 (en) * | 2011-09-08 | 2013-03-13 | Axel Springer Digital TV Guide GmbH | Method and apparatus for generating a sorted list of items |
US9053087B2 (en) * | 2011-09-23 | 2015-06-09 | Microsoft Technology Licensing, Llc | Automatic semantic evaluation of speech recognition results |
US20130110830A1 (en) * | 2011-10-31 | 2013-05-02 | Microsoft Corporation | Ranking of entity properties and relationships |
US9665643B2 (en) | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US9864817B2 (en) | 2012-01-28 | 2018-01-09 | Microsoft Technology Licensing, Llc | Determination of relationships between collections of disparate media types |
AU2013222184B2 (en) | 2012-02-22 | 2017-09-28 | Google Llc | Related entities |
US9424353B2 (en) * | 2012-02-22 | 2016-08-23 | Google Inc. | Related entities |
US20140047089A1 (en) * | 2012-08-10 | 2014-02-13 | International Business Machines Corporation | System and method for supervised network clustering |
US8533148B1 (en) * | 2012-10-01 | 2013-09-10 | Recommind, Inc. | Document relevancy analysis within machine learning systems including determining closest cosine distances of training examples |
US9430571B1 (en) | 2012-10-24 | 2016-08-30 | Google Inc. | Generating travel queries in response to free text queries |
US9047278B1 (en) | 2012-11-09 | 2015-06-02 | Google Inc. | Identifying and ranking attributes of entities |
US10095692B2 (en) * | 2012-11-29 | 2018-10-09 | Thornson Reuters Global Resources Unlimited Company | Template bootstrapping for domain-adaptable natural language generation |
US9558275B2 (en) * | 2012-12-13 | 2017-01-31 | Microsoft Technology Licensing, Llc | Action broker |
US20140201203A1 (en) * | 2013-01-15 | 2014-07-17 | Prafulla Krishna | System, method and device for providing an automated electronic researcher |
GB2510346A (en) * | 2013-01-30 | 2014-08-06 | Imagini Holdings Ltd | Network method and apparatus redirects a request for content based on a user profile. |
US9183062B2 (en) * | 2013-02-25 | 2015-11-10 | International Business Machines Corporation | Automated application reconfiguration |
US10061851B1 (en) * | 2013-03-12 | 2018-08-28 | Google Llc | Encouraging inline person-to-person interaction |
JP6056610B2 (ja) * | 2013-03-29 | 2017-01-11 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
US10057207B2 (en) | 2013-04-07 | 2018-08-21 | Verisign, Inc. | Smart navigation for shortened URLs |
CN103279504B (zh) * | 2013-05-10 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 一种基于歧义消解的搜索方法及装置 |
US9646062B2 (en) * | 2013-06-10 | 2017-05-09 | Microsoft Technology Licensing, Llc | News results through query expansion |
US9305307B2 (en) | 2013-07-15 | 2016-04-05 | Google Inc. | Selecting content associated with a collection of entities |
US9336332B2 (en) | 2013-08-28 | 2016-05-10 | Clipcard Inc. | Programmatic data discovery platforms for computing applications |
US9569525B2 (en) * | 2013-09-17 | 2017-02-14 | International Business Machines Corporation | Techniques for entity-level technology recommendation |
US20150088648A1 (en) * | 2013-09-24 | 2015-03-26 | Google Inc. | Determining commercial intent |
WO2015051480A1 (en) * | 2013-10-09 | 2015-04-16 | Google Inc. | Automatic definition of entity collections |
US10134053B2 (en) * | 2013-11-19 | 2018-11-20 | Excalibur Ip, Llc | User engagement-based contextually-dependent automated pricing for non-guaranteed delivery |
US9489461B2 (en) * | 2014-03-03 | 2016-11-08 | Ebay Inc. | Search ranking diversity based on aspect affinity |
US20150309987A1 (en) | 2014-04-29 | 2015-10-29 | Google Inc. | Classification of Offensive Words |
US20150317314A1 (en) * | 2014-04-30 | 2015-11-05 | Linkedln Corporation | Content search vertical |
US10838995B2 (en) * | 2014-05-16 | 2020-11-17 | Microsoft Technology Licensing, Llc | Generating distinct entity names to facilitate entity disambiguation |
US9740985B2 (en) * | 2014-06-04 | 2017-08-22 | International Business Machines Corporation | Rating difficulty of questions |
RU2014125471A (ru) | 2014-06-24 | 2015-12-27 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки поискового запроса и сервер |
US10290125B2 (en) * | 2014-07-02 | 2019-05-14 | Microsoft Technology Licensing, Llc | Constructing a graph that facilitates provision of exploratory suggestions |
US10353964B2 (en) * | 2014-09-15 | 2019-07-16 | Google Llc | Evaluating semantic interpretations of a search query |
CN105786936A (zh) | 2014-12-23 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 用于对搜索数据进行处理的方法及设备 |
GB2549240A (en) * | 2015-01-06 | 2017-10-18 | What3Words Ltd | A method for suggesting one or more multi-word candidates based on an input string received at an electronic device |
CN104615680B (zh) | 2015-01-21 | 2016-11-02 | 广州神马移动信息科技有限公司 | 网页质量模型的建立方法及装置 |
US20160314205A1 (en) * | 2015-04-24 | 2016-10-27 | Ebay Inc. | Generating a discovery page depicting item aspects |
US10140880B2 (en) * | 2015-07-10 | 2018-11-27 | Fujitsu Limited | Ranking of segments of learning materials |
US10242112B2 (en) | 2015-07-15 | 2019-03-26 | Google Llc | Search result filters from resource content |
US20170097967A1 (en) * | 2015-10-05 | 2017-04-06 | Quixey, Inc. | Automated Customization of Display Component Data for Search Results |
US10437868B2 (en) * | 2016-03-04 | 2019-10-08 | Microsoft Technology Licensing, Llc | Providing images for search queries |
US20170277737A1 (en) * | 2016-03-23 | 2017-09-28 | Ebay Inc. | Compact index document generation for smart match autocomplete system |
KR102017853B1 (ko) * | 2016-09-06 | 2019-09-03 | 주식회사 카카오 | 검색 방법 및 장치 |
US10339000B2 (en) * | 2016-09-13 | 2019-07-02 | Sandisk Technologies Llc | Storage system and method for reducing XOR recovery time by excluding invalid data from XOR parity |
US10268688B2 (en) * | 2017-05-03 | 2019-04-23 | International Business Machines Corporation | Corpus-scoped annotation and analysis |
CN107832439B (zh) * | 2017-11-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多轮状态追踪的方法、系统及终端设备 |
CN108009215B (zh) * | 2017-11-17 | 2018-11-06 | 山东师范大学 | 一种搜索结果页用户行为模式测评方法、装置及系统 |
CN108256070B (zh) * | 2018-01-17 | 2022-07-15 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
US11036746B2 (en) | 2018-03-01 | 2021-06-15 | Ebay Inc. | Enhanced search system for automatic detection of dominant object of search query |
CN108614897B (zh) * | 2018-05-10 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种面向自然语言的内容多样化搜索方法 |
JP7003020B2 (ja) * | 2018-09-18 | 2022-01-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN109871428B (zh) * | 2019-01-30 | 2022-02-18 | 北京百度网讯科技有限公司 | 用于确定文本相关度的方法、装置、设备和介质 |
US11288320B2 (en) * | 2019-06-05 | 2022-03-29 | International Business Machines Corporation | Methods and systems for providing suggestions to complete query sessions |
CN111538894B (zh) * | 2020-06-19 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN117355841A (zh) * | 2021-05-24 | 2024-01-05 | 利维帕尔森有限公司 | 用于注释解析的数据驱动分类法 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US6625595B1 (en) * | 2000-07-05 | 2003-09-23 | Bellsouth Intellectual Property Corporation | Method and system for selectively presenting database results in an information retrieval system |
US7185001B1 (en) * | 2000-10-04 | 2007-02-27 | Torch Concepts | Systems and methods for document searching and organizing |
SE520533C2 (sv) * | 2001-03-13 | 2003-07-22 | Picsearch Ab | Metod, datorprogram och system för indexering av digitaliserade enheter |
US7676452B2 (en) * | 2002-07-23 | 2010-03-09 | International Business Machines Corporation | Method and apparatus for search optimization based on generation of context focused queries |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7577655B2 (en) * | 2003-09-16 | 2009-08-18 | Google Inc. | Systems and methods for improving the ranking of news articles |
US7219105B2 (en) * | 2003-09-17 | 2007-05-15 | International Business Machines Corporation | Method, system and computer program product for profiling entities |
US20070203906A1 (en) * | 2003-09-22 | 2007-08-30 | Cone Julian M | Enhanced Search Engine |
US7664735B2 (en) * | 2004-04-30 | 2010-02-16 | Microsoft Corporation | Method and system for ranking documents of a search result to improve diversity and information richness |
US7617176B2 (en) * | 2004-07-13 | 2009-11-10 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
US7519595B2 (en) * | 2004-07-14 | 2009-04-14 | Microsoft Corporation | Method and system for adaptive categorial presentation of search results |
JP2008515772A (ja) | 2004-07-21 | 2008-05-15 | グライコフィ, インコーポレイテッド | Gal2GlcNAc2Man3GlcNAc2グリコフォームを支配的に含む免疫グロブリン |
US8341143B1 (en) * | 2004-09-02 | 2012-12-25 | A9.Com, Inc. | Multi-category searching |
EP1787228A4 (en) * | 2004-09-10 | 2009-09-09 | Suggestica Inc | USER PRODUCTION AND CLASSIFICATION OF EQUIPMENT FOR THE PERFORMANCE OF A SEARCH AND USER INTERFACE THROUGH A HIERARCHY-FREE QUANTITY OF THEMES |
US8386453B2 (en) * | 2004-09-30 | 2013-02-26 | Google Inc. | Providing search information relating to a document |
CN1609859A (zh) * | 2004-11-26 | 2005-04-27 | 孙斌 | 搜索结果聚类的方法 |
US7739270B2 (en) | 2004-12-07 | 2010-06-15 | Microsoft Corporation | Entity-specific tuned searching |
US20060149710A1 (en) * | 2004-12-30 | 2006-07-06 | Ross Koningstein | Associating features with entities, such as categories of web page documents, and/or weighting such features |
US9092523B2 (en) * | 2005-02-28 | 2015-07-28 | Search Engine Technologies, Llc | Methods of and systems for searching by incorporating user-entered information |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US8103659B1 (en) * | 2005-06-06 | 2012-01-24 | A9.Com, Inc. | Perspective-based item navigation |
US7415461B1 (en) * | 2005-08-03 | 2008-08-19 | At&T Corp | Apparatus and method for merging results of approximate matching operations |
US8417569B2 (en) * | 2005-11-30 | 2013-04-09 | John Nicholas and Kristin Gross Trust | System and method of evaluating content based advertising |
US7996396B2 (en) * | 2006-03-28 | 2011-08-09 | A9.Com, Inc. | Identifying the items most relevant to a current query based on user activity with respect to the results of similar queries |
EP2035915A4 (en) | 2006-06-13 | 2012-04-25 | Microsoft Corp | DASHBOARD FOR SEARCH ENGINE |
US9396269B2 (en) | 2006-06-28 | 2016-07-19 | Microsoft Technology Licensing, Llc | Search engine that identifies and uses social networks in communications, retrieval, and electronic commerce |
US7624103B2 (en) * | 2006-07-21 | 2009-11-24 | Aol Llc | Culturally relevant search results |
WO2008019007A2 (en) * | 2006-08-04 | 2008-02-14 | Thefind, Inc. | Method for relevancy ranking of products in online shopping |
US20080091672A1 (en) * | 2006-10-17 | 2008-04-17 | Gloor Peter A | Process for analyzing interrelationships between internet web sited based on an analysis of their relative centrality |
US20080215416A1 (en) * | 2007-01-31 | 2008-09-04 | Collarity, Inc. | Searchable interactive internet advertisements |
US8244750B2 (en) * | 2007-03-23 | 2012-08-14 | Microsoft Corporation | Related search queries for a webpage and their applications |
US20080243830A1 (en) * | 2007-03-30 | 2008-10-02 | Fatdoor, Inc. | User suggested ordering to influence search result ranking |
EP2160677B1 (en) * | 2007-06-26 | 2019-10-02 | Endeca Technologies, INC. | System and method for measuring the quality of document sets |
KR20090012467A (ko) * | 2007-07-30 | 2009-02-04 | 한국과학기술정보연구원 | Uri 데이터베이스를 이용한 통합 검색 시스템 및 방법 |
JP2010539589A (ja) * | 2007-09-12 | 2010-12-16 | レピュテーションディフェンダー, インコーポレーテッド | 電子的情報源からの特定のエンティティに関連する情報の特定 |
US20090125502A1 (en) * | 2007-11-13 | 2009-05-14 | Yahoo! Inc. | System and methods for generating diversified vertical search listings |
US7769740B2 (en) * | 2007-12-21 | 2010-08-03 | Yahoo! Inc. | Systems and methods of ranking attention |
US9626685B2 (en) * | 2008-01-04 | 2017-04-18 | Excalibur Ip, Llc | Systems and methods of mapping attention |
US20090241044A1 (en) * | 2008-03-18 | 2009-09-24 | Cuill, Inc. | Apparatus and method for displaying search results using stacks |
US20090254512A1 (en) * | 2008-04-03 | 2009-10-08 | Yahoo! Inc. | Ad matching by augmenting a search query with knowledge obtained through search engine results |
US7970808B2 (en) * | 2008-05-05 | 2011-06-28 | Microsoft Corporation | Leveraging cross-document context to label entity |
US8126908B2 (en) * | 2008-05-07 | 2012-02-28 | Yahoo! Inc. | Creation and enrichment of search based taxonomy for finding information from semistructured data |
US9195754B2 (en) * | 2008-06-13 | 2015-11-24 | International Business Machines Corporation | Expansion of search result information |
US20090327223A1 (en) * | 2008-06-26 | 2009-12-31 | Microsoft Corporation | Query-driven web portals |
US8239370B2 (en) * | 2008-06-27 | 2012-08-07 | Microsoft Corporation | Basing search results on metadata of prior results |
US8024324B2 (en) * | 2008-06-30 | 2011-09-20 | International Business Machines Corporation | Information retrieval with unified search using multiple facets |
US8554768B2 (en) * | 2008-11-25 | 2013-10-08 | Microsoft Corporation | Automatically showing additional relevant search results based on user feedback |
US9460212B2 (en) * | 2008-12-03 | 2016-10-04 | Paypal, Inc. | System and method for personalized search |
US8150813B2 (en) * | 2008-12-18 | 2012-04-03 | International Business Machines Corporation | Using relationships in candidate discovery |
US8315849B1 (en) * | 2010-04-09 | 2012-11-20 | Wal-Mart Stores, Inc. | Selecting terms in a document |
-
2009
- 2009-07-30 US US12/512,908 patent/US8458171B2/en active Active
-
2010
- 2010-01-27 WO PCT/US2010/022274 patent/WO2010088299A1/en active Application Filing
- 2010-01-27 JP JP2011548260A patent/JP5623431B2/ja active Active
- 2010-01-27 KR KR1020117018038A patent/KR101669191B1/ko active IP Right Grant
- 2010-01-27 KR KR1020167029010A patent/KR101775061B1/ko active IP Right Grant
- 2010-01-27 AU AU2010208318A patent/AU2010208318B2/en active Active
- 2010-01-27 EP EP10702956A patent/EP2391959A1/en not_active Ceased
- 2010-01-27 CN CN201080011911.4A patent/CN102349072B/zh active Active
- 2010-01-27 BR BRPI1007939-4A patent/BRPI1007939B1/pt active IP Right Grant
- 2010-01-27 CA CA2751172A patent/CA2751172C/en active Active
-
2013
- 2013-06-03 US US13/908,456 patent/US9152676B2/en active Active
-
2015
- 2015-10-05 US US14/875,177 patent/US20160026696A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
BRPI1007939A2 (pt) | 2016-02-23 |
EP2391959A1 (en) | 2011-12-07 |
CN102349072A (zh) | 2012-02-08 |
KR101669191B1 (ko) | 2016-10-25 |
KR20110139681A (ko) | 2011-12-29 |
CA2751172C (en) | 2020-07-07 |
KR101775061B1 (ko) | 2017-09-05 |
KR20160123398A (ko) | 2016-10-25 |
US20160026696A1 (en) | 2016-01-28 |
CA2751172A1 (en) | 2010-08-05 |
JP5623431B2 (ja) | 2014-11-12 |
US20130268517A1 (en) | 2013-10-10 |
US9152676B2 (en) | 2015-10-06 |
AU2010208318B2 (en) | 2015-03-05 |
AU2010208318A1 (en) | 2011-08-18 |
JP2012516512A (ja) | 2012-07-19 |
WO2010088299A1 (en) | 2010-08-05 |
BRPI1007939B1 (pt) | 2020-08-04 |
US8458171B2 (en) | 2013-06-04 |
US20100198837A1 (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102349072B (zh) | 识别查询方面 | |
Liu et al. | Overview of the NTCIR-11 IMine Task. | |
CN101868797B (zh) | 跨语言搜索 | |
US9910930B2 (en) | Scalable user intent mining using a multimodal restricted boltzmann machine | |
US10216851B1 (en) | Selecting content using entity properties | |
US11055312B1 (en) | Selecting content using entity properties | |
CN106663117A (zh) | 构造支持提供探索性建议的图 | |
Amal et al. | Relational social recommendation: Application to the academic domain | |
EP3485394A1 (en) | Contextual based image search results | |
US20150127657A1 (en) | Method and Computer for Indexing and Searching Structures | |
Rabello Lopes et al. | Two approaches to the dataset interlinking recommendation problem | |
Galitsky | Providing personalized recommendation for attending events based on individual interest profiles. | |
Djuana et al. | Personalization in tag ontology learning for recommendation making | |
Gupta et al. | Document summarisation based on sentence ranking using vector space model | |
Botana et al. | Explain and conquer: Personalised text-based reviews to achieve transparency | |
Chen et al. | Learning to evaluate and recommend query in restaurant search systems | |
Herzig | Ranking for web data search using on-the-fly data integration | |
Oliveirinha et al. | Acquiring semantic context for events from online resources | |
Wu et al. | Scalable mobile video question-answering system with locally aggregated descriptors and random projection | |
Jiang | Improving Marketing Intelligence Using Online User-Generated Contents | |
CN114595377A (zh) | 词汇推荐方法、装置、终端及可读存储介质 | |
Aggarwal | Leveraging Wikipedia-based features for entity relatedness and recommendation | |
Oliveirinha et al. | Semantics in Place and Time | |
Ekern | Improving recommender systems with machine learning and social media | |
Feldman | Search and Discovery Technologies: An Overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |