CN102725759A - 用于搜索结果的语义目录 - Google Patents

用于搜索结果的语义目录 Download PDF

Info

Publication number
CN102725759A
CN102725759A CN2011800084232A CN201180008423A CN102725759A CN 102725759 A CN102725759 A CN 102725759A CN 2011800084232 A CN2011800084232 A CN 2011800084232A CN 201180008423 A CN201180008423 A CN 201180008423A CN 102725759 A CN102725759 A CN 102725759A
Authority
CN
China
Prior art keywords
theme
document
key phrase
candidate
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800084232A
Other languages
English (en)
Other versions
CN102725759B (zh
Inventor
V.瓦拉马尼
A.斯里瓦斯塔瓦
T.纳姆
A.C.苏伦德兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102725759A publication Critical patent/CN102725759A/zh
Application granted granted Critical
Publication of CN102725759B publication Critical patent/CN102725759B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

通过将语义概念识别为主题以包括在目录中为响应于搜索查询的搜索结果生成目录。当接收到搜索查询时,执行搜索以识别搜索结果。将搜索结果与主题的本体进行比较以识别相关的主题。另外,将搜索结果与部分主题的本体进行比较以识别被命名的相关部分主题。进一步根据搜索结果生成独立关键短语,并将独立关键短语识别为关键短语主题。对识别出的主题、被命名的部分主题以及关键短语主题进行排名,并且选择主题以包括在目录中。响应于搜索查询,返回包含搜索结果和生成的目录的搜索结果页面。

Description

用于搜索结果的语义目录
背景技术
计算机系统可以存储大量的信息,但用户往往难以找到具体的信息或者有效地探索感兴趣的特定主题区域。现有的许多搜索引擎允许用户通过输入搜索查询的方式来搜索信息,该搜索查询包含用户可能感兴趣的一个或多个关键字。接收到来自用户的搜索请求后,搜索引擎会基于关键字识别相关的文档和/或网页。通常,搜索引擎返回非常多的文档或网页地址,并且随后用户需要从这些文档、链接以及相关信息的列表中进行筛选,找出想要的信息。对于用户来说,这一过程可能会很繁琐、令人泄气并且很耗时。
为了帮助用户在搜索结果中导航并找到相关的文档,搜索引擎采用了许多技术。一种方法是提供目录(TOC),其包含与搜索查询相关的主题列表。用户可以从TOC中选择主题并查看与该选择的主题相关的搜索结果。在一些实现中,用户从TOC中选择不同的主题时目录保持静态的,这就允许用户在原始搜索查询的上下文中导航至不同的搜索结果集合。
通常,TOC由搜索引擎专员手工生成。特别地,搜索引擎专员识别顶端查询(即针对搜索引擎具有最大搜索量的搜索查询),并手工识别与每个搜索查询相关的主题。然而,这种方法劳动密集型的程度很高,也不切实际于为中间(torso)和尾端的查询生成TOC(即针对搜索引擎具有较低搜索量的搜索查询)。在一些实例中,TOC可以由算法确定用于搜索查询,例如,通过识别搜索查询所属的领域(例如,汽车、金融等)并基于该领域提供TOC。然而,这种方法对有些搜索查询可能不起作用,从而导致为有些搜索查询(例如中间和尾端的查询)提供的TOC不存在或质量很差。这样会使搜索用户的体验不一致。
发明概述
提供此发明内容来以简要形式介绍一些概念选集,其将在以下具体实施例中进一步描述。此发明内容不旨在识别要求保护的主题的关键特征或必要特征,也不旨在用来帮助确定要求保护的主题的范围。
本发明的实施方案涉及到响应于搜索查询,将语义概念识别为主题以包含在目录中。在接收到搜索查询时,识别搜索结果,并生成包含主题列表的目录以用于浏览搜索结果的目录。在一些实施例中,通过对主题的本体进行分析来识别概念表的主题,以识别与搜索结果相关的主题。在进一步的实施例中,对部分主题的本体进行分析,以识别被命名的相关部分主题。在更进一步的实施例中,由搜索结果生成关键短语,并对关键短语进行分析,以识别关键短语主题。识别过的主题经过排名和选择以包含在目录中。
附图说明
以下参考附图来详细描述本发明,其中:
图1是适合用于实现本发明实施例的示范性计算环境的框图;
图2是可以部署本发明实施例的示范性系统的框图;
图3A、3B和3C是示出根据本发明实施例的用于为搜索查询识别主题并生成目录的方法的流程图;
图4是示出根据本发明实施例的用于对部分主题进行命名的方法的流程图;
图5是示出根据本发明实施例的用于根据文档片段计算独立关键短语的方法的流程图;
图6是示出具有根据本发明实施例生成的目录的搜索结果页的示例性屏幕显示。
具体实施例
此处特别地描述本发明的主题以满足法定要求。然而,描述本身不旨在限定这个专利的范围。相反,发明人已经预期到要求保护的主题还可以结合现有的或未来的技术以其它方式体现其它,以包含与本文描述的步骤类似但不同的步骤或步骤的组合。此外,尽管此处可能使用术语“步骤”和/或“框”来表示所采用的方法中的不同元件,但不应将这些术语解释为暗示了此处所公开各步骤之间的任何特定顺序,除非和除了在显式描述了各个步骤的顺序时。
本发明的实施例通常针对为响应于搜索查询的搜索结果生成目录(TOC)。当接收到搜索查询时,对搜索结果进行检索。另外识别与搜索查询和搜索结果相关的主题,并根据识别出的主题生成TOC。响应于搜索查询返回包含搜索结果和生成的TOC的搜索结果页面。用户可以从TOC中选择主题来浏览与每个主题相关的不同搜索结果。在一些实施例中,用户从TOC中选择不同的主题以查看不同的搜索结果集合时TOC是静态的,从而允许用户在初始搜索查询的上下文中浏览搜索结果。
在本发明的各实施例中,可以以多种不同的方式为搜索查询识别主题以包含在TOC中。在一些实施例中,当接收到搜索查询时,确定该搜索查询的本体映射是否已经存在。例如,对于与接收到的搜索查询相匹配的搜索查询,可能已经手工生成了许多主题。再如,对于与接收到的搜索查询相匹配的搜索查询,可能之前已经接收过了,并且已经识别并缓存了主题。在这些实施例中,为TOC检索来自现有本体映射的主题。在进一步的实施例中,针对搜索查询检索搜索结果,并且将搜索结果与主题的本体和/或部分主题的本体进行比较,以识别相关的主题。在更进一步的实施例中,分析搜索结果以识别出独立关键短语,并选择关键短语主题。当识别出大量的主题时,对主题进行排名,选择排名最高的主题以用于生成针对搜索查询的TOC。
相应地,一方面,本发明的实施例针对存储计算机可用指令的一种或多种计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行方法。所述方法包括接收搜索查询,使用搜索查询进行搜索,以及从搜索中接收多个文档片段。所述方法还包括通过将一个或多个文档片段与主题的本体进行比较,识别一个或多个候选主题的第一集合。所述方法进一步包括通过将一个或多个文档片段与部分主题的本体进行比较,识别一个或多个候选主题的第二集合。所述方法还包括通过根据一个或多个文档片段生成关键短语主题,识别一个或多个候选主题的第三集合。所述方法进一步包括对来自所述第一、第二、第三候选主题集合中的候选主题进行排名,并基于对候选主题的排名选择一个或多个主题。所述方法更进一步包括提供搜索结果页面以响应于所述搜索查询,该搜索结果页面具有包含一个或多个主题的目录,以及用于呈现一个或多个搜索结果的搜索结果区域。
在另一实施例中,发明的方面针对一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行方法。所述方法包括接收搜索查询,并确定搜索查询的本体映射是否存在。如果搜索查询的本体映射存在,所述方法包括基于本体映射检索第一主题集合,并将第一主题集合添加到主题列表中。所述方法还包括使用搜索查询进行搜索以获得多个搜索结果,其中每个搜索结果与文档片段相对应,并接收至少一部分文档片段作为文档集合以用于进一步分析。所述方法进一步包括将文档集合中的每个文档片段与主题的本体进行比较。对于其中确定肯定的主题识别的每个文档片段,所述方法包括将该文档片段分配给相应的主题,并从文档集合中移除该文档片段。所述方法还包括将至少一个根据主题本体识别出的主题添加到主题列表中。所述方法进一步包括将文档集合中剩余的每个文档片段与部分主题的本体进行比较。对于其中确定肯定的部分主题识别的每个文档片段,所述方法包括将该文档片段分配给相应的部分主题,并从文档集合中移除该文档片段。所述方法还包括对具有一个或多个被分配的文档片段的至少一个部分主题进行命名,并将至少一个被命名的部分主题添加到主题列表中。所述方法进一步包括根据文档集合中剩余的文档片段计算独立关键短语,将文档分配给独立关键短语,识别至少一个关键短语主题,并将至少一个关键短语主题添加到主题列表。所述方法进一步包括对主题列表中的主题进行排名,基于排名选择主题,并使用所选的主题生成目录。所述方法更进一步包括提供搜索结果页面以响应于所述搜索查询,该搜索结果页面包括目录以及用于呈现搜索结果的搜索结果区域。
本发明的进一步实施例针对一种用于从搜索结果集合中识别主题以生成针对搜索结果的目录的方法。所述方法包括接收搜索查询,使用搜索查询进行搜索,以及从搜索中接收多个文档片段。所述方法还包括从至少部分文档片段中生成候选关键短语。所述方法进一步包括评估候选关键短语的独立性,合并相互依赖的候选关键短语,并针对每组相互依赖的候选关键短语识别频率最高的候选关键短语以生成多个独立关键短语。所述方法进一步包括将一个或多个文档片段分配给每个独立关键短语。所述方法更进一步包括基于文档片段到独立关键短语的分配来选择关键短语主题。
前面已经简要描述了本发明实施例的概览,下面描述其中可以实现本发明实施例的示范性操作环境,以便为本发明的各方面提供一个一般性的上下文。特别地,首先特别参考图1,示出用于实现本发明实施例的示范性操作环境,并且通常被指定为计算设备100。计算设备100只是一个合适的计算环境示例,并且不旨在表明对本发明的使用范围或功能性的任何限定,也不应将计算设备100解释为与图中的任何部件或部件的组合有任何依赖关系或需求关系。
本发明可以在计算机代码或机器可用指令的一般上下文中描述。所述计算机代码或机器可用指令包括诸如程序模块的计算机可执行的指令,其由计算机或其它机器(如个人数据助理或其它手持设备等)执行。一般说来,程序模块包括例程、程序、对象、部件、数据结构等,指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在许多系统配置中实现,包括手持设备、消费电子、通用计算机、更专用的计算设备等。本发明还可以在分布式计算环境中实现,在该环境下,任务由通过通信网络连接的远程处理设备执行。
参考图1,计算设备100包括直接或间接连接如下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现部件116、输入/输出端口118、输入/输出部件120以及示例性的电源122。总线110表示一条或多条总线,例如地址总线、数据总线或它们的组合。为了清晰起见,图1中的各个框都用线条示出,但是实际上,这些框表示逻辑部件而不一定是实际的部件。例如,可以将诸如显示设备的呈现部件视为I/O部件。此外,处理器也有存储器。我们认识到这是本领域的性质,并重申图1的框图仅说明能够结合本发明的一个或多个实施例使用的示范性计算设备。诸如“工作站”、“服务器”、“膝上计算机”、“手持设备”等类型不作区分,因为它们都被设想在图1的范围内并称为“计算设备”。
计算设备100典型地包括多种计算机可读的媒体。计算机可读的媒体可以是任何能够由计算设备100访问的可用媒体,并包括用任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性的媒体和非易失性的媒体、可移动的媒体和不可移动的媒体。计算机可读的媒体包括但不限于RAM、ROM、EEPRROM、闪存或其它存储器技术,CD-ROM、数字化多功能盘(DVD)或其它光盘存储,磁盒、磁带、磁盘存储或其它磁存储设备,或任何其它可以用于存储所需信息并且能够被计算设备100访问的媒体。上面所述媒体的任何组合也应包括在计算机可读的媒体范围内。
存储器112包括易失性和/或非易失性存储器形式的计算机存储媒体。所述存储器可以是可移动的、不可移动的或它们的组合。示范性的硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括一个或多个处理器,其从诸如存储器112或I/O部件120的各种实体中读取数据。(多个)呈现部件116向用户或其它设备呈现数据指示。示范性的呈现部件包括显示设备、扬声器、打印部件、振动部件等。
I/O端口118允许计算设备100逻辑上连接到包括I/O部件120在内的其它设备,其中有些设备可能是内置的。示例性的部件包括麦克风、操纵杆、游戏手柄、卫星接收器、扫描仪、打印机、无线设备等。
现在参考图2,提供了示出其中可以部署本发明实施例的示范性系统200的框图。应当理解,本文所描述的这个和其它布局都仅作为示例阐述。其它布局和元件(例如机器、接口、功能、顺序以及功能的分组等)可以用于补充所示出的布局或元件,或可以用于替代所示出的布局或元件,并且有些元件也可以完全省略。进一步地,此处描述的许多元件是功能性的实体,它们可以实现为离散的或分布式的部件,或与其它部件结合,并且可以以任何合适的组合和位置实现。此处所描述的由一个或多个实体执行的各种功能可以由硬件、固件和/或软件实现。例如,各种功能可以通过处理器执行存储在存储器中的指令来实现。
除了其它没有示出的部件外,系统200包括用户设备202、搜索引擎204和语义主题引擎206。图2中示出的每个部件可以是任何类型的计算设备,例如参考图1所描述的计算设备100。这些部件可以经由网络208相互通信,其中网络208可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这样的连网环境在办公室、企业范围的计算机网络、内部网络和因特网中都很常见。应当理解,在本发明范围内,系统200中可以部署任何数量的用户设备、搜索引擎和语义主题引擎。每个都可以包含单个设备或在分布式环境下协同工作的多个设备。例如,搜索引擎204和语义主题引擎206可以是搜索系统的一部分,该搜索系统包含多个布置在分布式环境下的设备,其共同提供此处所描述的搜索引擎和语义主题引擎的功能。另外,其它未示出的部件也可以包括在系统200中。
在本发明的实施例中,系统200包括搜索系统,其包括除其它未示出的部件外的搜索引擎204和语义主题引擎206其它。用户可以采用用户设备202输入搜索查询并向搜索系统提交搜索查询。例如,用户可以采用用户设备202上的网页浏览器访问搜索系统的搜索输入网页,并输入搜索查询。再如,用户可以经由例如位于网页浏览器内、用户设备202的桌面或其它位置的搜索引擎工具条其它提供的搜索输入框输入搜索查询。本领域技术人员将认识到,在本发明实施例的范围内,其它多种方法也可以用来提供搜索查询。
当搜索系统接收到来自诸如用户设备202的用户设备的搜索查询时,搜索引擎204对搜索系统索引220、知识库222和/或其它包含由搜索系统维护的其它可搜索内容的数据存储进行搜索。搜索系统索引220一般可以包含非结构化的和/或半结构化的数据,而知识库222一般可以包含结构化的数据。相应地,搜索引擎204响应于接收到的搜索查询,识别许多搜索结果。另外,语义主题引擎206对接收到的搜索查询进行操作,以识别用于TOC的生成的相关主题。响应于搜索查询,可以向用户设备202提供包括具有TOC的搜索结果的搜索结果页面,该TOC包括由语义主题引擎206识别的主题。
如图2所示,语义主题引擎206一般包括本体映射部件210、本体主题识别部件212、本体部分主题识别部件214、关键短语主题识别部件216和主题排名/选择部件218。语义主题引擎206采用部件210、212、214和216中的任意一个来识别语义主题。在本发明的一些实施例中,部件210、212、214和216的每一个都可以被采用以识别针对给定的搜索查询的主题,并且经识别的主题可以由排名/选择部件218进行排名并选择出某些主题以包括在TOC中。在其它实施例中,可以只通过部件210、212、214和216中的一部分来识别主题。例如,在一个实施例中,一旦通过部件210、212、214和216中的一个或多个识别阈值数目的主题,就不进行通过剩余部件的进一步分析。在进一步的实施例中,语义主题引擎206可以只包括图2所示的部件210、212、214和216中的一部分。任意以及所有这些变体都被设想在本发明实施例的范围内。
当接收到来自诸如用户设备202的用户设备的搜索查询时,本体映射部件210操作以识别该搜索查询的本体映射是否已存在。例如,搜索查询可能是顶端搜索查询,搜索系统专员已手工为其识别用于该搜索查询的TOC的相关主题。再如,接收到的搜索查询可能与这样的搜索查询一致,即针对该搜索查询的相关主题已经被识别并缓存。如果本体映射部件210确定接收到的搜索查询的本体映射已经存在,那么就基于本体映射检索主题。在一些实施例中,只基于通过本体映射部件210检索出的主题生成TOC。在其它实施例中,通过其它部件212、214和216中的一个或多个来识别额外的主题,详细描述如下。
本体主题识别部件212结合本体存储部件224中存储的主题本体对所接收的搜索查询进行操作以识别针对搜索查询的相关主题。本体存储部件224可以存储一个或多个本体;本体主题识别部件212使用这些本体来将语义概念识别为所接收的搜索查询的主题。每个本体包括单词和短语的选集,它们定义了概念以及概念之间的关系。在一些实施例中,对搜索系统索引220和/或知识库222进行搜索,以为搜索查询检索搜索结果;并且本体主题识别部件212结合主题本体分析搜索结果来识别相关主题以用于可能包括在搜索查询的TOC中。
本体部分主题识别部件214以类似于本体主题识别部件212的方式起作用,但它使用部分主题的本体而不是主题的本体。此处所使用的部分主题指的是部分命名的主题。每个部分主题包括部分主题标识符单词,其可以与另外的单词或短语组合以创建用在TOC中的主题。例如,“评论”可以是部分主题。当在上下文中分析时,部分主题标识符单词“评论”可以与诸如“专家”或“用户”等另外的单词组合来生成主题“专家评论”或“用户评论”。相应地,一旦识别了搜索查询的部分主题,本体部分主题识别部件214或相关的部件对部分主题进行命名以用于可能包括在搜索查询的TOC中。
关键短语主题识别部件216针对接收到的搜索查询分析搜索结果,以生成候选的关键短语。一般说来,关键短语主题识别部件216根据搜索结果生成关键短语并识别独立关键短语。对独立关键短语进行评估来识别候选主题以用于可能包括在搜索查询的TOC中。
本体映射部件210、本体主题识别部件212、本体部分主题识别部件214和/或关键短语主题识别部件216可以为所接收的搜索查询识别许多主题。在一些实例中,所有识别出的主题都可以包括在响应于搜索查询在搜索页面上所提供的TOC中。在其它实例中,可以识别大量的主题,但只有识别出的主题的子集会包括在TOC中。主题排名/选择部件218操作以对主题进行排名,并选择主题以用于包括在TOC中。根据本发明的各种实施例,可以使用许多不同的要素对主题进行排名。仅以示例而非限制性的方式,可以基于分配给每个主题的文档总数来对每个主题进行排名。分配至给定主题的更大数目的文档为该主题提供了更高的排名。还可以基于分配给主题的每个搜索结果的排名(或经过选择的搜索结果,例如排名最高的N个搜索结果)对主题进行排名。对每个搜索结果的排名与搜索结果和搜索查询的相关性相对应。相应地,更高度相关的搜索结果被分配至给定主题可以为该主体提供更高的排名。进一步可以使用每个主题的长度(例如单词数目)来对主题进行排名。任意以及所有这些变体都被设想在本发明实施例的范围内。对候选主题进行排名后,排名/选择部件216选择用于TOC的主题。
转至图3A、3B和3C。提供了示出根据本发明实施例的用于针对在搜索系统接收的搜索查询生成TOC的方法300的流程图。如框302所示,接收搜索查询。本领域技术人员将认识到,搜索查询可以包括由用户输入的一个或多个搜索术语(尽管在有些实施例中搜索术语可以自动提供)。另外,搜索查询可以用许多不同的方式提供。仅以示例而非限制性的方式,用户可以采用网页浏览器来浏览至搜索引擎网页,并在输入框中输入搜索查询。再如,用户可以通过例如位于网页浏览器内、用户计算设备桌面或其它位置的搜索引擎工具条其它提供的输入框输入搜索查询。本领域技术人员将认识到,在本发明实施例的范围内,其它多种方法也可以用来提供搜索查询。
根据图3A所示的实施例中,在框304处确定搜索查询的本体映射是否已经存在。例如,搜索查询可能是顶端查询,搜索引擎专员已经为其手工识别了针对该搜索查询的相关主题。可替换地,所接收的搜索查询可能与先前已被搜索系统处理的搜索查询相对应,来识别了相关主题,并且搜索系统可能已缓存针对该搜索查询识别出的主题。如果在框306处确定本体映射已经存在,那么在框308处检索搜索查询的主题。在一些实施例中,只有在框308处检索出的主题才被用来生成TOC以响应于搜索查询,并且该过程结束。在这样的实施例中,生成搜索页面,其包括根据在框308处检索出的主题生成的TOC。在其它实施例中,过程在框310处继续,并且由算法识别另外的主题。
如果在框306处确定搜索查询的本体映射不存在(或者如果在框308检索主题之后过程继续进行),那么使用搜索查询进行搜索,如在框310处所示。返回搜索查询的搜索结果,并且在框312处接收来自搜索中的排名最高的N个文档片段,以作为待分析的文档集合。
如框314处所示,将文档集合中的每个文档片段与主题的本体(或本体选集)进行比较,以识别每个文档片段是否映射到本体中的主题。在本发明实施例的范围内,将文档片段识别为与主题本体中的主题相关联可以以许多不同的方式进行。仅以示例而非限制性的方式,在一个实施例中,基于文档片段中包含的单词将文档片段转换为特征向量,将特征向量与本体中的主题进行比较,以确定特征向量与主题的距离。通过确定文档片段的特征向量在给定主题的预定距离内来确定针对给定文档片段的肯定主题识别。如果在框316处,基于文档片段和本体的分析,针对给定文档片段的主题识别是肯定的,那么就将文档片段分配给所识别的主题,如框318处所示。另外,在框320处将文档片段从文档集合中移除。
在为给定的文档片段识别相关主题(例如经由框316~320)或确定没有来自本体的主题与该文档片段足够相关(例如经由框316)之后,在框322处确定所分析的文档片段是否为待分析的文档集合中的最后文档片段。如果还有另外其它待分析的文档片段,那么重复框316~322的过程,直到文档集合中所有的文档片段都已与主题的本体进行了比较。在文档集合中所有的文档片段都与主题的本体比较过之后,把从主题本体中识别出的主题添加到候选主题列表中以供考虑,如图3B中的框324处所示。在一些实施例中,所有识别出的主题都被添加到列表。在其它实施例中,只有部分主题被添加。例如,在一些实施例中,仅具有预定数目的被分配的文档片段的主题被添加到主题列表。
如框326处所示,将文档集合中的每个剩余文档片段与部分主题的本体(或本体选集)进行比较。如前所述,部分主题是仅部分命名的主题。每个部分主题包括部分主题标识符单词,该部分主题标识符单词可以与另外的单词或短语组合以创建用在TOC中的主题。
在框328处确定给定的文档片段是否与部分主题本体中的部分主题相关联。在本发明实施例的范围内,将文档片段识别为与部分主题相关联可以以许多不同的方式进行。仅以示例而非限制性的方式,在一个实施例中,基于文档片段中包含的单词将文档片段转换为特征向量,并将特征向量与部分主题本体中的部分主题进行比较,以确定特征向量与部分主题的距离。通过确定文档片段的特征向量在给定部分主题的预定距离内来确定针对给定文档片段的肯定部分主体识别。如果在框328处,基于文档片段和部分主题本体的分析,对给定文档片段的部分主题识别是肯定的,那么就把文档片段分配给识别出的部分主题,如框330所示。另外,在框332处将文档片段从文档集合中移除。
在为给定的文档片段识别相关部分主题(例如经由框328~332)或确定没有来自本体的部分主题与给定的文档片段足够相关(例如经由框328)之后,在框334处判断所分析的文档片段是否为待分析的文档集合中的最后文档片段。如果还有其它待分析的文档片段,那么重复框328~334的过程,直到文档集合中所有的文档片段都已与部分主题的本体进行了比较。
在文档集合中剩余的每个文档片段都跟部分主题的本体比较过之后,在框336处对部分主题进行命名。在一些实施例中,对所有识别出的部分主题进行命名。在其它实施例中,只对一部分主题进行命名,而其它部分不被考虑用于进一步分析。例如,在一些实施例中,仅具有预定数目的被分配的文档片段的部分主题才被命名并被考虑用于进一步分析。图4提供了这样的流程图,其示出根据本发明实施例的用于命名部分主题的方法400。如框402所示,识别分配给部分主题的文档片段内的部分主题标识符单词的出现。例如,部分主题标识符单词可以是“评论”,并且该术语在文档片段中的每次出现都被识别。在框404处,提取围绕部分主题标识符单词的一个或多个单词和/或短语。如框406所示,对提取出的每个单词和/或短语的频率进行计数。在一些实施例中,跟踪并计数针对部分主题标识符单词提取出的每个单词和/或短语的位置。特别地,单词或短语可以出现在部分主题标识符单词的前面或后面。搜索系统可以分别跟踪每个单词和/或短语在部分主题标识符单词的前面出现多少次,以及每个单词和/或短语在部分主题标识符单词的后面出现了多少次。
在分析完每个文档片段后,选择使用频率最高的单词或短语,如框408所示。另外,使用部分主题标识符单词和使用频率最高的单词或短语对部分主题进行命名,如框410所示。部分主题标识符单词和使用频率最高的单词或短语之间的先后顺序可以基于文档片段中分析过的文本里的多数排序来确定。例如,如果所选择的单词或短语出现在部分主题标识符单词前面多于出现在部分主题标识符单词后面,那么部分主题的名字的顺序将首先包括所选择的单词或短语,然后是部分主题标识符单词。回到图3B,把命名的部分主题添加到主题列表,如框338所示。
在将文档片段与主题的本体、部分主题的本体进行比较之后,在框340处从文档集合中剩余的文档片段生成独立关键短语。参考图5,提供了这样的流程图,其示出根据本发明实施例的用于根据剩余的文档片段计算独立关键短语的方法500。如框502所示,候选的关键短语根据文档集合中剩余的文档片段生成。根据本发明的一些实施例,使用基于马尔可夫链的方法来生成候选关键短语。
评估候选关键短语的独立性,如框504所示。根据本发明的实施例,候选关键短语的独立性可以使用许多度量来评估。例如,可以基于如下度量的任意组合来确定独立性:候选关键短语共享的单词数目、对关键短语中单词的首字母缩写词的分析以及候选关键短语共享的文档数目。
对于每一组相互依赖的关键短语,在框506处对相互依赖的关键短语进行合并。若此,从相互依赖的关键短语群组中选择频率最高的关键短语用于后续分析,如框508所示。合并相互依赖的关键短语来识别关键短语以用于进一步分析的过程不断重复,直到不再有相互依赖的关键短语剩余。方法500的结果是一个或多个独立关键短语的选集,它们可以进一步被评估为可能的主题。
参考图3C,在从独立关键短语识别出候选主题后,将文档集合中剩余的文档片段分配给关键短语主题,如框342所示。在本发明实施例的范围内,将文档片段识别为与关键短语相关联可以以许多不同的方式进行。仅以示例而非限制性的方式,在一个实施例中,基于文档片段中包含的单词将文档片段转换为特征向量,并将特征向量与关键短语进行比较,以确定特征向量与关键短语的距离。通过确定文档片段的特征向量在给定关键短语的预定距离内来确定针对给定文档片段的肯定的关键短语识别。识别关键短语主题如框344所示,并且在框346处将关键短语主题添加到主题列表。在一些实施例中,所有独立关键短语都被识别为关键短语主题,并添加到主题列表。在其它实施例中,只有一部分关键短语会被承认是主题并添加到主题列表。例如,在一些实施例中,仅具有预定数目的被分配的文档片段的关键短语才被识别为关键短语主题并添加到主题列表。
上述过程的结果是提供了候选主题列表,该候选主题列表可以包括从现有本体映射识别出的主题、对主题本体的分析、对部分主题本体的分析和/或关键短语生成。在一些实例中,可能会识别出超出TOC需求的大量主题。若此,过程通过对主题进行排名和选择以包括在TOC中来继续进行。如框348所示,对候选主题进行排名。根据本发明的各种实施例,可以使用许多不同的要素对候选主题进行排名。仅以示例而非限制性的方式,可以基于分配给每个候选主题的文档总数来对每个候选主题进行排名。分配至给定候选主题的更多数目的文档可以为该候选主题提供更高的排名。还可以基于分配给候选主题的每个文档的排名(或经过选择的文档,即排名最高的N个文档)对候选主题进行排名。对每个文档的排名和每个文档与搜索查询的相关性相对应。相应地,更高度相关的文档被分配至给定候选主题可以为该候选主题提供更高的排名。进一步可以使用每个候选主题的长度(例如单词数目)来对候选主题进行排名。任意以及所有这些变体被设想在本发明实施例的范围内。
如框350所示,基于排名从候选主题列表中选择主题以包括在TOC中,该TOC结合搜索结果被提供以响应于搜索查询。在一些实施例中,选择预定数目的主题。例如,搜索系统可以选择排名最高的五个主题。在其它实施例中,可以选择所有具有满足预定或动态阈值的排名的主题。在进一步的实施例中,选择排名显著高于其它主题的那些主题。基于排名选择主题的以上和/或其它方法的任意组合都可以在本发明实施例中采用。
如框352所示,基于选择的主题生成TOC。另外,搜索结果页面在框354处生成,并返回给提交搜索查询的用户。根据本发明的实施例,搜索结果页面包括搜索查询的搜索结果列表。另外,搜索结果页面包括TOC,该TOC包括在框350处选择的主题。TOC可以呈现在邻近搜索结果的边栏中,也可以在搜索结果页面的其它另一部分。
以图示的方式,图6包括示出搜索结果页面600的示范性屏幕显示,该搜索结果页面600包括根据本发明实施例生成的TOC。那些本领域的普通技术人员将会理解并明了,图6中的屏幕显示仅以示例的方式提供,并不旨在以任何方式限制本发明的范围。
如图6所示,提供了搜索结果页面600响应于搜索查询602(“瑟马米什娱乐”)。响应于搜索查询602,搜索结果页面600在左侧窗格包括TOC 604。TOC 604包括如下主题:酒店目录、远足、划船、瑟马米什烟花、在线交友和长曲棍球。包括在TOC 604中的主题是基于此处讨论的本体实体和概念的分析以及关键短语提取,针对搜索查询识别的语义概念。搜索结果页面600还包括搜索结果区域606,其用于显示与搜索查询602相关的搜索结果。在图6的屏幕显示中,搜索结果区域606当前显示的是“所有结果”。如果用户从TOC 604中选择主题,与该选择的主题相关的搜索结果会显示在搜索结果区域606中。如图6所示,搜索结果页面可以包括进一步的特征,例如相关搜索查询608、搜索历史610、赞助商网站612等。为了清晰起见,在搜索结果页面600中省略了这些部分的细节。
不难理解,本发明的实施例将语义概念识别为主题以用于针对搜索结果的TOC的生成。本发明已关于特定实施例而被描述,其在各个方面都是说明性的而非限制性的。在不脱离本发明范围的情况下,其它替代的实施例对本发明所属领域的普通技术人员是显而易见的。
如前所述,将会看出本发明很好地适于达到以上阐述的目标和目的,连同所述系统和方法显然具有以及内在的其它优点。将会理解,特定的特征和子组合是实用的,并可以被采用而无需参考其它特征和子组合其它。这通过权利要求的范围来设想并在其范围内。

Claims (15)

1. 一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用所述指令时,使所述一个或多个计算设备执行方法,该方法包括:
接收搜索查询;
使用所述搜索查询进行搜索;
从搜索中接收多个文档片段;
通过将一个或多个文档片段与主题的本体进行比较,识别一个或多个候选主题的第一集合;
通过将一个或多个文档片段与部分主题的本体进行比较,识别一个或多个候选主题的第二集合;
通过从一个或多个文档片段生成关键短语主题,识别一个或多个候选主题的第三集合;
对来自所述第一、第二、第三候选主题集合中的候选主题进行排名;
基于对候选主题的排名选择一个或多个主题;
提供搜索结果页面以响应于所述搜索查询,该搜索结果页面具有包含所述一个或多个主题的目录,以及用于呈现一个或多个搜索结果的搜索结果区域。
2. 如权利要求1所述的一种或多种计算机可读的媒体,其中通过将一个或多个文档片段与部分主题的本体进行比较来识别一个或多个候选主题的所述第二集合包括识别一个或多个部分主题并命名每个部分主题,其中所述部分主题通过以下操作命名:
在一个或多个文档片段中识别所述部分主题的部分主题标识符单词的出现;
提取所述一个或多个文档片段中围绕所识别的所述部分主题标识符单词的出现而出现的单词和/或短语;
对每个提取的单词和/或短语的频率进行计数;
选择频率最高的单词或短语;以及
使用所述部分主题标识符和所述使用频率最高的单词或短语对所述部分主题进行命名。
3. 如权利要求1所述的一种或多种计算机可读的媒体,其中通过从一个或多个文档片段生成关键短语主题来识别一个或多个候选主题的所述第三集合包括通过以下操作从文档集合中剩余的文档片段计算独立关键短语:
从一个或多个文档片段生成候选关键短语;
评估候选关键短语的独立性;
合并相互依赖的候选关键短语;以及
为每组合并的相互依赖的关键短语识别频率最高的候选关键短语。
4. 如权利要求1所述的一种或多种计算机可读的媒体,其中对候选主题排名基于选自如下中的一项或多项:分配给候选主题的文档总数、分配给候选主题的每个文档的排名、分配给主题的经过选择的文档的排名以及候选主题的单词长度。
5. 一种或多种存储计算机可用指令的计算机可读的媒体,当一个或多个计算设备使用这些指令时,使得所述一个或多个计算设备执行一种方法,该方法包括:
接收搜索查询;
确定所述搜索查询的本体映射是否存在;
如果所述搜索查询的本体映射存在,基于所述本体映射检索第一主题集合,并将所述第一主题集合添加到主题列表中;
使用所述搜索查询进行搜索以获得多个搜索结果,每个搜索结果与文档片段相对应;
接收至少部分文档片段作为文档集合以用于进一步分析;
将文档集合中的每个文档片段与主题的本体进行比较;
对于其中确定肯定的主题识别的每个文档片段,将所述文档片段分配给相应的主题,并从所述文档集合中移除所述文档片段;
将至少一个从主题本体识别出的主题添加到所述主题列表;
将所述文档集合中剩余的每个文档片段与部分主题的本体进行比较;
对于其中确定肯定的部分主题识别的每个文档片段,将所述文档片段分配给相应的部分主题,并从文档集合中移除所述文档片段;
对至少一个具有一个或多个被分配的文档片段的部分主题进行命名;
将至少一个命名的部分主题添加到所述主题列表;
根据所述文档集合中剩余的文档片段计算独立关键短语;
将文档分配给独立关键短语;
识别至少一个独立关键短语主题;
将所述至少一个关键短语主题添加到所述主题列表;
对所述主题列表中的主题进行排名;
基于排名选择主题;
使用所述选择的主题生成目录;以及
提供搜索结果页面以响应于所述搜索查询,所述搜索结果页面包括所述目录以及用于呈现搜索结果的搜索结果区域。
6. 如权利要求5所述的一种或多种计算机可读的媒体,其中将所述文档集合中的每个文档片段与主题本体进行比较包括:基于每个文档片段中包含的单词为每个文档片段计算特征向量,并将每个特征向量与所述主题本体中的主题进行比较,
并且其中通过确定文档片段的特征向量在给定主题的预定距离内来确定针对该文档片段的肯定主题识别,
并且其中将至少一个从所述主题本体识别出的主题添加到所述主题列表包括:添加具有大于预定数目的所分配的文档片段的每个主题。
7. 如权利要求5所述的一种或多种计算机可读的媒体,其中将所述文档集合中剩余的每个文档片段与所述部分主题的本体进行比较包括:基于每个文档片段中包含的单词为每个文档片段计算特征向量,并将每个特征向量与所述部分主题本体中的部分主题进行比较,
并且其中通过确定文档片段的特征向量在给定部分主题的预定距离内来确定针对该文档片段的肯定部分主题识别。
8. 如权利要求5所述的一种或多种计算机可读的媒体,其中对至少一个具有一个或多个所分配的文档片段的部分主题进行命名包括:对具有大于预定数目的所分配的文档片段的每个部分主题进行命名。
9. 如权利要求5所述的一种或多种计算机可读的媒体,其中对部分主题命名包括:
在分配给所述部分主题的一个或多个文档片段中识别所述部分主题的部分主题标识符单词的出现;
提取所述一个或多个文档片段中围绕所识别的所述部分主题标识符单词的出现而出现的单词和/或短语;
对每个提取的单词和/或短语的频率进行计数,其中对每个提取的单词和/或短语的频率进行计数包括:跟踪涉及所述部分主题标识符单词的每个提取出的单词和/或短语的位置;并且其中命名所述部分主题包括:基于使用频率最高的单词或短语的位置信息来确定所述部分主题标识符单词和使用频率最高的单词或短语的顺序;
选择使用频率最高的单词或短语;以及
使用所述部分主题标识符和使用频率最高的单词或短语对所述部分主题进行命名。
10. 如权利要求5所述的一种或多种计算机可读的媒体,其中从所述文档集合中剩余的文档片段计算独立关键短语包括:
从所述文档集合中剩余的文档片段生成候选关键短语;
评估候选关键短语的独立性;
合并相互依赖的候选关键短语;以及
为每组合并的相互依赖的关键短语识别频率最高的候选关键短语。
11. 如权利要求5所述的一种或多种计算机可读的媒体,其中识别至少一个关键短语主题包括:将具有大于预定数目的所分配到的文档片段的每个关键短语识别为关键短语主题。
12. 如权利要求5所述的一种或多种计算机可读的媒体,其中对主题排名基于选自如下的一项或多项:分配给主题的文档总数、分配给主题的每个文档的排名、从分配给主题的经过选择的文档的排名以及主题的单词长度。
13. 一种用于从搜索结果集合识别主题以生成搜索结果的目录的方法,该方法包括:
接收搜索查询;
使用所述搜索查询进行搜索;
从搜索中接收多个文档片段;
从所述文档片段的至少部分生成候选关键短语;
评估候选关键短语的独立性;
合并相互依赖的候选关键短语;
为每组相互依赖的关键短语识别频率最高的候选关键短语,以生成多个独立关键短语;
将一个或多个文档片段分配给每个独立关键短语;以及
基于对独立关键短语的文档片段分配选择关键短语主题。
14. 如权利要求13所述的方法,其中使用基于马尔可夫链的方法来生成候选关键短语。
15. 如权利要求13所述的方法,其中使用选自以下的一项或多项来评估候选关键短语的独立性:候选关键短语共享的单词数目、对候选关键短语中单词的首字母缩写词的分析以及候选关键短语共享的文档数目。
CN201180008423.2A 2010-02-05 2011-01-19 用于搜索结果的语义目录 Expired - Fee Related CN102725759B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/701,338 US8150859B2 (en) 2010-02-05 2010-02-05 Semantic table of contents for search results
US12/701338 2010-02-05
PCT/US2011/021596 WO2011097066A2 (en) 2010-02-05 2011-01-19 Semantic table of contents for search results

Publications (2)

Publication Number Publication Date
CN102725759A true CN102725759A (zh) 2012-10-10
CN102725759B CN102725759B (zh) 2015-11-25

Family

ID=44354507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180008423.2A Expired - Fee Related CN102725759B (zh) 2010-02-05 2011-01-19 用于搜索结果的语义目录

Country Status (5)

Country Link
US (2) US8150859B2 (zh)
CN (1) CN102725759B (zh)
HK (1) HK1173817A1 (zh)
TW (1) TWI524193B (zh)
WO (1) WO2011097066A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683958A (zh) * 2013-10-29 2016-06-15 微软技术许可有限责任公司 文本样本条目组制定
CN110032622A (zh) * 2018-11-28 2019-07-19 阿里巴巴集团控股有限公司 关键词确定方法、装置、设备及计算机可读存储介质

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640267B2 (en) * 2002-11-20 2009-12-29 Radar Networks, Inc. Methods and systems for managing entities in a computing device using semantic objects
US7584208B2 (en) 2002-11-20 2009-09-01 Radar Networks, Inc. Methods and systems for managing offers and requests in a network
US7433876B2 (en) * 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US8924838B2 (en) * 2006-08-09 2014-12-30 Vcvc Iii Llc. Harvesting data from page
US20090076887A1 (en) 2007-09-16 2009-03-19 Nova Spivack System And Method Of Collecting Market-Related Data Via A Web-Based Networking Environment
US20090106307A1 (en) * 2007-10-18 2009-04-23 Nova Spivack System of a knowledge management and networking environment and method for providing advanced functions therefor
US20100004975A1 (en) * 2008-07-03 2010-01-07 Scott White System and method for leveraging proximity data in a web-based socially-enabled knowledge networking environment
US8521731B2 (en) * 2008-07-09 2013-08-27 Yahoo! Inc. Systems and methods for query expansion in sponsored search
WO2010120934A2 (en) * 2009-04-15 2010-10-21 Evri Inc. Search enhanced semantic advertising
US8200617B2 (en) 2009-04-15 2012-06-12 Evri, Inc. Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US8862579B2 (en) * 2009-04-15 2014-10-14 Vcvc Iii Llc Search and search optimization using a pattern of a location identifier
US9037567B2 (en) * 2009-04-15 2015-05-19 Vcvc Iii Llc Generating user-customized search results and building a semantics-enhanced search engine
US11023675B1 (en) * 2009-11-03 2021-06-01 Alphasense OY User interface for use with a search engine for searching financial related documents
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US20110302149A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Identifying dominant concepts across multiple sources
US20120278318A1 (en) * 2011-05-01 2012-11-01 Reznik Alan M Systems and methods for facilitating enhancements to electronic group searches
US11841912B2 (en) 2011-05-01 2023-12-12 Twittle Search Limited Liability Company System for applying natural language processing and inputs of a group of users to infer commonly desired search results
US9043350B2 (en) 2011-09-22 2015-05-26 Microsoft Technology Licensing, Llc Providing topic based search guidance
US9256862B2 (en) * 2012-02-10 2016-02-09 International Business Machines Corporation Multi-tiered approach to E-mail prioritization
US9152953B2 (en) * 2012-02-10 2015-10-06 International Business Machines Corporation Multi-tiered approach to E-mail prioritization
US8548973B1 (en) 2012-05-15 2013-10-01 International Business Machines Corporation Method and apparatus for filtering search results
US8843483B2 (en) 2012-05-29 2014-09-23 International Business Machines Corporation Method and system for interactive search result filter
US10002164B2 (en) * 2012-06-01 2018-06-19 Ansys, Inc. Systems and methods for context based search of simulation objects
US9684717B2 (en) * 2012-06-18 2017-06-20 Sap Se Semantic search for business entities
TW201403528A (zh) * 2012-07-10 2014-01-16 Telexpress Corp 用於諮詢服務系統之關鍵字管理系統及其方法
US9336297B2 (en) 2012-08-02 2016-05-10 Paypal, Inc. Content inversion for user searches and product recommendations systems and methods
US9922120B2 (en) * 2012-08-24 2018-03-20 Microsoft Technology Licensing, Llc Online learning of click-through rates on federated search results
US8898154B2 (en) * 2012-09-19 2014-11-25 International Business Machines Corporation Ranking answers to a conceptual query
US8996559B2 (en) 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
US20140310329A1 (en) * 2013-04-15 2014-10-16 Chacha Search, Inc Method and system of assigning topics to answerers
US9779182B2 (en) 2013-06-07 2017-10-03 Microsoft Technology Licensing, Llc Semantic grouping in search
US20150356171A1 (en) * 2014-06-05 2015-12-10 Harmon.Ie R&D Ltd. System and method for cross-cloud topic matching
US9940365B2 (en) 2014-07-08 2018-04-10 Microsoft Technology Licensing, Llc Ranking tables for keyword search
US10592539B1 (en) * 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
CN105786936A (zh) 2014-12-23 2016-07-20 阿里巴巴集团控股有限公司 用于对搜索数据进行处理的方法及设备
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text
US10817511B2 (en) * 2016-06-30 2020-10-27 Intel Corporation Search dimensionality expansion
US11550835B2 (en) 2017-06-16 2023-01-10 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
US10713050B2 (en) 2017-09-19 2020-07-14 International Business Machines Corporation Replacing Table of Contents (TOC)-setting instructions in code with TOC predicting instructions
US10705973B2 (en) 2017-09-19 2020-07-07 International Business Machines Corporation Initializing a data structure for use in predicting table of contents pointer values
US10884929B2 (en) 2017-09-19 2021-01-05 International Business Machines Corporation Set table of contents (TOC) register instruction
US10725918B2 (en) 2017-09-19 2020-07-28 International Business Machines Corporation Table of contents cache entry having a pointer for a range of addresses
US11061575B2 (en) 2017-09-19 2021-07-13 International Business Machines Corporation Read-only table of contents register
US10896030B2 (en) 2017-09-19 2021-01-19 International Business Machines Corporation Code generation relating to providing table of contents pointer values
US10620955B2 (en) 2017-09-19 2020-04-14 International Business Machines Corporation Predicting a table of contents pointer value responsive to branching to a subroutine
US10997228B2 (en) 2017-10-26 2021-05-04 International Business Machines Corporation Comparing tables with semantic vectors
IL258689A (en) 2018-04-12 2018-05-31 Browarnik Abel A system and method for computerized semantic indexing and searching
US11423073B2 (en) 2018-11-16 2022-08-23 Microsoft Technology Licensing, Llc System and management of semantic indicators during document presentations
CN109635197B (zh) * 2018-12-17 2021-08-24 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US8396824B2 (en) * 1998-05-28 2013-03-12 Qps Tech. Limited Liability Company Automatic data categorization with optimally spaced semantic seed terms
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US7275061B1 (en) * 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
WO2000075810A1 (fr) 1999-06-04 2000-12-14 Seiko Epson Corporation Procede de tri de documents, appareil de tri de documents et support enregistre sur lequel un programme de tri de documents est memorise
US8051104B2 (en) * 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
US6820111B1 (en) * 1999-12-07 2004-11-16 Microsoft Corporation Computer user interface architecture that saves a user's non-linear navigation history and intelligently maintains that history
IL150591A0 (en) 2000-01-06 2003-02-12 Igotpain Com Inc System and method of decision making
US6567805B1 (en) * 2000-05-15 2003-05-20 International Business Machines Corporation Interactive automated response system
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
AU2001280998A1 (en) 2000-08-03 2002-02-18 Bruce A. Epstein Information collaboration and reliability assessment
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US20050022114A1 (en) * 2001-08-13 2005-01-27 Xerox Corporation Meta-document management system with personality identifiers
US7225183B2 (en) * 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
US7153137B2 (en) * 2002-02-11 2006-12-26 Sap Ag Offline e-courses
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US8229957B2 (en) * 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
ITFI20020113A1 (it) 2002-06-26 2003-12-29 Perini Fabio Spa Dispositivo goffratore e laminatore con gruppo di cilindri goffratoriintercambiabile
US7225407B2 (en) * 2002-06-28 2007-05-29 Microsoft Corporation Resource browser sessions search
US20040003351A1 (en) * 2002-06-28 2004-01-01 Microsoft Corporation Navigating a resource browser session
US20040015483A1 (en) * 2002-07-16 2004-01-22 Hogan Ronald W. Document tracking system and method
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
FR2847056B1 (fr) 2002-11-08 2006-03-03 Surgiview Procede et systeme de traitement de donnees d'evaluation
US20040169688A1 (en) * 2003-02-27 2004-09-02 Microsoft Corporation Multi-directional display and navigation of hierarchical data and optimization of display area consumption
CA2536271A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for associating documents with contextual advertisements
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US7584181B2 (en) * 2003-09-30 2009-09-01 Microsoft Corporation Implicit links search enhancement system and method for search engines using implicit links generated by mining user access patterns
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7383171B2 (en) * 2003-12-05 2008-06-03 Xerox Corporation Semantic stenography using short note input data
US7774721B2 (en) * 2003-12-15 2010-08-10 Microsoft Corporation Intelligent backward resource navigation
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20050149510A1 (en) * 2004-01-07 2005-07-07 Uri Shafrir Concept mining and concept discovery-semantic search tool for large digital databases
US7167866B2 (en) * 2004-01-23 2007-01-23 Microsoft Corporation Selective multi level expansion of data base via pivot point data
GB0407816D0 (en) * 2004-04-06 2004-05-12 British Telecomm Information retrieval
US7448047B2 (en) * 2004-04-29 2008-11-04 Sybase, Inc. Database system with methodology for providing stored procedures as web services
US8977859B2 (en) 2004-05-04 2015-03-10 Elsevier, Inc. Systems and methods for data compression and decompression
BRPI0513210A8 (pt) * 2004-07-01 2018-04-24 Nokia Corp método para o usuário definir ao menos um aspecto de uma interface do usuário para o dispositivo, ferramenta para permitir ao usuário definir ao menos um aspecto de uma interface do usuário para o dispositivo móvel, terminal móvel, e, produto de programa de computador
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
US20060069617A1 (en) * 2004-09-27 2006-03-30 Scott Milener Method and apparatus for prefetching electronic data for enhanced browsing
US20070011155A1 (en) 2004-09-29 2007-01-11 Sarkar Pte. Ltd. System for communication and collaboration
US7523085B2 (en) * 2004-09-30 2009-04-21 Buzzmetrics, Ltd An Israel Corporation Topical sentiments in electronically stored communications
US7565627B2 (en) * 2004-09-30 2009-07-21 Microsoft Corporation Query graphs indicating related queries
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
WO2006062868A2 (en) * 2004-12-06 2006-06-15 Yahoo! Inc. Systems and methods for managing and using multiple concept networks for assisted search processing
EP1854030A2 (en) 2005-01-28 2007-11-14 Aol Llc Web query classification
US7577646B2 (en) * 2005-05-02 2009-08-18 Microsoft Corporation Method for finding semantically related search engine queries
US20060287919A1 (en) * 2005-06-02 2006-12-21 Blue Mustard Llc Advertising search system and method
US20060287983A1 (en) * 2005-06-16 2006-12-21 Microsoft Corporation Avoiding slow sections in an information search
US7668825B2 (en) * 2005-08-26 2010-02-23 Convera Corporation Search system and method
US20070094256A1 (en) * 2005-09-02 2007-04-26 Hite Thomas D System and method for integrating and adopting a service-oriented architecture
US8688673B2 (en) 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
EP1952266A4 (en) * 2005-10-11 2010-01-20 Nervana Inc INFORMATIVE NERVOUS SYSTEM
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
EP1843256A1 (en) 2006-04-03 2007-10-10 British Telecmmunications public limited campany Ranking of entities associated with stored content
CN101512521B (zh) 2006-06-02 2013-01-16 Tti发明有限责任公司 基于概念对语音文档的跨媒体索引和检索
US7996440B2 (en) * 2006-06-05 2011-08-09 Accenture Global Services Limited Extraction of attributes and values from natural language documents
CA2549536C (en) * 2006-06-06 2012-12-04 University Of Regina Method and apparatus for construction and use of concept knowledge base
US20080033932A1 (en) * 2006-06-27 2008-02-07 Regents Of The University Of Minnesota Concept-aware ranking of electronic documents within a computer network
WO2008014499A2 (en) 2006-07-27 2008-01-31 Nervana Inc. Information nervous system
US7668813B2 (en) * 2006-08-11 2010-02-23 Yahoo! Inc. Techniques for searching future events
US7693865B2 (en) * 2006-08-30 2010-04-06 Yahoo! Inc. Techniques for navigational query identification
US20100036797A1 (en) 2006-08-31 2010-02-11 The Regents Of The University Of California Semantic search engine
US9817902B2 (en) * 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
US8924197B2 (en) * 2006-10-31 2014-12-30 Semantifi, Inc. System and method for converting a natural language query into a logical query
KR100837751B1 (ko) 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US20090234814A1 (en) * 2006-12-12 2009-09-17 Marco Boerries Configuring a search engine results page with environment-specific information
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7788269B2 (en) * 2007-03-30 2010-08-31 International Business Machines Corporation Integration of predefined multi-dimensional and flexibly-ordered dynamic search interfaces
US20080256056A1 (en) * 2007-04-10 2008-10-16 Yahoo! Inc. System for building a data structure representing a network of users and advertisers
CN100592293C (zh) * 2007-04-28 2010-02-24 李树德 基于智能本体的知识搜索引擎及其实现方法
KR101465769B1 (ko) * 2007-06-14 2014-11-27 구글 인코포레이티드 사전 단어 및 어구 판정
US7970721B2 (en) 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
US8122360B2 (en) * 2007-06-27 2012-02-21 Kosmix Corporation Automatic selection of user-oriented web content
US8205166B2 (en) * 2007-07-20 2012-06-19 International Business Machines Corporation Methods for organizing information accessed through a web browser
US20100131085A1 (en) * 2007-09-07 2010-05-27 Ryan Steelberg System and method for on-demand delivery of audio content for use with entertainment creatives
JP2009080624A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 情報表示装置、方法及びプログラム
US20090089078A1 (en) * 2007-09-28 2009-04-02 Great-Circle Technologies, Inc. Bundling of automated work flow
US8862608B2 (en) * 2007-11-13 2014-10-14 Wal-Mart Stores, Inc. Information retrieval using category as a consideration
US8452768B2 (en) * 2007-12-17 2013-05-28 Yahoo! Inc. Using user search behavior to plan online advertising campaigns
US10002189B2 (en) * 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US20090241058A1 (en) 2008-03-18 2009-09-24 Cuill, Inc. Apparatus and method for displaying search results with an associated anchor area
US20090254574A1 (en) * 2008-04-04 2009-10-08 University Of Surrey Method and apparatus for producing an ontology representing devices and services currently available to a device within a pervasive computing environment
JP5150341B2 (ja) 2008-04-10 2013-02-20 株式会社東芝 データ作成装置及び方法
US8805844B2 (en) 2008-08-04 2014-08-12 Liveperson, Inc. Expert search
US10311445B2 (en) * 2008-08-20 2019-06-04 Palo Alto Research Center Incorporated Inference detection enabled by internet advertising
US8671096B2 (en) * 2008-10-24 2014-03-11 International Business Machines Corporation Methods and apparatus for context-sensitive information retrieval based on interactive user notes
US20100138402A1 (en) 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
CN102625933B (zh) 2009-06-22 2015-11-25 联邦科学和工业研究机构 用于传感器的本体驱动的查询和编程的方法和系统
US8180768B2 (en) 2009-08-13 2012-05-15 Politecnico Di Milano Method for extracting, merging and ranking search engine results
EP2629211A1 (en) 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US20120130999A1 (en) 2009-08-24 2012-05-24 Jin jian ming Method and Apparatus for Searching Electronic Documents
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20110131205A1 (en) 2009-11-28 2011-06-02 Yahoo! Inc. System and method to identify context-dependent term importance of queries for predicting relevant search advertisements
US20110131157A1 (en) 2009-11-28 2011-06-02 Yahoo! Inc. System and method for predicting context-dependent term importance of search queries
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8260664B2 (en) 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US20110231395A1 (en) 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US8572076B2 (en) 2010-04-22 2013-10-29 Microsoft Corporation Location context mining
US9361387B2 (en) 2010-04-22 2016-06-07 Microsoft Technology Licensing, Llc Context-based services
US20110307460A1 (en) 2010-06-09 2011-12-15 Microsoft Corporation Navigating relationships among entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101169780A (zh) * 2006-10-25 2008-04-30 华为技术有限公司 一种基于语义本体的检索系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683958A (zh) * 2013-10-29 2016-06-15 微软技术许可有限责任公司 文本样本条目组制定
CN110032622A (zh) * 2018-11-28 2019-07-19 阿里巴巴集团控股有限公司 关键词确定方法、装置、设备及计算机可读存储介质
CN110032622B (zh) * 2018-11-28 2023-07-14 创新先进技术有限公司 关键词确定方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
HK1173817A1 (zh) 2013-05-24
WO2011097066A3 (en) 2011-11-24
TW201145056A (en) 2011-12-16
US20110196875A1 (en) 2011-08-11
US20120246155A1 (en) 2012-09-27
WO2011097066A2 (en) 2011-08-11
US8326842B2 (en) 2012-12-04
US8150859B2 (en) 2012-04-03
CN102725759B (zh) 2015-11-25
TWI524193B (zh) 2016-03-01

Similar Documents

Publication Publication Date Title
CN102725759B (zh) 用于搜索结果的语义目录
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
CN102622450B (zh) 用户的浏览器历史的相关性排序
JP5497022B2 (ja) 入力文字列からのリソースロケータの提案
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
CN101276361B (zh) 一种显示相关关键词的方法及系统
KR101579551B1 (ko) 자동적 확장 언어 검색
JP5661200B2 (ja) 検索情報の提供
US20150161274A1 (en) Providing topic based search guidance
CN100483408C (zh) 在多个文档之间建立链接结构的方法和装置
CN105493075A (zh) 基于所标识的实体的属性值检索
US20140046921A1 (en) Context-based person search
CN103620604A (zh) 按类别暴露搜索历史
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
CN103699700A (zh) 一种搜索引导的生成方法、系统及相关服务器
CN102722498A (zh) 搜索引擎及其实现方法
US20100010982A1 (en) Web content characterization based on semantic folksonomies associated with user generated content
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN102737021A (zh) 搜索引擎及其实现方法
CN102567441A (zh) 提供与用户会话相关的情境提示
CN103324631A (zh) 提供数据搜索的方法及装置
US8538946B1 (en) Creating model or list to identify queries
US20140172812A1 (en) Utilizing keystroke logging to determine items for presentation
US20100332491A1 (en) Method and system for utilizing user selection data to determine relevance of a web document for a search query

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1173817

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150616

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150616

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1173817

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125

Termination date: 20200119