CN1609859A - 搜索结果聚类的方法 - Google Patents
搜索结果聚类的方法 Download PDFInfo
- Publication number
- CN1609859A CN1609859A CNA2004100917727A CN200410091772A CN1609859A CN 1609859 A CN1609859 A CN 1609859A CN A2004100917727 A CNA2004100917727 A CN A2004100917727A CN 200410091772 A CN200410091772 A CN 200410091772A CN 1609859 A CN1609859 A CN 1609859A
- Authority
- CN
- China
- Prior art keywords
- document
- classification
- keyword
- cluster
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Abstract
一种搜索结果聚类的方法,包括如下步骤:预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。所述类别可以为任意的文档分类标记或者关键词。每个类别可设置一个权重值。搜索结果中的文档被放入该文档相对于查询关键词的类别集合中,并且所得到的各个聚类类别的级别可由其所包含的文档的级别来计算。本发明的聚类过程可以高效地完成,适用于大规模文档检索系统(例如互联网搜索引擎)对搜索结果的聚类,并且通过对聚类类别评级,可以将具有较高级别的聚类以及其中较高级别的文档优先呈现给用户。
Description
技术领域
本发明涉及信息检索技术领域,特别是对检索出来的结果进行自动聚类的方法,例如在联机文档检索系统或者网络搜索引擎中对用户查询的结果进行聚类的方法。
背景技术
目前,基于计算机或者计算机网络的文档检索系统对于用户查询所返回的搜索结果通常是包含了文档表示(例如标题、摘要)或文档链接的一个列表,列表中的文档一般按照文档与查询之间的相关程度由高到低排序。用户在此列表中进一步查找和选取实际相关或有用的文档。对于非常大的文档库,例如互联网搜索引擎所搜集的网页库,系统返回给用户的搜索结果通常是成百上千的文档链接。用户在大量的返回结果中查找有用信息对用户而言是一种很大的负担,质量、类别等有很大不同的文档线性地罗列在一起也容易掩盖用户真正关心的文档。对此,除了进一步提高文档检索技术(例如充分利用网页的超链接特征、文本格式化信息等)、尽量将用户可能感兴趣的文档排列在靠前的位置之外,另外一种方便用户在搜索结果中进行浏览和查找的技术是系统对搜索结果进行自动分组,即将具有相似特征(例如内容主题)的文档(或文档表示)放在同一组之中,以便于用户缩小查找范围、只在感兴趣的少数组中查找和选取所关心的文档。
一种常用的分组技术是文档分类(Classification),或更准确地称为文档归类(Categorization),即在一个预先定义的、固定的类别集合中确定各个文档的一个或者多个类别。由于各个文档都预先确定好了类别,系统对检索结果中的文档的归类过程可以简单高效地完成。对于大规模的文档库而言,这个是一个非常突出的优点。然而,归类方法的缺陷也在于其使用的固定的分类体系:预先确定的分类体系通常只能适用于很小的知识领域,缺乏可扩充性和灵活性;很多文档符合多个类别的标准,兼类现象严重;自动归类算法难于保证分类结果的准确性和一致性,特别是对于内容庞杂、质量参差不齐的网页文档(Web Page Document),归类效果一般很差。
归类方法预先固定了每个文档的类别,在分类过程中没有考虑用户查询这个因素。实际上,当文档被用于不同的目的时,它可能对应不同的类别。因此搜索结果中的文档的类别具有随用户查询的不同而变化的特征。这也是归类方法在被用于对搜索结果分组时的一个不足。
早期的互联网搜索引擎曾广泛使用人工归类方法,即由人工为每个收录的网页指定类别,其结果有比较好的质量保证,然而这种方法不能适应网页数量的快速增长,目前已较少使用。
另一种对搜索结果分组的技术是文档聚类(Clustering),即将具有相近特征的文档找出来、并为它们动态生成一个类别标记。在本发明中,概念“类”或“类别”(Class)统一指称归类类别和聚类类别,通常也被分别称为“类目”(Category)和“(类)簇”(Cluster)。
使用聚类方法对搜索结果中的文档进行分组可以避免归类方法的类别固定、缺乏可扩充性和灵活性、维护分类体系一致性困难等问题。由于被聚类的对象是根据查询而获得的文档,搜索结果聚类可以动态地反映文档类别随用户查询的不同而变化的特征。聚类方法不使用预先固定的类别体系,而是根据文档之间的相似性动态地生成类别,无需付出维护分类体系的代价。
与用户交互的大规模文档检索系统,例如互联网搜索引擎,要求搜索结果聚类过程具有实时、在线的性能,具备极高的时间效率,也就是系统在根据用户查询获得结果文档集合之后,必须尽快地完成聚类,并迅速将聚类结果输出给用户端。通常的文档聚类算法的时间复杂性为O(n2)~O(n3),n是被聚类的文档的数目。这样的复杂性对于大规模文档检索系统而言太高,不适用于实时在线的搜索结果聚类。
Zamir和Etzioni提出了后缀树聚类(Suffix Tree Clustering,STC)方法,使用一种称为后缀树的数据结构来识别多个文档之中的共同字符子串(参见O.Zamir&O.Etzioni.Web document clustering:a feasibility demonstration.Proceedings of ACM SIGIR’98,SIGIRConference on Research and Development in Informatin Retrieval.1998)。该方法达到了线性时间复杂度O(n),即正比于被聚类的文档的数量。对于比较小的文档、或者比较小的文档表示(例如文档摘要),在限定了参与聚类的文档数量小于一定阈值的条件下,该方法可以达到实时、增量式聚类的要求。该方法自提出之后成为很多搜索结果聚类方法和应用系统的基础。在相关的研究中,Wang和Kitsuregawa提出了结合文档内容(关键词)和网页超链信息进行聚类的方法(参见Y.Wang&M.Kitsuregawa.Evaluating contents-linkcoupled web page clustering for web search results.Proceedings of ACM CIKM,Conferenceon Information and Knowledge Management.2002);Zeng等人对聚类名称的生成提出了改进,以便获得更具可读性的类别名称(参见H.Zeng et al.Learning to cluster web searchresults.Proceedings of ACM SIGIR 2004,SIGIR Conference on Research and Development inInformatin Retrieval.2004)。
当前,运用这一类搜索结果聚类方法的最典型的应用系统是Vivísimo公司提出的聚类引擎(参见网址http://Vivisimo.com),以及与之有关的其它搜索引擎(例如Clusty.com,DogPile.com)。这些搜索结果聚类应用系统都是元搜索引擎(Meta Search Engine),被聚类的文档是其它搜索引擎返回的搜索结果列表,即实际参与聚类的文档是原网页文档的标题、关键词邻近句子摘要、链接文字等比较短的文档表示,并且对参与聚类的文档数量作了严格限制(200~500篇文档)。在这些限制条件下,这类系统可具备接近实时聚类的性能(用户端响应时间约在5秒钟以内)。
总体而言,目前已知的搜索结果聚类方法为满足实时在线聚类的性能要求,都对被聚类的文档内容和文档数量作了很大的限制。已知的上述这类实时聚类方法只能处理很少量的文档,并且通常只使用很少量的文档内容(标题、摘要或链接文字),例如在元搜索引擎中所使用的搜索结果聚类方法。通用的(非元搜索的)互联网搜索引擎返回给用户的搜索结果通常包含成千上万甚至数十万的文档。目前的搜索结果聚类方法不适用于这些系统。
因此,对文档数量和内容不限、对类别不限的高效大规模的搜索结果聚类技术是大规模文档检索系统所需要的。大规模文档检索系统,例如互联网搜索引擎等,有必要对数量庞大的搜索结果根据用户查询的特征(例如查询关键词)并基于全文内容进行实时在线的聚类。目前这样的聚类方法和系统尚未出现。
发明内容
本发明的一个目的是提出一种对文档数量和类别不加限定的搜索结果聚类方法,适用于大规模的搜索结果聚类。
本发明的另一个目的是提出一种根据查询中的关键词而直接确定聚类类别的搜索结果聚类方法。
本发明的再一个目的是提出一种对数量不限的搜索结果进行聚类、并对得到的各个类别进行评级的方法。
为达到上述目的,本发明采取的技术方案是:
一种搜索结果聚类的方法,所述搜索结果是作为对某个搜索请求的响应、从一个被索引的文档集合中根据搜索请求与被索引文档的相关程度而被选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户,其特征在于它包括如下步骤:
a.预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;
b.根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。
所述类别可以为任意的文档分类标记,或者是索引关键词、索引关键词的固定搭配等。每个类别可设置一个权重值,表示此类别与所对应的文档的关联程度。搜索结果中的文档被放入该文档相对于查询关键词的类别集合中,并且聚类之后的文档的在某一类别中的文档级别由聚类之前的文档级别和该文档相关对于此类别的权重等因素而确定。所得到的各个聚类类别的级别可由其所包含的文档的级别来计算。
此技术方案具备如下的技术效果:预先为每个文档确定了聚类类别,并且这些聚类类别可以直接由索引关键词而快速得到。这个特征使得聚类过程可以非常高效地完成,适用于对大规模的检索结果聚类,可达到文档归类的运行时效率。同时,类别是根据关键词而直接确定,因此相对于不同的查询关键词或词组,同一文档可以属于不同的类别,从而克服了固定分类体系的缺点。另外,根据聚类所得到的各个类别中的文档数量、文档权重的总和或者平均值等信息,还可以计算出这些类别的权重,并以此对这些类别进行评级(Ranking)和排序。由此,系统可以将具有较高级别的聚类以及其中较高级别的文档优先呈现给用户。
附图说明
本说明书包含3个附图。
附图1是本发明一个实施例的流程图。
附图2是带有关键词相关聚类记录信息的倒排索引数据结构示意图。
附图3是本发明的一个实施例针对查询关键词对搜索结果进行聚类而生成的一个输出结果样例。
具体实施方式
下面结合附图和实施例对上述技术方案作进一步的说明。
文档检索系统的首要步骤是对所获取的文档集合进行索引,生成适合于计算机进行搜索运算的数据结构,以便根据用户查询而有效地查找到相关的文档。文档集合通常包括各种形式的电子文档,例如发布在互联网站点上的网页(HTML文档)和其它格式的数据文件。大规模文档检索系统通常使用倒排索引,即以关键词来索引包含了该关键词的各个文档,并可记录该关键词在文档中的出现频次、位置等信息。
在信息检索领域,“关键词”一般指称用于文档索引和检索的项(term),包括文档中的特征项即“索引项”(index term)和查询中的特征项即“搜索项”(search term)。这些项可以是通常的词、词组,也可以是其它类型的字符串(例如二字/词组Bigram等)。本发明所使用的“关键词”概念遵循这种用法。
设有文档集合{di|i=1,2,...,N},其中N是被索引文档的总数。文档检索系统使用一个关键词集合(索引词典){kwj|j=1,2,...,K}来索引一批文档。文档检索的过程即系统使用查询中的关键词来搜索文档索引。查询通常为单个关键词或者多个关键词的组合(例如逻辑表达式)。设查询Query包含关键词kw1、kw2、...、kwQ,记为Query={kw1,kw2,...,kwQ}。如果查询中的关键词kwi在索引中出现,则通过索引可以获得所有包含该关键词kwi的文档。以此得到查询中的各个关键词对应的文档,再经过适当的集合运算(交集、并集、差集等),就得到了候选的相关文档。系统再利用一定的判据(例如关键词频次和位置等)确定查询与各个候选文档的相关程度,从候选文档中选取一部分文档作为搜索结果。通常需要将搜索结果中的文档按照相关程度由高到低排序,并为它们生成文档表示(包括标题、摘要、文档编号或者网址等信息)。
现有的搜索结果聚类方法依靠上述过程得到的文档表示来完成对搜索结果中的文档进行实时在线的聚类,即根据文档表示来发现文档之间的相似特征、将具有相似特征的文档放入同一个类别中、并为该类别生成一个有意义的名称(通常为文档表示中的公共字符子串)。因此这些聚类方法是与文档索引过程无关的。如本发明背景技术所述,这类方法为满足实时在线聚类的性能要求,对被聚类的文档内容和文档数量作了很大的限制,难以适用于对数量庞大的搜索结果进行高效的聚类,并且不能直接根据用户查询的特征(例如查询关键词)并基于全文内容快速地确定文档的聚类类别。
本发明实施例的流程图如附图1所示,其包含的步骤是:
101:获取并索引一个文档集合{di};
102:相对于文档的全部或者部分索引项{kwj}(包括关键词、多个关键词的搭配或词组),预先确定各个文档相对于这些索引项的可能的一个或者多个类别,并将此文档类别信息保存。由于这种文档类别是针对具体的索引关键词(或者词组)的,为便于叙述,本发明将其称为“关键词相关的聚类”类别,或简称为“KWAC类别(Keyword AssociatedClustering Classes)”或“聚类类别”;
103:通过计算机或者计算机网络获得用户提交的搜索请求,从中提取出用户查询;
104:使用查询中的关键词搜索文档索引,根据查询与被索引文档的相关程度,选取一部分文档作为搜索结果;
105:对于搜索结果中的各个相关文档,根据预先已确定的文档相对于查询关键词或者词组(作为命中该文档的索引项)的类别,将文档放入这些类别中,完成对搜索结果中的文档的分组(其表现为对检索结果的聚类)。由于各个文档的类别在检索之后已经明确,这个步骤的实际操作类似文档归类的过程,可以非常高效地实现;
106:将搜索结果返回给用户。
本实施例将搜索结果聚类同文档收集、索引、检索等过程结合在一起,可应用在任意的文档检索系统或通用的搜索引擎中,不受元搜索引擎的限制。
下面详细说明步骤102和105的内容。
-
聚类类别的确定:
在步骤102,本发明的关键词相关聚类类别可以在离线(off-line)状态下确定,同时又不受固定分类体系的限制,可以是任何形式的类别标记,或者系统定义的任何标识符。对于大规模文档检索系统,例如互联网搜索引擎,特别有用的类别标记是关键词,也就是用一个关键词(或者词组)作为文档的类别,从而便于用户基于关键词进行检索、聚类、浏览等。当然,固定分类体系中的类别(例如图书分类标记、网页分类搜索目录名称等)也可以用作某个文档的KWAC类别。
一种有效的方式是将灵活可变的关键词类别与固定分类体系中的类别结合起来应用。在本发明的实施例中,当分析文档相对于某个索引项的KWAC类别时,如果该文档中没有合适的与该索引项高度相关的其它关键词或词组作为文档的KWAC类别,则使用与该索引项对应的固定分类体系中的类别作为文档相对于此索引项的KWAC类别。该对应关系可预先记录,并与固定分类体系保存在一起。
在本发明的实施例中,作为聚类类别的关键词的另一个来源是关键词的固定搭配。首先,用一个词组库(或者称为短语库)保存常用的或者重要的关键词组合。如果文档中的某些用于索引的关键词满足词组库中的搭配关系,则将与该词构成搭配关系的关键词作为聚类类别。其次,应用统计自然语言处理在词的固定搭配与短语等的识别方面提供的技术,在各个文档中计算侯选词串的统计特征(例如共现频率、互信息、条件熵等),从这些侯选词串中找出合适的词串作为词组。上述两种方法可结合使用,即词组库作为词组统计的参考,而统计得到的词组可用于对词组库的更新。
在本发明的实施例中,反映文档内容的主题词(Topic Words)或词组也可以被直接作为文档中全部或者部分索引项(关键词或者词组、Bigram等)的KWAC类别。特别是,网页(HTML、XML文档)或其它类型文档中的格式化信息被用作主题词标识的依据。其中,出现在文档标题(Title)中的关键词,以及出现在指向当前文档的其它文档中的超链接(Hyperlink)中的链接文本(Anchor Text)中的关键词,优先成为当前文档的候选主题词和聚类类别。与上述固定分类体系一起,这一类关键词构成了文档的固定(与查询无关)的聚类类别。
在本发明的实施例中,每个关键词相关的聚类类别Ci(i=1,2,...,m)具有一个权重值wti,记为
wti=KWAC_Weight(kw,d,Ci), (1)
它表示某个文档d在查询项(关键词或者词组)为kw的情况下属于类别Ci的权重或者可能性。用KWAC_Set(kw,d)表示文档d相对于项kw的所有可能的聚类类别的集合,本实施例应用了聚类类别权重值wti的如下条件:对于文档中的任意索引关键词kw∈d,
类别权重的最简单情况是KWAC_Set(kw,d)中各个类别Ci的权重相同(即等可能性),取值为KWAC_Set(kw,d)中类别总数的倒数:
对于聚类类别Ci为关键词的情形,可以根据在文档d中Ci与索引关键词kw的共现(搭配)频度fi来确定其权重值wti。一种具体的方法如下:
与共现频度相关的其它统计量(例如互信息等)也可以被作为确定聚类类别权重的依据。
对于聚类类别Ci为关键词的情形,上述类别权重wti还可根据关键词Ci在文档d中出现的位置、文档格式、以及关键词Ci与索引关键词kw的相对位置关系等信息,按照文档检索中的惯常方式进行调整。例如,如果关键词Ci与kw是邻接在一起的,或者二者共同出现在文档标题中,则权重wti被加大。
文档相对于其所包含的关键词的聚类类别以及类别权重的确定都是与查询过程无关的,因而可以在离线的过程中进行。
-
聚类类别信息的组织与存放:
本发明的关键词相关聚类信息是一个索引项与文档的二元组的集合,即一个(term,doc_id)配对的集合。该集合可组织成为一张二维表的数据结构,存储在文件中。它也可以作为一组索引项-文档列表(term,doc_id_list)的集合。特别是,它可以作为一个项-文档列表的倒排表数据结构。该倒排表数据可单独存放。显然,如果在文档集的倒排索引中扩充一个数据域,则可以进一步将此KWAC信息存放在倒排文档索引中,或者保存在与倒排索引相对应的链表中。
附图2是本发明的一种带有关键词相关聚类信息的倒排索引数据结构。索引词典中的每个索引项kw被转化成为一个整数word_id,并对应一个指向该索引项的倒排表(inverted list)的指针ptr,在此倒排表中存储了包含该索引项的各个文档的编号doc_id以及该索引项在文档中出现的各个位置的列表pos_list。附图2中的灰色阴影部分是本发明的作为倒排表形式的聚类类别信息。在文档倒排索引中为每个文档增加了一个指针KWAC_rec_ptr,指向该文档(doc_id)相对于当前的索引项(word_id)的所有可能的KWAC类别C1,2,...,m及其对应的权重wt1,2,...,m的记录列表。
在本发明的实施例中,对于KWAC类别是关键词的情况,上述聚类记录中的类别Ci是作为类别的关键词的word_id。
另外,在关键词类别的记录中还设置了一个邻接关系的指示符prox,用于指示在文档d中索引项kw与关键词Ci是否邻接在一起、以及如何邻接:如果Ci是出现在kw的右边,则为右邻接;Ci是出现在kw的左边,则为左邻接。可以分别用prox=0,prox=+1和prox=-1来表示不邻接、右邻接和左邻接这三种情况。
-
搜索结果文档的聚类类别的确定:
在步骤105,对于由单个关键词kw组成的查询Query={kw},搜索结果中的任一文档d被直接放入到它相对于索引项kw的各个KWAC类别中,即文档d出现在所有类别Ci∈KWAC_Set(kw,d)之中。由此完成对搜索结果中的各个文档的分组。
对于聚类类别Ci为关键词的情形,上述搜索结果中的文档聚类的名称按照如下方法确定:
■如果文档d相对于kw的右邻接KWAC类别是Ci(即proxi=+1),则该类别的名称以词串“kw Ci”表示;
■如果文档d相对于kw的左邻接KWAC类别是Ci(即proxi=-1),则该类别的名称以词串“Ci kw”表示;
■否则(proxi=-1)该类别的名称以“kw,Ci”表示。
相对于包含多个关键词的查询Query={kw1,kw2,...,kwQ},某个文档d的所有可能的聚类类别的集合是该文档相对于各个查询关键词的类别集合的并集,即
搜索结果中的文档的类别确定方式与单关键词查询的搜索结果分组过程类似,即搜索结果中的文档被逐一放入各个类别Ci∈KWAC_Set(Query,d)之中。
对于聚类类别Ci为关键词的情形,上述搜索结果中的文档聚类的名称按照如下方法确定:
如果多关键词查询Query不要求其中的各个关键词有位置邻接关系(例如,各个关键词之间仅仅是“与(AND)”、“或(OR)”等逻辑关系),则类别名称的确定方式与单关键词查询的情况类似;
如果多关键词查询Query要求其某些关键词之间需要满足邻接关系,例如设Query包含一个词组“AB”(关键词A与B邻接出现),则对包含了词组“AB”的搜索结果中的各个文档d的分组按照如下方式命名:
■如果文档d相对于B的右邻接KWAC类别是C1(prox=+1),则d被归入C1,且该类别名称以词串“AB C1”表示;
■如果文档d相对于A的左邻接KWAC类别是C2(prox=-1),则d被归入C2,且该类别名称以词串“C2AB”表示;
■如果上述两种情况同时出现,则d被同时放在上述两个类别C1和C2中,且类别名称分别如上所述;
■如果上述两种情况都不出现(prox=O),则d被同时放在上述两个类别C1和C2中,且类别名称为“AB,C1”和“C2,AB”。
例如,对于Query=“search engine(搜索引擎)”(设按索引词典被分解为“search(搜索)”和“enginen(引擎)”两个关键词),如果文档d相对于“engine”的右邻接KWAC类别是“marketing(营销)”,则d被放入名称为“search engine marketing”的类别中;如果文档d相对于“search”的左邻接KWAC类别是“internet(互联网)”,则d被放入名称为“internetsearch engine”的类别中。如果两种情况同时成立,则d被同时放入名称为“search enginemarketing”和“internet search engine”的两个类别中。
包含了词组“A...B”的查询以相同的方式处理。
对于要求部分关键词邻接、其它关键词不邻接的多关键词查询,例如Query={“AB”,C,D},则首先按照上述方法处理不邻接的关键词,然后再处理其中要求邻接的关键词。
-
单个类别中文档级别的计算:
通常,系统所维护的文档集中的各个文档di被赋予一个全局级别,表示该文档在文档集合中的重要性。在文档与查询的相关程度的判断过程中,根据相关程度也可赋予文档一个相对于查询的相对级别,表示该文档在搜索结果中的重要性,并可用于对搜索结果中的文档进行排序。下面用DocRank(di)统一表示文档di的全局或者相对级别。
当搜索结果中(未聚类的)原级别为DocRank(d)的文档d被放入到类别Ci中之后,文档d相对于同一类中的其它文档的级别的差别有可能发生变化。本发明提供了对于聚类之后的搜索结果中的文档重新计算文档级别的方法。本发明的实施例按照下面的公式来确定文档d在类别Ci中的文档级别:
其中
ClusteredDocRank(d,kw,Ci)
=DocRank(d)×KWAC_Weight(kw,d,Ci) (7)
×f(KWAC_Freq(Query,d,Ci))×g(Mutual_KWAC(Query,d)).
在上述公式中,KWAC_Weight(kw,d,Ci)是聚类类别记录KWAC(kw,d)中的文档d属于类别Ci的权重wti;
KWAC_Freq(Query,d,Ci)是Ci在各个关键词kw∈Query所对应的集合KWAC_Set(kw,d)中出现的次数;函数f(x)可选为f(x)=x或f(x)=2x两种典型形式之一;
函数Mutual_KWAC(Query,d)是Query中各个关键词kw在文档d的KWAC记录中互为KWAC类别的关键词的个数;函数g(x)可选为g(x)∝x的形式。
根据上述公式,对于多关键词查询,如果某个聚类类别Ci同时是文档d相对于查询中多个关键词的聚类类别,则在当前查询下该类别Ci对于文档d的重要性将增大,其增大倍数为f(KWAC_Freq(Query,d,Ci))。相对地,如果某个类别Ci仅仅出现在多关键词查询的少数(例如一个)关键词的聚类类别集合中,则该类别Ci的重要性较低。
另外,如果多关键词查询Query中有多个关键词对于某个文档d互为聚类类别,即对于某两个互为聚类类别的关键词kwi,j∈Query,有
kwi∈KWAC_Set(kwj,d)和kwj∈KWAC_Set(kwi,d).
则文档d相对于该查询Query具有更大的重要性。因此文档d(在所有聚类类别Ci中)将具有更大的文档级别,其增大倍数为g(Mutual_KWAC(Query,d))。此情况的一个特例就是:当一个具有多个关键词的查询的所有n个关键词对于某个文档d而言互为聚类类别时,则d的文档级别增大g(n)倍。
在任一类别Ci中的各个文档可按照文档在这个类别中的上述文档级别ClusteredDocRank(d,Ci)排序。
-
聚类类别的级别计算:
将搜索结果中的文档分组到各个KWAC类别之后,这些类别的级别就可以由其所包含的文档的级别来计算。在本发明的实施例中,根据用户选项或者系统设定,搜索结果聚类中的一个KWAC类别的级别(或权重)是其包含的所有(或者前N个)文档的级别值的总和,或者是所有(或者前N个)文档级别的平均值。
搜索结果聚类中得到的各个KWAC类别Ci按照其级别被排序。在将聚类后的搜索结果返回给用户时,具有较高级别的前若干个类别被优先提交给用户。而在每个KWAC类别Ci中,文档也按照其文档级别DocRank排序。因此可以把具有高级别的聚类类别中的具有较高文档级别的文档优先提交给用户。
对于单关键词或多关键词查询Query,聚类Ci的权重可按照如下两种方法之一来计算,分别为聚类Ci中的文档级别总和与文档级别平均值:
其中NDocs(Ci)是Ci中的文档总数。
ClassRank1(Ci)表示整个Ci类别的重要性(即指示该类别在总体上是否值得被用户先看到),而ClassRank2(Ci)则表示类别Ci中的文档的平均重要性(指示其中的各个文档是否值得看)。在各个类别中的文档数目差别很大时,ClassRank1是较好的指标,而在各个类别中的文档数目比较接近(或者被强制一致)时,ClassRank2是较好的指标。
经过聚类之后的搜索结果中的各个聚类类别Ci即可按照其级别排序。
-
新的文档级别:
利用文档的KWAC信息,还可以对文档集或者搜索结果中的文档重新评级(Ranking),计算新的文档级别。这提供了一种根据关键词相关聚类信息进行文档评级(DocumentRanking)的方法。
对于级别为DocRank(di)的文档,利用公式(7)可引入一个相对于查询Query的新的文档级别:
在方程(2)的条件下,对于f(x)=1和g(x)=1/Q的情形(Q是Query中关键词的个数),NewDocRank与原来的DocRank是一致的。
NewDocRank(d|Query)的一个用途是:当用户选择不对搜索结果中的文档进行聚类、当仍然考虑聚类对文档排序的作用时,返回给用户的搜索结果中的文档按照新的文档级别被排序。
附图3是本发明的一个用于网页文档的搜索结果聚类系统的输出样例。用户输入的查询关键词301是“search engine(搜索引擎)”。系统使用预先确定的KWAC类别信息(以关键词作为KWAC类别)将包含了该查询的所有关键词的网页聚类成多个类别,并按照类别的ClassRank1级别(由公式8定义)排序。每个聚类Ci中的文档d又按照其文档级别ClusteredDocRank(d,Ci)(由公式6定义)排序。返回给用户的搜索结果中,具有最高级别的4个聚类302被首先提交给用户,其类别名称分别为“search engine marketing”,“search engine optimization”,“search engine submission”等,并且每个聚类中具有最高级别的前3个文档被首先列出。
在本发明实施例的技术细节说明中,本说明书使用了到排索引方式的文档检索系统作为示例。但是,本领域技术人员可以清楚地知道本发明的应用范围并不局限于这种类型的系统。
本发明的技术方案还可以用其它不同于上述实施例的方式实现。所附的权利要求书涵盖了对以上所描述的各要素的诸多变形与替换。
Claims (10)
1.一种搜索结果聚类的方法,所述搜索结果是作为对某个搜索请求的响应、从一个被索引的文档集合中根据搜索请求与被索引文档的相关程度而被选取的一批文档,所述搜索请求来自使用计算机或者计算机网络的用户,其特征在于它包括如下步骤:
a.预先记录被索引文档相对于其所包含的某个或者某几个关键词的一个或多个类别;
b.根据预先记录的文档相对于包含在搜索请求中的某个或者某几个关键词的类别,对所述搜索结果中的文档分组。
2.根据权利要求1所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别为文档分类标记。
3.根据权利要求1所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别是关键词或者词组。
4.根据权利要求3所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别是在文档中与索引关键词有固定搭配关系的关键词,或者是在一个预先确定的词组库中与索引关键词有固定搭配关系的关键词,或者是出现在文档标题中的关键词,或者是出现在指向当前文档的其它文档中的超链接所包含的链接文本中的关键词。
5.根据权利要求1至4之一所述的搜索结果聚类的方法,其特征在于:为每个类别设置一个权重值,表示此类别与所对应的文档的关联程度。
6.根据权利要求1至5之一所述的搜索结果聚类的方法,其特征在于:所述的文档相对于关键词的类别的集合为一个索引项-文档列表的倒排表数据结构,独立存放或者与倒排文档索引结合在一起。
7.根据权利要求1至6之一所述的搜索结果聚类的方法,其特征在于:对于由单个关键词组成的查询,搜索结果中的任一文档被直接放入到该文档相对于查询关键词的各个类别中;而对于包含多个关键词的查询,搜索结果中的任一文档的聚类类别的集合是该文档相对于各个查询关键词的类别集合的并集,且该文档被分别放入此并集中的各个类别之中。
8.根据权利要求1至7之一所述的搜索结果聚类的方法,其特征在于:聚类之后的文档在某一类别中的文档级别由聚类之前的文档级别和该文档相对于此类别的权重而确定,或者由聚类之前的文档级别和该类别在各个查询关键词所对应的聚类类别集合中出现的次数而确定,或者由聚类之前的文档级别和查询中互为聚类类别的关键词的个数而确定。
9.根据权利要求1至8之一所述的搜索结果聚类的方法,其特征在于:所述聚类类别的级别由其所包含的文档的级别来计算,是其包含的所有或者前若干个文档的级别的总和,或者是其包含的所有或者前若干个文档的级别的平均值。
10.根据权利要求9所述的搜索结果聚类的方法,其特征在于:经过聚类之后的搜索结果中的各个聚类类别按照其级别排序,且具有较高级别的前若干个聚类被优先提交给用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100917727A CN1609859A (zh) | 2004-11-26 | 2004-11-26 | 搜索结果聚类的方法 |
US11/263,820 US20060117002A1 (en) | 2004-11-26 | 2005-11-01 | Method for search result clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100917727A CN1609859A (zh) | 2004-11-26 | 2004-11-26 | 搜索结果聚类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1609859A true CN1609859A (zh) | 2005-04-27 |
Family
ID=34766309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004100917727A Pending CN1609859A (zh) | 2004-11-26 | 2004-11-26 | 搜索结果聚类的方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060117002A1 (zh) |
CN (1) | CN1609859A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100428233C (zh) * | 2005-06-15 | 2008-10-22 | 国际商业机器公司 | 用于搜索的方法和设备 |
CN100433007C (zh) * | 2005-10-26 | 2008-11-12 | 孙斌 | 提供搜索结果的方法 |
CN100504866C (zh) * | 2006-06-30 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种综合搜索结果的排序系统及方法 |
CN100594495C (zh) * | 2005-11-17 | 2010-03-17 | 国际商业机器公司 | 使用文本分析从源文档中识别相关文档集合的系统和方法 |
CN101119326B (zh) * | 2006-08-04 | 2010-07-28 | 腾讯科技(深圳)有限公司 | 一种即时通信会话记录的管理方法及装置 |
CN101916164A (zh) * | 2010-08-11 | 2010-12-15 | 中兴通讯股份有限公司 | 一种移动终端及其实现的文件浏览方法 |
CN101963974A (zh) * | 2010-09-03 | 2011-02-02 | 深圳创维数字技术股份有限公司 | 一种epg栏目生成方法 |
CN101179472B (zh) * | 2007-05-31 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种网络资源搜索方法及搜索系统 |
CN101355457B (zh) * | 2008-06-19 | 2011-07-06 | 腾讯科技(北京)有限公司 | 测试方法及测试设备 |
CN102124439A (zh) * | 2008-06-13 | 2011-07-13 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN102222072A (zh) * | 2010-04-19 | 2011-10-19 | 腾讯科技(深圳)有限公司 | 一种信息分类的方法和装置 |
CN101344892B (zh) * | 2007-07-12 | 2011-12-07 | 株式会社理光 | 信息处理设备及信息处理方法 |
CN101694670B (zh) * | 2009-10-20 | 2012-07-04 | 北京航空航天大学 | 一种基于公共子串的中文Web文档在线聚类方法 |
CN102609475A (zh) * | 2012-01-19 | 2012-07-25 | 浙江省公众信息产业有限公司 | 微博内容监测方法及监测系统 |
CN101739429B (zh) * | 2008-11-18 | 2012-08-22 | 中国移动通信集团公司 | 一种优化聚类搜索结果的方法及其装置 |
CN102122296B (zh) * | 2008-12-05 | 2012-09-12 | 北京大学 | 检索结果聚类方法及装置 |
CN101055585B (zh) * | 2006-04-13 | 2013-01-02 | Lg电子株式会社 | 文档聚类系统和方法 |
CN102999562A (zh) * | 2011-11-02 | 2013-03-27 | 微软公司 | 路由查询结果 |
CN103530318A (zh) * | 2007-01-05 | 2014-01-22 | 雅虎公司 | 聚类的搜索处理 |
CN103678302A (zh) * | 2012-08-30 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种文档结构化组织方法及装置 |
CN103995849A (zh) * | 2014-05-07 | 2014-08-20 | 中国科学院计算技术研究所 | 一种事件跟踪方法及系统 |
CN104111990A (zh) * | 2014-07-02 | 2014-10-22 | 百度在线网络技术(北京)有限公司 | 搜索结果卡片的展现方法和装置 |
CN104123279A (zh) * | 2013-04-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
CN104838375A (zh) * | 2012-11-13 | 2015-08-12 | 微软技术许可有限责任公司 | 搜索结果基于意图的呈现 |
CN104951484A (zh) * | 2014-08-28 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 搜索结果的处理方法和装置 |
US9177022B2 (en) | 2011-11-02 | 2015-11-03 | Microsoft Technology Licensing, Llc | User pipeline configuration for rule-based query transformation, generation and result display |
CN105045845A (zh) * | 2015-07-02 | 2015-11-11 | 浪潮(北京)电子信息产业有限公司 | 一种文档分类管理方法及装置 |
US9189563B2 (en) | 2011-11-02 | 2015-11-17 | Microsoft Technology Licensing, Llc | Inheritance of rules across hierarchical levels |
CN105205045A (zh) * | 2015-09-21 | 2015-12-30 | 上海智臻智能网络科技股份有限公司 | 一种用于智能交互的语义模型方法 |
CN107180068A (zh) * | 2016-03-09 | 2017-09-19 | 富士通株式会社 | 检索控制程序、检索控制设备和检索控制方法 |
CN107491512A (zh) * | 2017-08-07 | 2017-12-19 | 上海斐讯数据通信技术有限公司 | 一种基于图片识别进行内容搜索的方法及系统 |
CN110083679A (zh) * | 2019-03-18 | 2019-08-02 | 北京三快在线科技有限公司 | 搜索请求的处理方法、装置、电子设备和存储介质 |
WO2020052067A1 (zh) * | 2018-09-12 | 2020-03-19 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
Families Citing this family (229)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8713025B2 (en) * | 2005-03-31 | 2014-04-29 | Square Halt Solutions, Limited Liability Company | Complete context search system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7693819B2 (en) * | 2005-12-29 | 2010-04-06 | Sap Ag | Database access system and method for transferring portions of an ordered record set responsive to multiple requests |
US7644373B2 (en) * | 2006-01-23 | 2010-01-05 | Microsoft Corporation | User interface for viewing clusters of images |
US7877392B2 (en) * | 2006-03-01 | 2011-01-25 | Covario, Inc. | Centralized web-based software solutions for search engine optimization |
US7707161B2 (en) * | 2006-07-18 | 2010-04-27 | Vulcan Labs Llc | Method and system for creating a concept-object database |
US9323867B2 (en) | 2006-08-03 | 2016-04-26 | Microsoft Technology Licensing, Llc | Search tool using multiple different search engine types across different data sets |
US7783589B2 (en) * | 2006-08-04 | 2010-08-24 | Apple Inc. | Inverted index processing |
US7698328B2 (en) * | 2006-08-11 | 2010-04-13 | Apple Inc. | User-directed search refinement |
US7856350B2 (en) * | 2006-08-11 | 2010-12-21 | Microsoft Corporation | Reranking QA answers using language modeling |
US8943039B1 (en) * | 2006-08-25 | 2015-01-27 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US8838560B2 (en) * | 2006-08-25 | 2014-09-16 | Covario, Inc. | System and method for measuring the effectiveness of an on-line advertisement campaign |
US8972379B1 (en) | 2006-08-25 | 2015-03-03 | Riosoft Holdings, Inc. | Centralized web-based software solution for search engine optimization |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7974976B2 (en) * | 2006-11-09 | 2011-07-05 | Yahoo! Inc. | Deriving user intent from a user query |
US7548912B2 (en) * | 2006-11-13 | 2009-06-16 | Microsoft Corporation | Simplified search interface for querying a relational database |
US20080154878A1 (en) * | 2006-12-20 | 2008-06-26 | Rose Daniel E | Diversifying a set of items |
US8108390B2 (en) * | 2006-12-21 | 2012-01-31 | Yahoo! Inc. | System for targeting data to sites referenced on a page |
US20080155426A1 (en) * | 2006-12-21 | 2008-06-26 | Microsoft Corporation | Visualization and navigation of search results |
US7636713B2 (en) * | 2007-01-31 | 2009-12-22 | Yahoo! Inc. | Using activation paths to cluster proximity query results |
US7912847B2 (en) * | 2007-02-20 | 2011-03-22 | Wright State University | Comparative web search system and method |
US7739220B2 (en) * | 2007-02-27 | 2010-06-15 | Microsoft Corporation | Context snippet generation for book search system |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2008257655A (ja) * | 2007-04-09 | 2008-10-23 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
US20080270228A1 (en) * | 2007-04-24 | 2008-10-30 | Yahoo! Inc. | System for displaying advertisements associated with search results |
US9396261B2 (en) * | 2007-04-25 | 2016-07-19 | Yahoo! Inc. | System for serving data that matches content related to a search results page |
US20080306949A1 (en) * | 2007-06-08 | 2008-12-11 | John Martin Hoernkvist | Inverted index processing |
US7720860B2 (en) * | 2007-06-08 | 2010-05-18 | Apple Inc. | Query result iteration |
US8019760B2 (en) * | 2007-07-09 | 2011-09-13 | Vivisimo, Inc. | Clustering system and method |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US20090094210A1 (en) | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Intelligently sorted search results |
US20090094211A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Implementing an expanded search and providing expanded search results |
US8145660B2 (en) * | 2007-10-05 | 2012-03-27 | Fujitsu Limited | Implementing an expanded search and providing expanded search results |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8046361B2 (en) * | 2008-04-18 | 2011-10-25 | Yahoo! Inc. | System and method for classifying tags of content using a hyperlinked corpus of classified web pages |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20090327223A1 (en) * | 2008-06-26 | 2009-12-31 | Microsoft Corporation | Query-driven web portals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20100131496A1 (en) * | 2008-11-26 | 2010-05-27 | Yahoo! Inc. | Predictive indexing for fast search |
US8326835B1 (en) * | 2008-12-02 | 2012-12-04 | Adobe Systems Incorporated | Context-sensitive pagination as a function of table sort order |
US20100145923A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Relaxed filter set |
US8396742B1 (en) | 2008-12-05 | 2013-03-12 | Covario, Inc. | System and method for optimizing paid search advertising campaigns based on natural search traffic |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8458171B2 (en) * | 2009-01-30 | 2013-06-04 | Google Inc. | Identifying query aspects |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8620900B2 (en) * | 2009-02-09 | 2013-12-31 | The Hong Kong Polytechnic University | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
DE102010029091B4 (de) * | 2009-05-21 | 2015-08-20 | Koh Young Technology Inc. | Formmessgerät und -verfahren |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8533202B2 (en) | 2009-07-07 | 2013-09-10 | Yahoo! Inc. | Entropy-based mixing and personalization |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8977540B2 (en) * | 2010-02-03 | 2015-03-10 | Syed Yasin | Self-learning methods for automatically generating a summary of a document, knowledge extraction and contextual mapping |
US8260664B2 (en) * | 2010-02-05 | 2012-09-04 | Microsoft Corporation | Semantic advertising selection from lateral concepts and topics |
US8150859B2 (en) * | 2010-02-05 | 2012-04-03 | Microsoft Corporation | Semantic table of contents for search results |
US8903794B2 (en) * | 2010-02-05 | 2014-12-02 | Microsoft Corporation | Generating and presenting lateral concepts |
US8983989B2 (en) * | 2010-02-05 | 2015-03-17 | Microsoft Technology Licensing, Llc | Contextual queries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5803902B2 (ja) * | 2010-03-12 | 2015-11-04 | 日本電気株式会社 | 関連情報出力装置、関連情報出力方法および関連情報出力プログラム |
US20110231395A1 (en) * | 2010-03-19 | 2011-09-22 | Microsoft Corporation | Presenting answers |
CN102236663B (zh) | 2010-04-30 | 2014-04-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9443008B2 (en) * | 2010-07-14 | 2016-09-13 | Yahoo! Inc. | Clustering of search results |
US9020922B2 (en) | 2010-08-10 | 2015-04-28 | Brightedge Technologies, Inc. | Search engine optimization at scale |
US20120047172A1 (en) * | 2010-08-23 | 2012-02-23 | Google Inc. | Parallel document mining |
US9240020B2 (en) | 2010-08-24 | 2016-01-19 | Yahoo! Inc. | Method of recommending content via social signals |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US8489604B1 (en) * | 2010-10-26 | 2013-07-16 | Google Inc. | Automated resource selection process evaluation |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120284275A1 (en) * | 2011-05-02 | 2012-11-08 | Srinivas Vadrevu | Utilizing offline clusters for realtime clustering of search results |
US8667007B2 (en) | 2011-05-26 | 2014-03-04 | International Business Machines Corporation | Hybrid and iterative keyword and category search technique |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8849811B2 (en) | 2011-06-29 | 2014-09-30 | International Business Machines Corporation | Enhancing cluster analysis using document metadata |
US9026519B2 (en) | 2011-08-09 | 2015-05-05 | Microsoft Technology Licensing, Llc | Clustering web pages on a search engine results page |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9244919B2 (en) * | 2013-02-19 | 2016-01-26 | Google Inc. | Organizing books by series |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US10157175B2 (en) | 2013-03-15 | 2018-12-18 | International Business Machines Corporation | Business intelligence data models with concept identification using language-specific clues |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9760620B2 (en) * | 2013-07-23 | 2017-09-12 | Salesforce.Com, Inc. | Confidently adding snippets of search results to clusters of objects |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9589050B2 (en) | 2014-04-07 | 2017-03-07 | International Business Machines Corporation | Semantic context based keyword search techniques |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10698924B2 (en) | 2014-05-22 | 2020-06-30 | International Business Machines Corporation | Generating partitioned hierarchical groups based on data sets for business intelligence data models |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN104091058A (zh) * | 2014-06-27 | 2014-10-08 | 北京君和信达科技有限公司 | 一种安检结论提交方法和装置 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10002179B2 (en) | 2015-01-30 | 2018-06-19 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
CN104679848B (zh) * | 2015-02-13 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US10229143B2 (en) | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US11281639B2 (en) * | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US9984116B2 (en) * | 2015-08-28 | 2018-05-29 | International Business Machines Corporation | Automated management of natural language queries in enterprise business intelligence analytics |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10289740B2 (en) * | 2015-09-24 | 2019-05-14 | Searchmetrics Gmbh | Computer systems to outline search content and related methods therefor |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108897817B (zh) * | 2018-06-20 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 数据存储方法、检测方法及系统、存储介质和计算机设备 |
US11487823B2 (en) * | 2018-11-28 | 2022-11-01 | Sap Se | Relevance of search results |
US10909180B2 (en) * | 2019-01-11 | 2021-02-02 | International Business Machines Corporation | Dynamic query processing and document retrieval |
US20230102594A1 (en) * | 2021-09-28 | 2023-03-30 | International Business Machines Corporation | Code page tracking and use for indexing and searching |
KR20230057114A (ko) * | 2021-10-21 | 2023-04-28 | 삼성전자주식회사 | 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치 |
US20230252049A1 (en) * | 2022-02-08 | 2023-08-10 | Maplebear Inc. (Dba Instacart) | Clustering data describing interactions performed after receipt of a query based on similarity between embeddings for different queries |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6876997B1 (en) * | 2000-05-22 | 2005-04-05 | Overture Services, Inc. | Method and apparatus for indentifying related searches in a database search system |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7191175B2 (en) * | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
-
2004
- 2004-11-26 CN CNA2004100917727A patent/CN1609859A/zh active Pending
-
2005
- 2005-11-01 US US11/263,820 patent/US20060117002A1/en not_active Abandoned
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100428233C (zh) * | 2005-06-15 | 2008-10-22 | 国际商业机器公司 | 用于搜索的方法和设备 |
CN100433007C (zh) * | 2005-10-26 | 2008-11-12 | 孙斌 | 提供搜索结果的方法 |
CN100594495C (zh) * | 2005-11-17 | 2010-03-17 | 国际商业机器公司 | 使用文本分析从源文档中识别相关文档集合的系统和方法 |
CN101055585B (zh) * | 2006-04-13 | 2013-01-02 | Lg电子株式会社 | 文档聚类系统和方法 |
CN100504866C (zh) * | 2006-06-30 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种综合搜索结果的排序系统及方法 |
CN101119326B (zh) * | 2006-08-04 | 2010-07-28 | 腾讯科技(深圳)有限公司 | 一种即时通信会话记录的管理方法及装置 |
CN103530318B (zh) * | 2007-01-05 | 2017-01-04 | 飞扬管理有限公司 | 使用与客户端设备通信的网络设备搜索数据的方法 |
CN103530318A (zh) * | 2007-01-05 | 2014-01-22 | 雅虎公司 | 聚类的搜索处理 |
CN101179472B (zh) * | 2007-05-31 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种网络资源搜索方法及搜索系统 |
CN101344892B (zh) * | 2007-07-12 | 2011-12-07 | 株式会社理光 | 信息处理设备及信息处理方法 |
CN104834684A (zh) * | 2008-06-13 | 2015-08-12 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN102124439A (zh) * | 2008-06-13 | 2011-07-13 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN101355457B (zh) * | 2008-06-19 | 2011-07-06 | 腾讯科技(北京)有限公司 | 测试方法及测试设备 |
CN101739429B (zh) * | 2008-11-18 | 2012-08-22 | 中国移动通信集团公司 | 一种优化聚类搜索结果的方法及其装置 |
CN102122296B (zh) * | 2008-12-05 | 2012-09-12 | 北京大学 | 检索结果聚类方法及装置 |
CN101694670B (zh) * | 2009-10-20 | 2012-07-04 | 北京航空航天大学 | 一种基于公共子串的中文Web文档在线聚类方法 |
CN102222072A (zh) * | 2010-04-19 | 2011-10-19 | 腾讯科技(深圳)有限公司 | 一种信息分类的方法和装置 |
CN101916164A (zh) * | 2010-08-11 | 2010-12-15 | 中兴通讯股份有限公司 | 一种移动终端及其实现的文件浏览方法 |
CN101963974A (zh) * | 2010-09-03 | 2011-02-02 | 深圳创维数字技术股份有限公司 | 一种epg栏目生成方法 |
US9189563B2 (en) | 2011-11-02 | 2015-11-17 | Microsoft Technology Licensing, Llc | Inheritance of rules across hierarchical levels |
US10366115B2 (en) | 2011-11-02 | 2019-07-30 | Microsoft Technology Licensing, Llc | Routing query results |
CN102999562B (zh) * | 2011-11-02 | 2017-08-08 | 微软技术许可有限责任公司 | 路由查询结果 |
US9558274B2 (en) | 2011-11-02 | 2017-01-31 | Microsoft Technology Licensing, Llc | Routing query results |
US10409897B2 (en) | 2011-11-02 | 2019-09-10 | Microsoft Technology Licensing, Llc | Inheritance of rules across hierarchical level |
US9177022B2 (en) | 2011-11-02 | 2015-11-03 | Microsoft Technology Licensing, Llc | User pipeline configuration for rule-based query transformation, generation and result display |
US9792264B2 (en) | 2011-11-02 | 2017-10-17 | Microsoft Technology Licensing, Llc | Inheritance of rules across hierarchical levels |
CN102999562A (zh) * | 2011-11-02 | 2013-03-27 | 微软公司 | 路由查询结果 |
CN102609475B (zh) * | 2012-01-19 | 2016-06-15 | 浙江省公众信息产业有限公司 | 微博内容监测方法及监测系统 |
CN102609475A (zh) * | 2012-01-19 | 2012-07-25 | 浙江省公众信息产业有限公司 | 微博内容监测方法及监测系统 |
CN103678302B (zh) * | 2012-08-30 | 2018-11-09 | 北京百度网讯科技有限公司 | 一种文档结构化组织方法及装置 |
CN103678302A (zh) * | 2012-08-30 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种文档结构化组织方法及装置 |
CN104838375B (zh) * | 2012-11-13 | 2018-06-22 | 微软技术许可有限责任公司 | 搜索结果基于意图的呈现 |
CN104838375A (zh) * | 2012-11-13 | 2015-08-12 | 微软技术许可有限责任公司 | 搜索结果基于意图的呈现 |
CN104123279A (zh) * | 2013-04-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
CN104123279B (zh) * | 2013-04-24 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
CN103995849B (zh) * | 2014-05-07 | 2017-05-03 | 中国科学院计算技术研究所 | 一种事件跟踪方法及系统 |
CN103995849A (zh) * | 2014-05-07 | 2014-08-20 | 中国科学院计算技术研究所 | 一种事件跟踪方法及系统 |
CN104111990A (zh) * | 2014-07-02 | 2014-10-22 | 百度在线网络技术(北京)有限公司 | 搜索结果卡片的展现方法和装置 |
CN104951484A (zh) * | 2014-08-28 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 搜索结果的处理方法和装置 |
CN105045845A (zh) * | 2015-07-02 | 2015-11-11 | 浪潮(北京)电子信息产业有限公司 | 一种文档分类管理方法及装置 |
CN105045845B (zh) * | 2015-07-02 | 2018-07-31 | 浪潮(北京)电子信息产业有限公司 | 一种文档分类管理方法及装置 |
CN105205045A (zh) * | 2015-09-21 | 2015-12-30 | 上海智臻智能网络科技股份有限公司 | 一种用于智能交互的语义模型方法 |
CN107180068A (zh) * | 2016-03-09 | 2017-09-19 | 富士通株式会社 | 检索控制程序、检索控制设备和检索控制方法 |
CN107491512A (zh) * | 2017-08-07 | 2017-12-19 | 上海斐讯数据通信技术有限公司 | 一种基于图片识别进行内容搜索的方法及系统 |
WO2020052067A1 (zh) * | 2018-09-12 | 2020-03-19 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
CN110083679A (zh) * | 2019-03-18 | 2019-08-02 | 北京三快在线科技有限公司 | 搜索请求的处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20060117002A1 (en) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1609859A (zh) | 搜索结果聚类的方法 | |
CN1096038C (zh) | 基于贝叶斯网络的用于文件检索的方法和设备 | |
US7788265B2 (en) | Taxonomy-based object classification | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
Paliwal et al. | Semantics-based automated service discovery | |
CN1112647C (zh) | 响应查询以对文档集合中的文档进行分级的系统和方法 | |
US6944612B2 (en) | Structured contextual clustering method and system in a federated search engine | |
CN1750002A (zh) | 提供搜索结果的方法 | |
CN1873642A (zh) | 具有自动分类功能的搜索引擎 | |
US20080275859A1 (en) | Method and system for disambiguating informational objects | |
US20120197910A1 (en) | Method and system for performing classified document research | |
US20060253550A1 (en) | System and method for providing data for decision support | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
CN1614594A (zh) | Xml文档的聚类方法和系统 | |
CN1882943A (zh) | 使用超单元的搜索处理的系统和方法 | |
CN101055587A (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
CN101055585A (zh) | 文档聚类系统和方法 | |
CN1389811A (zh) | 搜索引擎的智能化搜索方法 | |
CN1858733A (zh) | 信息检索系统和检索方法 | |
CN1489089A (zh) | 文件检索系统和问题回答系统 | |
CN101076800A (zh) | 重复文档检测及表示功能 | |
CN1858737A (zh) | 一种数据搜索的方法和系统 | |
EP2359259A1 (en) | Method and system for semantic distance measurement | |
CN101079064A (zh) | 一种网页排序方法及装置 | |
CN1492367A (zh) | 询问应答系统及询问应答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |