CN102918532A - 在搜索结果排序中对垃圾的检测 - Google Patents
在搜索结果排序中对垃圾的检测 Download PDFInfo
- Publication number
- CN102918532A CN102918532A CN2011800270274A CN201180027027A CN102918532A CN 102918532 A CN102918532 A CN 102918532A CN 2011800270274 A CN2011800270274 A CN 2011800270274A CN 201180027027 A CN201180027027 A CN 201180027027A CN 102918532 A CN102918532 A CN 102918532A
- Authority
- CN
- China
- Prior art keywords
- document
- rubbish
- documents
- data
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Abstract
各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。垃圾简档提供了表示已知的垃圾文档的参考度量。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。
Description
背景
计算机用户具有不同的方式来定位可以本地或远程存储的信息。例如,搜索引擎可以被用来使用搜索查询来定位文档。搜索引擎尝试基于特定搜索查询来返回相关结果。
概述
提供本概述是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
各实施例被配置成使用垃圾简档来排序搜索结果。在各实施例中,可以计算诸如垃圾分数之类的排序特征,并且排序特征被排序算法用来响应于搜索查询来排序候选文档。在一个实施例中,创建索引,以促进响应于搜索查询对候选文档的标识。在各实施例中,通过消除或分开地索引当创建文档时可能已经被自动地插入的文档数据来优化索引。在各实施例中,可以通过确定一个文档和已知垃圾文档之间的相似度来进一步计算文档的垃圾分数。在各实施例中,垃圾分数基于该文档的直方图与已知垃圾文档的直方图的比较。直方图可以基于诸如词频和块大小之类的不同的垃圾变量。在各实施例中,可以基于计算出的垃圾分数,将搜索结果标识为可能的垃圾文档,不管搜索结果是否是基于垃圾分数来排序的。这样的作为可能的垃圾的标识可以向用户显示,并可以被维护为可搜索的参数。
通过阅读下面的“详细描述”并参考相关联的图形,这些及其他特点和优点将变得显而易见。应该理解,前面的一般性的说明和下面的详细描述只是说明性的,不会对如权利要求所述的本发明形成限制。
附图简述
图1示出了根据本发明的用于排序搜索结果的系统的实施例。
图2示出了根据本发明的用于排序搜索结果的方法。
图3示出了根据本发明的用于创建索引的方法。
图4示出了根据本发明的用于计算垃圾分数的方法。
图5示出了根据本发明的示例性操作环境。
详细描述
响应于搜索查询返回的垃圾文档会使用户有挫败感并浪费宝贵的时间和精力。在各实施例中,“垃圾”文档可以包括不怎么包含人可读取的文档数据的文档或除由用于创建文档的系统或模板自动地添加的数据以外包含很少文档数据的文档。例如,在企业环境中,垃圾文档可以是生成的,但是不曾添加有意义的内容的文档。这样的文档常常可以具有与特定搜索查询项非常匹配的标题,流行的类型的统一资源定位符(“URL”)和匹配的锚文本。因此,默认的搜索结果排序器可能没有办法区别这样的垃圾文档与具有有用信息的文档,并可能将这样的垃圾文档排序在很高的位置。
如上文简要描述的,此处所公开的各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。一般而言,垃圾简档提供了表示已知的垃圾文档的参考度量或模型。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档有效地提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。
本系统和方法,虽然不如此限制,可以在其中文档语料库通过一个或多个已知系统和/或模板创建的企业环境中特别有用。在各实施例中,本发明的搜索组件可以使用诸如MICROSOFT OFFICE SHAREPOINT系统之类的集成的服务器平台的功能,来计算、收集、存储,以及更新垃圾分数及可以被用作排序判断的一部分的其他排序特征。由于MICROSOFT OFFICE SHAREPOINT系统包括可以用来创建文档的标准的以及可自定义的“模板”,因此,垃圾简档的创建可以得到简化。
在一个实施例中,系统包括搜索组件,该搜索组件包括可以作为计算机可读取的存储介质的一部分被包括的搜索应用程序。搜索应用程序可以被用来部分地基于用户查询来提供搜索结果。例如,用户可以向搜索应用程序输入关键字或其他搜索参数,搜索应用程序可以使用搜索参数来标识候选文档。候选文档可以部分地根据使用垃圾简档被排序,并呈现给用户。
图1是包括索引、搜索,及其他功能的系统100的框图。例如,系统100可包括索引、搜索,及其他应用程序,它们可以被用来作为索引的数据结构的一部分来索引信息并使用已索引的数据结构,搜索相关数据。如下面所描述的,系统100的组件可以被用来至少部分地基于文档的一个或多个垃圾分数,来排序和返回搜索结果。用户可以使用诸如,例如,浏览器或搜索窗口之类的用户界面103,向搜索组件102提交查询。
如图1所示,系统100包括诸如,例如,可以被配置成部分地基于查询输入来返回结果的搜索引擎之类的搜索组件102。例如,搜索组件102可以操作以使用一个单词、多个单词、短语、及其他数据来定位候选文档。搜索组件102可以操作以定位信息,并可以被操作系统(OS)、文件系统、基于web的系统,或其他系统使用。搜索组件102也可以作为插件组件被包括,其中,搜索功能可以被主机系统或应用程序使用。如此处进一步描述的,搜索组件102还可以使用垃圾分数作为对候选文档进行排序的排序特征。
搜索组件102可以被配置成提供可以与文档相关联的搜索结果(例如,统一资源定位符(URL))。例如,当返回与本地文件、远程联网文件,本地和远程文件的组合等等相关联的搜索结果时,搜索组件102可以使用文本、属性信息,格式,和/或元数据。在一个实施例中,当提供搜索结果时,搜索组件102可以与文件系统、虚拟web、网络或其他信息源进行交互。
搜索组件102包括排序组件104,该排序组件104可以被配置成至少部分地基于排序算法106和一个或多个排序特征108,对搜索结果(诸如候选文档)进行排序。在一个实施例中,排序算法106可以被配置成提供可以被搜索组件102用于排序目的的多个其他变量。排序特征108可以被描述为当标识搜索结果的相关性时可以使用的基本输入或原始数字。排序特征108可以被收集、存储,和维护在数据库组件110中。
可另选地,诸如垃圾分数之类的排序特征108可以被存储和维护在专用存储器中,包括本地、远程,及其他存储介质。排序特征108中的一个或多个可以被输入到排序算法106,而排序算法106可以操作以作为排序判断的一部分来对搜索结果进行排序。如下面所描述的,在一个实施例中,排序组件104可以作为排序判断的一部分,使用一个或多个排序特征108。
相应地,当作为排序判断的一部分使用排序特征108中的一个或多个时,搜索组件102可以使用排序组件104以及相关联的排序算法106来提供搜索结果。可以基于相关性排序或某种其他排序,提供搜索结果。例如,搜索组件102可以至少部分地基于由排序组件104使用包括垃圾分数的排序特征108中的一个或多个提供的相关性判断,从最相关到最不相关,呈现搜索结果。
继续参考图1,系统100还包括可以被用来索引信息的索引组件112。索引组件112可以被用来索引和编目要存储在数据库组件110中的信息。此外,当针对多个完全不同的信息源进行索引时,索引组件102可以使用元数据、内容和/或其他文档数据。例如,索引组件112可以被用来构建将关键字及其他文档数据映射到文档(包括与文档相关联的URL)的倒排索引数据结构。
当根据由排序组件104所提供的排序返回相关搜索结果(诸如候选文档)时,搜索组件102可以使用被索引的信息。在一个实施例中,作为搜索的一部分,搜索组件102可以被配置成标识一组包含诸如例如关键字和短语之类的用户的查询信息的一部分或全部的候选文档。例如,查询信息可以位于文档的正文或元数据或与文档相关联的额外的元数据中,该额外的元数据可以被存储在其他文档或数据存储中(诸如例如锚文本)。如下面所描述的,如果整组搜索结果比较大,则并非返回该整组搜索结果,搜索组件102可以使用排序组件104来就相关性或某种其他准则而论对候选进行排序,并至少部分地基于排序判断,返回整组的一子集。然而,如果该组候选不太大,则搜索组件102可以操作以返回整个组。
在一个实施例中,排序组件104可以使用排序算法106来根据相关性,排序与特定查询相关联的候选文档。例如,排序算法106可以计算与候选搜索结果相关联的排序值,其中,较高的排序值对应于更为相关的候选。可以将包括一个或多个排序特征108(诸如垃圾分数)的多个特征输入到排序算法106中,然后,排序算法106可以计算允许搜索组件102按排序或某种其他准则来对候选进行排序的输出。搜索组件102可以使用排序算法106通过根据排序来限制候选组,来防止用户不得不检查整组候选,诸如例如企业URL集合。
在各实施例中,当返回候选文档时,搜索组件102计算并选择候选文档的一个或多个垃圾分数,作为相关性判断的一部分。候选文档可以具有零个或多个与它们相关联的垃圾分数,使用垃圾分数对候选文档进行排序可以包括平均化、忽略,或查找候选文档的一组垃圾分数之中的最大值或最小值。
在一个实施例中,搜索组件102可以使用诸如MICROSOFT OFFICESHAREPOINT系统之类的集成的服务器平台的功能,来计算、收集、存储,以及更新垃圾分数及可以被用作排序判断的一部分的其他排序特征108。服务器平台的功能可包括web内容管理、企业内容服务、企业搜索、共享的业务进程、商务智能服务,及其他服务。例如,如此处所描述的,使用MICROSOFT OFFICE SHAREPOINT系统创建的模板,可以被用来收集已知垃圾文档的参考信息。
如下面所描述的,作为相关性判断的一部分,可以使用两层神经网络。在一个实施例中,两层神经网络的实现包括培训阶段和排序阶段,作为使用两层神经网络的前向传播过程的一部分。在培训阶段,可以使用LambdaRank作为培训算法,并可以使用神经网络前向传播模型作为排序判断的一部分(参见Platt和Hofmann编著的(Ed.)神经信息处理系统中的进步19,2006年会议学报(MIT出版社,2006)中的C.Burges、R.Ragno、Q.V.Le所作的“Learning To Rank With Nonsmooth CostFunctions(学习用非平滑成本函数来排序)”,该文的全部内容通过参考结合于此)。例如,作为排序阶段的一部分,可以使用标准神经网络前向传播模型。可以将一个或多个垃圾分数用作排序特征108,并且结合两层神经网络作为基于用户查询来对候选文档排序的一部分。
在一个实施例中,排序组件104利用排序算法106,该排序算法106包括两层神经网络打分函数(此处还称为“打分函数”),该“打分函数”包括:
分数
其中,
其中,
hj是隐藏节点j的输出,
xi是来自输入节点i的输入值,诸如一个或多个排序特征输入,
w2j是向隐藏节点输出应用的权重,
wij是应用于隐藏节点j输入的值xi的权重,
tj是对于隐藏节点j的阈值,
以及,tanh是双曲正切函数:
在一个实施例中,上面可以使用具有与tanh函数类似的属性和特征的其他函数。在各实施例中,变量xi可以表示一个或多个垃圾分数或其他排序特征。作为相关性判断的一部分,在排序之前,可以使用λ排序培训算法来培训两层神经网络打分函数。此外,可以将新特征和参数添加到打分函数中,而不会显著影响培训准确性或培训速度。
当返回基于用户查询的搜索结果时,当进行相关性判断时,对于此实施例,可以输入一个或多个排序特征108,并由排序算法106,两层神经网络打分函数使用。在各实施例中,当作为返回基于用户查询的搜索结果的一部分作出相关性判断时,可以输入一个或多个垃圾分数,并由排序算法106用作排序特征108。
当排序和提供搜索结果时,也可以使用其他特征。在一个实施例中,点击距离(CD)、URL深度(UD)、文件类型或以前的类型(T)、语言或以前的语言(L),元数据、BM25F,和/或其他排序特征可以被用来排序和提供搜索结果。在2007年10月18日提交的标题为“Ranking andProviding Search Results Based in Part on a Number of Click ThroughParameters(部分地基于点进参数来排名和提供搜索结果)”的美国专利申请第11/874579号和2007年10月18提交的标题为“Enterprise RelevancyRanking Using a Neural Network(使用神经网络的企业相关性排名)”的美国专利申请第11/874844号中提供了关于使用两层神经网络来基于排序特征对搜索结果进行排序(包括对排序特征的转换和归一化)的更多细节,这两个申请的全部内容通过引用结合于此。在各实施例中,可以使用其他类型的排序算法106。例如,包括垃圾分数在内的这些(或额外的)排序特征108中的一个或多个也可以被用作由排序组件104所使用的线性排序判断或其他排序算法106的一部分。
图2示出了用于确定并使用垃圾分数作为排序特征以响应于搜索查询来对候选文档进行排序的方法200的实施例。在各实施例中,图2所示出的方法200的步骤以及此处的其他附图可以以不同的顺序执行,并且可以添加、消除,或组合步骤。图2的方法可以由诸如系统100之类的系统来执行。在步骤201中,创建语料库中的文档的索引。在各实施例中,索引是将文档数据映射到语料库内的文档的倒排索引。如此处所使用的,文档数据可以包括单词、数字、短语、文本、格式、元数据,及文档内的其他人可读取的和非人可读取的数据。另外,语料库可以是被爬取以创建索引的任何文档集合。如此处所使用的,文档包括文字处理文档、电子表格、网站、列表、文档库、web、演示文稿或其他文件。语料库可以通过特定网络(因特网、外部网,或其他网络),站点,或其他群组内的文件的集合来定义。在各实施例中,优选情况下,可以使用本系统和方法来标识使用特定模板来创建文档的语料库内的可能的垃圾文档。例如,MICROSOFTOFFICE SHAREPOINT系统包括标准文档模板,并准许用户来定义他们的MICROSOFT OFFICE SHAREPOINT环境特定的文档模板。
图3示出了用于在步骤201中创建索引的方法300的实施例,该方法300,在各实施例中,可以由系统的诸如索引组件112之类的索引组件来执行。在此实施例中,参考自动地生成的数据的词典,创建索引。在步骤301中,爬取文档语料库。在步骤302中,选择自动地生成的数据的词典。
在各实施例中,可以通过使用与语料库相关联的系统来创建空白文档,来创建自动地生成的数据的词典。如此处所使用的,“空白”意味着,当创建文档时,除由与语料库相关联的系统自动创建和插入在文档中的文档数据以外,实质上缺少文档数据。例如,MICROSOFT OFFICE SHAREPOINT系统准许用户定义特定文档库的模板,而文档库可以包括可以如此处所阐述的被索引,查询和排序的文档语料库。利用这样的模板创建的空白文档将包括由MICROSOFT OFFICE SHAREPOINT系统自动地生成的某些文档数据(诸如文本、格式、元数据等等)。然后,可以通过提取和编译空白文档中的文档数据来创建自动地生成的数据的词典。还可以通过检查语料库中的现有文档中的某些或全部,并标识对语料库中的相当大的比例的文档公共的文档数据,来创建或扩充词典。词典可以包括从空白文档中所提取的文档数据的内容和位置信息两者。
在各实施例中,可以为用于生成空白文档的不同的语料库,不同的模板,以及不同的系统创建自动地生成的数据的不同的词典。另外,可以通过准许用户指定要使用的特定空白文档,给用户(诸如管理员)提供创建要对于特定类型的文档使用的新词典的能力。例如,可以提供包括由诸如MICROSOFT OFFICE SHAREPOINT系统之类的特定系统所生成的预定义的模板的计算机可读存储介质。例如,一个这样的预定义的模板可以包括联系人管理模板,而第二这样的预定义的模板可以是销售领先管道化模板。为这些模板中的每一个自动地生成的数据的词典可以被编译并作为系统的一部分预先加载。然而,管理员可以使用系统来自定义现有模板或创建新自定义模板。在各实施例中,可以提示管理员(或系统可以自动地)使用这样的自定义模板来生成空白文档,并编译从这样的自定义模板自动地生成的数据的词典。如此,如下面所阐述的,在各实施例中,可以使用正在被索引的特定文档所特定的自动地生成的数据的词典。
在步骤302中,选择至少一个自动地生成的数据的词典。如上文所描述的,取决于语料库中的文档的类型,也可以有一个以上的词典可用于选择。在各实施例中,如果语料库中的所有文档是使用同一个系统并使用同一个模板创建的,那么,可以选择单个词典并将其用于语料库中的所有文档。可另选地,在各实施例中,语料库可以包括由完全不同的系统或使用不同的模板创建的文档,可以为不同的文档选择不同的词典。另外,在各实施例中,可以定义组合了使用完全不同的系统或跨语料库的模板创建的文档的内容和位置信息两者的单个词典。在各实施例中,所选一个或多个词典可以被视为垃圾简档的一部分。
在步骤304中,将爬取的文档的文档数据对照自动地生成的数据的所选一个或多个词典进行比较。在各实施例中,将每一个爬取的文档的文档数据对照为该文档选择的词典(或多个词典)进行比较,以确定什么文档信息可能是由用于创建该爬取的文档的系统(和/或模板)自动地生成的。例如,用于创建文档的系统所定义的模板可以在使用该模板创建的每个文档的标题中自动地包括单词“Task(任务)”。单词“Task”以及其在模板内的位置包括在为该文档选择的自动地生成的数据的词典中。在将文档与词典进行比较之后,文档的标题中的单词“Task”可以被确定为“匹配”所选词典中的对应的条目。如此处所使用的,“匹配”可以包括内容、位置或两者的准确的或显著的关联度。另外,在各实施例中,将文档数据匹配到自动地生成的数据的词典(或多个词典)可以被视为如这里所描述的计算垃圾分数。
在步骤306,描绘了匹配自动地生成的数据的所选词典的文档数据。在各实施例中,这样的匹配文档数据可以通过标记文档或索引中的匹配文档数据,与非匹配文档数据分开地索引匹配文档数据,忽略匹配文档数据并只索引非匹配文档数据,或通过其他方法来描绘。
考虑下列简单示例。虽然此示例是使用文本文档数据来提供的,但是,也可以使用任何文档数据(例如,元数据、格式,非人可读取的数据等等)。给定文本T0=“you know what it is”;T1=“what is it”;T2=“it is abird”,通常将创建下列完整的倒置文件索引(其中,一对数字指代文档编号(Tx)和单词位置)。例如,单词“bird”位于第三文档(T2),它是该文档中的第四单词(位置3):
"a":[(2,2)]
"bird":[(2,3)]
"is":[(0,4),(1,1),(2,1)]
"it":[(0,3),(1,2),(2,0)]
"know":[(0,1)]
"what":[(0,2),(1,0)]
"you":[(0,0)]
现在假设为所有三个文档选择了同一个词典,而所选词典包括位置1处的单词“is”(例如,因为使用用于创建文档0,1,和2的同一个系统和模板创建的空白文档在位置1处包含单词“is”)。在各实施例中,位置1处的单词“is”匹配文档1和2中的每一个中的文档数据。可以以多种方式来描绘该匹配文档数据。例如,在索引中可以忽略来自文档1和2的匹配文档数据。在此实施例中,上面的示例的索引将变为:
"a":[(2,2)]
"bird":[(2,3)]
"is":[(0,4)]
"it":[(0,3),(1,2),(2,0)]
"know":[(0,1)]
"what":[(0,2),(1,0)]
"you":[(0,0)]
如此,将响应于搜索查询被进行搜索的索引被最小化(用于更快的搜索),并更加聚焦于用户添加的内容(而并非由用于创建文档的系统或模板自动地添加的文档数据)。在其他实施例中,匹配文档数据可以被分开地索引,以便可以针对主要索引(从非匹配文档数据导出的)和辅助索引(从匹配文档数据导出的)两者运行随后的搜索查询。因此,在各实施例中,诸如排序算法106之类的排序算法,可以给搜索查询项在主索引中的出现比这样的项在辅助索引中的出现赋予更重要的权重。
在步骤308,索引语料库中的文档。在各实施例中,组合步骤306和308,匹配所选词典的文档数据可以通过如上文所讨论的这样的文档数据(以及文档)被索引(或不被索引)的方式被描绘为匹配。
在步骤310,为语料库中的爬取的文档中的某些或全部计算垃圾分数。在各实施例中,在步骤310,计算垃圾分数,该垃圾分数是爬取的文档和用于创建自动地生成的数据的所选词典的空白文档之间的相似度度量的函数(诸如库尔贝克-莱布勒发散性)。例如,相似度度量可以包括匹配所选词典中的对应的条目的文档数据与不匹配所选词典中的对应的条目的文档数据的比率。在各实施例中,相对较高的相似度度量表示除用于创建所选词典的空白文档中的东西以外不包括许多文档数据的文档。这可以被视为文档可能是“垃圾”的指示,可以将对应的垃圾分数指定给文档,并作为诸如排序特征108之类的排序特征存储数据库组件110中。垃圾分数可以包括相似度度量本身,或者也可以包括相似度度量的函数,以便归一化和使用垃圾分数作为排序特征。
在各实施例中,如果将文档与一个以上的选择的词典进行比较304,则可以根据文档针对所选词典的相似度度量的平均值、最大值、最小值的函数或其他计算值,来计算310垃圾分数。在步骤310计算出的垃圾分数可以被用作如此处所提供的排序特征。
回头参考图2,在步骤202,使用垃圾简档来计算一个或多个垃圾分数。在各实施例中,对垃圾分数的计算可以与创建201语料库中的文档的索引相结合地进行。例如,如所讨论的,爬取的文档和用于创建自动地生成的数据的所选词典(或多个词典)的空白文档之间的相似度度量可以被用来确定垃圾分数。在其他实施例中,在步骤310计算出的垃圾分数可以不计算,或也可以与使用来自垃圾简档的垃圾变量计算202垃圾分数组合或者作为额外的排序特征相结合与其相结合。
如此处的各实施例中所使用的,垃圾变量可以意味着可以被用来确定一个文档和已知垃圾文档之间的相似度的变量。例如,如下面所讨论的,在各实施例中,垃圾变量可以包括词频。在其他实施例中,垃圾变量可以包括块大小。垃圾变量可以个别地使用或也可以组合起来使用。
在步骤202,在各实施例中,根据为文档创建的一个或多个直方图和垃圾简档之间的相似度度量来计算文档的垃圾分数,其中,垃圾简档包括已知垃圾文档的一个或多个直方图。图4示出了用于使用一个或多个垃圾简档来计算202文档的垃圾分数的方法400的一个实施例。
在各实施例中,当在步骤201索引文档的同时,或否则,在接收搜索查询之前,对于语料库中的所有文档,执行方法400。在其他实施例中,可以在接收到搜索查询并标识了候选文档之后,执行方法400。方法400是参考一个文档来描述的,然而,可以对例如语料库中的任何或所有文档,或者对响应于搜索查询标识的候选文档,重复方法400。
在步骤401,在各实施例中,基于垃圾变量,为文档生成至少一个直方图。如此处所使用的,直方图可以是所定义的类别(或柱)内的变量的表示。在其他实施例中,可以使用垃圾变量的分布的替换的表示,来代替直方图或作为其补充。例如,可以计算或估计连续函数,来表示这样的分布,而不将它转换为直方图。此处被分析的文档的直方图被描述为“候选直方图”。
在方法400所示出的示例实施例中,在步骤401,为文档生成候选直方图。在下面的示例中,候选直方图基于文档的词频(例如,文档中的具有语料库中的对应的出现频率的唯一检索词的百分比)。例如,在一个简单示例中假设文档包括四个检索词:T1、T2、T3,以及T4。按如下方式,示出了每一个检索词的示例总的语料库频率(即,语料库中包含此检索词的文档的总数):
T1:10
T2:300
T3:100000
T4:50
可以相对于类别或“柱”定义此文档的词频候选直方图。在此示例中,为总的语料库频率定义了四个柱:[1...20],[21...400],[401...12000],[12001...最大]。因此,此文档的词频候选直方图可以被表示为:[0.25,0.5,0.0,0.25]。这反映了四个检索词中的一个落入第一柱内,四个检索词中的两个落入第二柱内,四个检索词中没有一个落入第三柱内,而四个检索词中的一个落入第四柱内。
在步骤402,将候选直方图与至少一个垃圾简档进行比较。除上文参考图2和3所描述的垃圾简档之外,垃圾简档可以进一步包括已知垃圾文档的一个或多个直方图。它还可以包括逼近已知垃圾文档的表示的一个或多个规则。在不同的实施例中,可以以不同的方式定义“垃圾文档”。例如,在某些实施例中,垃圾文档包括整体来看包括较大比例的非人可读取的文档数据的文档。在其他实施例中,垃圾文档可以包括几乎是空的文档。在各实施例中,出于创建参考直方图的目的,管理员被准许(例如,通过用户界面103)将特定现有的文档定义为“已知垃圾”。
例如,参考上文参照步骤401所讨论的简单示例,假设已知垃圾文档包括下列检索词(带有每一个检索词的总的语料库频率):
T1:10
T3:100000
T5:500
T6:1000
T7:12
可以相对于相同类别或“柱”,将此已知垃圾文档的词频参考直方图定义为候选直方图:[1...20],[21...400],[401...12000],[12001...最大]。因此,此已知垃圾文档的词频参考直方图可以被表示为:[0.4,0.0,0.4,0.2]。这反映了五个检索词中的两个落入第一柱内,五个检索词没有一个落入第二柱内,五个检索词中两个落入第三柱内,而五个检索词中的一个落入第四柱内。
候选直方图与垃圾简档的比较402(在此示例中,垃圾简档包括参考直方图)可以采用许多形式。例如,可以通过将相似度度量计算为候选直方图和参考直方图之间的距离来比较直方图:
在此示例比较函数中,B1是候选直方图,B2是参考直方图,B1(i)是第i’个柱的候选直方图的值,而B2(i)是第’个柱的参考直方图的值。此计算产生0和1之间的相似度度量。
再次参考上面的示例,比较步骤402按如下方式计算候选直方图和参考直方图之间的相似度度量:
相似度度量
在此示例计算中,候选直方图和参考直方图越相似,相似度度量越靠近零(如此,表示文档是垃圾的可能性越高)。
在步骤404,为文档计算至少一个垃圾分数。在各实施例中,垃圾分数可以包括相似度度量本身。在其他实施例中,相似度度量可以被转换为不同的比例。另外,步骤402中所使用的垃圾简档可以包括一个以上的参考直方图。例如,一个以上的已知垃圾文档可以被用来创建垃圾简档。在各实施例中,垃圾分数可以包括在比较步骤402过程中计算出的多个相似度度量的平均值、加权平均值、最大值、最小值的函数或某种其他函数。另外,可以基于诸如词频之类的垃圾变量,来计算文档的一个以上的垃圾分数,如此处进一步描述的,所有这样的垃圾分数都可以被排序算法使用。垃圾分数可以作为元数据与文档本身一起存储,与文档分开存储,或以其他方式存储。
在步骤406,就是否请求了警告作出判断。例如,在各实施例中,管理员可以在计算出了超出某一阈值的垃圾分数时请求警告。应该理解,取决于特定比例是如何定义的,如此处所使用的“超出阈值”可以是指落在特定阈值之上或之下的测量(诸如垃圾分数)。如果没有请求警告,则方法400可以结束(在各实施例中,控制返回到图2中的步骤204)。如果请求了警告,则就计算出的垃圾分数是否超出阈值作出判断408。在各实施例中,阈值是可由管理员调节的。如果没有超出阈值,则方法400可以结束。如果超出了阈值,则发送警告410。警告可以采用不同的形式,包括电子邮件、声音消息、文本等等,并可以向用户、管理员等等发送。如此,可以向管理员及其他人警告可能需要删除的垃圾文档。另外,还可以使用垃圾分数作为可搜索的属性。例如,用户可能希望搜索具有高垃圾分数的文档,因为它们可能是用于存档的好的候选。另一个用户可能希望使用垃圾分数作为搜索准则,自动地使带有高于特定阈值的垃圾分数的文档从返回的搜索结果中被过滤出来。在其他实施例中,可以由管理员或用户查询垃圾分数,以便发现是用于删除的候选的文档。
参考使用基于一个垃圾变量的文档的直方图描述了方法400,然而,可以对于使用其他垃圾变量的直方图来重复方法400。例如,可以被用来预测文档是否是垃圾的另一种垃圾变量是“块大小”。块大小是连续的文本的长度。诸如电子表格之类的某些文档类型具有大量的非人可读取的数据。可以预期诸如文字处理文档之类的其他文档具有比较长的连续的文本的块。基于文档的块大小的直方图可以示出块大小在文档内的分布(连续的文本的遍数(run))。取决于文档类型,可以通过扫描文档的文本并测量逻辑中断(诸如单元格、段落、句子、分页等等)之间的距离来以不同的方式测量块。在各实施例中,文档内的块大小分布和已知垃圾文档中的块大小分布之间的相似度是文档是否应当被表征为垃圾的指示符。
基于不同的直方图和/或垃圾变量的文档和垃圾简档之间的相似度度量可以被合并到单个垃圾分数中,或被用作单个垃圾分数,这些分数被诸如排序算法106之类的排序算法用作排序特征。
再次参考图2,方法200在步骤204继续,在那里,接收搜索查询。在各实施例中,用户可以使用诸如用户界面103之类的用户界面来输入搜索查询。搜索查询可以包括关键字、短语或其他搜索参数,包括非文本搜索参数(诸如格式等等)。在步骤206,标识候选文档。例如,如参考图1所描述的,诸如搜索组件102之类的搜索组件可以返回匹配搜索查询的候选文档。
在步骤208,对候选文档进行排序。如参考图1所描述的,可以使用排序组件104,使用一个或多个排序算法106和一个或多个排序特征108,对候选文档进行排序。如此处所阐述而计算出的垃圾分数可以被用作排序特征108。也可以使用其他排序特征108。在各实施例中,单个文档的排序如此可以受文档的垃圾分数的影响。如此,原本由于文档紧密地匹配搜索查询项而排在较高的位置的文档可能由于高的垃圾分数而排序得较低。在其他实施例中,对文档的实际排序不受垃圾分数的影响。相反,使用垃圾分数来向用户提供可能的垃圾的指示,而不会影响列出文档的顺序。在步骤210,呈现了排序的候选文档。例如,可以按照文档排序的顺序,向用户显示文档的子集(例如,开头十个)。在各实施例中,具有超出阈值的垃圾分数的文档可能根本不呈现(例如,可以删去,不作为候选文档)。在其他实施例中,文档的垃圾分数与候选文档一起呈现(例如,在候选文档的排序的列表中),以便用户可以作出是否要点击具有特定垃圾分数的文档的独立判断。在其他实施例中,可以使用垃圾阈值。如果文档的垃圾分数超出垃圾阈值,则该文档可以与该文档可能是垃圾的指示一起显示。例如,如果垃圾分数超出垃圾阈值,则可以在候选文档的排序的列表中为该文档显示垃圾符号或实际垃圾分数。如此处所使用的,显示的垃圾分数或垃圾符号应该被视为“垃圾状态”。
在各实施例中,本系统和方法对检测“偶然的垃圾文档”(并非包含恶意的或不希望有的信息的文档,即,“敌手的垃圾”)有用。例如,用户可能已经开始创建演示文稿,插入了标题,保存了演示文稿,而没有添加任何额外的内容,然后,忘记了这件事。通常,响应于包含用于该演示文稿的标题中的项的搜索查询,搜索组件可能将返回该演示文稿,并将它排在很高的位置。然而,检测到演示文稿类似于已知垃圾文档(例如,具有类似的词频分布),允许搜索组件将该演示文稿排在较适当的位置。
图5示出了其中可以实现软件实施例的合适的操作环境500的一个示例。这只是合适的操作环境的一个示例,并非旨在对使用范围或功能提出任何限制。适用的其他公知计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
在其最基本配置中,操作环境500通常包括至少一个处理单元502和存储器504。取决于计算设备的确切配置和类型,存储器504(存储,其中,如此处所描述的计算出的垃圾分数)可以是易失性(如RAM)、非易失性(如ROM、闪存等)或是两者的某种组合。该最基本配置在图5中由虚线506来示出。此外,环境500还可包括存储设备(可移动508和/或不可移动510),包括但不限于磁盘、光盘或磁带。类似地,环境500也可包括一个或多个输入设备514,如键盘、鼠标、笔、语音输入设备等等,和/或输出设备516,如显示器、扬声器、打印机等等。环境还可以包括一个或多个通信连接512,如LAN、WAN、点对点等等。
操作环境500通常至少包括某种形式的计算机可读介质。计算机可读介质可以是可以被处理单元502或构成操作环境的其他设备访问的任何可用的介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者可用于存储所需信息的任何其他介质。通信介质通常以诸如载波或其他传输机制的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在计算机可读介质的范围之内。
操作环境500可以是使用对一个或多个远程计算机的逻辑连接在联网环境中工作的单个计算机。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点,通常包括上文所描述的许多或全部元件。逻辑连接可以包括由可用的通信介质支持的任何方法。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
应该了解,本发明的各实施例可以实现成(1)计算机实现的动作序列或在计算系统上运行的程序模块和/或(2)计算系统内的互连机器逻辑电路或电路模块。实现是取决于实现本发明的计算系统的性能要求的选择问题。因此,包括相关算法的逻辑操作可以被不同地称为操作、结构设备、动作、或模块。所属领域技术人员将认识到,在不偏离在此处所阐述的权利要求书内所列举的本发明的精神和范围的情况下,这些操作、结构设备、动作和模块可以以软件、固件、特殊用途数字逻辑,以及其任何组合来实现。
虽然结合各个示例性实施例描述了本发明,但是,本领域技术人员可以理解,在随后的权利要求书的范围内可以对本发明进行许多修改。因此,本发明的范围不以任何方式受上面的描述的限制,而是完全参考随后的权利要求书来确定。
Claims (10)
1.一种用于响应于搜索查询来对候选文档进行排序的计算机实现的方法,包括下列步骤:
由至少第一处理器,创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档中标识候选文档,其中,所述候选文档包括至少所述第一文档;
对所述候选文档进行排序。
2.如权利要求1所述的计算机实现的方法,其特征在于,所述垃圾简档包括至少一个已知垃圾文档的表示,其中,对所述候选文档进行排序包括至少部分地基于所述第一文档的所述垃圾分数来对所述候选文档进行排序。
3.如权利要求1所述的计算机实现的方法,其特征在于,还包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;以及
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量。
4.如权利要求3所述的计算机实现的方法,其特征在于,所述垃圾简档包括第二已知垃圾文档的所述第一垃圾变量的第二参考直方图,其中,计算所述垃圾分数包括将所述候选直方图与所述第二参考直方图进行比较,以确定第二相似度度量。
5.如权利要求4所述的计算机实现的方法,其特征在于,计算所述垃圾分数包括下列各项中的至少一项:计算所述第一和第二相似度度量中的最大值,以及计算所述第一和第二相似度度量的平均值。
6.如权利要求1所述的计算机实现的方法,其特征在于,还包括显示已排序的候选文档和显示至少所述第一文档的垃圾状态的步骤。
7.如权利要求1所述的计算机实现的方法,其特征在于:
所述垃圾简档包括自动地生成的数据的词典;
计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
8.如权利要求7所述的计算机实现的方法,其特征在于,标识所述候选文档包括将所述搜索查询与所述索引中的文档数据进行比较,且其中,对所述候选文档进行排序包括判断匹配所述搜索查询的文档数据是否被描绘为匹配所述自动地生成的数据。
9.一种用于响应于搜索查询来对候选文档进行排序的系统,包括:
至少一个处理器;
存储器,所述存储器可操作地连接到所述至少一个处理器并包含指令,所述指令在由所述至少一个处理器执行时,执行包括下列各项的一种方法:
创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档标识候选文档,其中,所述候选文档包括至少所述第一文档;
至少部分地基于所述第一文档的所述垃圾分数,对所述候选文档进行排序。
10.如权利要求9所述的系统,其特征在于,所述方法进一步包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量;
其中,所述垃圾简档包括自动地生成的数据的词典;
其中,计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
其中,创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/791,756 | 2010-06-01 | ||
US12/791,756 US8738635B2 (en) | 2010-06-01 | 2010-06-01 | Detection of junk in search result ranking |
PCT/US2011/033125 WO2011152925A2 (en) | 2010-06-01 | 2011-04-19 | Detection of junk in search result ranking |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102918532A true CN102918532A (zh) | 2013-02-06 |
CN102918532B CN102918532B (zh) | 2015-12-16 |
Family
ID=45022943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180027027.4A Active CN102918532B (zh) | 2010-06-01 | 2011-04-19 | 在搜索结果排序中对垃圾的检测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8738635B2 (zh) |
EP (1) | EP2577521A4 (zh) |
CN (1) | CN102918532B (zh) |
WO (1) | WO2011152925A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909669A (zh) * | 2017-02-28 | 2017-06-30 | 北京时间股份有限公司 | 一种推广信息的检测方法及装置 |
CN109074172A (zh) * | 2016-04-13 | 2018-12-21 | 微软技术许可有限责任公司 | 向电子设备输入图像 |
CN113987146A (zh) * | 2021-10-22 | 2022-01-28 | 国网江苏省电力有限公司镇江供电分公司 | 一种电力内网专用的新型智能问答系统 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US11281639B2 (en) * | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
US20170222960A1 (en) * | 2016-02-01 | 2017-08-03 | Linkedin Corporation | Spam processing with continuous model training |
US10754881B2 (en) * | 2016-02-10 | 2020-08-25 | Refinitiv Us Organization Llc | System for natural language interaction with financial data |
US11366872B1 (en) * | 2017-07-19 | 2022-06-21 | Amazon Technologies, Inc. | Digital navigation menus with dynamic content placement |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040024752A1 (en) * | 2002-08-05 | 2004-02-05 | Yahoo! Inc. | Method and apparatus for search ranking using human input and automated ranking |
US20060248074A1 (en) * | 2005-04-28 | 2006-11-02 | International Business Machines Corporation | Term-statistics modification for category-based search |
CN101000608A (zh) * | 2006-01-11 | 2007-07-18 | 吴风勇 | 基于搜索引擎技术的关键字动态匹配生成的方法 |
CN101180624A (zh) * | 2004-10-28 | 2008-05-14 | 雅虎公司 | 基于链接的垃圾检测 |
US20090024606A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Identifying and Linking Similar Passages in a Digital Text Corpus |
CN101360074A (zh) * | 2008-09-27 | 2009-02-04 | 腾讯科技(深圳)有限公司 | 一种确定可疑垃圾邮件范围的方法和系统 |
Family Cites Families (350)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5226161A (en) | 1987-08-21 | 1993-07-06 | Wang Laboratories, Inc. | Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types |
US5369778A (en) | 1987-08-21 | 1994-11-29 | Wang Laboratories, Inc. | Data processor that customizes program behavior by using a resource retrieval capability |
US5222236A (en) | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
US5321833A (en) | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5257577A (en) | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
WO1994012944A1 (en) | 1992-11-23 | 1994-06-09 | Paragon Concepts, Inc. | Computer filing system with user selected categories to provide file access |
US6202058B1 (en) | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
US5606609A (en) | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
US5594660A (en) | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
US5642502A (en) | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5729730A (en) | 1995-03-28 | 1998-03-17 | Dex Information Systems, Inc. | Method and apparatus for improved information storage and retrieval system |
US5826269A (en) | 1995-06-21 | 1998-10-20 | Microsoft Corporation | Electronic mail interface for a network server |
US5933851A (en) | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
US5974455A (en) | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
US5855020A (en) | 1996-02-21 | 1998-12-29 | Infoseek Corporation | Web scan process |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP3113814B2 (ja) | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5905866A (en) | 1996-04-30 | 1999-05-18 | A.I. Soft Corporation | Data-update monitoring in communications network |
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6038610A (en) | 1996-07-17 | 2000-03-14 | Microsoft Corporation | Storage of sitemaps at server sites for holding information regarding content |
EP0822502A1 (en) | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US5765150A (en) | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5870739A (en) | 1996-09-20 | 1999-02-09 | Novell, Inc. | Hybrid query apparatus and method |
US5893116A (en) | 1996-09-30 | 1999-04-06 | Novell, Inc. | Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network |
US5870740A (en) | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US6222559B1 (en) | 1996-10-02 | 2001-04-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for display of hierarchical structures |
GB2331166B (en) | 1997-11-06 | 2002-09-11 | Ibm | Database search engine |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US5960383A (en) | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5890147A (en) | 1997-03-07 | 1999-03-30 | Microsoft Corporation | Scope testing of documents in a search engine using document to folder mapping |
US5848404A (en) | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6272507B1 (en) | 1997-04-09 | 2001-08-07 | Xerox Corporation | System for ranking search results from a collection of documents using spreading activation techniques |
US6256675B1 (en) | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
AUPO710597A0 (en) | 1997-06-02 | 1997-06-26 | Knowledge Horizons Pty. Ltd. | Methods and systems for knowledge management |
US6029164A (en) | 1997-06-16 | 2000-02-22 | Digital Equipment Corporation | Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing |
US6012053A (en) | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6182113B1 (en) | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
US5956722A (en) | 1997-09-23 | 1999-09-21 | At&T Corp. | Method for effective indexing of partially dynamic documents |
US6999959B1 (en) * | 1997-10-10 | 2006-02-14 | Nec Laboratories America, Inc. | Meta search engine |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6070191A (en) | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
US6351467B1 (en) | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
US6594682B2 (en) | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US5991756A (en) | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US5943670A (en) | 1997-11-21 | 1999-08-24 | International Business Machines Corporation | System and method for categorizing objects in combined categories |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
US6389436B1 (en) | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
US7010532B1 (en) | 1997-12-31 | 2006-03-07 | International Business Machines Corporation | Low overhead methods and apparatus for shared access storage devices |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
JP3998794B2 (ja) | 1998-02-18 | 2007-10-31 | 株式会社野村総合研究所 | ブラウジングクライアントサーバーシステム |
KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6185558B1 (en) | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US5913210A (en) | 1998-03-27 | 1999-06-15 | Call; Charles G. | Methods and apparatus for disseminating product information via the internet |
US6125361A (en) | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6167402A (en) | 1998-04-27 | 2000-12-26 | Sun Microsystems, Inc. | High performance message store |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6098064A (en) | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
US6182085B1 (en) | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
US6208988B1 (en) | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
AU4126899A (en) | 1998-06-08 | 1999-12-30 | Kaufman Consulting Services Ltd. | Method and system for retrieving relevant documents from a database |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
JP3665480B2 (ja) * | 1998-06-24 | 2005-06-29 | 富士通株式会社 | 文書整理装置および方法 |
US6216123B1 (en) | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6199081B1 (en) | 1998-06-30 | 2001-03-06 | Microsoft Corporation | Automatic tagging of documents and exclusion by content |
US6424966B1 (en) | 1998-06-30 | 2002-07-23 | Microsoft Corporation | Synchronizing crawler with notification source |
CN1324464A (zh) | 1998-08-26 | 2001-11-28 | 西姆泰克有限公司 | 映射数据文件的方法和设备 |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
RU2138076C1 (ru) | 1998-09-14 | 1999-09-20 | Закрытое акционерное общество "МедиаЛингва" | Система поиска информации в компьютерной сети |
US6115709A (en) | 1998-09-18 | 2000-09-05 | Tacit Knowledge Systems, Inc. | Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions |
US6549897B1 (en) | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6385602B1 (en) | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US6360215B1 (en) | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6574632B2 (en) | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
JP2000194713A (ja) | 1998-12-25 | 2000-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体 |
US6922699B2 (en) | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6418433B1 (en) | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
JP3347088B2 (ja) | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
US6336117B1 (en) | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US6990628B1 (en) | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US7072888B1 (en) | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
US6547829B1 (en) | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6631369B1 (en) | 1999-06-30 | 2003-10-07 | Microsoft Corporation | Method and system for incremental web crawling |
US6873982B1 (en) | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
US6557036B1 (en) | 1999-07-20 | 2003-04-29 | Sun Microsystems, Inc. | Methods and apparatus for site wide monitoring of electronic mail systems |
US7181438B1 (en) | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
CA2279119C (en) | 1999-07-29 | 2004-10-19 | Ibm Canada Limited-Ibm Canada Limitee | Heuristic-based conditional data indexing |
JP3931496B2 (ja) | 1999-08-11 | 2007-06-13 | 富士ゼロックス株式会社 | ハイパーテキスト解析装置 |
US6442606B1 (en) | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
US6636853B1 (en) | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
US6381597B1 (en) | 1999-10-07 | 2002-04-30 | U-Know Software Corporation | Electronic shopping agent which is capable of operating with vendor sites which have disparate formats |
US7346604B1 (en) | 1999-10-15 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope |
US6687698B1 (en) | 1999-10-18 | 2004-02-03 | Fisher Rosemount Systems, Inc. | Accessing and updating a configuration database from distributed physical locations within a process control system |
JP3772606B2 (ja) | 1999-10-19 | 2006-05-10 | 株式会社日立製作所 | 電子文書管理方法及びシステム並びに記録媒体 |
WO2001031500A1 (en) | 1999-10-29 | 2001-05-03 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6263364B1 (en) | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
US6351755B1 (en) | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
US6418452B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
US6418453B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
US6539376B1 (en) | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
US7016540B1 (en) | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6772141B1 (en) | 1999-12-14 | 2004-08-03 | Novell, Inc. | Method and apparatus for organizing and using indexes utilizing a search decision table |
US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6931397B1 (en) | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
US6910029B1 (en) | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
US6516312B1 (en) | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
US6549896B1 (en) | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
US6718365B1 (en) | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
US6741986B2 (en) | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
US6772160B2 (en) | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
JP3573688B2 (ja) | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6678692B1 (en) | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
US6601075B1 (en) | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US6598040B1 (en) | 2000-08-14 | 2003-07-22 | International Business Machines Corporation | Method and system for processing electronic search expressions |
US7080073B1 (en) | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
EP1323112A4 (en) | 2000-08-25 | 2006-08-02 | Jonas Ulenas | METHOD AND APPARATUS FOR OBTAINING PREFERENCES OF CONSUMER PRODUCTS BY SELECTING AND EVALUATING PRODUCTS |
JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
NO313399B1 (no) | 2000-09-14 | 2002-09-23 | Fast Search & Transfer Asa | Fremgangsmate til soking og analyse av informasjon i datanettverk |
US6598051B1 (en) | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
JP3525885B2 (ja) | 2000-10-25 | 2004-05-10 | 日本電信電話株式会社 | 多角的検索サービス方法およびそのプログラムを記録した記録媒体 |
US6560600B1 (en) | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
JP2002140365A (ja) | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | データ検索方法 |
US7200606B2 (en) | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002157271A (ja) | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
US20020103920A1 (en) | 2000-11-21 | 2002-08-01 | Berkun Ken Alan | Interpretive stream metadata extraction |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US20020078045A1 (en) | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
US6898592B2 (en) | 2000-12-27 | 2005-05-24 | Microsoft Corporation | Scoping queries in a search engine |
JP2002202992A (ja) | 2000-12-28 | 2002-07-19 | Speed System:Kk | ホームページ検索システム |
US6778997B2 (en) | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US6526440B1 (en) | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
US20020103798A1 (en) | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US20020107886A1 (en) | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
US7571177B2 (en) | 2001-02-08 | 2009-08-04 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
US20040003028A1 (en) | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
JP2002245089A (ja) | 2001-02-19 | 2002-08-30 | Hitachi Eng Co Ltd | ウェブページ検索システム、二次情報収集装置、インターフェース装置 |
US7627596B2 (en) | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US7188106B2 (en) | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US20020165860A1 (en) | 2001-05-07 | 2002-11-07 | Nec Research Insititute, Inc. | Selective retrieval metasearch engine |
US6738764B2 (en) * | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
IES20020335A2 (en) | 2001-05-10 | 2002-11-13 | Changing Worlds Ltd | Intelligent internet website with hierarchical menu |
US6865295B2 (en) * | 2001-05-11 | 2005-03-08 | Koninklijke Philips Electronics N.V. | Palette-based histogram matching with recursive histogram vector generation |
US6782383B2 (en) | 2001-06-18 | 2004-08-24 | Siebel Systems, Inc. | System and method to implement a persistent and dismissible search center frame |
US6947920B2 (en) * | 2001-06-20 | 2005-09-20 | Oracle International Corporation | Method and system for response time optimization of data query rankings and retrieval |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7039234B2 (en) | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
US6868411B2 (en) | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
US6928425B2 (en) | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
KR100509276B1 (ko) | 2001-08-20 | 2005-08-22 | 엔에이치엔(주) | 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치 |
US7076483B2 (en) | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
US20030046389A1 (en) | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US6970863B2 (en) | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US6766422B2 (en) | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
JP2003208434A (ja) | 2001-11-07 | 2003-07-25 | Nec Corp | 情報検索システム及びそれに用いる情報検索方法 |
US20030101183A1 (en) | 2001-11-26 | 2003-05-29 | Navin Kabra | Information retrieval index allowing updating while in use |
US6763362B2 (en) | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
US20060004732A1 (en) | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
US6934714B2 (en) | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
US7693830B2 (en) | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
KR100490748B1 (ko) | 2002-04-11 | 2005-05-24 | 한국전자통신연구원 | 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법 |
US7039631B1 (en) | 2002-05-24 | 2006-05-02 | Microsoft Corporation | System and method for providing search results with configurable scoring formula |
RU2273879C2 (ru) | 2002-05-28 | 2006-04-10 | Владимир Владимирович Насыпный | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
US20040006559A1 (en) | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
US7246128B2 (en) | 2002-06-12 | 2007-07-17 | Jordahl Jena J | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
CA2395905A1 (en) | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
US7013458B2 (en) | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
JP2004164555A (ja) | 2002-09-17 | 2004-06-10 | Fuji Xerox Co Ltd | 検索装置および方法ならびにそのインデクス構築装置および方法 |
US20040064442A1 (en) | 2002-09-27 | 2004-04-01 | Popovitch Steven Gregory | Incremental search engine |
US6886010B2 (en) | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7085755B2 (en) | 2002-11-07 | 2006-08-01 | Thomson Global Resources Ag | Electronic document repository management and access system |
US7231379B2 (en) | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7386527B2 (en) | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
US7020648B2 (en) | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
US7734565B2 (en) | 2003-01-18 | 2010-06-08 | Yahoo! Inc. | Query string matching method and apparatus |
US20040148278A1 (en) | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
RU2236699C1 (ru) | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
JP4299022B2 (ja) | 2003-02-28 | 2009-07-22 | トヨタ自動車株式会社 | コンテンツ検索用インデックス生成装置 |
US20040181515A1 (en) | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
EP1462950B1 (en) | 2003-03-27 | 2007-08-29 | Sony Deutschland GmbH | Method for language modelling |
US7028029B2 (en) | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
US7216123B2 (en) | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
US7451130B2 (en) | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7197497B2 (en) | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
US7283997B1 (en) | 2003-05-14 | 2007-10-16 | Apple Inc. | System and method for ranking the relevance of documents retrieved by a query |
US7502779B2 (en) | 2003-06-05 | 2009-03-10 | International Business Machines Corporation | Semantics-based searching for information in a distributed data processing system |
US8239380B2 (en) | 2003-06-20 | 2012-08-07 | Microsoft Corporation | Systems and methods to tune a general-purpose search engine for a search entry point |
US7228301B2 (en) | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
US7630963B2 (en) | 2003-06-30 | 2009-12-08 | Microsoft Corporation | Fast ranked full-text searching |
US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
US20050060186A1 (en) | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
US7454417B2 (en) | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US8589373B2 (en) * | 2003-09-14 | 2013-11-19 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
US7693827B2 (en) | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US20050071328A1 (en) | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7552109B2 (en) | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
US20050086192A1 (en) | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
US7346208B2 (en) | 2003-10-25 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Image artifact reduction using a neural network |
US7231399B1 (en) | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
US7181447B2 (en) | 2003-12-08 | 2007-02-20 | Iac Search And Media, Inc. | Methods and systems for conceptually organizing and presenting information |
US20060047649A1 (en) | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20050160107A1 (en) | 2003-12-29 | 2005-07-21 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US7685104B2 (en) | 2004-01-08 | 2010-03-23 | International Business Machines Corporation | Dynamic bitmap processing, identification and reusability |
US7483891B2 (en) | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
US7499913B2 (en) | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
JP2004192657A (ja) | 2004-02-09 | 2004-07-08 | Nec Corp | 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体 |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7281002B2 (en) | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
US9104689B2 (en) | 2004-03-17 | 2015-08-11 | International Business Machines Corporation | Method for synchronizing documents for disconnected operation |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
JP2005277445A (ja) | 2004-03-22 | 2005-10-06 | Fuji Xerox Co Ltd | 会議映像処理装置、会議映像処理方法およびプログラム |
US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
US7580568B1 (en) | 2004-03-31 | 2009-08-25 | Google Inc. | Methods and systems for identifying an image as a representative image for an article |
US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
US7257577B2 (en) | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7136851B2 (en) | 2004-05-14 | 2006-11-14 | Microsoft Corporation | Method and system for indexing and searching databases |
US7260573B1 (en) | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
US7349901B2 (en) * | 2004-05-21 | 2008-03-25 | Microsoft Corporation | Search engine spam detection using external data |
US7716225B1 (en) | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US8131674B2 (en) | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
US7730012B2 (en) | 2004-06-25 | 2010-06-01 | Apple Inc. | Methods and systems for managing data |
US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
US7363296B1 (en) | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
US7395260B2 (en) * | 2004-08-04 | 2008-07-01 | International Business Machines Corporation | Method for providing graphical representations of search results in multiple related histograms |
US7634461B2 (en) * | 2004-08-04 | 2009-12-15 | International Business Machines Corporation | System and method for enhancing keyword relevance by user's interest on the search result documents |
US20060036598A1 (en) | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
US20060047643A1 (en) | 2004-08-31 | 2006-03-02 | Chirag Chaman | Method and system for a personalized search engine |
KR20070101217A (ko) | 2004-09-16 | 2007-10-16 | 텔레노어 아사 | 개인 웹에서의 문서의 검색, 항행, 및 순위 부여를 위한방법, 시스템, 컴퓨터 프로그램 제품 |
WO2006036781A2 (en) | 2004-09-22 | 2006-04-06 | Perfect Market Technologies, Inc. | Search engine using user intent |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7644107B2 (en) | 2004-09-30 | 2010-01-05 | Microsoft Corporation | System and method for batched indexing of network documents |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US20060074883A1 (en) | 2004-10-05 | 2006-04-06 | Microsoft Corporation | Systems, methods, and interfaces for providing personalized search and information access |
US7702599B2 (en) | 2004-10-07 | 2010-04-20 | Bernard Widrow | System and method for cognitive memory and auto-associative neural network based pattern recognition |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
US7698331B2 (en) | 2005-01-18 | 2010-04-13 | Yahoo! Inc. | Matching and ranking of sponsored search listings incorporating web search technology and web content |
US20060173828A1 (en) | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
US20060200460A1 (en) | 2005-03-03 | 2006-09-07 | Microsoft Corporation | System and method for ranking search results using file types |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
US8095487B2 (en) | 2005-03-16 | 2012-01-10 | Yahoo! Inc. | System and method for biasing search results based on topic familiarity |
KR101374651B1 (ko) | 2005-03-18 | 2014-03-17 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7693829B1 (en) * | 2005-04-25 | 2010-04-06 | Google Inc. | Search engine with fill-the-blanks capability |
US7451124B2 (en) | 2005-05-12 | 2008-11-11 | Xerox Corporation | Method of analyzing documents |
US7962462B1 (en) | 2005-05-31 | 2011-06-14 | Google Inc. | Deriving and using document and site quality signals from search query streams |
CA2544324A1 (en) | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7653617B2 (en) | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US7499919B2 (en) | 2005-09-21 | 2009-03-03 | Microsoft Corporation | Ranking functions using document usage statistics |
US7716226B2 (en) | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US7689531B1 (en) | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
US20070085716A1 (en) | 2005-09-30 | 2007-04-19 | International Business Machines Corporation | System and method for detecting matches of small edit distance |
US7873624B2 (en) | 2005-10-21 | 2011-01-18 | Microsoft Corporation | Question answering over structured content on the web |
US20070150473A1 (en) | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
US7814099B2 (en) * | 2006-01-31 | 2010-10-12 | Louis S. Wang | Method for ranking and sorting electronic documents in a search result list based on relevance |
US7689559B2 (en) | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
US7685091B2 (en) | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
EP2016510A1 (en) * | 2006-04-24 | 2009-01-21 | Telenor ASA | Method and device for efficiently ranking documents in a similarity graph |
US20070260597A1 (en) | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
EP1862916A1 (en) * | 2006-06-01 | 2007-12-05 | Microsoft Corporation | Indexing Documents for Information Retrieval based on additional feedback fields |
US20080005068A1 (en) | 2006-06-28 | 2008-01-03 | Microsoft Corporation | Context-based search, retrieval, and awareness |
US20080016053A1 (en) | 2006-07-14 | 2008-01-17 | Bea Systems, Inc. | Administration Console to Select Rank Factors |
US8595245B2 (en) | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
US7720830B2 (en) | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US20080140641A1 (en) | 2006-12-07 | 2008-06-12 | Yahoo! Inc. | Knowledge and interests based search term ranking for search results validation |
US7792883B2 (en) * | 2006-12-11 | 2010-09-07 | Google Inc. | Viewport-relative scoring for location search queries |
JP4839195B2 (ja) | 2006-12-12 | 2011-12-21 | 日本電信電話株式会社 | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 |
US7685084B2 (en) | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US7996392B2 (en) | 2007-06-27 | 2011-08-09 | Oracle International Corporation | Changing ranking algorithms based on customer settings |
US20090006358A1 (en) | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
US8201081B2 (en) | 2007-09-07 | 2012-06-12 | Google Inc. | Systems and methods for processing inoperative document links |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US7707229B2 (en) * | 2007-12-12 | 2010-04-27 | Yahoo! Inc. | Unsupervised detection of web pages corresponding to a similarity class |
US20090164929A1 (en) | 2007-12-20 | 2009-06-25 | Microsoft Corporation | Customizing Search Results |
JP2009204442A (ja) | 2008-02-28 | 2009-09-10 | Athlete Fa Kk | 粒状物質の計量装置 |
US8412702B2 (en) | 2008-03-12 | 2013-04-02 | Yahoo! Inc. | System, method, and/or apparatus for reordering search results |
US7974974B2 (en) | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
JP5328212B2 (ja) | 2008-04-10 | 2013-10-30 | 株式会社エヌ・ティ・ティ・ドコモ | レコメンド情報評価装置およびレコメンド情報評価方法 |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
CN101359331B (zh) | 2008-05-04 | 2014-03-19 | 索意互动(北京)信息技术有限公司 | 对搜索结果重新排序的方法和系统 |
US20090307209A1 (en) | 2008-06-10 | 2009-12-10 | David Carmel | Term-statistics modification for category-based search |
US8326829B2 (en) | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8224847B2 (en) | 2009-10-29 | 2012-07-17 | Microsoft Corporation | Relevant individual searching using managed property and ranking features |
US8527507B2 (en) | 2009-12-04 | 2013-09-03 | Microsoft Corporation | Custom ranking model schema |
US8422786B2 (en) * | 2010-03-26 | 2013-04-16 | International Business Machines Corporation | Analyzing documents using stored templates |
US8370331B2 (en) | 2010-07-02 | 2013-02-05 | Business Objects Software Limited | Dynamic visualization of search results on a graphical user interface |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
-
2010
- 2010-06-01 US US12/791,756 patent/US8738635B2/en active Active
-
2011
- 2011-04-19 CN CN201180027027.4A patent/CN102918532B/zh active Active
- 2011-04-19 WO PCT/US2011/033125 patent/WO2011152925A2/en active Application Filing
- 2011-04-19 EP EP11790139.7A patent/EP2577521A4/en not_active Ceased
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040024752A1 (en) * | 2002-08-05 | 2004-02-05 | Yahoo! Inc. | Method and apparatus for search ranking using human input and automated ranking |
CN101180624A (zh) * | 2004-10-28 | 2008-05-14 | 雅虎公司 | 基于链接的垃圾检测 |
US20060248074A1 (en) * | 2005-04-28 | 2006-11-02 | International Business Machines Corporation | Term-statistics modification for category-based search |
CN101000608A (zh) * | 2006-01-11 | 2007-07-18 | 吴风勇 | 基于搜索引擎技术的关键字动态匹配生成的方法 |
US20090024606A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Identifying and Linking Similar Passages in a Digital Text Corpus |
CN101360074A (zh) * | 2008-09-27 | 2009-02-04 | 腾讯科技(深圳)有限公司 | 一种确定可疑垃圾邮件范围的方法和系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074172A (zh) * | 2016-04-13 | 2018-12-21 | 微软技术许可有限责任公司 | 向电子设备输入图像 |
CN109074172B (zh) * | 2016-04-13 | 2023-01-06 | 微软技术许可有限责任公司 | 向电子设备输入图像 |
US11720744B2 (en) | 2016-04-13 | 2023-08-08 | Microsoft Technology Licensing, Llc | Inputting images to electronic devices |
CN106909669A (zh) * | 2017-02-28 | 2017-06-30 | 北京时间股份有限公司 | 一种推广信息的检测方法及装置 |
CN106909669B (zh) * | 2017-02-28 | 2020-02-11 | 北京时间股份有限公司 | 一种推广信息的检测方法及装置 |
CN113987146A (zh) * | 2021-10-22 | 2022-01-28 | 国网江苏省电力有限公司镇江供电分公司 | 一种电力内网专用的新型智能问答系统 |
CN113987146B (zh) * | 2021-10-22 | 2023-01-31 | 国网江苏省电力有限公司镇江供电分公司 | 一种电力内网专用的智能问答系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2011152925A2 (en) | 2011-12-08 |
WO2011152925A3 (en) | 2012-02-02 |
EP2577521A4 (en) | 2016-07-13 |
EP2577521A2 (en) | 2013-04-10 |
CN102918532B (zh) | 2015-12-16 |
US20110295850A1 (en) | 2011-12-01 |
US8738635B2 (en) | 2014-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102918532B (zh) | 在搜索结果排序中对垃圾的检测 | |
CN112100344B (zh) | 一种基于知识图谱的金融领域知识问答方法 | |
De Gemmis et al. | Semantics-aware content-based recommender systems | |
Gupta et al. | Survey on social tagging techniques | |
US8468156B2 (en) | Determining a geographic location relevant to a web page | |
CN101828185B (zh) | 部分地基于多个点进特征来排名并提供搜索结果 | |
CN101097570A (zh) | 一种自动识别分类广告类型的广告分类方法 | |
WO2014054052A2 (en) | Context based co-operative learning system and method for representing thematic relationships | |
Zhang et al. | A coarse-to-fine framework to efficiently thwart plagiarism | |
WO2013058994A1 (en) | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results | |
US20120117043A1 (en) | Measuring Duplication in Search Results | |
JP5510563B2 (ja) | 検索プログラム、検索装置、および検索方法 | |
Ma et al. | A new query recommendation method supporting exploratory search based on search goal shift graphs | |
Sedighi et al. | RLOSD: Representation learning based opinion spam detection | |
Najadat et al. | Detecting Arabic spam reviews in social networks based on classification algorithms | |
Patel et al. | A review on web pages clustering techniques | |
Adami et al. | Clustering documents into a web directory for bootstrapping a supervised classification | |
Spahiu et al. | Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned | |
Rajkumar et al. | Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine | |
EP2793145A2 (en) | Computer device for minimizing computer resources for database accesses | |
Kawan et al. | Multiclass Resume Categorization Using Data Mining | |
Plansangket | New weighting schemes for document ranking and ranked query suggestion | |
Avancini et al. | Organizing digital libraries by automated text categorization | |
Mistry et al. | Tag recommendation for social bookmarking: Probabilistic approaches | |
Lee | Text Categorization with a Small Number of Labeled Training Examples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150727 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150727 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |