CN102918532A - 在搜索结果排序中对垃圾的检测 - Google Patents

在搜索结果排序中对垃圾的检测 Download PDF

Info

Publication number
CN102918532A
CN102918532A CN2011800270274A CN201180027027A CN102918532A CN 102918532 A CN102918532 A CN 102918532A CN 2011800270274 A CN2011800270274 A CN 2011800270274A CN 201180027027 A CN201180027027 A CN 201180027027A CN 102918532 A CN102918532 A CN 102918532A
Authority
CN
China
Prior art keywords
document
rubbish
documents
data
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800270274A
Other languages
English (en)
Other versions
CN102918532B (zh
Inventor
V·坦科维奇
D·梅耶泽
V·波兹南斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102918532A publication Critical patent/CN102918532A/zh
Application granted granted Critical
Publication of CN102918532B publication Critical patent/CN102918532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Abstract

各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。垃圾简档提供了表示已知的垃圾文档的参考度量。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。

Description

在搜索结果排序中对垃圾的检测
背景
计算机用户具有不同的方式来定位可以本地或远程存储的信息。例如,搜索引擎可以被用来使用搜索查询来定位文档。搜索引擎尝试基于特定搜索查询来返回相关结果。
概述
提供本概述是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
各实施例被配置成使用垃圾简档来排序搜索结果。在各实施例中,可以计算诸如垃圾分数之类的排序特征,并且排序特征被排序算法用来响应于搜索查询来排序候选文档。在一个实施例中,创建索引,以促进响应于搜索查询对候选文档的标识。在各实施例中,通过消除或分开地索引当创建文档时可能已经被自动地插入的文档数据来优化索引。在各实施例中,可以通过确定一个文档和已知垃圾文档之间的相似度来进一步计算文档的垃圾分数。在各实施例中,垃圾分数基于该文档的直方图与已知垃圾文档的直方图的比较。直方图可以基于诸如词频和块大小之类的不同的垃圾变量。在各实施例中,可以基于计算出的垃圾分数,将搜索结果标识为可能的垃圾文档,不管搜索结果是否是基于垃圾分数来排序的。这样的作为可能的垃圾的标识可以向用户显示,并可以被维护为可搜索的参数。
通过阅读下面的“详细描述”并参考相关联的图形,这些及其他特点和优点将变得显而易见。应该理解,前面的一般性的说明和下面的详细描述只是说明性的,不会对如权利要求所述的本发明形成限制。
附图简述
图1示出了根据本发明的用于排序搜索结果的系统的实施例。
图2示出了根据本发明的用于排序搜索结果的方法。
图3示出了根据本发明的用于创建索引的方法。
图4示出了根据本发明的用于计算垃圾分数的方法。
图5示出了根据本发明的示例性操作环境。
详细描述
响应于搜索查询返回的垃圾文档会使用户有挫败感并浪费宝贵的时间和精力。在各实施例中,“垃圾”文档可以包括不怎么包含人可读取的文档数据的文档或除由用于创建文档的系统或模板自动地添加的数据以外包含很少文档数据的文档。例如,在企业环境中,垃圾文档可以是生成的,但是不曾添加有意义的内容的文档。这样的文档常常可以具有与特定搜索查询项非常匹配的标题,流行的类型的统一资源定位符(“URL”)和匹配的锚文本。因此,默认的搜索结果排序器可能没有办法区别这样的垃圾文档与具有有用信息的文档,并可能将这样的垃圾文档排序在很高的位置。
如上文简要描述的,此处所公开的各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。一般而言,垃圾简档提供了表示已知的垃圾文档的参考度量或模型。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档有效地提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。
本系统和方法,虽然不如此限制,可以在其中文档语料库通过一个或多个已知系统和/或模板创建的企业环境中特别有用。在各实施例中,本发明的搜索组件可以使用诸如MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500021
系统之类的集成的服务器平台的功能,来计算、收集、存储,以及更新垃圾分数及可以被用作排序判断的一部分的其他排序特征。由于MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500031
系统包括可以用来创建文档的标准的以及可自定义的“模板”,因此,垃圾简档的创建可以得到简化。
在一个实施例中,系统包括搜索组件,该搜索组件包括可以作为计算机可读取的存储介质的一部分被包括的搜索应用程序。搜索应用程序可以被用来部分地基于用户查询来提供搜索结果。例如,用户可以向搜索应用程序输入关键字或其他搜索参数,搜索应用程序可以使用搜索参数来标识候选文档。候选文档可以部分地根据使用垃圾简档被排序,并呈现给用户。
图1是包括索引、搜索,及其他功能的系统100的框图。例如,系统100可包括索引、搜索,及其他应用程序,它们可以被用来作为索引的数据结构的一部分来索引信息并使用已索引的数据结构,搜索相关数据。如下面所描述的,系统100的组件可以被用来至少部分地基于文档的一个或多个垃圾分数,来排序和返回搜索结果。用户可以使用诸如,例如,浏览器或搜索窗口之类的用户界面103,向搜索组件102提交查询。
如图1所示,系统100包括诸如,例如,可以被配置成部分地基于查询输入来返回结果的搜索引擎之类的搜索组件102。例如,搜索组件102可以操作以使用一个单词、多个单词、短语、及其他数据来定位候选文档。搜索组件102可以操作以定位信息,并可以被操作系统(OS)、文件系统、基于web的系统,或其他系统使用。搜索组件102也可以作为插件组件被包括,其中,搜索功能可以被主机系统或应用程序使用。如此处进一步描述的,搜索组件102还可以使用垃圾分数作为对候选文档进行排序的排序特征。
搜索组件102可以被配置成提供可以与文档相关联的搜索结果(例如,统一资源定位符(URL))。例如,当返回与本地文件、远程联网文件,本地和远程文件的组合等等相关联的搜索结果时,搜索组件102可以使用文本、属性信息,格式,和/或元数据。在一个实施例中,当提供搜索结果时,搜索组件102可以与文件系统、虚拟web、网络或其他信息源进行交互。
搜索组件102包括排序组件104,该排序组件104可以被配置成至少部分地基于排序算法106和一个或多个排序特征108,对搜索结果(诸如候选文档)进行排序。在一个实施例中,排序算法106可以被配置成提供可以被搜索组件102用于排序目的的多个其他变量。排序特征108可以被描述为当标识搜索结果的相关性时可以使用的基本输入或原始数字。排序特征108可以被收集、存储,和维护在数据库组件110中。
可另选地,诸如垃圾分数之类的排序特征108可以被存储和维护在专用存储器中,包括本地、远程,及其他存储介质。排序特征108中的一个或多个可以被输入到排序算法106,而排序算法106可以操作以作为排序判断的一部分来对搜索结果进行排序。如下面所描述的,在一个实施例中,排序组件104可以作为排序判断的一部分,使用一个或多个排序特征108。
相应地,当作为排序判断的一部分使用排序特征108中的一个或多个时,搜索组件102可以使用排序组件104以及相关联的排序算法106来提供搜索结果。可以基于相关性排序或某种其他排序,提供搜索结果。例如,搜索组件102可以至少部分地基于由排序组件104使用包括垃圾分数的排序特征108中的一个或多个提供的相关性判断,从最相关到最不相关,呈现搜索结果。
继续参考图1,系统100还包括可以被用来索引信息的索引组件112。索引组件112可以被用来索引和编目要存储在数据库组件110中的信息。此外,当针对多个完全不同的信息源进行索引时,索引组件102可以使用元数据、内容和/或其他文档数据。例如,索引组件112可以被用来构建将关键字及其他文档数据映射到文档(包括与文档相关联的URL)的倒排索引数据结构。
当根据由排序组件104所提供的排序返回相关搜索结果(诸如候选文档)时,搜索组件102可以使用被索引的信息。在一个实施例中,作为搜索的一部分,搜索组件102可以被配置成标识一组包含诸如例如关键字和短语之类的用户的查询信息的一部分或全部的候选文档。例如,查询信息可以位于文档的正文或元数据或与文档相关联的额外的元数据中,该额外的元数据可以被存储在其他文档或数据存储中(诸如例如锚文本)。如下面所描述的,如果整组搜索结果比较大,则并非返回该整组搜索结果,搜索组件102可以使用排序组件104来就相关性或某种其他准则而论对候选进行排序,并至少部分地基于排序判断,返回整组的一子集。然而,如果该组候选不太大,则搜索组件102可以操作以返回整个组。
在一个实施例中,排序组件104可以使用排序算法106来根据相关性,排序与特定查询相关联的候选文档。例如,排序算法106可以计算与候选搜索结果相关联的排序值,其中,较高的排序值对应于更为相关的候选。可以将包括一个或多个排序特征108(诸如垃圾分数)的多个特征输入到排序算法106中,然后,排序算法106可以计算允许搜索组件102按排序或某种其他准则来对候选进行排序的输出。搜索组件102可以使用排序算法106通过根据排序来限制候选组,来防止用户不得不检查整组候选,诸如例如企业URL集合。
在各实施例中,当返回候选文档时,搜索组件102计算并选择候选文档的一个或多个垃圾分数,作为相关性判断的一部分。候选文档可以具有零个或多个与它们相关联的垃圾分数,使用垃圾分数对候选文档进行排序可以包括平均化、忽略,或查找候选文档的一组垃圾分数之中的最大值或最小值。
在一个实施例中,搜索组件102可以使用诸如MICROSOFT OFFICESHAREPOINT
Figure BDA00002501200500051
系统之类的集成的服务器平台的功能,来计算、收集、存储,以及更新垃圾分数及可以被用作排序判断的一部分的其他排序特征108。服务器平台的功能可包括web内容管理、企业内容服务、企业搜索、共享的业务进程、商务智能服务,及其他服务。例如,如此处所描述的,使用MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500052
系统创建的模板,可以被用来收集已知垃圾文档的参考信息。
如下面所描述的,作为相关性判断的一部分,可以使用两层神经网络。在一个实施例中,两层神经网络的实现包括培训阶段和排序阶段,作为使用两层神经网络的前向传播过程的一部分。在培训阶段,可以使用LambdaRank作为培训算法,并可以使用神经网络前向传播模型作为排序判断的一部分(参见
Figure BDA00002501200500061
Platt和Hofmann编著的(Ed.)神经信息处理系统中的进步19,2006年会议学报(MIT出版社,2006)中的C.Burges、R.Ragno、Q.V.Le所作的“Learning To Rank With Nonsmooth CostFunctions(学习用非平滑成本函数来排序)”,该文的全部内容通过参考结合于此)。例如,作为排序阶段的一部分,可以使用标准神经网络前向传播模型。可以将一个或多个垃圾分数用作排序特征108,并且结合两层神经网络作为基于用户查询来对候选文档排序的一部分。
在一个实施例中,排序组件104利用排序算法106,该排序算法106包括两层神经网络打分函数(此处还称为“打分函数”),该“打分函数”包括:
分数 ( x 1 , · · · , x n ) = ( Σ j = 1 m h j · w 2 ) - - - ( 1 )
其中,
h j = tanh ( ( Σ i = 1 n x i · w ij ) + t j ) - - - ( 1 a )
其中,
hj是隐藏节点j的输出,
xi是来自输入节点i的输入值,诸如一个或多个排序特征输入,
w2j是向隐藏节点输出应用的权重,
wij是应用于隐藏节点j输入的值xi的权重,
tj是对于隐藏节点j的阈值,
以及,tanh是双曲正切函数:
h j = tanh ( ( Σ i = 1 n x i · w ij ) + t j ) - - - ( 1 c )
在一个实施例中,上面可以使用具有与tanh函数类似的属性和特征的其他函数。在各实施例中,变量xi可以表示一个或多个垃圾分数或其他排序特征。作为相关性判断的一部分,在排序之前,可以使用λ排序培训算法来培训两层神经网络打分函数。此外,可以将新特征和参数添加到打分函数中,而不会显著影响培训准确性或培训速度。
当返回基于用户查询的搜索结果时,当进行相关性判断时,对于此实施例,可以输入一个或多个排序特征108,并由排序算法106,两层神经网络打分函数使用。在各实施例中,当作为返回基于用户查询的搜索结果的一部分作出相关性判断时,可以输入一个或多个垃圾分数,并由排序算法106用作排序特征108。
当排序和提供搜索结果时,也可以使用其他特征。在一个实施例中,点击距离(CD)、URL深度(UD)、文件类型或以前的类型(T)、语言或以前的语言(L),元数据、BM25F,和/或其他排序特征可以被用来排序和提供搜索结果。在2007年10月18日提交的标题为“Ranking andProviding Search Results Based in Part on a Number of Click ThroughParameters(部分地基于点进参数来排名和提供搜索结果)”的美国专利申请第11/874579号和2007年10月18提交的标题为“Enterprise RelevancyRanking Using a Neural Network(使用神经网络的企业相关性排名)”的美国专利申请第11/874844号中提供了关于使用两层神经网络来基于排序特征对搜索结果进行排序(包括对排序特征的转换和归一化)的更多细节,这两个申请的全部内容通过引用结合于此。在各实施例中,可以使用其他类型的排序算法106。例如,包括垃圾分数在内的这些(或额外的)排序特征108中的一个或多个也可以被用作由排序组件104所使用的线性排序判断或其他排序算法106的一部分。
图2示出了用于确定并使用垃圾分数作为排序特征以响应于搜索查询来对候选文档进行排序的方法200的实施例。在各实施例中,图2所示出的方法200的步骤以及此处的其他附图可以以不同的顺序执行,并且可以添加、消除,或组合步骤。图2的方法可以由诸如系统100之类的系统来执行。在步骤201中,创建语料库中的文档的索引。在各实施例中,索引是将文档数据映射到语料库内的文档的倒排索引。如此处所使用的,文档数据可以包括单词、数字、短语、文本、格式、元数据,及文档内的其他人可读取的和非人可读取的数据。另外,语料库可以是被爬取以创建索引的任何文档集合。如此处所使用的,文档包括文字处理文档、电子表格、网站、列表、文档库、web、演示文稿或其他文件。语料库可以通过特定网络(因特网、外部网,或其他网络),站点,或其他群组内的文件的集合来定义。在各实施例中,优选情况下,可以使用本系统和方法来标识使用特定模板来创建文档的语料库内的可能的垃圾文档。例如,MICROSOFTOFFICE SHAREPOINT
Figure BDA00002501200500081
系统包括标准文档模板,并准许用户来定义他们的MICROSOFT OFFICE SHAREPOINT环境特定的文档模板。
图3示出了用于在步骤201中创建索引的方法300的实施例,该方法300,在各实施例中,可以由系统的诸如索引组件112之类的索引组件来执行。在此实施例中,参考自动地生成的数据的词典,创建索引。在步骤301中,爬取文档语料库。在步骤302中,选择自动地生成的数据的词典。
在各实施例中,可以通过使用与语料库相关联的系统来创建空白文档,来创建自动地生成的数据的词典。如此处所使用的,“空白”意味着,当创建文档时,除由与语料库相关联的系统自动创建和插入在文档中的文档数据以外,实质上缺少文档数据。例如,MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500083
系统准许用户定义特定文档库的模板,而文档库可以包括可以如此处所阐述的被索引,查询和排序的文档语料库。利用这样的模板创建的空白文档将包括由MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500084
系统自动地生成的某些文档数据(诸如文本、格式、元数据等等)。然后,可以通过提取和编译空白文档中的文档数据来创建自动地生成的数据的词典。还可以通过检查语料库中的现有文档中的某些或全部,并标识对语料库中的相当大的比例的文档公共的文档数据,来创建或扩充词典。词典可以包括从空白文档中所提取的文档数据的内容和位置信息两者。
在各实施例中,可以为用于生成空白文档的不同的语料库,不同的模板,以及不同的系统创建自动地生成的数据的不同的词典。另外,可以通过准许用户指定要使用的特定空白文档,给用户(诸如管理员)提供创建要对于特定类型的文档使用的新词典的能力。例如,可以提供包括由诸如MICROSOFT OFFICE SHAREPOINT
Figure BDA00002501200500091
系统之类的特定系统所生成的预定义的模板的计算机可读存储介质。例如,一个这样的预定义的模板可以包括联系人管理模板,而第二这样的预定义的模板可以是销售领先管道化模板。为这些模板中的每一个自动地生成的数据的词典可以被编译并作为系统的一部分预先加载。然而,管理员可以使用系统来自定义现有模板或创建新自定义模板。在各实施例中,可以提示管理员(或系统可以自动地)使用这样的自定义模板来生成空白文档,并编译从这样的自定义模板自动地生成的数据的词典。如此,如下面所阐述的,在各实施例中,可以使用正在被索引的特定文档所特定的自动地生成的数据的词典。
在步骤302中,选择至少一个自动地生成的数据的词典。如上文所描述的,取决于语料库中的文档的类型,也可以有一个以上的词典可用于选择。在各实施例中,如果语料库中的所有文档是使用同一个系统并使用同一个模板创建的,那么,可以选择单个词典并将其用于语料库中的所有文档。可另选地,在各实施例中,语料库可以包括由完全不同的系统或使用不同的模板创建的文档,可以为不同的文档选择不同的词典。另外,在各实施例中,可以定义组合了使用完全不同的系统或跨语料库的模板创建的文档的内容和位置信息两者的单个词典。在各实施例中,所选一个或多个词典可以被视为垃圾简档的一部分。
在步骤304中,将爬取的文档的文档数据对照自动地生成的数据的所选一个或多个词典进行比较。在各实施例中,将每一个爬取的文档的文档数据对照为该文档选择的词典(或多个词典)进行比较,以确定什么文档信息可能是由用于创建该爬取的文档的系统(和/或模板)自动地生成的。例如,用于创建文档的系统所定义的模板可以在使用该模板创建的每个文档的标题中自动地包括单词“Task(任务)”。单词“Task”以及其在模板内的位置包括在为该文档选择的自动地生成的数据的词典中。在将文档与词典进行比较之后,文档的标题中的单词“Task”可以被确定为“匹配”所选词典中的对应的条目。如此处所使用的,“匹配”可以包括内容、位置或两者的准确的或显著的关联度。另外,在各实施例中,将文档数据匹配到自动地生成的数据的词典(或多个词典)可以被视为如这里所描述的计算垃圾分数。
在步骤306,描绘了匹配自动地生成的数据的所选词典的文档数据。在各实施例中,这样的匹配文档数据可以通过标记文档或索引中的匹配文档数据,与非匹配文档数据分开地索引匹配文档数据,忽略匹配文档数据并只索引非匹配文档数据,或通过其他方法来描绘。
考虑下列简单示例。虽然此示例是使用文本文档数据来提供的,但是,也可以使用任何文档数据(例如,元数据、格式,非人可读取的数据等等)。给定文本T0=“you know what it is”;T1=“what is it”;T2=“it is abird”,通常将创建下列完整的倒置文件索引(其中,一对数字指代文档编号(Tx)和单词位置)。例如,单词“bird”位于第三文档(T2),它是该文档中的第四单词(位置3):
"a":[(2,2)]
"bird":[(2,3)]
"is":[(0,4),(1,1),(2,1)]
"it":[(0,3),(1,2),(2,0)]
"know":[(0,1)]
"what":[(0,2),(1,0)]
"you":[(0,0)]
现在假设为所有三个文档选择了同一个词典,而所选词典包括位置1处的单词“is”(例如,因为使用用于创建文档0,1,和2的同一个系统和模板创建的空白文档在位置1处包含单词“is”)。在各实施例中,位置1处的单词“is”匹配文档1和2中的每一个中的文档数据。可以以多种方式来描绘该匹配文档数据。例如,在索引中可以忽略来自文档1和2的匹配文档数据。在此实施例中,上面的示例的索引将变为:
"a":[(2,2)]
"bird":[(2,3)]
"is":[(0,4)]
"it":[(0,3),(1,2),(2,0)]
"know":[(0,1)]
"what":[(0,2),(1,0)]
"you":[(0,0)]
如此,将响应于搜索查询被进行搜索的索引被最小化(用于更快的搜索),并更加聚焦于用户添加的内容(而并非由用于创建文档的系统或模板自动地添加的文档数据)。在其他实施例中,匹配文档数据可以被分开地索引,以便可以针对主要索引(从非匹配文档数据导出的)和辅助索引(从匹配文档数据导出的)两者运行随后的搜索查询。因此,在各实施例中,诸如排序算法106之类的排序算法,可以给搜索查询项在主索引中的出现比这样的项在辅助索引中的出现赋予更重要的权重。
在步骤308,索引语料库中的文档。在各实施例中,组合步骤306和308,匹配所选词典的文档数据可以通过如上文所讨论的这样的文档数据(以及文档)被索引(或不被索引)的方式被描绘为匹配。
在步骤310,为语料库中的爬取的文档中的某些或全部计算垃圾分数。在各实施例中,在步骤310,计算垃圾分数,该垃圾分数是爬取的文档和用于创建自动地生成的数据的所选词典的空白文档之间的相似度度量的函数(诸如库尔贝克-莱布勒发散性)。例如,相似度度量可以包括匹配所选词典中的对应的条目的文档数据与不匹配所选词典中的对应的条目的文档数据的比率。在各实施例中,相对较高的相似度度量表示除用于创建所选词典的空白文档中的东西以外不包括许多文档数据的文档。这可以被视为文档可能是“垃圾”的指示,可以将对应的垃圾分数指定给文档,并作为诸如排序特征108之类的排序特征存储数据库组件110中。垃圾分数可以包括相似度度量本身,或者也可以包括相似度度量的函数,以便归一化和使用垃圾分数作为排序特征。
在各实施例中,如果将文档与一个以上的选择的词典进行比较304,则可以根据文档针对所选词典的相似度度量的平均值、最大值、最小值的函数或其他计算值,来计算310垃圾分数。在步骤310计算出的垃圾分数可以被用作如此处所提供的排序特征。
回头参考图2,在步骤202,使用垃圾简档来计算一个或多个垃圾分数。在各实施例中,对垃圾分数的计算可以与创建201语料库中的文档的索引相结合地进行。例如,如所讨论的,爬取的文档和用于创建自动地生成的数据的所选词典(或多个词典)的空白文档之间的相似度度量可以被用来确定垃圾分数。在其他实施例中,在步骤310计算出的垃圾分数可以不计算,或也可以与使用来自垃圾简档的垃圾变量计算202垃圾分数组合或者作为额外的排序特征相结合与其相结合。
如此处的各实施例中所使用的,垃圾变量可以意味着可以被用来确定一个文档和已知垃圾文档之间的相似度的变量。例如,如下面所讨论的,在各实施例中,垃圾变量可以包括词频。在其他实施例中,垃圾变量可以包括块大小。垃圾变量可以个别地使用或也可以组合起来使用。
在步骤202,在各实施例中,根据为文档创建的一个或多个直方图和垃圾简档之间的相似度度量来计算文档的垃圾分数,其中,垃圾简档包括已知垃圾文档的一个或多个直方图。图4示出了用于使用一个或多个垃圾简档来计算202文档的垃圾分数的方法400的一个实施例。
在各实施例中,当在步骤201索引文档的同时,或否则,在接收搜索查询之前,对于语料库中的所有文档,执行方法400。在其他实施例中,可以在接收到搜索查询并标识了候选文档之后,执行方法400。方法400是参考一个文档来描述的,然而,可以对例如语料库中的任何或所有文档,或者对响应于搜索查询标识的候选文档,重复方法400。
在步骤401,在各实施例中,基于垃圾变量,为文档生成至少一个直方图。如此处所使用的,直方图可以是所定义的类别(或柱)内的变量的表示。在其他实施例中,可以使用垃圾变量的分布的替换的表示,来代替直方图或作为其补充。例如,可以计算或估计连续函数,来表示这样的分布,而不将它转换为直方图。此处被分析的文档的直方图被描述为“候选直方图”。
在方法400所示出的示例实施例中,在步骤401,为文档生成候选直方图。在下面的示例中,候选直方图基于文档的词频(例如,文档中的具有语料库中的对应的出现频率的唯一检索词的百分比)。例如,在一个简单示例中假设文档包括四个检索词:T1、T2、T3,以及T4。按如下方式,示出了每一个检索词的示例总的语料库频率(即,语料库中包含此检索词的文档的总数):
T1:10
T2:300
T3:100000
T4:50
可以相对于类别或“柱”定义此文档的词频候选直方图。在此示例中,为总的语料库频率定义了四个柱:[1...20],[21...400],[401...12000],[12001...最大]。因此,此文档的词频候选直方图可以被表示为:[0.25,0.5,0.0,0.25]。这反映了四个检索词中的一个落入第一柱内,四个检索词中的两个落入第二柱内,四个检索词中没有一个落入第三柱内,而四个检索词中的一个落入第四柱内。
在步骤402,将候选直方图与至少一个垃圾简档进行比较。除上文参考图2和3所描述的垃圾简档之外,垃圾简档可以进一步包括已知垃圾文档的一个或多个直方图。它还可以包括逼近已知垃圾文档的表示的一个或多个规则。在不同的实施例中,可以以不同的方式定义“垃圾文档”。例如,在某些实施例中,垃圾文档包括整体来看包括较大比例的非人可读取的文档数据的文档。在其他实施例中,垃圾文档可以包括几乎是空的文档。在各实施例中,出于创建参考直方图的目的,管理员被准许(例如,通过用户界面103)将特定现有的文档定义为“已知垃圾”。
例如,参考上文参照步骤401所讨论的简单示例,假设已知垃圾文档包括下列检索词(带有每一个检索词的总的语料库频率):
T1:10
T3:100000
T5:500
T6:1000
T7:12
可以相对于相同类别或“柱”,将此已知垃圾文档的词频参考直方图定义为候选直方图:[1...20],[21...400],[401...12000],[12001...最大]。因此,此已知垃圾文档的词频参考直方图可以被表示为:[0.4,0.0,0.4,0.2]。这反映了五个检索词中的两个落入第一柱内,五个检索词没有一个落入第二柱内,五个检索词中两个落入第三柱内,而五个检索词中的一个落入第四柱内。
候选直方图与垃圾简档的比较402(在此示例中,垃圾简档包括参考直方图)可以采用许多形式。例如,可以通过将相似度度量计算为候选直方图和参考直方图之间的距离来比较直方图:
Figure BDA00002501200500141
在此示例比较函数中,B1是候选直方图,B2是参考直方图,B1(i)是第i’个柱的候选直方图的值,而B2(i)是第’个柱的参考直方图的值。此计算产生0和1之间的相似度度量。
再次参考上面的示例,比较步骤402按如下方式计算候选直方图和参考直方图之间的相似度度量:
相似度度量 ( B 1 , B 2 ) = ( . 4 - . 25 ) 2 + ( 0.0 - . 5 ) 2 + ( . 4 - 0.0 ) 2 + ( . 2 - . 25 ) 2
≈ . 66
在此示例计算中,候选直方图和参考直方图越相似,相似度度量越靠近零(如此,表示文档是垃圾的可能性越高)。
在步骤404,为文档计算至少一个垃圾分数。在各实施例中,垃圾分数可以包括相似度度量本身。在其他实施例中,相似度度量可以被转换为不同的比例。另外,步骤402中所使用的垃圾简档可以包括一个以上的参考直方图。例如,一个以上的已知垃圾文档可以被用来创建垃圾简档。在各实施例中,垃圾分数可以包括在比较步骤402过程中计算出的多个相似度度量的平均值、加权平均值、最大值、最小值的函数或某种其他函数。另外,可以基于诸如词频之类的垃圾变量,来计算文档的一个以上的垃圾分数,如此处进一步描述的,所有这样的垃圾分数都可以被排序算法使用。垃圾分数可以作为元数据与文档本身一起存储,与文档分开存储,或以其他方式存储。
在步骤406,就是否请求了警告作出判断。例如,在各实施例中,管理员可以在计算出了超出某一阈值的垃圾分数时请求警告。应该理解,取决于特定比例是如何定义的,如此处所使用的“超出阈值”可以是指落在特定阈值之上或之下的测量(诸如垃圾分数)。如果没有请求警告,则方法400可以结束(在各实施例中,控制返回到图2中的步骤204)。如果请求了警告,则就计算出的垃圾分数是否超出阈值作出判断408。在各实施例中,阈值是可由管理员调节的。如果没有超出阈值,则方法400可以结束。如果超出了阈值,则发送警告410。警告可以采用不同的形式,包括电子邮件、声音消息、文本等等,并可以向用户、管理员等等发送。如此,可以向管理员及其他人警告可能需要删除的垃圾文档。另外,还可以使用垃圾分数作为可搜索的属性。例如,用户可能希望搜索具有高垃圾分数的文档,因为它们可能是用于存档的好的候选。另一个用户可能希望使用垃圾分数作为搜索准则,自动地使带有高于特定阈值的垃圾分数的文档从返回的搜索结果中被过滤出来。在其他实施例中,可以由管理员或用户查询垃圾分数,以便发现是用于删除的候选的文档。
参考使用基于一个垃圾变量的文档的直方图描述了方法400,然而,可以对于使用其他垃圾变量的直方图来重复方法400。例如,可以被用来预测文档是否是垃圾的另一种垃圾变量是“块大小”。块大小是连续的文本的长度。诸如电子表格之类的某些文档类型具有大量的非人可读取的数据。可以预期诸如文字处理文档之类的其他文档具有比较长的连续的文本的块。基于文档的块大小的直方图可以示出块大小在文档内的分布(连续的文本的遍数(run))。取决于文档类型,可以通过扫描文档的文本并测量逻辑中断(诸如单元格、段落、句子、分页等等)之间的距离来以不同的方式测量块。在各实施例中,文档内的块大小分布和已知垃圾文档中的块大小分布之间的相似度是文档是否应当被表征为垃圾的指示符。
基于不同的直方图和/或垃圾变量的文档和垃圾简档之间的相似度度量可以被合并到单个垃圾分数中,或被用作单个垃圾分数,这些分数被诸如排序算法106之类的排序算法用作排序特征。
再次参考图2,方法200在步骤204继续,在那里,接收搜索查询。在各实施例中,用户可以使用诸如用户界面103之类的用户界面来输入搜索查询。搜索查询可以包括关键字、短语或其他搜索参数,包括非文本搜索参数(诸如格式等等)。在步骤206,标识候选文档。例如,如参考图1所描述的,诸如搜索组件102之类的搜索组件可以返回匹配搜索查询的候选文档。
在步骤208,对候选文档进行排序。如参考图1所描述的,可以使用排序组件104,使用一个或多个排序算法106和一个或多个排序特征108,对候选文档进行排序。如此处所阐述而计算出的垃圾分数可以被用作排序特征108。也可以使用其他排序特征108。在各实施例中,单个文档的排序如此可以受文档的垃圾分数的影响。如此,原本由于文档紧密地匹配搜索查询项而排在较高的位置的文档可能由于高的垃圾分数而排序得较低。在其他实施例中,对文档的实际排序不受垃圾分数的影响。相反,使用垃圾分数来向用户提供可能的垃圾的指示,而不会影响列出文档的顺序。在步骤210,呈现了排序的候选文档。例如,可以按照文档排序的顺序,向用户显示文档的子集(例如,开头十个)。在各实施例中,具有超出阈值的垃圾分数的文档可能根本不呈现(例如,可以删去,不作为候选文档)。在其他实施例中,文档的垃圾分数与候选文档一起呈现(例如,在候选文档的排序的列表中),以便用户可以作出是否要点击具有特定垃圾分数的文档的独立判断。在其他实施例中,可以使用垃圾阈值。如果文档的垃圾分数超出垃圾阈值,则该文档可以与该文档可能是垃圾的指示一起显示。例如,如果垃圾分数超出垃圾阈值,则可以在候选文档的排序的列表中为该文档显示垃圾符号或实际垃圾分数。如此处所使用的,显示的垃圾分数或垃圾符号应该被视为“垃圾状态”。
在各实施例中,本系统和方法对检测“偶然的垃圾文档”(并非包含恶意的或不希望有的信息的文档,即,“敌手的垃圾”)有用。例如,用户可能已经开始创建演示文稿,插入了标题,保存了演示文稿,而没有添加任何额外的内容,然后,忘记了这件事。通常,响应于包含用于该演示文稿的标题中的项的搜索查询,搜索组件可能将返回该演示文稿,并将它排在很高的位置。然而,检测到演示文稿类似于已知垃圾文档(例如,具有类似的词频分布),允许搜索组件将该演示文稿排在较适当的位置。
图5示出了其中可以实现软件实施例的合适的操作环境500的一个示例。这只是合适的操作环境的一个示例,并非旨在对使用范围或功能提出任何限制。适用的其他公知计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
在其最基本配置中,操作环境500通常包括至少一个处理单元502和存储器504。取决于计算设备的确切配置和类型,存储器504(存储,其中,如此处所描述的计算出的垃圾分数)可以是易失性(如RAM)、非易失性(如ROM、闪存等)或是两者的某种组合。该最基本配置在图5中由虚线506来示出。此外,环境500还可包括存储设备(可移动508和/或不可移动510),包括但不限于磁盘、光盘或磁带。类似地,环境500也可包括一个或多个输入设备514,如键盘、鼠标、笔、语音输入设备等等,和/或输出设备516,如显示器、扬声器、打印机等等。环境还可以包括一个或多个通信连接512,如LAN、WAN、点对点等等。
操作环境500通常至少包括某种形式的计算机可读介质。计算机可读介质可以是可以被处理单元502或构成操作环境的其他设备访问的任何可用的介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者可用于存储所需信息的任何其他介质。通信介质通常以诸如载波或其他传输机制的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在计算机可读介质的范围之内。
操作环境500可以是使用对一个或多个远程计算机的逻辑连接在联网环境中工作的单个计算机。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点,通常包括上文所描述的许多或全部元件。逻辑连接可以包括由可用的通信介质支持的任何方法。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
应该了解,本发明的各实施例可以实现成(1)计算机实现的动作序列或在计算系统上运行的程序模块和/或(2)计算系统内的互连机器逻辑电路或电路模块。实现是取决于实现本发明的计算系统的性能要求的选择问题。因此,包括相关算法的逻辑操作可以被不同地称为操作、结构设备、动作、或模块。所属领域技术人员将认识到,在不偏离在此处所阐述的权利要求书内所列举的本发明的精神和范围的情况下,这些操作、结构设备、动作和模块可以以软件、固件、特殊用途数字逻辑,以及其任何组合来实现。
虽然结合各个示例性实施例描述了本发明,但是,本领域技术人员可以理解,在随后的权利要求书的范围内可以对本发明进行许多修改。因此,本发明的范围不以任何方式受上面的描述的限制,而是完全参考随后的权利要求书来确定。

Claims (10)

1.一种用于响应于搜索查询来对候选文档进行排序的计算机实现的方法,包括下列步骤:
由至少第一处理器,创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档中标识候选文档,其中,所述候选文档包括至少所述第一文档;
对所述候选文档进行排序。
2.如权利要求1所述的计算机实现的方法,其特征在于,所述垃圾简档包括至少一个已知垃圾文档的表示,其中,对所述候选文档进行排序包括至少部分地基于所述第一文档的所述垃圾分数来对所述候选文档进行排序。
3.如权利要求1所述的计算机实现的方法,其特征在于,还包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;以及
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量。
4.如权利要求3所述的计算机实现的方法,其特征在于,所述垃圾简档包括第二已知垃圾文档的所述第一垃圾变量的第二参考直方图,其中,计算所述垃圾分数包括将所述候选直方图与所述第二参考直方图进行比较,以确定第二相似度度量。
5.如权利要求4所述的计算机实现的方法,其特征在于,计算所述垃圾分数包括下列各项中的至少一项:计算所述第一和第二相似度度量中的最大值,以及计算所述第一和第二相似度度量的平均值。
6.如权利要求1所述的计算机实现的方法,其特征在于,还包括显示已排序的候选文档和显示至少所述第一文档的垃圾状态的步骤。
7.如权利要求1所述的计算机实现的方法,其特征在于:
所述垃圾简档包括自动地生成的数据的词典;
计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
8.如权利要求7所述的计算机实现的方法,其特征在于,标识所述候选文档包括将所述搜索查询与所述索引中的文档数据进行比较,且其中,对所述候选文档进行排序包括判断匹配所述搜索查询的文档数据是否被描绘为匹配所述自动地生成的数据。
9.一种用于响应于搜索查询来对候选文档进行排序的系统,包括:
至少一个处理器;
存储器,所述存储器可操作地连接到所述至少一个处理器并包含指令,所述指令在由所述至少一个处理器执行时,执行包括下列各项的一种方法:
创建语料库中的多个文档的索引;
使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;
接收搜索查询;
基于所述搜索查询和所述索引,从所述语料库中的所述多个文档标识候选文档,其中,所述候选文档包括至少所述第一文档;
至少部分地基于所述第一文档的所述垃圾分数,对所述候选文档进行排序。
10.如权利要求9所述的系统,其特征在于,所述方法进一步包括:
为至少所述第一文档,创建至少第一垃圾变量的候选直方图;
其中,所述垃圾简档包括至少第一已知垃圾文档的所述第一垃圾变量的第一参考直方图;
其中,计算所述垃圾分数包括将所述候选直方图与所述第一参考直方图进行比较,以确定第一相似度度量;
其中,所述垃圾简档包括自动地生成的数据的词典;
其中,计算所述垃圾分数还包括将来自所述语料库中的所述多个文档的文档数据与自动地生成的数据的所述词典进行比较;以及
其中,创建所述索引包括在所述索引中描绘匹配所述自动地生成的数据的文档数据。
CN201180027027.4A 2010-06-01 2011-04-19 在搜索结果排序中对垃圾的检测 Active CN102918532B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/791,756 2010-06-01
US12/791,756 US8738635B2 (en) 2010-06-01 2010-06-01 Detection of junk in search result ranking
PCT/US2011/033125 WO2011152925A2 (en) 2010-06-01 2011-04-19 Detection of junk in search result ranking

Publications (2)

Publication Number Publication Date
CN102918532A true CN102918532A (zh) 2013-02-06
CN102918532B CN102918532B (zh) 2015-12-16

Family

ID=45022943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180027027.4A Active CN102918532B (zh) 2010-06-01 2011-04-19 在搜索结果排序中对垃圾的检测

Country Status (4)

Country Link
US (1) US8738635B2 (zh)
EP (1) EP2577521A4 (zh)
CN (1) CN102918532B (zh)
WO (1) WO2011152925A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN109074172A (zh) * 2016-04-13 2018-12-21 微软技术许可有限责任公司 向电子设备输入图像
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US11281639B2 (en) * 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
US20170222960A1 (en) * 2016-02-01 2017-08-03 Linkedin Corporation Spam processing with continuous model training
US10754881B2 (en) * 2016-02-10 2020-08-25 Refinitiv Us Organization Llc System for natural language interaction with financial data
US11366872B1 (en) * 2017-07-19 2022-06-21 Amazon Technologies, Inc. Digital navigation menus with dynamic content placement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024752A1 (en) * 2002-08-05 2004-02-05 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
US20060248074A1 (en) * 2005-04-28 2006-11-02 International Business Machines Corporation Term-statistics modification for category-based search
CN101000608A (zh) * 2006-01-11 2007-07-18 吴风勇 基于搜索引擎技术的关键字动态匹配生成的方法
CN101180624A (zh) * 2004-10-28 2008-05-14 雅虎公司 基于链接的垃圾检测
US20090024606A1 (en) * 2007-07-20 2009-01-22 Google Inc. Identifying and Linking Similar Passages in a Digital Text Corpus
CN101360074A (zh) * 2008-09-27 2009-02-04 腾讯科技(深圳)有限公司 一种确定可疑垃圾邮件范围的方法和系统

Family Cites Families (350)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226161A (en) 1987-08-21 1993-07-06 Wang Laboratories, Inc. Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types
US5369778A (en) 1987-08-21 1994-11-29 Wang Laboratories, Inc. Data processor that customizes program behavior by using a resource retrieval capability
US5222236A (en) 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5257577A (en) 1991-04-01 1993-11-02 Clark Melvin D Apparatus for assist in recycling of refuse
WO1994012944A1 (en) 1992-11-23 1994-06-09 Paragon Concepts, Inc. Computer filing system with user selected categories to provide file access
US6202058B1 (en) 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5729730A (en) 1995-03-28 1998-03-17 Dex Information Systems, Inc. Method and apparatus for improved information storage and retrieval system
US5826269A (en) 1995-06-21 1998-10-20 Microsoft Corporation Electronic mail interface for a network server
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US5855020A (en) 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5905866A (en) 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6038610A (en) 1996-07-17 2000-03-14 Microsoft Corporation Storage of sitemaps at server sites for holding information regarding content
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5765150A (en) 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5870739A (en) 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
US5893116A (en) 1996-09-30 1999-04-06 Novell, Inc. Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6222559B1 (en) 1996-10-02 2001-04-24 Nippon Telegraph And Telephone Corporation Method and apparatus for display of hierarchical structures
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6415319B1 (en) 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5890147A (en) 1997-03-07 1999-03-30 Microsoft Corporation Scope testing of documents in a search engine using document to folder mapping
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6272507B1 (en) 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
AUPO710597A0 (en) 1997-06-02 1997-06-26 Knowledge Horizons Pty. Ltd. Methods and systems for knowledge management
US6029164A (en) 1997-06-16 2000-02-22 Digital Equipment Corporation Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125104A (ja) 1997-06-30 1999-01-29 Canon Inc 情報処理装置および方法
JPH1125119A (ja) 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US5956722A (en) 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US6999959B1 (en) * 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6070191A (en) 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6594682B2 (en) 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US5991756A (en) 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US5943670A (en) 1997-11-21 1999-08-24 International Business Machines Corporation System and method for categorizing objects in combined categories
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6473752B1 (en) 1997-12-04 2002-10-29 Micron Technology, Inc. Method and system for locating documents based on previously accessed documents
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US7010532B1 (en) 1997-12-31 2006-03-07 International Business Machines Corporation Low overhead methods and apparatus for shared access storage devices
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
JP3998794B2 (ja) 1998-02-18 2007-10-31 株式会社野村総合研究所 ブラウジングクライアントサーバーシステム
KR100285265B1 (ko) 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US5913210A (en) 1998-03-27 1999-06-15 Call; Charles G. Methods and apparatus for disseminating product information via the internet
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6151595A (en) 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6167402A (en) 1998-04-27 2000-12-26 Sun Microsystems, Inc. High performance message store
US6240407B1 (en) 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
AU4126899A (en) 1998-06-08 1999-12-30 Kaufman Consulting Services Ltd. Method and system for retrieving relevant documents from a database
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6216123B1 (en) 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6199081B1 (en) 1998-06-30 2001-03-06 Microsoft Corporation Automatic tagging of documents and exclusion by content
US6424966B1 (en) 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
CN1324464A (zh) 1998-08-26 2001-11-28 西姆泰克有限公司 映射数据文件的方法和设备
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
RU2138076C1 (ru) 1998-09-14 1999-09-20 Закрытое акционерное общество "МедиаЛингва" Система поиска информации в компьютерной сети
US6115709A (en) 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6549897B1 (en) 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6360215B1 (en) 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6574632B2 (en) 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
JP2000194713A (ja) 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
US6922699B2 (en) 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US6862710B1 (en) 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6763496B1 (en) 1999-03-31 2004-07-13 Microsoft Corporation Method for promoting contextual information to display pages containing hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6336117B1 (en) 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US7835943B2 (en) 1999-05-28 2010-11-16 Yahoo! Inc. System and method for providing place and price protection in a search result list generated by a computer network search engine
US6990628B1 (en) 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6547829B1 (en) 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US6631369B1 (en) 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
US6873982B1 (en) 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6557036B1 (en) 1999-07-20 2003-04-29 Sun Microsystems, Inc. Methods and apparatus for site wide monitoring of electronic mail systems
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
CA2279119C (en) 1999-07-29 2004-10-19 Ibm Canada Limited-Ibm Canada Limitee Heuristic-based conditional data indexing
JP3931496B2 (ja) 1999-08-11 2007-06-13 富士ゼロックス株式会社 ハイパーテキスト解析装置
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US6381597B1 (en) 1999-10-07 2002-04-30 U-Know Software Corporation Electronic shopping agent which is capable of operating with vendor sites which have disparate formats
US7346604B1 (en) 1999-10-15 2008-03-18 Hewlett-Packard Development Company, L.P. Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
US6687698B1 (en) 1999-10-18 2004-02-03 Fisher Rosemount Systems, Inc. Accessing and updating a configuration database from distributed physical locations within a process control system
JP3772606B2 (ja) 1999-10-19 2006-05-10 株式会社日立製作所 電子文書管理方法及びシステム並びに記録媒体
WO2001031500A1 (en) 1999-10-29 2001-05-03 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6263364B1 (en) 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6351755B1 (en) 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6418452B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6418453B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6539376B1 (en) 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US6886129B1 (en) 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6772141B1 (en) 1999-12-14 2004-08-03 Novell, Inc. Method and apparatus for organizing and using indexes utilizing a search decision table
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
JP2001265774A (ja) 2000-03-16 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
US6516312B1 (en) 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6549896B1 (en) 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US6718365B1 (en) 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6859800B1 (en) 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6678692B1 (en) 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6601075B1 (en) 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US6598040B1 (en) 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
EP1323112A4 (en) 2000-08-25 2006-08-02 Jonas Ulenas METHOD AND APPARATUS FOR OBTAINING PREFERENCES OF CONSUMER PRODUCTS BY SELECTING AND EVALUATING PRODUCTS
JP3472540B2 (ja) 2000-09-11 2003-12-02 日本電信電話株式会社 サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体
NO313399B1 (no) 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
US6598051B1 (en) 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
JP3525885B2 (ja) 2000-10-25 2004-05-10 日本電信電話株式会社 多角的検索サービス方法およびそのプログラムを記録した記録媒体
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
JP2002140365A (ja) 2000-11-01 2002-05-17 Mitsubishi Electric Corp データ検索方法
US7200606B2 (en) 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US20020078045A1 (en) 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6898592B2 (en) 2000-12-27 2005-05-24 Microsoft Corporation Scoping queries in a search engine
JP2002202992A (ja) 2000-12-28 2002-07-19 Speed System:Kk ホームページ検索システム
US6778997B2 (en) 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20020107886A1 (en) 2001-02-07 2002-08-08 Gentner Donald R. Method and apparatus for automatic document electronic versioning system
US7571177B2 (en) 2001-02-08 2009-08-04 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US20040003028A1 (en) 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
JP2002245089A (ja) 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置
US7627596B2 (en) 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7188106B2 (en) 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US20020165860A1 (en) 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US6738764B2 (en) * 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
IES20020335A2 (en) 2001-05-10 2002-11-13 Changing Worlds Ltd Intelligent internet website with hierarchical menu
US6865295B2 (en) * 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US6782383B2 (en) 2001-06-18 2004-08-24 Siebel Systems, Inc. System and method to implement a persistent and dismissible search center frame
US6947920B2 (en) * 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7039234B2 (en) 2001-07-19 2006-05-02 Microsoft Corporation Electronic ink as a software object
US6868411B2 (en) 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6928425B2 (en) 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
KR100509276B1 (ko) 2001-08-20 2005-08-22 엔에이치엔(주) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US6970863B2 (en) 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6766422B2 (en) 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
JP2003208434A (ja) 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US20030101183A1 (en) 2001-11-26 2003-05-29 Navin Kabra Information retrieval index allowing updating while in use
US6763362B2 (en) 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
US7565367B2 (en) 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
JP3871201B2 (ja) 2002-01-29 2007-01-24 ソニー株式会社 コンテンツ提供取得システム
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
JP4021681B2 (ja) 2002-02-22 2007-12-12 日本電信電話株式会社 ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
US20060004732A1 (en) 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
KR100490748B1 (ko) 2002-04-11 2005-05-24 한국전자통신연구원 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법
US7039631B1 (en) 2002-05-24 2006-05-02 Microsoft Corporation System and method for providing search results with configurable scoring formula
RU2273879C2 (ru) 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US20040006559A1 (en) 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
US7246128B2 (en) 2002-06-12 2007-07-17 Jordahl Jena J Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CA2395905A1 (en) 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
JP2004164555A (ja) 2002-09-17 2004-06-10 Fuji Xerox Co Ltd 検索装置および方法ならびにそのインデクス構築装置および方法
US20040064442A1 (en) 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7085755B2 (en) 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US7231379B2 (en) 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
US7020648B2 (en) 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US7734565B2 (en) 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
RU2236699C1 (ru) 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
JP4299022B2 (ja) 2003-02-28 2009-07-22 トヨタ自動車株式会社 コンテンツ検索用インデックス生成装置
US20040181515A1 (en) 2003-03-13 2004-09-16 International Business Machines Corporation Group administration of universal resource identifiers with members identified in search result
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
EP1462950B1 (en) 2003-03-27 2007-08-29 Sony Deutschland GmbH Method for language modelling
US7028029B2 (en) 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7216123B2 (en) 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7451130B2 (en) 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US7451129B2 (en) 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7283997B1 (en) 2003-05-14 2007-10-16 Apple Inc. System and method for ranking the relevance of documents retrieved by a query
US7502779B2 (en) 2003-06-05 2009-03-10 International Business Machines Corporation Semantics-based searching for information in a distributed data processing system
US8239380B2 (en) 2003-06-20 2012-08-07 Microsoft Corporation Systems and methods to tune a general-purpose search engine for a search entry point
US7228301B2 (en) 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
US7630963B2 (en) 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
US20050060186A1 (en) 2003-08-28 2005-03-17 Blowers Paul A. Prioritized presentation of medical device events
US7454417B2 (en) 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7552109B2 (en) 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US7346208B2 (en) 2003-10-25 2008-03-18 Hewlett-Packard Development Company, L.P. Image artifact reduction using a neural network
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US7181447B2 (en) 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US20060047649A1 (en) 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20050160107A1 (en) 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7685104B2 (en) 2004-01-08 2010-03-23 International Business Machines Corporation Dynamic bitmap processing, identification and reusability
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7392278B2 (en) 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
JP2004192657A (ja) 2004-02-09 2004-07-08 Nec Corp 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7281002B2 (en) 2004-03-01 2007-10-09 International Business Machine Corporation Organizing related search results
US9104689B2 (en) 2004-03-17 2015-08-11 International Business Machines Corporation Method for synchronizing documents for disconnected operation
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
JP2005277445A (ja) 2004-03-22 2005-10-06 Fuji Xerox Co Ltd 会議映像処理装置、会議映像処理方法およびプログラム
US7343374B2 (en) 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7580568B1 (en) 2004-03-31 2009-08-25 Google Inc. Methods and systems for identifying an image as a representative image for an article
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050251499A1 (en) 2004-05-04 2005-11-10 Zezhen Huang Method and system for searching documents using readers valuation
US7257577B2 (en) 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7136851B2 (en) 2004-05-14 2006-11-14 Microsoft Corporation Method and system for indexing and searching databases
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7349901B2 (en) * 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US8131674B2 (en) 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7730012B2 (en) 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US7395260B2 (en) * 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US7634461B2 (en) * 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US20060036598A1 (en) 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US20060047643A1 (en) 2004-08-31 2006-03-02 Chirag Chaman Method and system for a personalized search engine
KR20070101217A (ko) 2004-09-16 2007-10-16 텔레노어 아사 개인 웹에서의 문서의 검색, 항행, 및 순위 부여를 위한방법, 시스템, 컴퓨터 프로그램 제품
WO2006036781A2 (en) 2004-09-22 2006-04-06 Perfect Market Technologies, Inc. Search engine using user intent
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7644107B2 (en) 2004-09-30 2010-01-05 Microsoft Corporation System and method for batched indexing of network documents
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US7702599B2 (en) 2004-10-07 2010-04-20 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7698331B2 (en) 2005-01-18 2010-04-13 Yahoo! Inc. Matching and ranking of sponsored search listings incorporating web search technology and web content
US20060173828A1 (en) 2005-02-01 2006-08-03 Outland Research, Llc Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query
US7689615B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US20060200460A1 (en) 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US20060206460A1 (en) 2005-03-14 2006-09-14 Sanjay Gadkari Biasing search results
US8095487B2 (en) 2005-03-16 2012-01-10 Yahoo! Inc. System and method for biasing search results based on topic familiarity
KR101374651B1 (ko) 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US7870147B2 (en) 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7451124B2 (en) 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US7962462B1 (en) 2005-05-31 2011-06-14 Google Inc. Deriving and using document and site quality signals from search query streams
CA2544324A1 (en) 2005-06-10 2006-12-10 Unicru, Inc. Employee selection via adaptive assessment
US20060282455A1 (en) 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7653617B2 (en) 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US7499919B2 (en) 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
US7716226B2 (en) 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7689531B1 (en) 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20070085716A1 (en) 2005-09-30 2007-04-19 International Business Machines Corporation System and method for detecting matches of small edit distance
US7873624B2 (en) 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US20070150473A1 (en) 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US7689559B2 (en) 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
EP2016510A1 (en) * 2006-04-24 2009-01-21 Telenor ASA Method and device for efficiently ranking documents in a similarity graph
US20070260597A1 (en) 2006-05-02 2007-11-08 Mark Cramer Dynamic search engine results employing user behavior
EP1862916A1 (en) * 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields
US20080005068A1 (en) 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
US20080016053A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Administration Console to Select Rank Factors
US8595245B2 (en) 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7720830B2 (en) 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US20080140641A1 (en) 2006-12-07 2008-06-12 Yahoo! Inc. Knowledge and interests based search term ranking for search results validation
US7792883B2 (en) * 2006-12-11 2010-09-07 Google Inc. Viewport-relative scoring for location search queries
JP4839195B2 (ja) 2006-12-12 2011-12-21 日本電信電話株式会社 Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
US7685084B2 (en) 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US20090006358A1 (en) 2007-06-27 2009-01-01 Microsoft Corporation Search results
US8201081B2 (en) 2007-09-07 2012-06-12 Google Inc. Systems and methods for processing inoperative document links
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US7707229B2 (en) * 2007-12-12 2010-04-27 Yahoo! Inc. Unsupervised detection of web pages corresponding to a similarity class
US20090164929A1 (en) 2007-12-20 2009-06-25 Microsoft Corporation Customizing Search Results
JP2009204442A (ja) 2008-02-28 2009-09-10 Athlete Fa Kk 粒状物質の計量装置
US8412702B2 (en) 2008-03-12 2013-04-02 Yahoo! Inc. System, method, and/or apparatus for reordering search results
US7974974B2 (en) 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
JP5328212B2 (ja) 2008-04-10 2013-10-30 株式会社エヌ・ティ・ティ・ドコモ レコメンド情報評価装置およびレコメンド情報評価方法
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
CN101359331B (zh) 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
US20090307209A1 (en) 2008-06-10 2009-12-10 David Carmel Term-statistics modification for category-based search
US8326829B2 (en) 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8224847B2 (en) 2009-10-29 2012-07-17 Microsoft Corporation Relevant individual searching using managed property and ranking features
US8527507B2 (en) 2009-12-04 2013-09-03 Microsoft Corporation Custom ranking model schema
US8422786B2 (en) * 2010-03-26 2013-04-16 International Business Machines Corporation Analyzing documents using stored templates
US8370331B2 (en) 2010-07-02 2013-02-05 Business Objects Software Limited Dynamic visualization of search results on a graphical user interface
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024752A1 (en) * 2002-08-05 2004-02-05 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
CN101180624A (zh) * 2004-10-28 2008-05-14 雅虎公司 基于链接的垃圾检测
US20060248074A1 (en) * 2005-04-28 2006-11-02 International Business Machines Corporation Term-statistics modification for category-based search
CN101000608A (zh) * 2006-01-11 2007-07-18 吴风勇 基于搜索引擎技术的关键字动态匹配生成的方法
US20090024606A1 (en) * 2007-07-20 2009-01-22 Google Inc. Identifying and Linking Similar Passages in a Digital Text Corpus
CN101360074A (zh) * 2008-09-27 2009-02-04 腾讯科技(深圳)有限公司 一种确定可疑垃圾邮件范围的方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074172A (zh) * 2016-04-13 2018-12-21 微软技术许可有限责任公司 向电子设备输入图像
CN109074172B (zh) * 2016-04-13 2023-01-06 微软技术许可有限责任公司 向电子设备输入图像
US11720744B2 (en) 2016-04-13 2023-08-08 Microsoft Technology Licensing, Llc Inputting images to electronic devices
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置
CN106909669B (zh) * 2017-02-28 2020-02-11 北京时间股份有限公司 一种推广信息的检测方法及装置
CN113987146A (zh) * 2021-10-22 2022-01-28 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的新型智能问答系统
CN113987146B (zh) * 2021-10-22 2023-01-31 国网江苏省电力有限公司镇江供电分公司 一种电力内网专用的智能问答系统

Also Published As

Publication number Publication date
WO2011152925A2 (en) 2011-12-08
WO2011152925A3 (en) 2012-02-02
EP2577521A4 (en) 2016-07-13
EP2577521A2 (en) 2013-04-10
CN102918532B (zh) 2015-12-16
US20110295850A1 (en) 2011-12-01
US8738635B2 (en) 2014-05-27

Similar Documents

Publication Publication Date Title
CN102918532B (zh) 在搜索结果排序中对垃圾的检测
CN112100344B (zh) 一种基于知识图谱的金融领域知识问答方法
De Gemmis et al. Semantics-aware content-based recommender systems
Gupta et al. Survey on social tagging techniques
US8468156B2 (en) Determining a geographic location relevant to a web page
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
WO2014054052A2 (en) Context based co-operative learning system and method for representing thematic relationships
Zhang et al. A coarse-to-fine framework to efficiently thwart plagiarism
WO2013058994A1 (en) Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results
US20120117043A1 (en) Measuring Duplication in Search Results
JP5510563B2 (ja) 検索プログラム、検索装置、および検索方法
Ma et al. A new query recommendation method supporting exploratory search based on search goal shift graphs
Sedighi et al. RLOSD: Representation learning based opinion spam detection
Najadat et al. Detecting Arabic spam reviews in social networks based on classification algorithms
Patel et al. A review on web pages clustering techniques
Adami et al. Clustering documents into a web directory for bootstrapping a supervised classification
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
Rajkumar et al. Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine
EP2793145A2 (en) Computer device for minimizing computer resources for database accesses
Kawan et al. Multiclass Resume Categorization Using Data Mining
Plansangket New weighting schemes for document ranking and ranked query suggestion
Avancini et al. Organizing digital libraries by automated text categorization
Mistry et al. Tag recommendation for social bookmarking: Probabilistic approaches
Lee Text Categorization with a Small Number of Labeled Training Examples

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150727

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant