CN1755682A - 使用点击距离对搜索结果分级的系统和方法 - Google Patents
使用点击距离对搜索结果分级的系统和方法 Download PDFInfo
- Publication number
- CN1755682A CN1755682A CNA2005100885275A CN200510088527A CN1755682A CN 1755682 A CN1755682 A CN 1755682A CN A2005100885275 A CNA2005100885275 A CN A2005100885275A CN 200510088527 A CN200510088527 A CN 200510088527A CN 1755682 A CN1755682 A CN 1755682A
- Authority
- CN
- China
- Prior art keywords
- document
- click distance
- node
- network
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Abstract
根据与网络上每个文档相关联的附加的点击距离属性,对网络上的搜索查询的搜索结果分级。该点击距离是从网络上被指定为最高权威或根页面的一个或多个网络上的页面出发的点击或用户导航的次数的度量。当搜索查询发生的站点或内联网是分层结构时,通过添加点击距离项,提高了结果的精确度。
Description
相关申请的参照
本发明涉及具有序列号_____、题为“System and Method for IncorporatingAnchor Text into Ranking Search Results”(将锚文本并入搜索结果分级中的系统和方法)、与本申请同时提交的专利申请。本发明还涉及具有序列号10/804,326、题为“Field Weighting in Text Document Searching”(文本文档搜索中的字段加权)、于2004年3月18日提交的专利申请。这些相关申请被转让给本专利申请的受让人,并通过引用包含在此。
背景技术
在文本文档的搜索中,用户通常将查询输入到搜索引擎中。搜索引擎对照编入索引的文档的数据库来评估该查询,并返回最满足该查询的文档的已分级列表。表示文档如何满足查询的度量的得分由搜索引擎算法化地生成。常用评分算法依靠将查询分割为搜索词,并使用关于各个词在要搜索的文本文档正文中的出现的统计信息。各文档根据其对应的分数,按照等级顺序列出,从而用户能够在搜索结果列表的顶部看到最匹配的搜索结果。
某些搜索引擎可用于改进结果质量的另一种评估是用选定的分级函数来修改结果的等级。一种示例性现有技术分级函数确定当一个页面链接到另一页面时,它有效地为该另一页面投了一票。为某页面所投的票越多,该页面就越重要。该分级函数还可考虑是谁投了票。页面越重要,它们的投票就越重要。这些投票被累积起来,并用作将网络上页面分级的组件。
分级函数用于改善分级的质量。然而,分级函数的有效性可能受网络的拓扑结构影响。例如,使用上述投票的分级函数在内联网设置中可能不太有效。内联网是使用某些和因特网一样的协议,但仅可由诸如公司的雇员等用户子集访问的网络。内联网的页面并非完全和因特网一样地构建或连接,因此和因特网设置相比,分级函数所产生的结果的相关性可能未被减少。
发明内容
本发明的各个实施例涉及用于根据一种称作点击距离(click distance)的新函数来对搜索结果进行分级的系统和方法。该点击距离函数利用了内联网的分层结构。内联网通常遵循具有一个根节点、并且后续分支从该根节点延伸到其它节点的树形结构。内联网的根节点常被称为它的主页。内联网外部的其它站点也可以基于分层结构,这些站点的点击距离也非常适用于该站点的页面的分级。
点击距离是测算到达站点的给定页面所需的“点击”次数的查询不相关的相关性度量。在树形结构中,点击次数由从根节点出发在路径上所遍历的分支的数量表示。一旦为一页面确定了点击距离,则该点击距离被并入该页面的得分中。并入了点击距离的页面得分确定该页面在搜索结果内其它页面之间的等级。
在本发明的一个方面,首先“爬行(crawl)”网络以生成与该网络的链接和页面相关联的属性的表格。“爬行”指自动将若干文档(或者任何模拟离散信息单元)收集到称作索引的数据库中。通过跟随某些文档内部的文档引用链接,并然后在找到时处理每个文档,爬行遍历网络上的多个文档。通过标识文档中的关键词或通用文本来创建索引,这些文档得到了处理。
示例性索引可以是具有一单词列和一指示可以在哪些文档中找到那些单词的列的倒排列表。当用户输入一个或多个搜索词,即获得结果,并且本发明应用一种包括点击距离函数的分级算法。点击距离函数正面或负面地影响某些页面的得分,从而细化了返回给用户的结果。
在本发明的另一个方面,URL(统一资源定位器)深度属性被添加到分级算法中,以进一步细化结果。URL深度属性测算URL中的层数,以提供对照点击距离函数的校验,并相应地调整该页面的得分。
附图说明
图1示出了可以在本发明的一个示例性实施例中使用的示例性计算设备。
图2根据本发明示出了一种用于根据点击距离对搜索结果分级的系统。
图3根据本发明示出了示例性网络图。
图4根据本发明示出了示例性分层网络图。
图5根据本发明示出了用于计算点击距离的示例性过程的逻辑流程图。
图6根据本发明示出了在对搜索结果分级时使用点击距离的示例性过程的逻辑流程图。
具体实施方式
在下文将参考附图对本发明进行更详细的描述,各附图构成了本发明的一部分,并作为示例示出了用于实施本发明的特定示例性实施例。但是,此发明可以用许多不同的形式来实施,并且不应被解释为限于本文中所阐述的实施例;相反,提供这些实施例是为使所揭示的内容彻底和完整,并使其向本领域的技术人员充分传达本发明的范畴。本发明可被实施为方法或者设备等等。因此,本发明可采用全硬件实施例、全软件实施例或者组合了软件和硬件方面的实施例的形式。因此,不应以限制的意义看待以下详细描述。
示例性操作环境
参考图1,用于实现本发明的一个示例性系统包括诸如计算设备100等计算设备。计算设备100可被配置成客户机、服务器、移动设备、或者任何其它计算设备。在最基本的配置中,计算设备100通常包括至少一个处理单元102和系统存储器104。取决于计算设备的确切配置和类型,系统存储器104可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等等)或两者的某种组合。系统存储器104通常包括操作系统105、一个或多个应用程序106,并可包括程序数据107。在一个实施例中,应用程序106包括用于实现本发明的功能的搜索分级应用程序120。此基本配置在图1中由虚线108内的那些组件示出。
计算设备100可具有额外的特征或功能。例如,计算设备100还可包括诸如磁盘、光盘或磁带等额外的数据存储设备(可移动或不可移动)。此类额外存储在图1中由可移动存储109和不可移动存储110示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器104、可移动存储109和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储,磁带盒、磁带、磁盘存储或其它磁存储设备、或可用于存储期望信息、并可由计算设备100访问的任何其它介质。任何此类计算机存储介质可以是设备100的一部分。计算设备100还可具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等输入设备112。还可包括诸如显示器、扬声器、打印机等输出设备114。
计算设备100还包含允许该设备诸如通过网络与其它计算设备118通信的通信连接116。通信连接116是通信介质的一个例子。通信介质通常可具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传送介质。术语“已调制数据信号”意指以在信号中将信息编码的方式设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括诸如有线网络或直线连接等有线介质,以及诸如声学、RF、红外和其它无线介质等无线介质。如本文中所使用的术语计算机可读介质既包括存储介质也包括通信介质。
按点击距离对搜索进行分级的说明件实施例
本发明的各个实施例涉及用于搜索引擎的分级函数。搜索引擎的质量通常由由根据分级函数所分配的等级的文档相关性确定。分级函数可以基于多个特征。这些特征中的某些可取决于查询,而其它被认为是查询不相关的。本发明利用称作点击距离的查询不相关的相关性度量。点击距离是用户从内联网的主页(该内联网上最权威的URL,或者最权威的URL之一)到给定页面所必须进行的“点击”次数。在web图上,点击距离可被表示为主页和给定页面间的最短路径。在一个实施例中,一种算法执行广度优先遍历,并计算一给定节点到该图中所有其它节点间的距离。该遍历可以采用N次迭代才能完成,来为该内联网计算点击距离,其中N为该图的直径(最大最短距离)。此情形中的变量N远小于该图上的节点总数。例如,取决于网络,本发明的N可能在5和60之间。其它分级函数可能需要40-50次迭代来覆盖全图(例如,页面等级),致使其它分级函数比使用点击距离慢数倍。
图2根据本发明示出了用于对搜索结果进行分级的系统。搜索引擎200接收包含多个查询词的查询。诸如当查询词是短语时(例如,短语“document managementsystem”可被视为单个查询词),每个查询词可包括多个成分词。此外,查询可包括通常由各种已知搜索引擎支持的一个或多个运算符,诸如布尔运算符、约束等等。
由文档210、212、214和216表示的分布式网络上的多个文档可用于搜索。实际上,搜索引擎可搜索任意数量的文档,并通常搜索包含大量(例如,数以百万计)文档的集合。从因特网设置到内联网设置,文档的量可能减少了,但是减少通常是从十亿量级到百万量级,因此相对文档数量仍然相当巨大。索引模块(未示出)为每个文档生成单个文档统计量(例如218、220、222和224)。文档统计量存储在索引226中。
搜索引擎200查阅索引226,以基于查询和对应的文档统计量为每个文档确定搜索得分228。在本发明中,所包括的文档统计量之一是文档的点击距离。在另一个实施例中,所包括的另一种文档统计量是与文档相关联的URL深度。点击距离和URL深度随即与查询相关的统计量组合,以形成文档的最终得分。通常,然后按降序将文档得分228分级,以向用户给予搜索算法认为与该查询最相关的文档的列表。
在所示的系统中,搜索引擎200表示一点击距离分级搜索引擎,它在确定文档的搜索得分时考虑文档的点击距离。文档的点击距离分级充分利用了分层结构化站点中(见图3)文档的存在,测算了从站点的主页到文档的距离。在一个例子中,从主页出发的点击距离是页面重要性的度量,其中在层次中离主页较近的页面被视为比在层次中较低的页面更重要。然而,可能存在反之为真的其它情形,其中在层次中较低的文档比在层次中较高的那些页面更受重视。因此,点击距离被视为查询不相关的相关性度量,因为它全面地评估文档的重要性,而不是根据查询来评估(例如,查询相关分级函数可能会对一搜索词在文档中出现的次数进行计数)。
图3根据本发明示出了示例性网络图。该网络图由节点(例如310)和边或链接(例如320)组成。节点(例如310)表示网络上可作为结果返回给搜索查询的页面和其它资源。链接(例如320)通过使用页面上列出的导航链接将这些页面的每一个连接在一起。可以为每个页面搜集可用于为特定页计算点击距离的一组链接信息。
在一个实施例中,对于一组文档,节点330表示该网络上最高权威页面或根节点。网络中其余页面的点击距离可从节点330计算。例如,节点340具有从节点330出发的2次“点击”的点击距离。如上所述,“点击”指在从最高权威节点出发的最短路径上所遍历的分支数。可以选择从节点330出发的其它路径到达节点340,但是点击距离与最短路径有关。
网络图300被示为具有不遵循特定次序的节点,在该方面可能类似于因特网。当缺乏次序时,可能难以将点击距离对于页面分级的适用性概念化。然而,页面和资源的网络常常的确遵循如以下图4中所示的适用次序。
图4根据本发明示出了示例性分层网络图。分层网络图400类似于图3中所示的网络图300,因为它也包括节点(例如410)和链接(例如420)。但是,分层网络图400是基于结构化站点或内联网的固有层次。因此,分层网络图400可以被概念化为具有从根节点延伸的分支的树形结构。
对于分层网络图400,较易辨识点击距离的适用性及其计算。例如,节点330对应于树的最高权威节点或根节点。因此节点340具有相关联的点击距离3,为从根节点出发有3次点击或用户导航。换言之,由于要求用户遍历树的3个分支以从节点330导航至节点340,点击距离也是3。
图3和4中表示的网络图是在为计算点击距离而索引文档期间,在存储器中构造的图的示例。在索引期间构造图允许将点击距离包括在存储在索引中的文档统计量中,并用于对各页面分级。以下相对于图5和6描述用于生成点击距离属性并在文档分级中使用点击距离属性的示例过程。
图5根据本发明示出了用于计算点击距离(CD)的示例性过程的逻辑流程图。过程500在框502开始,其中已索引了分布式网络上的文档并生成了网络图。在一个实施例中,从由搜集链接和锚文本信息并将其归到锚的特定目标文档的过程搜集的数据生成网络图。此过程和锚文本的概念在具有序列号____、题为“Systemand Method for Incorporating Anchor Text into Ranking Search Results”(将锚文本并入搜索结果分级中的系统和方法)、与本申请同时提交并通过引用包含在此的专利申请中有更详细的描述。处理在框504继续。
在框504,网络图被加载到存储器中。此网络图是从网络搜集的文档身份(例如,文档ID)和链接信息的结构化表示。网络图的示例在图3和4中示出。网络图表示一站点或内联网的节点或页面。每个节点都有具有值或权重的相关联的点击距离属性。在一个实施例中,此点击距离属性被串接到文档ID的尾部。处理在框506继续。
在框506,各节点的点击距离(CD)值被初始化。最高权威节点被称作已赋值节点。这些节点被赋予点击距离值0(零)。可以为单个网络图指定一个以上高权威节点。例如,管理员可以手动对一组100个节点分级,并将它们全部指定为高权威节点。此外,高权威节点不必具有点击距离0(零),管理员可以赋予任何数字。改变高权威节点的点击距离不会改变余下的算法,只是仅仅提供了一种手动指定节点重要性的方法。例如,管理员能够提高某些节点的点击距离得分。在其它情形中,管理员能够(通过强制点击距离高于默认由算法计算所得)减少点击距离得分。每个未赋值节点的点击距离被初始化为最大值。在一个实施例中,最大值本质上将点击距离值设置为无穷大。将无穷大的值赋给节点使其较易被识别为未计算其点击距离的节点。在完成了点击距离值的初始化后,处理移至框508。
在框508,具有与最大值不同的相关联点击距离的节点被插入到队列中。在一个示例中,此步骤仅在第一次迭代中发生。插入到队列中的节点对应于最高权威节点,因为其点击距离值被设为与最大值不同的0(零)值。一旦具有与最大值不同的点击距离值的节点被添加到队列中,处理在判定框510继续。
在判定框510,判定队列是否为空。空队列意味着不再有节点需要计算其目标节点的点击距离。如果队列为空,处理移至框512,过程500结束。但是,如果队列非空,处理在框514继续。
在框514,从队列移除一个节点。从队列移除节点启动了对与该文档相关联的目标节点的点击距离的计算。目标节点对应于具有从始发文档到其的链接的文档。在此情形中,始发文档是对应于从队列中移除的节点的文档。一旦此节点被移除,处理移至框516。
在框516,取出下一个目标节点。下一个目标节点指由始发文档链接的文档中的下一个文档。一旦取出了下一个目标节点,处理继续至判定框518。
在判定框518,判定与目标节点相关联的点击距离是否大于当前页的点击距离加1(CD+1)。在一个实施例中,满足框518中的条件的唯一方法是当目标节点具有无穷大的点击距离时(假设高权威节点被设为0,并且管理员未手动设置点击距离)。例如,如果当前点击距离为1,那么CD+1=2。点击距离2小于无穷大,且满足该条件。判定目标点击距离是否大于点击距离加1防止具有较小点击距离的目标文档被改变。使用前例,如果目标节点的点击距离为1,当前点击距离也是1,那么目标点击距离不大于CD+1=2。在此例中,到目标节点的较短路径已被记录,因而无需被更新。因此,当目标点击距离不大于当前点击距离加1时,处理前进至判定框522。然而,如果目标点击距离大于当前点击距离加1,处理移至框520。
在框520,更新目标节点的点击距离值,并将目标节点作为需要对其目标进行点击距离计算的节点添加到队列中。用新的点击距离值更新目标节点,以移除无穷大值并将节点设置为计算所得的点击距离值。在一个实施例中,节点的点击距离值被设为当前点击距离值加1(CD+1)。处理在判定框522继续。
在判定框522,判断是否已为从队列中移除的当前节点取出了所有目标节点。如果还剩下要为当前节点取出的目标节点,处理返回框516,其中取出下一个目标节点。但是,如果已经取出对应于当前节点的所有目标节点,则处理返回到判定框510,以复查队列此时是否为空。再一次,一旦队列为空,处理移至框512,过程500结束。
网络中并非所有节点都连接到初始高权威节点是可能的。因此,在本发明的另一个实施例中,假定未连接到高权威节点的节点具有低重要性,并对其赋与小于该网络图平均值的点击距离。
图6根据本发明示出了在搜索结果分级时使用点击距离的示例性过程的逻辑流程图。过程600在框602开始,其中已请求查询,并且已为网络上的每个文档计算了点击距离。处理在框604继续。
在框604,将每个文档的点击距离值与索引中的其它文档统计量(见图2)合并。将点击距离值与其它文档统计量合并允许更快的查询响应时间,因为所有涉及分级的信息被聚集到一起。因此,在合并之后,在索引中列出的每个文档都具有相关联的点击距离值。一旦合并完成,处理移至框606。
在框606,用包括点击距离的文档统计量的组来填充得分函数,以为特定文档计算得分。点击距离为评分函数提供了查询不相关的因子。评分函数的其它部分对应于评分函数的查询相关或内容相关的部分。在一个实施例中,评分函数是查询相关(QD)和查询不相关(QID)评分函数的和:
Score=QD(doc,query)+QID(doc) (1)
QD函数可以是任何文档评分函数。在一个实施例中,QD评分函数对应于序列号10/804,326、题为“Field Weighting in Text Document Searching”(文本文档搜索中的字段加权)、于2004年3月18日提交并通过引用包含于此的专利申请中所描述的字段加权评分函数。如专利申请10/804,326所提供的,以下是字段加权评分函数的表示:
其中如下定义各项:wtf是所有属性上的给定词的加权词频率或词频率之和乘以权重;wdl是加权文档长度;avwdl是平均加权文档长度;N是网络上的文档数量(即,被爬行的文档数量);n是包含给定查询词的文档的数量;k1和b是常数。这些项和公式在第10/804,326号专利申请中详细描述。
QID函数可以是点击距离和其它文档统计量(诸如URL深度)的任何变换。在一个实施例中,此函数如下:
其中如下定义函数各项:wcd是查询不相关分量的权重;bcd是点击距离的权重;bud是URL深度的权重;CD是点击距离;UD是URL深度;kcd是点击距离饱和常数。加权项(wcd、bcd和bud)帮助定义其相关项中每一个的重要性,并最终定义评分函数的形状。URL深度(UD)是查询不相关分量的附加项,用于平滑评分函数上的点击距离的效果。在某些情形中,不是非常重要的文档(即,具有较大的URL深度)可能具有较短的点击距离。URL深度对文档的URL中的斜杠数量进行计数。例如,www.example.com\d1\d2\d3\d4.htm包括4个斜杠,因此将具有URL深度4。但是此文档具有直接来自主页www.example.com的链接,而赋予其点击距离1。在函数(3)中包括URL深度并对照点击距离对其加权,补偿了高点击距离得分,以更准确地反映层次内页面的等级。取决于网络,大于或等于3的URL深度可视为深链接。对于此实施例,本发明将(2)和(3)的两个函数相加,以获得评分函数(Score),从而新的得分函数变为:
在其它实施例中,可以从评分函数中移除URL深度,或者可将其它因子添加到评分函数,以提高查询相关或查询不相关分量的准确性。此外,可将查询不相关分量并入未示出的其它分级函数中,以改进分级结果,而不会偏离本发明的精神或范畴。一旦为特定文档用文档统计量填充了评分函数(4),处理前进至框608。
在框608,执行该评分函数并为文档计算相关性得分。一旦计算了相关性得分,即将该得分存储在存储器中,并与该特定文档相关联。处理随即移至判定框610。
在判定框610,判定是否已根据评分函数(4)为所有文档计算了相关性得分。可以如所示地串行地计算得分,或者亦可并行计算。如果还未计算所有得分,处理返回框606,其中用下一组文档统计量来填充评分函数。但是,如果已经计算了所有得分,处理继续至框612。
在框612,根据其相关联的得分对查询的搜索结果分级。该得分如今考虑了每个文档的点击距离和URL深度。因此,对文档的分级被细化,使得在所有其它因素相同时,内联网或站点的层次中较高的文档被分级为高于其它文档。一旦对搜索结果分级,处理前进至框614,过程600结束。
过程600完成之后,可通过与搜索引擎结果的发送和显示相关联的各种操作,将已分级文档返回给用户。随后可按用户的判断,选择并查看对应于较高精确度结果的文档。
以上的说明书、示例和数据提供了对本发明的组成部分的制造和使用的完整描述。因为可以作出本发明的许多实施例而不会偏离本发明的精神和范畴,本发明驻留在所附的权利要求书中。
Claims (29)
1.一种用于对搜索结果分级的计算机实现的方法,其特征在于,包括:
为网络上的文档存储文档和链接信息;
从所记录的文档和链接信息生成所述网络的表示,其中,所述网络的表示包括代表所述文档的节点;
为所述网络表示中的每个节点计算点击距离,其中,所述点击距离是从被指定为最高权威节点的第一节点到与所计算的点击距离相关联的第二节点测算的;以及
在对文档分级时,使用所计算的与每个文档相关联的点击距离,作为查询不相关的相关性度量,以产生已分级的搜索结果。
2.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成网络图并将所述网络图存储到存储器中。
3.如权利要求1所述的计算机实现的方法,其特征在于,计算所述点击距离还包括将与除了对应于岁数最高权威节点的文档之外的每个文档相关联的点击距离初始化到最大值。
4.如权利要求1所述的计算机实现的方法,其特征在于,还包括将所述网络表示的当前节点存储到一节点队列中,直至计算了与所述当前节点相关联的各目标节点的点击距离。
5.如权利要求4所述的计算机实现的方法,其特征在于,当所述各目标节点之一的点击距离大于当前节点的点击距离加一变量时,所述各目标节点之一的点击距离被设置为当前节点的点击距离加所述变量。
6.如权利要求1所述的计算机实现的方法,其特征在于,所计算的与每个文档相关联的点击距离被合并到包括对应于每个文档的其它统计量的索引中。
7.如权利要求6所述的计算机实现的方法,其特征在于,用所计算的点击距离和所述其它统计量填充所述评分函数,以产生用于对文档分级的得分。
8.如权利要求1所述的计算机实现的方法,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在评分函数中使用对应于所述点击距离的分量,来为每个所述文档确定相关性得分。
9.如权利要求8所述的计算机实现的方法,其特征在于,所述相关性得分是用平滑所述点击距离在所述相关性得分上的效果的统一资源定位器深度属性来补偿的。
10.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上的节点被指定为高权威节点的网络表示。
11.如权利要求1所述的计算机实现的方法,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
12.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定:所计算的点击距离(CD)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、以及点击距离饱和常数(kcd)。
13.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定:所计算的点击距离(CD)、加权词频率(wtf)、加权文档长度(wdl)、平均加权文档长度(avwdl)、网络上的文档数量(N)、包含查询词的文档的数量(n)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、点击距离饱和常数(kcd)、和其它常数(k1、b)。
14.如权利要求13所述的计算机实现的方法,其特征在于,所述评分函数(score)由下式给出:
15.一种用于对搜索结果分级的系统,包括:
包括在计算设备上的搜索引擎,所述搜索引擎被配置成执行计算机可执行指令,所述计算机可执行指令包括:
发现网络上的文档;
为网络上的每个文档存储文档和链接信息;
从所记录的文档和链接信息生成所述网络的表示,其中所述网络的表示包括代表所述文档的节点;
计算从最高权威节点到所述网络表示中的每个节点的点击距离;
将所计算的到每个节点的点击距离与对应于该节点的文档相关联;以及
在对文档分级时使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量,以产生已分级的搜索结果。
16.如权利要求15所述的系统,其特征在于,生成所述网络的表示还包括生成网络图并将所述网络图存储到存储器中。
17.如权利要求15所述的系统,其特征在于,将所计的到每个节点的点击距离与对应于该节点的文档相关联还包括将所计算的与每个文档相关联的点击距离合并到包括对应于每个文档的其它分级值的索引中。
18.如权利要求17所述的系统,其特征在于,用所计算的点击距离和所述其它分级值填充一评分函数,以产生用于对文档分级的得分。
19.如权利要求15所述的系统,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在一评分函数中使用对应于所述点击距离的分量,来为每个文档确定相关性得分。
20.如权利要求19所述的系统,其特征在于,当一节点的点击距离与该节点在所述网络表示中的深度不成比例时,所述相关性得分是由平滑所述点击距离在所述相关性得分上的效果的统一资源定位器深度属性来补偿的。
21.如权利要求15所述的系统,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定:所计算的点击距离(CD)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、以及点击距离饱和常数(kcd)。
22.如权利要求15所述的系统,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定:所计算的点击距离(CD)、加权词频率(wtf)、加权文档长度(wdl)、平均加权文档长度(avwdl)、网络上的文档数量(N)、包含一查询词的文档的数量(n)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、点击距离饱和常数(kcd)、以及其它常数(k1、b)。
23.如权利要求22所述的系统,其特征在于,所述评分函数(score)由下式给出:
24.如权利要求15所述的系统,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上节点被指定为高权威节点的网络表示。
25.如权利要求15所述的系统,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
26.一种包括用于对搜索结果分级的计算机可执行指令的计算机可读介质,所述指令包括:
为网络上的文档存储文档和链接信息,从而在存储器中生成表示所述网络的网络图;
当所述网络中表示的每一文档具有与第一点击距离值不同的点击距离值时,将所述文档存储到队列中;
当所述队列非空时:
从所述队列中移除一个文档,
为与被移除的文档相关联的每一目标文档计算点击距离,其中,当每个
目标文档的点击距离大于与被移除的文档相关联的点击距离加一变量时,用
与所述第一点击距离值不同的新点击距离值来更新每个目标文档,以及
将每个被更新的目标文档添加到所述队列中;以及
在对文档分级时,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量,以产生已分级的搜索结果。
27.如权利要求26所述的计算机可读介质,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在一评分函数中使用对应于所述点击距离的分量,来为每个文档确定相关性得分。
28.如权利要求26所述的计算机可读介质,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上节点被指定为高权威节点的网络表示。
29.如权利要求26所述的计算机可读介质,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/955,983 US7761448B2 (en) | 2004-09-30 | 2004-09-30 | System and method for ranking search results using click distance |
US10/955,983 | 2004-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1755682A true CN1755682A (zh) | 2006-04-05 |
CN100565509C CN100565509C (zh) | 2009-12-02 |
Family
ID=35561746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100885275A Active CN100565509C (zh) | 2004-09-30 | 2005-07-29 | 使用点击距离对搜索结果分级的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US7761448B2 (zh) |
EP (1) | EP1643385B1 (zh) |
JP (2) | JP4950444B2 (zh) |
KR (1) | KR101203312B1 (zh) |
CN (1) | CN100565509C (zh) |
ES (1) | ES2613385T3 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101785197A (zh) * | 2007-08-31 | 2010-07-21 | 微软公司 | 被包括以用于手持设备中的资源选择器 |
CN101501688B (zh) * | 2006-06-12 | 2013-07-24 | 沙力股份有限公司 | 搜索内容的方法和装置 |
CN104484478A (zh) * | 2014-12-31 | 2015-04-01 | 中国农业银行股份有限公司 | 一种关联聚类数据瘦身方法及系统 |
CN106933896A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
CN106933910A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短路径识别方法及装置 |
CN106933895A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
CN108008941A (zh) * | 2017-11-16 | 2018-05-08 | 北京大学 | 一种安卓应用的深链接口自动生成方法及深链执行方法 |
Families Citing this family (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7827181B2 (en) * | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7761448B2 (en) * | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US8595223B2 (en) * | 2004-10-15 | 2013-11-26 | Microsoft Corporation | Method and apparatus for intranet searching |
US7991755B2 (en) * | 2004-12-17 | 2011-08-02 | International Business Machines Corporation | Dynamically ranking nodes and labels in a hyperlinked database |
CA2601768C (en) * | 2005-03-18 | 2016-08-23 | Wink Technologies, Inc. | Search engine that applies feedback from users to improve search results |
US8244722B1 (en) | 2005-06-30 | 2012-08-14 | Google Inc. | Ranking documents |
US7599917B2 (en) * | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US20160012131A1 (en) * | 2006-06-12 | 2016-01-14 | Zalag Corporation | Methods and apparatuses for searching content |
US8140511B2 (en) * | 2006-06-12 | 2012-03-20 | Zalag Corporation | Methods and apparatuses for searching content |
US7987169B2 (en) * | 2006-06-12 | 2011-07-26 | Zalag Corporation | Methods and apparatuses for searching content |
US8489574B2 (en) * | 2006-06-12 | 2013-07-16 | Zalag Corporation | Methods and apparatuses for searching content |
US9047379B2 (en) * | 2006-06-12 | 2015-06-02 | Zalag Corporation | Methods and apparatuses for searching content |
US20080126331A1 (en) * | 2006-08-25 | 2008-05-29 | Xerox Corporation | System and method for ranking reference documents |
US9165040B1 (en) | 2006-10-12 | 2015-10-20 | Google Inc. | Producing a ranking for pages using distances in a web-link graph |
US7984049B2 (en) | 2006-10-18 | 2011-07-19 | Google Inc. | Generic online ranking system and method suitable for syndication |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US9110975B1 (en) * | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
US8156112B2 (en) | 2006-11-07 | 2012-04-10 | At&T Intellectual Property I, L.P. | Determining sort order by distance |
CN100557608C (zh) * | 2006-11-14 | 2009-11-04 | 株式会社理光 | 基于文档非内容特征的查询结果优化方法及装置 |
KR100859710B1 (ko) * | 2006-12-07 | 2008-09-23 | 한국전자통신연구원 | 데이터에 대한 검색을 수행하기 위한 자료구조를 이용하여 데이터를 검색, 저장, 삭제하는 방법 |
JP5194778B2 (ja) * | 2006-12-22 | 2013-05-08 | 富士通株式会社 | セッションベースクエリのためのノードのランク付け |
US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
KR100898462B1 (ko) * | 2007-05-16 | 2009-05-21 | 엔에이치엔(주) | 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템 |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
US9224149B2 (en) * | 2007-10-15 | 2015-12-29 | Google Inc. | External referencing by portable program modules |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7840569B2 (en) * | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US8823709B2 (en) | 2007-11-01 | 2014-09-02 | Ebay Inc. | User interface framework for viewing large scale graphs on the web |
US8099417B2 (en) * | 2007-12-12 | 2012-01-17 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8825646B1 (en) * | 2008-08-08 | 2014-09-02 | Google Inc. | Scalable system for determining short paths within web link network |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US20110276562A1 (en) * | 2009-01-16 | 2011-11-10 | Beckett Madden-Woods | Visualizing site structure and enabling site navigation for a search result or linked page |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US20100287174A1 (en) * | 2009-05-11 | 2010-11-11 | Yahoo! Inc. | Identifying a level of desirability of hyperlinked information or other user selectable information |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8060497B1 (en) | 2009-07-23 | 2011-11-15 | Google Inc. | Framework for evaluating web search scoring functions |
US8365064B2 (en) * | 2009-08-19 | 2013-01-29 | Yahoo! Inc. | Hyperlinking web content |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
JP5094891B2 (ja) * | 2010-01-28 | 2012-12-12 | ヤフー株式会社 | 検索スコア算出装置 |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US9183299B2 (en) * | 2010-11-19 | 2015-11-10 | International Business Machines Corporation | Search engine for ranking a set of pages returned as search results from a search query |
US8606793B1 (en) * | 2010-11-19 | 2013-12-10 | Conductor, Inc. | Business metric score for web pages |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
US8868567B2 (en) * | 2011-02-02 | 2014-10-21 | Microsoft Corporation | Information retrieval using subject-aware document ranker |
US8572096B1 (en) * | 2011-08-05 | 2013-10-29 | Google Inc. | Selecting keywords using co-visitation information |
US9244931B2 (en) * | 2011-10-11 | 2016-01-26 | Microsoft Technology Licensing, Llc | Time-aware ranking adapted to a search engine application |
US9600587B2 (en) | 2011-10-19 | 2017-03-21 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
US9208218B2 (en) * | 2011-10-19 | 2015-12-08 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9348846B2 (en) | 2012-07-02 | 2016-05-24 | Google Inc. | User-navigable resource representations |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US8949216B2 (en) | 2012-12-07 | 2015-02-03 | International Business Machines Corporation | Determining characteristic parameters for web pages |
US9576053B2 (en) | 2012-12-31 | 2017-02-21 | Charles J. Reed | Method and system for ranking content of objects for search results |
US8621062B1 (en) * | 2013-03-15 | 2013-12-31 | Opscode, Inc. | Push signaling to run jobs on available servers |
US9852230B2 (en) | 2013-06-29 | 2017-12-26 | Google Llc | Asynchronous message passing for large graph clustering |
US9596295B2 (en) | 2013-06-29 | 2017-03-14 | Google Inc. | Computing connected components in large graphs |
US9589061B2 (en) * | 2014-04-04 | 2017-03-07 | Fujitsu Limited | Collecting learning materials for informal learning |
JP5639319B1 (ja) * | 2014-04-07 | 2014-12-10 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
US9886507B2 (en) | 2014-04-30 | 2018-02-06 | International Business Machines Corporation | Reranking search results using download time tolerance |
US9767159B2 (en) * | 2014-06-13 | 2017-09-19 | Google Inc. | Ranking search results |
US10013496B2 (en) | 2014-06-24 | 2018-07-03 | Google Llc | Indexing actions for resources |
US11226969B2 (en) * | 2016-02-27 | 2022-01-18 | Microsoft Technology Licensing, Llc | Dynamic deeplinks for navigational queries |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11366872B1 (en) * | 2017-07-19 | 2022-06-21 | Amazon Technologies, Inc. | Digital navigation menus with dynamic content placement |
CN110020206B (zh) * | 2019-04-12 | 2021-10-15 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法及装置 |
US11175914B2 (en) * | 2019-06-28 | 2021-11-16 | Aras Corporation | Calculation engine for performing calculations based on dependencies in a self-describing data system |
Family Cites Families (222)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US186827A (en) * | 1877-01-30 | Improvement in mail-bags | ||
US49766A (en) * | 1865-09-05 | Gboege w | ||
US10781A (en) * | 1854-04-18 | Matthias p | ||
US117351A (en) * | 1871-07-25 | Improvement in reclining-chairs | ||
US5222236A (en) * | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
US5257577A (en) | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
US6202058B1 (en) | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
US5606609A (en) * | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
US5594660A (en) * | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5933851A (en) * | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
US5974455A (en) * | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
GB2323003B (en) | 1996-10-02 | 2001-07-04 | Nippon Telegraph & Telephone | Method and apparatus for graphically displaying hierarchical structure |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US5960383A (en) * | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5848404A (en) * | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6256675B1 (en) * | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6182113B1 (en) | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
US6070191A (en) * | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
US6351467B1 (en) * | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US6594682B2 (en) * | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
US5991756A (en) | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6125361A (en) | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6240407B1 (en) * | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6098064A (en) * | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
US6208988B1 (en) | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
JP2002517860A (ja) | 1998-06-08 | 2002-06-18 | ケイシーエスエル インク. | データベースから関連情報を検索する方法およびシステム |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6216123B1 (en) * | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
JP4638984B2 (ja) | 1998-08-26 | 2011-02-23 | フラクタル エッジ リミテッド | データファイルをマッピングするための方法および装置 |
RU2138076C1 (ru) | 1998-09-14 | 1999-09-20 | Закрытое акционерное общество "МедиаЛингва" | Система поиска информации в компьютерной сети |
US6549897B1 (en) * | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US20030069873A1 (en) | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6418433B1 (en) * | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US6990628B1 (en) | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US7072888B1 (en) | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
US6547829B1 (en) * | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US7181438B1 (en) * | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
JP3931496B2 (ja) * | 1999-08-11 | 2007-06-13 | 富士ゼロックス株式会社 | ハイパーテキスト解析装置 |
US6442606B1 (en) * | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
US6636853B1 (en) * | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
US7346604B1 (en) * | 1999-10-15 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope |
CA2389186A1 (en) | 1999-10-29 | 2001-05-03 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6263364B1 (en) * | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
US6351755B1 (en) * | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
US6418453B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
US6418452B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
US6539376B1 (en) * | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6883135B1 (en) * | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6931397B1 (en) * | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
US6910029B1 (en) | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
US6549896B1 (en) * | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
US6718365B1 (en) * | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
US6859800B1 (en) * | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
US6772160B2 (en) * | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
JP3573688B2 (ja) | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6678692B1 (en) * | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US7080073B1 (en) * | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
US6598051B1 (en) * | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
JP3525885B2 (ja) * | 2000-10-25 | 2004-05-10 | 日本電信電話株式会社 | 多角的検索サービス方法およびそのプログラムを記録した記録媒体 |
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US7200606B2 (en) | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002157271A (ja) * | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
US20020103920A1 (en) * | 2000-11-21 | 2002-08-01 | Berkun Ken Alan | Interpretive stream metadata extraction |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US20020078045A1 (en) * | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
US6778997B2 (en) * | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US6417054B1 (en) * | 2001-01-26 | 2002-07-09 | Chartered Semiconductor Manufacturing Ltd. | Method for fabricating a self aligned S/D CMOS device on insulated layer by forming a trench along the STI and fill with oxide |
US20020103798A1 (en) * | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US20020107886A1 (en) * | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
WO2002063493A1 (en) * | 2001-02-08 | 2002-08-15 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
US7627596B2 (en) | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US6738764B2 (en) * | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
IES20020335A2 (en) * | 2001-05-10 | 2002-11-13 | Changing Worlds Ltd | Intelligent internet website with hierarchical menu |
US6782383B2 (en) | 2001-06-18 | 2004-08-24 | Siebel Systems, Inc. | System and method to implement a persistent and dismissible search center frame |
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7039234B2 (en) * | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
US6928425B2 (en) | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
US6868411B2 (en) | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
US7076483B2 (en) * | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
US6970863B2 (en) * | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US6766422B2 (en) * | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
US6763362B2 (en) * | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
US6934714B2 (en) * | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
US7693830B2 (en) * | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
AU2003243533A1 (en) * | 2002-06-12 | 2003-12-31 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
CA2395905A1 (en) | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
US7013458B2 (en) | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7386527B2 (en) * | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
US7020648B2 (en) | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
US20040148278A1 (en) | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
US20040181515A1 (en) | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7028029B2 (en) * | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
US7216123B2 (en) * | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US7451130B2 (en) | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7197497B2 (en) * | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
US7228301B2 (en) * | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
US20050060186A1 (en) * | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
US7454417B2 (en) | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US20050071328A1 (en) * | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7693827B2 (en) | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7552109B2 (en) * | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
US20050086192A1 (en) * | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
US7346208B2 (en) | 2003-10-25 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Image artifact reduction using a neural network |
US7231399B1 (en) * | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
US20050144162A1 (en) * | 2003-12-29 | 2005-06-30 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US7483891B2 (en) * | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
US7499913B2 (en) * | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7281002B2 (en) * | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
US7580568B1 (en) | 2004-03-31 | 2009-08-25 | Google Inc. | Methods and systems for identifying an image as a representative image for an article |
US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
US7257577B2 (en) * | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7260573B1 (en) * | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US7716225B1 (en) | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
US7363296B1 (en) * | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
US20060036598A1 (en) * | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7827181B2 (en) * | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7333963B2 (en) | 2004-10-07 | 2008-02-19 | Bernard Widrow | Cognitive memory and auto-associative neural network based search engine for computer and network located images and photographs |
JP4977624B2 (ja) * | 2005-01-18 | 2012-07-18 | ヤフー! インコーポレイテッド | ウェブサーチ技術及びウェブコンテンツを組み入れたスポンサー提供サーチリスティングのマッチング及びランキング |
US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
US20060200460A1 (en) | 2005-03-03 | 2006-09-07 | Microsoft Corporation | System and method for ranking search results using file types |
US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
US8095487B2 (en) | 2005-03-16 | 2012-01-10 | Yahoo! Inc. | System and method for biasing search results based on topic familiarity |
CA2601768C (en) | 2005-03-18 | 2016-08-23 | Wink Technologies, Inc. | Search engine that applies feedback from users to improve search results |
CA2544324A1 (en) | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7716226B2 (en) | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US7689531B1 (en) | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
US20070150473A1 (en) | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
US7685091B2 (en) * | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
US20070260597A1 (en) | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
US7720830B2 (en) | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US20080140641A1 (en) | 2006-12-07 | 2008-06-12 | Yahoo! Inc. | Knowledge and interests based search term ranking for search results validation |
US7685084B2 (en) | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US7974974B2 (en) | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
-
2004
- 2004-09-30 US US10/955,983 patent/US7761448B2/en not_active Expired - Fee Related
-
2005
- 2005-06-10 EP EP05105110.0A patent/EP1643385B1/en not_active Not-in-force
- 2005-06-10 ES ES05105110.0T patent/ES2613385T3/es active Active
- 2005-06-15 JP JP2005175172A patent/JP4950444B2/ja not_active Expired - Fee Related
- 2005-06-29 KR KR1020050057199A patent/KR101203312B1/ko not_active IP Right Cessation
- 2005-07-29 CN CNB2005100885275A patent/CN100565509C/zh active Active
-
2010
- 2010-07-01 US US12/828,508 patent/US8082246B2/en not_active Expired - Fee Related
-
2011
- 2011-09-07 JP JP2011194741A patent/JP5369154B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501688B (zh) * | 2006-06-12 | 2013-07-24 | 沙力股份有限公司 | 搜索内容的方法和装置 |
CN101785197A (zh) * | 2007-08-31 | 2010-07-21 | 微软公司 | 被包括以用于手持设备中的资源选择器 |
CN104484478A (zh) * | 2014-12-31 | 2015-04-01 | 中国农业银行股份有限公司 | 一种关联聚类数据瘦身方法及系统 |
CN104484478B (zh) * | 2014-12-31 | 2018-05-29 | 中国农业银行股份有限公司 | 一种关联聚类数据瘦身方法及系统 |
CN106933896A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
CN106933910A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短路径识别方法及装置 |
CN106933895A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
CN106933895B (zh) * | 2015-12-31 | 2020-02-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
CN108008941A (zh) * | 2017-11-16 | 2018-05-08 | 北京大学 | 一种安卓应用的深链接口自动生成方法及深链执行方法 |
Also Published As
Publication number | Publication date |
---|---|
ES2613385T3 (es) | 2017-05-24 |
CN100565509C (zh) | 2009-12-02 |
JP5369154B2 (ja) | 2013-12-18 |
EP1643385A3 (en) | 2006-09-13 |
US8082246B2 (en) | 2011-12-20 |
US20100268707A1 (en) | 2010-10-21 |
KR101203312B1 (ko) | 2012-11-20 |
KR20060048716A (ko) | 2006-05-18 |
EP1643385B1 (en) | 2016-11-02 |
JP2011258235A (ja) | 2011-12-22 |
EP1643385A2 (en) | 2006-04-05 |
US20060074903A1 (en) | 2006-04-06 |
JP4950444B2 (ja) | 2012-06-13 |
US7761448B2 (en) | 2010-07-20 |
JP2006107432A (ja) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100565509C (zh) | 使用点击距离对搜索结果分级的系统和方法 | |
CN101273350B (zh) | 点击距离确定 | |
KR101683311B1 (ko) | 검색 결과 순위 지정을 위한 정적 관련성 특징으로서 문서 길이를 이용한 정보 제공 방법, 시스템 및 컴퓨터 판독가능 저장 매체 | |
US7840569B2 (en) | Enterprise relevancy ranking using a neural network | |
US20090106221A1 (en) | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features | |
KR101190230B1 (ko) | 정보 검색 시스템에서의 문구 식별 | |
CN1702654A (zh) | 计算显示页面中块的重要度的方法和系统 | |
CN1755678A (zh) | 在排序搜索结果时引入锚文本用的系统和方法 | |
US7698294B2 (en) | Content object indexing using domain knowledge | |
US8473486B2 (en) | Training parsers to approximately optimize NDCG | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
CN116226494A (zh) | 一种用于信息搜索的爬虫系统及方法 | |
Ru et al. | Automated classification of HTML forms on e‐commerce web sites | |
Onyejegbu et al. | Modified Page Ranking System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150504 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150504 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |