CN102239492A - 宽松的过滤设置 - Google Patents
宽松的过滤设置 Download PDFInfo
- Publication number
- CN102239492A CN102239492A CN2009801490522A CN200980149052A CN102239492A CN 102239492 A CN102239492 A CN 102239492A CN 2009801490522 A CN2009801490522 A CN 2009801490522A CN 200980149052 A CN200980149052 A CN 200980149052A CN 102239492 A CN102239492 A CN 102239492A
- Authority
- CN
- China
- Prior art keywords
- key word
- key
- document
- key words
- inverted index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
此处描述了搜索引擎查询中的关键字的子集。所述搜索引擎查询被解析成关键字。对照倒排索引来检查这些关键字以确定是否有任何网络文档包含关键字的子集。包含关键字的子集的文档在搜索结果列表中被列出并传送回给用户。
Description
背景
大多数现行的搜索引擎使用基于关键字的搜索以在万维网(web)上定位网页或在线信息。搜索引擎使用web爬行器来遍历在线网页并将网页的内容归类成倒排索引。倒排索引是一种索引数据结构,其存储了关键字到已被web爬行器定位了关键字的在线文档的映射关系。倒排索引中的条目包括关键字和含有感兴趣的关键字的文档的列表。当用户向搜索引擎发出诸如“dentists inSeattle Washington”(华盛顿州西雅图市内的牙医)之类的查询时,搜索引擎能通过查找倒排索引来快速地检索出包含这四个关键字的在线文档的列表。
大多数基于关键字的搜索引擎按如下假设操作:用户仅意在寻找含有所有搜索项的文档。传统搜索引擎通过定位含有所提交的每一个关键字的文档来应答提交的查询。这一般被称为“基于“与”的搜索”。然而当用户通过包含不必要的项来过度指定查询时,未含有一个或多个额外项的相关文档不能被定位到。在上述例子中,倒排索引可能仅仅指定包含关键字“dentists”(牙医)和“Seattle”(西雅图市)但不包含“in”(内的)和“Washington”(华盛顿州)的文档。因此,搜索引擎将不返回不包括以上全部四个关键字的文档。
概述
提供此概述以便以简化的形式介绍在以下的详细描述中进一步描述的一些概念。此概述并不意在标识所要求保护的主题的关键特征或必要特征,也不是意在被用于帮助确定所要求保护的主题的范围。
本发明的一个方面涉及定位满足搜索引擎查询中的单词的子集的web文档。一旦用户将查询提交给搜索引擎,搜索引擎将查询解析为关键字并确定web爬行器是否在任何在线文档中找到这些关键字的子集。为了这样做,搜索引擎可对照web爬行器找到的项的倒排索引查询单词,并检查在其中找到这些项的文档。还有,搜索引擎查询中的一些关键字可被指定为“非宽松”关键字。非宽松关键字,如果被指定的话,必须被包含在被标识为匹配查询的任何文档中。搜索引擎在搜索结果列表中返回标识出的文档。
本发明的另一个方面涉及被配置成返回上述搜索结果列表的服务器。所述服务器被配置成从客户机计算设备接收搜索引擎查询,将所述查询解析为关键字,搜索倒排索引以确定是否有任何文档包含这些关键字的子集。所述服务器还可被配置成仅定位还包含任何非宽松关键字的文档。
附图的若干视图的简述
下文参考附图详细描述本发明,其中:
图1是根据一个实施例的示例性计算设备的框图;
图2是根据一个实施例的倒排索引的表格表示的示图;
图3A是根据一个实施例的在搜索引擎上执行宽松搜索(relaxed searching)的联网环境的框图;
图3B示出根据一个实施例的在配置成执行宽松搜索的联网环境上的框图和信息流;
图4是示出根据一个实施例的在搜索引擎上执行宽松搜索的步骤的流程图;以及
图5是根据一个实施例的来自执行宽松搜索的搜索引擎的搜索结果列表的示图。
详细描述
此处描述的主题用具体细节来呈现以满足法定要求。然而,此处的描述并不意在限制本专利的范围。相反,可以理解的是所要求保护的主题还可以结合其他当前或将来的技术以其他方式实现,以包括与本文档中所述的步骤不同的步骤或与本文档中所述的步骤类似的步骤的组合。另外,尽管此处可使用术语“框”来指示所用方法的不同元素,但该术语不应该被理解为意味着此处所公开的各步骤之中或之间的任何特定顺序。
一般来说,此处描述的实施例涉及搜索引擎,该搜索引擎通过标识仅包含用户提交的关键字的子集的文档来为搜索引擎查询创建结果列表。在一个实施例中,一旦用户提交搜索引擎查询,搜索引擎在倒排索引中检查以定位含有该查询中的每个单独的关键字的文档。然后,为每个单词而被标识的文档可被比较,以查看该文档是否包含任何其他关键字。只有包含了关键字的子集的文档才会被标识用于结果列表。关键字的子集相当于关键字总数(N)减去小于N的给定数字(K),产生N-K个单词长度的子集。例如,如果查询包含“Seattledentists in Washington”,且K等于1,那么文档将仅需要上述单词中的任意三个单词以被包括在结果列表上。K可以任何数字变化,且可要么由搜索引擎的管理者设定,要么由搜索引擎使用已知的试探法来设定。为简明起见,N减去K在此处用N-K表示。
在替代实施例中,搜索引擎可被配置成仅搜索包含N个单词的给定查询中更少数量的单词(M)的web文档,M<N。例如,还看上述查询,在这个实施例中搜索引擎可被配置成搜索含有“Seattle”、“dentists”、“in”和“Washington”以中的任意两个或三个单词的文档。因此,在这个实施例中,该查询的任M个单词可在web文档上进行匹配。
如此处所讨论的,搜索引擎查询是指搜索引擎进行对Web的任何关键字。web搜索查询可用本领域技术人员所熟知的任何数量的方式来发起。例如,用户可在搜索引擎的网页上的文本域或者网页浏览器的工具栏的文本域中输入关键字或短语。对于本领域的技术人员而言,显然用于发起搜索引擎查询的众多方式也都是可能的且不必在此具体讨论。尽管此处讨论的实施例涉及经由因特网访问网页,但是其他实施例可经专用网络来访问电子文档。
在一个实施例中,本发明采用计算机程序产品的形式,该计算机程序产品包括在一个或多个计算机可读介质上具体化的计算机可用指令。计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质,且考虑了可由数据库、交换机和各种其他网络设备读取的介质。
作为示例而非限制,计算机可读介质包括计算机存储介质。计算机存储介质或机器可读介质包括以用于存储信息的各种方法或技术实现的介质。存储的信息的例子包括计算机可用指令、数据结构、程序模块和其他数据表示。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、独立于诸如紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD),全息介质或其他光盘介质、磁带盒、磁带、磁盘存储或其他磁存储设备等不同存储介质或结合这些不同存储介质使用的闪存。这些存储器组件可瞬时地、暂时地或永久地存储数据。
已经简要地描述了此处描述的实施例的一般概览,下面描述示例性操作环境。首先具体参看图1,用于实现一个实施例的示例性操作环境被示出并总地指定为为计算设备100。计算设备100仅是合适的计算环境的一个示例,并不意在对本发明的使用或功能范围做任何限定。计算设备100也不能被解释为具有对与所示的任何一个组件或其组合有关的任何依赖性或要求。在一个实施例中,计算设备100是个人计算机。不过在其他实施例中,计算设备100可以是蜂窝电话、智能电话、数字电话、手持设备、黑莓、个人数字助理(PDA)或者能执行计算机指令的其他设备。
可在包括诸如程序模块之类的由计算机或诸如PDA或其他手持设备之类的其他机器执行的计算机可执行指令的计算机代码或机器可用指令的一般上下文中描述各实施例。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。此处描述的各实施例可以在各种系统配置中实现,包括手持设备、消费电子产品、通用计算机、更专用计算设备等。此处描述的实施例还可以在分布式计算环境中实现,其中任务是由通过通信网络链接的远程处理设备执行的。
继续参看图1,计算设备100包括直接或间接耦合下列设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120、以及说明性电源122。总线110可代表一个或多个总线(如地址总线、数据总线或者其结合)。尽管为简洁起见,图1的各框用线示出,但实际上,各组件的划分并不如此清楚,且比喻性地来说,这些线条更确切而言是灰色的和模糊的。例如,可以将诸如显示设备等呈现组件认为是I/O组件。还有,处理器带有存储器。本领域的技术人员将理解,这是本领域的本质,且如之前所提到的,图1的示图仅示出能与本发明的一个或多个实施例结合使用的示例性计算设备。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间并不做区分,因为所有这些都被考虑在图1的范围内且称为“计算设备”。
计算设备100一般包括各种计算机可读介质。作为示例但非限制,计算机可读介质可包括随机存取存储器(RAM);只读存储器(ROM);电可擦除可编程只读存储器(EEPROM);闪存或其他存储器技术;CD-ROM、数字多功能盘(DVD)或其他光或全息介质;磁带盒、磁带、磁盘存储器或其他磁存储设备;载波或可用于对所需要的信息编码且能被计算设备100访问的其他介质。
存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、高速缓存、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116将数据指示呈现给用户或其他设备。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。
I/O端口118允许计算设备100逻辑地耦合到包括I/O组件120的其他设备,其中一些可以是内置的。说明性的组件包括话筒、操纵杆、游戏垫、圆盘卫星天线、扫描仪、打印机、无线设备等。
在进一步继续之前,应定义一些关键单词和短语。正如上文提到的,“倒排索引”是一种索引数据结构,它包括web爬行器所标识的关键字到在线文档的映射。图2是根据本发明的一实施例的倒排索引的表格表示的示图。关键字KW1-KWn被web爬行器注意到在文档D1-Dn中。如图2所示,″X″表示web爬行器在其中找到特定关键字的文档D1-Dn。因此,KW1包含在D1、D2、D4和Dn中。当然,图2中的表格仅示出倒排索引的图表化表示,因为本领域的技术人员将理解到实际的倒排索引可能并不被实际上存储为表格。
当应用此处描述的实施例时,搜索引擎使用倒排索引来标识包含提交的搜索查询中的关键字的文档。包含查询中的关键字的子集的文档被返回给进行提交的用户。例如,如果查询包含关键字KW1-KW6且子集被设定为N-1个单词(即只需要在文档中有6个单词中的5个),那么只有D2将被返回。
另外,倒排索引存储了包含特定关键字的文档的位置。倒排索引还可被配置成存储与关键字相关或与文档相关的附加信息。对于关键字,关键字的实例的词性可以被存储——例如,该关键字是否被用作名词、动词、形容词等。另外,替代拼写也可被存储用于该关键字。可以为该文档存储的附加信息的示例,包括但不限于,文档标识符、文档URL、元数据、元标签等。本领域技术人员可以理解各种数据都可以被存储以指定特定关键字与文档;因此,这些数据不需要在此详细讨论。
此处描述的倒排索引可以是包含对每个列出的关键字的文档的引用的列表的记录级别的倒排索引,或者是包含文档中每个关键字的位置的单词级别的倒排索引。各实施例还可采用两种类型的混合。
如此处所使用的,关键字并不限于自然语言单词。附加地,关键字可包括缩略语、缩写、数字、名字和短语。例如,关键字可以是″inc.″、″SMTP″、″40″、″John″或者″sign of peace″。虽然这里提到的是实际的单词,但上述任何一个均可以被替代使用。
术语“文档”指的是使用搜索引擎能搜索到的实际的文档、网页、多媒体(比如音频、视频、图像)等。文档可位于网络(如因特网)上、位于数据库中或者本地存储于计算设备上(如本地驱动器、虚拟硬盘或其他存储介质上)。
“宽松搜索”指的是搜索与搜索引擎查询中提交的全部关键字的子集相匹配的文档。使用上述这个术语,与宽松搜索相关的子集包含N-K个关键字,其中1≤K<N。这种类型的搜索被称为“宽松的”,因为它不需要包含搜素引擎查询中的所有关键字的文档被返回在结果列表中。标识出的文档(即包含了N-K个关键字的那些)最终可在搜索结果列表中被列出并呈现给用户。
图3A是根据本发明的实施例的用于在搜索引擎上执行宽松搜索的联网环境的框图。客户机计算设备300、搜索引擎服务器302、各种信息数据库304均与网络305连接。该搜索引擎服务器300和信息数据库304可包括任何类型的应用服务器、数据库服务器或者可被配置成执行下述软件及管理web文档的文件服务器。另外,搜索引擎服务器300和信息数据库304可以是专用或共享服务器。
搜索引擎服务器300和信息数据库304的组件可包括但不限于,处理单元、内部系统存储器和用于耦合包括用于存储信息(如文件和相关联的元数据)的一个或多个数据库在内的各种系统组件的合适的系统总线。每个服务器一般包括或者能访问多种计算机可读介质。
虽然搜索引擎服务器302被示为单个机箱,但是本领域技术人员可以了解该搜索引擎服务器302是可扩展的。例如,搜索引擎服务器302可以实际上包括操作以下描述的软件的各部分的多个服务器。单个单元的描述意在简洁,而不是以任何形式限制实施例的范围。
在操作中,搜索引擎服务器302主控搜索引擎,所述搜索引擎被设计成从远程计算设备(如客户机计算设备300)接收查询,并定位Web上或专用网络内的信息以满足查询。查询是对Web上含有特定关键字或短语的文档的请求。在一些实施例中,在搜索引擎服务器302上执行的搜索引擎使用持续更新的倒排索引—由web爬行器创建—来快速定位满足查询的网页。一旦网页被定位后,它们的URL被传输回客户机计算设备202并显示为超链接。为了访问被定位的网页,用户只需选择相应的超链接。本领域技术人员可以了解存在用于挖掘网络上的信息的各种其他技术。
文档被存储于信息数据库304上并可经由网络305使用传输协议和相关URL来访问。客户机计算设备300可通过使用传输协议请求URL来取得网页。结果,网页可以被下载到客户机计算设备300并存储于存储器中。然后,被存储的网页可以由网页浏览器读取并呈现给用户。
客户机计算设备300可以是任何类型的计算设备,如上文参考图1所描述的设备100。仅作为示例而非限制,客户机计算设备300可以是个人计算机、台式计算机、膝上型计算机、手持式设备、蜂窝电话、数字电话、智能电话、PDA等。
客户机计算设备300可以配有网页浏览器。网页浏览器是一种软件应用,使得用户能够显示位于Web上的信息并与之进行交互。在一实施例中,网页浏览器使用传输协议与搜索引擎服务器300和信息数据库304进行通信来获取网页。文档可以由网页浏览器通过发送传输协议和URL来定位。网页浏览器还可以用多种标记语言(如超文本标记语言(HTML)和可扩展标记语言(XML))来呈现页面并执行各种脚本语言(如SilverLightTM、JavaScript、Flash、VisualBasic Scripting Edition(VBScript)等)。
用户可使用网页浏览器导航到搜索引擎的网站上。一旦在网站上,用户可以向搜索引擎提交关键字,客户机计算设备300继而将关键字传输到搜索引擎服务器302。当然,向搜索引擎提交查询是更加复杂的;然而,查询到搜索引擎的等待实例的通信对于本领域的技术人员而言是显而易见的,因此不需要在此讨论。
在一个实施例中,搜索引擎服务器302接收查询并将该查询解析成一个或多个关键字。搜索引擎服务器302在一个或多个倒排索引中搜索含有N-K个关键字的文档。被定位的文档(即含有N-K个关键字的那些)在检索结果列表中被列出,并被搜索引擎服务器302传输到客户机计算设备300以显示给用户。
在一个实施例中,倒排索引是由web爬行器浏览存储于信息数据库304中的文档而准备的。信息数据库304代表了存储各种在线文档的服务器。例如,信息数据库304可以主存包含数量众多的在线文档的网页。
网络305可包括任何计算机网络或其组合。可配置成作为网络305而操作的计算机网络的示例包括但不限于,无线网络、陆线、电缆线路、光纤线路、局域网(LAN)、广域网(WAN)、城域网(MAN)等。然而,网络305并不限于耦合分开的计算单元的连接。相反,网络305还可以包括在服务器或计算设备之间传输数据的子系统。例如,网络305还可以包括点对点连接、因特网、以太网、背板总线、电气总线、神经网络或其他内部系统。
在网络305包括LAN联网环境的实施例中,组件通过网络接口或适配器连接到LAN上。在网络305包括WAN联网环境的实施例中,组件使用调制解调器或用于在WAN上建立通信的其他手段来进行通信。在网络305包括MAN联网环境的实施例中,组件使用无线接口或光纤连接来连接到MAN。这样的联网环境在办公室、企业范围的计算机网络、内联网或因特网中很常见。可以理解的是,所示的网络连接是示例性的,且在计算机之间建立通信链路的其他手段也可被使用。
另外,网络305上的通信可需要图示的设备使用通信协议。这些协议的示例包括但不限于,超文本传输协议(HTTP)、传输控制协议(TCP/IP)等。本领域技术人员可以理解各种协议均可用于在网络305上通信;因此,这些协议在此无需具体讨论。
在另一个实施例中,搜索引擎查询中的某些关键字可被指定为不是宽松的,表示所有被检索出来的文档都必须含有非宽松的单词。再次举之前的例子,查询“dentists in Seattle Washington”中的“Seattle”可以被指定为非宽松的。因此,分析倒排索引以寻找含有“Seattle”作为N-K个项中的一个项的文档。下面的代码或者其变体可被用于指定非宽松关键字类。
下面的代码或者其变体可被用于指定查询中的非宽松单词。
图3B示出根据一个实施例的在配置成执行宽松搜索的联网环境上的框图和信息流。如所示,客户机计算设备300、搜索引擎302和信息数据库304,参看图3A所描述的,在网络305上通信。另外,搜索引擎服务器302被示为带有多个抽象层的单个服务器:前端308和后端310。前端308代表与客户机计算设备300进行交互的软件组件。后端310代表为前端308处理信息以及在后台线程上执行辅助进程(如网络爬行)的软件组件。尽管示于同一个服务器上,但前端308和后端310可以替代地在互相通信的分开的服务器上执行。实际上,前端308和后端310仅仅是对搜索引擎的一实施例的不同部分的抽象。
在操作中,用户使用客户机计算设备300上的网页浏览器306来访问搜索引擎的网站。用户可在网站上输入并提交搜索引擎查询A,网站继而将该搜索引擎查询A传输到搜索引擎服务器302。在一个实施例中,前端308包括解析器312,它是将搜索引擎查询A分成独立的关键字B的软件。或者,解析器312可将搜索引擎查询312分成多个关键字的短语。
关键字B被传递到位于后端310上的一个或多个倒排索引314上。在一个实施例中,后端310遍历倒排索引314中的条目以试图定位关键字。倒排索引314标示出含有倒排索引314中所列出的条目的文档318。如之前所述,每个条目包括一关键字(不必与关键字B混淆)以及web爬行器316已在其中定位了该关键字的所有文档318。每个被标识出的文档318的各种信息(如文档标识符、URL、网际协议(IP)地址等)可与该关键字相关联地被存储在倒排索引314中。
在一个实施例中,后端310搜索倒排索引314来找关键字。在该实施例中,后端310传送含有关键字B中的至少一个关键字的一列文档D。例如,对于关键字“dentists in Seattle Washington”的文档D包括含有″dentists″、″in″、″Seattle″和″Washington″的所有文档318。在一个实施例中,作为后端310上执行的软件的一部分的宽松聚合器320在文档D中搜索含有N-K个关键字B的文档(称为文档E)。
文档E(即含有N-K个关键字B的文档)被传递到前端308上的结果产生器322。该结果产生器322创建包括文档E,即含有N-K个关键字B的那些文档的搜索结果列表F。例如,最频繁被访问的文档的URL可被给予列表上的优先级。另选地,基于客户机计算设备300的地理位置的地理上相关的结果例如通过反向IP地址或全球定位系统(GPS)设备确定。本领域技术人员可以理解其他替代方案也是可能的,且没必要在此详细描述。最后,搜索结果列表F被传输到客户机计算设备300并在网页浏览器306中显示给用户。
后端310还被配置成操作web爬行器316来遍历文档318,以及更新倒排索引314。可增加新的条目,现有条目可被更新,或者陈旧的条目可被删除。这个web爬行器316可以在与宽松聚合器320并行的线程上操作。本领域技术人员很了解web爬行器的细节;因此,无需在此详细描述。
图4是示出根据一个实施例的在搜索引擎上执行宽松搜索的步骤(尽管无需是顺序的)的流程图。最初,用户从客户机计算设备向主控搜索引擎的服务器提交搜索引擎查询,如402所示。搜索引擎将查询解析成关键字,如404所示。一旦被解析,在倒排索引中搜索每个关键字,该倒排索引含有数量众多的关键字条目和在其中能找到关键字的相应网络文档—如406处所示。如408处所示,已知含有查询的关键字中的至少一部分—即至少N-K个关键字—的网络文档被标识出来。然后,标识出的网络文档被传输回客户机计算设备(在410处指示)以呈现给用户。
图5示出根据一个实施例的来自执行宽松搜索的搜索引擎的搜索结果列表的示图。具体来说,图6示出web浏览器窗口500的屏幕截图,其呈现了搜索引擎的网站。用户提交了搜索引擎查询502,带有关键字″york″、″wild″、″kingdom″和″USA″,这些被分别标记为单词504、506、508、510。搜索引擎查询502被提交给搜索引擎,搜索引擎返回含有N-K个关键字的结果的列表。在这个实例中,N等于4(单词504、单词506、单词508和单词510)且K被搜索引擎的管理员设定为1。因此产生的文档具有4个关键字504、506、508和510中的至少3个。如所示,结果512、514、516、518和520都含有关键字504、506、508和510中的至少3个。
尽管此处以特定于结构特征和方法动作的语言描述了主题,但可以理解的是在所附的权利要求中限定的主题并不一定限于上述描述的特定特征或动作。相反,上述特定特征和动作是作为实现权利要求的示例形式而公开的。例如,除此处描述的之外的采样速率或采样周期也可由权利要求的范围来捕捉。
Claims (15)
1.一个或多个在其上含有计算机可执行指令的计算机可读介质,所述计算机可执行指令用于执行检索并传送由用户通过搜索引擎提交的查询的搜索结果的方法,所述方法包括:
接收查询(402);
将查询解析成一个或多个关键字(404);
在倒排索引中搜索所述一个或多个关键字(406);
标识含有比所述一个或多个关键字中的全部关键字少的关键字的网络文档(408);
传送网络文档的列表(410)。
2.如权利要求1所述的介质,其特征在于,所述倒排索引包括链接到含有所述多个关键字的多个网络文档的多个关键字。
3.如权利要求1所述的介质,其特征在于,所述网络文档包括所述一个或多个关键字中的全部关键字减去所述一个或多个关键字中的特定量的关键字。
4.如权利要求1所述的介质,其特征在于,所述倒排索引包括一个或多个条目,每一个条目包括一关键字和含有该关键字的文档的标示。
5.如权利要求4所述的介质,其特征在于,所述标识中的每一个包括以下中的至少一个:每一个文档的文档标识符、统一资源定位器(URL)、网际协议(IP)地址。
6.如权利要求4所述的介质,其特征在于,通过路由组件不用采样地传递数据包包括从路由组件的输出接口传输数据包到网络。
7.一种用于检索和传送用户通过搜索引擎提交的查询的搜索结果的方法,所述方法包括:
接收查询(402);
将查询解析成一个或多个关键字(404);
在倒排索引中搜索所述一个或多个关键字(406);
对于所述一个或多个关键字中的每一个,标识包括所述一个或多个关键字中的所述每一个的一个或多个网络文档的集合(408);
确定包含所述一个或多个关键字的子集的多个网络文档的集合,其中所述子集等于所述一个或多个关键字的总数(N)减去特定量的关键字(K)(408);以及
传送经过滤的网络文档的集合的列表。
8.如权利要求7所述的方法,其特征在于,在倒排索引中搜索所述一个或多个关键字进一步包括在倒排索引中仅搜索含有N-K个关键字的文档。
9.如权利要求7所述的方法,其特征在于,还包括将所述一个或多个关键字中的至少一个指定为非宽松关键字,其中所述非宽松关键字必须被包含在所述网络文档中。
10.如权利要求7所述的方法,其特征在于,所述网络文档包括所述一个或多个关键字中的全部关键字所述一个或多个关键字中的特定量的关键字。
11.如权利要求10所述的方法,其特征在于,所述一个或多个关键字中的特定量等于2。
12.一种用于检索和传送提交给搜索引擎的查询的结果的计算机设备,包括:
执行计算机可读指令的处理器(104);
用所述计算机可读指令配置的一个或多个计算机可读介质(112);
倒排索引,存储于所述计算机可读介质中并由所述处理器执行,所述倒排索引被配置成接收查询中的所有关键字并标识包含每一个关键字的网络文档(314);以及
宽松过滤设置聚合器,存储于所述计算机可读介质中并由所述处理器执行,用于确定所述倒排索引中包含所述一个或多个关键字的子集的网络文档的列表,其中所述子集等于关键字的总数(N)减去一个关键字(320)。
13.如权利要求12所述的方法,其特征在于,至少一个关键字被指定为要被包含在所述网络文档的每一个中。
14.如权利要求12所述的方法,其特征在于,所述倒排索引维护一个或多个条目,每一个条目包括一关键字和包含该关键字的至少一个文档。
15.如权利要求14所述的方法,其特征在于,所述倒排索引与web爬行器通信,以不断地更新所述一个或多个条目。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/328,450 | 2008-12-04 | ||
US12/328,450 US20100145923A1 (en) | 2008-12-04 | 2008-12-04 | Relaxed filter set |
PCT/US2009/064714 WO2010065285A2 (en) | 2008-12-04 | 2009-11-17 | Relaxed filter set |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102239492A true CN102239492A (zh) | 2011-11-09 |
Family
ID=42232184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801490522A Pending CN102239492A (zh) | 2008-12-04 | 2009-11-17 | 宽松的过滤设置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100145923A1 (zh) |
CN (1) | CN102239492A (zh) |
WO (1) | WO2010065285A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491465A (zh) * | 2016-06-13 | 2017-12-19 | 百度(美国)有限责任公司 | 用于搜索内容的方法和装置以及数据处理系统 |
CN112434005A (zh) * | 2020-10-30 | 2021-03-02 | 惠州华阳通用电子有限公司 | 一种浏览列表生成装置及实现方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101572614B (zh) * | 2009-06-12 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种社会化网络中处理认证请求消息的方法及装置 |
US8484286B1 (en) * | 2009-11-16 | 2013-07-09 | Hydrabyte, Inc | Method and system for distributed collecting of information from a network |
CN107066509B (zh) * | 2012-04-26 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 信息提供方法、处理服务器及合并服务器 |
CN109033385B (zh) * | 2018-07-27 | 2021-08-27 | 百度在线网络技术(北京)有限公司 | 图片检索方法、装置、服务器及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US20060129555A1 (en) * | 2004-12-09 | 2006-06-15 | Microsoft Corporation | System and method for indexing and prefiltering |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US6363373B1 (en) * | 1998-10-01 | 2002-03-26 | Microsoft Corporation | Method and apparatus for concept searching using a Boolean or keyword search engine |
JP2000330856A (ja) * | 1999-05-21 | 2000-11-30 | Nec Corp | 情報収集装置及び方法 |
US6415368B1 (en) * | 1999-12-22 | 2002-07-02 | Xerox Corporation | System and method for caching |
US6745181B1 (en) * | 2000-05-02 | 2004-06-01 | Iphrase.Com, Inc. | Information access method |
US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
US7228350B2 (en) * | 2000-08-04 | 2007-06-05 | Avaya Technology Corp. | Intelligent demand driven recognition of URL objects in connection oriented transactions |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US7689510B2 (en) * | 2000-09-07 | 2010-03-30 | Sonic Solutions | Methods and system for use in network management of content |
US8301108B2 (en) * | 2002-11-04 | 2012-10-30 | Naboulsi Mouhamad A | Safety control system for vehicles |
US7260570B2 (en) * | 2002-02-01 | 2007-08-21 | International Business Machines Corporation | Retrieving matching documents by queries in any national language |
US7849063B2 (en) * | 2003-10-17 | 2010-12-07 | Yahoo! Inc. | Systems and methods for indexing content for fast and scalable retrieval |
US20060069746A1 (en) * | 2004-09-08 | 2006-03-30 | Davis Franklin A | System and method for smart persistent cache |
WO2006033763A2 (en) * | 2004-09-16 | 2006-03-30 | Telenor Asa | A method, system, and computer program product for searching for, navigating among, and ranking of documents in a personal web |
CN1609859A (zh) * | 2004-11-26 | 2005-04-27 | 孙斌 | 搜索结果聚类的方法 |
US20080195601A1 (en) * | 2005-04-14 | 2008-08-14 | The Regents Of The University Of California | Method For Information Retrieval |
US20090125498A1 (en) * | 2005-06-08 | 2009-05-14 | The Regents Of The University Of California | Doubly Ranked Information Retrieval and Area Search |
WO2007038713A2 (en) * | 2005-09-28 | 2007-04-05 | Epacris Inc. | Search engine determining results based on probabilistic scoring of relevance |
US7822764B2 (en) * | 2006-07-18 | 2010-10-26 | Cisco Technology, Inc. | Methods and apparatuses for dynamically displaying search suggestions |
US8001114B2 (en) * | 2006-07-18 | 2011-08-16 | Wilson Chu | Methods and apparatuses for dynamically searching for electronic mail messages |
US7698328B2 (en) * | 2006-08-11 | 2010-04-13 | Apple Inc. | User-directed search refinement |
US7698329B2 (en) * | 2007-01-10 | 2010-04-13 | Yahoo! Inc. | Method for improving quality of search results by avoiding indexing sections of pages |
US20080288442A1 (en) * | 2007-05-14 | 2008-11-20 | International Business Machines Corporation | Ontology Based Text Indexing |
US7822752B2 (en) * | 2007-05-18 | 2010-10-26 | Microsoft Corporation | Efficient retrieval algorithm by query term discrimination |
US7415460B1 (en) * | 2007-12-10 | 2008-08-19 | International Business Machines Corporation | System and method to customize search engine results by picking documents |
-
2008
- 2008-12-04 US US12/328,450 patent/US20100145923A1/en not_active Abandoned
-
2009
- 2009-11-17 CN CN2009801490522A patent/CN102239492A/zh active Pending
- 2009-11-17 WO PCT/US2009/064714 patent/WO2010065285A2/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US20060129555A1 (en) * | 2004-12-09 | 2006-06-15 | Microsoft Corporation | System and method for indexing and prefiltering |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491465A (zh) * | 2016-06-13 | 2017-12-19 | 百度(美国)有限责任公司 | 用于搜索内容的方法和装置以及数据处理系统 |
CN107491465B (zh) * | 2016-06-13 | 2021-04-27 | 百度(美国)有限责任公司 | 用于搜索内容的方法和装置以及数据处理系统 |
CN112434005A (zh) * | 2020-10-30 | 2021-03-02 | 惠州华阳通用电子有限公司 | 一种浏览列表生成装置及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2010065285A3 (en) | 2010-08-19 |
US20100145923A1 (en) | 2010-06-10 |
WO2010065285A2 (en) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7346605B1 (en) | Method and system for searching and monitoring internet trademark usage | |
JP5476308B2 (ja) | ウェブ広告を使用した、検索クエリのシンジケート | |
JP4873813B2 (ja) | インデクシングシステムおよび方法 | |
JP4857075B2 (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム | |
US8024345B2 (en) | System and method for associating queries and documents with contextual advertisements | |
US8554800B2 (en) | System, methods and applications for structured document indexing | |
US7058944B1 (en) | Event driven system and method for retrieving and displaying information | |
US7155489B1 (en) | Acquiring web page information without commitment to downloading the web page | |
Henzinger | Search technologies for the Internet | |
CA2530565C (en) | Server architecture and methods for persistently storing and serving event data | |
CA2398769C (en) | Method and system for generating a set of search terms | |
US6651059B1 (en) | System and method for the automatic recognition of relevant terms by mining link annotations | |
US9122769B2 (en) | Method and system for processing information of a stream of information | |
US20080201632A1 (en) | System and method for annotating documents | |
US20100114864A1 (en) | Method and system for search engine optimization | |
US20080028334A1 (en) | Searchable personal browsing history | |
US9405831B2 (en) | Avoiding masked web page content indexing errors for search engines | |
CN101073080A (zh) | 推荐搜索引擎关键词 | |
CN102239492A (zh) | 宽松的过滤设置 | |
US7698329B2 (en) | Method for improving quality of search results by avoiding indexing sections of pages | |
EP1962202A2 (en) | System and method for annotating documents | |
US20050004913A1 (en) | Dynamic access decision information module | |
KR100771577B1 (ko) | 웹페이지 접속 이력정보 관리방법 | |
Domingues et al. | A data warehouse for web intelligence | |
Mattosinho | Mining Product Opinions and Reviews on the Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1163297 Country of ref document: HK |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111109 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1163297 Country of ref document: HK |