CN1645370A - 为聚焦的搜索构建并使用子网 - Google Patents

为聚焦的搜索构建并使用子网 Download PDF

Info

Publication number
CN1645370A
CN1645370A CNA2005100062085A CN200510006208A CN1645370A CN 1645370 A CN1645370 A CN 1645370A CN A2005100062085 A CNA2005100062085 A CN A2005100062085A CN 200510006208 A CN200510006208 A CN 200510006208A CN 1645370 A CN1645370 A CN 1645370A
Authority
CN
China
Prior art keywords
subnet
website
search
user
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100062085A
Other languages
English (en)
Other versions
CN1645370B (zh
Inventor
E·D·布里尔
H·陈
R·钱德拉西卡
S·H·科斯顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1645370A publication Critical patent/CN1645370A/zh
Application granted granted Critical
Publication of CN1645370B publication Critical patent/CN1645370B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F11/00Indicating arrangements for variable information in which the complete information is permanently attached to a movable support which brings it to the display position
    • G09F11/02Indicating arrangements for variable information in which the complete information is permanently attached to a movable support which brings it to the display position the display elements being secured to rotating members, e.g. drums, spindles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

一种便于在包括对应于用户感兴趣的主题和/或用户特征的子网的站点集合上的聚焦搜索的执行的系统。该子网包括涉及该主题和/或用户特征的多个域和/或路径(如,站点)。该子网内的每一站点被分配一指示该站点与期望的主题和/或用户特征的相关度的权值。搜索引擎采用该子网以便于在站点集合上聚焦搜索。搜索引擎接收查询,并使用该子网在站点集合上聚焦对应于由该子网表示的主题和/或用户特征的搜索。搜索的结果至少部分地基于向该子网内的站点分配的相关度权值被返回到用户。

Description

为聚焦的搜索构建并使用子网
相关申请的参照
本申请要求2004年1月23日用快邮号EV330021427US提交的名为“构建子网(BUILDING SUBWEBS)”的美国临时专利申请的优先权,该申请通过引用整体结合于此。
技术领域
本发明一般涉及因特网和/或内联网搜索,尤其涉及便于域和/或路径的主题分类或偏置,并且还便于这类分类的搜索的系统和方法。
背景技术
计算机和网络技术从高成本、低性能数据处理系统到低成本、高性能通信、问题解决和娱乐系统的演变提供了一种减少执行诸如通信联系、付帐、购物、预算、和信息收集等日常任务的负担的节省成本且节省时间的方法。例如,通过有线或无线技术与因特网接口的计算系统可向用户提供用其指尖几乎瞬时地访问位于全球的网站和服务器存储库上的健康信息的通道。
通常,可从网站和服务器上获得的信息是通过在web客户机(如,计算机)上执行的web浏览器来访问的。例如,web用户可使用web浏览器,并通过将网站的同一资源定位器(URL)(如,web地址和/或因特网地址和/或内联网地址)输入到web浏览器的地址栏然后按下键盘上的回车键或者用鼠标点击“go(转到)”按钮来访问网站。URL通常包括便于访问的四部分信息:指示用于信息交换的一组规则和标准的协议(计算机彼此通信的语言)、到网站的位置、维护该网站的组织的名称、以及标识组织类型的web地址后缀(如,com、org、net、gov和edu)。
在某些情况下,用户事先知道站点或服务器的名字,和/或到用户期望访问的站点或服务器的URL。在这些情况下,用户可通过将URL输入到地址栏并连接到该站点来如上所述地访问该站点。然而,在大多数情况下,用户不知道URL或站点名。相反,用户采用了一种搜索功能以便于基于由用户提供的关键字定位特定的站点。当前存在两种完全不同类型的搜索功能-其搜索被限制在特定域或站点(如,www.domain.com)的域专用搜索功能,以及在整个万维网(或内联网)中搜索涉及提供的关键字的站点的通用搜索功能(如,通用搜索引擎)。例如,用户可能期望定位包含关于计算机病毒的信息的站点。第一个选项是直接到专门研究涉及计算机病毒的信息的特定的域(如,www.computervirus.com),并在该域内搜索包含相关信息的文档(如,www.computervirus.com/virus1.htm)。更具体地,用户将URL www.computervirus.com输入到web浏览器的地址栏,并被定向到这一站点。在该站点上,用户可在搜索对话框中输入关键字,搜索将返回域www.computervirus.com中用户可选择的文档。然而,将不会向用户返回位于该域外部的相关信息。例如,将不会返回域www.compvirus.com中的相关页,因为它不位于域www.computervirus.com中。由此,为使用户获得位于域www.computerviurs.com之外的相关数据,他必须知道包含信息的其它域的URL地址并搜索这些特定的域。
可选地,用户可将关键字输入到通用搜索引擎中,它将搜索整个万维网或其它站点集合(如,内联网),并返回它所确定的涉及该关键字的站点。然而,通用搜索引擎通常会返回完全不涉及用户的特定兴趣的大量站点。例如,如果用户使用关键字“病毒”来搜索,他或她并非获得仅涉及计算机病毒的信息,而是会接收涉及生物学病毒以及计算机病毒的信息。之后,用户可滚动通过多个返回的站点,并试图确定它们是否涉及用户的兴趣。滚动通过返回的结果是极其耗时且令用户感到沮丧的,因为通用搜索引擎在执行搜索时可返回大量的站点。用户可试图通过使用布尔操作符的组合来缩小搜索范围,但是很难构造能导致返回仅包含相关信息的站点的适当的布尔搜索。此外,某些常规通用搜索引擎试图基于关键字推断用户正在搜索什么。例如,如果用户向通用搜索引擎输入项“病毒”,则搜索引擎可返回多个站点以及用于缩小搜索范围的建议。更具体地,搜索引擎可返回多个建议,比如“你希望搜索计算机病毒吗?”、“你希望搜索生物学病毒吗?”等等。对于许多搜索(尤其是对于更详细且具体的搜索),该常规方法要求选择所建议的搜索的连续层次,并且返回的站点可能仍缺少相关信息。此外,用户可能期望定位不由返回的搜索建议所包含的站点。
因此,本领域中强烈需要一种提供可在域专用搜索中找到的聚焦结果,而不会牺牲涉及通过通用搜索引擎所执行的搜索的益处的搜索系统和/或方法。
发明内容
以下内容提出了本发明的简化概述,以提供本发明的某些方面的基本理解。本概述并非本发明的广泛综述。它并非旨在标识本发明的关键/决定性元素,或描绘本发明的范围。其唯一的目的是以简化的形式提出本发明的某些概念,作为后文的更详细描述的序言。
本发明使用涉及特定主题、个人子集、或任何其它合适的站点分组的域和/或路径(后文总体简称为“站点”)的部分总体(subpopulation)的分组,以便于关于搜索因特网的改进。在下文中,这些站点包含可由用户检索的文档页。例如,站点的部分总体可被选中,并基于通常察看这些站点的个人的年龄组、察看这些站点的个人的政治党派、察看这些站点的个人的地理位置、察看这些站点的个人的宗教信仰等来分组。例如,相关站点的部分总体可与期望由用户搜索的特定主题有关。更具体地,年龄在10到20之间的用户可能搜索与年龄在40到50之间的用户完全不同的站点,第一政治党派的个人通常搜索与对立的政治党派的个人不同的站点。在另一示例中,站点的集合(如,因特网)概念上可被视为多个主题,其中,主题由站点集合内涉及该主题的站点来定义。当搜索涉及特定主题的信息时,在执行搜索前拥有已被发现涉及该主题的站点的列表将是有益的。本发明描述了一种编译可依照主题、个人年龄、个人政治党派、个人地理位置等来分组的站点列表的系统和/或方法,并且还揭示了一种向所列出的每一站点分配相关度权值的系统和/或方法。为可读性目的,下文将采用术语“主题”不仅指“主题”的常规定义,还指相关站点的其它分组(如,依照对特定年龄范围、地理位置……的相关度分组的站点)。涉及特定主题或组的相关度加权的站点的集合在下文被称为子网(subweb)。当因特网上的信息改变时、当用户偏好改变时、或为任何其它合适的原因,可修改子网以保持最新。此外,子网可被储存(如,储存在硬盘驱动器、CD、DVD……)、复制和在用户之间传输。
依照本发明的一个方面,子网可包括涉及由子网表示的主题的站点的列表,并且子网中的每一站点将依照站点对主题的相关度来分配一偏置权值(biasedweight)。由此,例如,被发现为与由子网表示的主题高度相关的站点将被分配一比被发现为与该主题较不相关的站点更大的相关度权值。之后,通用搜索引擎可使用一个或多个主题专用子网来便于搜索的聚焦。更具体地,可选择一个或多个子网来适当地聚焦搜索,并且可将搜索查询输入到通用搜索引擎中。之后,可基于常规搜索引擎分级系统以及分配给定义子网的站点的相关度权值来确定搜索结果。例如,由搜索引擎返回的子网中存在的站点将接收对应于所分配的加权相关度分级的分级升高。依照本发明的另一方面,从通用搜索引擎返回的多个站点被丢弃,因为它们不由被选择来聚焦搜索的子网包含在内。本发明也可用于向用户呈现经分类/经群集的搜索引擎返回结果一对于给定的返回组,可将分别为特定不同子网的一部分的站点的多个子集装箱(bin)。例如,可存在涉及健康和医药的子网以及涉及计算机的子网,并可用于搜索引擎。如果向搜索引擎输入查询“病毒”,可对涉及医药的结果和涉及计算机的结果进行分类,并单独向用户显示(如,可相应地对健康和医药子网中的站点以及计算机子网中的站点进行分组)。
依照本发明的一个方面,可使用涉及特定主题的查询项的列表来创建子网。例如,来自涉及主题专用网站的查询日志的查询可用作查询项列表。之后,当使用若干不同的主题相关查询项时,可使用通用搜索引擎来执行多个搜索。由于查询项涉及特定主题,对不同的查询项将多次返回与该主题相关的网站(如,当使用不同的查询项时,可返回同一网站)。此外,本发明考虑审阅邻近的站点,并确定其对于感兴趣的主题的相关度(如,链接到搜索中返回的站点内/外的站点)。向搜索中返回的站点分配指示特定站点与主题的相关度的权值。权值至少部分地基于当使用多个不同的主题相关搜索项时返回的站点和/或邻近站点的次数来计算。此外,子网可至少部分地基于用户的属性来创建。例如,如果已知了搜索引擎用户的年龄/性别/位置等,可对这些年龄/性别/位置等特征构建子网。更具体地,可构建由当前居住在德克萨斯州的20-30岁男性使用的子网。此外,对应于子网内的站点的权值可至少部分地基于个别用户的先前搜索或浏览历史、结果页的内容等等。
依照本发明的另一方面,web爬行器(crawler)可使用子网来确定在万维网上访问哪些页。例如,当与不流行子网中的页或完全不用于子网的页相比时,web爬行器更频繁地访问流行子网中的页。
为实现上述和相关目的,此处结合以下描述和附图描述了本发明的某些说明性方面。然而,这些方面仅表明了可采用本发明的原理的各种方式中的几种,并且本发明旨在包括所有这样的方面及其等效方面。当结合附图考虑阅读以下本发明的详细描述时,可以清楚本发明的其它优点和新颖特征。
附图说明
图1是依照本发明的一个方面便于改进的搜索的系统的框图。
图2是依照本发明的一个方面便于改进的搜索的系统的另一框图。
图3是依照本发明的一个方面便于改进的搜索的系统的又一框图。
图4是依照本发明的一个方面便于改进的搜索的系统的再一框图。
图5是依照本发明的一个方面使用子网来提高搜索结果的相关度的方法的流程图。
图6是依照本发明的一个方面修改子网的方法的流程图。
图7是依照本发明的一个方面将因特网到多个主题的示例性划分。
图8是可用于本发明的示例性搜索显示。
图9是依照本发明的一个方面便于子网创建的系统的框图。
图10是依照本发明的一个方面便于子网创建的系统的另一框图。
图11是依照本发明的一个方面创建子网的方法的流程图。
图12是依照本发明的一个方面创建子网的方法的另一流程图。
图13示出了依照本发明的一个方面的示例性查询日志和基于查询日志生成的示例性子网。
图14示出了依照本发明的一个方面便于改进的web爬行的系统的框图。
图15示出了依照本发明的一个方面的子网的可转移性。
图16示出了依照本发明的一个方面与从子网聚焦搜索返回的结果相比的从各种搜索引擎返回的结果。
图17和18示出了依照本发明的一个方面显示与常规搜索相比的子网聚焦索索的优势的数据。
图19示出了本发明可在其中起作用的示例操作环境。
图20示出了本发明可在其中起作用的另一示例操作环境。
具体实施方式
现在参考附图描述本发明,贯穿附图,相同的标号用于表示相同的元素。在以下描述中,为解释目的,陈述了许多具体细节以提供对本发明的彻底理解。然而,很明显,本发明可不用这些具体细节来实践。在其它情况下,以框图形式示出了公知的结构和装置,以便于描述本发明。
如本发明中所使用的,术语“组件”、“处理程序”、“模型”、“系统”等指的是计算机相关的实体,无论是引荐、硬件和软件的组合、软件还是执行中的软件。例如,组件可以是,但不限于,运行在处理器上的进程、处理器、对象、可执行码、执行线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程中,并且组件可在一个计算机上定位和/或在两个或多个计算机之间分布。同样,这些组件可从在其上储存了各种数据结构的各种计算机可读媒质执行。组件可诸如依照具有一个或多个数据分组(如,通过信号与本地系统、分布式系统、和/或在诸如与其它系统的因特网连接等网络上另一组件交互的一个组件中的数据)的信号通过本地和/或远程进程来通信。
转向图1,示出了当在站点集合上执行搜索时便于改进的准确度和效率的系统100。系统100用于在因特网上搜索涉及用户查询的信息。然而,可以理解,因特网仅是可依照本发明来搜索的站点集合的一个示例。任何站点集合,无论是在因特网、内联网还是在别处,都可使用本发明来搜索。例如,储存在客户机硬盘上的站点集合可结合本发明来搜索。本发明通过将多个域(如,www.domain.com)、路径(如,www.domain.com/paths)、域和/或路径的群集、以及位于因特网上的其它合适的站点概念上划分成储存在数据存储108中的相关站点或子网102-106的邻域,改进了常规的搜索技术。每一子网102-106涉及用户感兴趣的特定主题,并由此包括涉及该主题的多个站点(如,域、路径、域和/或路径的群集、……)。例如,子网102可涉及汽车;由此,包括在子网102内的每一站点都将涉及汽车主题。可以理解,因特网(或任何其它站点集合)可被看做任意数量的主题的集合,并且两个或多个主题可包括相关的信息。因此,表示相关主题的不同子网可包括多个相同的站点。此外,一个子网可完全包含另一子网。仅为说明目的,子网102-106被示出为彼此完全不同,并且这一分隔不应当被解释为限制本发明的范围。此外,子网可至少部分地基于搜索引擎用户的特征来创建。例如,可创建包含通常由特定年龄范围内的个人搜索的站点的子网。其它用户特征,如用户位置、用户性别、用户政治党派、种族划分等也可用于创建包含涉及这些用户特征的站点的子网。
子网102-106内的站点依照其对子网102-106所表示的主题和/或用户特征的相关度来加权偏置(weight bias)。例如,子网104包括N个站点和N个权值,其中,N是整数。每一站点与一权值相关联,当与子网104内的其它权值共同审阅时,该权值可说明站点对子网104的主题的相关度。更具体地,在子网104内,向站点1分配权值1的权值,并向站点2分配权值2的权值。由此,通过将权值1与权值2进行比较,可确定这两个站点的哪一个具有与子网104的主题的更高的相关度。此外,子网102-106可作为用户概况的一部分和/或独立的对象储存在数据库内。例如,数据存储108可通过网站来访问。在访问了网站并输入了用户标识信息(如,用户名和密码)之后,子网102-106可被检索并用于搜索。同样,子网102-106可作为对象储存,并传输到不同的用户供其使用(如,子网102-106可以附加到电子邮件并由一个不同的用户使用)。此外,子网102-106可由多个用户定制来满足特定需求。
系统100使用子网102-106以在涉及一个或多个主题的站点集合(如,因特网)上聚焦搜索。由于子网102-106内的站点涉及特定主题但不限于一个特定域,因此用户可安心地搜索主题信息,而不会担心充满了不相关的信息。系统100包括选择一个或多个子网以在搜索中使用的子网选择器110。依照本发明的一个方面,子网选择器110可与一在显示器112上向用户呈现的用户界面(未示出)相关联,其中,该用户界面使用户能够选择期望的子网用于搜索主题信息。依照本发明的另一方面,子网选择器110可自动选择一个或多个子网,用于基于站点集合或当前正在被审阅的站点(如,网站)上的入口点的信息搜索。例如,如果用户当前在涉及汽车购买的站点上,则子网选择器110可自动选择具有涉及汽车的主题的一个或多个子网。此外,子网选择器110可基于输入到通用搜索引擎的查询项和/或用户历史来选择适当的子网。例如,如果用户具有审阅计算机辅助页的历史,并向搜索引擎输入项“病毒”,则子网选择器110可选择涉及计算机的子网,而非选择涉及生物学疾病的子网。
子网选择器110结合接收搜索查询的搜索组件114操作。例如,搜索组件114可以是通用搜索引擎,并且查询可源自用户、计算机程序等等。子网选择器110可在搜索组件114接收搜索查询之前或在搜索组件114接收搜索查询之后选择一个或多个子网。例如,如果用户手动选择一个或多个子网用于搜索,则在接收搜索查询之前选择子网。然而,如果子网选择器110使用搜索查询来确定选择哪一(些)子网,则这一搜索显然在搜索组件114接收搜索查询之后才完成。
在接收搜索查询之后,搜索组件114将依照这一查询执行对信息的搜索,并且所选择的子网将用于该搜索。示出子网104作为所选择的子网,但是可以理解,子网选择器可选择任一可用的子网或子网组合来辅助搜索。依照本发明的一个方面,搜索只能在包含在所选择的子网106中的那些站点上执行。这使通用搜索引擎能够使用现有的搜索算法,而同时仅返回被发现是涉及由子网106表示的主题的站点。类似地,搜索组件114可在整个因特网(或其它合适的站点集合)上搜索相关信息,并且可在向用户返回搜索结果之前删除子网104中不存在的返回站点。由搜索组件114定位并且未删除的结果可通过显示器112向用户传送。
依照本发明的另一方面,子网104中由搜索组件114定位的站点可依照其所分配的权值来给予优先级。更具体地,搜索组件114可以是通用搜索引擎,并基于搜索查询以常规方式定位/分级站点。子网104中存在的由搜索组件114定位的站点之后可依照其所分配的相关度权值来提升。由此,搜索组件114使用的常规分级系统和/或方法可与子网104内站点的加权集成。因此,例如,子网104内当采用常规搜索方法时被列出四次的站点可被提升到指示对搜索查询的更高相关度的位置。由此,采用了常规分级系统的功能和分配给站点的权值来对搜索结果进行分级。分级并定位的结果然后可通过显示器112向用户传送。此外,分级和过滤的组合可用于向用户提供搜索结果。
现在参考图2,示出了便于在一个或多个感兴趣的主题范围上聚焦搜索的系统200。系统200也便于依照用户的特征(如,性别、种族划分、位置、年龄、……)过滤的搜索。系统200通过使用用户可访问的数据存储204内的子网202在站点集合上搜索。子网202包括N个站点,其中,N是整数。站点可以是域、路径、站点群集、或其它相似的站点。子网202内N个站点的每一个包括涉及由子网202表示的主题和/或用户特征的信息,并且向N个站点的每一个分配一指示其对主题和/或用户特征的相关度的权值。更具体地,向站点1分配权值1的权值,向站点2分配权值2的权值,并向站点N分配权值N的权值。由此,相对权值2审阅权值1将提供关于站点1是否比站点2与由子网202表示的主题更相关的信息。
系统200包括选择一个或多个子网用于主题偏置和/或过滤搜索的子网选择器206。尽管示出数据存储204仅包括子网202,然而可以理解,当执行聚焦搜索时,可生成并使用任意合适数量的子网。在本示例性说明中,子网选择器206选择了子网202。子网选择器206可将关于选择了哪一(些)子网的信息中继到显示器208。系统200还包括响应于查询至少在包含在子网202内的站点上搜索的搜索组件210。依照本发明的一个方面,搜索组件210以常规的方式操作,并在整个站点集合(如,整个因特网)上就查询的搜索项进行搜索。之后,可删除未包含在子网202内的返回站点,或可依照常规分级方法以及分配给子网202中的站点的权值对返回的站点进行分级。由此,由搜索组件210定位并包含在子网202内的站点将接收分级提升,而由搜索组件210定位并且不包含在子网202内的站点将不接收提升。由此,站点的分级可以是常规搜索引擎分级方法以及分配给子网202内的站点的权值的函数。分级的结果然后可以从搜索组件210中继到显示器208。
系统200可以与便于子网202的改变/定制(如,在子网202由子网选择器206选中前和/或后)的调整组件212相关联。例如,调整组件212可用于通过用户界面214从子网202添加和/或移除特定站点。当域和/或路径名改变、从因特网添加或移除站点、改变站点内容等时,这将是有益的。由此,调整组件212提供了一种使用户能够手动改变子网202的内容的机制。依照本发明的另一方面,调整组件212可用于自动维护子网202。例如,调整组件212可结合爬行器(未示出)操作,以保持子网202中的站点最新。更具体地,爬行器可访问子网列表以及包含在子网内的站点。在确定曾经驻留在站点集合(如,因特网、内联网、服务器、客户机硬盘、……)中的站点不再存在之后,爬行器可在子网内搜索该站点,并且如果它在一个或多个子网内存在,则删除它。类似地,爬行器可定位新创建的站点,并向调整组件212通知这些新站点。调整组件212之后可基于内链接(inlink)、外链接(outlink)、搜索项在站点内的存在、该站点是否是相关域的一部分、以及其它合适的标记来确定该站点是否应当被包括在一个或多个子网内。类似地,爬行器可确定子网202内的站点已经被改变,并且调整组件212可通过搜索关键字、审阅内链接和/或外链接等来审阅该改变,以确保该站点仍与由子网202表示的主题相关。调整组件212也可使用人工智能/机器学习算法来维护子网202。
调整组件212也可便于分配给子网202内的站点的权值的定制。例如,自动向每一站点分配权值的算法可确定站点1比站点2与子网202所表示的主题更相关。然而,基于过去的经验和偏好,用户可确定站点2应当以比站点1与子网202所表示的主题和/或用户特征更相关的方式来加权。由此,用户可采用用户界面214来修改特定站点的加权(如,滑动条、文本输入框、……)。由此,用户可依照偏好和经验来定制子网。权值也可由人工智能和/或机器学习算法来修改。
现在转向图3,示出了提供关于一个或多个特定主题和/或用户特征的改进的搜索的系统300。系统300用于在站点集合302(如,因特网、内联网、站点的数据存储、……)上搜索涉及一个或多个特定主题和/或一个或多个用户特征304-308的信息,其中,子网表示一个特定的主题和/或一个或多个用户特征。子网包括涉及由该子网表示的主题和/或用户特征的多个站点(如,域、路径、群集、……),并且站点依照其相关度来加权偏置。由此,与子网所表示的主题和/或用户特征高度相关的站点将接收比与由子网表示的主题和/或用户特征较不相关的站点更高的权值。
子网选择器310选择一个或多个子网用于在站点集合302上搜索涉及由一个或多个子网表示的一个或多个特定主题和/或用户特征304-308的信息。依照本发明的一个方面,子网选择器310可访问包括用户概况314的数据存储312。数据存储312可以是诸如硬盘、随机存取存储器、只读存储器、可移动媒质以及CD-ROM等数据存储设备。用户概况314进而包括可用于在站点集合302上搜索主题信息和/或涉及特定用户特征的信息的一个或多个子网316。例如,数据存储312(并由此子网316)可通过网络连接来访问(如,数据存储312可以是可通过网站访问的在线数据存储)。之后,例如,可通过在网站上输入用户名和密码来访问用户概况314。这一方面使用户能够在用户概况314中储存一个或多个子网316,并从用户可用于获得网络连接的任一终端访问子网316。由此,子网316可包括涉及一个或多个主题和/或用户特征304-308的子网,并且这一(些)子网316可用于在站点集合302上搜索主题信息以及涉及这些用户特征的信息。
搜索组件318基于搜索查询和所选择的子网搜索站点集合302。搜索组件318包括对通过搜索组件318定位的站点进行分级的分级组件320。分级组件320可使用常规搜索引擎算法以及向子网316内的站点分配的权值来对所定位的站点进行分级。例如,包含在子网316内由搜索组件318定位的站点可包含依照站点的对应权值的提升,而不包含在子网316内由搜索组件318定位的站点将不接收提升。在搜索组件318定位了站点并通过分级组件320对站点分级之后,可向显示器322传送结果。
搜索组件318也包括使用户能够改进站点集合上的未来搜索的反馈组件324。反馈组件324可提供涉及搜索的调查或从用户接受涉及搜索的评论,并且用户可通过与系统300相关联的用户接口326与反馈组件进行通信。例如,用户可向搜索组件318提供查询,并使用子网选择器310选择一个或多个子网316,以将搜索聚焦到主题/用户特征304-308之一。搜索组件318可返回位于所选择的子网316中的站点以及不在子网316中的它所发现与用户查询相关的站点。分级组件320然后对返回的站点进行分级,依照其权值向选择的子网316内的返回站点提供提升。如果向用户返回了它认为与子网316所表示的主题不相关的站点,则用户可使用反馈组件324从采用所选择的子网316的未来搜索中省略这一站点。用户也可通过用户界面326向反馈组件324中继更多的特定反馈。例如,用户可向反馈组件324通知,当使用所选择的子网用于搜索时,他仅期望接收特定日期和/或特定时间的特定站点。在另一示例中,用户可向反馈组件324通知,只要使用特定的子网来完成聚焦搜索,他期望接收特定站点的内链接和/或外链接。反馈组件324也可收集隐含的用户反馈。例如,用户所访问的返回的站点可用于提升子网316中的相应权值。由此,随着时间的推移,用户可依照偏好来定制关于特定站点或主题的搜索。
也可结合用户界面326提供调整组件328,以修改并定制一个或多个子网(如,一个或多个子网316)。例如,调整组件328可用于添加和/或移除子网内的特定站点,并可修改子网内的站点权值。用户可使用用户界面326来手动添加和/或删除站点,以及修改对应于不同站点的权值。依照本发明的另一方面,调整组件328可用于通过与一个或多个爬行器(未示出)通信来自动地维护子网。例如,爬行器可向调整组件328通知一个或多个子网内的一个或多个站点已被改变或删除。类似地,当向站点集合302添加了一个或多个站点时,爬行器可通知调整组件328。更具体地,爬行器可以是当向因特网或内联网添加一个或多个站点时通知调整组件328的web爬行器。
现在转向图4,示出了便于在站点集合上就一个或多个特定主题和/或用户特征进行搜索的系统400。系统400用于在站点集合(如,因特网、内联网、……)上搜索涉及一个或多个主题和/或用户特征的信息,其中,该一个或多个主题/用户特征由储存在数据存储404中的一个或多个子网402表示。子网402包括可在站点集合中找到的涉及子网402所表示的主题/用户特征的多个站点。子网402内的每一站点依照其与子网所表示的主题/用户特征的相关度来加权。例如,向更相关的站点给予更高的加权。
系统400包括便于期望用于聚焦搜索的一个或多个子网的选择的子网选择器406。子网选择器406可与使用户能够手动选择特定子网用于聚焦搜索的用户界面408相关联。依照本发明的另一方面,子网选择器406可至少部分地基于站点集合(如,因特网)内的入口点来确定要选择的子网。此外,子网选择器406可与人工智能组件410相关联,它可至少部分地基于查询、用户历史、用户状态和/或用户环境推断要选择哪一(些)子网。
如本发明所使用的,术语“推断”指从通过事件和/或数据捕捉的一组观察中推出或推理系统状态、环境、和/或用户的过程。例如,推断可用于标识特定的环境或行动,或可生成状态上的概率分布。推断可以是概率性的一即,基于数据和事件的考虑对感兴趣的状态上的概率分布的计算。推断也可以指用于从一组事件和/或数据中组成较高级事件的技术。这类推断导致从一组观察的事件和/或储存的事件数据构造新事件或行动,不论这些事件是否与在时间上密切相关,也无论这些时间和数据是否来自一个或若干个时间和数据源。可使用各种分类模式和/或系统(如,支持矢量机器、神经网络、专家系统、贝叶斯信任网络、模糊逻辑、数据融合引擎……),来结合本发明执行自动和/或推断的行动。
由此,例如,给定特定用户状态和环境,人工智能组件410可监视用户,并可随时间的推移学习用户的期望。例如,用户通常可在一天中的特定时间和/或当用户在特定位置时使用特定的子网子集用于因特网搜索。人工智能组件410可从各种传感器412接收数据(如,一天中的时间、用户位置、……),并使用该数据来执行适当的推断。此外,人工智能组件可采用关于通知子网选择器406选择特定子网的成本/收益分析。更具体地,人工智能组件可平衡通知子网选择器406选择一个或多个正确子网的收益与通知子网选择器406选择一个或多个不正确子网或省略期望的子网的成本。
搜索组件414接收搜索查询,并结合一个或多个所选择的子网定位并分级得自搜索查询的站点。搜索组件414可采用常规的搜索引擎分级系统和/或方法,以及向一个或多个所选择的子网内的站点所分配的权值来对搜索结果进行分级。这类结果然后可通过显示器418中继到用户。搜索组件414也可与人工智能组件410通信来提供更准确的搜索。例如,当用户环境改变时,依照子网内的特定站点的用户偏好也可改变。例如,搜索天气信息的用户可能在第一地理位置上更喜欢涉及因特网上的天气的第一站点,而在第二地理位置上更喜欢涉及因特网上的天气的第二站点。人工智能组件可监视用户并学习当用户环境改变时用户更喜欢一个或多个子网内的哪些站点。传感器412可用于向人工智能组件410通知用户环境的变化。
系统400还包括调整组件420,它可用于修改一个或多个子网(如,子网404)。例如,用户可通过用户界面408访问子网402,并对子网内的站点作出改变(如,添加站点、删除站点、改变权值)。此外,调整组件420可结合人工智能组件410操作,以自动调整子网402。例如,子网402最初可包括具有指示该站点与由子网402表示的主题高度相关的对应权值的站点。然而,当使用子网402来实行搜索时,用户很少选择该站点,即使其等级很高。人工智能组件410可监视随时间的推移关于用户状态和环境的用户活动,并学习用户更喜欢哪些站点。之后,人工智能组件410可通知调整组件420,应当调整特定子网中的特定站点。人工智能组件410可确定对子网402作出正确改变的概率,并测定当给定这一概率时对子网402的不正确改变的代价以及正确改变的收益。
现在参考图5,示出了通过使用一个或多个子网执行主题搜索的方法500。尽管为简明解释的目的,方法500被示出并描述为一系列的动作,然而应当理解并意识到,本发明不被动作的顺序所限制,依照本发明,某些动作可以不同的顺序和/或与此处所示出并描述的其它动作并发地发生。例如,本领域的技术人员可以理解并意识到,方法可选地可被表示为一系列相互关联的状态或事件,如在状态图中。此外,并非所有示出的动作都需要用来实现依照本发明的方法。
在502,提供了可搜索大部分文档集合(如,因特网、内联网、本地硬盘上的站点集合、……)上的信息的搜索引擎。该搜索引擎可包括基于搜索查询定位并分级搜索结果的常规系统和/或方法。在504,选择表示用户感兴趣的主题的一个或多个子网。依照本发明的一个方面,可提供用户界面以使用户能够手动选择一个或多个期望的子网。此外,可基于当前查询、最近的查询、入口点以及可表示用户期望搜索的主题的其它标记来选择一个或多个子网。依照本发明的另一方面,可监控用户状态和环境,并且可至少部分地基于这一用户状态和环境来选择一个或多个子网。
在506,搜索引擎接收用户查询。查询可以是如当采用搜索引擎时的常规布尔形式,或使搜索引擎能够在站点集合上实现搜索的任一合适的形式,其中,搜索是至少部分地基于查询的。在508,基于查询执行搜索。依照本发明的一个方面,用户可在执行搜索前决定是否仅在所选择的子网内的站点上执行搜索。根据实现,这可实现十分快速的搜索,因为仅搜索了非常少量的站点。可选地,用户可允许搜索引擎在大部分站点集合(如,整个因特网)上执行常规搜索。
在510,确定是否期望过滤不在所选择的子网内的所有或部分站点。如果期望过滤不在所选择的子网内的所有或部分站点,则在5 12过滤这些站点。不论是否期望过滤,在514确定是否应当依照分配给子网内的站点的权值来对结果重新分级。如果用户期望仅使用常规搜索引擎分级技术,则在516,向用户返回搜索结果。然而,如果期望考虑分配给子网内的站点的权值以及得自常规搜索的站点的分级,则在518,依照站点权值对搜索结果重新分级。例如,在搜索中返回的被加权为在子网中高度相关的站点将接收提升,并可能被移至搜索结果中指示更大相关度的位置(如,从第四到第一)。由搜索引擎返回的不位于子网内的站点将不接收提升。在依照分配给子网内的站点的权值对搜索结果重新分级之后,在516向用户提供指示重新分级的搜索结果。
现在参考图6,示出了便于一个或多个子网的修改的方法600。在602,列出搜索查询,并将其提供给搜索引擎。在604,使用一个或多个子网以在站点集合上执行聚焦搜索。例如,如果用户期望搜索涉及汽车主题的信息,则可使用包含涉及汽车的站点的一个或多个子网来聚焦搜索。例如,子网可对于汽车是通用的,和/或对于特定的汽车制造商、汽车销售商、特定汽车式样等是专用且相关的。
在606,向用户显示包含在子网内的站点的搜索结果和对应的权值。由此,用户可审阅权值,并确定给定先前的经验和当前的偏好时这些权值的适合程度。在608,确定用户是否期望修改分配给子网内的站点的一个或多个权值。如果用户没有这一期望,则方法600在610结束。然而,如果期望权值改变,则在612向用户提供用户界面,以执行这一修改。例如,可向用户呈现滑动工具、具有数据输入位置的数据表等,以便于权值修改。在614,用户对站点的权值作出期望的修改,由此依照其对修改的站点的偏好定制了未来的搜索。之后,方法在610结束。
简单地转向图7,示出了将因特网700示例性划分成多个不同的主题。尽管对于图7将站点集合示为因特网,然而可以理解,任一合适的站点集合可以基本上相似的方式来划分。因特网700可被看做落入各种不同主题中的信息的集合。由此,因特网本身可以被视为多个主题。这些主题可在范围上变化,并且两个不同的主题可包含相同的站点和/或信息。例如,“体育”主题可在因特网内,“高尔夫”主题也同样可在因特网内。涉及高尔夫的信息一般很明显地涉及体育。由此,分别涉及高尔夫和体育主题的子网将包含重叠的站点。此外,涉及体育的子网可完全包含涉及高尔夫的子网。内联网(未示出)可类似地被划分成多个主题。
在因特网700的这一示例性划分中,标识了若干主题。例如,标识了有机耕作主题702、经典音乐主题704、高尔夫主题706、旅游主题708、汽车主题710、Microsoft帮助和支持主题712以及Microsoft.Net技术主题714。此外,可以见到,汽车主题710和旅游主题708至少部分地重叠,Microsoft帮助和支持主题712和Microsoft.Net技术主题714也如此。可创建标识这些主题的每一个以及因特网700中存在的可定义的其它主题的子网。
现在转向图8,示出了示例性用户界面800,它通过使用一个或多个子网实现了关于特定主题和/或用户特征的聚焦搜索。界面800包括查询输入位置802,其中用户可输入期望的搜索查询。子网选择器位置804使用户能够选择可用于将搜索聚焦在由子网表示的主题/用户特征上的一个或多个子网。尽管子网选择器位置804和其它数据输入机制被表示为下拉菜单,可以理解,本发明也考虑允许选择一个或多个实体的任一合适的机制,并且它们旨在落入所附权利要求书的范围之内。例如,子网选择器位置804可以是一系列链接,其中,每一链接的选择导致选择对应的子网用于搜索。类似地,子网选择器位置804可以是可用子网的列表,其具有与每一子网相关联的可选择框。由此,通过选择该框,用户选择子网用于聚焦搜索。这些选择特定实体的方法仅为示例,并不意味着限制本发明的范围。
偏置位置806使用户能够确定搜索引擎是应当依照常规搜索系统和/或方法,还是可选地考虑与包含在所选择的子网内的站点相关联的权值来对搜索结果进行分级。此外,偏置位置806允许用户删除所选择的子网内不存在的至少一个返回的站点(如,用户可选择关于所选择的子网内不存在的返回站点的过滤级别)。结果集大小选择器808可用于确定向用户返回的结果的数量。
在向查询输入位置802输入查询,并通过子网选择器位置804、偏置位置806和结果大小选择器808选择了其它期望的搜索参数之后,用户可选择搜索按钮810(SEARCH)来基于所输入的参数执行搜索。显示位置812示出了从搜索返回的结果。在本示例性图中,显示了N个结果,其中N是整数。每一结果可包括向用户通知结果的相关度的信息。例如,结果可包括页标题和页内容的简要描述,如当执行搜索时的那些常规信息。结果也可包括向用户通知该结果是否为位于所选择的子网内的站点的子网指示符。例如,如果结果是所选择的子网内的站点,则可用第一颜色来显示它们,如果结果是不在所选择的子网内的站点,则用第二颜色来显示它们。考虑指示结果是否为所选择的子网内的站点的其它系统和/或方法,并且它们旨在落入所附权利要求书的范围之内。显示812上的结果也可包括该页的URL,以向用户通知结果所驻留的域和/或路径。此外,可显示指示站点对于由所选择的子网表示的主题的相关度的权值。尽管未示出,可向用户显示由于所选择的子网内的站点的加权而引起的分级改变。例如,如果不是用于分配给由结果1表示的站点的权值,则常规搜索引擎可返回结果3(表示第一站点)作为最佳结果。由此,可向用户显示由于所选择的子网内的站点的加权而引起的分级改变。
现在参考图9,示出了便于主题专用和/或特征专用子网的生成的系统900。可以理解,系统900可由并非特别了解计算机的用户容易地使用,由此不将本发明的益处限于计算机科学家、计算机程序员等等。系统900包括主题/特征站点定位器902,它定位因特网上与特定主题和/或用户特征有密切关系的站点。例如,可结合主题/特征站点定位器902使用通用搜索引擎来定位站点集合(如,因特网、内联网、……)上涉及用户感兴趣的主题的站点。可选地,用户可使用主题/特征站点定位器902,并简单地编译用户感觉与感兴趣的主题相关的已知站点。例如,如果用户感觉域www.golfaddict.com涉及感兴趣的高尔夫主题,则用户可输入该路径。此外,涉及包括特定特征的用户的站点可由主题/特征站点定位器902来检索。依照本发明的一个方面,主题/特征站点定位器902接收涉及特定主题和/或用户特征的多个搜索项,并使用那些项的每一个执行通用搜索。使用不同的搜索项被多次返回的站点被假定(但不必要)与该主题和/或用户特征相关。
主题/特征站点定位器902将所定位的站点中继到包括权值分配器906的子网生成器904。权值分配器906依照所计算的与感兴趣的主题和/或用户特征的相关度向由主题/特征站点定位器902定位的每一站点分配权值。依照本发明的一个方面,主题/特征站点定位器902在通用搜索引擎上使用涉及特定主题/用户特征的多个搜索。例如,向搜索引擎输入涉及主题和/或用户特征的搜索项的集合,并且将返回的结果中继到权值分配器906。更具体地,对高尔夫主题感兴趣的用户可输入诸如“剪平草地”、“球穴区”、“铁头球棒”、“木头球棒”、“障碍地区”等项。当个别地搜索时,从这些搜索项得出的结果可包括与高尔夫主题不相关的大量数据。然而,这些集体结果的子集将在两个或多个搜索项之间公用。假定站点对于主题的相关度在返回关于不同主题查询的站点的实例数量增加时增加。由此,权值分配器906至少部分地基于当通过使用不同的主题/用户特征搜索查询时执行搜索时从通用搜索中返回站点的实例的数量向站点分配相关度权值。子网生成器904也可过滤未被分配阈值权值的站点。
依照本发明的另一方面,权值分配器906可依照现有的用户历史向站点分配相关度权值。例如,如果用户频繁地访问一个特定的网站,并且该网站由主题/特征站点定位器902定位,则该站点可能与用户特别相关(并由此与感兴趣的主题和/或用户特征特别相关)。在向由主题/特征站点定位器902定位的站点分配权值之后,并如有需要过滤了具有较低的所分配的权值的站点之后,子网生成器904创建可标识子网908。子网908包括与该子网所表示的主题和/或用户相关的多个站点,以及指示对主题/用户特征的相关度的偏置相关度权值。之后,子网908可被保存、复制、传输到不同的用户等等,并用于执行如上所述的聚焦搜索。
现在转向图10,示出了一种便于表示特定主题的子网的创建的系统。系统1000包括主题/特征站点定位器1002,它定位涉及感兴趣的特定主题和/或用户特征的多个站点。主题/特征站点定位器1002包括多个主题查询项1004,它们将作为搜索查询输入到通用搜索引擎1006。依照本发明的一个方面,主题查询项1004可以是主题专用站点的查询日志。例如,www.golfaddict.com可以是特别地涉及高尔夫主题的站点,并且可假定该站点上的搜索查询的日志涉及高尔夫。该主题站点的查询日志中存在的搜索查询可用作到通用搜索引擎的搜索查询,其中,将返回多个域的结果。可获得从这多个搜索中获得的结果,并将它们中继到使用这些结果来创建表示感兴趣的主题的子网的子网生成器1008。依照本发明的另一方面,主题查询项1004可以通过从主题专用站点中提取关键字来获得。此外,用户可简单地生成他们感觉涉及感兴趣的主题的搜索项的列表,并使用该列表作为主题查询项。依照本发明的另一方面,可使用一组重要的种子URL和/或路径,并可从这些网站中提取关键字。此外,可结合所获得的涉及特定用户特征(如,年龄、种族划分、性别、政治党派、……)的站点采取类似的行动。
子网生成器1008接收搜索的结果(站点),并包括向所定位的站点分配偏置相关度权值的权值分配器1010。权值分配器1010与计算结果中的分布路径的路径分布计算器1012相关联。更具体地,路径分布计算器1012确定返回了哪些站点作为不同查询的结果,并将返回站点作为结果的实例的数量制成表格。在计算分布路径时,路径分布计算器1012还可考虑由通用搜索引擎分配给返回的站点的分级,以及涉及该站点的内链接和外链接。更具体地,当计算分布路径时,由通用搜索引擎分级较高的站点可被另外地加权,并且当确定邻近所返回的站点的站点的分布时,与那些站点相关联的内链接和外链接也可以被另外地加权。邻域路径分布计算器即1014计算作为搜索结果返回的相邻站点的站点分布。例如,邻域路径分布计算器即1014可确定指向搜索中返回的站点的URL(如,内链接)以及从搜索中返回的站点链接出的URL(如,外链接)的分布。可提供要考虑的内链接和外链接的阈值数,以确保计算邻域路径分布的可行性。
权值分配器1010还包括净路径分布计算器1016,它通过组合经由路径分布计算器1012和邻域路径分布计算器1014获得的结果来确定净路径分布。净路径分布是通过向由路径分布计算器1016计算的路径分布添加路径邻域的概率分布来确定的。可采用差分加权来提供最优化的净路径分布。归一化器1018用于归一化净路径分布。归一化器1018用于降低具有大量链接并可能不涉及感兴趣的话题的站点的相关度。依照本发明的一个方面,通用搜索引擎1006使用多个随机搜索项来获得一组结果。之后,路径分布计算器1012计算搜索结果中的路径分布。邻域路径分布计算器1014然后计算邻域路径分布以及路径邻域的概率分布。净路径分布计算器1016然后如上所述地计算净路径。归一化器1018然后计算涉及主题专用/用户特征搜索项的概率分布,并从涉及随机搜索项的概率分布中提取相似的数字。归一化器是必要的,因为多个站点具有大量的内链接和外链接,并且可能不涉及任何一个特定的主题和/或用户特征。
基于这些计算,通过权值分配器1010向每一站点分配一偏置加权。如有需要,可丢弃不具有阈值权值的所返回的站点。类似地,可定义子网内站点的阈值数量N,并且具有最相关N个权值的站点可在子网内使用。此外,子网生成器1008可包括停止列表1020,它包括被确定为与感兴趣的主题和/或用户特征不相关的站点的列表。例如,在先前已知的与感兴趣的主题和/或用户特征不相关的站点将被自动从要通过子网生成器1008生成的子网中排除。在向未经过滤的每一站点分配权值之后,子网生成器1008生成对感兴趣的主题和/或用户特征专用的子网1022。之后,子网1022可被保存、复制、传输到不同的用户等等,并可用于如上所述地执行关于主题和/或用户特征的经过滤的搜索。依照本发明的另一方面,可生成子网1022作为子网层次的一部分。由此,可生成子网的连续的更具体的层次。
现在参考图11,示出了便于涉及特定主题和/或用户特征的子网的生成的方法1100。在1102,生成主题专用/用户特征专用查询日志。这可通过从主题专用网站获得查询日志、从主题专用文本站点中提取关键字、提供种子URL并从该种子和相关联的内链接/外链接中提取关键字等来创建。此外,用户可通过创建用户基于经验和偏好感觉对感兴趣的主题专用的搜索项的列表,来生成主题专用和/或用户特征专用查询日志。
在1104,通用搜索引擎使用查询日志内存在的查询项在站点集合(如,因特网、内联网、……)上执行多个搜索。储存这些搜索的结果集用于进一步的计算和分析。在1106,计算搜索结果中存在的路径的分布。由于使用不同的主题/特征搜索查询执行了多个搜索,结果集的至少一部分不可避免地与感兴趣的主题和/或用户特征不相关。然而,如果使用不同的主题专用搜索查询多次返回了同样的站点,则假定这一站点与感兴趣的主题和/或用户特征相关。
在1108,计算与结果集中的站点相邻的站点的路径分布,因为与返回的站点相邻的站点可能与感兴趣的主题/用户特征相关。例如,可考虑链接到返回集中的站点的站点以及从返回集中的站点链接出的站点,并使用它们来计算相邻站点的路径分布。在1110,通过将路径邻域的概率分布与搜索结果中存在的路径的分布相加来确定净路径分布,并用某一差分加权来确保最优子网的创建。在1112,返回集中与主题不相关的站点被滤除,并且不包括在子网内。例如,可丢弃多个站点,因为它们包含大量的内链接和外链接,并且由此与感兴趣的主题/用户特征不相关(如,它们是许多人链接的大型、通用站点)。此外,净路径分布计算中具有低权值的站点可从子网中省略,因为它们对子网将表示的主题和/或用户特征不够特定。
现在转向图12,示出了手动生成子网的方法1200。在1202,向用户提供用户界面。该用户界面可具有多个数据输入位置,由此允许用户输入生成子网所需的数据。在1204,向要创建的子网给予适当的名字,由此使用户和其它用户能够容易低辨别该子网表示的是哪一主题和/或用户特征。在1206,将要被包括在子网内的站点(如,域、路径、……)输入到用户界面的数据输入位置中。用户可基于当前偏好、先前的经验、口头表达、搜索引擎或选择被认为是涉及特定主题/用户特征的站点的其它合适的方式来选择这些站点。在1208,用户可向所选择的站点分配权值来定义子网。权值也可基于用户偏好、经验等来分配。此外,权值可在生成子网之后基于用户历史、环境等以及涉及特定用户的其它信息来分配。在1210,完成子网,并根据输入的站点和分配给那些站点的权值来定义子网。之后,子网可被保存、复制、修改或可在类似的对象上采取的任何其它合适的行动。
现在参考图13,示出了示例性查询日志1300和所得的子网1302。期望创建子网1302来表示计算机相关辅助的特定主题。由此,查询日志1300包括与计算机辅助的主题相关的多个搜索项。例如,项“防火墙”、“网络会议”、“DVD”等等都涉及计算机辅助。查询日志1300内的每一查询被输入到通用搜索引擎中,并且向子网生成器904(图9)提供结果。所得的子网1302包括具有相关联的相关度权值的多个计算机相关站点。例如,向computer.com分配最大的权值(如,0.01),并且由此,当参考计算机辅助主题时,假定它是最相关的站点。子网1302现在可用于通过至少部分地基于子网1302内的站点权值偏置结果以在计算机辅助主题的站点集合上聚焦搜索。
现在参考图14,示出了系统1400,它使用爬行器1402在可通过搜索引擎1406来定位的站点集合1404(如,万维网)内定位新和/或改变的站点。例如,爬行器1402可以是web爬行器(如,以自动且有方法的方式浏览万维网的程序)。然而,可以理解,下文所描述的爬行器1402指浏览站点集合内的站点的任一组件。这一站点集合可储存在服务器、本地硬盘或任一其它合适的数据存储位置上。爬行器保存所访问的所有页的副本用于稍后的处理-例如由搜索引擎处理。爬行器也使用这些页以便于缩小搜索范围。例如,因特网搜索引擎依赖于web爬行器来确保在搜索过程中返回的站点仍在万维网上存在,并且是站点的最新版本。
依照本发明的一个方面,爬行器1402访问可包括多个子网1410的数据存储1408。每一子网包括涉及由子网表示的特定主题和/或用户特征的站点,以及站点集合1404中存在的对应站点1412。主题可以如子网1410的创建器在创建时刻所期望的那样广泛或狭窄。由于爬行器1402能够访问定义子网1410的站点列表,它可确保那些站点1412在站点集合1404(如,万维网)内比不定义子网1410的那些站点更频繁地被核查。由此,可向子网内频繁地用于缩小搜索范围的站点给予比子网外的站点或子网内较不频繁用于搜索的站点相对于爬行的更大的优先级。此外,爬行器1402可与实用程序组件1414相关联,它可结合爬行器1402采取的行动执行基于概率的分析。例如,实用程序组件1414可确定自从web爬行器访问站点集合1404内的那些站点1412的最后一个实例以来子网1410内的一个或多个站点被改变/删除的特定概率的存在。
此外,实用程序组件1414可确定自从爬行器1402访问站点集合1404内的那些站点1412的最后一个实例以来向定义子网1410的站点添加了一个或多个内链接和/或一个或多个外链接的概率。依照本发明的另一方面,实用程序组件1414可执行关于爬行器1402访问站点集合1404内定义子网1410的一个或多个站点1412的执行成本/收益分析。例如,实用程序组件1414可考虑将爬行器1402展开到站点集合内的一个或多个站点1412的成本(如,令站点/站点出现变慢、向不同的站点分配爬行资源),以及访问站点的收益(如,确保高通信量站点保持最新)。
现在简单地参考图15,示出了说明本发明的一个或多个益处的示例性网络环境1500。该环境包括第一数据存储1502和第二数据存储1504,其中,第一数据存储1502包括表示特定主题的子网1506。与生成针对基本上类似的主题的新子网相反,第二数据存储1504的用户期望获得子网1502的复制本,并使用该子网1502来缩小搜索范围。由于子网可以被认为是对象,第二数据存储1504的用户可获得第一数据存储1502中存在的子网1506的复制。子网1506的复制可在网络连接上传输并由第二数据存储接收。此外,一旦变得驻留在数据存储1504中,子网1506的复制可依照用户偏好来修改。由此,子网提供了关于搜索站点集合的个性化-这是对常规搜索系统和技术的重大改进。
现在参考图16,将使用子网来聚焦搜索的搜索与使用常规搜索引擎的搜索进行比较。更具体地,示出了能够使用一个或多个子网来聚焦搜索的界面1602,其中,所选择的子网设计计算机帮助和支持(HSC)。所使用的搜索查询是“Trojanhorse(特洛伊木马)”,其中,用户期望检索涉及恶意计算机程序的信息。通过使用子网来聚焦返回结果所获得的返回结果更高度地与通用搜索引擎1604以及域专用搜索引擎1606(如,仅在Microsoft域上进行搜索)相关。通用搜索引擎1604返回涉及特洛伊战争的历史的不相关结果。域专用搜索引擎1606省略了与搜索高度相关的结果。
现在转向图17和18,示出了通过子网辅助搜索获得的结果与从两个常规搜索引擎中获得的结果之间的示例性比较。为测定结果的相关度,构造对给定查询组的一组标准相关结果,并且将由子网辅助搜索和通用搜索引擎搜索获得的结果对照该标准进行比较。用于所示的实验使用的子网从450个主题相关的查询构造,并对照一组1000个随机查询来归一化。用于获得结果的查询从用于特定域的500个最频繁的查询以及同一域中使用的500个随机查询的混合中提取。对于每一查询,获取、合并并复制这些搜索提供者的每一个的最高的结果。然后对这些结果随机排序,并向独立的注解器呈现。用于构造子网的查询组和用于获得给予注解器的结果的查询组是互斥的。
用于这一比较的注解器不知道结果的起源(即,它们无法确定所获得的结果是来自常规搜索引擎还是子网聚焦搜索)。注解器对于所选择的主题,将结果评估为“好”(结果直接与查询相关)、“一般”(结果给出了某些领会,但没有完全回答问题)或“差”(结果无用)。例如,如果期望的主题是计算机病毒,则当使用“特洛伊木马”查询时讨论关于古老城市特洛伊的信息的返回结果是不相关的(如,“坏”)结果。可选地,关于如何防止计算机病毒的信息将被分级为相关。使用简单的注释工具总共注释了17741个结果(从发送到子网聚焦搜索引擎以及两个常规搜索引擎的510个查询中获得)。这些注释被编译成标准。一旦获得了该标准,再次对照子网聚焦搜索引擎和两个常规的搜索引擎运行查询。图17和18示出了这一比较的结果。
特别地参考图17,比较1700示出当与两个常规搜索引擎结果比较时,子网聚焦搜索结果具有更高的平均倒数(mean-reciprocal)等级。平均倒数等级描述了满足用户需求的第一个结果的平均位置。很明显,更高的平均倒数等级是合乎需要的。与子网聚焦搜索相关联的平均倒数等级近似为与两个常规搜索引擎相关联的平均倒数等级的两倍。特别地转向图18,示出了涉及从子网聚焦搜索和常规搜索获得的结果的各种比较1800。更具体地,将第一若干站点中获得的结果的相关度在子网聚焦搜索和常规搜索之间进行比较。子网聚焦搜索结果一贯比常规搜索引擎更相关。更具体地,以下图表示出了用于构造比较1800的数据。
常规1 常规2 子网
第一名精度/好+一般 23.92% 24.31% 51.18%
第一名精度/好 14.85% 14.51% 32.16%
前十名精度/好+一般 19.37% 18.90% 28.13%
前十名精度/好 9.47% 9.35% 13.21%
前十名MAP/好+一般 6.35% 6.32% 11.14%
前十名MAP/好 3.48% 3.39% 6.11%
以上图表示出了对51.18%的搜索,使用子网聚焦搜索返回的第一名结果有被注解为“好”或“一般”,这与其它常规搜索引擎结果的低得多的数字形成对比。同样,对32.16%的搜索,采用子网聚焦搜索所返回的第一名被注解为“好”。相关结果的均值平均精度(MAP)是每一结果列表的相关结果的精度等级的“平均的平均”。不相关的结果对结果列表的平均精度不起作用。对于前N名精度和MAP两者,更大的数字表明更好的相关度。如可通过审阅图17和18以及上表所见到的,子网聚焦搜索一贯胜于通用搜索。
参考图19,实现本发明的各方面的示例性环境1910包括计算机1912。计算机1912可以是任何合适的计算装置(如,个人数字助理、膝上计算机、服务器、台式机、……)。计算机1912包括处理单元1914、系统存储器1916和系统总线1918。系统总线1918将包括但不限于系统存储器1916的系统组件耦合至处理单元1914。处理单元1914可以是各种可用处理器的任一种。双微处理器和其它多处理器体系结构也可用作处理单元1914。
系统总线1918可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各类总线体系结构的局部总线,这些体系结构包括但不限于,8位总线、工业标准体系结构(ISA)、微通道体系结构(MCA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA局部总线(VLB)、外围部件互连(PCI),通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)以及小型计算机系统接口(SCSI)。
系统存储器1916包括易失存储器1920和非易失存储器1922。基本输入/输出系统(BIOS)包括如在启动时帮助在计算机1912内的元件之间传输信息的基本例程,通常储存在非易失存储器1922中。作为说明而非局限,非易失存储器1922可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失存储器1920包括随机存取存储器(RAM)、它担当外部高速缓存。作为说明而非局限,RAM以许多形式可用,如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)和直接存储器总线RAM(DRRAM)。
计算机1912也包括可移动/不可移动、易失/非易失计算机存储媒质。例如,图19示出了盘存储1924。盘存储1924包括但不限于,诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒等设备。另外,盘存储1924可单独包括存储媒质或与其它存储媒质组合,其它存储媒质包括但不限于,诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)等光盘驱动器。为便于盘存储设备1924连接到系统总线1918,通常使用可移动或不可移动接口,如接口1926。
可以理解,图19描述了担当用户和合适的操作环境1910中描述的计算机资源之间的中介的软件。这类软件包括操作系统1928。操作系统1928可储存在盘存储1924中,它用于控制并分配计算机系统1912的资源。系统应用程序1930利用操作系统1928通过储存在系统存储器1916或盘存储1924上的程序模块1932和程序数据1934对资源的管理。可以理解,本发明可用各种操作系统或操作系统的组合来实现。
用户通过输入设备1936向计算机1912输入命令和信息。输入设备1936包括但不限于,诸如鼠标、跟踪球、触针、触摸垫等定位设备、键盘、麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、web相机等等。这些和其它输入设备通过系统总线1918经由接口端口1938连接到处理单元1914。接口端口1938包括,例如,串行端口、并行端口、游戏端口、通用串行总线(USB)。输出设备1940使用与输入设备1936相同类型端口中的某一些。由此,例如,USB端口可用于向计算机1912提供输入,并从计算机1912输出信息到输出设备1940。提供了输出适配器1942以说明存在一些输出设备1940,如监视器、扬声器和打印机,以及需要特殊适配器的其它输出设备1940。输出适配器1942包括,作为说明而非局限,提供输出设备1940和系统总线1918之间的连接装置的视频卡和声卡。应当注意,其它设备和/或设备的系统提供了输入和输出能力,如远程计算机1944。
计算机1912可以在使用到一个或多个远程计算机,如远程计算机1944的逻辑连接的网络化环境中操作。远程计算机1944可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其它公用网络节点等等,并通常包括相对于计算机1912所描述的许多或所有元件。为简明性目的,仅示出了远程计算机1944具有存储器存储设备1946。远程计算机1944通过网络接口1948逻辑上连接至计算机1912,然后通过通信连接1950物理地连接。网络接口1948包含诸如局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网/IEEE 802.3、令牌环/IEEE 802.5等等。WAN技术包括但不限于,点对点链路、诸如综合业务数字网(ISDN)及其变体等电路交换网络、分组交换网络以及数字订户线(DSL)。
通信连接1950指用于将网络接口1948连接到总线1918的硬件/软件。尽管为说明的清晰性,示出通信连接1950在计算机1912内,然而它也可以对计算机1912是外部的。仅为示例性目的,连接到网络接口1948必须的硬件/软件包括内部和外部技术,如包括常规电话级调制解调器、线缆调制解调器和DSL调制解调器的调制解调器、ISDN适配器和以太网卡。
图20示出了本发明可交互的示例计算环境2000的示意框图。系统2000包括一个或多个客户机2010。客户机2010可以是硬件和/或软件(如,线程、进程、计算装置)。系统2000也包括一个或多个服务器2030。服务器2030也可以是硬件和/或软件(如,线程、进程、计算装置)。例如,服务器2030可容纳线程,以通过使用本发明执行变换。客户机2010和服务器2030之间的一个可能的通信可以是适用于在两个或多个计算机进程之间传输的数据分组的形式。系统2000包括可用于便于在客户机2010和服务器2030之间通信的通信框架2050。客户机2010操作上连接至可用于储存对客户机2010本地的信息的一个或多个客户机数据存储2060。类似地,服务器2030操作上连接至可用于储存对服务器2030本地的信息的一个或多个服务器数据存储2040。
上文所描述的包括本发明的示例。当然,不可能为了描述本发明而描述组件或方法的每一可想象的组合,但是本领域的普通技术人员可以认识到,本发明的许多另外的组合和置换是可能的。因此,本发明旨在包含落入所附权利要求书的精神和范围中的所有这样的改变、修改和变化。此外,在术语“包括”用于详细描述和权利要求书的意义上,这类术语旨在以与术语“包含”用作权利要求书中的过渡项所解释的类似的方式为包含性的。

Claims (58)

1.一种便于搜索的系统,其特征在于,它包括:
一显示组件,它通过一项目集合呈现供搜索的多个子网,所述子网分别与按相关度加权的各个项目子集相关联;以及
一输入组件,它通过至少一个所述子网来接收搜索查询。
2.如权利要求1所述的系统,其特征在于,它驻留在服务器上。
3.如权利要求1所述的系统,其特征在于,它驻留在客户机上。
4.如权利要求1所述的系统,其特征在于,所述子网对于所述系统的用户个性化。
5.如权利要求4所述的系统,其特征在于,所述系统还包括一机器学习组件,它构建关于所述用户的概况。
6.如权利要求1所述的系统,其特征在于,它还包括一环境组件,它根据用户环境来呈现所述多个子网。
7.如权利要求5所述的系统,其特征在于,所述概况是可传输的。
8.一种爬行系统,其特征在于,它包括:
一爬行组件,它根据与项目相关联的预定子网来爬行站点,所述子网分别与按相关度加权的各个项目子集相关联。
9.如权利要求8所述的系统,其特征在于,它还包括一实用程序组件,它执行关于所述爬行的基于概率的分析。
10.如权利要求9所述的系统,其特征在于,所述实用程序组件执行关于所述爬行的成本一收益分析。
11.如权利要求8所述的系统,其特征在于,所述爬行组件是爬行因特网和内联网中的至少一个的web爬行器。
12.一种便于站点集合上的聚焦搜索的性能的系统,其特征在于,它包括:
一子网,所述子网对应于特定主题和用户特征中的至少一个,所述子网包括涉及所述主题和用户特征中的至少一个的多个站点,所述多个站点的每一个都被分配一指示所述站点与所述主题和用户特征中的至少一个的相关度的相关度权值;以及
一搜索组件,它接收查询,所述搜索组件采用所述子网以基于所述查询通过所述站点集合聚焦搜索,所述搜索组件至少部分地基于所述子网和所述查询返回结果。
13.如权利要求12所述的系统,其特征在于,它还包括一子网选择器,它选择一子网用于所述搜索。
14.如权利要求13所述的系统,其特征在于,所述子网选择器至少部分地基于所述站点集合上的入口点来选择子网。
15.如权利要求13所述的系统,其特征在于,所述子网选择器至少部分地基于所述查询、用户状态、用户环境和用户历史之一来选择子网。
16.如权利要求15所述的系统,其特征在于,所述子网选择器至少部分地基于检测到的用户位置来选择子网。
17.如权利要求15所述的系统,其特征在于,所述子网选择器至少部分地基于一天中的时间和一周中的日中的一个或多个来选择子网。
18.如权利要求13所述的系统,其特征在于,所述子网选择器与一用户界面相关联,其中,用户通过所述用户界面选择一子网用于所述搜索。
19.如权利要求12所述的系统,其特征在于,它还包括一调整组件,它便于向所述子网添加和从所述子网移除站点之一。
20.如权利要求12所述的系统,其特征在于,它还包括一调整组件,它改变所述子网内所述多个站点的一个或多个所分配到的相关度权值。
21.如权利要求20所述的系统,其特征在于,所述调整组件与一用户界面相关联,其中,用户通过所述用户界面改变分配给所述子网内所述多个站点的一个或多个的相关度权值。
22.如权利要求20所述的系统,其特征在于,它还包括一爬行组件,它根据所述子网来爬行站点,所述爬行组件和所述调整组件共同操作以自动维护所述子网。
23.如权利要求12所述的系统,其特征在于,所述子网可通过网站来访问。
24.如权利要求12所述的系统,其特征在于,所述子网与一用户概况相关联,所述用户概况是可移动的。
25.如权利要求12所述的系统,其特征在于,它还包括一接受涉及所述结果的反馈的组件,所述反馈用于自动维护所述子网。
26.如权利要求12所述的系统,其特征在于,所述结果的顺序基于一通用搜索引擎分级系统和所述子网内所述多个站点的所分配的权值的函数。
27.如权利要求12所述的系统,其特征在于,从所述结果中删除所返回的与所述子网内的站点不相匹配的至少一个结果。
28.如权利要求12所述的系统,其特征在于,所述用户特征涉及年龄、位置、性别、种族划分、政治党派和宗教信仰中的一个或多个。
29.如权利要求12所述的系统,其特征在于,多个子网用于所述搜索,并且依照涉及所述结果的子网对从所述搜索中获得的结果进行分类。
30.如权利要求12所述的系统,其特征在于,所述站点集合是因特网和内联网的至少其中之一。
31.一种执行聚焦搜索的方法,其特征在于,它包括:
提供一子网,所述子网由与由所述子网表示的主题和用户特征中的至少一个相关的多个站点来定义,所述站点被分配一指示每一站点与所述主题和用户特征中的至少一个的相关度的相关度权值;
选择所述子网;
将涉及由所述子网表示所述主题和用户特征中的至少一个的查询中继到一搜索引擎;
基于所述查询在站点集合上搜索信息;
至少部分地基于所述查询获取搜索结果;以及
至少部分地按照分配给定义所述子网的站点的所述相关度权值对所述搜索结果进行分级。
32.如权利要求31所述的方法,其特征在于,它还包括删除与定义所述子网的站点不相关联的至少一个搜索结果。
33.如权利要求31所述的方法,其特征在于,它还包括至少部分地基于所述查询、用户历史、用户环境和用户状态中的至少一个来选择所述子网。
34.如权利要求31所述的方法,其特征在于,所述站点集合是因特网和内联网的至少其中之一。
35.如权利要求34所述的方法,其特征在于,它还包括基于因特网和内联网的至少一个上的入口点选择所述子网。
36.如权利要求31所述的方法,其特征在于,它还包括采用一爬行器来自动维护所述子网。
37.如权利要求31所述的方法,其特征在于,它还包括至少部分地基于关于所述搜索结果的用户反馈来改变至少一个相关度权值。
38.如权利要求31所述的方法,其特征在于,它还包括至少部分地基于所述查询、用户历史、用户状态和用户环境中的一个或多个来改变至少一个相关度权值。
39.一种子网构建系统,其特征在于,它包括:
一站点定位器,它定位站点集合内涉及特定主题和用户特征中的一个或多个的站点;
一相关度权值分配器,它依照所述站点与所述主题和用户特征中的一个或多个的相关度向所定位的站点分配一相关度权值。
40.如权利要求39所述的系统,其特征在于,所述站点定位器包括:
一查询列表,它与所述主题和用户特征中的一个或多个相关联;
一搜索引擎,它基于所述查询列表搜索所述站点集合并获取一结果列表。
41.如权利要求40所述的系统,其特征在于,所述相关度权值分配器包括:
一路径分布计算器,它计算所述结果的分布路径;
一邻域路径分布计算器,它计算与所述结果中返回的站点相邻的站点的分布;以及
一净路径分布计算器,它计算一净路径分布。
42.如权利要求41所述的系统,其特征在于,所述权值分配器还包括一过滤组件,它从所述结果中移除不相关站点。
43.如权利要求42所述的系统,其特征在于,从所述结果中移除所述不相关站点至少部分地是通过向所述搜索引擎提供多个随机查询,并将来自所述随机查询的结果与来自与所述主题和用户特征中的一个或多个相关联的查询的结果相比较来完成的。
44.如权利要求43所述的系统,其特征在于,它由客户机采用。
45.如权利要求39所述的系统,其特征在于,因特网和内联网的至少其中之一是所述站点集合。
46.如权利要求39所述的系统,其特征在于,它还包括一停止列表,所述停止列表包括先前已知与所述主题和用户特征中的一个或多个不相关的站点的列表,所述停止列表中的站点列表被阻止在涉及所述主题和用户特征中的一个或多个的站点集合内。
47.一种生成子网的方法,其特征在于,它包括:
收集涉及主题和用户特征中的至少一个的多个站点,所述站点定义所述子网;以及
向所述多个站点的子集分配偏置相关度权值。
48.如权利要求47所述的方法,其特征在于,它还包括:
提供一用户界面;以及
通过所述用户界面输入涉及所述主题的站点。
49.如权利要求47所述的方法,其特征在于,它还包括:
提供涉及所述主题和用户特征中的至少一个的多个查询;
提供一搜索引擎;
将所述多个查询中继到所述搜索引擎并在站点集合上执行搜索;以及
高速缓存从所述搜索中获得的结果。
50.如权利要求49所述的方法,其特征在于,它还包括:
计算所述搜索的结果的路径分布;以及
计算与所述结果内的站点相邻的站点的路径分布,其中,所述相邻站点包括内链接和外链接的站点;
计算所述搜索结果和所述相邻站点的路径分布;以及
归一化所述搜索结果和所述相邻站点的路径分布。
51.如权利要求50所述的方法,其特征在于,它还包括:
提供多个随机查询;
将所述查询中继到所述通用搜索引擎,并在站点集合上执行搜索;以及
至少部分地根据从基于所述随机查询的搜索中获得的结果来归一化所述搜索结果和所述相邻站点的路径分布。
52.一种搜索站点集合的系统,其特征在于,它包括:
用于生成一主题专用子网的装置,所述主题专用子网包括涉及所述主题的多个站点,所述站点依照所述站点与所述主题的相关度被分配一权值;以及
用于结合一搜索引擎采用所述子网搜索所述站点集合的装置。
53.如权利要求52所述的系统,其特征在于,它还包括用于向所述子网内的站点分配所述权值的装置。
54.如权利要求52所述的系统,其特征在于,它还包括用于调整所述子网的装置。
55.如权利要求52所述的系统,其特征在于,它还包括用于从多个子网中选择所述子网的装置。
56.如权利要求52所述的系统,其特征在于,它还包括用于显示与提升所述结果的子网相对应的搜索结果的装置。
57.如权利要求52所述的系统,其特征在于,所述站点集合是因特网和内联网中的至少其中之一。
58.一种在其上储存了计算机可执行指令的计算机可读媒质,其特征在于,所述计算机可执行指令以便:
收集与主题和用户特征的至少一个相关的多个站点;
向所述多个站点的每一个分配权值,所述多个站点对应于所述站点与所述主题和用户特征的至少一个的所计算的相关等级;以及
基于接收的查询在所述多个站点的子集上执行搜索。
CN2005100062085A 2004-01-23 2005-01-21 为聚焦的搜索构建并使用子网 Expired - Fee Related CN1645370B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US53883804P 2004-01-23 2004-01-23
US60/538,838 2004-01-23
US10/778,498 US7392278B2 (en) 2004-01-23 2004-02-13 Building and using subwebs for focused search
US10/778,498 2004-02-13

Publications (2)

Publication Number Publication Date
CN1645370A true CN1645370A (zh) 2005-07-27
CN1645370B CN1645370B (zh) 2010-07-21

Family

ID=34636700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100062085A Expired - Fee Related CN1645370B (zh) 2004-01-23 2005-01-21 为聚焦的搜索构建并使用子网

Country Status (10)

Country Link
US (1) US7392278B2 (zh)
EP (1) EP1557770A1 (zh)
JP (1) JP4694215B2 (zh)
KR (1) KR101130509B1 (zh)
CN (1) CN1645370B (zh)
AU (1) AU2004240188B8 (zh)
BR (1) BRPI0500105A (zh)
CA (1) CA2490594C (zh)
MX (1) MXPA05000981A (zh)
RU (1) RU2382400C2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739407A (zh) * 2008-11-19 2010-06-16 日电(中国)有限公司 自动构建用于相关信息浏览的信息组织结构的方法和系统
CN101308493B (zh) * 2007-05-18 2010-12-08 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质
CN112218160A (zh) * 2020-10-12 2021-01-12 北京达佳互联信息技术有限公司 视频转换方法及装置和视频转换设备及存储介质

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977621B1 (en) * 2000-02-24 2015-03-10 Richard Paiz Search engine optimizer
US7769794B2 (en) 2003-03-24 2010-08-03 Microsoft Corporation User interface for a file system shell
US7421438B2 (en) 2004-04-29 2008-09-02 Microsoft Corporation Metadata editing control
US7823077B2 (en) 2003-03-24 2010-10-26 Microsoft Corporation System and method for user modification of metadata in a shell browser
US7627552B2 (en) 2003-03-27 2009-12-01 Microsoft Corporation System and method for filtering and organizing items based on common elements
US7712034B2 (en) 2003-03-24 2010-05-04 Microsoft Corporation System and method for shell browser
US7240292B2 (en) 2003-04-17 2007-07-03 Microsoft Corporation Virtual address bar user interface control
US7650575B2 (en) 2003-03-27 2010-01-19 Microsoft Corporation Rich drag drop user interface
US7925682B2 (en) 2003-03-27 2011-04-12 Microsoft Corporation System and method utilizing virtual folders
US8024335B2 (en) 2004-05-03 2011-09-20 Microsoft Corporation System and method for dynamically generating a selectable search extension
US8086591B2 (en) * 2004-01-23 2011-12-27 Microsoft Corporation Combining domain-tuned search systems
US7392278B2 (en) 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7694236B2 (en) 2004-04-23 2010-04-06 Microsoft Corporation Stack icons representing multiple objects
US7657846B2 (en) * 2004-04-23 2010-02-02 Microsoft Corporation System and method for displaying stack icons
US8707209B2 (en) 2004-04-29 2014-04-22 Microsoft Corporation Save preview representation of files being created
US7996462B2 (en) * 2004-07-30 2011-08-09 Sap Ag Collaborative agent for a work environment
US11468128B1 (en) 2006-10-20 2022-10-11 Richard Paiz Search engine optimizer
US10959090B1 (en) 2004-08-25 2021-03-23 Richard Paiz Personal search results
EP1787228A4 (en) * 2004-09-10 2009-09-09 Suggestica Inc USER PRODUCTION AND CLASSIFICATION OF EQUIPMENT FOR THE PERFORMANCE OF A SEARCH AND USER INTERFACE THROUGH A HIERARCHY-FREE QUANTITY OF THEMES
US7490082B2 (en) * 2004-09-16 2009-02-10 International Business Machines Corporation System and method for searching internet domains
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US8538970B1 (en) * 2004-12-30 2013-09-17 Google Inc. Personalizing search results
WO2006076579A2 (en) * 2005-01-14 2006-07-20 Cosmix Corporation Web operation language
US8626775B1 (en) * 2005-01-14 2014-01-07 Wal-Mart Stores, Inc. Topic relevance
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US8412698B1 (en) * 2005-04-07 2013-04-02 Yahoo! Inc. Customizable filters for personalized search
US20060242122A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Systems, methods, and user interfaces for storing, searching, navigating, and retrieving electronic information
US8195646B2 (en) 2005-04-22 2012-06-05 Microsoft Corporation Systems, methods, and user interfaces for storing, searching, navigating, and retrieving electronic information
US8396864B1 (en) * 2005-06-29 2013-03-12 Wal-Mart Stores, Inc. Categorizing documents
US7665028B2 (en) 2005-07-13 2010-02-16 Microsoft Corporation Rich drag drop user interface
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
KR100736275B1 (ko) * 2005-11-16 2007-07-06 강한구 정보통신망 내 개인전용페이지를 이용한 정보제공방법
US7584202B2 (en) * 2006-01-13 2009-09-01 Oracle International Corporation High performance in memory data cubes
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
JP2007293769A (ja) * 2006-04-27 2007-11-08 Sony Corp プログラム、情報処理方法、情報処理装置
US7542970B2 (en) * 2006-05-11 2009-06-02 International Business Machines Corporation System and method for selecting a sub-domain for a specified domain of the web
US7849079B2 (en) * 2006-07-31 2010-12-07 Microsoft Corporation Temporal ranking of search results
US20080033953A1 (en) * 2006-08-07 2008-02-07 International Business Machines Corporation Method to search transactional web pages
US20080082519A1 (en) * 2006-09-29 2008-04-03 Zentner Michael G Methods and systems for managing similar and dissimilar entities
US20080114755A1 (en) * 2006-11-15 2008-05-15 Collective Intellect, Inc. Identifying sources of media content having a high likelihood of producing on-topic content
US7793230B2 (en) * 2006-11-30 2010-09-07 Microsoft Corporation Search term location graph
KR100842039B1 (ko) * 2006-12-05 2008-06-30 엔에이치엔(주) 사용자 질의에 대한 검색 결과를 제공하는 방법 및 상기방법을 수행하는 시스템
US7685119B2 (en) * 2006-12-20 2010-03-23 Yahoo! Inc. System and method for query expansion
US8631005B2 (en) 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
US8073850B1 (en) * 2007-01-19 2011-12-06 Wordnetworks, Inc. Selecting key phrases for serving contextually relevant content
JP5239367B2 (ja) * 2007-03-19 2013-07-17 富士通株式会社 情報提供システム、情報提供プログラムおよび情報提供方法
US9535810B1 (en) 2007-04-24 2017-01-03 Wal-Mart Stores, Inc. Layout optimization
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
WO2008151050A2 (en) * 2007-06-01 2008-12-11 Nenuphar, Inc. Integrated system and method for implementing messaging, planning, and search functions in a mobile device
KR100898459B1 (ko) * 2007-08-10 2009-05-21 엔에이치엔(주) 질의 분류 방법 및 그 시스템
US20090091798A1 (en) * 2007-10-05 2009-04-09 Lawther Joel S Apparel as event marker
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US8862608B2 (en) * 2007-11-13 2014-10-14 Wal-Mart Stores, Inc. Information retrieval using category as a consideration
US20090132513A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Correlation of data in a system and method for conducting a search
US20090132645A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with multiple-field comparison
US20090132514A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. method and system for building text descriptions in a search database
US9400843B2 (en) * 2007-12-04 2016-07-26 Yahoo! Inc. Adjusting stored query relevance data based on query term similarity
US20090150497A1 (en) * 2007-12-06 2009-06-11 Mcafee Randolph Preston Electronic mail message handling and presentation methods and systems
KR100974064B1 (ko) * 2008-02-22 2010-08-04 주식회사 솔트룩스 사용자 맞춤형 정보 제공 시스템 및 그 방법
US7836058B2 (en) * 2008-03-27 2010-11-16 Microsoft Corporation Web searching
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8171007B2 (en) 2008-04-18 2012-05-01 Microsoft Corporation Creating business value by embedding domain tuned search on web-sites
US20090287645A1 (en) * 2008-05-15 2009-11-19 Yahoo! Inc. Search results with most clicked next objects
EP2304676A1 (en) * 2008-06-23 2011-04-06 Double Verify Inc. Automated monitoring and verification of internet based advertising
US10922363B1 (en) 2010-04-21 2021-02-16 Richard Paiz Codex search patterns
US10915523B1 (en) 2010-05-12 2021-02-09 Richard Paiz Codex search patterns
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US8180771B2 (en) * 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US8818992B2 (en) * 2008-09-12 2014-08-26 Nokia Corporation Method, system, and apparatus for arranging content search results
US8095545B2 (en) * 2008-10-14 2012-01-10 Yahoo! Inc. System and methodology for a multi-site search engine
US8429106B2 (en) * 2008-12-12 2013-04-23 Atigeo Llc Providing recommendations using information determined for domains of interest
US20100161592A1 (en) * 2008-12-22 2010-06-24 Colin Shengcai Zhao Query Intent Determination Using Social Tagging
US9519712B2 (en) * 2009-01-06 2016-12-13 At&T Intellectual Property I, L.P. Systems and methods to evaluate search qualities
US8341167B1 (en) 2009-01-30 2012-12-25 Intuit Inc. Context based interactive search
CN102834823B (zh) * 2010-02-11 2017-07-28 瑞典爱立信有限公司 目录数据库处的数据管理
US8650172B2 (en) * 2010-03-01 2014-02-11 Microsoft Corporation Searchable web site discovery and recommendation
US8972397B2 (en) * 2010-03-11 2015-03-03 Microsoft Corporation Auto-detection of historical search context
US8751511B2 (en) * 2010-03-30 2014-06-10 Yahoo! Inc. Ranking of search results based on microblog data
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
US11379473B1 (en) 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
US11423018B1 (en) 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US10936687B1 (en) 2010-04-21 2021-03-02 Richard Paiz Codex search patterns virtual maestro
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9177045B2 (en) 2010-06-02 2015-11-03 Microsoft Technology Licensing, Llc Topical search engines and query context models
US20120005183A1 (en) * 2010-06-30 2012-01-05 Emergency24, Inc. System and method for aggregating and interactive ranking of search engine results
US8589378B2 (en) * 2010-10-11 2013-11-19 Yahoo! Inc. Topic-oriented diversified item recommendation
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US20120166415A1 (en) * 2010-12-23 2012-06-28 Microsoft Corporation Supplementing search results with keywords derived therefrom
US8626681B1 (en) * 2011-01-04 2014-01-07 Google Inc. Training a probabilistic spelling checker from structured data
US9495453B2 (en) * 2011-05-24 2016-11-15 Microsoft Technology Licensing, Llc Resource download policies based on user browsing statistics
CN102810096B (zh) * 2011-06-02 2016-03-16 阿里巴巴集团控股有限公司 一种基于单字索引系统的检索方法和装置
US9529915B2 (en) * 2011-06-16 2016-12-27 Microsoft Technology Licensing, Llc Search results based on user and result profiles
US8688688B1 (en) 2011-07-14 2014-04-01 Google Inc. Automatic derivation of synonym entity names
US9268859B2 (en) * 2011-10-13 2016-02-23 Yahoo! Inc. Method and system for customizing a web site
US8843477B1 (en) 2011-10-31 2014-09-23 Google Inc. Onsite and offsite search ranking results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US20140059443A1 (en) * 2012-08-26 2014-02-27 Joseph Akwo Tabe Social network for media topics of information relating to the science of positivism
US10007731B2 (en) * 2012-09-12 2018-06-26 Google Llc Deduplication in search results
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
EP3039581A4 (en) 2013-08-29 2016-08-10 Yandex Europe Ag SYSTEM AND METHOD FOR DISPLAYING VERTICALLY RELEVANT VERTICAL RESEARCH RESULTS
US9529848B2 (en) * 2013-12-06 2016-12-27 Vmware, Inc. Predictive query result computation
US9436739B2 (en) 2013-12-13 2016-09-06 Vmware, Inc. Dynamic priority-based query scheduling
JP6658515B2 (ja) * 2014-05-15 2020-03-04 日本電気株式会社 検索装置、方法、およびプログラム
US9773067B2 (en) * 2014-05-30 2017-09-26 Microsoft Technology Licensing, Llc Personal intelligence platform
RU2597476C2 (ru) * 2014-06-27 2016-09-10 Общество С Ограниченной Ответственностью "Яндекс" Система и способ выполнения поиска
US10592539B1 (en) * 2014-07-11 2020-03-17 Twitter, Inc. Trends in a messaging platform
US10601749B1 (en) 2014-07-11 2020-03-24 Twitter, Inc. Trends in a messaging platform
US10467269B2 (en) * 2015-02-13 2019-11-05 Samsung Electronics Co., Ltd. Accessing category-specific search servers
US9251276B1 (en) 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
CN105335493B (zh) 2015-10-21 2017-08-29 广州神马移动信息科技有限公司 一种分层过滤文档的方法及装置
RU2634211C1 (ru) 2016-07-06 2017-10-24 Общество с ограниченной ответственностью "Траст" Способ и система анализа протоколов взаимодействия вредоносных программ с центрами управления и выявления компьютерных атак
RU2649793C2 (ru) 2016-08-03 2018-04-04 ООО "Группа АйБи" Способ и система выявления удаленного подключения при работе на страницах веб-ресурса
RU2634209C1 (ru) 2016-09-19 2017-10-24 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ автогенерации решающих правил для систем обнаружения вторжений с обратной связью
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
RU2637477C1 (ru) 2016-12-29 2017-12-04 Общество с ограниченной ответственностью "Траст" Система и способ обнаружения фишинговых веб-страниц
RU2671991C2 (ru) 2016-12-29 2018-11-08 Общество с ограниченной ответственностью "Траст" Система и способ сбора информации для обнаружения фишинга
RU2656982C1 (ru) * 2017-03-27 2018-06-07 Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" Способ информационного поиска лингвистических моделей выражения деловых отношений в документах архивного фонда
JP6375083B1 (ja) * 2017-03-30 2018-08-15 株式会社オプティム 検索システム、方法及びプログラム
US11017037B2 (en) * 2017-07-03 2021-05-25 Google Llc Obtaining responsive information from multiple corpora
RU2689816C2 (ru) 2017-11-21 2019-05-29 ООО "Группа АйБи" Способ для классифицирования последовательности действий пользователя (варианты)
RU2677361C1 (ru) 2018-01-17 2019-01-16 Общество с ограниченной ответственностью "Траст" Способ и система децентрализованной идентификации вредоносных программ
RU2668710C1 (ru) 2018-01-17 2018-10-02 Общество с ограниченной ответственностью "Группа АйБи ТДС" Вычислительное устройство и способ для обнаружения вредоносных доменных имен в сетевом трафике
RU2677368C1 (ru) 2018-01-17 2019-01-16 Общество С Ограниченной Ответственностью "Группа Айби" Способ и система для автоматического определения нечетких дубликатов видеоконтента
RU2680736C1 (ru) 2018-01-17 2019-02-26 Общество с ограниченной ответственностью "Группа АйБи ТДС" Сервер и способ для определения вредоносных файлов в сетевом трафике
RU2676247C1 (ru) 2018-01-17 2018-12-26 Общество С Ограниченной Ответственностью "Группа Айби" Способ и компьютерное устройство для кластеризации веб-ресурсов
RU2681699C1 (ru) * 2018-02-13 2019-03-12 Общество с ограниченной ответственностью "Траст" Способ и сервер для поиска связанных сетевых ресурсов
RU2708508C1 (ru) 2018-12-17 2019-12-09 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для выявления подозрительных пользователей в системах обмена сообщениями
RU2701040C1 (ru) 2018-12-28 2019-09-24 Общество с ограниченной ответственностью "Траст" Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
KR20200092742A (ko) * 2019-01-25 2020-08-04 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
SG11202101624WA (en) 2019-02-27 2021-03-30 Group Ib Ltd Method and system for user identification by keystroke dynamics
US11250214B2 (en) 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
US11874882B2 (en) * 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
CN110457599B (zh) * 2019-08-15 2021-09-03 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
RU2728498C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его исходному коду
RU2728497C1 (ru) 2019-12-05 2020-07-29 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система определения принадлежности программного обеспечения по его машинному коду
RU2743974C1 (ru) 2019-12-19 2021-03-01 Общество с ограниченной ответственностью "Группа АйБи ТДС" Система и способ сканирования защищенности элементов сетевой архитектуры
SG10202001963TA (en) 2020-03-04 2021-10-28 Group Ib Global Private Ltd System and method for brand protection based on the search results
US11475090B2 (en) 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
RU2743619C1 (ru) 2020-08-06 2021-02-20 Общество с ограниченной ответственностью "Группа АйБи ТДС" Способ и система генерации списка индикаторов компрометации
US11947572B2 (en) 2021-03-29 2024-04-02 Group IB TDS, Ltd Method and system for clustering executable files
US20230259374A1 (en) * 2022-02-16 2023-08-17 International Business Machines Corporation Task-oriented user guidance

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366956B1 (en) * 1997-01-29 2002-04-02 Microsoft Corporation Relevance access of Internet information services
US6078917A (en) * 1997-12-18 2000-06-20 International Business Machines Corporation System for searching internet using automatic relevance feedback
IL125432A (en) * 1998-01-30 2010-11-30 Easynet Access Inc Personalized internet interaction
AU5465099A (en) * 1998-08-04 2000-02-28 Rulespace, Inc. Method and system for deriving computer users' personal interests
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US7099859B2 (en) * 2000-01-20 2006-08-29 International Business Machines Corporation System and method for integrating off-line ratings of businesses with search engines
US7181412B1 (en) * 2000-03-22 2007-02-20 Comscore Networks Inc. Systems and methods for collecting consumer data
US6704729B1 (en) * 2000-05-19 2004-03-09 Microsoft Corporation Retrieval of relevant information categories
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US7085753B2 (en) * 2001-03-22 2006-08-01 E-Nvent Usa Inc. Method and system for mapping and searching the Internet and displaying the results in a visual form
US20030074400A1 (en) * 2001-03-30 2003-04-17 David Brooks Web user profiling system and method
US20020188554A1 (en) * 2001-05-04 2002-12-12 Donald Holbrook Method of employing a computer network to regulate contact between enconomic development officials and site selectors
JP2003058575A (ja) 2001-08-21 2003-02-28 Ricoh Techno Systems Co Ltd 検索結果情報生成装置
JP2003248691A (ja) 2002-02-25 2003-09-05 Nippon Telegr & Teleph Corp <Ntt> 分散型検索方法、及び、分散型検索装置、及び、分散型検索プログラム、及び、分散型検索プログラムを格納した記憶媒体
US7082428B1 (en) * 2002-09-16 2006-07-25 Bellsouth Intellectual Property Corporation Systems and methods for collaborative searching
US7392278B2 (en) 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308493B (zh) * 2007-05-18 2010-12-08 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN101739407A (zh) * 2008-11-19 2010-06-16 日电(中国)有限公司 自动构建用于相关信息浏览的信息组织结构的方法和系统
US8527487B2 (en) 2008-11-19 2013-09-03 Nec (China) Co., Ltd. Method and system for automatic construction of information organization structure for related information browsing
CN111859148A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 主题的提取方法、装置、设备及计算机可读存储介质
CN112218160A (zh) * 2020-10-12 2021-01-12 北京达佳互联信息技术有限公司 视频转换方法及装置和视频转换设备及存储介质

Also Published As

Publication number Publication date
RU2382400C2 (ru) 2010-02-20
MXPA05000981A (es) 2005-10-18
KR101130509B1 (ko) 2012-03-28
EP1557770A1 (en) 2005-07-27
JP4694215B2 (ja) 2011-06-08
US20050165753A1 (en) 2005-07-28
CA2490594C (en) 2013-09-17
KR20050076811A (ko) 2005-07-28
AU2004240188B8 (en) 2010-09-16
CN1645370B (zh) 2010-07-21
AU2004240188B2 (en) 2010-07-29
RU2005101449A (ru) 2006-07-10
AU2004240188A1 (en) 2005-08-11
US7392278B2 (en) 2008-06-24
JP2005209210A (ja) 2005-08-04
BRPI0500105A (pt) 2005-09-06
CA2490594A1 (en) 2005-07-23

Similar Documents

Publication Publication Date Title
CN1645370B (zh) 为聚焦的搜索构建并使用子网
CN1279475C (zh) 用于在数据网络中搜索和分析信息的方法
CN110462604B (zh) 基于设备使用关联互联网设备的数据处理系统和方法
US8086591B2 (en) Combining domain-tuned search systems
Croitoru et al. Geosocial gauge: a system prototype for knowledge discovery from social media
US8346753B2 (en) System and method for searching for internet-accessible content
CN101779180B (zh) 基于背景的内容推荐的方法和设备
US8352396B2 (en) Systems and methods for improving web site user experience
RU2412476C2 (ru) Прикладной программный интерфейс для извлечения и поиска текста
JP5067367B2 (ja) 情報提供システム、情報提供方法及び情報提供用プログラム
US20070214131A1 (en) Re-ranking search results based on query log
US20050154701A1 (en) Dynamic information extraction with self-organizing evidence construction
CN1752973A (zh) 用于在知识互换系统中维护用户私密的方法、系统和装置
CN1882943A (zh) 使用超单元的搜索处理的系统和方法
CN1752974A (zh) 用于接收并响应知识互换查询的方法、系统和装置
CN1813233A (zh) 用于控制对计算机对象的访问的用户界面
KR20140058522A (ko) 소셜 네트워크의 강화된 쿼리 제안 기법
US20080005069A1 (en) Entity-specific search model
CN101055587A (zh) 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN1841380A (zh) 用于改进搜索引擎相关性的数据挖掘技术
CN1714334A (zh) 具有分级菜单的智能因特网网站
US20070106663A1 (en) Methods and apparatus for using user personality type to improve the organization of documents retrieved in response to a search query
Aledo et al. Consensus‐based journal rankings: A complementary tool for bibliometric evaluation
Cecchini et al. Multiobjective evolutionary algorithms for context‐based search
Castellano et al. A collaborative situation-aware scheme based on an emergent paradigm for mobile resource recommenders

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100721

Termination date: 20150121

EXPY Termination of patent right or utility model