CN1841380B - 用于改进搜索引擎相关性的数据挖掘技术 - Google Patents

用于改进搜索引擎相关性的数据挖掘技术 Download PDF

Info

Publication number
CN1841380B
CN1841380B CN2006100515696A CN200610051569A CN1841380B CN 1841380 B CN1841380 B CN 1841380B CN 2006100515696 A CN2006100515696 A CN 2006100515696A CN 200610051569 A CN200610051569 A CN 200610051569A CN 1841380 B CN1841380 B CN 1841380B
Authority
CN
China
Prior art keywords
data
user
sorter
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006100515696A
Other languages
English (en)
Other versions
CN1841380A (zh
Inventor
Z·郑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1841380A publication Critical patent/CN1841380A/zh
Application granted granted Critical
Publication of CN1841380B publication Critical patent/CN1841380B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B09DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
    • B09BDISPOSAL OF SOLID WASTE
    • B09B2101/00Type of solid waste
    • B09B2101/02Gases or liquids enclosed in discarded articles, e.g. aerosol cans or cooling systems of refrigerators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B09DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
    • B09BDISPOSAL OF SOLID WASTE
    • B09B3/00Destroying solid waste or transforming solid waste into something useful or harmless
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B02CRUSHING, PULVERISING, OR DISINTEGRATING; PREPARATORY TREATMENT OF GRAIN FOR MILLING
    • B02CCRUSHING, PULVERISING, OR DISINTEGRATING IN GENERAL; MILLING GRAIN
    • B02C18/00Disintegrating by knives or other cutting or tearing members which chop material into fragments
    • B02C18/06Disintegrating by knives or other cutting or tearing members which chop material into fragments with rotating knives
    • B02C18/16Details
    • B02C18/18Knives; Mountings thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B9/00Presses specially adapted for particular purposes
    • B30B9/02Presses specially adapted for particular purposes for squeezing-out liquid from liquid-containing material, e.g. juice from fruits, oil from oil-containing material
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65DCONTAINERS FOR STORAGE OR TRANSPORT OF ARTICLES OR MATERIALS, e.g. BAGS, BARRELS, BOTTLES, BOXES, CANS, CARTONS, CRATES, DRUMS, JARS, TANKS, HOPPERS, FORWARDING CONTAINERS; ACCESSORIES, CLOSURES, OR FITTINGS THEREFOR; PACKAGING ELEMENTS; PACKAGES
    • B65D88/00Large containers
    • B65D88/26Hoppers, i.e. containers having funnel-shaped discharge sections
    • CCHEMISTRY; METALLURGY
    • C05FERTILISERS; MANUFACTURE THEREOF
    • C05FORGANIC FERTILISERS NOT COVERED BY SUBCLASSES C05B, C05C, e.g. FERTILISERS FROM WASTE OR REFUSE
    • C05F9/00Fertilisers from household or town refuse
    • C05F9/02Apparatus for the manufacture

Abstract

本发明涉及从以往的搜索活动自动学习数据相关性、并应用此类学习以便于将来的搜索活动的系统和方法。在一个方面,本发明提供一种自动化的信息检索系统。该系统包括一学习组件,它分析所存储的信息检索数据以从以往的用户信息搜索活动确定相关性模式。搜索组件使用该学习组件,以至少部分地基于相关性模式来确定当前搜索结果的子集,其中可根据本发明的学习组件处理许多变量以高效地生成聚焦的、区分优先级的和相关的搜索结果。

Description

用于改进搜索引擎相关性的数据挖掘技术
技术领域
本发明一般涉及计算机系统,尤其涉及使用对先前搜索结果的数据日志使用相关性分类技术来增强当前搜索引擎结果的质量的系统和方法。
背景技术
在万维网和因特网普及的大前提下,用户可从大量信息源获得涉及基于任何主题的信息。为了寻找信息,用户一般将各种搜索引擎应用于信息检索任务。搜索引擎允许用户寻找包含信息的Web网页或是因特网上包含特定字或短语的其它素材。例如,如果他们想要寻找关于美国第一任总统George Washington(乔治·华盛顿)的信息,则他们可输入“George Washington first president”,点击搜索按钮,而搜索引擎将返回包括关于这位著名的总统的信息的Web网页列表。但是如果实施了更加一般化的搜索,诸如仅输入“Washington”这一项,则将返回多得多的结果,诸如涉及与相同的名称相关联的地理区域或机构的结果等。
Web上有许多搜索引擎。例如,AllTheWeb、AskJeeves、Google、HotBot、Lycos、MSN Search、Teoma、Yahoo只是许多例子中的一部分。其中大多数引擎至少提供两种搜索信息的模式,诸如经由它们自己的、按照主题组织以供用户浏览的站点目录,或通过执行经由浏览器处的用户界面入口输入的关键词的搜索。一般而言,尽计算机全力,关键词搜索将会找到其中具有涉及所指定的任何关键词和短语的任何信息的所有Web站点。搜索引擎站点将具有供用户输入关键词的框和按下以开始搜索的按钮。许多搜索引擎有关于如何使用关键词来有效地搜索的提示。通常提供提示是为了帮助用户更加小范围地定义搜索项,以使离题的或无关的信息不会因被返回而使信息检索过程混乱。因此,搜索项的手动缩小范围通过在寻找特定信息时帮助缓解要接收数以千计的站点来分类的情况而给用户节省了大量时间。
当前搜索技术的一个问题是要求手动聚焦或缩小搜索项范围以在很短时间量内生成期望的结果。另一个问题是搜索引擎无视于不同的用户需要和情况而为所有用户进行同样的操作。因此,如果两个用户输入相同的搜索查询,他们就获得相同的结果,而无论他们的兴趣、先前的搜索历史、计算上下文或环境上下文(例如,位置、所使用的机器、时间、日期)是什么。不幸的是,现代的搜索过程是为接收关于搜索的显式命令而设计的,而没有考虑其它这些能够提供对用户实际或期望的信息检索目标的洞察的个人化因素。
从Web搜索引擎到桌面应用实用程序(例如,帮助系统),用户始终使用信息和检索系统来发现关于所关注的主题的未知信息。在一些情形中,这些主题被预先整理到主题和子主题区域中。例如,“Yahoo”提供可能的主题(例如,商务、政府、科学等等)的以分层结构方式安排的预先确定的列表,其中用户将选择主题,然后进一步选择列表内的子主题。预先确定的主题列表的另一个例子常见于桌面个人计算机帮助实用程序上,其中帮助主题和相关子主题的列表被提供给用户。尽管这些预先确定的分层结构在一些上下文中可能是有用的,但是用户常常需要搜索/查询很难通过按照主题结构找到或是在这些预先确定的列表以外和/或未被包括在其内的信息。因此,常常使用搜索引擎或其它搜索系统来使用户能够指示用户所构思的查询以找到期望的信息。不幸的是,当因用户可能不确定如何创作或构思特定查询而检索到许多无关文件时,这一打算结果常常令人失望。这常会使用户不断修改查询以将检索到的搜索结果提炼到合理的文件数。对于不熟悉计算机技术的人而言,这可能是非常困难的。结果是他们可能不能够找到他们所想要的信息。
作为此困境的例子来说,在搜索系统输入查询字段输入字或短语并检索到数以千计的文件-或者在因特网的情形中可能是数百万的Web网站作为可能的候选并不少见。为了搞清除检索到的大量候选的意思,用户常常需要试验其它字词组合来进一步缩小列表,因为许多检索到的结果可能共享共同的元素、项或短语,但却在主题上具有很低的上下文相似性或是没有任何上下文相似性。此方法对于用户和执行搜索的系统而言是不准确且耗时的。不准确表现在检索到用户所不感兴趣的上千或甚至上百万个无关文件/站点。在搜索大容量数据库找到了可能的但却无关的文件时,还牺牲了时间和系统处理速度。
发明内容
以下给出本发明的简要概述,以提供对本发明一些方面的基本理解。此概述不是本发明的详尽概览。并不试图用它来标识本发明的关键/重要元素或描绘本发明的范围。它唯一的目的是以简化形式给出本发明的一些概念,以作为稍后所给出的更加详细的描述的序言。
本发明涉及使用数据挖掘和学习技术以便于信息的高效搜索、检索和分析的系统和方法。在一个方面,从存储来自多个以往的用户搜索活动的信息的日志训练的诸如贝叶斯分类器等学习组件。例如,该学习组件可通过分析日志内隐式的或显式的数据来确定日志中某些返回的结果是否与用户更为相关,其中此类数据指示搜索结果或结果子集的相关性或质量。在一个特定示例中,可以确定,给定了用户仔细考虑(例如,花了较长时间)的-组返回的搜索结果,某些类型的结果-指示比其它类型的结果更高的相关性的那些-给出了初始搜索查询的本性。随着时间过去,可从以往的搜索活动训练学习组件并将其作为运行时分类器来配合搜索引擎使用,以从用户对该引擎提交的查询过滤或确定最为相关的结果。以此方式,通过自动分类可能与用户更为相关的结果,可通过减少用户定位期望信息的时间量来改善信息搜索过程。
可使用各种分析技术来训练学习组件,并便于将来的信息检索过程。这可包括分析用户实际选择一结果的次数来确定其就给定查询而言的相关性。不是要求用户提供关于相关性的显式反馈,而是诸如特定结果被打开了多少次、对链接到一结果的文件花了多少时间、或是用户对特定文件向下钻取多深等隐式因素。以此方式,相关性可被自动确定,而无需再烦劳用户显式地通知系统哪些结果可能是相关的,哪些不是。顺序分析技术可被应用于先前失败的查询来自动改善将来的查询。用于提炼将来的查询和解决歧义的其它相关性因素包括分析外在或上下文数据,诸如操作系统版本、所使用的应用程序的类型、硬件设置等等。这可包括将诸如季节或时间敏感信息等变数的考虑包括在查询中以便于返回更为相关的结果。
为实现前述及相关目的,本文中结合以下描述和附图来描述本发明的某些示例性方面。这些方面指示了可实施本发明的各种方法,所有这些方法都旨在为本发明所覆盖。当结合附图考虑以下对本发明的详细描述,本发明的其它优点和新颖特征将可明确。
附图说明
图1是示出根据本发明的一个方面的自动化信息检索系统的示意性框图。
图2是示出根据本发明的一个方面的信息检索过程的流程图。
图3示出根据本发明的一个方面的相关性分类器考虑。
图4示出根据本发明的一个方面的相关性训练集考虑。
图5示出根据本发明的一个方面的运行时分类器创建处理。
图6示出根据本发明的一个方面的数据混合考虑。
图7示出根据本发明的一个方面的分类器测试和诊断方面。
图8示出根据本发明的一个方面的示例性建模系统。
图9是示出根据本发明的一个方面的合适的操作环境的示意性框图。
图10是本发明可与之交互的示例性计算环境的示意性框图。
具体实施方式
本发明涉及从以往的搜索活动自动学习数据相关性、并应用此类学习以便于将来的搜索活动的系统和方法。在一个方面,本发明提供了一种自动化信息检索系统。该系统包括一学习组件,它分析所存储的信息检索数据以从以往的用户信息搜索活动确定相关性模式。搜索组件(例如,搜索引擎)使用该学习组件,至少部分地基于这些相关性模式来确定当前搜索结果的子集。可根据该学习组件处理许多变量,包括搜索失败数据、相关性数据、隐式数据、系统数据、应用程序数据、硬件数据、上下文数据(诸如时间专属信息)等,来高效地生成聚焦的、区分优先级的和相关的搜索结果。
如此申请中所使用,术语“组件”、“系统”、“引擎”、“查询”等意指计算机相关的实体,无论是硬件、硬件和软件的组合、软件、还是执行中的软件。例如,组件可以是,但不限于,在处理器上运行的进程、处理器、对象、可执行码、执行线程、程序和/或计算机。作为示例,在服务器上运行的应用程序和该服务器都可以是组件。一个或多个组件可驻留在进程和/或执行线程内,且组件可被本地化到一台计算机上和/或被分布在两台或多台计算机之间。同样,这些组件可从其上存储有各种数据结构的各种计算机可读介质执行。这些组件可经由诸如根据具有一个或多个数据分组的本地和/或远程过程来通信(例如,来自一个组件的数据与本地系统、分布式系统与另一个组件交互,和/或通过诸如因特网等网络经由信号与其它系统交互)。
首先参考图1,图示出根据本发明的一个方面的自动化信息检索系统100。系统100包括从数据日志120训练的学习组件110。日志120中的数据可从本地或远程数据源收集,并包括涉及来自多个用户的先前的搜索数据或活动130的信息。在训练以后,配合搜索引擎140使用学习组件110以便于或增强被示为相关性结果150的将来的搜索结果。搜索引擎140的早期版本可以是数据日志120的源。例如,搜索引擎140可处理一个或多个新的搜索查询160。这些查询160可根据学习组件110而被修改,或者来自查询的结果可部分地基于从先前的搜索数据130的训练被过滤或确定为子集。一般而言,系统100使用各种数据挖掘技术来提高搜索引擎相关性。这些技术包括例如在学习组件110中使用相关性分类器来为运行时分类器生成高质量的训练数据,而运行时分类器是配合搜索引擎140使用来生成相关性结果150。可使用顺序分析来映射相同会话内的查询160和不同查询的期望结果,包括在运行时分类器中使用系统100的上下文特征,以及用于处理季节/时间敏感内容的查询映射,如将在下文中更加详细描述的。
对终端用户搜索数据日志120使用诸如单纯贝叶斯模型等机器学习技术而生成的分类器(例如,运行时分类器)可与信息检索(IR)组件一起使用以构成高度相关的搜索引擎。在一个方面,通过标识用户满意的搜索结果以训练运行时分类器来从日志120确定相关性数据。当前,一些系统将对搜索结果的所有点击和选择作为用户满意的结果来处理。实验表明,用户选择结果时有1/3时间是他们真正满意该选择。因此,“满意的”点击或选择上的训练将导致优化的分类器。为知道点击是否是满意的,可向用户要求其显式的反馈。但是,在许多情况下,只有一小部分用户提供显式的反馈。为要获得对所有点击的反馈,系统100可使用带有显式反馈的用户点击来构建另一个分类器,它将用户行为数据(例如,用户对一结果所花的时间、他们从此结果转到何处、结果本身上的一些元数据)映射到显式反馈。此分类器被称为相关性分类器。然后将该相关性分类器应用于用户没有提供显式反馈的点击/结果来推断他们的满意程度。这一技术提供用于训练运行时分类器的高质量的数据。
在搜索期间,当一查询160没有提供满意的结果时,用户可修改并重新提交查询。他们可重复此过程,直至返回了满意的结果。可使用诸如顺序分析等各种数据挖掘技术来分析用户搜索日志数据120,并将失败的查询(没有满意结果的查询)链接到其经修改查询的满意的结果,并将这些被链接的数据包括到学习组件110的运行时分类器所用的训练数据中。例如,当在搜索服务器上部署了新的运行时分类器时,用户接收到这些查询上的满意的结果150,而用没有使用这些分类器的常规搜索引擎或较早版本的搜索引擎(在部署了新的运行时分类器以前)结果是不令人满意的。
其它考虑包括仅使用查询串中的项来训练运行时分类器。但是,当包括了诸如操作系统版本、所使用的应用程序、硬件设置(包括例如是否链接了打印机或是否链接了数码照相机)等额外的输入变量时可增强分类器。这些额外的信息协助运行时分类器解决潜在的歧义,由此提供改善的结果预测。其它预测包括例如提供查询映射,用于处理诸如季节/时间敏感查询等上下文数据。在一个实例中,在查询处理阶段期间,使用词汇服务将季节/时间敏感查询映射到具有时间信息的版本。例如,当时间接近2005,则将“日历”映射到“日历2005年日历”。这将会增加2005年日历在相关性结果150中出现在结果列表顶部的机会。
注意,随着时间过去,学习组件110可应用各种机器学习技术或模型来处理数据日志120。学习模型实质上可包括诸如统计/数学模型和过程等任何类型的系统用于对用户建模并确定结果,包括使用贝叶斯学习(可生成诸如贝叶斯网络、单纯贝叶斯分类器等贝叶斯依存关系模型)和/或其它统计分类方法,例如包括支持矢量机(SVM)。其它类型的模型或系统可包括例如神经网络和隐马尔可夫模型。尽管根据本发明可使用详细推理模型,但是应当认识到,还可使用其它方法。例如,可不使用较为详尽的概率方法,而是使用确定性假定(例如,根据规则,未在特定网站逗留时间量X可表示该结果是无关的)。因此,除了在不确定性下的推理以外,还可进行关于状态、位置、上下文、关注、焦点等的逻辑决策。
可从用户事件数据存储(未示出)训练学习模型,而用户事件数据存储收集或聚合来自多个不同的数据源的上下文数据。这些源可包括记录或将用户数据记入日志的各种数据获得组件(例如,蜂窝电话、由话筒记录的声音活动、全球定位系统(GPS)、电子日历、视觉监视设备、桌面活动、Web网站交互等等)。注意,系统100实质上可以用支持个人化查询和结果处理的任何方式来实现。例如,该系统可被实现为服务器、服务器场、被实现在一个或多个客户机应用程序内、或被更佳一般化地实现为包括一个或多个web服务或与诸如搜索引擎140的用户界面(未示出)等搜索功能交互的(一个或多个)其它自动化应用程序。
图2示出根据本发明的一个方面的示例性信息检索优化过程200。尽管出于解释简单的目的,将该方法示意和描述为一系列或若干动作,但是应当理解并认识到,本发明不受诸动作的次序的限制,因为根据本发明,一些动作可以按不同次序发生和/或与本文中所示意和描述的其它动作并行发生。例如,本领域技术人员将会理解并认识到,方法可被替换表示为诸如状态图等中的一系列相关的状态或事件。此外,不是所有示出的动作都是实现根据本发明的方法所必需的。
前进至图2的210,就以往的信息检索活动数据对一个或多个数据日志进行分析。可以从本地数据源、远程数据源(诸如从因特网站点)或从源的组合来分析这些数据。在220,从这些数据日志训练一个或多个分类器。可在观察用户(或系统)响应的同时随着时间过去来训练这些分类器,或可将这些分类器应用于在先前某个时间点已经积累或聚合的数据。在230,将经训练的分类器与一个或多个搜索引擎或工具相关联或集成。这些引擎或工具可包括本地桌面搜索实用程序(例如,帮助工具)、诸如常规的网站搜索引擎等远程搜索引擎,或可在应用程序专属的基础上应用(诸如在给定应用程序内提供搜索能力)。
在240,有经训练的分类器配合其操作的搜索工具分析由用户或系统提交的新查询。这可包括分析诸如应用程序数据、硬件数据、时间数据、季节数据、日历数据、系统数据、文件元数据等各种上下文源以进一步提炼相应的查询来产生相关性搜索结果。在250,生成从经训练的分类器和/或上下文数据考虑确定的搜索结果子集并将其提供给用户。这可包括在需要的情况下经由用户界面生成输出显示。如可认识到的,根据本发明生成的相关性结果还可被进一步分析(例如,向分类器提供进一步的训练),并因此作为训练或相关性提炼的嵌套机会而操作。
图3-8涉及根据本发明构建和训练分类器的特定示例。图3和4与运行时分类器的构建和模式考虑相关联,而图5-8涉及分类器建模工具和考虑。但是,应当认识到,本发明不限于所示和描述的特定示例,并且其它实现也是可能的。
转到图3,示出了根据本发明的一个方面的相关性分类器考虑300。相关性分类器300可被用于通过利用用户的隐式反馈(包括用户与系统的交互,例如,逗留时间和退出类型)和上下文设置信息(例如,入口点、应用程序、软件设置、硬件设置)来预测用户对搜索资产的满意程度(例如,显式反馈)。一些隐式的反馈信息被转换为因素以便于生成相关性分类器300。例如,到相关性分类器的输入是用户的隐式反馈,而输出是用户对其与之交互的结果(资产)的满意程度。
为训练相关性分类器300,使用同时具有结果级的隐式反馈和显式反馈的数据集(数据集中的每个条目表示一个搜索结果)(可链接到单个搜索会话中从用户到结果的多个交互,或从用户浏览到资产的访问)。然后在例如对结果的显式反馈不可用时,分类器被用来根据使用隐式反馈的结果来推断用户的显式反馈。在一种情形中,可为相关性分类器300使用决策树学习,但其它类型的学习也是可能的。
在310,用于构建和使用相关性分类器300的组件描述如下:
1.使用一应用程序来创建用于训练和测试相关性分类器的结果签名数据文件。
2.对训练集和测试集使用决策树学习工具来训练和测试相关性分类器。
3.如果测试结果是满意的,则将决策树分类器加载到系统中,在系统中它被用来推断用户对搜索结果的满意陈述。决策树分类器可被保存在文件或数据库中。
4.如果测试结果不满意,调查产生此情况的问题(原因包括但不限于,训练集/测试集的大小太小;目标分布偏斜;可能需要定义新的相关性因素),如果需要,则在问题调查以后重复处理。
在320,在将相关性分类器保存在数据库中的情形中示出用于处理相关性分类器的模式考虑。例如,所生成的相关性分类器300可被加载到数据库中的表中,并预订以下模式属性,诸如:ClassifierID(分类器ID,它是唯一id)、GUID、ClassifierName(分类器名称)、Description(描述)、Status(状态,它是活动的或不活动的)、Scope(范围,例如,软件版本)、other Version information(其它版本信息)、Training Set Size(训练集大小)、以及Classifer(分类器,它是XML串)。另一个表可包括用户相关性因素,它存储分类器所使用的因素,包括UsedRelevanceFactorID(所使用的相关性因素ID,它是唯一id)、ClassifierID(分类器ID)和FactorTypeID(因素类型ID)。
图4示出根据本发明的一个方面的相关性训练集考虑400。为便于生成相关性分类器,可提供一种用于从上述数据日志创建训练集或测试集的工具。在410,输出数据可被生成为两个数据文件和一个元数据文件。例如,每个数据文件为每个结果(或资产交互)包括一个行,并为每个因素和显式反馈包括一个列。因素值可用“,”或其它符号来划界。元数据文件一般包括每个因素上的信息,以及与每个行一一对应的显式反馈。在420,训练集和测试集的数据源来自上述的数据日志。该系统可用内建逻辑来决定哪个数据项用于训练,哪个用于测试。在430,可指定分类器构建的参数。这些参数可包括:由串指定的、用于生成训练/测试集和元数据文件的Filename(文件名);用于定义数据开始点的Start Date(开始日期);以及用于定义数据结束点的End Date(结束日期);服务器名称;以及可为其创建数据集的Entry Point(入口点)。
图5示出根据本发明的一个方面的运行时分类器创建处理500。一般而言,当创作者在500创建运行时分类器时,可遵照以下动作。前进至510,通过提供诸如类别名称、日期范围、运行时分类器名称、描述(可选)、目标版本、数据源(包括用户评注的数据、创作者评注的数据、或这两者的组合)等信息来训练运行时分类器。该系统在过程的结束返回运行时分类器ID,或在出错的情形中返回出错消息。在520,通过提供以下信息来运行模型评估(回归测试):运行时分类器ID;以及日期范围(默认值应为在训练分类器时所使用的值)。在530,阅读并分析评估报告以决定分类器是否通过了评估。
在540,如果运行时分类器在530没有通过评估,则指示此情况并前进至550以进行诊断。否则,指示对运行时分类器满意(系统在此时通过合并训练集、回归集和内部诊断集来创建用于出版的最终分类器)。如果评估在540没有通过,则前进至550并通过提供以下信息来诊断分类器,然后将创建诊断报告。这些信息包括运行时分类器ID(这里可使用和训练相同的日期范围)。在560,阅读诊断报告并采取行动以改变训练数据。然后,回到510以重新创建新的运行时分类器。注意,训练数据应在这个时间点上被改变。在570,运行时分类器已就绪可供向搜索引擎发布以部署。注意在500,一些动作可被自动化。运行时分类器及其元数据可被保存在由500中的所有过程共享的数据库中。
图6示出根据本发明的一个方面的分类器数据混合考虑。在这一方面,用户分类器训练的数据评注可以从至少两个源提供,包括610处来自搜索引擎终端用户的数据日志的用户评注数据、以及来自搜索创作者的创作者评注数据620。一般而言,这些类型的数据可被混合成不同的组合如下:
Wuser*用户评注数据∪Wauthor*作者评注数据其中,Wuser是给予用户注解数据610中的每一对的权重,而Wauthor是给予创作者评注数据620中的每一对的权重。
图7示出根据本发明的一个方面的分类器测试工具700。在一个方面,工具700基于所提供的运行时分类器ID从数据库提取运行时分类器。然后该工具在720对回归数据集运行通过一个测试并生成测试结果的总结。该总结可包括如下方面:前1到前10的准确性;前10的平均分级;测试集中不同原始查询的个数、测试集中不同的经处理的查询的个数;测试集中不同资产的个数;测试集中不同的经处理的查询-资产对的个数;测试集中的总频率等等。在730,可对分类器执行一个或多个诊断测试。工具700基于指定的运行时分类器ID提取运行时分类器和相关的元数据。然后,在内部的诊断集上评估运行时分类器,并生成若干诊断。例如,这些诊断包括总的事件频率、不同事件的个数、不同特征矢量的个数、资产的个数、总特征计数、事件的平均特征计数、平均经识别特征计数、总的查询频率、每个特征矢量的最大、最小和平均资产个数等等。其它诊断730包括准确性预测、分级统计、资产级度量、失败查询度量、分类器比较度量、预测混淆度量、以及训练和测试集比较度量。如可认识到,还可提供其它度量或诊断指示。
图8示出根据本发明的一个方面的示例性分类器建模系统800。一般而言,创作者使用工具或系统800来从810处被称为相关性中心的数据库中的查询和资产数据构建运行时分类器。所生成的运行时分类器被保存在被称为模型存储820的另一个数据库中。训练/测试数据拆分的逻辑被保存在相关性中心810中。存储在模型存储820中的运行时分类器可通过回归测试组件(未示出)来评估,并且如果通过评估,则然后被发布。
系统800为用户界面(UI)组件840和命令工具850提供应用程序编程接口(API)830,用于使用所指定的训练集来构建运行时分类器,并用于将所生成的模型保存到模型存储820中。系统800示出模型构建器组件860内部的控制流和数据流,及该组件与其它组件的交互。模型构建器860处理定义训练数据源的一组参数,然后决定在何处如何提取训练数据。对于来自相关性中心810的终端用户评注查询,其数据读出器提取原始数据,然后事件构造器将原始数据转换为单纯贝叶斯分类器训练器所需的格式的事件,该格式如下:Asset_ID(资产ID);Frequency(频率);和Feature(特征)。
通常,特征包括查询串项,但是还可添加其它类型的特征。事件列表864被传递给单纯贝叶斯分类器训练器870(稀疏单纯贝叶斯)以生成运行时分类器。数据写入器874将所生成的分类器模型随元数据信息存储到模型存储820。API 830包括以下参数:数据源:3个可能的值:用户评注的查询、创作者评注的查询、或两者;类别:用于训练分类器的类别;日期范围:用于选择训练数据的开始日期时间和结束日期时间;以及最小预测置信度。事件生成器880转换来自数据读出器890的原始数据。例如,这包括转换为小写(仅适用于某些文化)和在客户机方匹配的短语,以及断词、填充、查询扩展、统计拼写检查、以及服务器方的噪声字。
参考图9,用于实现本发明的各个方面的示例性环境910包括计算机912。计算机912包括处理单元914、系统存储器916、以及系统总线918。系统总线918将包括但不限于系统存储器916的系统组件耦合到处理单元914。处理单元914可以是各种可用处理器中的任何处理器。也可将双微处理器及其它多处理器体系结构作为处理单元914使用。
系统总线918可以是若干类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各种可用的总线体系结构中的任何体系结构的局部总线,这些总线体系结构包括,但不限于,11位总线、工业标准体系结构(ISA)、微通道体系结构(MSA)、扩展ISA(EISA)、智能驱动器电子设备(IDE)、VESA局部总线(VLB)、外围组件互连(PCI)、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)、以及小型计算机系统接口(SCSI)。
系统存储器916包括易失性存储器920和非易失性存储器922。包含诸如在启动期间帮助在计算机912内部各元件间传送信息的基本例程的基本输入输出系统(BIOS)存储在非易失性存储器922中。作为示例而非限制,非易失性存储器922可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失性存储器920包括担当外部高速缓存的随机存取存储器(RAM)。作为示例而非限制,RAM有多种形式可用,诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路DRAM(SLDRAM),及直接Rambus RAM(DRRAM)。
计算机912还包括可移动/不可移动,易失性/非易失性计算机存储介质。例如图9示出磁盘存储924。磁盘存储924包括,但不限于,如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒等设备。此外,磁盘存储924可包括单独的存储介质或与其它存储介质相结合,其它存储介质包括但不限于光盘驱动器,诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)。为便于磁盘存储设备924到系统总线918的连接,通常使用诸如接口926等可移动或不可移动接口。
应当理解,图9描述了在用户与在合适的操作环境910中描述的基本计算机资源之间担当中介的软件。这些软件包括操作系统928。可存储在磁盘存储924上的操作系统928起到控制和分配计算机系统912的资源的作用。系统应用程序930通过存储在系统存储器916中或磁盘存储924上的程序模块932和程序数据934来利用操作系统928对资源的管理。应当认识到,本发明可以用各种操作系统或其组合来实现。
用户通过一个或多个输入设备936输入命令或信息到计算机912中。输入设备936包括,但不限于,诸如鼠标、轨迹球、触针、触控板等定位设备、键盘、话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、电视调谐卡、数码照相机、数码摄像机、网络摄像头等等。这些及其它输入设备经由接口端口938,通过系统总线918连接到处理单元914。接口端口938包括例如串行端口、并行端口、游戏端口及通用串行总线(USB)。输出设备940使用一些和输入设备936相同类型的端口。因而,例如USB端口可用于向计算机912提供输入,及将信息从计算机912输出到输出设备940。提供输出适配器942以示有一些需要专用适配器的输出设备940,如监视器、扬声器及打印机等等。作为示例而非局限,输出适配器942包括,提供输出设备940与系统总线918之间的连接手段的显卡与声卡。应当注意,诸如远程计算机944等其它设备和/或设备系统同时提供输入与输出能力。
计算机912可使用到诸如远程计算机944等一台或多台远程计算机的逻辑连接在联网环境中操作。远程计算机944可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的装置、对等设备或其它普通网络节点等等,且通常包括对于计算机912所描述的许多或全部元件。为简单起见,仅随远程计算机944示出记忆存储设备946。远程计算机944通过网络接口948逻辑地连接到计算机912,然后经由通信连接950物理地连接。网络接口948包含诸如局域网(LAN)和广域网(WAN)等通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网/IEEE 802.3、令牌环/IEEE 802.5等等。WAN技术包括,但不限于,点对点链路,如综合业务数字网(ISDN)及其变体等电路交换网络、分组交换网络、以及数字用户线(DSL)。
通信连接950是指用于将网络接口948连接到总线918的硬件/软件。尽管为说明清楚,将通信连接950示于计算机912内部,然而它也可在计算机912外部。仅为示例性目的,连接到网络接口948所需的硬件/软件包括内部和外部技术,诸如包括常规电话级调制解调器、电缆调制解调器及DSL调制解调器在内的调制解调器、ISDN适配器及以太网卡。
图10是本发明可与之交互的示例计算环境1000的示意性框图。系统1000包括一个或多个客户机1010。客户机1010可以是硬件和/或软件(例如,线程、进程、计算设备)。系统1000还包括一个或多个服务器1030。服务器1030可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,服务器1030可容纳线程以通过使用本发明来执行变换。客户机1010和服务器1030之间一种可能的通信可以是适应于在两个或多个计算机进程之间发送的数据分组的形式。系统1000包括通信框架1050,可用它来便于客户机1010和服务器1030之间的通信。客户机1010操作上可被连接到一个或多个客户机数据存储1060,它们可被用来将信息本地存储到客户机1010。类似地,服务器1030操作上可被连接到一个或多个服务器数据存储1040,它们可被用来将信息本地存储到服务器1030。
以上所描述的包括本发明的若干示例。当然,为描述本发明的目的而描述组件或方法每一种可设想的组合是不可能的,但本领域普通技术人员可认识到,本发明的许多其它组合和变换是可能的。由此,旨在使本发明包括落入所附权利要求书的精神和范围之内的所有这些改变、修改、以及变体。此外,在此详细描述或所附权利要求书中使用术语“包括”的意义上,该术语旨在如术语“包含”那样成为包含性的,正如“包含”在所附权利要求书中被用作过渡词时所解释的。

Claims (20)

1.一种自动化信息检索系统,包括:
学习组件,它分析所存储的信息检索数据以从以往的信息搜索活动中确定相关性模式,所述学习组件使用至少一种用于生成要在所述搜索组件内使用的运行时分类器的学习技术,其中所述相关性模式至少基于一个链接,该链接将至少一个失败查询与至少一个之后用户对所述失败查询的修改链接起来,所述之后用户对所述失败查询的修改产生了使用户满意的查询结果,而其中所述至少一个失败查询则产生了没能使用户满意的查询结果;以及
搜索组件,它使用所述学习组件,以至少部分地基于所述相关性模式来确定当前搜索结果的子集。
2.如权利要求1所述的系统,其特征在于,所述学习技术与单纯贝叶斯学习相关联。
3.如权利要求1所述的系统,其特征在于,所述搜索组件是与至少一个本地或远程数据源相关联的搜索引擎。
4.如权利要求1所述的系统,其特征在于,所存储的信息检索数据与显式的反馈相关联。
5.如权利要求1所述的系统,其特征在于,所存储的信息检索数据与隐式的反馈相关联。
6.如权利要求5所述的系统,其特征在于,所述隐式的反馈与用户选择、用户逗留时间、文件操纵操作、计算机系统信息或上下文数据相关联。
7.如权利要求6所述的系统,其特征在于,所述系统信息包括系统版本信息、应用程序信息、硬件设置信息、或系统外围设备信息。
8.如权利要求6所述的系统,其特征在于,所述上下文数据包括时间、日历或季节信息。
9.如权利要求1所述的系统,其特征在于,所述学习组件还使用用于生成相关性分类器的学习技术,其中所述相关性分类器用于标识用来创建合适的运行时分类器的质量数据。
10.如权利要求9所述的系统,其特征在于,所述用于生成相关性分类器的学习技术与决策树学习相关联。
11.如权利要求1所述的系统,其特征在于,所述学习组件使用顺序分析技术,其中所述顺序分析技术用于将先前失败的查询映射到被用来创建合适的运行时分类器的期望结果。
12.如权利要求1所述的系统,其特征在于,还包括被用来构造所述学习组件的模式。
13.如权利要求11所述的系统,其特征在于,所述模式包括分类器ID、全局唯一标识符(GUID)、分类器名称、描述、状态、范围、版本、训练集大小或分类器串。
14.如权利要求1所述的系统,其特征在于,还包括用于为分类器分析来自至少两个源的数据的混合组件。
15.如权利要求14所述的系统,其特征在于,所述混合组件处理用户评注的数据和创作者评注的数据。
16.如权利要求1所述的系统,其特征在于,还包括用户界面和应用程序编程接口中的至少一个,用于与所述学习组件或所述搜索组件交互。
17.一种自动化的信息检索方法,包括:
自动分析以往的查询数据日志,其中所述数据日志包括隐式和显式的用户反馈;
从所述数据日志构造至少第一分类器,用于推断用户对搜索结果的满意程度;
自动将至少一个失败查询与用户对所述至少一个失败查询的修改的结果链接起来,所述用户对所述至少一个失败查询的修改的结果被认为使用户满意,而其中所述至少一个失败查询则产生了没能使用户满意的搜索结果;
基于所述链接构造至少第二分类器,以确定搜索结果的相关性;以及
使用所述第二分类器以从根据一个新的用户查询返回的一组搜索结果中确定所述搜索结果的相关子集。
18.如权利要求17所述的方法,其特征在于,还包括自动使用系统或上下文数据来提炼自动化的信息搜索。
19.如权利要求17所述的方法,其特征在于,还包括从由所述第一分类器生成的数据自动训练所述第二分类器。
20.一种便于计算机检索操作的系统,包括:
用于自动分析以往的查询数据日志的装置,其中所述数据日志包括隐式和显式的用户反馈;
用于从所述数据日志构造至少第一分类器的装置,用于推断用户对搜索结果的满意程度;
用于自动将至少一个失败查询与用户对所述至少一个失败查询的修改的结果链接起来,所述用户对所述至少一个失败查询的修改的结果被认为使用户满意,而其中所述至少一个失败查询则产生了没能使用户满意的搜索结果的装置;
用于基于所述链接构造至少第二分类器的装置,以确定搜索结果的相关性;以及
用于使用所述第二分类器以从根据一个新的用户查询返回的一组搜索结果中确定所述搜索结果的相关子集的装置。
CN2006100515696A 2005-03-31 2006-02-28 用于改进搜索引擎相关性的数据挖掘技术 Expired - Fee Related CN1841380B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/096,153 2005-03-31
US11/096,153 US20060224579A1 (en) 2005-03-31 2005-03-31 Data mining techniques for improving search engine relevance

Publications (2)

Publication Number Publication Date
CN1841380A CN1841380A (zh) 2006-10-04
CN1841380B true CN1841380B (zh) 2010-11-03

Family

ID=36683730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100515696A Expired - Fee Related CN1841380B (zh) 2005-03-31 2006-02-28 用于改进搜索引擎相关性的数据挖掘技术

Country Status (5)

Country Link
US (1) US20060224579A1 (zh)
EP (1) EP1708105A1 (zh)
JP (1) JP2006285982A (zh)
KR (1) KR20060106642A (zh)
CN (1) CN1841380B (zh)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146409B1 (en) 2001-07-24 2006-12-05 Brightplanet Corporation System and method for efficient control and capture of dynamic database content
US7571161B2 (en) * 2005-05-13 2009-08-04 Microsoft Corporation System and method for auto-sensed search help
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
US7627564B2 (en) * 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7577665B2 (en) * 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US20070255755A1 (en) * 2006-05-01 2007-11-01 Yahoo! Inc. Video search engine using joint categorization of video clips and queries based on multiple modalities
WO2008014182A2 (en) * 2006-07-24 2008-01-31 Chacha Search, Inc. Method, system, and computer readable storage for podcasting and video training in an information search system
US20080033918A1 (en) * 2006-08-02 2008-02-07 Wilson Jeffrey L Systems, methods and computer program products for supplemental data communication and utilization
US8024308B2 (en) * 2006-08-07 2011-09-20 Chacha Search, Inc Electronic previous search results log
US8688749B1 (en) 2011-03-31 2014-04-01 Palantir Technologies, Inc. Cross-ontology multi-master replication
US8515912B2 (en) 2010-07-15 2013-08-20 Palantir Technologies, Inc. Sharing and deconflicting data changes in a multimaster database system
CA2571172C (en) 2006-12-14 2012-02-14 University Of Regina Interactive web information retrieval using graphical word indicators
US7908260B1 (en) * 2006-12-29 2011-03-15 BrightPlanet Corporation II, Inc. Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems
US7693833B2 (en) 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US8037042B2 (en) 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
US20080319975A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Exploratory Search Technique
US20090006324A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Multiple monitor/multiple party searches
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
US20090100015A1 (en) * 2007-10-11 2009-04-16 Alon Golan Web-based workspace for enhancing internet search experience
US7984000B2 (en) 2007-10-31 2011-07-19 Microsoft Corporation Predicting and using search engine switching behavior
US8073861B2 (en) * 2007-11-15 2011-12-06 Target Brands, Inc. Identifying opportunities for effective expansion of the content of a collaboration application
US8281166B2 (en) * 2008-03-10 2012-10-02 Virdiem Corporation System and method for computer power control
US8126908B2 (en) * 2008-05-07 2012-02-28 Yahoo! Inc. Creation and enrichment of search based taxonomy for finding information from semistructured data
US7890516B2 (en) * 2008-05-30 2011-02-15 Microsoft Corporation Recommending queries when searching against keywords
US8832098B2 (en) 2008-07-29 2014-09-09 Yahoo! Inc. Research tool access based on research session detection
US8126891B2 (en) * 2008-10-21 2012-02-28 Microsoft Corporation Future data event prediction using a generative model
CN101727454A (zh) * 2008-10-30 2010-06-09 日电(中国)有限公司 用于对象自动分类的方法和系统
US8041710B2 (en) * 2008-11-13 2011-10-18 Microsoft Corporation Automatic diagnosis of search relevance failures
GB2465773A (en) 2008-11-27 2010-06-02 Symbian Software Ltd Data Storage and Access
US8849790B2 (en) * 2008-12-24 2014-09-30 Yahoo! Inc. Rapid iterative development of classifiers
US8799279B2 (en) 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US9639609B2 (en) * 2009-02-24 2017-05-02 Microsoft Technology Licensing, Llc Enterprise search method and system
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US8190647B1 (en) * 2009-09-15 2012-05-29 Symantec Corporation Decision tree induction that is sensitive to attribute computational complexity
CN102081625B (zh) * 2009-11-30 2012-12-26 中国移动通信集团北京有限公司 一种数据查询的方法及查询服务器
JP5450017B2 (ja) * 2009-12-08 2014-03-26 株式会社Nttドコモ 情報処理装置、情報処理システムおよび情報処理方法
US9785987B2 (en) 2010-04-22 2017-10-10 Microsoft Technology Licensing, Llc User interface for information presentation system
US20110282861A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Extracting higher-order knowledge from structured data
US8631030B1 (en) 2010-06-23 2014-01-14 Google Inc. Query suggestions with high diversity
JP5451545B2 (ja) * 2010-07-05 2014-03-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 ノイズ除去条件決定装置、ノイズ除去条件決定方法、及びプログラム
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US9069843B2 (en) 2010-09-30 2015-06-30 International Business Machines Corporation Iterative refinement of search results based on user feedback
CN102456019A (zh) * 2010-10-18 2012-05-16 腾讯科技(深圳)有限公司 检索方法及装置
US20120233140A1 (en) * 2011-03-09 2012-09-13 Microsoft Corporation Context-aware query alteration
US8918389B2 (en) * 2011-07-13 2014-12-23 Yahoo! Inc. Dynamically altered search assistance
WO2013096887A1 (en) * 2011-12-23 2013-06-27 Amiato, Inc. Scalable analysis platform for semi-structured data
US8782004B2 (en) 2012-01-23 2014-07-15 Palantir Technologies, Inc. Cross-ACL multi-master replication
CN102622296B (zh) * 2012-02-21 2015-11-25 百度在线网络技术(北京)有限公司 搜索引擎模块的测试方法、系统及其装置
US9043248B2 (en) 2012-03-29 2015-05-26 International Business Machines Corporation Learning rewrite rules for search database systems using query logs
US10108704B2 (en) * 2012-09-06 2018-10-23 Microsoft Technology Licensing, Llc Identifying dissatisfaction segments in connection with improving search engine performance
US9081975B2 (en) * 2012-10-22 2015-07-14 Palantir Technologies, Inc. Sharing information between nexuses that use different classification schemes for information access control
US9501761B2 (en) 2012-11-05 2016-11-22 Palantir Technologies, Inc. System and method for sharing investigation results
US20140250116A1 (en) * 2013-03-01 2014-09-04 Yahoo! Inc. Identifying time sensitive ambiguous queries
US9715576B2 (en) * 2013-03-15 2017-07-25 II Robert G. Hayter Method for searching a text (or alphanumeric string) database, restructuring and parsing text data (or alphanumeric string), creation/application of a natural language processing engine, and the creation/application of an automated analyzer for the creation of medical reports
CN103294800B (zh) 2013-05-27 2016-12-28 华为技术有限公司 一种信息推送方法及装置
US8886601B1 (en) 2013-06-20 2014-11-11 Palantir Technologies, Inc. System and method for incrementally replicating investigative analysis data
US9524510B2 (en) * 2013-10-02 2016-12-20 Turn Inc. Adaptive fuzzy fallback stratified sampling for fast reporting and forecasting
US9569070B1 (en) 2013-11-11 2017-02-14 Palantir Technologies, Inc. Assisting in deconflicting concurrency conflicts
US9009827B1 (en) 2014-02-20 2015-04-14 Palantir Technologies Inc. Security sharing system
US10642845B2 (en) * 2014-05-30 2020-05-05 Apple Inc. Multi-domain search on a computing device
US9703862B2 (en) 2014-06-12 2017-07-11 International Business Machines Corporation Engagement summary generation
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US10572496B1 (en) 2014-07-03 2020-02-25 Palantir Technologies Inc. Distributed workflow system and database with access controls for city resiliency
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
US10977571B2 (en) 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
US9658938B2 (en) * 2015-03-30 2017-05-23 Fujtsu Limited Iterative test generation based on data source analysis
US10402469B2 (en) 2015-10-16 2019-09-03 Google Llc Systems and methods of distributed optimization
US10621198B1 (en) 2015-12-30 2020-04-14 Palantir Technologies Inc. System and method for secure database replication
CN105939323A (zh) * 2015-12-31 2016-09-14 杭州迪普科技有限公司 数据包过滤方法及装置
CN107103003B (zh) * 2016-02-23 2021-03-26 创新先进技术有限公司 获取链路中数据的方法、获取设备、处理设备和系统
US11196800B2 (en) 2016-09-26 2021-12-07 Google Llc Systems and methods for communication efficient distributed mean estimation
US20180089587A1 (en) 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US10262053B2 (en) 2016-12-22 2019-04-16 Palantir Technologies Inc. Systems and methods for data replication synchronization
US10691751B2 (en) * 2017-01-23 2020-06-23 The Trade Desk, Inc. Data processing system and method of associating internet devices based upon device usage
WO2018142694A1 (ja) * 2017-02-02 2018-08-09 日本電信電話株式会社 特徴量生成装置、特徴量生成方法及びプログラム
CN117474104A (zh) * 2017-03-28 2024-01-30 甲骨文国际公司 使用机器学习智能地提供支持信息的系统和方法
US10540683B2 (en) * 2017-04-24 2020-01-21 Microsoft Technology Licensing, Llc Machine-learned recommender system for performance optimization of network-transferred electronic content items
US10068002B1 (en) 2017-04-25 2018-09-04 Palantir Technologies Inc. Systems and methods for adaptive data replication
US10430062B2 (en) 2017-05-30 2019-10-01 Palantir Technologies Inc. Systems and methods for geo-fenced dynamic dissemination
US11030494B1 (en) 2017-06-15 2021-06-08 Palantir Technologies Inc. Systems and methods for managing data spills
CN107633051A (zh) * 2017-09-15 2018-01-26 努比亚技术有限公司 桌面搜索方法、移动终端及计算机可读存储介质
CN107808004B (zh) * 2017-11-15 2021-02-26 北京百度网讯科技有限公司 模型训练方法和系统、服务器、存储介质
US10380196B2 (en) 2017-12-08 2019-08-13 Palantir Technologies Inc. Systems and methods for using linked documents
US10915542B1 (en) 2017-12-19 2021-02-09 Palantir Technologies Inc. Contextual modification of data sharing constraints in a distributed database system that uses a multi-master replication scheme
US11042505B2 (en) 2018-04-16 2021-06-22 Microsoft Technology Licensing, Llc Identification, extraction and transformation of contextually relevant content
US11853713B2 (en) * 2018-04-17 2023-12-26 International Business Machines Corporation Graph similarity analytics
US10839164B1 (en) 2018-10-01 2020-11-17 Iqvia Inc. Automated translation of clinical trial documents
US11253060B2 (en) 2018-10-31 2022-02-22 American Woodmark Corporation Modular enclosure system
US10579372B1 (en) * 2018-12-08 2020-03-03 Fujitsu Limited Metadata-based API attribute extraction
US11126666B2 (en) * 2019-03-20 2021-09-21 Verizon Media Inc. Temporal clustering of non-stationary data
US11170007B2 (en) 2019-04-11 2021-11-09 International Business Machines Corporation Headstart for data scientists
US20210334709A1 (en) * 2020-04-27 2021-10-28 International Business Machines Corporation Breadth-first, depth-next training of cognitive models based on decision trees
US11853381B2 (en) * 2020-11-13 2023-12-26 Google Llc Hybrid fetching using a on-device cache
RU2760108C1 (ru) * 2021-03-22 2021-11-22 Роман Владимирович Постников Способ поиска данных для задач машинного обучения

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US7318051B2 (en) * 2001-05-18 2008-01-08 Health Discovery Corporation Methods for feature selection in a learning machine
CA2281287C (en) * 1999-09-01 2003-03-11 Ibm Canada Limited-Ibm Canada Limitee Method and system for efficiently searching for free space in a table of a relational database having a clustering index
US6611881B1 (en) * 2000-03-15 2003-08-26 Personal Data Network Corporation Method and system of providing credit card user with barcode purchase data and recommendation automatically on their personal computer
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US7062488B1 (en) * 2000-08-30 2006-06-13 Richard Reisman Task/domain segmentation in applying feedback to command control
US7089237B2 (en) * 2001-01-26 2006-08-08 Google, Inc. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
US6584470B2 (en) * 2001-03-01 2003-06-24 Intelliseek, Inc. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7233931B2 (en) * 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US7277884B2 (en) * 2004-02-17 2007-10-02 Microsoft Corporation Method and system for generating help files based on user queries
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier

Also Published As

Publication number Publication date
US20060224579A1 (en) 2006-10-05
CN1841380A (zh) 2006-10-04
KR20060106642A (ko) 2006-10-12
EP1708105A1 (en) 2006-10-04
JP2006285982A (ja) 2006-10-19

Similar Documents

Publication Publication Date Title
CN1841380B (zh) 用于改进搜索引擎相关性的数据挖掘技术
Chen et al. A survey on the use of topic models when mining software repositories
JP5247475B2 (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
Mallick et al. Digital media news categorization using Bernoulli document model for web content convergence
CN1758248B (zh) 用于提供个性化搜索和信息访问的系统、方法和接口
US8103682B2 (en) Method and system for fast, generic, online and offline, multi-source text analysis and visualization
Popescul et al. Statistical relational learning for link prediction
RU2412476C2 (ru) Прикладной программный интерфейс для извлечения и поиска текста
US7672909B2 (en) Machine learning system and method comprising segregator convergence and recognition components to determine the existence of possible tagging data trends and identify that predetermined convergence criteria have been met or establish criteria for taxonomy purpose then recognize items based on an aggregate of user tagging behavior
US7668813B2 (en) Techniques for searching future events
US20050234880A1 (en) Enhanced document retrieval
US20080082463A1 (en) Employing tags for machine learning
EP1596327A2 (en) Mining service requests for product support
KR20080107383A (ko) 사람과 기계 간의 직관적인 상호작용을 용이하게 해주는 시스템, 통계-기반 상호작용을 용이하게 해주는 컴퓨터 실행가능 시스템 및 사용자 입력에 반응하는 컴퓨터 구현 방법
CN1637744A (zh) 为在大量电子文档中搜索而确定文档相关性的机器学习方法
WO2011022867A1 (en) Method and apparatus for searching electronic documents
Tallapragada et al. Improved Resume Parsing based on Contextual Meaning Extraction using BERT
Arbaaeen et al. Natural language processing based question answering techniques: A survey
Segev et al. Context recognition using internet as a knowledge base
Tostrup et al. Massive patent data mining
Cline et al. Stack Overflow Question Retrieval System
Dou et al. Exploring Uncertain Samples through Active Learning To Enhance Text Emotion Classification
Geethanjali et al. Web Based Information Retrieval Using Dynamic Classified Average Precision Crawling Approach
Soonthornphisaj et al. Iterative cross-training: An algorithm for web page categorization
Chalageri et al. KEYWORD BASED TEXTBOOK RECOMMENDATION SYSTEM USING KNN ALGORITHM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101103

Termination date: 20180228

CF01 Termination of patent right due to non-payment of annual fee