CN102521341B - 基于网络相关度的查询分类 - Google Patents
基于网络相关度的查询分类 Download PDFInfo
- Publication number
- CN102521341B CN102521341B CN201110408165.9A CN201110408165A CN102521341B CN 102521341 B CN102521341 B CN 102521341B CN 201110408165 A CN201110408165 A CN 201110408165A CN 102521341 B CN102521341 B CN 102521341B
- Authority
- CN
- China
- Prior art keywords
- territory
- subnet
- knowledge domain
- inquiry
- subnet territory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 230000001427 coherent effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 244000078534 Vaccinium myrtillus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 1
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 1
- 235000021014 blueberries Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Abstract
提供了基于网络相关度的查询分类的方法、系统、算法和介质。在实施方式中,选择知识域。知识域包括被分类成属于该知识域的一组种子网域。对于各个种子网域,利用与特定种子网域相关联的过滤器,执行给定查询的过滤网络搜索,以获得针对该种子网域的过滤结果的总数。对于各个种子网域,引用未过滤结果的总数。使用种子网域对应的过滤结果的总数和种子网域对应的未过滤结果的总数,为各个种子网域计算覆盖百分比。使用各个种子网域的覆盖百分比,计算知识域的平均覆盖百分比。
Description
背景技术
为了向用户提供更加相关的搜索结果,将查询和随后要对其进行点击的统一资源定位符(URL)分类到分类索引中。查询和URL被分配到特定的类别中,这一类别也称为知识域(knowledge
domain)。知识域一般来说定义了当查询被送到搜索引擎时用户正在寻找的主题。
大多数通用随机馈入(CRF)分类器使用基于机器的学习,利用否定和肯定查询来训练分类器。这一过程使用反复循环来填充缺少的空隙,并且可能还会花费数个月来进行发展。此外,分类器需要频繁改变或更新,这使得总体处理资源非常昂贵。
发明内容
下面,本发明的实施方式由权利要求限定。提供了各种实施方式的高级概述,以介绍将会在下面的具体实施方式部分中进一步详细介绍的系统、方法、算法和介质的概要。本发明内容部分并既不打算用来认定所要求保护的主题的关键特征或者基本特征,也不打算用来在确定所要求保护的主题的范围的时候用作孤立的辅助。
介绍了基于网络相关度的查询分类的系统、方法、算法和计算机可读存储介质。可以是使用现有的网络结果来对搜索查询进行分类。搜索应用程序拥有者可以将他们的应用程序预订到一个或多个可用的具体知识域。知识域的例子包括,但不局限于,电影、音乐、旅行、新闻、食品和健康。可以将给定的用户查询分类到具体的知识域中,例如,基于这个知识域,搜索应用可以最好地完成搜索。
网络索引相关度受到一组基准点网域的影响,以针对搜索应用触发对查询进行分类。可以针对给定的查询,对强烈映射到知识域的现有网域进行分析。基于相关结果的数量,确定查询是否很好的映射到网域,并且因此对应于知识域。
针对各个知识域,选择反映该知识域的至少两个网站(也称为种子网域)。针对这些种子网域运行查询。为每次运行返回页面计数。在知识域之间比较这些页面计数,以确定相对于所有的域,该查询最有可能与哪个知识域相关。基于这一比较,与知识域相关联地对查询进行分类。每个域的各组分类之后的查询可以用作输入到分类器的训练数据。
附图说明
下面将参照附图详细介绍本发明的说明性实施方式,这些附图整体地以引用方式并入本文,并且其中:
图1是图解说明按照本发明的实施方式使用的示范性计算机操作系统的框图;
图2是图解说明按照本发明的实施方式使用的查询分类系统的框图;
图3是按照本发明的实施方式使用的文档计数的矩阵;
图4是按照本发明的实施方式使用的应用了文档缩放系数(scalar)的矩阵;
图5是按照本发明的实施方式使用的对查询进行分类的方法的流程图;
图6是按照本发明的实施方式使用的过滤搜索结果的示意图;
图7是按照本发明的实施方式使用的确定查询分类的方法的流程图;
图8是按照本发明的实施方式使用的覆盖率(coverage)计算的示意图;
图9是按照本发明的实施方式使用的确定查询分类的方法的流程图;和
图10是按照本发明的实施方式使用的对查询进行分类的方法的流程图。
具体实施方式
本发明的实施方式提供基于网络相关度的查询分类的系统、方法、算法和计算机可读存储介质。这一具体实施方式部分以及后附的权利要求满足适当的法律要求。
术语"步骤"、"块"等可能在本文中用于暗示所采用方法的不同动作,但是这些术语不应被理解为表达任何特定的顺序,除非明确说明了各个步骤、块的顺序。类似地,术语"模块"等可能在本文中用于暗示所采用系统的不同部件,但是这些术语不应被理解为表达任何特定的顺序,除非明确说明了各个模块等的顺序。
本发明的实施方式包括,但不局限于,方法、系统和收录在一个或多个计算机可读介质上的计算机可执行指令的指令集。计算机可读介质包括易失性和非易失性介质、可移除和不可移除的介质以及可由数据库和各种不同的其他网络装置读取的介质。作为举例而非限定,计算机可读存储介质包括以任何存储信息的方法或技术实现的介质。所存储信息的例子包括计算机可用的指令、数据结构、程序模块和其他数据表达。介质的例子包括,但不局限于,信息传递介质、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器或其他存储技术、小型盘只读存储器(CD-ROM)、数字通用盘(DVD)、蓝光盘、全息介质或其他光盘存储、盒式磁带、磁带、磁盘存储器和其他磁性存储装置。这些介质的例子可以构成为用来即时地、临时地或永久地储存数据。计算机可读介质包括协作或互连计算机可读介质,这种介质单独存在于一个处理系统上或分布在与该处理系统处于同一地或者远离该处理系统的多个互连的处理系统之间。
本发明的实施方式可以在由计算系统或其它机器或多个机器执行的计算机代码或机器可用指令(包括计算机可执行指令,比如程序模块)的一般情形下加以介绍。一般来说,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或实现特定数据类型的代码。本文介绍的实施方式可以使用各种各样的系统配置来实现,包括手持装置、消费电子产品、通用计算机、更多专业计算装置等。本文介绍的实施方式还可以使用通过诸如因特网这样的通信网络连接起来的远程处理装置在分布式计算环境中实现。
在某些实施方式中,给出了确定查询分类的计算机实现的方法。选择知识域。知识域包括被分类成属于该知识域的一组种子网域(web
domain)。对于各个种子网域,利用与特定种子网域相关联的过滤器,对给定查询进行过滤网络搜索,以获得针对该种子网域的过滤结果的总数。对于各个种子网域,引用未过滤结果的总数。使用种子网域对应的过滤结果的总数和种子网域对应的未过滤结果的总数,为各个种子网域计算覆盖百分比。使用各个种子网域的覆盖百分比,计算知识域的平均覆盖百分比。还给出了包含收录于其上的指令的一个或多个计算机可读存储介质,在由计算装置运行时所述指令执行上述确定查询分类的方法。
在其它一些实施方式中,介绍了包含收录于其上的在由计算装置运行时执行确定查询分类的步骤的用于算法的计算机可读指令的一个或多个计算机可读存储介质。选择一组与感兴趣的知识域紧密相关的参考网站。对该组参考网站运行与感兴趣的知识域相关的多个参考查询。为多个相关参考查询计算各个参考网站的平均覆盖百分比。对该组参考网站运行一组随机查询。为该组随机查询计算各个参考网站的平均覆盖百分比。确定多个相关参考查询是否与感兴趣的知识域充分相关。
在再其它一些实施方式中,介绍了查询分类的计算机实现的系统。该系统包含知识域选择部件,该部件选择一个或多个知识域。该系统还包含网域引用部件,用于引用各个对应知识域中的一个或多个网域。查询引用部件引用一组参考查询,和查询分类部件将各个查询分类到相关知识域中。应用部件提供分类器,该分类器是从查询分类部件得到的。
这里在简要介绍了实施方式的总体概述之后,下面将会介绍示范性计算系统。最初参照图1,示出了实现本发明实施方式的示范性操作环境,并且将该操作环境总体上命名为计算装置100。计算装置100不过是适当计算系统的一个例子,并且并非用来暗示针对本发明实施方式的使用范围或功能的任何限制。也不应将计算装置100理解为具有与图中所示部件之一或组合有关的任何依赖关系或要求。在一种实施方式中,计算装置100是传统的计算机(例如,个人计算机、膝上型计算机或者服务器)。本发明的实施方式还适用于多个互连的计算装置,比如多个计算装置100(例如,无线电话、个人数字助手或其它手持装置)。
计算装置100包括直接或间接耦合下列装置的总线110:存储器112、一个或多个处理器114、一个或多个呈现部件116、输入/输出(I/O)端口118、输入/输出部件120和示例电源122。总线110代表的可能是一个或多个总线(比如地址总线、数据总线或者它们的组合)。虽然为了清楚起见,用实线来表示图1的各个块,但是实际上各个不同部件之间的界定并不是如此清楚,而是比喻地讲,这些实线更加精确地应该是灰线并且是模糊的。例如,可以将诸如显示装置之类的呈现部件116看作是I/O部件120。而且,处理器114具有存储器112。本领域的技术人员将会理解,这就是本领域技术的本质,并且正如前面提到的那样,图1的示意图仅仅是可以与本发明的一个或多个实施方式结合使用的示范性计算装置的说明性示例而已。不在诸如"工作站"、"服务器"、"膝上型计算机"、"手持装置"之类的类别之间进行区分,因为所有这些类别全部都考虑在图1的范围之内,并且全部称为"计算装置"或"计算系统"。
计算装置100可以包括各种各样的计算机可读介质。举例来说,并非限定,计算机可读介质可以包括,RAM、ROM、EEPROM、闪存存储器或其他存储技术、CDROM、DVD或其它光学或全息介质、盒式磁带、磁带、磁盘存储器和其他磁性存储装置,或者可构造成存储与本文介绍的实施方式有关的数据和/或指令的类似有形介质。
存储器112包括具有易失性和/或非易失存储器形式的计算机存储介质。存储器112可以是可移除的、不可移除的或者它们的组合。示范性的硬件装置包括固态存储器、硬盘驱动器、高速缓存、光盘驱动器等等。计算装置100包括一个或多个处理器114,处理器从各个实体中读取数据,比如从存储器112或I/O部件120中读取。呈现部件116把数据指示呈现给用户或其它装置。示范性的呈现部件116包括显示装置、扬声器装置、打印装置、震动装置等等。
I/O端口118将计算装置100逻辑耦合到其它装置,包括I/O部件120,其中一些可以是内置的。说明性的I/O部件120包括麦克风、操纵杆、游戏板、卫星碟、扫描仪、打印机、无线装置等等。
前面针对计算装置100介绍的部件也可以被包含在无线装置中。无线装置,如本文所介绍的,指的是任何类型的无线电话、手持装置、个人数字助手(PDA)、黑莓®、智能电话、数码相机或其它移动装置(除了膝上型计算机以外),这些无线装置进行无线通信。本领域技术人员将会意识到,无线装置还将包括处理器和计算机存储介质,它们执行各种不同的功能。本文介绍的实施方式适合于计算装置和无线装置二者。前面介绍的计算系统被构成为用来与前面一般性介绍过并且后面将会更加详细介绍的基于网络相关性的查询分类的数种计算机实现的方法、系统、算法和介质一起使用。
一个或者多个用户可以通过他们各自的用户装置和中间连接的计算网络向搜索引擎服务器发送或输入查询。然后搜索引擎服务器通过中间连接的计算网络到各个用户装置向这一个或多个用户返回搜索结果。图1的计算系统可以被用作执行搜索查询和接收结果的示范性系统。搜索引擎服务器可以存储由一个或多个用户发出的查询并且还可以存储用户从搜索结果中点击的结果文档。这一信息可以以查询点击日志的形式来保存。查询点击日志中的条目可以按照由一个或多个用户输入的具体查询来组织。此外,用户响应于查询而点击文档的频率也可以记录在查询点击日志中。
图2是图解说明实现本发明的实施方式时使用的计算机实现的查询分类系统200的框图。查询分类系统200总地来说被构成为用来将查询分类到知识域中。在实施方式中,查询分类系统包括知识域选择部件205、网域引用部件210、查询引用部件215、查询分类部件220和应用部件225。这一查询分类系统200可以,例如,与搜索引擎服务器结合在一起或者与搜索引擎服务器进行通信,如前所述。
图2所示的分类系统200是一种适当计算系统的例子,并且并非用来暗示针对本文通篇介绍的本发明实施方式的使用范围或功能的任何限制。也不应将示范性分类系统200解释为具有与这里图示的任何单独一个部件或部件的组合有关的任何依赖关系或要求。例如,任何数量的部件可以存在于或驻留在单独一个计算装置中、一组相互连接或联网计算装置中等。
知识域选择部件205构成为用来选择一个或多个知识域和/或种子网域来用于对查询分类。知识域指的是相关网域(例如,种子网域)的主题或类别。例如,知识域可以与电影、食品、旅行、阅读或运动有关,仅举数例。在本发明的实施方式中,知识域部件205包括全面的知识域列表。对于各个知识域,选择反映、表征、描述或属于特定知识域的一个或多个种子网域。正如可以预见到的,可以为各个知识域选择任何数量的种子网域。
网域指的是网站或网页的标识,比如统一资源定位符(URL)、统一资源标识符(URI)等。种子网域指的是被称为或被认为代表特定知识域的网域。仅仅举例来说,对于"电影"知识域,可以选择网域imdb.com、Netflix.com和rottentomatoes.com来代表相应的网域"电影"。许多其它的知识域和它们各自的种子网域都在本发明范围内被加以考虑。在一种实施方式中,种子网域的选择是基于与特定网域的相关程度,基于种子网域具有足够或相当数量的关联网络索引中的文档,基于种子网域不与多个知识域重叠,等等。可以为每个知识域选择多个种子网域,来增加精确度(例如,一个网域可能不会包含相应知识域中的每个实体)。
网域引用部件210被配置用来引用知识域内的一个或多个网域。由此,可以选择、访问、检索、接收等等特定知识域内的网域。在某些实施方式中,会引用知识域内的各个网域。
查询引用部件215引用一个或多个查询。参考查询组可以是例如随机一组查询或者一组常用的查询。多种其它的参考查询组都被考虑在本发明范围内。可以利用来自一组参考查询的搜索结果来确定与各个参考种子网域的关联程度。
查询分类部件220用于把一个或多个查询分类到相关知识域中,比如由知识域选择部件205选择的知识域。在这点上,查询分类部件220确定各个参考查询将会被分类到其中的知识域。尽管考虑了对查询分类的各种不同实施方式,下面将详细介绍两种这样的实施方式。查询分类系统200还包含应用部件225,应用部件225提供将要由实际搜索查询使用的结果得到的分类器。
在一种实施方式中,查询分类部件220基于文档、页面或者搜索结果的数量对查询进行分类。在这样的实施方式中,对多个查询,例如,由查询引用部件215引用的查询组中的各个查询,进行网域过滤搜索。网域过滤搜索或过滤搜索是局限于特定网域的搜索。举例来说,amazon.com过滤器将会返回仅仅来自amazon.com网站的结果。为各个网域过滤搜索认定或计算文档、页面或搜索结果的总数量。
对不同数量的过滤搜索进行网络搜索。在这点上,可以使用不同的种子网域作为各个网络搜索的过滤器,进行特定次数的网络搜索。举例来说,如果网域引用部件210引用五个种子网域,那么应该会为五个网络搜索中的每一个,使用不同的网域过滤器将各个给定的查询搜索五次。以举例的方式并且参照图3,图解说明了多个查询的文档计数矩阵300。使用种子网域312、314、316、318、320和322对各个查询302、304、306、308和310进行过滤搜索。各个查询-域对的文档计数或搜索结果被呈现在矩阵300内。
来自过滤搜索的结果可以提供给定查询的可信度指示。在这点上,这些结果可以用于推断一个或多个查询与(多个)特定的种子网域最相关并且从而与这些种子网域所关联的特定知识域最相关。在实施方式中,将各个种子网域或特定知识域所对应的数量与其它种子网域或知识域进行比较,以确定(多个)查询与知识域的可信度或相关度。继续参照图3,假设种子网域312和314与"电影"知识域相关联。通过比较过滤搜索的结果,如矩阵300中所示,可以推断出这些查询与"电影"知识域最相关。
在某些实施方式中,对这些文档计数或结果数量进行归一化,因为某些种子网域与比其它种子网域相比会有更多文档被扒下来(crawled)。如此一来,可以对各个搜索的文档计数进行缩放,以便不同大小网域进行平等比较。为了对特定文档计数进行归一化,将特定种子网域的文档总数除以与任何种子网域相关的最大文档总数。举例来说,假设种子网域Imdb.com具有一千万的文档总数(这是所有可用种子网域当中的最大文档数量)并且Netflix.com具有八百万的文档数量。在这种情况下,对于种子网域Imdb.com就计算出缩放系数1,而对于种子网域Netflix.com,计算出缩放系数1.25。
为了归一化查询结果或者各个搜索的文档计数,将缩放系数应用于这些文档数量。例如,将与种子网域imdb.com相关的各个查询-域对对应的各个文档计数乘以缩放系数1。将与种子网域Netflix.com相关的各个查询-域对对应的各个文档计数乘以缩放系数1.25。图4示出图解说明应用于各个查询-域对对应的文档计数的示范性缩放系数的矩阵400。
各个单独的查询被分类到与最高文档计数(例如,最高的缩放后的文档计数)相关联的参考知识域中。在这点上,选择来自特定知识域内的种子网域的最高文档计数。由此,可以计算知识域的总文档计数,包括知识域内的各个种子网域的文档计数,并且可以使用该总文档计数来选择知识域。在其它一些实施方式中,可以计算各个知识域的平均文档计数,并且可以使用该平均文档计数来选择知识域。在这样的实施方式中,平均文档计数是与特定查询相关联的特定知识域的各个种子网域的文档的平均数量。
按照总文档排名、平均文档计数等,对各个单个的知识域进行排名。然后将各个查询分类到排名最高的知识域中。
可以意识到,某些查询具有不明确的结果。例如,假设一个知识域具有2百万个文档,而另一个知识域具有1百90万个文档。在这种情况下,可以使用百分比阈值来确定多义性(ambiguity)。例如,如果第二高的知识域具有比最高的知识域小于百分之五的差异,那么可以将查询看作是多义的,结果,可以将该查询分类到两个知识域中。按照另一种可供选择的办法,可以利用查询对应的网络索引的实际结果(例如,不用过滤搜索对其进行限制)。例如,如果结果在两个种子网域或知识域之间一样或接近,可以对网络结果(比如前20个网络结果)加以分析。例如,可以使用搜索结果中列出的第一种子网域来解决任何歧异消解。
图5是对与知识域相关联的查询进行分类的方法500的流程图。在步骤510中提供一个或多个知识域。本发明的实施方式并不局限于任何数量的知识域组,实施方式也不局限于所包含类别或多个类别的任何程度。这些知识域与多个种子网域相关联。对于各个知识域,在步骤512中引用多个种子网域。所引用种子网域的数量并不局限于特定的量。所引用种子网域可以包括与相应知识域或感兴趣的服务相关的最接近的网站。在实施方式中,与知识域相符的种子网域的数量提供了强大的统计显著性并且可以不需要来自用户的大量信息。可以增加种子网域的数量以获得更高精度。具体的利基市场(niche
market)可能需要较少的种子网域就能提供强大的统计显著性。
在步骤514中选择一组查询。如步骤516中所示,使用所引用的种子网域进行与这些查询相关的过滤搜索。图6图解说明与一组查询相关联地进行的过滤搜索的结果的例子。为了图示简便,图6图解说明了仅仅三个知识域,各个知识域具有仅仅三个种子网域。对于知识域1(KNOW DOMAIN 1),有三个种子网域,WD1、WD2和WD3。图6图示了针对各个知识域的三个网域进行搜索的四个查询,QUERYa、QUERYb、QUERYc和QUERYd。不过,可以有任何数量的查询,包括非常大量的查询,其中包括参考查询组。针对知识域1中的三个网域的每一个,显示出四个查询中的各个查询的结果。对于QUERYa,分别为知识域1的WD1、WD2和WD3获得过滤搜索结果R1a1、R1a2和R1a3。对于QUERYb,分别为知识域1的WD1、WD2和WD3获得过滤搜索结果R1b1、R1b2和R1b3。对于QUERYc,分别为知识域1的WD1、WD2和WD3获得过滤搜索结果R1c1、R1c2和R1c3。对于QUERYd,分别为知识域1的WD1、WD2和WD3获得过滤搜索结果R1d1、R1d2和R1d3。类似地为知识域2(KNOW DOMAIN2)和知识域3(KNOW DOMAIN3)获得过滤搜索结果。
回过头来参照图5,在步骤518中对之前获得的查询结果进行缩放以获得归一化结果。对于各个知识域,计算查询结果来获得与特定知识域相应的搜索结果或文档计数的总数或平均值,如步骤520中所示。在步骤522中基于针对各个对应知识域的搜索结果(例如,总数或平均值)对知识域进行排名。然后在步骤524中将查询分类到排名最高的知识域中。
回过头来参照图2,在另一种实施方式中,该查询分类部件220使用对特定查询的覆盖率来分类查询。在这样的实施方式中,对多个查询,例如,由查询引用部件215引用的查询组中的各个查询,进行网域过滤搜索。为各个网域过滤搜索认定或计算文档、页面或搜索结果的总数量。
对不同数量的过滤搜索进行网络搜索。在这点上,可以使用不同的种子网域作为各个网络搜索的过滤器,进行特定次数的网络搜索。举例来说,如果网域引用部件210引用五个种子网域,那么应该会为五个网络搜索中的每一个,使用不同的网域过滤器将各个给定的查询搜索五次。
例如,通过将来自各个过滤搜索的总文档计数除以该特定网域的文档总数,确定给定查询的覆盖率。例如,从imdb.com的过滤搜索返回的文档总数被除以imdb.com网站上存在的文档总数。这一覆盖率提供了特定查询与给定知识域或与其相关的种子网域有多相关的可信度。
对所有各个过滤搜索结果,计算各个种子网域的这些计算结果的平均值(即,百分比)。在这点上,对于各个知识域,计算平均覆盖率,该平均覆盖率是与知识域内各个种子网域相关联的覆盖百分比的平均值。在实施方式中,将这些结果归一化到零与一之间,以便比较不同大小的网域。这一归一化确保了具有较高文档计数的网站与具有较低数总文档计数的网站相比不会被过度加权。
可以通过利用未过滤搜索来进行额外的可信度检查。如果一定数量或百分比的未过滤搜索结果返回到种子网域中的一个或多个的链接,那么可以认为结果得到的分类器具有较高水平的可信度。仅以说明为目的举例来说,如果前面100-200个未过滤搜索结果包含种子网域之一或多个,那么结果得到的分类器将会具有高可信度水平。然后可以将查询分类到组合的归一化结果当中的最高排名的知识域中。
举例来说并参照图7,提供了确定查询分类的方法700的流程图。在步骤710中提供知识域。在步骤712中为各个知识域选择多个种子网域。在步骤714中对各个查询进行过滤网络搜索。为各个种子网域获得与特定查询相关联的搜索结果总数,如步骤716中所示。通过将返回的页面数量除以各个种子网域的页面总数,获得过滤搜索结果的覆盖率数值,如块718中所示。在步骤720中使用与知识域相关联的种子网域的覆盖率数值,为各个知识域计算步骤718中获得的结果的平均值。下文中将参照图8更加详细地介绍平均覆盖百分比。在步骤722中将平均覆盖率的值归一化为例如介于零与一之间的值。在步骤724中,针对各个查询,检查前面的搜索结果是否存在知识域内的任何种子网域。在步骤726中,将查询分类到之前获得的结果中最高计分的知识域中。
在实施方式中,搜索引擎服务器也可以执行对查询分类的任务。搜索引擎服务器可以将查询分配到描述它们内容的特定类别。可以从搜索引擎服务或广告服务以及任何其他的服务兴趣主体,生成感兴趣的服务。可以为感兴趣的具体服务生成基于网络相关度的查询分类器,以确定查询是否与它们的感兴趣的服务相关。还可以为具有数个感兴趣领域的实体生成查询分类器,以确定应当为特定的查询调用哪个领域或服务。
图8图解说明针对给定一组参考查询的各个参考种子网域的平均覆盖百分比的示范性计算过程。举例来说,给定一组参考查询可以是一组随机查询或一组流行查询。使用种子网站过滤器1来搜索该组参考查询中的给定查询,其中返回页面的总数仅仅是来自种子网站1的。举例来说,针对amazon.com的种子网站过滤器将会仅仅返回来自amazon.com网站的结果。使用种子网站过滤器2和种子网站过滤器n来搜索该组参考查询中的给定查询,其中返回页面的总数仅仅是分别来自种子网站2的和来自种子网站n的。还获得各个网域上存在的页面的数量。继续前面的例子,将使用amazon.com过滤器返回的页面总数除以amazon.com网站上存在的页面数。这一计算提供了参考种子网域1的覆盖百分比,将其记为%c1。将参考种子网域2和参考种子网域n的覆盖百分比分别记为%c2和%cn。
对与知识域相关的n个种子网域进行前面的计算,以获得知识域的覆盖百分比。使用各个种子网域的覆盖百分数,计算各覆盖百分比的平均值。由此,知识域的平均覆盖百分比是总覆盖百分数除以覆盖率的个数。在这点上,平均覆盖百分比由(%c1
+ %c2 +...+ %cn)/n来代表。
在图9的流程图中图解说明了确定查询分类的计算机实现的方法。在步骤910中,选择知识域,其也被称为类别或者感兴趣的服务。知识域包含被分类成属于该知识域的一组种子网域。种子网域被认为代表它们被分类到其中的知识域。没有具体数量的参考种子网域。在步骤920中,对各个种子网域,针对一组查询中的给定查询,执行网络搜索。利用种子网域过滤器来为给定查询获得各个种子网域的过滤结果。举例来说,对于一组五个种子网域,使用第一种子网域的网络过滤器进行给定查询的第一网络搜索,以获得第一种子网域的过滤结果。使用第二种子网域的网络过滤器进行给定查询的第二网络搜索,以获得第二参考种子网域的过滤结果。使用第三、第四和第五种子网域的网络过滤器进行给定查询的第三、第四和第五网络搜索,以分别获得第三、第四和第五种子网域的过滤结果。
在步骤930中计算各个过滤结果的覆盖百分比。这可以通过取得从给定查询的种子网域过滤搜索中返回的页面总数,然后除以该种子网域存在的页面总数来计算。然后在步骤940中为过滤搜索结果计算各覆盖百分比的平均值。
在实施方式中,平均覆盖率的值表示与知识域的相关度水平。平均覆盖率的值应当超过最小归一化覆盖率值,才认为是比较明显的。在这样的实施方式中,如果归一化覆盖率值没有超过最小的规定值,那么分类到该特定的知识域中就可能是不合适的或者不是良好匹配的。由此,可以通过规定最小覆盖率值来减少返回给用户的不期望结果。
除了前面参照图9讨论的步骤之外,可以进行查询分类可信度的检查。除了前面介绍的过滤搜索之外,可以对给定查询进行一般的、未过滤的网络搜索。如果来自一般网络搜索查询的前面的结果包含给定知识域的种子网域中的至少一个,那么可以为该查询分类增加一定的可信度水平。仅仅为了说明的目的举例来说,可以考虑一般的未过滤搜索的前十个结果。可以将与前十个结果中的名次成正比的可信度水平应用于查询分类。在另一个例子中,如果在最高的知识域与第二高的知识域之间有较小的差异,那么可以将查询看作是多义的,并且可以将该查询同等地分类到两个知识域中。
可以利用多个知识域来获得将一组查询中的给定查询分类到其中的最佳知识域。应当将给定查询分类到包含前面计算的最高覆盖率值(例如,归一化的平均覆盖率值)的知识域中。仅仅为了说明的目的举例来说,诸如广告服务或搜索引擎服务这样的特定服务可以具有数个感兴趣的服务。因此,有可能将给定查询分类到很多知识域或感兴趣服务之一中。
图10是将查询分类到知识域中的计算机执行的方法或计算机可读存储介质上的算法的流程图。在步骤1010中选择一组与感兴趣的知识域紧密相关的参考网站。在步骤1020中对该组参考网站运行与感兴趣的知识域相关的多个参考查询。在步骤1030中为多个相关参考查询计算各个参考网站的平均覆盖百分比。在步骤1040中还对该组参考网站运行一组随机查询。在步骤1050中为这些随机查询计算各个参考网站的平均覆盖百分比。然后在步骤1060中确定多个参考查询是否与感兴趣的知识域充分相关。本发明的实施方式在多个相关参考查询的平均覆盖百分比充分超过该组随机查询的平均覆盖百分比的时候做出这一确定。如果相关参考查询的平均覆盖百分比没有超过随机查询的平均覆盖百分比,那么该查询不会被正确地分类到给定的感兴趣知识域中。可以规定最小阈值有效值来进行这一确定。本发明的实施方式还提供包含一个或多个网站链接和该组网站的多个相关链接的返回结果。
在一种可供选用的实施方式中,可以检查来自查询的网络索引的实际未过滤结果是否存在多个网域之间比较接近的结果。如果结果包含任何紧密持有的网域,那么就将查询分类到该网域的排名最靠前的知识域中。例如,查询"dark
knight(黑暗骑士)"的实际未过滤结果可以包括指向"电影"的排名第一的网域并且还包含指向"电视游戏"的排名第二的网域。应该是将该查询分类到排名最靠前的"电影"知识域中。
在另一个可供选择的实施方式中,可以提取随机组的实体来验证对各个实体给出的适当分类。可以将与各个被分类的域相关联的实体词典加载到匹配器中。在匹配器中运行分类的查询,并且返回该查询的领域的适当实体。
不超出本发明的思想和范围,所描绘的各种部件以及未示出的实施方式的很多不同的设计都是可行的。抱着说明而不是限定的目的,介绍了本发明的实施方式。
将会理解,某些特征和子组合具有实用性并且可以不结合其它特征或子组合而被采用,这些特征和子组合都考虑在权利要求的范围之内。各个附图中列出所有步骤不必以所介绍的具体顺序来执行。
Claims (7)
1.一种使用具有处理器、存储器和数据存储子系统的计算系统来确定查询分类的计算机执行的方法,该计算机执行的方法包括:
选择知识域,该知识域包括被分类成属于该知识域的一组种子网域;
对于各个种子网域,利用与特定种子网域相关联的过滤器,执行给定查询的过滤网络搜索,以识别与该种子网域相关联并且与给定查询相关的过滤文档的总数,由此使得该知识域内的每个种子网域具有相对应的过滤文档总数;
对于各个种子网域,引用与种子网域相对应的文档的总数,由此使得该知识域内的每个种子网域具有相应的文档总数;
通过处理器,使用与种子网域相关联的过滤文档总数和与种子网域相对应的文档总数,为各个种子网域计算覆盖率,由此使得该知识域内的每个种子网域具有相应的覆盖率,其中针对每个种子网域的覆盖率是通过用该对应种子网域的过滤文档总数除以该种子网域的文档总数来计算的;和
使用所计算的针对各个种子网域的覆盖率,计算知识域的覆盖率的数量。
2.按照权利要求1所述的计算机执行的方法,此外还包括:选择多个知识域。
3.按照权利要求2所述的计算机执行的方法,此外还包括:将给定查询分类到包括最高覆盖率值的知识域中。
4.按照权利要求1所述的计算机执行的方法,其中平均覆盖率的值表示与知识域的相关度水平。
5.按照权利要求4所述的计算机执行的方法,其中有效的平均覆盖率的值超出最小归一化覆盖率值。
6.按照权利要求5所述的计算机执行的方法,其中有效的平均覆盖率的值减少向用户返回不期望的结果。
7.按照权利要求1所述的计算机执行的方法,此外还包括:
对给定查询进行未过滤的网络搜索;和
确定该未过滤网络搜索的前面的结果是否包含该知识域的种子网域中的一个或多个。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/963944 | 2010-12-09 | ||
US12/963,944 US8631002B2 (en) | 2010-12-09 | 2010-12-09 | Web-relevance based query classification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102521341A CN102521341A (zh) | 2012-06-27 |
CN102521341B true CN102521341B (zh) | 2016-03-09 |
Family
ID=46200408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110408165.9A Active CN102521341B (zh) | 2010-12-09 | 2011-12-09 | 基于网络相关度的查询分类 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8631002B2 (zh) |
CN (1) | CN102521341B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152701B2 (en) * | 2012-05-02 | 2015-10-06 | Google Inc. | Query classification |
US9229974B1 (en) | 2012-06-01 | 2016-01-05 | Google Inc. | Classifying queries |
US8577671B1 (en) * | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
ES2751484T3 (es) | 2013-05-07 | 2020-03-31 | Veveo Inc | Interfaz de entrada de voz incremental con retroalimentación en tiempo real |
CN103324692B (zh) * | 2013-06-04 | 2016-05-18 | 北京大学 | 分类知识获取方法和装置 |
US9852136B2 (en) | 2014-12-23 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for determining whether a negation statement applies to a current or past query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US11900283B1 (en) | 2015-10-28 | 2024-02-13 | Reputation.Com, Inc. | Business listings |
US10762145B2 (en) | 2015-12-30 | 2020-09-01 | Target Brands, Inc. | Query classifier |
US10606899B2 (en) | 2016-05-23 | 2020-03-31 | International Business Machines Corporation | Categorically filtering search results |
US10268734B2 (en) * | 2016-09-30 | 2019-04-23 | International Business Machines Corporation | Providing search results based on natural language classification confidence information |
CN113158688B (zh) * | 2021-05-11 | 2023-12-01 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493553B1 (en) | 1998-12-29 | 2009-02-17 | Intel Corporation | Structured web advertising |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
US6636848B1 (en) * | 2000-05-31 | 2003-10-21 | International Business Machines Corporation | Information search using knowledge agents |
US8086591B2 (en) * | 2004-01-23 | 2011-12-27 | Microsoft Corporation | Combining domain-tuned search systems |
US7562069B1 (en) * | 2004-07-01 | 2009-07-14 | Aol Llc | Query disambiguation |
US20060064411A1 (en) * | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
US8335753B2 (en) * | 2004-11-03 | 2012-12-18 | Microsoft Corporation | Domain knowledge-assisted information processing |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US7272597B2 (en) * | 2004-12-29 | 2007-09-18 | Aol Llc | Domain expert search |
WO2006083684A2 (en) * | 2005-01-28 | 2006-08-10 | Aol Llc | Web query classification |
US20070022085A1 (en) * | 2005-07-22 | 2007-01-25 | Parashuram Kulkarni | Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web |
US7877404B2 (en) | 2008-03-05 | 2011-01-25 | Microsoft Corporation | Query classification based on query click logs |
US8611677B2 (en) * | 2008-11-19 | 2013-12-17 | Intellectual Ventures Fund 83 Llc | Method for event-based semantic classification |
US20100198655A1 (en) * | 2009-02-04 | 2010-08-05 | Google Inc. | Advertising triggers based on internet trends |
US20100257171A1 (en) * | 2009-04-03 | 2010-10-07 | Yahoo! Inc. | Techniques for categorizing search queries |
US8392435B1 (en) * | 2010-04-14 | 2013-03-05 | Google Inc. | Query suggestions for a document based on user history |
-
2010
- 2010-12-09 US US12/963,944 patent/US8631002B2/en active Active
-
2011
- 2011-12-09 CN CN201110408165.9A patent/CN102521341B/zh active Active
Non-Patent Citations (1)
Title |
---|
A vertical search engine-Based on Domain classifier;Rajashree et al;<International Journal of Computer Science and Security>;20081231;正文第1-5节,图3-4 * |
Also Published As
Publication number | Publication date |
---|---|
US20120150846A1 (en) | 2012-06-14 |
US8631002B2 (en) | 2014-01-14 |
CN102521341A (zh) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521341B (zh) | 基于网络相关度的查询分类 | |
CN105701216B (zh) | 一种信息推送方法及装置 | |
US10102307B2 (en) | Method and system for multi-phase ranking for content personalization | |
Tyagi et al. | Weighted page rank algorithm based on number of visits of links of web page | |
US9569499B2 (en) | Method and apparatus for recommending content on the internet by evaluating users having similar preference tendencies | |
CN102542052B (zh) | 优先散列索引 | |
CN102567408B (zh) | 推荐搜索关键词的方法和装置 | |
US20090228353A1 (en) | Query classification based on query click logs | |
KR100923505B1 (ko) | 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법 | |
CN102567461B (zh) | 用于大文档索引的匹配漏斗 | |
CN105631707A (zh) | 基于决策树的广告点击率预估方法与应用推荐方法及装置 | |
CN105320706A (zh) | 搜索结果的处理方法和装置 | |
CN102236663A (zh) | 一种基于垂直搜索的查询方法、系统和装置 | |
CN102999560A (zh) | 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性 | |
CN104778207A (zh) | 网络购物的综合搜索引擎方法及其系统 | |
CN101641697A (zh) | 对网页的相关搜索查询及其应用 | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
WO2014149840A1 (en) | Method and system for discovery of user unknown interests | |
CN103577432A (zh) | 一种商品信息搜索方法和系统 | |
CN101652773B (zh) | 前瞻文档排名系统 | |
EP2460095A1 (en) | Keyword assignment to a web page | |
CN101859424A (zh) | 一种通过互联网实现手机显示商品购物比较状态信息的方法 | |
Wu et al. | On improving aggregate recommendation diversity and novelty in folksonomy-based social systems | |
CN104731837A (zh) | 一种基于辅助关键词的广告投放方法 | |
CN106919582A (zh) | 网络项目的关联及关联信息统计方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150612 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150612 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |