CN101506767A - 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构 - Google Patents

相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构 Download PDF

Info

Publication number
CN101506767A
CN101506767A CNA2006800212259A CN200680021225A CN101506767A CN 101506767 A CN101506767 A CN 101506767A CN A2006800212259 A CNA2006800212259 A CN A2006800212259A CN 200680021225 A CN200680021225 A CN 200680021225A CN 101506767 A CN101506767 A CN 101506767A
Authority
CN
China
Prior art keywords
classification
cluster
information
classifications
find
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800212259A
Other languages
English (en)
Other versions
CN101506767B (zh
Inventor
大卫·格尔金
罗征
安德鲁·麦克斯维尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201610141087.3A priority Critical patent/CN105843844B/zh
Publication of CN101506767A publication Critical patent/CN101506767A/zh
Application granted granted Critical
Publication of CN101506767B publication Critical patent/CN101506767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

可通过以下步骤来自动分类网站:(a)接受网站信息,(b)使用该网站信息来确定该网站的评分聚类(例如语义、词语同现等)构成的集,以及(c)使用该聚类集中的至少一些来确定预定义分类体系的至少一个类别(例如垂直类别)。语义聚类(例如词语同现聚类)可以通过以下方法来与预定义分类体系的一个或多个类别(例如垂直类别)相关联:(a)接受语义聚类,(b)使用所接受的聚类来标识一个或多个评分概念构成的集,(c)使用该一个或多个评分概念中的至少一些来标识一个或多个类别构成的集,以及(d)把该一个或多个类别中的至少一些与该语义聚类相关联。资产(例如网站)可以通过以下方法来与预定义分类体系的一个或多个类别(例如垂直类别)相关联:(a)接受关于资产的信息,(b)使用所接受的资产信息来标识一个或多个评分语义聚类(例如词语同现聚类)构成的集,(c)使用该一个或多个评分语义聚类中的至少一些来标识一个或多个类别(例如垂直类别)构成的集,以及(d)把该一个或多个类别中的至少一些与该资产相关联。

Description

相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
技术领域
本发明涉及组织信息。本发明尤其涉及相对于分类体系来分类词语、短语、文档和/或词语同现聚类,以及涉及使用该分类后的文档和/或聚类。
背景技术
“分类体系(taxonomy)”是结构化的、通常是分层的类别或分类的集(或者是这种类别或分类所隐含的原理)。分类体系可以用来表达多个事件(简单地被称作“对象”)之间的关系,所以它们是有用的。例如,分类体系可以用来确定不同的对象是否共同“属于”或者用于确定不同对象的关系有多么近。
遗憾的是,把对象分配到分类体系中的一个或多个适当类别可能是困难的。如果要将不同类型的对象分配到分类体系则尤其困难。并且,如果用于分类的对象属性可能随时间改变或者如果正在向待分类的对象域中增加和/或从该对象域移除许多对象,则尤其困难。例如,万维网(World Wide Web)持续地增加和移除网站。此外,网站的内容常常改变。从而,对网站分类可能是困难的。
鉴于上述,提供用于把对象(例如网站)以及可能不同类型的对象分配到分类体系的适当类别的自动化装置应是有用的。
发明内容
根据本发明的至少一些实施例可以自动地分类网站。这种实施例可以通过以下来步骤实现:(a)接受网站信息,(b)使用所述网站信息来确定所述网站的评分聚类(例如,语义、词语同现等)构成的集,以及(c)使用聚类集的至少一些来确定预定义分类体系的至少一个类别(例如,垂直类别)。
根据本发明的至少一些实施例可以把语义聚类(例如词语同现聚类)与预定义分类体系的一个或多个类别(例如垂直类别)相关联。这些实施例可以通过以下来完成:(a)接受语义聚类,(b)使用所接受的聚类来标识一个或多个评分概念构成的集,(c)使用所述一个或多个评分概念的至少一些来标识一个或多个类别构成的集,以及(d)把一个或多个类别中的至少一些与语义聚类相关联。
根据本发明的至少一些实施例可以使资产(例如网站)与预定义分类体系的一个或多个类别(例如垂直类别)相关联。这种实施例可以通过以下来实现:(a)接受关于资产的信息,(b)使用所接受的资产信息来标识一个或多个评分语义聚类(例如词语同现聚类)构成的集,(c)使用一个或多个评分语义聚类中的至少一些来标识一个或多个类别(例如垂直类别)构成的集,以及(d)把一个或多个类别的至少一些与资产相关联。
附图说明
图1图示了可以在根据本发明的示例性实施例中所提供的操作以及可以由这些操作所使用和/或产生的信息。
图2图示了可以在根据本发明的示例性实施例中提供的操作以及可以由这些操作所使用和/或产生的信息,用于把聚类(例如,单词字和/或词的集)与分类体系的类别相关联(例如映射或索引)。
图3图示了可以在根据本发明的示例性实施例中提供的操作以及可以由这些操作所使用和/或产生的信息,用于把文档与分类体系的类别相关联。
图4图示了可以在根据本发明的示例性实施例中提供的操作以及可以由这些操作所使用和/或产生的信息,用于把文档与分类体系的类别相关联。
图5是可以用来根据本发明的方式把一个或多个聚类与一个或多个分类体系类别相关联的示例性方法500的流程图。
图6是可以用来根据本发明的方式把一个或多个文档与一个或多个分类体系类别相关联的示例性方法600的流程图。
图7是可以用来根据本发明的方式把一个或多个文档与一个或多个分类体系类别相关联的示例性方法700的流程图。
图8-17根据本发明图示了可以被存储为索引的各个示例性映射。
图18-23根据本发明图示了示例性用户接口的各个显示屏。
图24是用于图示可以使用根据本发明的示例性实施例来怎样确定“最佳”类别的分类体系的部分。
图25是可以用来在根据本发明的示例性实施例中执行操作和/或存储信息的示例性设备的框图。
§4.具体实施方式
本发明可涉及用于根据分类体系来分类诸如词、短语、文档和/或聚类的对象的新颖方法、设备、消息格式以及从该分类导出的数据结构。给出以下描述使得本领域技术人员能够实施并使用本发明,并且在特定应用及其要求的范围内给出该描述。因此,根据本发明的以下具体实施方式提供了图示和描述,但是并不意味着穷举本发明或将其限制为所公开的精确形式。对所公开实施例的各种修改,对于本领域技术人员来说是显而易见的,并且下面所阐明的通用原理可以被应用于其它实施例和应用。例如,尽管可以参考流程图描述一系列动作,然而当一个动作的执行不取决于另一动作的完成时,在其它执行中动作的次序可以不同。此外,可以并行执行非依赖的动作。在描述中所使用的元件、动作或指令不应当被理解为对本发明来说是关键的或必要的,除非明确这样指出。不加数量限制的项意在包括一个或多个项。在表示一项时,使用词语“一个”或类似的语言。从而,本发明并不意在被限制为所示出的实施例并且发明人把他们的发明认作所描述的任何可取得专利的主题。
在下面,在§4.1中提供了在说明书中所使用的定义。然后,在§4.2中描述了根据本发明的示例性实施例。在§4.3中提供了图示根据本发明的示例性实施例中的操作的例子。最后,在§4.4中阐明了关于本发明的一些结论。
§4.1 定义
“资产(property)”是在上面可以提供广告的一些事物。资产可以包括在线内容(例如网站、MP3音频节目、在线游戏等)、离线内容(例如报纸、杂志、剧场演出、音乐会、体育比赛等)、和/或离线对象(例如布告板、体育场记分板和外场墙壁、卡车拖车侧面等)。具有内容的资产(例如杂志、报纸、网站、电子邮件消息等)可以被称作为“媒体资产”。尽管资产本身可以是离线的,不过关于资产的相关信息(例如(多个)属性、(多个)主题、(多个)概念、(多个)类别、(多个)关键词、相关信息、所支持的(多个)广告类型等)可以是在线可用的。例如,户外爵士音乐节日可以已经输入主题“音乐”和“爵士乐”、音乐会的位置、音乐会的时间、安排出现在该节日的艺术家、以及可用的广告位类型(例如在印刷节目单中的广告投放点、在舞台上的广告投放点、在座椅背上的广告投放点、赞助者的音频通告等)。
“文档”将被广义解释为包括任何计算机可读和机器可储存的工作产品。文档可以是文件、文件组合、具有到其它文件的嵌入式链接的一个或多个文件等。文件可以具有任何类型,诸如文本、HTML、XML、音频、图像、视频等。将被再现给终端用户的文档的部分可以被认为是所述文档的“内容”。文档可以包括“结构化数据”,包含内容(词、图片等)和该内容的意义的一些指示(例如电子邮件字段和相关联的数据、HTML标签和相关联的数据等)。在文档中的广告位可以由嵌入式信息或指令来定义。在因特网的范围内,通用的文档是网页。网页常常包括内容并且可以包括嵌入式信息(诸如元信息、超链接等)和/或嵌入式指令(诸如Java脚本等)。在多数情况下,文档具有唯一的、可寻址的存储位置并且因此可以由该可寻址的位置来唯一地标识。通用资源定位符URL)是用于访问因特网上信息的唯一地址。文档的另一例子是包括多个相关(例如链接的)网页的网站(website)。文档的又一例子是广告。
“web文档”包括万维网上公布的任何文档。web文档的例子例如包括网站或网页。
“文档信息”可以包括在文档中所包括的任何信息、可从文档中所包括信息导出的信息(被称为“文档导出信息”)、和/或与文档相关的信息(被称为“文档相关信息”)以及这种信息的扩展(例如从相关信息导出的信息)。文档导出信息的例子是基于文档的文本内容的分类。文档相关信息的例子包括来自具有到目前文档的链接的其他文档的文档信息,以及来自目前文档所链接到的其它文档的文档信息。
“垂直(vertical)”是相关产品、服务、产业、内容格式、受众人口统计信息和/或主题的组,其可能在网站内容中找到或用于网站内容。
“聚类(cluster)”是倾向于一起紧凑出现的一组元素。例如,聚类可以是常常倾向于共同出现的一组词语(例如在网页上、在搜索查询中、在产品目录中、在演讲文章(在线或离线)中、在讨论或电子邮件序列(email thread)中等)。
“概念(concept)”是意思的载体(与意思的代表(agent)相对,诸如按特定语言中的特定词)。因此,例如单个概念可以由任意数目的语言来表达,或可选择地用给定语言来表达。例如,词STOP、HALT、ANSCHLAG、ARRESTO和PARADA都属于相同的概念。概念是抽象的,这是由于它们忽略了事物在其外延中的差异,把它们视为好像是相同的。概念是通用的,这是因为它们同样地适用于其外延中的每件事物。
“分类体系(taxonomy)”是结构化的、通常是分层的(但是可以是平的)类别或类的集(或者分类或类所隐含的原理)。“类别(category)”可以对应于分类体系中的“节点”。
“得分”可以是分配给对象的任何数值。从而,得分可以包括由公式所确定的数,其可以被称作为“根据公式的得分”。得分可以包括在对象的有序集中的对象排名,其可以被称作为“顺序得分”。
§4.2 根据本发明的示例性实施例
图1图示了可以在根据本发明的示例性实施例中所提供的操作以及可以由这种操作所使用和/或产生的信息。基于词语同现的聚类产生/标识操作110可以接受上下文中的词语105并且产生词语-聚类信息(例如索引)115。一旦已经产生该信息115,那么词语同现产生/标识操作110可以被用来响应于(多个)输入词语105来标识一个或多个(例如词语的)聚类120。过滤/数据约减操作122可以用来产生“更好”聚类的子集122。
概念产生/标识操作130可以接受聚类120或124并且产生聚类-概念信息(例如索引)135。一旦已经产生这种信息135,概念产生/标识操作130可以被用来响应于输入聚类120或124来标识一个或多个概念140。过滤/数据约减操作142可以用来产生“更好”概念的子集144。
类别产生/标识操作150可以接受概念140或144并且产生概念-类别信息(例如索引)155。一旦已经产生这种信息155,类别产生/标识操作150可以用来响应于输入概念140或144来标识一个或多个类别160。这些类别可以是分类体系的节点。类别过滤/约减操作162可以用来产生“更好”类别的子集164。
存在上下文中的词语105的许多例子。例如,上下文中的词语可以是搜索查询所包括的和/或包括一个或多个搜索查询的搜索会话中的词和/或短语。作为另一例子,上下文中的词语可以是在文档(例如网页)中或文档集合(例如网站)或组中所找到的词和/或短语。作为又一例子,上下文中的词语可以是在创意广告中的词和/或短语。
再参见基于词语同现的聚类产生/标识操作110,在某个或一些上下文(例如搜索查询、搜索会话、网页、网站、文章、博客、讨论序列等)中的词语的共同出现可以用来产生词组或词聚类。一旦定义了这些聚类,那么可以存储词-聚类索引。使用这种索引,给定一个或多个词,可以标识包括该词的一个或多个聚类。用于产生和/或标识该聚类的操作的例子是概率分层推理学习机,诸如在于2002年10月3日提交的名称为“Methods and Apparatus for Probabilistic HierarchicalInferential Learner”的美国临时申请序号60/416,144(被称为“′144临时”并且在此将其内容引用以供参考)、以及于2003年9月30日提交的名称为“Methods and Apparatus for Characterizing Documents Basedon Cluster Related Words”并且把Georges Harik和Noam Shazeer列为发明人的美国专利申请序号10/676,571(被称为“′571申请”并且在此将其内容引用以供参考)中所述的。
PHIL的一个示例性实施例是一种倾向于在www.google.com搜索会话中一起出现的相互关联的词语聚类的系统。该聚类内的词语可以按它对该聚类的统计重要性来加权。这样的聚类所具有的词语可以从几个词语到数以千计的词语。PHIL模型的一个实施例包含几十万个聚类并且覆盖所有语言,与它们的搜索频率成比例。聚类可以被分配有将由应用(例如在线广告服务系统)所使用的属性,诸如STOP(例如主要包含诸如“该”、“一个”、“一种”等不表达什么意思的词)、PORN、NEGATIVE(包含常常出现在反面、压抑或敏感文章中的词,诸如“炸弹”、“自杀”等)和LOCATION等。在PHIL的另一实施例中,为每种语言维护模型,以简化维护和更新。
PHIL服务器可以把文档(例如网页)作为输入并且返回与内容“匹配”的聚类。还可以把广告创意和/或目标关键词作为输入并且返回匹配的聚类。从而,它可以用来把广告与网页内容相匹配。
再参见概念产生/标识操作130和类别产生/标识操作150,这些操作可以接受一个或多个聚类并且标识分类体系的一个或多个类别(例如节点)。当与词语同现聚类标识操作110协作使用时,这些操作130和150可以接受一个或多个词语并且标识分类体系的一个或多个类别。
用于产生和/或标识类别的操作130和150的例子是语义识别引擎,诸如在美国专利号6,453,315(在此将其内容引用以供参考)名称为“Meaning-Based Information Organization and Retrieval”且列出AdamWeissman和Gilad Isreal Elbaz为发明人的文献中所描述;以及诸如在美国专利号6,816,857(在此将其内容引用以供参考)名称为“Meaning-Based Advertising and Document Relevant Determination”列出Adam Weissman和Gilad Israel Elbaz为发明人的文献中所描述的。
示例性的语义识别引擎(下面被称为“Circadia”)可以检查文档并且将其分类到任何分类体系中。Circadia包括几十万个相互关联的概念和相应词语的专有本体(ontology)。Circadia本体中的概念是与语言无关的。特定语言(language-specific)的词语与这些概念相关。Circadia服务器支持两个主要操作——“感测”和“寻找”。感测操作接受文档或文本串作为输入并且返回针对该输入的加权概念集(被称为“要点(gist)”)作为输出。从而,Circadia中的感测操作是概念标识操作130的例子。这种要点然后可以被用作寻找请求输入。作为响应,在所指定分类体系中的最佳类别及其相应的语义得分被返回。从而,Circadia中的寻找操作是类别标识操作150(并且可能是类别过滤/约减操作162)的例子。当然,可以使用诸如开放目录项目(“ODP”)分类体系、标准产业分类(“SIC”)分类体系等其它分类体系。
图2图示了可以在根据本发明的示例性实施例中提供的操作以及可以由该操作所使用和/或产生的信息,用于把聚类(例如词和/或词语集)与分类体系的类别相关联(例如映射或索引)。聚类到分类体系类别关联产生操作220接受聚类信息210并且产生聚类到类别的信息230。例如,操作220可以向概念标识操作130′传递聚类信息(例如聚类标识符),概念标识操作130′可以使用该聚类-概念信息(例如索引)135′来获取一个或多个概念。然后该操作130′可以向聚类到分类体系类别关联产生操作220返回这些(多个)概念。然后这些操作220可以向类别标识操作150′传递概念信息(例如概念标识符),该类别标识操作150′可以使用概念-类别信息(例如索引)155′来获取一个或多个类别。然后该操作150′可以向聚类到分类体系类别关联产生操作220返回这些类别。使用所接受的聚类信息210和所返回的类别信息,然后操作220可以产生聚类到类别的关联信息(例如映射或索引)230。
如所示,在根据本发明的至少一个实施例中,信息230可以是包括多个条目232的表。每个条目232可以包括聚类标识符234和分类体系的一个或多个类别(中每个的标识符)236。尽管未示出,然而还可以产生并存储把每个类别映射到一个或多个聚类的倒排索引。
图3图示了可以在根据本发明的示例性实施例中提供的操作以及可以由该操作所使用和/或产生的信息,用于把文档(例如网页、网站、广告创意)信息与分类体系的类别相关联(例如映射或索引)。文档到分类体系类别关联产生操作320接受文档信息320并且产生文档到类别的信息330。例如,操作320可以向聚类标识操作110′传递文档信息,聚类标识操作110′可以使用词语到聚类的信息(例如索引)115′来标识一个或多个聚类。然后该操作110′可以向文档到分类体系类别关联产生操作320返回这些(多个)聚类。这些操作320可以向概念标识操作130′传递聚类信息(例如聚类标识符),概念标识操作130′可以使用聚类-概念信息(例如索引)135′来获取一个或多个概念。然后该操作130′可以向文档到分类体系类别关联产生操作320返回这些概念。然后这些操作320可以向类别标识操作150′传递概念信息(例如概念标识符),类别标识操作150′可以使用概念-类别信息(例如索引)155′来获取一个或多个类别。然后,该操作150′可以向文档到分类体系类别关联产生操作320返回这些(多个)类别。使用所接受的文档信息310和所返回的类别信息,然后操作320可以产生文档到类别的关联信息(例如映射或索引)330。
如所示,在根据本发明的至少一个实施例中,信息330可以是包括多个条目332的表。每个条目332可以包括文档标识符334和分类体系的一个或多个类别(中每个的标识符)336。尽管未示出,然而还可以产生并存储把每个类别映射到一个或多个文档的倒排索引。
图4图示了可以在根据本发明的示例性实施例中提供的候选操作以及可以由该操作所使用和/或产生的信息,用于把文档(例如网页、网站、广告创意)信息与分类体系的类别相关联(例如映射或索引)。文档到分类体系类别关联产生操作420接受文档信息420并且产生文档到类别的信息430。例如,操作420可以向聚类标识操作110′传递文档信息,聚类标识操作110′可以使用词语到聚类的信息(例如索引)115′来标识一个或多个聚类。然后该操作110′可以向文档到分类体系类别关联产生操作420返回这些(多个)聚类。然后这些操作420可以使用聚类信息(例如聚类标识符)来使用聚类到类别的信息230′寻找一个或多个相关联的类别。此信息230′例如可以是在图2中所示出的映射。更具体地说,每个聚类标识符可以用来查找一个或多个相关联的类别(回顾例如图2的234和236)。使用所接受的文档信息410和类别信息,然后操作420可以产生文档到类别的关联信息(例如映射或索引)430。
如所示,就像图3的示例性实施例那样,在根据本发明的至少一个实施例中,信息430可以是包括多个条目432的表。每个条目432可以包括文档标识符434和分类体系的一个或多个类别(中每个的标识符436)。尽管未示出,然而还可以产生并存储把每个类别映射到一个或多个文档的倒排索引。
§4.2.1 示例性的方法
图5是可以用来以本发明的方式把一个或多个聚类与一个或多个类别相关联的示例性方法500的流程图。再参见图2,方法500可以用来执行操作220。可以对于多个聚类的每个来执行方法500的主要动作。作为选择,聚类可以被分组并且被作为组来处理和对待。然而为了简化方法500的描述,将描述单个聚类的处理。聚类被接受(块510)并且使用该聚类来标识一个或多个概念构成的集(块520)。可以约减和/或过滤所标识的(多个)概念(块530)。然后,可以使用所标识的概念来标识一个或多个类别构成的集(块540)。可以约减和/或过滤所标识的(多个)类别(块550)。最后,在方法500退出(节点570)之前,所接受的聚类可以与所标识(以及可能过滤)的(多个)类别相关联(块560)。
再参见块510,聚类可以是PHIL聚类,或例如倾向于在搜索查询或搜索会话中共同出现的词语集。该聚类可以是倾向于在文档中共同出现的词语集。
再参见块530,例如可以通过对其评分、对一个或多个阈值应用概念得分(绝对和/或相对)、只取最高N个评分概念或上述的任何组合来过滤和/或约减概念。类似地,再参见块550,例如可以通过对其评分、向一个或多个阈值应用类别得分(绝对和/或相对)、只取最高M个评分概念或上述的任何组合来过滤和/或约减类别。
如括号所表明,动作520-550可以被组合成单个动作,用于使用所接受聚类来标识一个或多个类别。然而,Circadia被设计成使用“感测”操作接着是“寻找”操作来分类。首先根据聚类标识概念然后根据概念来标识类别而不是直接从聚类到类别的一个优点在于:如果中间概念(“要点”)被存储,那么它们可以被直接用于分类到多个可用的分类体系的任何一个中而不必重复感测操作。即,一旦已经确定概念,那么它易于到达词语、类别、其它概念等。
再参见块560,可以通过产生并存储把聚类(标识符)映射到一个或多个类别(标识符)的索引,而把聚类与一个或多个类别相关联。作为替换或附加,可以产生并存储把类别(标识符)映射到一个或多个聚类(标识符)的倒排索引。
再参见块510,可以求精聚类以使得只包括最佳的T个(例如,50个)词语(例如基于聚类间评分和/或聚类内评分)。这里,聚类内评分可以随词语在聚类中出现的次数的增加而增加,并且可以随该词语在文档(例如网页、搜索查询、搜索会话)集合中出现的次数增加而减少。从而,聚类内得分例如可以被定义为例如count_in_cluster/count_in_search_query_collection。另外,可以基于聚类内激发(firing)来确定每个聚类的最佳词语的数目(T)而不是每个聚类都用相同固定数目的词语。还可以使用在′571申请中所使用的聚类评分。
返回参考图5的块520-550,在根据本发明的至少一个示例性实施例中,可以如下使用Circadia服务器来根据聚类确定概念。
再参见图5的块520,在使用Circadia分类中的第一步骤是进行“感测”操作,其返回“要点”。该要点是来自Circadia本体的概念匹配的内部加权集。从而,获得每个聚类的要点(例如基于50个词语)。
再参见图5的块540和550,第二步骤包括进行“寻找”操作以便在给定要点的情况下从指定的分类体系请求最佳N个(例如N=2)类别和相应的语义得分。
在根据本发明的至少一个示例性实施例中,从寻找操作请求最佳两个类别及其相应的语义得分。在该示例性(多个)实施例中,这最佳两个类别被称作为每个聚类的“主要”类别(对于最佳评分一来说)和“次要”类别。如果Circadia没有为聚类确定任何类别,那么该聚类接收“NONE”的主要和次要类别。如果Circadia只确定了主要类别而没有确定次要类别,那么次要类别被设置为“NONE”。
再参见块550,根据本发明的至少一个实施例滤掉那些得分小于阈值的类别。阈值可以是预定阈值。此外,如果在原始聚类中存在更多词语,那么该阈值可以被设置为更低,实际上把每个聚类中的词语数目看作是对Circadia调用的一种统计重要性量度。例如,如果聚类具有M个(例如,50)以上的词语,那么人们可以更加相信只使用其中最佳50个词语会提供较好的代表样本,这使得可以放宽所述阈值。然而如果聚类只有少于M个词语,那么因为词语采样较小并且可能包括聚类中不那么有意义的词语,因此提高阈值可能是可取的。
图6是可以用来根据本发明的方式把一个或多个文档与一个或多个类别相关联的示例性方法600的流程图。再参见图3,方法600可以用来执行操作320。可以对于多个文档中的每个来执行方法600的主要动作。作为选择,文档可以被分组并且作为组来处理并对待。然而为了简化描述方法600,将描述单个文档的处理。文档被接受(块610)并且使用所接受的文档(例如的词语)来标识一个或多个聚类构成的集(块620)。然后可以过滤和/或约减(多个)聚类(块630)。然后使用聚类来标识一个或多个概念的集(块640)。可以约减和/或过滤所标识的(多个)概念(块650)。然后,可以使用所标识的概念来标识一个或多个类别的集(块660)。可以约减和/或过滤所标识的(多个)类别(块670)。最后,在方法600退出(节点690)之前,可以把所接受的文档与所标识的(多个)类别相关联(块680)。
再参见块610,文档可以是网页、从网页所提取的内容、网页的一部分(例如引用或链接的锚定文本)、网站、网站的一部分、广告的创意文本等。
再参见块630,例如可以通过对聚类评分、对一个或多个阈值应用聚类得分(绝对和/或相对)、只取最佳N个评分聚类或上述的任何组合来过滤和/或约减聚类。类似地,再参见块650,例如可以通过对概念评分、对一个或多个阈值应用概念得分(绝对和/或相对)、只取最佳N个评分概念或上述的任何组合来过滤和/或约减概念。类似地,再参见块670,例如可以通过对类别评分、对一个或多个阈值应用类别得分(绝对和/或相对)、只取最佳N个评分概念或上述的任何组合来过滤和/或约减类别。
如括弧所表明,尽管由于上面所介绍的原因使得确定中间概念(例如“要点”)可能是有用的,不过可以把动作640-670组合成单个动作,用于使用所标识的(多个)聚类来标识一个或多个类别。
再参见块680,可以通过产生并存储把文档(标识符)映射到一个或多个类别(标识符)的索引来把文档与一个或多个类别相关联。作为替换或附加,可以产生并存储把类别(标识符)映射到一个或多个文档(标识符)的倒排索引。
图7是可以用来根据本发明的方式把一个或多个文档与一个或多个类别相关联的示例性方法700的流程图。再参见图4,方法700可以用来执行操作420。可以对于多个文档中的每个来执行方法700的主要动作。作为选择,文档可以被分组并且作为组来处理并对待。然而为了简化方法700的描述,将描述单个文档的处理。文档被接受(块710)并且使用所接受的文档(例如的词语)来标识一个或多个聚类的集(块720)。然后可以过滤和/或约减(多个)聚类(块730)。可以使用所标识的聚类和聚类到类别的关联信息来标识一个或多个类别的集(块740)。可以过滤和/或约减所标识的类别(块750)。最后,在方法700退出(节点770)之前,所接受的文档可以被与所标识的(多个)类别相关联(块760)。
再参见块710,文档可以是网页、从网页所提取的内容、网页的一部分(例如引用或链接的锚定文本)、网站、网站的一部分、广告的创意文本等。
再参见块730,例如可以通过对聚类评分、对一个或多个阈值应用聚类得分(绝对和/或相对)、只取最佳N个评分聚类或上述的任何组合来过滤和/或约减聚类。类似地,返回参考块750,例如可以通过对类别评分、对一个或多个阈值应用类别得分(绝对和/或相对)、只取最佳M个评分概念或上述的任何组合来过滤和/或约减类别。
再参见块740,聚类到类别的关联信息可以是把多个聚类的每个映射到一个或多个类别的索引。(回顾例如图2的230和图5的560。)
再参见块760,可以通过产生并存储把文档(标识符)映射到一个或多个类别(标识符)的索引来把文档与一个或多个类别相关联。作为替换或附加,可以产生并存储把类别(标识符)映射到一个或多个文档(标识符)的倒排索引。
§4.2.2 示例性的设备
图25是可以执行上述一个或多个操作的机器2500的框图。机器2500包括一个或多个处理器2510、一个或多个输入/输出接口单元2530、一个或多个存储设备2520和用于便利在耦合的元件之间的信息通信的一个或多个系统总线和/或网络2540。一个或多个输入设备2532和一个或多个输出设备2534可以与一个或多个输入/输出接口2530耦合。
一个或多个处理器2510可以执行机器可执行指令(例如,在可从California的Palo Alto的Sun Microsystems公司获得的Solaris操作系统以及可普遍地从多个销售商诸如North Carolina的Durham的Red Hat公司获得的Linux操作系统上运行的C或C++,Java,汇编,Perl等)来实现本发明的一个或多个方面。至少部分机器可执行指令可以被(暂时或更永久地)存储在一个或多个存储设备2520上和/或经由一个或多个输入接口单元2530从外部源接收。
在一个实施例中,机器2500可以是一个或多个常规的个人计算机、移动电话、PDA等。在常规的个人计算机的情况下,处理单元2510可以是一个或多个微处理器。总线2540可以包括系统总线。存储设备2520可以包括诸如只读存储器(ROM)和/或随机存取存储器(RAM)之类的系统存储器。存储设备2520还可以包括用于读取和写入硬盘的硬盘驱动器、用于读取或写入(例如可移除)磁盘的磁盘驱动器以及用于读取或写入可移除(磁)光盘的光盘驱动器,该可移除(磁)光盘诸如光盘或其它(磁)光介质等。
用户可以通过诸如键盘和指示设备(例如鼠标)之类的输入设备2532把命令和信息输入到个人计算机中。还可以(或作为选择)包括诸如麦克风、游戏杆、游戏键盘、卫星碟形天线、扫描器等其它输入设备。这些及其它输入设备常常经由被耦合到系统总线2540的适当接口2530而连接到(多个)处理单元2510。输出设备2534可以包括监视器或其它类型的显示设备,也可以经由适当接口被连接到系统总线2540。除监视器之外(或代替所述监视器),个人计算机可以包括其它(外围)输出设备(未示出),诸如扬声器和打印机。
当然,在根据本发明的实施例的至少一些方面的范围内关于所描述输入和输出装置中的许多可能并非是必要的。
上述各个操作可以由一个或多个机器2500来执行,并且上述各个信息可以被存储在一个或多个机器2500上。这种机器2500可以与诸如因特网之类的一个或多个网络连接。
§4.2.3 求精和替换
尽管在诸如文档并且特别是网站和网页之类的在线资产的范围内描述了许多实施例,然而根据本发明的至少一些实施例可以支持离线资产,甚至包括无介质的资产。
§4.2.3.1 示例性的索引数据结构
图8-17图示了各个示例性的映射,其中的一个或多个在根据本发明的各个实施例中可以被存储为索引。图8图示了从词(例如字母数字字符串、音素字符串、词语、短语等)到一个或多个聚类(例如PHIL聚类)构成的集的映射。图9图示了从聚类到一个或多个词的映射。图10图示了从文档(例如网页(或其一部分)、网站(或其一部分)、锚定文本、广告策划文本等)到分类体系的一个或多个类别构成的集的映射。(回顾例如图3的330和332,以及图4的430和432。)图11图示了从分类体系的类别到一个或多个文档构成的集的映射。图12图示了从聚类到分类体系的一个或多个类别构成的集的映射。(回顾例如图2的230和232以及图4的230′)。图13图示了从分类体系的类别到一个或多个聚类的映射。图14图示了从文档到一个或多个聚类构成的集的映射。图15图示了从聚类到一个或多个文档构成的集的映射。图16图示了从词(例如字母数字字符串、音素字符串、词语、短语等)到分类体系的一个或多个类别构成的集的映射。图17图示了从分类体系的类别到一个或多个词构成的集的映射。
§4.2.3.2 使用聚类属性来向特定聚类分配类别
在根据本发明的至少一个实施例中,一个或多个聚类可以被手动地映射到分类体系的一个或多个类别,为这些(多个)聚类有效地重载(或补充)自动的类别确定。例如在这种实施例中,可以把具有PORN属性的聚类分配给“/Adult/Porn(/成人/色情)”类别,即便自动确定的类别是不同的也是这样。类似地,具有NEGATIVE属性的聚类可以被分配给“/News & Current Events/News Subjects(Sensitive)(/新闻&当前事件/新闻主题(敏感的))”类别,即便自动确定的类别是不同的也是这样。类似地,具有LOCATION属性的聚类可以被分配给“/LocalServices/City & Regional Guides/LOC(Locations)(/本地服务/城市&区域向导/LOC(位置))”类别,即便自动确定的类别是不同的也是这样。这种聚类可以被手动产生、手动修正和/或手动审阅。
§4.2.3.3从与内容有关的广告服务日志中提取网站-聚类映射和得分
再参见图1的词语-聚类信息(索引)115,可以如下为网站(例如参与内容相关的广告网络中的网站,诸如来自美国加州MountainView市的谷歌公司的AdSense)产生聚类的加权集。
可以对用于网页显示(例如,AdSense)广告的每次页面浏览(pageview)来产生日志记录。可以利用该日志记录来记录用于网页的评分(PHIL)聚类的集。对于给定网页来说,存在多个(例如在一个和一打之间)聚类,并且每个聚类具有相关联的激活得分(例如参见描述“激活(activation)”的′571申请。)激活得分是给定聚类对于被分析的文档来说在概念上有多重要的量度。较低值的激活得分表明较低的概念重要性,而较高值的激活得分表明较高的概念重要性。
§4.2.3.4 为每个网站确定评分聚类的集
可以忽略没有达到至少用于该网页的预定值(例如1.0)的激活得分的那些聚类(如上所述)(回顾例如图1的操作122)。该预定值可以被设置成广告系统在提供广告时所使用的最小阈值。还可以忽略某些特定情况聚类(例如那些被标记为STOP的聚类)。
对于其余聚类(被称为“合格聚类”)来说,可以确定这些聚类的激活得分的和。用于网页的每个合格聚类获得“得分”。聚类得分可以被定义为下述二者的乘积:(a)网页上合格聚类的激活得分,(b)该网页接收的页面浏览数目。
以下例子图示了如上所述可以怎样来为合格聚类评分。假定在网站内的两个网页上激活给定聚类c1。假定该聚类在网页p1上的激活得分为10.0并且在网页p2上激活得分为20.0。在一周期间,网页p1接收了1000个页面浏览而网页p2接收了1500个页面浏览。在一星期内聚类得分与对于网站的页面浏览数的积的和为100,000。于是聚类将接收所述网站的以下整个得分:
SCORE=((10.0激活/页面浏览*1000页面浏览)+
(20.0激活/页面浏览*1500页面浏览))/100,000激活
=(10,000+30,000)/100,000
=0.4
这有效地借助在网站的各个网页上的页面浏览数和激活得分来加权网站的总聚类得分。网站的聚类得分的集共计为1。此方法的一个缺点在于从分类立场来看给定网页的较高流量并不必然意味着与较低流量的网页相比更具代表性。从而,可能希望调节页面浏览数参数和/或对聚类网页激活得分给予较高权重。当然,可以根据一个或多个因素的函数来加权激活得分,这些因素在使用根据本发明的实施例的范围内是合理的。
在获得网站的评分聚类的集之后,可以通过只选择最佳S个(例如25)最高评分聚类(具有低于S个聚类的网站的所有聚类)来减少聚类的数目。可以通过按照得分只保持构成所标识集的最佳Y%(例如70%)的最高评分聚类来约减该集合。
可以使其余聚类的得分规范化以使它们总和为1。
§4.2.3.5 为每个网站确定“最佳”类别
再参见图1的操作162,可以为每个网站确定约减的类别集(例如主要和次要类别)。充当此操作输入的类别160可以是网站的评分分类(与PHIL聚类相关联——在下面被称为“聚类类别”)的已消减的集(上面已经描述)。典型地,在根据本发明的一个示例性实施例中,每个网站存在大约十个(10)聚类类别的最终集。通常存在聚类类别的重叠,但是每个聚类可以具有完全不同的类别。
在根据本发明的一个实施例中,类别是每个分支包括多达Z个(例如5个)等级的分层分类体系的一部分。在该实施例中,除在分类体系的不同“分支”之间判定之外,还确定沿着分支的最佳等级。例如,可能很清楚类别应当处于“/Automotive(/汽车的)”分支中的某个地方,但是问题是“/Automotive(/汽车的)”、“/Automotive/Auto Parts(/汽车的/汽车部件)”、“/Automotive/Auto Parts/Vehicle Tires(/汽车的/汽车部件/车辆轮胎)”或“/Automotive/Vehicle Maintenance(/汽车的/车辆维护)”中的哪个是最好的一个。每个输入聚类的得分都影响相应的主要和次要聚类类别对于网站的全局分类的重要性。
对于网站分类来说,不论有多少聚类类别彼此竞争,它们当中可能都没有足够的概念重要性(例如,如由该类别的得分的和进行量度)来值得选择。换句话说,可能的类别可能在网站之中被太过削弱从而不能让任何单个类别“获胜”。在根据本发明的至少一些实施例中,可以通过设置阈值(例如被存储为浮点十进制)来按照需要增强该最小概念重要性。假定给定网站的聚类得分被规范化为共计为1,在至少一些实施例中,0.24或大约0.24的最小概念重要性阈值可以产生良好的结果。这意味着如果主要或次要类别的最佳候选具有少于0.24的求和得分,那么会分配“NONE”的类别。注意,可以基于用于对网站上的聚类进行评分的方法来调节此阈值。
在至少一些实施例中,可能希望省略次要聚类类别来分类网站而不是使用主要和次要聚类类别来分类网站。
在下面示例性实施例的描述中使用以下术语。给定形式为/level-1/level-2/.../level-m的分层类别路径,其中m是路径中的最深等级数,“subsume-level-n”指的是:如果n<m,则包含直到等级n的路径;而如果n>=m,则不包含该路径。例如,对于其中n<m的情况来说,类别路径“/Automotive/Auto Parts/Vehicle Tires”的subsume-level-2(包含级别2)是“/Automotive/Auto Parts/”。作为另一例子,对于其中n>=m的情况来说,“/Automotive/AutoParts/Vehicle Tires”的subsume-level-4(包含级别4)只是“/Automotive/Auto Parts/Vehicle Tires”自身而没有修改。
注意,等级n类别包括其自己的类别内聚类(多个)得分,以及任何所包含的更深级类别的聚类得分。这些聚类得分的和被称作等级n类别的“自&包含类别聚类得分”(或“S&S类别聚类得分”)。
对于文档(例如网站)分类来说,不论有多少类别彼此竞争,它们的任何一个都没有足够的概念重要性使得可值得被选择,概念重要性是利用S&S类别聚类得分来量度的。换句话说,网站的聚类可能在可能类别之中被太过削弱以致于不能让任何一个类别被认为无疑是该网站的最佳类别。
在根据本发明的至少一些实施例中,可以通过设置阈值来施加最小概念重要性要求。当然,因为较高包含等级对应于更通用的类别,所以更易于获得在较高包含等级处的通过了阈值的类别。在根据本发明的至少一些实施例中,选择阈值以使跨过各个包含等级的整体质量最大化,但是由于即使这些类别可能最合适分类包含等级得分在较低等级处也必然比在较高等级处更低,所以略微偏向较低包含等级。
在根据本发明的一个示例性实施例中,假定给定网站的聚类得分的和为1(如上面所详细描述)并且使用具有数量级为500个节点的五层类别分类体系,那么大约0.24的最小概念重要性阈值比较适用。相信从0.20到0.30的最小概念重要性阈值应当比较适用。这意味着如果在给定包含等级处的主要或次要类别的最佳候选具有少于阈值的求和得分,那么会分配“NONE”的类别。注意,确定适当的阈值可以依赖为被分类文档上的聚类进行评分的方法。
在已经引入一些术语的情况下,现在描述用于以根据本发明的方式来确定文档的“最佳”类别的示例性方法。设t为最小概念重要性阈值。设d为分类体系中的最深等级。可以按如下所述确定“最佳”主要类别。确定最佳包含等级1(subsume-level-1)及其相应的S&S类别聚类得分。对直到等级d的所有等级重复此过程。选择最佳包含等级p类别具有的S&S类别聚类得分≥t的p的最大(最深)值。作为替换,可以从最深类别等级到最佳(最通用)类别等级分析S&S类别聚类得分。以这种方式,该方法可以在处理其中S&S类别得分≥t的等级之后停止。设v(最佳主要类别)为最佳包含等级p类别,或者如果没有类别满足阈值那么设v为“NONE”。
可以按如下所述定义“最佳”次要类别。如果最佳主要类别v为“NONE”,那么最佳次要类别为“NONE”。如果v不为“NONE”,那么确定最佳包含等级1及其相应的包含等级1得分,其中包含等级1不等于v。对于直到等级d的所有等级,在包含等级n不等于v的约束条件的约束下,重复此过程。选择最佳包含等级q类别具有的S&S类别聚类得分>=t的q的最大(最深)值。设w(最佳次要类别)为最佳包含等级q类别,或者如果没有类别满足阈值那么设w为“NONE”。
§4.3 在根据本发明的示例性实施例中的操作例子
图18-23图示了根据本发明的示例性用户接口的各个显示屏画面。图18图示了屏幕1800,其中用户可以在框1810中输入分类体系的类别(在这种情况下,“主要垂直节点名”)。作为响应,输出各个PHIL聚类1820。(在此例子中,聚类名称简单地是聚类中六个(6)最重要的或最高评分的词语)。例如可以使用包括诸如在图13中所示出的映射的索引来产生此输出。垂直节点(即分类体系的类别)与聚类的关联可以经手动批准,如复选框1830所示的。
图19图示了屏幕1900,其中,用户可以在框1910中输入网站(主页)地址。作为响应,输出各个PHIL聚类1920。例如可以使用包括诸如在图14中所示出的映射的索引来产生此输出。文档(例如网站)与聚类的关联可以经手动批准,如复选框1930所表明的。
图20图示了屏幕2000,其中,用户可以在框2010中输入一个或多个词(以及可能还有其它参数)以便获得相关的垂直类别和网站。图21图示了包括输出垂直类别2110和网站2120的屏幕2100。例如,可以使用包括诸如在图8和12中所示出的映射的索引来根据输入词输出类别集。作为替换,由于词到网站的索引是公共的(例如在搜索引擎中),所以框2010中的词可以结合包括诸如在图10中所示出的映射的索引而被映射到一个或多个网站的集,以获得分类体系的类别,其中一些网站可能已经被使用过。如所示,网站信息2120可以包括网站名称2122和得分2124。
图22图示了屏幕2200(像图18的屏幕1800),其中,用户可以在框2210中输入一个或多个网站(以及可能其它参数)以获得相关的垂直类别和网站。图23图示了包括输出垂直类别2310和网站2320的屏幕2300。例如,可以使用包括诸如在图10中所示出的映射的索引来根据输入网站输出类别集。此外,可以使用包括诸如在图11中所示出的映射的索引,根据所确定的(多个)类别,来产生进一步的(多个)网站。如所示,网站信息2320可以包括网站名称2322和得分2324。
如以上例子所图示,可以使用或组合使用各个索引(可能依照不同的顺序)以根据第一类型的输入对象来获得第二类型的相关对象。可以把各种类型的对象与分类体系的类别(例如节点)相关联。
现在参考图24,描述用于选择网站的主要和次要类别的示例性技术的例子,诸如上面在§4.2.3.5中所描述的。考虑关于电子器件的假设网站。假设使用阈值0.24。进一步假设,网站的聚类和相应主要类别和聚类类别得分为:
聚类ID    主要类别                               聚类得分
6937542   /计算机&技术(2410)                     0.13
6922978   /计算机&技术/消费类电子设备/
          音频设备/MP3播放器(2448)               0.14
6976937   /计算机&技术/消费类电子设备/
          照相机&便携式摄像机/照相机(2442)       0.07
6922928   /计算机&技术/消费类电子设备/
          照相机&便携式摄像机
          /便携式摄像机(2444)                    0.06
6922526   /计算机&技术/消费类电子设备/
          照相机&便携式摄像机/照相机(2442)       0.09
6946862   /计算机&技术/消费类电子设备/
          个人电子设备(2432)                     0.16
6923006   /计算机&技术/消费类电子设备/
          个人电子设备/手持式&PDA(2446)          0.06
6922985   /计算机&技术/硬件/桌上型电脑(2434)     0.08
6922448   /计算机&技术/硬件/膝上型电耗(2435)     0.05
6936814   /新闻&当前事件/新闻来源(未示出))       0.16
在主要类别的推导中包括的中间结果为:
包含等级1类别:/计算机&技术
S&S类别聚类得分:0.84
包含等级2类别:/计算机&技术/消费类电子设备
S&S类别聚类得分:0.58
包含等级3类别:/计算机&技术/
消费类电子设备/照相机&便携式摄像机
S&S类别聚类得分:0.22
包含等级4类别:/新闻&当前事件/新闻源
S&S类别聚类得分:0.16
包含等级5类别:/新闻&当前事件/新闻源
S&S类别聚类得分:0.16
注意,在层4和5类别中,n>m。在上面例子中,获胜主要类别是“/计算机&技术/消费类电子设备”,这是因为它是具有超过阈值0.24的S&S类别聚类得分的最深(最具体)的等级。
§4.4 结论
根据上文可以理解,根据本发明的一些实施例可以用于把不同类型的对象与分类体系的类别(节点)相关联。一旦进行了这些关联,根据本发明的一些实施例可以用来使用在对象和分类体系类别之间的关联来找到“相关”的对象,可能是不同类型的对象。例如,可以使用根据本发明的实施例使得网站被分类到标准化产业垂直类别的分层分类体系中。这种分层分类体系具有许多潜在的用途。此外,如果可以分类不同类型的对象(例如广告、查询、网页、网站等),那么可以确定并使用在这些不同类型对象之间的关系(例如相似性)(例如,在确定例如与网页或网站有关的广告时,或反过来)。
在把聚类和网站分类到这种分类体系之后,可以增加其它维度(例如语言、国家等)(例如采用在线分析处理(OLAP)数据库和数据仓储星形模式)。类别维度可以利用分层等级来定义,但是像语言类的一些其它维数可以是平面的。在导出这些各个维度之后,可以把量度指标(例如页面浏览数、广告显现数、广告点击数、费用等)聚合到它们当中。

Claims (26)

1.一种用于自动分类网站的计算机实现的方法,所述方法包括:
a)接受网站信息;
b)使用所述网站信息来确定所述网站的评分聚类的集;以及
c)使用所述聚类的集中的至少一些来确定预定义分类体系的至少一个类别。
2.根据权利要求1所述的计算机实现的方法,其中,用于使用所述网站信息来确定所述网站的评分聚类的集的动作使用所述网站的各个网页上的页面浏览数和激活得分。
3.根据权利要求1所述的计算机实现的方法,其中,用于使用所述聚类的至少一些来确定预定义分类体系的至少一个类别的动作包括
i)使用所述评分聚类的集来确定一个或多个概念构成的集,以及
ii)使用所述一个或多个概念构成的集中的至少一些来确定所述至少一个类别。
4.根据权利要求1所述的计算机实现的方法,其中,使用所述聚类的至少一些来确定预定义分类体系的至少一个类别的动作包括:使用所述聚类的至少一些的信息来查找一个或多个类别。
5.根据权利要求4所述的计算机实现的方法,其中,所述预定义的分类体系是分层的,并且,其中使用所述聚类的至少一些来确定预定义分类体系的至少一个类别的动作进一步包括:
-对于一个或多个类别中的至少一些确定得分,所述得分包括(1)所述类别的类别内聚类得分,和(2)在所述分层分类体系中的所述类别的下层各类别的类别内聚类得分。
6.根据权利要求5所述的计算机实现的方法,其中,使用所述聚类的至少一些来确定预定义分类体系的至少一个类别的动作进一步包括:
-确定具有大于预定阈值的确定得分的最深分层等级类别。
7.根据权利要求1所述的计算机实现的方法,其中,所述预定义分类体系的类别对应于以下的至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,(D)可能在网站内容中找到的相关主题,和(E)可能在网站内容中找到的相关内容格式(诸如论坛、博客等)。
8.一种把语义聚类与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:
a)接受语义聚类;
b)使用所述接受的聚类,来标识一个或多个评分概念构成的集;
c)使用所述一个或多个评分概念中的至少一些,来标识一个或多个类别构成的集;以及
d)把所述一个或多个类别中的至少一些与所述语义聚类相关联。
9.根据权利要求8所述的计算机实现的方法,其中,所述语义聚类是词语同现聚类。
10.根据权利要求8所述的计算机实现的方法,其中,所述语义聚类包括倾向于在搜索引擎上的搜索会话中共同出现的词语。
11.根据权利要求8所述的计算机实现的方法,其中,所述语义聚类包括倾向于在万维网上可用文档中共同出现的词语。
12.根据权利要求8所述的计算机实现的方法,其中,把所述一个或多个类别中的至少一些与所述语义聚类相关联的动作包括:产生并存储索引条目,所述索引条目把所述语义聚类映射到所述一个或多个类别中的至少一些中的每个。
13.根据权利要求8所述的计算机实现的方法,其中,所述预定义分类体系的类别对应于以下的至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,和(D)可能在网站内容中找到的相关主题。
14.一种把资产与预定义分类体系的一个或多个类别相关联的计算机实现的方法,所述方法包括:
a)接受关于所述资产的信息;
b)使用所接受的资产信息来标识一个或多个评分语义聚类构成的集;
c)使用所述一个或多个评分语义聚类中的至少一些来标识一个或多个类别构成的集;以及
d)把所述一个或多个类别中的至少一些与所述资产相关联。
15.根据权利要求14所述的计算机实现的方法,其中,所述资产是网页。
16.根据权利要求14所述的计算机实现的方法,其中,所述资产是包括多个网页的网站。
17.根据权利要求14所述的计算机实现的方法,其中,把所述一个或多个类别中的至少一些与所述资产相关联的动作包括:产生并存储索引条目,所述索引条目把资产信息映射到所述一个或多个类别中至少一些中的每个。
18.根据权利要求14所述的计算机实现的方法,其中,所述预定义分类体系的类别对应于以下的至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,(D)可能在网站内容中找到的相关主题,和(E)可能在网站内容中找到的相关内容格式。
19.一种上面存储有包括多个条目的机器可读信息的计算机可读介质,每个条目包括语义聚类信息和标识预定义分类体系的一个或多个相关联类别的信息。
20.根据权利要求19所述的计算机可读介质,其中,所述预定义分类体系的类别对应于以下的至少一个:(A)可能在网站内容中找到的相关商品,(B)可能在网站内容中找到的相关服务,(C)可能在网站内容中找到的相关产业,(D)可能在网站内容中找到的相关主题,和(E)可能在网站内容中找到的相关内容格式。
21.根据权利要求19所述的计算机可读介质,其中,所述语义聚类是词语同现聚类。
22.根据权利要求19所述的计算机可读介质,其中,所述语义聚类包括倾向于在搜索引擎上的搜索会话中共同出现的词语。
23.根据权利要求19所述的计算机可读介质,其中,所述语义聚类包括倾向于在所述万维网上可用的文档中共同出现的词语。
24.一种用于自动分类网站的设备,所述设备包括:
a)用于接受网站信息的装置;
b)用于使用所述网站信息来确定所述网站的评分聚类的集的装置;和
c)用于使用所述聚类的集中的至少一些来确定预定义分类体系的至少一个类别的装置。
25.一种用于把语义聚类与预定义分类体系的一个或多个类别相关联的设备,所述设备包括:
a)用于接受语义聚类的装置;
b)用于使用所述接受的聚类来标识一个或多个评分概念构成的集的装置;
c)用于使用所述一个或多个评分概念中的至少一些来标识一个或多个类别构成的集的装置;和
d)用于把所述一个或多个类别中的至少一些与所述语义聚类相关联的装置。
26.一种用于把资产与预定义分类体系的一个或多个类别相关联的设备,所述设备包括:
a)用于接受关于所述资产的信息的装置;
b)用于使用所述接受的资产信息来标识一个或多个评分语义聚类的构成集的装置;
c)用于使用所述一个或多个评分语义聚类中的至少一些来标识一个或多个类别构成的集的装置;和
d)用于把所述一个或多个类别中的至少一些与所述资产相关联的装置。
CN200680021225.9A 2005-04-22 2006-04-24 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构 Active CN101506767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610141087.3A CN105843844B (zh) 2005-04-22 2006-04-24 相对于分类体系来分类对象及从这种分类导出的数据结构

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/112,716 US8229957B2 (en) 2005-04-22 2005-04-22 Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US11/112,716 2005-04-22
PCT/US2006/015413 WO2006116273A2 (en) 2005-04-22 2006-04-24 Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610141087.3A Division CN105843844B (zh) 2005-04-22 2006-04-24 相对于分类体系来分类对象及从这种分类导出的数据结构

Publications (2)

Publication Number Publication Date
CN101506767A true CN101506767A (zh) 2009-08-12
CN101506767B CN101506767B (zh) 2016-03-30

Family

ID=37188291

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200680021225.9A Active CN101506767B (zh) 2005-04-22 2006-04-24 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
CN201610141087.3A Active CN105843844B (zh) 2005-04-22 2006-04-24 相对于分类体系来分类对象及从这种分类导出的数据结构

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201610141087.3A Active CN105843844B (zh) 2005-04-22 2006-04-24 相对于分类体系来分类对象及从这种分类导出的数据结构

Country Status (7)

Country Link
US (3) US8229957B2 (zh)
EP (1) EP1896935A4 (zh)
KR (2) KR100987314B1 (zh)
CN (2) CN101506767B (zh)
AU (1) AU2006239775B2 (zh)
CA (1) CA2605747C (zh)
WO (1) WO2006116273A2 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN102763103A (zh) * 2010-02-05 2012-10-31 微软公司 从横向概念和主题进行语义广告选择
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN103914488A (zh) * 2013-01-08 2014-07-09 邓寅生 文档的采集、标识、关联、搜索及展现的系统
CN105095320A (zh) * 2014-05-23 2015-11-25 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN108009867A (zh) * 2016-10-28 2018-05-08 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN108351971A (zh) * 2015-10-12 2018-07-31 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和系统
CN111831949A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 快速垂类目标识别分类方法、分类系统及分类装置

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7660463B2 (en) * 2004-06-03 2010-02-09 Microsoft Corporation Foreground extraction using iterated graph cuts
US7698335B1 (en) * 2005-06-27 2010-04-13 Microsoft Corporation Cluster organization of electronically-stored items
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7546278B2 (en) * 2006-03-13 2009-06-09 Microsoft Corporation Correlating categories using taxonomy distance and term space distance
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8005841B1 (en) * 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
US20080046917A1 (en) * 2006-07-31 2008-02-21 Microsoft Corporation Associating Advertisements with On-Demand Media Content
US8122018B2 (en) * 2006-08-09 2012-02-21 Google Inc. System and method for generating creatives
US20080086465A1 (en) * 2006-10-09 2008-04-10 Fontenot Nathan D Establishing document relevance by semantic network density
US8108410B2 (en) 2006-10-09 2012-01-31 International Business Machines Corporation Determining veracity of data in a repository using a semantic network
EP2082366A2 (en) * 2006-11-01 2009-07-29 CVON Innovations Limited Optimization of advertising campaigns on mobile networks
US20090234814A1 (en) * 2006-12-12 2009-09-17 Marco Boerries Configuring a search engine results page with environment-specific information
US20080140591A1 (en) * 2006-12-12 2008-06-12 Yahoo! Inc. System and method for matching objects belonging to hierarchies
US20080172293A1 (en) * 2006-12-28 2008-07-17 Yahoo! Inc. Optimization framework for association of advertisements with sequential media
US8290800B2 (en) * 2007-01-30 2012-10-16 Google Inc. Probabilistic inference of site demographics from aggregate user internet usage and source demographic information
US8321249B2 (en) * 2007-01-30 2012-11-27 Google Inc. Determining a demographic attribute value of an online document visited by users
US20080243607A1 (en) * 2007-03-30 2008-10-02 Google Inc. Related entity content identification
US20080249853A1 (en) * 2007-04-05 2008-10-09 Elan Dekel Advertising campaign template
US20090024470A1 (en) * 2007-07-20 2009-01-22 Google Inc. Vertical clustering and anti-clustering of categories in ad link units
US20210073191A1 (en) * 2007-07-26 2021-03-11 Hamid Hatami-Hanza Knowledgeable Machines And Applications
US8799285B1 (en) 2007-08-02 2014-08-05 Google Inc. Automatic advertising campaign structure suggestion
US10013536B2 (en) * 2007-11-06 2018-07-03 The Mathworks, Inc. License activation and management
US8583645B2 (en) * 2008-01-18 2013-11-12 International Business Machines Corporation Putting items into categories according to rank
WO2009151640A1 (en) * 2008-06-13 2009-12-17 Ebay Inc. Method and system for clustering
US8489582B2 (en) * 2008-08-06 2013-07-16 Yahoo! Inc. Interconnected, universal search experience across multiple verticals
US8117216B1 (en) * 2008-08-26 2012-02-14 Amazon Technologies, Inc. Automated selection of item categories for presenting item recommendations
US20100082623A1 (en) * 2008-09-19 2010-04-01 Aditya Arora Item clustering
US20100082571A1 (en) 2008-09-19 2010-04-01 Gurudatta Horantur Shivaswamy Text conversion
US9576021B2 (en) 2008-09-19 2017-02-21 Ebay Inc. Item matching
US10346879B2 (en) * 2008-11-18 2019-07-09 Sizmek Technologies, Inc. Method and system for identifying web documents for advertisements
WO2010089248A1 (en) 2009-02-03 2010-08-12 International Business Machines Corporation Method and system for semantic searching
US20100274821A1 (en) * 2009-04-22 2010-10-28 Microsoft Corporation Schema Matching Using Clicklogs
US20110072047A1 (en) * 2009-09-21 2011-03-24 Microsoft Corporation Interest Learning from an Image Collection for Advertising
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US9824142B2 (en) * 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US20110197220A1 (en) 2010-02-09 2011-08-11 Google Inc. Customized television advertising
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US8676565B2 (en) 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US8694304B2 (en) * 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8392432B2 (en) * 2010-04-12 2013-03-05 Microsoft Corporation Make and model classifier
US8370330B2 (en) * 2010-05-28 2013-02-05 Apple Inc. Predicting content and context performance based on performance history of users
US9703782B2 (en) 2010-05-28 2017-07-11 Microsoft Technology Licensing, Llc Associating media with metadata of near-duplicates
US8903798B2 (en) 2010-05-28 2014-12-02 Microsoft Corporation Real-time annotation and enrichment of captured video
JP5445339B2 (ja) * 2010-06-08 2014-03-19 ソニー株式会社 コンテンツ推薦装置およびコンテンツ推薦方法
US9524291B2 (en) 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
US8732014B2 (en) * 2010-12-20 2014-05-20 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
US9342590B2 (en) * 2010-12-23 2016-05-17 Microsoft Technology Licensing, Llc Keywords extraction and enrichment via categorization systems
US9542479B2 (en) 2011-02-15 2017-01-10 Telenav, Inc. Navigation system with rule based point of interest classification mechanism and method of operation thereof
US9348894B2 (en) 2011-03-31 2016-05-24 Infosys Limited Facet support, clustering for code query results
WO2012154164A1 (en) * 2011-05-08 2012-11-15 Hewlett-Packard Development Company, L.P. Indicating documents in a thread reaching a threshold
US9678992B2 (en) 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
US9361360B2 (en) * 2011-07-26 2016-06-07 Empire Technology Development Llc Method and system for retrieving information from semantic database
US8954436B2 (en) * 2012-01-26 2015-02-10 International Business Machines Corporation Monitoring content repositories, identifying misclassified content objects, and suggesting reclassification
US9069880B2 (en) * 2012-03-16 2015-06-30 Microsoft Technology Licensing, Llc Prediction and isolation of patterns across datasets
US9092504B2 (en) 2012-04-09 2015-07-28 Vivek Ventures, LLC Clustered information processing and searching with structured-unstructured database bridge
US9262506B2 (en) 2012-05-18 2016-02-16 International Business Machines Corporation Generating mappings between a plurality of taxonomies
US8849804B1 (en) * 2012-08-10 2014-09-30 Google Inc. Distributing interest categories within a hierarchical classification
US9135240B2 (en) 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system
US9311386B1 (en) * 2013-04-03 2016-04-12 Narus, Inc. Categorizing network resources and extracting user interests from network activity
US9524520B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories
US9524319B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance
US9411905B1 (en) * 2013-09-26 2016-08-09 Groupon, Inc. Multi-term query subsumption for document classification
US9275133B1 (en) * 2013-11-13 2016-03-01 Google Inc. Content request identification via a computer network
WO2015081131A1 (en) * 2013-11-27 2015-06-04 Ntt Docomo, Inc. Generating resources for support of online services
US9652695B2 (en) 2013-12-20 2017-05-16 Google Inc. Label consistency for image analysis
US20170053024A1 (en) * 2014-04-28 2017-02-23 Hewlett Packard Enterprise Development Lp Term chain clustering
US9727906B1 (en) * 2014-12-15 2017-08-08 Amazon Technologies, Inc. Generating item clusters based on aggregated search history data
US10007730B2 (en) * 2015-01-30 2018-06-26 Microsoft Technology Licensing, Llc Compensating for bias in search results
US9424321B1 (en) * 2015-04-27 2016-08-23 Altep, Inc. Conceptual document analysis and characterization
CN105678586B (zh) 2016-01-12 2020-09-29 腾讯科技(深圳)有限公司 一种信息扶持方法和装置
US20170262654A1 (en) * 2016-03-14 2017-09-14 Rita H. Wouhaybi Secure group data exchange
WO2017214266A1 (en) * 2016-06-07 2017-12-14 Panoramix Solutions Systems and methods for identifying and classifying text
US10068207B2 (en) * 2016-06-17 2018-09-04 Snap-On Incorporated Systems and methods to generate repair orders using a taxonomy and an ontology
KR102604450B1 (ko) * 2016-08-03 2023-11-22 삼성전자주식회사 키워드를 기초로 접속 기록을 저장하는 방법 및 장치
CN107093122B (zh) * 2016-12-02 2021-01-19 北京星选科技有限公司 对象分类方法及装置
US10902444B2 (en) 2017-01-12 2021-01-26 Microsoft Technology Licensing, Llc Computer application market clusters for application searching
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
US10678832B2 (en) * 2017-09-29 2020-06-09 Apple Inc. Search index utilizing clusters of semantically similar phrases
US11164078B2 (en) * 2017-11-08 2021-11-02 International Business Machines Corporation Model matching and learning rate selection for fine tuning
CN111859973A (zh) 2019-04-08 2020-10-30 百度时代网络技术(北京)有限公司 用于生成解说词的方法和装置
US11003643B2 (en) * 2019-04-30 2021-05-11 Amperity, Inc. Multi-level conflict-free entity clusterings
US11914963B2 (en) * 2020-03-04 2024-02-27 Theta Lake, Inc. Systems and methods for determining and using semantic relatedness to classify segments of text
CN112287273B (zh) * 2020-10-27 2022-09-30 中国科学院计算技术研究所 一种网站列表页面的分类方法、系统及存储介质
US20230401238A1 (en) * 2022-06-14 2023-12-14 Ebay Inc. Item retrieval using query core intent detection

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5724521A (en) 1994-11-03 1998-03-03 Intel Corporation Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner
US5740549A (en) 1995-06-12 1998-04-14 Pointcast, Inc. Information and advertising distribution system and method
US6026368A (en) 1995-07-17 2000-02-15 24/7 Media, Inc. On-line interactive system and method for providing content and advertising information to a targeted set of viewers
JP2001525951A (ja) 1995-12-08 2001-12-11 テルコーディア テクノロジーズ インコーポレイテッド コンピュータ・ネットワークにおいて、広告を設置する方法およびシステム
US5848397A (en) 1996-04-19 1998-12-08 Juno Online Services, L.P. Method and apparatus for scheduling the presentation of messages to computer users
US5948061A (en) 1996-10-29 1999-09-07 Double Click, Inc. Method of delivery, targeting, and measuring advertising over networks
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
US6144944A (en) 1997-04-24 2000-11-07 Imgis, Inc. Computer system for efficiently selecting and providing information
US6044376A (en) 1997-04-24 2000-03-28 Imgis, Inc. Content stream analysis
AU8072798A (en) 1997-06-16 1999-01-04 Doubleclick Inc. Method and apparatus for automatic placement of advertising
US6415282B1 (en) * 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
US6167382A (en) 1998-06-01 2000-12-26 F.A.C. Services Group, L.P. Design and production of print advertising and commercial display materials over the Internet
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6985882B1 (en) 1999-02-05 2006-01-10 Directrep, Llc Method and system for selling and purchasing media advertising over a distributed communication network
CN1271906A (zh) * 1999-04-28 2000-11-01 龙卷风科技股份有限公司 全球数据网站的分类全文搜寻系统
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6816857B1 (en) 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US6401075B1 (en) 2000-02-14 2002-06-04 Global Network, Inc. Methods of placing, purchasing and monitoring internet advertising
AU2001235871A1 (en) * 2000-03-13 2001-09-24 Ian John Vaughan Organising information
US6704729B1 (en) 2000-05-19 2004-03-09 Microsoft Corporation Retrieval of relevant information categories
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
WO2002041190A2 (en) * 2000-11-15 2002-05-23 Holbrook David M Apparatus and method for organizing and/or presenting data
US7627596B2 (en) * 2001-02-22 2009-12-01 International Business Machines Corporation Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries
US20030118128A1 (en) * 2001-12-20 2003-06-26 Qilian Liang Method, system, device and computer program product for a demodulator with communications link adaptation
US7315613B2 (en) 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US7136875B2 (en) 2002-09-24 2006-11-14 Google, Inc. Serving advertisements based on content
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
AU2003243533A1 (en) * 2002-06-12 2003-12-31 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
DE60335472D1 (de) 2002-07-23 2011-02-03 Quigo Technologies Inc System und verfahren zur automatisierten abbildung von schlüsselwörtern und schlüsselphrasen auf dokumenten
US7383258B2 (en) 2002-10-03 2008-06-03 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words
CN1419361A (zh) * 2002-10-31 2003-05-21 上海交通大学 网上图像智能安全监管方法
US6944612B2 (en) 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
CN1145900C (zh) * 2003-03-04 2004-04-14 杨炳儒 一种Web挖掘系统的构造方法
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
US8239263B2 (en) * 2003-09-05 2012-08-07 Google Inc. Identifying and/or blocking ads such as document-specific competitive ads
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US20050203924A1 (en) * 2004-03-13 2005-09-15 Rosenberg Gerald B. System and methods for analytic research and literate reporting of authoritative document collections
US20060136451A1 (en) * 2004-12-22 2006-06-22 Mikhail Denissov Methods and systems for applying attention strength, activation scores and co-occurrence statistics in information management
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102763103A (zh) * 2010-02-05 2012-10-31 微软公司 从横向概念和主题进行语义广告选择
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN103914488B (zh) * 2013-01-08 2016-12-28 邓寅生 文档的采集、标识、关联、搜索及展现的系统
CN103914488A (zh) * 2013-01-08 2014-07-09 邓寅生 文档的采集、标识、关联、搜索及展现的系统
CN103207913B (zh) * 2013-04-15 2016-12-28 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN103207913A (zh) * 2013-04-15 2013-07-17 武汉理工大学 商品细粒度语义关系的获取方法和系统
CN105095320A (zh) * 2014-05-23 2015-11-25 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN108351971A (zh) * 2015-10-12 2018-07-31 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和系统
CN108009867A (zh) * 2016-10-28 2018-05-08 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN108009867B (zh) * 2016-10-28 2021-04-30 上海优扬新媒信息技术有限公司 信息输出方法及装置
CN111831949A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 快速垂类目标识别分类方法、分类系统及分类装置
CN111831949B (zh) * 2019-04-22 2023-09-15 百度在线网络技术(北京)有限公司 快速垂类目标识别分类方法、分类系统及分类装置

Also Published As

Publication number Publication date
CN105843844A (zh) 2016-08-10
US8918395B2 (en) 2014-12-23
CN101506767B (zh) 2016-03-30
EP1896935A2 (en) 2008-03-12
KR101120418B1 (ko) 2012-03-16
US9971813B2 (en) 2018-05-15
EP1896935A4 (en) 2009-10-21
CA2605747A1 (en) 2006-11-02
AU2006239775A8 (en) 2006-11-02
US8229957B2 (en) 2012-07-24
KR20100067694A (ko) 2010-06-21
KR20080005286A (ko) 2008-01-10
WO2006116273A3 (en) 2009-04-30
US20120259856A1 (en) 2012-10-11
US20150088896A1 (en) 2015-03-26
AU2006239775A1 (en) 2006-11-02
CA2605747C (en) 2015-04-21
CN105843844B (zh) 2019-10-15
WO2006116273A2 (en) 2006-11-02
KR100987314B1 (ko) 2010-10-13
AU2006239775B2 (en) 2010-08-05
US20060242147A1 (en) 2006-10-26

Similar Documents

Publication Publication Date Title
CN101506767B (zh) 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
US8781813B2 (en) Intent management tool for identifying concepts associated with a plurality of users&#39; queries
CN101796795B (zh) 分布式系统
US8380721B2 (en) System and method for context-based knowledge search, tagging, collaboration, management, and advertisement
Kim Personalization: Definition, status, and challenges ahead
US7912897B2 (en) Method system and storage medium for facilitating web searching and brand recognition capabilities over a computer network
US8515811B2 (en) Online advertising valuation apparatus and method
CN101563691B (zh) 用于在搜索结果中包括集合项目的技术
US7774333B2 (en) System and method for associating queries and documents with contextual advertisements
US20140236954A1 (en) System and method for automating categorization and aggregation of content from network sites
US20070027901A1 (en) Method and System for Developing and Managing A Computer-Based Marketing Campaign
US20060026114A1 (en) Data gathering and distribution system
US20070027850A1 (en) Methods and systems for developing and managing a computer-based marketing campaign
US20090222440A1 (en) Search engine for carrying out a location-dependent search
CN110968800B (zh) 一种信息推荐方法、装置、电子设备及可读存储介质
WO2006017081A2 (en) Method and system for collecting and posting local advertising to a site accessible via a computer network
US7895212B2 (en) Method for estimating a prestige of an entity
CN110781213A (zh) 一种以人员为中心的多源海量数据关联搜索方法和系统
Shen et al. A rank-based Prediction Algorithm of Learning User's Intention
CN105378729A (zh) 生成用于支持在线服务的资源
TW201822102A (zh) 自動化意圖萃取裝置及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.