CN100517311C - 用于对多意义查询的相关术语提议的方法、系统及计算装置 - Google Patents

用于对多意义查询的相关术语提议的方法、系统及计算装置 Download PDF

Info

Publication number
CN100517311C
CN100517311C CNB2005100716898A CN200510071689A CN100517311C CN 100517311 C CN100517311 C CN 100517311C CN B2005100716898 A CNB2005100716898 A CN B2005100716898A CN 200510071689 A CN200510071689 A CN 200510071689A CN 100517311 C CN100517311 C CN 100517311C
Authority
CN
China
Prior art keywords
term
phrase
occurrence number
historical query
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100716898A
Other languages
English (en)
Other versions
CN1684072A (zh
Inventor
B·章
H-J·曾
L·李
T·纳吉姆
马维英
Y·李
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1684072A publication Critical patent/CN1684072A/zh
Application granted granted Critical
Publication of CN100517311C publication Critical patent/CN100517311C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D25/00Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof
    • B42D25/20Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof characterised by a particular use or purpose
    • B42D25/29Securities; Bank notes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D15/00Printed matter of special format or style not otherwise provided for
    • B42D15/0053Forms specially designed for commercial use, e.g. bills, receipts, offer or order sheets, coupons
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D15/00Printed matter of special format or style not otherwise provided for
    • B42D15/0073Printed matter of special format or style not otherwise provided for characterised by shape or material of the sheets
    • B42D15/0086Sheets combined with other articles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Abstract

描述了一种用于相关术语提议的系统和方法。在一个方面,生成术语群集作为术语向量的所计算的相似性函数。每个根据搜索结果所生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询的集合相关。响应于从实体接收术语/短语,根据术语群集中的术语/短语来估计术语/短语以标识一个或多个相关的术语提议。

Description

用于对多意义查询的相关术语提议的方法、系统及计算装置
技术领域
本发明的系统和方法适合于数据挖掘。
背景技术
关键字或短语是当网上冲浪者在全球网(WWW)上搜索相关网页/网站时向搜索引擎提交的单词或术语的集合。搜索引擎根据在网页/网站上出现的关键字和关键字短语确定网站的相关性。由于网站通信量的重要比率是由搜索引擎的使用引起的,因而网站创办人们知道适当的关键字/短语选择对于增加网站通信量以获得所需的站点的曝光度是至关重要的。识别相关网站关键字、用于搜索引擎结果最佳化的技术包括,例如,由网站内容的人进行评估机器目的来识别相关关键字。这种评估可以包括关键字常用工具的使用。这种工具确定有多少人将特定关键字或包括关键字的短语提交给搜索引擎。为使搜索引擎结果最佳化,通常为网站选择与网站相关并确定在搜索查询中要常常加以使用的关键字。
在识别一批用于使网站的搜索引擎结果最佳化的关键字之后,创办人们可能希望提升网站到搜索引擎结果中更高的位置(相比较其它网站搜索引擎结果的显示位置)。为此,创办人对关键字出价以表明每次网上冲浪者点击与关键字相联系的创办人的列表时,创办人将支付多少费用。换句话说,关键字出价是每次点击支付出价。相比较对于相同关键字的其它出价,关键字出价的量越大,搜索引擎将在搜索结果中根据关键字显示相联系的网站位置越高(就重要性而言更显著)。
鉴于以上,更好地识别与网站内容相关的关键字的系统和方法将受到网站创办人的欢迎。这将允许创办人对用户推荐的术语出价。理想地这些系统和方法将独立于人的需要以评估网站内容以识别用于搜索引擎最佳化和关键字出价的相关关键字。
发明内容
描述了用于相关术语提议的系统和方法。一个方面,术语群集是作为术语向量的计算出的相似性的函数而生成的。每个已经由搜索结果生成的术语向量都与先前提交给搜索引擎的高出现次数出现(FOO)历史查询集合相关联。响应于从实体接收术语/短语,由术语群集中的术语/短语来评估该术语/短语以识别一个或多个相关术语提议。
附图说明
在附图中,组件附图标记的最左边的数字表示该组件第一次出现的那个特定附图。
图1举例说明用于对多意义查询的相关术语提议的示意性系统。
图2举例说明用于对多意义查询的相关术语提议的示意性程序。
图3举例说明用于对多意义查询的相关术语提议的示意性程序。该程序的操作是基于图2的操作。
图4示出了示意性适用计算环境,在该环境中可以完全或部分地实现随后描述的用于对多意义查询的相关术语的提议的系统、装置和方法。
具体实施方式
综述
看来提议相关术语/短语的最简单的方法就是使用子字符串匹配的途径,当一个术语/短语包括另一个术语/短语的一些或全部的字时它判定两个术语/短语为相关的。然而,该技术基本上是有限的。由于相关术语不必包含共同的词,因而该方法会忽略许多语义上相关的术语。举个例子,认为鞋类(footwear)公司希望知道“鞋(shoe)”的相关术语。如果使用常规匹配途径,将仅仅提议“女人的鞋”,“折扣鞋”,等等。然而,还存在许多其它相关术语诸如“运动鞋(sneaker)”、“远行靴(hiking boot)”、“耐克”等等。
以下的用于为多意义查询的相关术语提议的系统和方法致力于常规子字符串匹配技术的限制。为此,系统和方法为了与终端用户(例如,网站创办者、广告商、等等)提交的术语/短语语义相关的术语/短语而挖掘搜索引擎结果。通过从搜索引擎结果挖掘语境(例如,文本,和/或等等)来构建语义关系,围绕术语/短语的语境能够启示术语/短语的意思。更确切地说,从历史查询日志中聚集得到查询术语的集合,其中这些查询项的出现次数(FOO)被计数。这些查询术语逐个提交给搜索引擎。在一个实施方案中,与其它历史查询日志术语的出现次数相比较而言,所提交的历史查询日志术语具有相对高的出现次数。
响应于接收各个所提交的查询,搜索引擎返回搜索结果的排序列表,包括URL、结果标题、以及每个结果和/或所提交的查询周围的语境的简要描述。当接收到搜索引擎结果时,系统和方法从返回的搜索结果(例如,一个或多个第一结果)中选择一个来提取特征集合(关键字和使用公知的TFIDF技术计算的相应的权值)。从提交的搜索查询中提取相应的搜索引擎结果特征之后,将所提取的特征标准化。标准化的特征用于表示每个提交的查询,并依照文本群集算法使用该标准化特征以将提交的查询术语分组到群集中。
响应于从用户接收术语/短语,将术语/短语与术语群集中的各个术语/短语相比较。由于术语群集包括彼此上下文联系的术语,因而当术语/短语与群集内的术语相比较时,根据任一多个相关的语境,或“意思”对术语短语进行评估。在一个实施方案中,如果术语/短语与来自一个群集的术语匹配,那么在提议术语列表中将该群集返回给用户。提议术语列表包括确定将与术语/短语语义地和/或上下文相关地联系的术语/短语、各个术语/短语和术语/短语的相似性测量值(可信值)、以及各个术语/短语出现次数(FOO)。根据FOO和可信值的组合对返回列表进行排序。如果术语/短语与多于单个的术语群集匹配,那么生成多个提议术语列表。根据群集大小对列表进行排序;并且根据FOO和可信值的组合对每个列表内的术语排序。如果没有识别出匹配群集,那么查询术语进一步与从低FOO查询术语生成的扩展的群集相匹配。
在一个实施方案中,通过为术语群集训练分类器(例如,最接近K的临近值分类器)将低FOO的查询术语分组,所述术语群集是从高出现次数出现的历史查询日志术语生成的。逐个提交确定具有低出现次数的历史查询术语至搜索引擎。然后从返回的搜索结果中选择的术语(例如,第一网页、和/或等等)中提取特征。将所提取的特征标准化并用于表示低FOO的查询术语。然后将查询术语分类到已存在的群集中以根据训练的分类器生成扩展的群集。然后根据这些扩展的群集来评估提交术语/短语的用户以识别和返回提议的术语列表至用户。
现在将更详细地描述用于对多意义查询进行相关术语/关键字提议的系统和方法的这些以及其它方面。
示意性系统
翻至附图,其中同样的参考数字表示同样的元素,描述了用于对多意义查询的相关术语提议的系统和方法并且作为在适合的计算环境中实现而示出。尽管未作要求,但本发明是以由个人计算机执行的计算机可执行指令(程序模块)的通用环境中描述的。程序模块通常包括执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、等等。当在前述环境中描述系统和方法时,下文中所描述的动作和操作也可以以硬件实现。
图1示出用于对多意义查询的相关术语提议的示意性系统100。在该实施方案中,系统100包括经由网络104耦合到客户计算设备106的编辑验证服务器(EVS)102。响应于,例如是从客户计算设备106或在EVS102上执行的另一个应用(未示出),接收术语/短语108,EVS102生成并发送提议术语列表110至客户计算设备106以允许用户在实际对术语/短语出价之前评估与术语/短语108语义地/上下文地相关的一组术语。网络104可以包括局域网(LAN)和通用广域网(WAN)通信环境的任意组合,诸如在办公室常见的网络、企业域计算机网络、内部网、以及因特网。当系统100包括客户计算设备106时,客户计算设备是诸如个人计算机、膝上型电脑、服务器、移动计算设备(例如,蜂窝电话、个人数字助理、或手持式计算器)等等计算设备中的任一种。
提议术语列表110包括,例如,被确定与术语/短语108相关的术语/短语,各个术语/短语和测量术语/短语108的相似性测量值(可信值),以及各个术语/短语出现次数(FOO)——在历史查询日志中的出现次数。以下更详细地描述与片段标题关键字挖掘、特征提取、以及术语群集有关的,用于识别相关术语/短语、生成相似性测量值、和生成FOO值的技术。
表1示出确定与“mail”的术语/短语108相关的术语的示意性提议术语列表110。相关术语/短语108的术语在该实施例中列1中示出,标题为“所提议的术语”。
表1
对出价术语“邮件”的示范性提议术语列表
Figure C20051007168900121
Figure C20051007168900131
参考表1,注意在提议术语列表中的术语被映射到术语相似性值(参见,列2,标题“相似性”)和出现次数的得分(参见,列3,标题“出现次数”)。在标题为“术语群集”的部中,每个如下文所描述的计算得到的术语相似性值,都提供相应提议术语(列1)和术语/短语108(在该实施例中是“mail”之间的相似性测量值。每个出现次数值,或得分,都表明在历史查询日志中所提议的术语出现的次数。根据商业目标,所提议的术语列表被按照术语相似性来分类,和/或按照出现次数得分来分类。
任一给定术语/短语108(例如,邮件,等)可以具有多于一个可在其中使用出价术语的的语境。为了说明这个,STS模块112在提议术语列表110中提供指示,其中所提议的术语对应于术语/短语108的多语境的指示。例如,参照表1,术语/短语108“mail”具有两个(2)语境:(1)传统脱机邮件以及(2)联机电子邮件。注意为这两个出价术语语境的每一个都示出了相关术语的各个列表。
另外,用于任意术语/短语108的提议的术语可以超过出价术语的同义词。举个例子,参照表1,提议术语“usps”是用于处理邮件的组织的缩写,而不是用于出价术语“mail”的缩写。然而,“usps”也是与“mail”出价术语非常相关的术语,因此,示出在提议术语列表110中。在一种实施方案中,STS模块112确定在相关术语R(例如,“usps”)和目标术语T(例如,“mail”)之间的连系作为以下联系规则的函数:itr(T)——>itr(R),其中“itr”表示“对……感兴趣”。如果用户(广告商,网站创办人,和/或等等)对R感兴趣,那么用户也将对T感兴趣。
EVS102包括若干计算机程序模块以生成提议术语列表110。计算机程序模块包括,例如,搜索术语提议(STS)模块112和分类模块114。STS模块112从查询日志118中检索一批历史查询116。历史查询包括先前提交给搜索引擎的搜索查询术语。STS模块112对历史查询116进行评估并根据出现次数标识高频率出现搜索术语120的以及相对较低频率出现的搜索术语122。在该实施方案中,可配置阈值用于确定历史查询是具有相对高还是较低的出现次数。举个例子,在历史查询116中、出现至少阈值数的次数的搜索查询术语被认为具有高频率的出现次数。类似地,在历史查询116中、出现少于阈值数的次数的搜索查询术语被认为具有低频率的出现次数。为了举例说明,在“其它数据”124的各个部分示出了这样的阈值。
关键字挖掘和特征提取
STS模块112通过将每个查询(搜索查询)逐个提交至搜索引擎126来挖掘出现查询术语120的语义/语境意思高出现次数。响应于接收搜索查询128,搜索引擎126返回搜索结果130中的排列列表(其序号是可配置的)至STS模块112。排列列表包括URL、结果标题、和与提交的搜索查询128相关的查询术语的简要描述和/或语境。排列列表存储在搜索结果132中。对每个搜索查询128都进行这种搜索结果检索。
STS模块112解析网页超文本标记语言(HTML)以从每个检索的搜索结果132中为每个查询术语提取URL、结果标题和查询术语的简要描述和/或语境。由STS模块112将URL、结果标题、查询术语的简要描述和/或语境,以及用于获得检索的搜索结果132的搜索查询128存储在所提取的特征134的各个记录中。
在解析了高频率出现的查询术语120的搜索结果130之后,STS模块112对所提取的特征134进行文本预处理操作以根据所提取的特征来把语言符号(符号化)生成为单个关键字。为了减小记号的维数,STS模块112去除任意无用字(例如,“the”、“a”、“is”、等等)并去除通常的后缀以标准化该关键字,例如,使用公知的Porter stemming算法。STS模块112将结果提取特征134安排到一个或多个术语向量136中。
每个术语向量136具有基于术语出现次数和转换的文档出现次数(TFIDF)得分的维数。第i向量的第j个关键字的权值如下计算:
wij=TFij·log(N/DFj)
其中TFij表示术语出现次数(在第i个记录中关键字j的出现数目),N是查询术语的总共数目,DFj是包含关键字j的记录的数目。
术语群集
STS模块112将相似术语分组以从术语向量136生成术语群集138。为此,在该实施方案中,每个术语的给定的向量表示,用余弦函数来测量一对术语之间的相似性(调用标准化向量):
sim ( q j , q k ) = Σ i = 1 d w ij · w ik
因而,两个术语之间的距离(相似性测量值)被定义为:
dist(qj,qk)=1-sim(qj,qk)
在“其它数据”124的各个部分示出这种相似性测量值。在表1的示意性提议术语列表110中示出示意性的该相似性值。
STS模块112使用所计算的相似性测量值以将关键字向量134表示的术语群集/分组到术语群集138中。更确切的说,在该实施方案中,STS模块112使用公知的基于密度的群集算法(DBSCAN)以生成术语群集138。DBSCAN使用两个参数:Eps和MinPts。Eps表示在群集138中的点间的最大距离。由于当向量的尾部移动到原点时每个向量都能够由向量的首部的点表示,因而这里点是向量的等价物。MinPts表示群集138中的点的最小数。为了生成群集138,DBSCAN以任意点p开始并从p检索关于Eps和MinPts所有点可达到密度。如果p是核点,那么该程序产出关于Eps和MinPts的群集138。如果p是界线点,那么从p没有点是可达到密度的并且DBSCAN访问下一个点。
术语匹配
响应于从用户(例如,广告商,网站创办人,等)接收术语/短语108,STS模块112将术语/短语108与群集138中的各个术语/短语作比较。由于术语群集138包括彼此语境地相关的术语,因而根据多个相关的和历史的语境、或“意思”来评估术语/短语108。在一个实施方案中,如果STS模块112确定术语/短语与来自群集138的术语/短语相匹配,那么搜索术语提议模块112从群集138生成提议术语列表110。在该实施方案中,匹配可以是精确的匹配或者带有少量变形诸如单一/多种形式、拼错、标点符号、等等的匹配。返回的列表根据FOO和可信值的结合来排序。
如果STS模块112确定术语/短语108与多个术语群集138中的术语相匹配,那么搜索术语提议模块112从中多个术语群集138中的术语生成多个提议术语列表110。列表以群集大小排序;每个列表内的术语以FOO和可信值来排序。
低FOO术语的分类
当从高频出现(FOO)查询术语120生成的术语群集138不包括和用户输入术语/短语108相同的术语时,分类模块114生成提议术语列表110。为此,分类模块114从根据高频出现(FOO)查询日志术语120生成的术语群集138来生成经训练的分类器140。在适用于分类操作的向量空间模型中,术语群集138中的术语已经具有相应的关键字向量。另外,去除无用字和单词词干化(去除后缀)减少了术语向量136的维数(群集138基于此)。在一个实施方案中,可以采用其它的维数减少方法,例如,特征选择或再参数化。
在该实施方案中,为了将未知类查询术语120进行分类,分类模块114使用最接近k的分类器算法在所有已知类查询术语120中根据它们的相应特征向量,来查找k个最相似的临近值,并使用临近值的分类标签的权值的大部分来预测新的查询术语的分类。当每个群集138由简单序号来标号时,已经在术语群集138中的每个查询术语被赋予与它们相应的群集的标签相同的标签。使用每个相邻值到X的相似性来加权这些相邻值,其中相似性是由欧几里得的距离或者两个向量间的余弦值来测量的。余弦相似性如下:
sim ( X , D j ) = Σ t i ∈ ( x ∩ D j ) x i · d ij | | X | | 2 · | | D j | | 2
其中X是测试术语,即,要加以分类的查询术语,被表示为向量;Dj是第j个训练术语;ti是由X和Dj共享的词;xi是X中的关键字ti的权值;dij是D中关键字ti的权值, | | X | | 2 = x 1 2 + x 2 2 + x 3 2 是X的范数,||Dj||2是Dj的范数。因而,测试术语X的分类标签是所有相邻值的类别标签的加权的多数:
label ( X ) = arg max l i ( Σ All D j where label ( D j ) = l i sim ( X , Di ) )
在另一个实施方案中,不同的统计分类和机器学习技术(例如,包括回归模块,贝叶斯分类器,决定树,神经网络,以及支持向量机器)而非最接近的相邻值分类技术用于生成训练的分类器140。
分类模块114逐一(经由各个搜索查询128)将出现低出现次数(FOO)的查询术语提交给搜索引擎126。响应于接收与特定搜索查询128相关联的搜索结果130,并使用已经描述的技术,分类模块114从一个或多个由搜索结果130识别的所检索的搜索结果132中提取特征(已提取的特征134)。在该实施方案中,从第一级的搜索结果132中提取特征。对于每个经检索和解析的搜索结果132,分类模块114在提取的特征134的各个记录中存储以下信息:URL,结果标题,查询术语的简要描述和/或语境,以及用于获得所检索的搜索结果132的搜索查询128。接下来,分类模块114作标记,减少维数,并将从低FOO查询术语122导出的提取特征134标准化,以生成术语向量136。从而,分类114将查询术语分组到群集138的各个集合。使用训练的分类器140(根据高FOO查询术语120生成)来执行该分组操作。
分类114根据这些已扩展的术语群集(根据低FOO查询术语122生成)来评估用户提交的术语/短语108,以识别并返回一个或多个提议的术语列表110至用户。以上在段【0032】和【0033】和以下部分中描述了示意性的该程序。
示意性程序
图2举例说明用于对多意义查询的相关术语提议的示意性程序200。为了便于讨论,就图1的组件讨论程序的操作。(所有的参考序号都是以其中组件是以其中第一次介绍该组件的附图的数字开始的)。在块202,搜索术语提议(STS)模块112(图1)从查询日志120采集历史查询术语116。STS模块112根据出现次数来组织历史查询为116。在块204,STS模块112发送出现高出现次数的查询术语120至搜索引擎132并接收相应的搜索结果130。在块206,STS模块112从每个搜索结果130中提取片断描述并将片断描述(提取特征134)合并在一起以形成术语向量136。为每个不同的高出现次数查询术语120生成不同术语向量136。
在块208,STS模块112运用群集算法以将基于术语向量136的基本上相似的术语分组到术语群集138中。在块210,响应于从用户接收术语/短语108,STS模块112从来自术语群集138的任意关键字/关键短语生成提议术语列表110,所述术语群集138确定基本上与术语/短语108相似。在块212,STS模块112确定来自关键字群集138的任一关键字/短语是否基本上与术语/短语108相似。如果是,在块214程序继续,其中在STS模块112发送提议术语列表110至用户。否则,如页上参考标记“A”所示,在图3的块302程序继续。
图3举例说明用于对多意义查询的相关术语提议的示意性程序300。程序300的操作是基于附图2的程序200的操作。为了便于讨论,就图1的组件讨论程序的操作。(所有的参考序号都是以其中组件是第一次介绍的附图的数字开始的)。在块302,STS模块112从术语群集138生成分类器140,其中以上根据高出现次数查询术语120。在块304,STS模块112逐个发送低出现次数查询术语122至搜索引擎132并接收相应的搜索结果130。在块306,STS模块112从搜索结果130提取片断描述(所提取的特征134),并由此生成术语向量136。在块308,根据训练的分类器140,STS模块112将根据出现低出现次数查询术语122生成的术语向量136分类,以根据低出现次数出现查询术语来生成各个术语群集138。
在块310,STS模块112从来自术语群集138的任意关键字/关键短语生成提议术语列表110,所述术语群集138确定基本上与术语/短语108相似。在块312,STS模块112发送提议术语列表110至用户。
示意性操作环境
图4举例说明适于计算环境400的实施例,其中可以部分或全部的实现用于关于对多意义查询的术语提议的图1的系统100和图2和3的方法。示意性计算环境400仅仅是一个适于计算环境的实施例,并非用于对在此描述的系统和方法的功能性或使用范围建议任何限制。也不应当将计算环境400解释为依赖或需要涉及在计算环境400中所举例说明的组件的任一或其组合。
在此描述的方法和系统可与若干其它通用目的或特殊目的计算系统环境或结构操作。适合使用的公知计算系统、环境、和/或结构的实施例包括,但不局限于,个人计算机、服务器计算机、多处理器系统、基于微处理器的系统、网络PC、小型型计算机、大型计算机、包括以上任一种系统或设备的分布式计算环境、等等。也可以在有限资源的客户端,诸如手提式计算机、或其他计算设备来实现该结构的简化或部分设备的版本。本发明实践于由经过通信网络链接的远程处理设备执行任务的分布式计算环境中。在分布式计算环境中,程序模块可以位于局域以及远程的存储器存储设备中。
参照图4,用于对多意义查询的相关术语提议的示意性系统包括计算机410形式的通用目的计算设备。以下所描述的计算机410的方面是客户计算设备PPS服务器102(图1)和/或客户计算设备106的示意性实施方案。计算机410的组件可以包括,但不局限于,处理单元420、系统存储器430、和将包括系统存储器的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是包括存储器总线或存储控制器、外围总线、和使用各种总线结构的局部总线的任意几种总线结构。通过非限制性实施例,这种结构可以包括工业标准结构(ISA)总线,微通道结构(MCA)总线,扩展工业标准结构(EISA)总线,视频电子标准协会(VESA)局域总线,和外围组件互连(PCI)总线以及公知的多层架构总线。
计算机410典型地包括各种计算机可读介质。计算机可读介质可以是由计算机410访问的任何可用的介质,并包括易失性和非易失性介质,可移动和不可移动介质。通过非限制性实施例,计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包括在为信息存储的任一方法或技术中实现的易失性和非易失性、可移动和不可移动介质,所述信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括,但不局限于,RAM,ROM,EEPROM,闪存或其它存储器技术,CD-ROM、数字通用盘(DVD)或其它光盘存储设备、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或能用于存储所想要的信息并能够由计算机410访问的任何其它介质。
通信介质典型地包括有计算机可读指令、数据结构、程序模块或诸如载波或其它传送机制的调制数据信号中的其它数据,并包括任一信息传递介质。术语“调制数据信号”意思是具有一个或多个其特征集或以这种方式变换以便在信号中编码信息的信号。通过非限制性实施例,通信介质包括诸如有线网络或直线连接的有线介质和诸如声音、RF、红外线和其它无线介质。以上任一合并都应当包括在计算机可读介质的范围内。
系统存储器430包括诸如只读存储器(ROM)431和随机访问存储器(RAM)432的易失性和/或非易失性形式的计算机存储介质。基本输入/输出系统433(BIOS),诸如在启动期间包含帮助在计算机410内的元素传送信息的基本例行程序,典型地存储在ROM431中。RAM432典型地包含可立即访问和/或由处理单元420正操作的数据和/或程序模块。通过非限制性实施例,图4举例说明操作系统434,应用程序435,其它程序模块436,和程序数据437。在一个实施方案中,其中计算机410是PPS服务器102。在该情形中,应用程序435包含搜索术语提议模块112,和分类模块114。在该相同情形中,程序数据437包含术语/短语108,所提议的术语列表110,历史查询116,搜索查询128,搜索结果130,搜索结果132,所提取的特征134,术语向量136,关键字群集138,所训练的分类器140,和其它数据124。
计算机410也可以包括其它的可移动/不可移动、易失性/非易失性计算机存储介质。仅仅通过实施例,图4举例说明读取或写入不可移动、非易失性磁介质的硬盘驱动441,读取或写入可移动、非易失性磁盘452的磁盘驱动451,和读取或写入诸如CD ROM或其它光介质的可移动、非易失性光盘456的光盘驱动455。其它可用于示意性操作环境的可移动/不可移动、易失性磁性/非易失性计算机存储介质包括,但不局限于,盒式磁带、闪存卡、数字通用盘、数字录像磁带、固态RAM、固态ROM、等等。经过诸如接口440的不可移动存储器接口,硬盘驱动441典型地连接到系统总线421,并且经过诸如接口450的可移动存储器接口,磁盘驱动451和光盘驱动455典型地连接到系统总线421。
以上讨论并在图4中举例说明的驱动器和与它们相联的计算机存储介质为计算机410提供计算机可读指令、数据结构、程序模块、和其它数据的存储。在图4中,例如,硬盘驱动441举例说明以存储操作系统444、应用程序445、其它程序模块446、和程序数据447。注意,这些组件能够与操作系统434、应用程序435、其它程序模块436、和程序数据437相同或不同。在此对操作系统444、应用程序445、其它程序模块446、和程序数据447给出不同的序号以举例说明它们至少是不同的拷贝。
用户可以通过输入设备诸如键盘462和点击设备461(通常称作鼠标、跟踪球、或触摸垫)将命令和信息输入到计算机410中。其它输入设备(未示出)可以包括麦克风、操纵杆、游戏板、附属盘(satellite dish)、扫描仪、等等。这些输入设备和其它输入设备通常经耦合到系统总线421的用户输入接口460连接到处理单元420,但也可以通过其它接口和总线结构连接,诸如并行端口、游戏端口或通用串行总线(USB)。
监视器491或其它类型的显示设备也可以经由诸如视频接口490的接口连接到系统总线421。除监视器,计算机还可以包括诸如可以通过输出外围接口495连接的扬声器497和打印机496的其它外围输出设备。
计算机410在使用逻辑连接到一个或多个远程计算机,诸如远程计算机480,的联网环境中操作。远程计算机480可以是个人计算机、服务器、路由器、网络PC、对等设备、或其它普通网络结点,并且作为其特定实施方案的功能,虽然在图4中仅仅举例说明了存储器设备481,但是可以包括以上所描述的涉及计算机410的许多或所有元件。在图4中所描写的逻辑连接包括局域网络(LAN)471和广域网络(WAN)473,但是也可以包括其它网络。这种网络环境在办公室、企业范围内计算机网络、企业内部网和因特网中很常见。
当在LAN联网环境中使用时,计算机410经由网络接口或适配器470连接到LAN471。当在WAN联网环境中使用时,计算机410典型地包括调制解调器472或用于在WAN473上建立通信,诸如因特网,的其它装置。可以将内部或外部的调制解调器472,经由用户输入接口460或其它适当的机制连接到系统总线421。在联网环境中,所描述的与计算机410相关,或是其部分的程序模块,可以存储在远程存储装置设备中。通过非限制性实施例,图4举例说明驻留在存储设备481上的远程应用程序485。示出的网络连接是示意性的并可以使用在计算机间建立通信的其它装置。
结论
尽管已经以特定结构特征和/或方法操作或动作的语言描述了用于对多意义查询的相关术语的提议的系统和方法,但是应当理解到,所附权利要求中限定的实施方案并不必局限于所描述的特定特征或动作。因此,特定特征和动作是作为实施所要求主题内容的示意性形式而公开的。

Claims (31)

1.一种用于相关术语提议的方法,该方法包含:
根据术语向量的经计算的相似性生成基于高出现次数历史查询的第一术语群集,其中该术语向量的每一个是由与一组先前提交给搜索引擎的高出现次数历史查询相关的搜索结果所产生的,其中以如下方式确定经计算的相似性:
sim ( q j , q k ) = Σ i = 1 d w ij · w ik ;
其中sim(qj,qk)表示第j个术语和第k个术语的相似性,d表示术语向量的维数,wij表示第i个术语向量的第j个术语的权值,其根据如下方式计算:
wij=TFij·log(N/DFj);并且
其中TFij表示术语出现次数,N为查询术语的总共数目,DFj是包含术语j的所提取的特征记录的数目;并且
响应于从实体接收术语/短语,根据所述第一术语群集中的术语/短语来估计接收的术语/短语以标识一个或多个相关术语提议,其中所述估计还包含:识别接收的术语/短语和来自一个或多个第一术语群集的术语/短语之间的匹配;以及响应于识别,生成包含匹配的术语/短语的相关术语提议。
2.权利要求1中所述的方法,其中所接收的术语/短语包含在一个多意义查询中。
3.权利要求1中所述的方法,其中实体是计算机程序应用和/或用户。
4.权利要求1中所述的方法,还包含:
从查询日志中采集历史查询术语;以及
确定历史查询术语中的具有高出现次数的术语。
5.权利要求1中所述的方法,还包括在生成第一术语群集之前:
减少术语向量的维数;以及
标准化术语向量。
6.权利要求1中所述的方法,其中相关术语提议还包含对于相关术语提议中的术语/短语中的每一个,表明在挖掘的历史查询集合中术语/短语出现的次数的出现次数值。
7.权利要求1中所述的方法,其中生成第一术语群集还包含:
发送高出现次数历史查询中的各个至搜索引擎以获得搜索结果;
从相应于发送的各个查询的搜索结果的至少子集中提取特征;以及
根据术语和转换的术语出现次数从所述特征产生术语向量。
8.权利要求7中所述的方法,其中特征包括标题、描述、和/或用于高出现次数历史查询术语中的各个术语的语境。
9.权利要求7中所述的方法,其中各个高出现次数历史查询包含搜索结果中的排列第一的术语。
10.权利要求1中所述的方法,还包含:
确定在接收的术语/短语和所述第一术语群集的术语/短语之间不匹配;以及响应于该确定:
根据术语向量经计算的相似性来制作基于低出现次数历史查询的第二术语群集,其中该术语向量的每一个是从与先前提交给搜索引擎的低出现次数历史查询的集合相关联的搜索结果而生成的;以及
根据第二术语群集的术语/短语来估计接收的术语/短语以识别一个或多个相关的术语提议。
11.权利要求10中所述的方法,其中制作第二术语群集还包含:
根据从查询日志挖掘的历史查询来识别低出现次数历史查询;
发送低出现次数历史查询的至少子集中的各个查询至搜索引擎以获得搜索结果;
从搜索结果的至少子集中提取特征;以及
根据术语和转换的术语出现次数从特征产生术语向量。
12.权利要求11中所述的方法中,还包含在制作第二术语群集之后:
确定在接收的术语/短语和来自第一术语群集的术语/短语之间不存在匹配;以及
响应于确定,标识接收的术语/短语和来自第二术语群集的一个或多个术语/短语之间的匹配;以及
响应于标识,生成包含第二术语群集中的匹配术语/短语的相关术语提议。
13.一种用于相关术语提议的系统,包含:
用于根据术语向量的经计算的相似性生成基于高出现次数历史查询的第一术语群集的装置,其中该术语向量的每一个是由与一组先前提交给搜索引擎的高出现次数历史查询相关的搜索结果所产生的,其中以如下方式确定经计算的相似性:
sim ( q j , q k ) = Σ i = 1 d w ij · w ik ;
其中sim(qj,qk)表示第j个术语和第k个术语的相似性,d表示术语向量的维数,wij表示第i个术语向量的第j个术语的权值,其根据如下方式计算:
wij=TFij·log(N/DFj);并且
其中TFij表示术语出现次数,N为查询术语的总共数目,DFj是包含术语j的所提取的特征记录的数目;以及
用于响应于从实体接收术语/短语,根据所述第一术语群集中的术语/短语来估计接收的术语/短语以标识一个或多个相关术语提议的装置,其中所述估计还包含:识别接收的术语/短语和来自一个或多个第一术语群集的术语/短语之间的匹配;以及响应于识别,生成包含匹配的术语/短语的相关术语提议。
14.权利要求13中所述的系统,其中所接收的术语/短语包含在一个多意义查询中。
15.权利要求13中所述的系统,其中实体是计算机程序应用和/或用户。
16.权利要求13中所述的系统,还包含:
用于从查询日志中采集历史查询术语的装置;以及
用于确定具有高出现次数的历史查询术语中的术语的装置。
17.权利要求13中所述的系统,还包含:
用于在生成第一术语群集之前减少术语向量的维数并标准化术语向量的装置。
18.权利要求13中所述的系统,其中相关术语提议还包含:对于相关术语提议中的术语/短语的每一个,表明在挖掘的历史查询集合中术语/短语出现的次数的出现次数值。
19.权利要求13中所述的系统,其中所述用于生成第一术语群集的装置还包含:
用于发送高出现次数历史查询中的各个至搜索引擎以获得搜索结果的装置;
用于从相应于发送的各个查询的搜索结果的至少子集中提取特征的装置;以及
用于根据术语和转换的术语出现次数从所述特征产生术语向量的装置。
20.权利要求19中所述的系统,其中特征包括标题、描述、和/或用于高出现次数历史查询术语中的各个术语的语境。
21.权利要求19中所述的系统,其中各个高出现次数历史查询包含搜索结果中的排列第一的术语。
22.权利要求13中所述的系统,还包含:
用于确定在接收的术语/短语和第一术语群集的术语/短语之间不匹配的装置;以及
用于响应于该确定执行以下步骤的装置:
根据术语向量经计算的相似性来制作基于低出现次数历史查询的第二术语群集,其中该术语向量的每一个是从与先前提交给搜索引擎的低出现次数历史查询的集合相关联的搜索结果而生成的;以及
根据第二术语群集的术语/短语来估计接收的术语/短语以识别一个或多个相关的术语提议。
23.权利要求22中所述的系统,其中用于制作第二术语群集的装置还包含:
用于根据从查询日志挖掘的历史查询来识别低出现次数历史查询的装置;
用于将低出现次数历史查询的至少子集中的各个查询发送至搜索引擎以获得搜索结果的装置;
用于从搜索结果的至少子集中提取特征的装置;以及
用于根据术语和转换的术语出现次数从所述特征产生术语向量的装置。
24.权利要求23中所述的系统,还包含用于在制作第二术语群集之后执行以下步骤的装置:
确定在接收的术语/短语和来自第一术语群集的术语/短语中不存在匹配;以及
响应于确定,标识接收的术语/短语和来自第二术语群集的一个或多个术语/短语之间的匹配;以及
响应于标识,生成包含匹配的术语/短语的相关术语提议。
25.一种计算设备,包含:
术语群集生成装置,用于根据术语向量的经计算的相似性生成基于高出现次数历史查询的第一术语群集,其中所述术语向量的每一个是由与一组先前提交给搜索引擎的高出现次数历史查询相关的搜索结果所产生的,其中以如下方式确定经计算的相似性:
sim ( q j , q k ) = Σ i = 1 d w ij · w ik ;
其中sim(qj,qk)表示第j个术语和第k个术语的相似性,d表示术语向量的维数,wij表示第i个术语向量的第j个术语的权值,其根据如下方式计算:
wij=TFij·log(N/DFj);并且
其中TFij表示术语出现次数,N为查询术语的总共数目,DFj是包含术语j的所提取的特征记录的数目;以及
估计装置,用于响应于从实体接收术语/短语,根据所述第一术语群集中的术语/短语来估计接收的术语/短语以标识一个或多个相关的术语提议,其中所述估计装置还包含:
识别装置,用于识别接收的术语/短语和来自一个或多个第一术语群集中的术语/短语之间的匹配;以及
相关术语提议生成装置,用于响应于识别,生成包含匹配的术语/短语的相关术语提议。
26.权利要求25中所述的计算设备,其中所接收的术语/短语包含在一个多意义查询中。
27.权利要求25中所述的计算设备,其中实体是计算机程序应用和/或用户。
28.权利要求25中所述的计算设备,还包含:
采集装置,用于从查询日志中采集历史查询术语;以及
确定装置,用于确定具有高出现次数的历史查询术语中的术语。
29.权利要求25中所述的计算设备,其中所述术语群集生成装置还包含:
发送装置,用于发送高出现次数历史查询中的各个至搜索引擎以获得搜索结果;
提取装置,用于从相应于各个查询的搜索结果的至少子集中提取特征;以及
产生装置,用于根据特征产生术语向量。
30.权利要求25中所述的计算设备,还包含:
确定装置,用于确定在接收的术语/短语和第一术语群集的术语/短语之间不匹配;以及
制作装置,用于响应于所确定的不匹配,根据术语向量经计算的相似性来制作基于低出现次数历史查询的第二术语群集,其中所述术语向量的每一个是从与先前提交给搜索引擎的低出现次数历史查询的集合相关联的搜索结果而生成的;以及
估计装置,用于根据第二术语群集的术语/短语来估计接收的术语/短语以识别一个或多个相关的术语提议。
31.权利要求30中所述的计算设备,还包含:
计算装置,用于计算在接收的术语/短语和来自第一术语群集的术语/短语中不存在匹配;以及
标识装置,用于响应于所确定的不匹配,标识接收的术语/短语和来自第二术语群集的一个或多个术语/短语之间的匹配;以及
生成装置,用于响应于标识以生成包含匹配的术语/短语的相关术语提议。
CNB2005100716898A 2004-04-15 2005-04-13 用于对多意义查询的相关术语提议的方法、系统及计算装置 Expired - Fee Related CN100517311C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/825,894 2004-04-15
US10/825,894 US7428529B2 (en) 2004-04-15 2004-04-15 Term suggestion for multi-sense query

Publications (2)

Publication Number Publication Date
CN1684072A CN1684072A (zh) 2005-10-19
CN100517311C true CN100517311C (zh) 2009-07-22

Family

ID=34939289

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100716898A Expired - Fee Related CN100517311C (zh) 2004-04-15 2005-04-13 用于对多意义查询的相关术语提议的方法、系统及计算装置

Country Status (10)

Country Link
US (1) US7428529B2 (zh)
EP (1) EP1587011A1 (zh)
JP (1) JP4726528B2 (zh)
KR (1) KR101109236B1 (zh)
CN (1) CN100517311C (zh)
AU (1) AU2005201682A1 (zh)
BR (1) BRPI0501320A (zh)
CA (1) CA2504106C (zh)
MX (1) MXPA05004099A (zh)
RU (1) RU2393533C2 (zh)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US7836076B2 (en) * 2004-08-20 2010-11-16 Hewlett-Packard Development Company, L.P. Distributing content indices
US7801899B1 (en) * 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
KR100669971B1 (ko) * 2004-11-24 2007-01-16 엔에이치엔(주) 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US8375017B1 (en) * 2005-01-28 2013-02-12 Manta Media, Inc. Automated keyword analysis system and method
US7668808B2 (en) * 2005-03-10 2010-02-23 Yahoo! Inc. System for modifying queries before presentation to a sponsored search generator or other matching system where modifications improve coverage without a corresponding reduction in relevance
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7725485B1 (en) * 2005-08-01 2010-05-25 Google Inc. Generating query suggestions using contextual information
EP1952280B8 (en) 2005-10-11 2016-11-30 Ureveal, Inc. System, method&computer program product for concept based searching&analysis
US8015065B2 (en) * 2005-10-28 2011-09-06 Yahoo! Inc. Systems and methods for assigning monetary values to search terms
EP1949273A1 (en) * 2005-11-16 2008-07-30 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US8010523B2 (en) * 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7676485B2 (en) 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US7747083B2 (en) * 2006-03-27 2010-06-29 Yahoo! Inc. System and method for good nearest neighbor clustering of text
US20070244862A1 (en) * 2006-04-13 2007-10-18 Randy Adams Systems and methods for ranking vertical domains
US9330170B2 (en) * 2006-05-16 2016-05-03 Sony Corporation Relating objects in different mediums
US20070271255A1 (en) * 2006-05-17 2007-11-22 Nicky Pappo Reverse search-engine
US7937397B2 (en) * 2006-08-22 2011-05-03 Fuji Xerox Co., Ltd. Apparatus and method for term context modeling for information retrieval
US7685201B2 (en) * 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
US7689548B2 (en) * 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
US20080113801A1 (en) * 2006-11-13 2008-05-15 Roland Moreno Game based on combinations of words and implemented by computer means
US7603348B2 (en) * 2007-01-26 2009-10-13 Yahoo! Inc. System for classifying a search query
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
WO2008097194A1 (en) * 2007-02-09 2008-08-14 Agency For Science, Technology And Research Keyword classification and determination in language modelling
WO2008113045A1 (en) * 2007-03-14 2008-09-18 Evri Inc. Query templates and labeled search tip system, methods, and techniques
CN101276361B (zh) * 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166021B1 (en) * 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7698344B2 (en) 2007-04-02 2010-04-13 Microsoft Corporation Search macro suggestions relevant to search queries
KR101254362B1 (ko) * 2007-05-18 2013-04-12 엔에이치엔(주) 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템
US7822774B2 (en) * 2007-06-11 2010-10-26 Microsoft Corporation Using link structure for suggesting related queries
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体
US8583670B2 (en) * 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
US9195743B2 (en) * 2007-10-04 2015-11-24 Yahoo! Inc. System and method for creating and applying predictive user click models to predict a target page associated with a search query
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
AU2008312423B2 (en) 2007-10-17 2013-12-19 Vcvc Iii Llc NLP-based content recommender
JP4724701B2 (ja) * 2007-10-30 2011-07-13 日本電信電話株式会社 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8458179B2 (en) * 2007-11-29 2013-06-04 Palo Alto Research Center Incorporated Augmenting privacy policies with inference detection
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US7984004B2 (en) * 2008-01-17 2011-07-19 Microsoft Corporation Query suggestion generation
US10269024B2 (en) * 2008-02-08 2019-04-23 Outbrain Inc. Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US20120053990A1 (en) * 2008-05-07 2012-03-01 Nice Systems Ltd. System and method for predicting customer churn
US8386476B2 (en) 2008-05-20 2013-02-26 Gary Stephen Shuster Computer-implemented search using result matching
US7890516B2 (en) * 2008-05-30 2011-02-15 Microsoft Corporation Recommending queries when searching against keywords
US20090327223A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US20100070339A1 (en) * 2008-09-15 2010-03-18 Google Inc. Associating an Entity with a Category
WO2010042983A1 (en) * 2008-10-14 2010-04-22 Remarqueble Pty Ltd Search, analysis and categorization
US8171043B2 (en) * 2008-10-24 2012-05-01 Yahoo! Inc. Methods for improving the diversity of image search results
US8463808B2 (en) * 2008-11-07 2013-06-11 Raytheon Company Expanding concept types in conceptual graphs
US8386489B2 (en) * 2008-11-07 2013-02-26 Raytheon Company Applying formal concept analysis to validate expanded concept types
US9305051B2 (en) * 2008-12-10 2016-04-05 Yahoo! Inc. Mining broad hidden query aspects from user search sessions
US9158838B2 (en) * 2008-12-15 2015-10-13 Raytheon Company Determining query return referents for concept types in conceptual graphs
US8577924B2 (en) * 2008-12-15 2013-11-05 Raytheon Company Determining base attributes for terms
US9087293B2 (en) * 2008-12-23 2015-07-21 Raytheon Company Categorizing concept types of a conceptual graph
CN101464897A (zh) 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US20100268600A1 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
AU2009350904B2 (en) * 2009-08-04 2016-07-14 Google Llc Query suggestions from documents
US20110040604A1 (en) * 2009-08-13 2011-02-17 Vertical Acuity, Inc. Systems and Methods for Providing Targeted Content
US20110040774A1 (en) * 2009-08-14 2011-02-17 Raytheon Company Searching Spoken Media According to Phonemes Derived From Expanded Concepts Expressed As Text
CN102056335B (zh) * 2009-11-06 2014-02-19 华为技术有限公司 移动搜索方法、装置和系统
US20110145226A1 (en) * 2009-12-10 2011-06-16 Microsoft Corporation Product similarity measure
US20110161091A1 (en) * 2009-12-24 2011-06-30 Vertical Acuity, Inc. Systems and Methods for Connecting Entities Through Content
US8631004B2 (en) * 2009-12-28 2014-01-14 Yahoo! Inc. Search suggestion clustering and presentation
US8150841B2 (en) * 2010-01-20 2012-04-03 Microsoft Corporation Detecting spiking queries
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
JP5165719B2 (ja) * 2010-03-30 2013-03-21 ヤフー株式会社 情報処理装置、データ抽出方法及びプログラム
JP5339491B2 (ja) * 2010-03-31 2013-11-13 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
US8161073B2 (en) 2010-05-05 2012-04-17 Holovisions, LLC Context-driven search
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
JP5990178B2 (ja) * 2010-11-05 2016-09-07 楽天株式会社 キーワード抽出に関するシステム及び方法
US8515984B2 (en) 2010-11-16 2013-08-20 Microsoft Corporation Extensible search term suggestion engine
US20120124072A1 (en) 2010-11-16 2012-05-17 Microsoft Corporation System level search user interface
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
BR112013015642A2 (pt) * 2010-12-22 2016-10-11 Koninkl Philips Electronics Nv sistema para gerar uma política de controle de acesso, estação de trabalho, método de criação de uma política de controle de acesso e produto de programa de computador
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US8732151B2 (en) 2011-04-01 2014-05-20 Microsoft Corporation Enhanced query rewriting through statistical machine translation
US20120310690A1 (en) * 2011-06-06 2012-12-06 Winshuttle, Llc Erp transaction recording to tables system and method
US20120323627A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Real-time Monitoring of Public Sentiment
US9652556B2 (en) 2011-10-05 2017-05-16 Google Inc. Search suggestions based on viewport content
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
US8724904B2 (en) * 2011-10-25 2014-05-13 International Business Machines Corporation Anomaly detection in images and videos
US20130211915A1 (en) * 2012-02-14 2013-08-15 Erick Tseng Advertising Based on Customized User Dictionary
US9330082B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
US9235565B2 (en) 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
US9330083B2 (en) 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
CN103365839B (zh) * 2012-03-26 2017-12-12 深圳市世纪光速信息技术有限公司 一种搜索引擎的推荐搜索方法和装置
US9922334B1 (en) 2012-04-06 2018-03-20 Google Llc Providing an advertisement based on a minimum number of exposures
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US9465875B2 (en) * 2012-05-31 2016-10-11 Hewlett Packard Enterprise Development Lp Searching based on an identifier of a searcher
US9442909B2 (en) 2012-10-11 2016-09-13 International Business Machines Corporation Real time term suggestion using text analytics
US20140188894A1 (en) * 2012-12-27 2014-07-03 Google Inc. Touch to search
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US10152538B2 (en) * 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9405794B2 (en) 2013-07-17 2016-08-02 Thoughtspot, Inc. Information retrieval system
US20150026153A1 (en) * 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
US20150310487A1 (en) * 2014-04-25 2015-10-29 Yahoo! Inc. Systems and methods for commercial query suggestion
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN105446984A (zh) * 2014-06-30 2016-03-30 阿里巴巴集团控股有限公司 一种扩展词对的筛选方法及装置
JP6325502B2 (ja) * 2015-10-08 2018-05-16 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理システムおよび情報処理方法
US11436610B2 (en) * 2016-03-31 2022-09-06 ZenDesk, Inc. Automatically clustering customer-support requests to form customer-support topics
US10699183B2 (en) * 2016-03-31 2020-06-30 ZenDesk, Inc. Automated system for proposing help center articles to be written to facilitate resolving customer-service requests
JP6555174B2 (ja) * 2016-04-01 2019-08-07 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム
CN107784029B (zh) * 2016-08-31 2022-02-08 阿里巴巴集团控股有限公司 生成提示关键词、建立索引关系的方法、服务器和客户端
US10242113B2 (en) * 2016-10-13 2019-03-26 International Business Machines Corporation Modifying messages to be more discoverable on a social network
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20180181844A1 (en) * 2016-12-28 2018-06-28 Facebook, Inc. Systems and methods for presenting content based on unstructured visual data
US10298837B2 (en) 2016-12-28 2019-05-21 Facebook, Inc. Systems and methods for presenting content based on unstructured visual data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
JP6790942B2 (ja) * 2017-03-16 2020-11-25 富士通株式会社 検索支援プログラム、検索支援装置および検索支援方法
WO2019075070A1 (en) 2017-10-10 2019-04-18 Thoughtspot, Inc. AUTOMATIC DATABASE ANALYSIS
US10747793B2 (en) * 2017-10-27 2020-08-18 Microsoft Technology Licensing, Llc Expanding search queries
US10769141B2 (en) 2017-10-27 2020-09-08 Microsoft Technology Licensing, Llc Expanding search queries
US11276089B1 (en) * 2017-12-20 2022-03-15 Groupon, Inc. Method, apparatus, and computer program product for adaptive tail digital content object bid value generation
US11593844B1 (en) 2017-12-20 2023-02-28 Groupon, Inc. Method, apparatus, and computer program product for predictive initial electronic bid value generation for new digital content objects
US11157564B2 (en) 2018-03-02 2021-10-26 Thoughtspot, Inc. Natural language question answering systems
US11042896B1 (en) * 2018-03-12 2021-06-22 Inmar Clearing, Inc. Content influencer scoring system and related methods
EP3550444B1 (en) 2018-04-02 2023-12-27 Thoughtspot Inc. Query generation based on a logical data model
US11409910B2 (en) 2018-05-31 2022-08-09 Microsoft Technology Licensing, Llc Predicting confidential data value insights at organization level using peer organization group
US10872303B2 (en) 2018-05-31 2020-12-22 Microsoft Technology Licensing, Llc Generating semantic representations for organizations and computing peer organization groups
US11106675B2 (en) * 2018-06-12 2021-08-31 Atos Syntel Inc. System and method for identifying optimal test cases for software development
US11580147B2 (en) 2018-11-13 2023-02-14 Thoughtspot, Inc. Conversational database analysis
US11023486B2 (en) 2018-11-13 2021-06-01 Thoughtspot, Inc. Low-latency predictive database analysis
US11544239B2 (en) 2018-11-13 2023-01-03 Thoughtspot, Inc. Low-latency database analysis using external data sources
US11416477B2 (en) 2018-11-14 2022-08-16 Thoughtspot, Inc. Systems and methods for database analysis
US11334548B2 (en) 2019-01-31 2022-05-17 Thoughtspot, Inc. Index sharding
CN109947924B (zh) * 2019-03-21 2021-08-31 百度在线网络技术(北京)有限公司 对话系统训练数据构建方法、装置、电子设备及存储介质
US11288453B1 (en) * 2019-03-22 2022-03-29 Pinterest, Inc. Key-word identification
US11928114B2 (en) 2019-04-23 2024-03-12 Thoughtspot, Inc. Query generation based on a logical data model with one-to-one joins
US11442932B2 (en) 2019-07-16 2022-09-13 Thoughtspot, Inc. Mapping natural language to queries using a query grammar
US10970319B2 (en) 2019-07-29 2021-04-06 Thoughtspot, Inc. Phrase indexing
US11354326B2 (en) 2019-07-29 2022-06-07 Thoughtspot, Inc. Object indexing
US11200227B1 (en) 2019-07-31 2021-12-14 Thoughtspot, Inc. Lossless switching between search grammars
US11409744B2 (en) 2019-08-01 2022-08-09 Thoughtspot, Inc. Query generation based on merger of subqueries
US11100170B2 (en) * 2019-11-15 2021-08-24 Microsoft Technology Licensing, Llc Domain-agnostic structured search query exploration
JP2021149613A (ja) * 2020-03-19 2021-09-27 株式会社野村総合研究所 自然言語処理装置およびプログラム
US11544272B2 (en) 2020-04-09 2023-01-03 Thoughtspot, Inc. Phrase translation for a low-latency database analysis system
US11580111B2 (en) 2021-04-06 2023-02-14 Thoughtspot, Inc. Distributed pseudo-random subset generation
CN113505281B (zh) * 2021-06-15 2022-11-08 北京三快在线科技有限公司 搜索建议词生成方法、装置、电子设备及可读存储介质
CN116628201B (zh) * 2023-05-18 2023-10-20 浙江数洋科技有限公司 一种文本资料库的智能化分群和推送方法

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5442778A (en) 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5812134A (en) 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
US6188776B1 (en) 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6298351B1 (en) 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5927042A (en) * 1997-07-24 1999-07-27 Last; Harry J. Composite beam enclosure structure
US5845278A (en) 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6598054B2 (en) 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6226408B1 (en) 1999-01-29 2001-05-01 Hnc Software, Inc. Unsupervised identification of nonlinear data cluster in multidimensional data
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US7835943B2 (en) * 1999-05-28 2010-11-16 Yahoo! Inc. System and method for providing place and price protection in a search result list generated by a computer network search engine
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
EP1275042A2 (en) 2000-03-06 2003-01-15 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US6697998B1 (en) 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7587428B2 (en) 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
WO2002071243A1 (en) 2001-03-01 2002-09-12 Biowulf Technologies, Llc Spectral kernels for learning machines
US6892193B2 (en) 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
US7136876B1 (en) * 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
US20040249808A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
US7225184B2 (en) * 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7188762B2 (en) * 2004-05-07 2007-03-13 Advanced Card Technologies Llc Secure card package for transaction cards and method of activating the same

Also Published As

Publication number Publication date
CN1684072A (zh) 2005-10-19
US20050234879A1 (en) 2005-10-20
JP2005302042A (ja) 2005-10-27
CA2504106A1 (en) 2005-10-15
CA2504106C (en) 2014-06-17
BRPI0501320A (pt) 2005-12-06
KR101109236B1 (ko) 2012-01-30
RU2393533C2 (ru) 2010-06-27
KR20060045770A (ko) 2006-05-17
RU2005111000A (ru) 2006-10-20
US7428529B2 (en) 2008-09-23
JP4726528B2 (ja) 2011-07-20
MXPA05004099A (es) 2005-10-19
EP1587011A1 (en) 2005-10-19
AU2005201682A1 (en) 2005-10-27

Similar Documents

Publication Publication Date Title
CN100517311C (zh) 用于对多意义查询的相关术语提议的方法、系统及计算装置
CN100476814C (zh) 用于识别与Web站点内容相关的项的方法和计算设备
US20230350959A1 (en) Systems and methods for improved web searching
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
US8204874B2 (en) Abbreviation handling in web search
US8255347B2 (en) Method and system for classifying documents
Broder et al. Search advertising using web relevance feedback
JP5117379B2 (ja) オンライン会話コンテンツを用いて表示のために広告コンテンツ及び/又は他の関連情報を選択するシステム及び方法
US8176419B2 (en) Self learning contextual spell corrector
CN102254039A (zh) 一种基于搜索引擎的网络搜索方法
MXPA04012757A (es) Reconocedor de consultas.
CN104102721A (zh) 信息推荐方法和装置
CN110930189A (zh) 基于用户行为的个性化营销方法
CN116562279A (zh) 客户属性识别方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150515

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150515

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090722

Termination date: 20200413