CN101464897A - 一种词匹配及信息查询方法及装置 - Google Patents

一种词匹配及信息查询方法及装置 Download PDF

Info

Publication number
CN101464897A
CN101464897A CNA2009100015557A CN200910001555A CN101464897A CN 101464897 A CN101464897 A CN 101464897A CN A2009100015557 A CNA2009100015557 A CN A2009100015557A CN 200910001555 A CN200910001555 A CN 200910001555A CN 101464897 A CN101464897 A CN 101464897A
Authority
CN
China
Prior art keywords
speech
user
query result
historical query
searching keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100015557A
Other languages
English (en)
Inventor
谢宇恒
欧文武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CNA2009100015557A priority Critical patent/CN101464897A/zh
Publication of CN101464897A publication Critical patent/CN101464897A/zh
Priority to US12/655,980 priority patent/US8898180B2/en
Priority to JP2011545381A priority patent/JP5679993B2/ja
Priority to PCT/US2010/000075 priority patent/WO2010080719A1/en
Priority to EP10729396A priority patent/EP2382534A4/en
Priority to US14/487,321 priority patent/US9430568B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本申请公开了一种词匹配及信息查询方法及装置,包括:获取输入的第一查询关键词;根据第一查询关键词获取用户反馈日志,所述用户反馈日志包括历次以所述第一查询关键词为目标进行查询的查询结果,以及历次用户对查询结果的点选频率;根据所述查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词;反馈以第二查询关键词为目标进行查询的查询结果。由于在本申请实施中采用了用户反馈日志作为发现用户查询信息潜在词义的基础,因此在拥有大量的数据情况下,能够利用以往的用户反馈信息准确的确定出查询信息的潜在词义,从而提高了信息查询的准确性。

Description

一种词匹配及信息查询方法及装置
技术领域
本申请涉及数据处理技术,特别涉及一种词匹配及信息查询方法及装置。
背景技术
潜在词义通常是指一个词(包括短语)潜在的意义,通常可以通过另外一个或多个词(包括短语)来表达,比如通常所称的“冰箱”其一般情况下潜在的词义是指“电冰箱”,而“棉拖”其一般情况下潜在的词义是指“全棉拖鞋”等。
自动发现潜在词义是自然语言处理的一个基本问题,它的解决可以提高文档理解、机器翻译和搜索引擎的效果和性能。
分词技术是自然语言处理中常用的技术,分词是将一个输入字符串分成若干个词或短语,比如“曾经有一段诚挚的感情摆在我的面前”,经过分词处理后,通常情况下得到的分词结果为“曾经|有|一段|诚挚|的|感情|摆在|我|的|面前”。
用户反馈日志记录了查询词对应的查询结果(文档或网页ID等)和查询结果点击频率、曝光频率等。点击频率、曝光频率等信息反应了用户对该查询结果的认同程度,一般意义上符合用户需求的文档点击率比不符合用户意图的点击率要高,比如查“西药”,结果“批发西药”和“江西药厂”的单字的匹配程度是一样的,但是通常第一个结果的点击率会比第二个结果要高。
通过分析用户反馈日志可以发现与查询词字符匹配程度较高,同时表达方式不同的词,比如搜索“冰箱”一词时,会发现很多带“电冰箱”的结果,比如“双开门电冰箱”、“发明了冰箱”、“电冰箱厂家”、“销售电冰箱”、“存冰箱子”等,收集点击率相对较高的结果,并且对出现冰箱的句子分词,统计每个分词的频率,如果某个或多个分词结果大于设定的阈值,则做下面处理:查询词包含在一个高频分词结果中,比如“冰箱”包含在“电冰箱”中,则认为“电冰箱”是“冰箱”的潜在词义;查询词包含在相邻的两个高频分词中,例如:查询词“玻璃瓶”包含在“玻璃”和“瓶子”这两个高频分词中,这也通常被认为“玻璃瓶子”是“玻璃瓶”的潜在词义。
目前潜在语意的自动发现上已经有过不少的研究,大多是通过词语的共现或链接关系来发现近义词。例如陆勇、侯汉清在文章“基于PageRank算法的汉语同义词自动识别”中介绍了一种同义词的自动发现方法,该文章将词汇之间解释与被解释的关系看成是一种链接,把PageRank值看成是体现词汇之间语义相似性的衡量指标,然后根据语义相似度的大小识别同义词。这个方法的缺点是:基于人工标注的语料,挖掘得到的词条数量会比较有限。如果改成基于互联网网页之间的链接关系,这种链接关系有时又很不可靠,同义词自动发现的效果很难得到保障。
搜索引擎的索引方式包括单字搜索、分词索引和混合索引。单字索引需要计算文档内单字之间的距离,效率不高,并且精确率低,比如搜索“农药”时,单字索引无法区分“神农药厂”和“神农农药厂”的区别;而分词搜索精确率高,速度快,但是分词索引召回率有时比较低,比如搜“冰箱”时,分词索引方法只能找到“冰箱”的结果,而找不到“电冰箱”的结果;单字索引和分词索引结合的混合索引方法通常是先根据分词索引查询,然后再根据单字索引查询,比如查“玻璃瓶”时,先按分词索引找到“玻璃瓶”的结果,再按单字索引找出其他结果,这种弥补了两种方法的缺点,但是“玻璃瓶子”是根据单字索引的方式找到的,搜索引擎不能区分“玻璃瓶子”和“生产玻璃瓶颈在于”的差异,影响搜索的准确性;
前面的方法缺少足够的数据量,或者缺少用户的反馈,抽取出来的潜在语意太少或很有可能是错误的。
如陆勇、侯汉清提到的词义自动发现方法主要是通过已有的词典数据作为抽取来源,样本量在几千条左右。如果是以互联网网页等大数据量为基础的挖掘方法,又缺乏准确性。
因此现有技术的不足在于:当面临如互联网等存在着大数据量的情况时,尚没有一种好的查询方案能够准确的预知用户真正所需查询的内容,也因此不能向用户反馈用户真正所需的查询结果。
发明内容
本申请提供了一种词匹配方法及装置,用以提供一种在存在海量数据的情况下,准确判断词与词之间的内在联系,并将其匹配的方案。
本申请实施例提供了一种词匹配方法,包括如下步骤:
获取待匹配词;
根据待匹配词获取用户反馈日志;
根据所述用户反馈日志确定与待匹配词匹配的词。
较佳地,所述用户反馈日志包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率。
较佳地,根据所述用户反馈日志中的历史查询结果以及点选频率确定与待匹配词匹配的词。
较佳地,所述点选频率包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
较佳地,所述根据对历史查询结果的内容的点选频率确定与待匹配词匹配的词,包括:
获取待匹配词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与待匹配词匹配的词。
较佳地,所述分词后的词包括下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
较佳地,在根据所述查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
较佳地,所述获取待匹配词,包括:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为待匹配词。
较佳地,所述点选频率包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。
较佳地,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述获取用户反馈日志时,根据该用户的用户特征获取用户反馈日志。
较佳地,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
较佳地,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
本申请实施例还提供了一种词匹配装置,包括:
待匹配词获取模块,用于获取待匹配词;
用户反馈日志获取模块,用于根据待匹配词获取用户反馈日志;
匹配模块,用于根据所述用户反馈日志以及点选频率确定与待匹配词匹配的词。
较佳地,所述用户反馈日志获取模块进一步用于获取包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率的用户反馈日志。
较佳地,匹配模块进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与待匹配词匹配的词。
较佳地,所述用户反馈日志获取模块进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
较佳地,所述匹配模块包括:
内容获取单元,用于获取待匹配词的历史查询结果的内容;
分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元,用于根据分词后的词的点选频率确定与待匹配词匹配的词。
较佳地,所述分词单元进一步用于在分词后获得下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
较佳地,所述匹配模块进一步用于在根据所述历史查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
较佳地,所述待匹配词获取模块包括:
信息内容获取单元,用于获取用户输入的信息内容;
分词/分解单元,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
待匹配词确定单元,用于将分词后的词和/或字作为待匹配词。
较佳地,所述用户反馈日志获取模块进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
较佳地,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于根据用户特征获取用户反馈日志。
较佳地,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
较佳地,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述匹配模块进一步用于在根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
基于同一构思,本申请提供一种信息查询方法及装置,用以提供一种在存在海量数据的情况下,利用前述的词与词之间匹配关系,准确判断用户查询信息的真实需要,并反馈用户真正所需的查询结果。
本申请实施例中提供了一种信息查询方法,包括如下步骤:
获取输入的第一查询关键词;
根据第一查询关键词获取用户反馈日志;
根据所述用户发馈日志确定与第一查询关键词匹配的第二查询关键词;
反馈以第二查询关键词为目标进行查询的查询结果。
较佳地,所述用户反馈日志包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率。
较佳地,根据所述用户反馈日志中的历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词。
较佳地,所述点选频率包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
较佳地,所述根据对历史查询结果的内容的点选频率确定与第一查询关键词匹配的第二查询关键词,包括:
获取第一关键词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
较佳地,所述分词后的词是指下述方式的词或者其组合:
分词后与第一查询关键词相邻的词;
分词后包含第一查询关键词的词;
分词后包括第一查询关键词组成部分的词。
较佳地,在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,所述点选频率大于设定阈值。
较佳地,所述获取输入的第一查询关键词,包括:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为第一查询关键词。
较佳地,所述点选频率包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。
较佳地,进一步包括:
在用户输入第一查询关键词时,获取该用户的用户特征;
所述获取用户反馈日志时,根据该用户的用户特征获取用户反馈日志。
较佳地,进一步包括:
在用户输入第一查询关键词时,获取该用户的用户特征;
所述获取用户反馈日志时,获取用户反馈日志中包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
较佳地,进一步包括:
在用户输入第一查询关键词时,获取该用户的用户特征;
所述根据所述用户反馈日志确定第二查询关键词时,根据所述用户特征确定第二查询关键词。
本申请实施例中还提供了一种信息查询装置,包括:
第一查询关键词获取模块,用于获取输入的第一查询关键词;
用户反馈日志获取模块,用于根据第一查询关键词获取用户反馈日志;
匹配模块,用于根据所述用户反馈日志确定与第一查询关键词匹配的第二查询关键词;
查询结果反馈模块,用于反馈以第二查询关键词为目标进行查询的查询结果。
较佳地,用户反馈日志获取模块进一步用于获取包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率的用户反馈日志。
较佳地,匹配模块进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词。
较佳地,所述用户反馈日志获取模块进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
较佳地,所述匹配模块包括:
内容获取单元,用于获取第一关键词的历史查询结果的内容;
分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元,用于根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
较佳地,所述分词单元进一步用于在分词后获得下述方式的词或者其组合:
分词后与第一查询关键词相邻的词;
分词后包含第一查询关键词的词;
分词后包括第一查询关键词组成部分的词。
较佳地,所述匹配模块进一步用于在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,所述点选频率大于设定阈值。
较佳地,所述第一查询关键词获取模块包括:
信息内容获取单元,用于获取用户输入的信息内容;
分词/分解单元,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
第一查询关键词确定单元,用于将分词后的词和/或字作为第一查询关键词。
较佳地,所述用户反馈日志获取模块进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
较佳地,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于根据用户特征获取用户反馈日志。
较佳地,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
较佳地,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词时,获取该用户的用户特征;
所述匹配模块进一步用于在根据所述用户反馈日志确定第二查询关键词时,根据所述用户特征确定第二查询关键词。
本申请有益效果如下:
本申请实施中,在获取输入的第一查询关键词后,就去获取第一查询关键词的用户反馈日志,而用户反馈日志中包括了以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率;然后根据历史查询结果以及点选频率来确定与第一查询关键词匹配的第二查询关键词;最后反馈的是以匹配后的第二查询关键词为目标进行查询的查询结果。由于在此过程中采用了用户反馈日志作为发现用户查询信息潜在词义的基础,因此在拥有大量的数据情况下,能够利用以往的用户反馈信息准确的确定出查询信息的潜在词义,从而提高了信息查询的准确性。
附图说明
图1为本申请实施例中信息查询方法实施流程示意图;
图2为本申请实施例中信息查询装置结构示意图;
图3为本申请实施例中匹配模块结构示意图;
图4为本申请实施例中第一查询关键词获取模块结构示意图;
图5为本申请实施例中词匹配方法实施流程示意图;
图6为本申请实施例中词匹配装置结构示意图。
具体实施方式
下面结合附图对本申请的具体实施方式进行说明。
图1为信息查询方法实施流程示意图,如图所示,可以包括如下步骤:
步骤101、获取输入的第一查询关键词;
步骤102、根据第一查询关键词获取用户反馈日志;
用户反馈日志包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率;
步骤103、根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词;
步骤104、反馈以第二查询关键词为目标进行查询的查询结果。
下面对各步骤的具体实施进行说明。
步骤101中,对于第一查询关键词,可以是:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为第一查询关键词。
可以看出,本申请实施过程中用于查询的关键词可以是词也可以是字,当是字时,可以视为通常所指的单字查询,通过对用户输入的需要查询的信息内容来说,以各种查询单位,如字或词来查询,或者结合起来查询显然可以使查询结果的精度更高、更准确。
步骤102中,用户反馈日志通常是指搜索引擎用来收集用户输入的关键词和历史查询结果(通常是网页文档ID等)和历史查询结果的点击频率、曝光率等。
实施中,用户反馈日志可以包括的是历次以第一查询关键词为目标进行查询的历史查询结果,以及历次用户对历史查询结果的点选频率,用户反馈日志作为建立潜在词义的样本,可以采用历次的记录,但是,用户反馈日志的目的在于通过以往的记录来确定词与词之间的内在关系,从而建立潜在词义,只要能实现该目的,显然也可以选取部分历史查询结果,或者是随机选取等等方式来采集确定潜在词义的样本。同样道理,用户反馈日志在选取时,并不是以用户为对象来进行选取,而是以历史上进行查询的词为目标来进行选取,例如需要获取第一查询关键词为“西药”的用户反馈日志时,获取的是历史上用“西药”为查询词的所有或者部分用户的用户反馈日志。
潜在词义的自动发现特指找出一个词(短语)和另外词义相关或相近的一个词(短语)或多个词(短语)。本申请实施例的本质在于通过利用用户参与的用户反馈日志以便能够非常可靠的自动发现查询词和历史查询结果之间体现用户意图的潜在词义关系,并利用该关系来提高搜索引擎的准确率和智能。因此,用户反馈日志中可以包括历次以所述第一查询关键词为目标进行查询的历史查询结果,以及历次用户对历史查询结果的点选频率。并在步骤103中基于历史查询结果以及点选频率来寻找第一查询关键词的潜在词义。即,在步骤102中获取的是用户反馈日志,并利用用户反馈日志来确定第一查询关键词的潜在词义,从而能够通过步骤103输出和步骤101中第一查询关键词之间存在潜在词义关系的第二查询关键词。
其中,点选频率可以包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
下面对步骤103的具体实施进行说明。
首先对根据对历史查询结果的内容的点选频率确定与第一查询关键词匹配的第二查询关键词进行说明。
获取第一关键词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
实施中,分词后的词是指下述方式的词或者其组合:
第一种词:分词后与第一查询关键词相邻的词,为描述方便,实施例中将该种情况下的点选频率相关的统计结果记为P1;
第二种词:分词后包括第一查询关键词组成部分的词,为描述方便,实施例中将该种情况下的点选频率相关的统计结果记为P2;
第三种词:分词后包含第一查询关键词的词,为描述方便,实施例中将该种情况下的点选频率相关的统计结果记为P3。
下面先对步骤103的实施原理进行说明。
用户反馈日志是用来记录查询词对应的历史查询结果和历史查询结果的点击率、曝光频率等信息的,如查询结果为网页等;发明人在发明过程中注意到:对于某个查询词点击率越高的网页与查询词越相关。一个词的潜在词义是指和它同义、近义或者部分同义的词,比如“玻璃瓶”和“玻璃瓶子”,又如“双人床”、“单人床”、“弹簧床”等词都潜在“床”的词义,而“机床”等则不潜在“床”的词义。在本申请实施例中定义了三种潜在词义:第一种词是经常成对出现的词,比如“摩托罗拉”和“公司”,“摩托罗拉”和“手机”,这种关系通常是一个词和另外一个词密切相关,即,分词后的有些词与查询词相邻;第二种词是一个词和另外多个并按一定顺序出现的词,比如“玻璃瓶”和“玻璃”“瓶子”,“美女”和“美丽的”“女人”,即分词后其包含了查询词的组成部分;第三种词是一个词是一个词组成部分,比如“虾”和“对虾”,“酒”和“啤酒”,即,分词后的词包含了查询词。这些通过点击率等用户反馈自动发现的潜在词义往往代表了用户输入的搜索关键字的潜在意图,可以用来提高搜索引擎的准确率,比如用户搜索“床”时大部分用户的实际意图是睡觉的床比如“单人床”、“双人床”、“木板床”等,而不是机械设备比如“机床”或“车床”。通过用户点击等反馈就能知道前者有“床”的潜在词义,而后者(机床等)没有。
本申请在具体实施中,首先输入第一查询关键词、历史查询结果(网页,文档ID等)和历史查询结果的点击率、曝光率等信息或其中之一,即输入步骤101中的第一查询关键词以及步骤102获取用户反馈日志的执行结果;然后对第一查询关键词进行分词,如果第一查询关键词包括多个词,则将这条查询词的用户反馈日志中对应的历史查询结果和相关信息添加到这条查询词中相应的每个分词中去,即,使这条查询词在分词后的每个词都有自己的历史查询结果,这样处理后,用户反馈日志的每个query(查询)都是一个单独的分词;然后对每个分词后得到词或其中部分分别做上述与P1、P2、P3有关的处理,直到所有或部分分词后的词处理完毕,历史查询结果的选取可以根据历史查询结果总的查询次数、点击次数、曝光次数等信息或其中之一确定;对分词后的词对应的历史查询结果分别做处理直到所有历史查询结果处理完毕;从用户反馈日志中的历史查询结果中找出所有与分词后的词完全匹配的字符串(这里完全匹配是指分词后的词是字符串的一个子串),字符串的尺度可以是包含分词后的词的句子长度,或包含分词后的词长度的M倍,M可以是大于1的任何数,然后对字符串分词后做上述与P1、P2、P3有关的处理,需要说明的是,为便于描述,下述实施例中以文档为查询结果,实施时,同时考虑了对查询结果的点选频率和对查询结果的内容的点选频率,显然,只考虑其中一个同样能实现申请目的。
具体实施中,当在输入第一查询关键词、历史查询结果(网页,文档ID等)和历史查询结果的点击率、曝光率等信息或其中之一时,可以设置一个查询词典,提前输入历史查询结果(网页,文档ID等)和历史查询结果的点击率、曝光率等信息或其中之一,这样当输入第一查询关键词时,通过查询词典便可以快捷的获得第二查询关键词。也就是将以往的用户反馈日志的内容预先存储用于查询,也可以根据新的用户反馈日志随时对查询词典进行更新;当然也可以在输入第一查询关键字后再调用用户反馈日志。
第一种:分词后与第一查询关键词相邻的词的实施。
如果第一查询关键词是字符串的一个分词,比如第一查询关键词是“美女”,用户反馈日志中的历史查询结果是“中国|古代|美女|西施|名|夷光|,|春秋|战国|时期|出生”(这里“|”表示分词结果),这时将查询词前后的T个分词在字符串中出现的次数乘以该文档的点击频率和曝光频率(或其中之一)作为权重的一个系数,记为次数加权(1),加到总的查询结果的统计P1,P1中包含了第一查询关键词前后出现的每个词的次数加权(1),例如本例中,如果文档的权重为0.5,则P1中“古代”和“西施”(这只是T等于1的情况)对应的结果会相应加0.5。
第二种:分词后包括第一查询关键词组成部分的词。
如果第一查询关键词包含在字符串相邻的多个分词结果中,比如第一查询关键词是“美女”,用户反馈日志中的历史查询结果是“西施|是|个|美丽的|女人|”(这里“|”表示分词结果),这时将包含第一查询关键词的分词出现次数并乘以该文档的点击频率/曝光频率(或其中之一)作为权重的一个系数,记为次数加权(2),加到总的查询结果的统计P2,P2中是包括第一查询关键词的多个分词按照相同顺序出现的次数加权(2),例如本例中,如果文档的权重为0.3,则将P2中“|美丽的|女人|”对应的结果加0.3。
第三种:分词后包含第一查询关键词的词。
如果第一查询关键词是字符串一个分词的字串,比如查询词是“冰箱”,用户反馈日志中的历史查询结果是“电冰箱|空调器|原理|与|维修”(这里“|”表示分词结果),这时将包含第一查询关键词的分词出现次数并乘以该文档的点击频率和曝光频率(或其中之一)作为权重的一个系数,记为次数加权(3),加到总的查询结果的统计P3,P3是包括第一查询关键词的分词出现的次数加权(3),例如本例中,如果文档的权重为0.8,则将P3中“电冰箱”对应的结果加0.8。
不断重复直到对于单个分词后的词所有的用户反馈日志中的历史查询结果全部处理完毕;按照P1中分词出现的次数加权和,取次数加权和大于设定的第一阈值的分词,将这些分词作为该查询词的第一种潜在词义关系,同样,按照P2,P3中分词出现的次数加权和,并取次数加权和大于设定的第二、第三阈值的分词,将这些分词作为该词的第二种潜在词义和第三种潜在词义关系。
本领域技术人员容易知道,实施中可以选用三种选择潜在词义中的一种,也可以任意两种组合或三种组合;
同样,实施中,第一、第二、第三阈值可以是固定阈值,也可以根据查询词总体查询结果动态设定,比如将所有包含了匹配字符串的文档权重求和,然后再乘以一个系数,该系数便可根据查询结果动态设定;阈值设置的目的在于有选择的确定一部分查询词的潜在词义的词,并非将所有的词都无条件反馈。
具体实施中,在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,可以要求点选频率大于设定阈值,其中,点选频率可以是用户对历史查询结果的点选频率,也可以是用户对历史查询结果的内容的点选频率。其目的在于将文档或者其内容的点击频率和曝光频率(或其中之一)作为权重的一个系数,该系数可以与点击率和曝光率二者之一或两者的组合,系数大小和点击和曝光频率可以是线性或非线性的关系,比如(不限于)两者频率高于某一设定阈值的全部为1,其他为0;或者点击率和曝光率最高的为1,其他的除以最大值归一化到[0,1]。点选频率的选取目的在于通过它来发现潜在词义,因而可以通过设定阈值来过滤一些点选频率较低的信息,从而提高发现潜在词义的速度,同时也可以避免一些信息的干扰。
实施中,点选频率包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。本领域技术人员容易理解,该文档的点击频率和曝光频率(或其中之一)作为权重的一个系数,系数也可以是文档的其他信息,比如阅读时间,重要程度等或其中之一或与点击率曝光率的结合。
实施中,潜在词义不但是查询词与潜在词义的关系,反过来也成立。例如“玻璃瓶”潜在词义“玻璃|瓶子”,等价于“玻璃|瓶子”潜在“玻璃瓶”,或者“冰箱”潜在词义“电冰箱”,等价于“电冰箱”潜在词义“冰箱”。
在确定了第一查询关键词的潜在词义后,便可以执行步骤104,步骤104、反馈以潜在词义,即第二查询关键词为目标进行查询的查询结果了。
实施中,在步骤101的获取输入的第一查询关键词时,可以进行如下处理:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为第一查询关键词。
在确定第一查询关键词时,可以采用两种来源,一种是对用户输入的信息内容先进行分词,然后用分词后的结果进行查询,或者将该信息内容以字为单位分解后进行单字查询。显然这两种方式可以同时进行也可以组合进行,在组合时可以是:先对用户输入的查询词分词,再根据分词结果做查询,然后再根据查询词分词的潜在语意做查询,最后做单字查询。分词结果做查询是指根据查询词的分词结果从分词索引中查询相关结果;单字查询是指从单字索引中查询结果;潜在语意查询是指利用查询词的潜在意义得到查询结果,对于在上述实施例中提到的三种语意(或其中任意一种)分别(或单独)做如下处理:
对于第一种潜在词义的词,通过“查询词+第一种潜在词义的词”查询得到相关结果,如查询词是“摩托罗拉”,那么相应的第一种潜在词义的词查询为“摩托罗拉公司”、“摩托罗拉手机”,这里假定“摩托罗拉”的第一种潜在词义的词是“公司”和“手机”;对于第二种潜在词义的词,通过第二种潜在词义的“相邻查询词”得到查询结果,比如“玻璃瓶”相应的第二种潜在词义的词为“玻璃|瓶子”;对于第三种潜在词义的词,是通过第三种潜在词义的词得到的查询结果,例如查询“电冰箱”,第三潜在词义的词是“冰箱”。
显然,基于潜在词义查询的查询结果在计算查询词与文档的相关程度时,应该比单字查询得到结果的相关程度高,这个相关程度的分值会影响查询结果的排序(根据相关程度和网页重要程度等,如pageRank)。
进一步的,实施中还可以在步骤101获取第一查询关键词时,还获取输入第一查询关键词的用户的用户特征;即,可以在用户输入第一查询关键词时,获取该用户的用户特征。
这样,在步骤102获取用户反馈日志时,还可以根据用户特征获取用户反馈日志。
或者,在获取用户反馈日志时,获取用户反馈日志中包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,而在这些历史查询结果中则包括了这些用户特征。
或者,在根据用户反馈日志确定第二查询关键词时,根据用户特征确定第二查询关键词。
即:在根据用户反馈日志匹配第二查询关键词时,还可以根据输入第一查询关键词的用户特征匹配不同的第二查询关键词。采用用户特征来对用户反馈日志进行甄选,有利于更进一步的发现第一查询关键词的潜在词义。比如:按前述实施例,用户在搜索“床”时,大部分用户的实际意图是睡觉的床,比如“单人床”、“双人床”、“木板床”等,而不是机械设备比如“机床”或“车床”。这时通过用户点击等反馈就能知道前者有“床”的潜在词义,而潜在词义中则不包含“机床”等;然而,同样的查询关键词“床”,如果用户是机械设备领域的技术人员,则其潜在词义则应当是“机床”,而非“单人床”、“双人床”、“木板床”等,本实施例中,“机械设备领域的技术人员”便是用户特征,其作用在于对用户反馈日志进行分类,以便更好的发现词的潜在词义。
再例如:用户输入的第一查询关键词是“苹果”,如果用户特征是计算机工作者,则匹配电脑类的第二查询关键词;如果用户特征是农业科学工作者,则匹配水果类的第二关键词。具体实施中,用户特征可以包括用户所在区域(例如所在国家、地区、城镇)、用户以前频繁浏览的网页、用户不久前浏览的网页、用户以前输入的搜索关键词、用户的性别、年龄、职业、爱好等等。对用户特征的分析归类上,可以根据需要使用分析IP地址、分析用户端浏览器历史数据、分析用户端COOKIE数据、分析用户网上注册信息等技术手段,这对本领域技术人员来说是容易了解的。
基于同一发明构思,本申请还提供了一种词匹配方法及装置、一种信息查询装置,由于词匹配方法及装置、信息查询装置与信息查询方法是基于同一发明构思,它们具有相似的原理,因此在词匹配方法及装置、信息查询装置实施中可以参考信息查询方法的实施,重复之处不再赘述。
图2为信息查询装置结构示意图,如图所示,装置中可以包括:
第一查询关键词获取模块201,用于获取输入的第一查询关键词;
用户反馈日志获取模块202,用于获取第一查询关键词的用户反馈日志;
匹配模块203,用于根据所述用户反馈日志确定与第一查询关键词匹配的第二查询关键词;
查询结果反馈模块204,用于反馈以第二查询关键词为目标进行查询的查询结果。
实施中,用户反馈日志获取模块可以进一步用于获取包括历次以所述第一查询关键词为目标进行查询的历史查询结果,以及历次用户对历史查询结果的点选频率的用户反馈日志;
匹配模块则可以进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词。
实施中,用户反馈日志获取模块可以进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
图3为匹配模块结构示意图,如图所示,匹配模块可以包括:
内容获取单元2031,用于获取第一关键词的历史查询结果的内容;
分词单元2032,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元2033,用于根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
在实施中,分词单元还可以进一步用于在分词后获得下述方式的词或者其组合:
分词后与第一查询关键词相邻的词;
分词后包含第一查询关键词的词;
分词后包括第一查询关键词组成部分的词。
实施中,匹配模块可以进一步用于在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,所述点选频率大于设定阈值。
图4为第一查询关键词获取模块结构示意图,如图所示,第一查询关键词获取模块中可以包括:
信息内容获取单元2011,用于获取用户输入的信息内容;
分词/分解单元2012,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
第一查询关键词确定单元2013,用于将分词后的词和/或字作为第一查询关键词。
实施中,用户反馈日志获取模块可以进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
实施中,第一查询关键词获取模块可以进一步用于在用户输入第一查询关键词时,获取该用户的用户特征用户特征;用户反馈日志获取模块可以进一步用于根据用户特征获取用户反馈日志。
实施中,第一查询关键词获取模块可以进一步用于在用户输入第一查询关键词时,获取该用户的用户特征;
用户反馈日志获取模块还可以进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
实施中,第一查询关键词获取模块还可以进一步用于在用户输入第一查询关键词时,获取该用户的用户特征;
匹配模块可以进一步用于在根据所述用户反馈日志确定第二查询关键词时,根据用户特征确定第二查询关键词。
图5为词匹配方法实施流程示意图,如图所示,在进行词匹配时可以包括如下步骤:
步骤501、获取待匹配词;
步骤502、根据待匹配词获取用户反馈日志,所述用户反馈日志包括历次以所述待匹配词为目标进行查询的历史查询结果,以及历次用户对历史查询结果的点选频率;
步骤503、根据所述历史查询结果以及点选频率确定与待匹配词匹配的词。
实施中,点选频率可以包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
实施中,根据对历史查询结果的内容的点选频率确定与待匹配词匹配的词,可以为:
获取待匹配词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与待匹配词匹配的词。
实施中,分词后的词是指下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
实施中,在根据所述历史查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
获取待匹配关键词时,可以为:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为待匹配词。
实施中,点选频率可以包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。
实施中,还可以进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
获取用户反馈日志时,根据用户特征获取用户反馈日志。
实施中,还可以进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
实施中,还可以进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
根据用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
图6为词匹配装置结构示意图,如图所示,可以包括:
待匹配词获取模块601,用于获取待匹配词;
用户反馈日志获取模块602,用于根据待匹配词获取用户反馈日志;
匹配模块603,用于根据所述用户反馈日志确定与待匹配词匹配的词。
实施中,用户反馈日志获取模块可以进一步用于获取包括历次以所述待匹配词为目标进行查询的历史查询结果,以及历次用户对历史查询结果的点选频率的用户反馈日志;
匹配模块可以进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与待匹配词匹配的词。
用户反馈日志获取模块可以进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
实施中,匹配模块可以包括:
内容获取单元,用于获取待匹配词的历史查询结果的内容;
分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元,用于根据分词后的词的点选频率确定与待匹配词匹配的词。
分词单元可以进一步用于在分词后获得下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
匹配模块可以进一步用于在根据所述历史查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
待匹配词获取模块可以包括:
信息内容获取单元,用于获取用户输入的信息内容;
分词/分解单元,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
待匹配词确定单元,用于将分词后的词和/或字作为待匹配词。
用户反馈日志获取模块可以进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
实施中,待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;用户反馈日志获取模块进一步用于根据用户特征获取用户反馈日志。
实施中,待匹配词获取模块可以进一步用于在用户输入待匹配词时,获取该用户的用户特征;
用户反馈日志获取模块还可以进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
实施中,待匹配词获取模块还可以进一步用于在用户输入待匹配词时,获取该用户的用户特征;
匹配模块可以进一步用于在根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
由上述实施例可知,本申请实施中基于对用户反馈日志分析,因而能够自动发现词语的潜在语意,从而能够准确发现词之间的内在联系;进一步的,还利用自动发现词语的潜在语意和将查询词的相关语意用来提高搜索引擎的效果;进一步的,在自动发现查询词的潜在词义时,还可以根据查询词前后单字的词频,而不是仅用分词结果来达到类似的效果。因此,在本申请实施例中通过自动发现词的潜在词义提高搜索引擎的性能,与传统方式相比,能够提高搜索的精确度和效率;
例如与现有技术中陆勇、侯汉清提到的词义自动发现方法相比,其主要是通过已有的词典数据作为抽取来源,样本量在几千条左右。如果它是以互联网网页等大数据量为基础来抽取,就会缺乏准确性。而本申请实施中通过用户参与的用户反馈日志,就可以非常可靠的自动发现查询词和查询结果之间体现用户意图的潜在词义关系,特别适合原来提高搜索引擎的准确率和智能。
为了描述的方便,描述以上系统时以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (48)

1、一种计算机执行的词匹配方法,其特征在于,包括如下步骤:
获取待匹配词;
根据待匹配词获取用户反馈日志;
根据所述用户反馈日志确定与待匹配词匹配的词。
2、如权利要求1所述的方法,其特征在于,所述用户反馈日志包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率。
3、如权利要求2所述的方法,其特征在于,根据所述用户反馈日志中的历史查询结果以及点选频率确定与待匹配词匹配的词。
4、如权利要求2或3所述的方法,其特征在于,所述点选频率包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
5、如权利要求4所述的方法,其特征在于,所述根据对历史查询结果的内容的点选频率确定与待匹配词匹配的词,包括:
获取待匹配词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与待匹配词匹配的词。
6、如权利要求5所述的方法,其特征在于,所述分词后的词包括下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
7、如权利要求1至6任一所述的方法,其特征在于,在根据所述历史查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
8、如权利要求1至7任一所述的方法,其特征在于,所述获取待匹配词,包括:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为待匹配词。
9、如权利要求1至8任一所述的方法,其特征在于,所述点选频率包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。
10、如权利要求1至9任一所述的方法,其特征在于,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述获取用户反馈日志时,根据该用户特征获取用户反馈日志。
11、如权利要求1至9任一所述的方法,其特征在于,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
12、如权利要求1至9任一所述的方法,其特征在于,进一步包括:
在用户输入待匹配词时,获取该用户的用户特征;
所述根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
13、一种词匹配装置,其特征在于,包括:
待匹配词获取模块,用于获取待匹配词;
用户反馈日志获取模块,用于根据待匹配词获取用户反馈日志;
匹配模块,用于根据所述用户反馈日志以及点选频率确定与待匹配词匹配的词。
14、如权利要求13所述的装置,其特征在于,所述用户反馈日志获取模块进一步用于获取包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率的用户反馈日志。
15、如权利要求14所述的装置,其特征在于,所述匹配模块进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与待匹配词匹配的词。
16、如权利要求14所述的装置,其特征在于,所述用户反馈日志获取模块进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
17、如权利要求15所述的装置,其特征在于,所述匹配模块包括:
内容获取单元,用于获取待匹配词的历史查询结果的内容;
分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元,用于根据分词后的词的点选频率确定与待匹配词匹配的词。
18、如权利要求17所述的装置,其特征在于,所述分词单元进一步用于在分词后获得下述方式的词或者其组合:
分词后与待匹配词相邻的词;
分词后包含待匹配词的词;
分词后包括待匹配词组成部分的词。
19、如权利要求14至18所述的装置,其特征在于,所述匹配模块进一步用于在根据所述历史查询结果以及点选频率确定与待匹配词匹配的词时,所述点选频率大于设定阈值。
20、如权利要求13至19任一所述的装置,其特征在于,所述待匹配词获取模块包括:
信息内容获取单元,用于获取用户输入的信息内容;
分词/分解单元,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
待匹配词确定单元,用于将分词后的词和/或字作为待匹配词。
21、如权利要求13至20任一所述的装置,其特征在于,所述用户反馈日志获取模块进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
22、如权利要求13至21任一所述的装置,其特征在于,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于根据用户特征获取用户反馈日志。
23、如权利要求13至21任一所述的装置,其特征在于,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述用户反馈日志获取模块进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
24、如权利要求13至21任一所述的装置,其特征在于,所述待匹配词获取模块进一步用于在用户输入待匹配词时,获取该用户的用户特征;
所述匹配模块进一步用于在根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特征确定与待匹配词匹配的词。
25、一种信息查询方法,其特征在于,包括如下步骤:
获取输入的第一查询关键词;
根据第一查询关键词获取用户反馈日志;
根据所述用户发馈日志确定与第一查询关键词匹配的第二查询关键词;
反馈以第二查询关键词为目标进行查询的查询结果。
26、如权利要求25所述的方法,其特征在于,所述用户反馈日志包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率。
27、如权利要求26所述的方法,其特征在于,根据所述用户反馈日志中的历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词。
28、如权利要求26或27所述的方法,其特征在于,所述点选频率包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率。
29、如权利要求28所述的方法,其特征在于,所述根据对历史查询结果的内容的点选频率确定与第一查询关键词匹配的第二查询关键词,包括:
获取第一查询关键词的历史查询结果的内容;
对历史查询结果的内容进行分词处理获得分词后的词;
根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
30、如权利要求29所述的方法,其特征在于,所述分词后的词是指下述方式的词或者其组合:
分词后与第一查询关键词相邻的词;
分词后包含第一查询关键词的词;
分词后包括第一查询关键词组成部分的词。
31、如权利要求25至30任一所述的方法,其特征在于,在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,所述点选频率大于设定阈值。
32、如权利要求25至31任一所述的方法,其特征在于,所述获取输入的第一查询关键词,包括:
获取用户输入的信息内容;
对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
将分词后的词和/或字作为第一查询关键词。
33、如权利要求25至32任一所述的方法,其特征在于,所述点选频率包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合。
34、如权利要求25至33任一所述的方法,其特征在于,进一步包括:
在用户输入第一查询关键词词时,获取该用户的用户特征;
所述获取用户反馈日志时,根据该用户的用户特征获取用户反馈日志。
35、如权利要求25至33任一所述的方法,其特征在于,进一步包括:
在用户输入第一查询关键词词时,获取该用户的用户特征;
所述获取用户反馈日志时,获取用户反馈日志中包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
36、如权利要求25至33任一所述的方法,其特征在于,进一步包括:
在用户输入第一查询关键词词时,获取该用户的用户特征;
所述根据所述用户反馈日志确定第二查询关键词时,根据所述用户特征确定第二查询关键词。
37、一种信息查询装置,其特征在于,包括:
第一查询关键词获取模块,用于获取输入的第一查询关键词;
用户反馈日志获取模块,用于根据第一查询关键词获取用户反馈日志;
匹配模块,用于根据所述用户反馈日志确定与第一查询关键词匹配的第二查询关键词;
查询结果反馈模块,用于反馈以第二查询关键词为目标进行查询的查询结果。
38、如权利要求37所述的装置,其特征在于,用户反馈日志获取模块进一步用于获取包括以所述第一查询关键词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率的用户反馈日志。
39、如权利要求38所述的装置,其特征在于,所述匹配模块进一步用于根据所述用户反馈日志中的历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词。
40、如权利要求38所述的装置,其特征在于,所述用户反馈日志获取模块进一步用于获取包括:对历史查询结果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。
41、如权利要求40所述的装置,其特征在于,所述匹配模块包括:
内容获取单元,用于获取第一查询关键词的历史查询结果的内容;
分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词;
匹配单元,用于根据分词后的词的点选频率确定与第一查询关键词匹配的第二查询关键词。
42、如权利要求41所述的装置,其特征在于,所述分词单元进一步用于在分词后获得下述方式的词或者其组合:
分词后与第一查询关键词相邻的词;
分词后包含第一查询关键词的词;
分词后包括第一查询关键词组成部分的词。
43、如权利要求37至40任一所述的装置,其特征在于,所述匹配模块进一步用于在根据所述历史查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词时,所述点选频率大于设定阈值。
44、如权利要求37至43任一所述的装置,其特征在于,所述第一查询关键词获取模块包括:
信息内容获取单元,用于获取用户输入的信息内容;
分词/分解单元,用于对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容分解为字;
第一查询关键词确定单元,用于将分词后的词和/或字作为第一查询关键词。
45、如权利要求37至44任一所述的装置,其特征在于,所述用户反馈日志获取模块进一步用于获取包括历史查询结果的点击频率、历史查询结果的曝光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其组合的参数作为点选频率。
46、如权利要求37至45任一所述的装置,其特征在于,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词词时,获取该用户特征;
所述用户反馈日志获取模块进一步用于根据用户特征获取用户反馈日志。
47、如权利要求37至45任一所述的装置,其特征在于,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词词时,获取该用户特征;
所述用户反馈日志获取模块进一步用于在获取用户反馈日志时,获取用户反馈日志中包括以所述待匹配词为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史查询结果包括所述用户特征。
48、如权利要求37至45任一所述的装置,其特征在于,所述第一查询关键词获取模块进一步用于在用户输入第一查询关键词词时,获取该用户的用户特征;
所述匹配模块进一步用于在根据所述用户反馈日志确定第二查询关键词时,根据所述用户特征确定第二查询关键词。
CNA2009100015557A 2009-01-12 2009-01-12 一种词匹配及信息查询方法及装置 Pending CN101464897A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CNA2009100015557A CN101464897A (zh) 2009-01-12 2009-01-12 一种词匹配及信息查询方法及装置
US12/655,980 US8898180B2 (en) 2009-01-12 2010-01-11 Method and system for querying information
JP2011545381A JP5679993B2 (ja) 2009-01-12 2010-01-12 クエリを実行する方法およびクエリシステム
PCT/US2010/000075 WO2010080719A1 (en) 2009-01-12 2010-01-12 Search engine for refining context-based queries based upon historical user feedback
EP10729396A EP2382534A4 (en) 2009-01-12 2010-01-12 SEARCH ENGINE FOR REFINING CONTEXT-BASED QUESTIONS BASED ON HISTORICAL USER FEEDBACKS
US14/487,321 US9430568B2 (en) 2009-01-12 2014-09-16 Method and system for querying information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100015557A CN101464897A (zh) 2009-01-12 2009-01-12 一种词匹配及信息查询方法及装置

Publications (1)

Publication Number Publication Date
CN101464897A true CN101464897A (zh) 2009-06-24

Family

ID=40805472

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100015557A Pending CN101464897A (zh) 2009-01-12 2009-01-12 一种词匹配及信息查询方法及装置

Country Status (5)

Country Link
US (2) US8898180B2 (zh)
EP (1) EP2382534A4 (zh)
JP (1) JP5679993B2 (zh)
CN (1) CN101464897A (zh)
WO (1) WO2010080719A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833570A (zh) * 2010-03-23 2010-09-15 深圳市五巨科技有限公司 一种移动终端页面推送优化的方法和装置
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN103207906A (zh) * 2013-03-28 2013-07-17 百度在线网络技术(北京)有限公司 搜索结果的提供方法和搜索引擎
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN104346160A (zh) * 2013-08-09 2015-02-11 联想(北京)有限公司 信息处理的方法及电子设备
CN104462556A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面相关问题推荐方法和装置
CN104462552A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN104462553A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置
WO2015196907A1 (zh) * 2014-06-24 2015-12-30 北京奇虎科技有限公司 一种挖掘用户需求的搜索推送方法和装置
CN105389314A (zh) * 2014-09-04 2016-03-09 中芯国际集成电路制造(上海)有限公司 一种日志文件查询系统及查询方法
CN107291685A (zh) * 2016-04-13 2017-10-24 北京大学 语义识别方法和语义识别系统
CN108897843A (zh) * 2018-06-27 2018-11-27 吉安职业技术学院 一种基于中心法的文本自适应推荐方法
CN108984582A (zh) * 2018-05-04 2018-12-11 中国信息安全研究院有限公司 一种查询请求处理方法
CN109726226A (zh) * 2019-01-03 2019-05-07 中国联合网络通信集团有限公司 群组对话框排序方法及装置
CN109933645A (zh) * 2019-01-28 2019-06-25 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN109978498A (zh) * 2019-03-15 2019-07-05 河北冀联人力资源服务集团有限公司 任务信息处理方法及装置
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN111079421A (zh) * 2019-11-25 2020-04-28 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111324805A (zh) * 2018-12-13 2020-06-23 北京搜狗科技发展有限公司 查询意图确定方法及装置、搜索方法及搜索引擎
CN112925882A (zh) * 2021-02-18 2021-06-08 联想(北京)有限公司 一种信息处理方法及装置
CN113360743A (zh) * 2021-07-09 2021-09-07 南方电网数字电网研究院有限公司 查询数据过滤方法、装置、计算机设备和存储介质

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US8666972B2 (en) * 2009-02-12 2014-03-04 International Business Machines Corporation System and method for content management and determination of search conditions
US8548981B1 (en) * 2010-06-23 2013-10-01 Google Inc. Providing relevance- and diversity-influenced advertisements including filtering
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8880532B2 (en) 2011-06-29 2014-11-04 International Business Machines Corporation Interestingness of data
US20130086033A1 (en) 2011-10-03 2013-04-04 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
CN103034665B (zh) * 2011-10-10 2016-01-06 阿里巴巴集团控股有限公司 信息查询方法和装置
CN103207881B (zh) * 2012-01-17 2016-03-02 阿里巴巴集团控股有限公司 查询方法和装置
US9043248B2 (en) 2012-03-29 2015-05-26 International Business Machines Corporation Learning rewrite rules for search database systems using query logs
US9313330B1 (en) * 2012-09-27 2016-04-12 West Corporation Identifying recorded call data segments of interest
US10395215B2 (en) * 2012-10-19 2019-08-27 International Business Machines Corporation Interpretation of statistical results
TW201435627A (zh) * 2013-03-12 2014-09-16 Hon Hai Prec Ind Co Ltd 搜索優化系統及方法
US20140317078A1 (en) * 2013-04-18 2014-10-23 SkillPages Holdings Limited Method and system for retrieving information
CN104899322B (zh) * 2015-06-18 2021-09-17 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
CN106844372B (zh) * 2015-12-04 2021-09-24 菜鸟智能物流控股有限公司 一种物流信息查询方法和装置
MY194419A (en) 2016-05-30 2022-11-30 Janssen Vaccines & Prevention Bv Stabilized pre-fusion rsv f proteins
CN106227891A (zh) * 2016-08-24 2016-12-14 广东华邦云计算股份有限公司 一种基于模式的商品查询短文本语义处理方法
CN108427686A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 文本数据查询方法及装置
US10692157B2 (en) * 2017-03-28 2020-06-23 International Business Machines Corporation Selection of information sources based on social activities
CN107222526B (zh) * 2017-05-16 2020-09-29 百度在线网络技术(北京)有限公司 推送推广信息的方法、装置、设备和计算机存储介质
CN107622054B (zh) * 2017-09-26 2020-12-22 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN109597986A (zh) * 2018-10-16 2019-04-09 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
US11281640B2 (en) * 2019-07-02 2022-03-22 Walmart Apollo, Llc Systems and methods for interleaving search results
JP6948425B2 (ja) * 2020-03-19 2021-10-13 ヤフー株式会社 判定装置、判定方法及び判定プログラム
JP7127080B2 (ja) * 2020-03-19 2022-08-29 ヤフー株式会社 判定装置、判定方法及び判定プログラム
CN112182193B (zh) * 2020-10-19 2023-01-13 山东旗帜信息有限公司 一种交通行业中日志获取方法、设备及介质
CN115077159A (zh) * 2021-03-10 2022-09-20 松下电器研究开发(苏州)有限公司 冰箱及智能冰箱系统
US11860884B2 (en) * 2021-03-30 2024-01-02 Snap Inc. Search query modification database

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219957A (ja) 1994-01-28 1995-08-18 Matsushita Electric Ind Co Ltd 情報分類装置、情報検索装置及び情報収集装置
US6567797B1 (en) * 1999-01-26 2003-05-20 Xerox Corporation System and method for providing recommendations based on multi-modal user clusters
US6502091B1 (en) * 2000-02-23 2002-12-31 Hewlett-Packard Company Apparatus and method for discovering context groups and document categories by mining usage logs
JP2002092033A (ja) 2000-09-12 2002-03-29 Sanyo Electric Co Ltd 情報検索装置
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US7149804B2 (en) * 2001-04-30 2006-12-12 Sony Computer Entertainment America Inc. Method and system for providing evaluation of text-based products
US7028024B1 (en) * 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
US7092936B1 (en) * 2001-08-22 2006-08-15 Oracle International Corporation System and method for search and recommendation based on usage mining
JP4003468B2 (ja) * 2002-02-05 2007-11-07 株式会社日立製作所 適合性フィードバックによる類似データ検索方法および装置
EP1395056A1 (en) * 2002-08-30 2004-03-03 Sony International (Europe) GmbH Methods to create a user profile and to specify a suggestion for a next selection of the user
JP2005031949A (ja) 2003-07-11 2005-02-03 Canon Inc 情報検索方法、情報検索装置およびプログラム
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US7451131B2 (en) * 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US7890526B1 (en) * 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
GB0414332D0 (en) * 2004-06-25 2004-07-28 British Telecomm Data storage and retrieval
US7707220B2 (en) * 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
US20060129531A1 (en) * 2004-12-09 2006-06-15 International Business Machines Corporation Method and system for suggesting search engine keywords
JP4461233B2 (ja) 2005-03-30 2010-05-12 独立行政法人情報通信研究機構 メディアデータ選択装置、メディアデータ選択方法、メディアデータ選択プログラムおよびそのプログラムを記録した記録媒体
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US8200687B2 (en) * 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US7577665B2 (en) * 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
CN100495398C (zh) * 2006-03-30 2009-06-03 国际商业机器公司 文件系统中搜索排序的方法及相关搜索引擎
JP4958476B2 (ja) * 2006-05-24 2012-06-20 株式会社日立製作所 検索装置
US7840538B2 (en) * 2006-12-20 2010-11-23 Yahoo! Inc. Discovering query intent from search queries and concept networks
US7725453B1 (en) * 2006-12-29 2010-05-25 Google Inc. Custom search index
JP4909748B2 (ja) 2007-01-22 2012-04-04 ヤフー株式会社 ページ移動操作の履歴情報に基づいてWebページへの参照元のWebページに関する情報を推薦する方法及びサーバ
US20080222119A1 (en) * 2007-03-08 2008-09-11 Microsoft Corporation Detecting a user's location, local intent and travel intent from search queries
JP2008293211A (ja) * 2007-05-23 2008-12-04 Hitachi Ltd アイテム推薦システム
US7734641B2 (en) * 2007-05-25 2010-06-08 Peerset, Inc. Recommendation systems and methods using interest correlation
US7818320B2 (en) * 2007-05-31 2010-10-19 Yahoo! Inc. Enhanced search results based on user feedback relating to search result abstracts
CN101436186B (zh) 2007-11-12 2012-09-05 北京搜狗科技发展有限公司 一种提供相关搜索的方法及系统
JP4962967B2 (ja) 2008-01-11 2012-06-27 ヤフー株式会社 Webページ検索サーバ及びクエリ推薦方法
US8005828B2 (en) * 2008-02-05 2011-08-23 Yahoo! Inc. Learning query rewrite policies
US20090259646A1 (en) * 2008-04-09 2009-10-15 Yahoo!, Inc. Method for Calculating Score for Search Query
US7890516B2 (en) * 2008-05-30 2011-02-15 Microsoft Corporation Recommending queries when searching against keywords
JP4869292B2 (ja) 2008-06-20 2012-02-08 ヤフー株式会社 検索キーワードを推薦するサーバ、方法、およびプログラム
CN101751422A (zh) 2008-12-08 2010-06-23 北京摩软科技有限公司 一种移动终端智能搜索的方法、移动终端和服务器
CN101751437A (zh) 2008-12-17 2010-06-23 中国科学院自动化研究所 基于强化学习的网页页面主动式检索系统
JP2010146366A (ja) * 2008-12-19 2010-07-01 Toshiba Corp 情報提供サーバ
US8515966B2 (en) * 2009-01-09 2013-08-20 Ebay Inc. Analyzing queries to generate product intention rules
US8719249B2 (en) * 2009-05-12 2014-05-06 Microsoft Corporation Query classification
US8423568B2 (en) * 2009-09-16 2013-04-16 Microsoft Corporation Query classification using implicit labels
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US20110208730A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
US9177045B2 (en) * 2010-06-02 2015-11-03 Microsoft Technology Licensing, Llc Topical search engines and query context models
US8612432B2 (en) * 2010-06-16 2013-12-17 Microsoft Corporation Determining query intent
US9465864B2 (en) * 2010-09-29 2016-10-11 Excalibur Ip, Llc Training a search query intent classifier using wiki article titles and a search click log

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔航 等: "基于用户日志的查询扩展统计模型", 《软件学报》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833570A (zh) * 2010-03-23 2010-09-15 深圳市五巨科技有限公司 一种移动终端页面推送优化的方法和装置
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102567408B (zh) * 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN102855252B (zh) * 2011-06-30 2015-09-09 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN103207906A (zh) * 2013-03-28 2013-07-17 百度在线网络技术(北京)有限公司 搜索结果的提供方法和搜索引擎
CN103207906B (zh) * 2013-03-28 2016-12-28 百度在线网络技术(北京)有限公司 搜索结果的提供方法和搜索引擎
CN104346160A (zh) * 2013-08-09 2015-02-11 联想(北京)有限公司 信息处理的方法及电子设备
CN104346160B (zh) * 2013-08-09 2018-02-27 联想(北京)有限公司 信息处理的方法及电子设备
CN104636403B (zh) * 2013-11-15 2019-03-26 腾讯科技(深圳)有限公司 处理查询请求的方法及装置
CN104636403A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 处理查询请求的方法及装置
WO2015196907A1 (zh) * 2014-06-24 2015-12-30 北京奇虎科技有限公司 一种挖掘用户需求的搜索推送方法和装置
CN105389314A (zh) * 2014-09-04 2016-03-09 中芯国际集成电路制造(上海)有限公司 一种日志文件查询系统及查询方法
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN104281702B (zh) * 2014-10-22 2017-07-11 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN104462553A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN104462556A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面相关问题推荐方法和装置
CN104462556B (zh) * 2014-12-25 2018-02-23 北京奇虎科技有限公司 问答页面相关问题推荐方法和装置
CN104462552A (zh) * 2014-12-25 2015-03-25 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN104462552B (zh) * 2014-12-25 2018-07-17 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN107291685A (zh) * 2016-04-13 2017-10-24 北京大学 语义识别方法和语义识别系统
CN107291685B (zh) * 2016-04-13 2020-10-13 北京大学 语义识别方法和语义识别系统
CN110147426B (zh) * 2017-12-01 2021-08-13 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN110147426A (zh) * 2017-12-01 2019-08-20 北京搜狗科技发展有限公司 一种查询文本的分类标签确定方法及相关装置
CN108984582A (zh) * 2018-05-04 2018-12-11 中国信息安全研究院有限公司 一种查询请求处理方法
CN108984582B (zh) * 2018-05-04 2023-07-28 中国信息安全研究院有限公司 一种查询请求处理方法
CN108897843A (zh) * 2018-06-27 2018-11-27 吉安职业技术学院 一种基于中心法的文本自适应推荐方法
CN111324805A (zh) * 2018-12-13 2020-06-23 北京搜狗科技发展有限公司 查询意图确定方法及装置、搜索方法及搜索引擎
CN111324805B (zh) * 2018-12-13 2024-02-13 北京搜狗科技发展有限公司 查询意图确定方法及装置、搜索方法及搜索引擎
CN109726226A (zh) * 2019-01-03 2019-05-07 中国联合网络通信集团有限公司 群组对话框排序方法及装置
CN109933645A (zh) * 2019-01-28 2019-06-25 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN109933645B (zh) * 2019-01-28 2024-01-23 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN109978498A (zh) * 2019-03-15 2019-07-05 河北冀联人力资源服务集团有限公司 任务信息处理方法及装置
CN111079421A (zh) * 2019-11-25 2020-04-28 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN112925882A (zh) * 2021-02-18 2021-06-08 联想(北京)有限公司 一种信息处理方法及装置
CN113360743A (zh) * 2021-07-09 2021-09-07 南方电网数字电网研究院有限公司 查询数据过滤方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US9430568B2 (en) 2016-08-30
WO2010080719A1 (en) 2010-07-15
EP2382534A4 (en) 2013-02-13
US20100179948A1 (en) 2010-07-15
JP5679993B2 (ja) 2015-03-04
EP2382534A1 (en) 2011-11-02
US8898180B2 (en) 2014-11-25
US20150066888A1 (en) 2015-03-05
JP2012515379A (ja) 2012-07-05

Similar Documents

Publication Publication Date Title
CN101464897A (zh) 一种词匹配及信息查询方法及装置
Su et al. Information resources processing using linguistic analysis of textual content
JP6416150B2 (ja) 検索方法、検索システム及びコンピュータプログラム
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
US20120136649A1 (en) Natural Language Interface
CN102722501B (zh) 搜索引擎及其实现方法
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN107729336A (zh) 数据处理方法、设备及系统
CN101853308A (zh) 一种个性化元搜索的方法及其应用终端
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN102722499B (zh) 搜索引擎及其实现方法
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN1983255A (zh) 一种互联网搜索方法
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
Gu et al. Service package recommendation for mashup creation via mashup textual description mining
CN102737021A (zh) 搜索引擎及其实现方法
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN107330111A (zh) 基于通用形式化本体的领域本体的检索方法及装置
Ajoudanian et al. Deep web content mining
CN103020311B (zh) 一种用户检索词的处理方法及系统
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统
CN103177122B (zh) 一种基于同义词的个人桌面文件搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1131454

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20090624

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1131454

Country of ref document: HK