CN102033877A - 检索方法和装置 - Google Patents

检索方法和装置 Download PDF

Info

Publication number
CN102033877A
CN102033877A CN2009101750663A CN200910175066A CN102033877A CN 102033877 A CN102033877 A CN 102033877A CN 2009101750663 A CN2009101750663 A CN 2009101750663A CN 200910175066 A CN200910175066 A CN 200910175066A CN 102033877 A CN102033877 A CN 102033877A
Authority
CN
China
Prior art keywords
data query
current data
classification
confidence
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101750663A
Other languages
English (en)
Inventor
林锋
康战辉
黄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2009101750663A priority Critical patent/CN102033877A/zh
Priority to US12/807,505 priority patent/US8560513B2/en
Priority to JP2012530856A priority patent/JP5513624B2/ja
Priority to PCT/US2010/002456 priority patent/WO2011037603A1/en
Priority to EP10819138.8A priority patent/EP2480995A4/en
Publication of CN102033877A publication Critical patent/CN102033877A/zh
Priority to US14/019,427 priority patent/US9230025B2/en
Priority to US14/958,817 priority patent/US9846748B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols

Abstract

本申请提供了一种检索方法、装置和系统,所述方法包括:接收客户端提交的当前查询数据;提取所述当前查询数据的总属性特征,所述总属性特征可以包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;向客户端返回所述每个类目及对应的置信度;在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索,并将检索结果返回给客户端。在本申请中,对用户的查询数据覆盖率可以显著提升,更进一步的,提升搜索引擎服务器的性能。

Description

检索方法和装置
技术领域
本申请涉及网络数据处理领域,特别涉及一种检索方法和装置。
背景技术
搜索引擎(Search engine)已经成为互联网领域用户获得信息的一种常用手段。从用户的角度看,搜索引擎提供一个页面,用户在页面输入关键词语,提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息。用户输入的关键词语可以成为查询数据,即是用户通过查询数据来查询自己感兴趣的相关内容。其中,在电子商务领域,用户输入的查询数据有一个对应的类目,例如,运动、娱乐等。
对于搜索引擎来讲,如果能通过用户的查询数据,在进行检索之前,准确识别查询数据对应的类目,并在该类目中检索查询数据,则不仅准确的缩小了搜索范围,还能够更加准确地向用户推荐相关产品。在现有技术中,有实现分类检索方法主要采取查表的方式,即在后台人工构建一个查询数据与行业类目的映射表,例如表1。
表1
例如,当用户输入的查询数据为“电动自行车”,则搜索引擎首先将该查询数据在该映射表中进行匹配,并将匹配获取到的3个类目均返回给客户端,那么用户就可以根据这3个类目进行选择,从而由搜索引擎在自己感兴趣的那一个类目中进行检索,并接收搜索引擎返回的检索结果。
从上述过程中可以看出,由于映射表中的查询数据和对应的类目都是由人工制定的,因此能处理的查询词的范围就受到映射表中查询数据所属类目多少的限制,只有用户输入的查询词必须与映射表中的查询数据完全匹配,搜索引擎才能将搜索结果返回给用户,因此现有技术中的这种检索方法对于查询数据的覆盖率比较低;更进一步的,由于映射表中的查询数据和对应的类目都是由人工制定的,因此,后续对映射表的维护成本较高,并且,如果行业类目一更改,原有映射表就会无效,可扩展性较差。上述过程还存在一个技术问题是,搜索引擎在获取到与查询数据匹配的类目后,先将该等类目传输给客户端,然后在客户端对该等类目做出选择后才能进行相应的检索,这无疑增大了搜索引擎服务器与客户端之间的数据传输量,增加了服务器的负担,降低了数据在网络中的传输速率。
总之,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出一种检索方法,以解决现有技术中基于映射表进行检索时,对用户的查询数据覆盖率较低的问题,以及服务器负担过重、网络传输速率慢的问题。
发明内容
本申请所要解决的技术问题是提供一种检索方法,用以解决现有技术中基于映射表进行检索时,对用户的查询数据覆盖率较低的问题,更进一步的,还可以降低成本,优化可扩展性。
本申请还提供了一种检索装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种检索方法,包括:
接收客户端提交的当前查询数据;
提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据与每个类目的置信度;
根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
向客户端返回所述每个类目及对应的置信度;
在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索,并将检索结果返回给客户端。
本申请公开了一种检索方法,包括:
接收客户端提交的当前查询数据;
提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索,并将检索结果返回给客户端。
本申请公开了一种检索装置,包括:
接收模块,用于接收客户端提交的当前查询数据;
提取模块,用于提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
计算获取模块,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
返回模块,用于向客户端返回所述每个类目及对应的置信度;
第一检索模块,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
本申请还提供了一种检索装置,该装置包括:
接收模块,用于接收客户端提交的当前查询数据;
提取模块,用于提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
计算获取模块,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
第二检索模块,用于在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索。
与现有技术相比,本申请包括以下优点:
在本申请中,通过对当前查询数据的总属性特征的提取,可以根据该总属性特征获取到当前查询数据属于某一个类目的置信度,这样对于每
一个类目都有一个置信度与其对应,不管当前查询数据之前有没有出现过,都可以由条件概率模型计算出其归属于某一个类目的置信度。即便后台映射表中没有预先保存某个或某些类目,只要用户根据搜索引擎服务器返回的置信度选择了某个类目,或者搜索引擎服务器直接根据置信度最高的值对应类目对当前查询数据进行检索,就可以在提高当前查询数据的覆盖率的广泛性的同时,在一定程度上减少搜索引擎服务器的工作,提升搜索引擎服务器的工作效率和性能,提高网络中数据传输的速率,同时也能增加用户在数据查询方面的搜索体验。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一种检索方法实施例1的流程图;
图2是本申请中一种产品信息的界面示意图;
图3是本申请中搜索引擎的返回的类目的界面示意图;
图4是本申请的一种检索方法实施例2的流程图;
图5是本申请的一种检索方法实施例3的流程图;
图6是本申请中查询分类器输入和输入内容的结构示意图;
图7是本申请的一种检索方法实施例四的流程图;
图8是本申请的一种检索装置实施例1的结构框图;
图9是本申请的一种检索装置实施例2的结构框图;
图10是本申请的一种检索装置实施例3的结构框图;
图11是本申请的一种检索装置实施例4的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请的主要思想之一可以包括,在搜索引擎接收到客户端提交的当前查询数据时,首先提取所述当前查询数据的总属性特征,在具体实施例中,所述总属性特征可以包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;所述词一级特征为所述当前查询数据中的关键词,所述句法特征为所述当前查询数据中的中心词所对应的词根,所述语义特征为所述关键词对应的语义标签,所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目,所述会话特征用于表示在同一个会话中,所述当前查询数据的前一个查询对应的最优类目;根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度,并向客户端返回所述每个类目及对应的置信度;最后在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。在本申请实施例中,在一定程度上减少了搜索引擎服务器的工作,提升了搜索引擎服务器的工作效率和性能,也能增加用户在数据查询方面的搜索体验。并且,和现有技术相比,也能够具有更广泛的覆盖率,因为不管当前查询数据之前有没有出现过,都可以由条件概率模型计算出其归属于某一个类目的置信度。
参考图1,示出了本申请一种检索方法实施例1的流程图,可以包括以下步骤:
步骤101:搜索引擎服务器通过浏览器接收客户端提交的当前查询数据。
在本申请实施例中,客户端首先向搜索引擎提交当前输入的查询数据,其中,查询数据可以任意。
步骤102:搜索引擎服务器提取所述当前查询数据的总属性特征,所述总属性特征用于计算当前查询数据与每个类目之间的置信度。
在实际中,所述总属性特征具体可包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征。
在本申请实施例中,所述当前查询数据的一些特征被提取出来用于后续条件概率的运算,所述当前查询数据共需要提取六种特征,所述词一级特征为所述当前查询数据中的关键词,即是非停用词对应的词根被抽取为词一级特征;例如,当前查询数据为“find Nokia N95phones”时,所述词一级的特征包括:find、Nokia、N95和phone,如果是中文“查询诺基亚手机”,则词一级的特征为:查询、诺基亚和手机,具体实现时可以通过分词器来获取到当前查询数据的关键词;所述句法特征为所述当前查询数据中的中心词所对应的词根,即是当前查询数据中的句法级别的中心词所对应的词根被抽取为句法特征,中心词可以在一定程度上反映了当前查询数据的意图核心词;例如,对于“find Nokia N95phones”,中心词为phones,则抽取词根“phon”为句法特征;所述语义特征为所述关键词对应的语义标签,所述当前查询数据中的关键词所对应的词根所对应的语义标签被抽取为语义的特征,在本申请实施例中所采用的语义标签有:意动词标签(Action),用于标识该词为一意愿动词;产品标签(Product),用于标识该词为某一产品词;品牌标签(Brand),用于标识该词为某一品牌词;型号标签(Model),用于标识该词为某一型号词;其他标签(Other),用于其他词所对应的标签;例如,对于“find Nokia N95phones”,对应的语义特征有“Action:find”,“Brand:Nokia”,“Model:N95”,和“Product:phon”。
所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述预置的点击日志是在搜索引擎服务器上保存的一个数据库,用于保存用户输入查询数据之后,所点击的产品所属的类目。例如,用户输入的查询词为“mp3”,在搜索引擎向用户返回的结果中用户点击了某一个产品,与该产品相关的部分信息有:标题为“Digital Mp3Player”,With Lcd And Fm(IMC278A),可以参见图2所示,为该产品信息在网页上的界面示意图。其中,关键词为“mp3player,music player”,该产品所属的类目为“mp3players”,即是对于查询词“mp3”来说,其点击特征为“mp3players”。所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目;在电子商务网站中,例如“www.alibaba.com”,如果用户输入的查询词为mp3,则搜索引擎在返回搜索到的产品链接的同时,返回这些产品对应的类目(可以参见图3所示,为对应类目的界面示意图),以便用户可以通过点击这些类目的链接来定位所检索的范围;所述筛选日志就用于保存用户输入的查询词和被点击的类目的对应关系。所述会话特征用于表示在同一个会话(Session)中,所述当前查询数据的前一个查询对应的最优类目;在一个有效的时间内,在同一个浏览器内的一系列的查询行为属于一个会话。即是用户打开一个网页之后,在未关这个网页之前,就认为所输入的查询词都属于同一个浏览器。例如,一个会话中包含了三个查询,按照时间先后次序为:“phone”、“Nokia phone”和“Nokia n95”;则“Nokia n95”的Session特征为“Nokia phone”所对应的最好的分类类目,而“phone”的Session特征为空(NULL)。
需要说明的是,不管所述当前查询数据的总属性特征包括了几个具体特征,本领域技术人员都可以实现本发明的目的,因此,所述总属性特征包括的具体特征的个数及其形式和内容不受本发明实施例的限制。
步骤103:搜索引擎服务器根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度。
其中,根据步骤102中得到的当前查询数据的特征,可以认为是条件概率模型中的给定条件,而所述置信度为一个0~1之间的数值,用于表示在给定条件下某一件事发生的概率。因为条件概率的含义是求在一件事(条件)发生的前提下,另外一件事发生的概率,因此,本实施例中,当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征则被认为是条件,而对于某个类目计算出的置信度,则可以理解为当前查询数据属于该某个类目的概率是多少。因此可以看出,置信度越大,即是当前查询数据越有可能属于对应的某个类目。
优选情况下,可以采用最大熵模型来对具体的类目计算对应的置信度。还需要说明的是,本申请实施例在对每个类目计算置信度时,主要采用的是机器学习方法,因为该方法可以通过一定规模的训练查询数据,来模拟用户的查询行为,计算获取到查询数据归类于某一类目的概率。举例来说,对于词一级特征来讲,如果在训练数据中有这样的记录“当前查询数据中包括phon时,属于电子类”,那么对于当前查询数据中的词一级特征“phon”来说,当计算置信度的类目为电子类时,则该电子类对应的置信度在计算时对应的词一级特征值就为1,当计算除了电子类之外的其他类目的置信度时,词一级特征值则为0。以此类推,可以根据训练数据中的内容分别计算当前查询数据中的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征对应的值,并根据条件概率模型计算存在这些特征值的情况下,当前查询数据归属于某一类目的概率值。
步骤104:搜索引擎服务器向客户端返回所述每个类目及对应的置信度。
假设实际中的分类有40种,则需要对每一个类目都进行计算,在实际中,就计算出对应的40个置信度,搜索引擎服务器分别将每个类目及对应的置信度返回给用户,服务器在返回这40个置信度的时候,可以优先进行排序,然后将排序后的置信度内容返回给用户,以便于用户根据自己所感兴趣的类目定位检索范围,以更加精准的检索到需要的产品信息。
步骤105:搜索引擎服务器在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索,并将检索结果返回至客户端。
搜索引擎服务器接收用户选择的类目信息,并在后台在所述选择的类目范围内检索和当前查询数据相关的信息。在本实施例中,可以对客户端提交的当前查询数据进行特征的提取,其中特征涉及到当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,根据这些特征在训练数据中进行匹配,从而得到表示匹配结果的特征值,然后利用条件概率模型将所述特征值计算出表示当前查询数据属于某一类目的置信度,从而在能够将置信度和类目的对应关系返回至客户端的基础上,根据客户端所选的类目再对当前查询数据进行检索,这样就在一定程度上减少了搜索引擎服务器的工作,提升了搜索引擎服务器的工作效率和性能,也能增加用户在数据查询方面的搜索体验。
参考图4,示出了本申请一种检索方法实施例2的流程图,可以包括以下步骤:
步骤401:查询分类器接收客户端提交的当前查询数据。
在本实施例中,可以构建查询分类器,该查询分类器可以对当前查询数据提取相关的特征,并根据提取的特征计算类目对应的置信度,其中,所述查询分类器可以采用软件或硬件实现,可以作为搜索引擎服务器新增的一项功能或者作为实体与搜索引擎服务器相连。
步骤402:查询分类器提取所述当前查询数据的词一级特征。
本实施例中提取词一级特征和实施例1中的介绍一致。
步骤403:查询分类器提取所述当前查询数据的句法特征。
在本实施例中,可以首先采用词性标注工具对当前查询数据标注每一个词的词性,例如:“phones”的词性为nns,表示该词为复数名词;然后采用短语识别工具对当前查询数据做短语识别,例如,当前查询数据
“find Nokia N95phones”由两个短语组成,分别是动词短语“find”和名词短语“Nokia N95phones”;再通过规则从名词短语中抽取出中心词“phones”,最后通过词根抽取工具,抽取“phones”的词根为“phon”,其中,所述规则可以是例如“如果一个查询词只有一个名词短语,则该名词短语中最后一个名词为中心词”等预置的中心词抽取方式。其中,词性标注工具、短语识别工具和词根抽取工具是目前已经开发并进行使用的工具。步骤404:查询分类器提取所述当前查询数据的语义特征。
基于搜索引擎服务器中保存的查询日志,可以将在电子商务网上发布的产品信息生成品牌名的表格,例如:品牌“Nokia”,还可以生成型号名的表格,例如:型号“N95”,同时生成基本的产品名的表格,例如:产品名“phone”。因此查询分类器根据上述的各种表格可以对当前查询数据的关键词分别标注出所含有的品牌,型号,产品名等等。然后抽取关键词的词根作为语义特征。
步骤405:查询分类器提取所述当前查询数据的点击特征。
查询分类器直接从预置的点击日志中根据当前查询数据和点击特征的对应关系,获取到对应的点击特征即可。在实际应用中,不同的产品可能包含相同的类目信息,对于同一个查询词用户也可能会点击多个产品对应的网页链接,因此在点击日志中同一个查询词可能对应多个类目。而搜索引擎服务器可以记录用户输入的查询词,以及用户在搜索引擎推荐的产品中都点击了哪些产品的网页链接,就记录这些产品所述的不同类目,从而将查询词和类目之间建立对应关系,根据查询词、类目以及两者的对应关系构建点击日志。
具体的,在预置的点击日志中,首先统计当前查询数据在点击日志中对应的前n个频率最高的类目(n的取值优选情况可以取为3),并把这n个类目作为点击特征;如果在点击日志中匹配不到当前查询数据,则在点击日志中寻找一个与当前查询数据最相近的查询,并把最相近的查询在点击日志中对应的前n个频率最高的类目作为当前查询数据的点击特征。在点击日志中,寻找与当前查询数据的编辑距离最少的查询数据作为最相近的查询。所谓编辑距离是指两个查询数据经过插入、删除或者更改等操作后能够相同所花费的操作的代价,代价越高则编辑距离越大,反之则编辑距离越小。
步骤406:查询分类器提取所述当前查询数据的筛选特征。
查询分类器直接从预置的筛选日志中根据当前查询数据和筛选特征的对应关系,获取到对应的筛选特征即可。在实际应用中,对于同一个查询词搜索引擎也可以根据后台的映射表从而推荐多个类目,因此在筛选日志中同一个查询词可能对应多个类目。搜索引擎服务器可以根据映射表中记录的类目,以及与查询词之间的对应关系,从而生成筛选日志。
具体的,在预置的筛选日志中,统计一个查询在筛选日志中对应的前n(n的取值优选情况可以取为3)个频率最高的类目,并把这n个类目作为筛选特征;如果当前查询数据在筛选日志中没有出现,则在筛选日志中寻找一个与当前查询数据最相近的查询,并把最相近的查询在筛选日志中对应的前n个频率最高的类目作为该查询的筛选特征。寻找与当前查询数据的编辑距离最少的查询数据作为最相近的查询。所谓编辑距离是指两个查询数据经过插入、删除或者更改等操作后能够相同所花费的操作的代价,代价越高则编辑距离越大,反之则编辑距离越小。
步骤407:查询分类器提取所述当前查询数据的会话特征。
在电子商务领域中,一个Session一般围绕同一个主题进行。在同一个Session内的查询数据所属的类目一般相同或者具有相关性。例如,在实际中一个Session包含了三个查询,按照时间先后次序为:“phone”、“Nokia phone”和“Nokia n95”,这三个查询可以反映用户的查询意图,并且这三个查询对应的所属类目具有相关性。因此,会话特征也可以从一定程度上反映当前查询数据与其属于某一个类别的可信程度。
步骤408:查询分类器将所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,作为条件概率模型的给定信息。
假设某一个类目为C类,则当前查询数据被划分为该类目C的置信度就可以用如下方式表示:在给定相关信息x的条件下,当前查询数据确定属于该类目C的后验概率p(cis correct|x)。其中,所述x代表的信息即是给定信息,在本实施例中为当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征。
步骤409:查询分类器采用条件概率模型计算在所述给定信息的情况下,所述当前查询在每个类目下的后验概率;并将所述后验概率作为当前查询数据的在该类目下的置信度。
条件概率模型可以训练当前查询数据所得到的特征的权重,通过训练得到的对应的特征值和权重,来利用条件概率模型计算当前查询数据被确定为某一类目的条件概率,即是置信度。
条件概率模型优选情况下可以选择最大熵模型,其公式如下所示:
p ( y | x ) = 1 Z ( x ) exp ( Σ j λ j f j ( x , y ) )
其中y∈{c is correct,c is incorrect};x是当前查询数据所对应的给定信息,在本实施例中包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;fj是最大熵模型对应的特征值,例如,即是当x为词一级特征时,如果在训练数据中能够匹配到“当前查询数据的关键词包括phon时,所属类目为C”,则特征fj在条件“当前查询数据的关键词包括phon时”的值就为1,否则为0;λj是当前查询数据的各个特征对应的权重,可以通过模型训练得到的;Z(x)是归一化因子,也通过模型训练得到。
在实际中,还可以采用线性回归等机器学习模型来建立条件概率模型。在实际中,还可以采用支持向量机模型,虽然不是条件概率模型,但是计算的分值也可以用来作为置信度。
步骤4010:查询分类器判断所述计算获取的置信度是否大于预置的第一阈值,如果是,则进入步骤2012,如果否,则进入步骤2011。
在计算获取了当前查询数据归属于所有类目的置信度之后,查询分类可以预置第一阈值,例如,可以将第一阈值设置为0.5,当置信度大于0.5,则认为对应的该类目的可信程度较高。
步骤4011:记录所述小于所述第一阈值的置信度,并当计算获取的所有类目的置信度均小于所述第一阈值,则从所有置信度中直接获取预定个数的相对较大的置信度以及对应的类目,进入步骤2013。
等到所有的置信度都已经判断完毕,如果所有类目对应的置信度都不大于第一阈值,则查询分类器直接可以对所有置信度按照从大到小进行排序,并获取前预定个数的相对较大的置信度及其对应的类目。
步骤4012:查询分类器获取所述大于所述阈值的置信度以及所述置信度对应的类目。
步骤4013:查询分类器向客户端返回所述大于所述阈值的置信度及其对应的类目,或者返回所述预定个数的置信度及其对应的类目。
查询分类器可以将所有大于第一阈值的置信度及其对应类目都返回给客户端,根据置信度还可以从高至低排序展示;或者查询分类器还可以会把前预定个数的(例如8个)置信度及其对应类目在客户端上进行展示。
步骤4014:查询分类器在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
在本实施例中,可以利用现有的工具,例如分词器、词性标注工具等,这样就降低了实施成本,并且对于基于条件概率的机器学习方法来讲,其覆盖率相对较高,不管当前查询数据之前有没有出现过,都可以由条件概率模型根据提取出的各种特征得到所有可能相关的类目的置信度。这样就比现有技术中的表格可以应用的更为广泛,并且准确。
参考图5,示出了本申请一种检索方法实施例3的流程图,本实施例可以理解为将本申请的检索方法应用于实际中的一个具体例子,可以包括以下步骤:
步骤501:查询分类器获取用户提交的当前查询数据中的关键词。
本实施例中的查询分类器需要集成分词器,利用分词器来获取当前查询数据中的关键词。当前查询数据为“find Nokia N95phones”时,例如对于类目C来说,如果f(x,y)为1的条件包括:“当前查询词对应的类目为C,且查询词包括find时”、“当前查询词对应的类目为C,且查询词包括Nokia时”,以及“当前查询词对应的类目为C,且查询词包括N95时”,其他条件下f(x,y)为0,那么对于“find Nokia N95phones”提取词一级的特征时,就认为f(x=find,“find Nokia N95phones∈c)的值为1;同理,f(x=Nokia,“find Nokia N95phones”∈类目C)的值也为1,f(x=N95,“find Nokia N95phones”∈类目C)的值也为1,而f(x=phon,“find NokiaN95phones”∈类目C)的值为0。
步骤502:查询分类器对所述当前查询数据中的关键词进行词性标注和短语识别。
在实际中,本实施例中的查询分类器需要集成词性标注工具、短语识别工具,以及词根抽取工具。采用词性标注工具标注每一个关键词的词性,例如:当前查询数据为“find Nokia N95phones”时,关键词“phones”的词性为nns,表示该词为复数名词;并且该当前查询数据包括动词短语“find”和名词短语“Nokia N95phones”。
步骤503:查询分类器从前述标注和识别的结果中获取所述当前查询数据中的名词短语,并抽取出所述名词短语的中心词。
查询分类器找出名词短语“Nokia N95phones”中的中心词“phones”。
步骤504:查询分类器通过词根抽取工具获取所述中心词的词根。
最后通过词根抽取工具,抽取“phones”的词根为“phon”。
从步骤502至504为本实施例中获取当前查询数据的句法特征的步骤。则对于“find Nokia N95phones”,则当训练数据中能够匹配到关于当句法特征为“phon”时,所述类目为C的数据,则认为“find Nokia N95phones”的句法特征的值为1,否则为0。当前查询词对应的类目为C,且查询词的中心词的词根为phon,那么对于类目C的置信度计算时,就认为f(x=phon,“find Nokia N95phones”∈类目C)的值为1,其他情况下为0。步骤505:查询分类器对所述当前查询数据的关键词进行类型标识。
即是将当前查询数据的关键词都标注上类型,例如,将“find”标注为意愿动词,将“Nokia”标注为品牌名,等等。
步骤506:查询分类器根据所述类型标识获取所述关键词的意动词标签、产品标签、品牌标签、型号标签和/或其他标签。
则对于“find Nokia N95phones”,得到的语义特征共有六个,即是:语义特征有“Action:find”,“Brand:Nokia”,“Model:N95”,和“Product:phon”;其中,Action表明为意愿动词,意愿动词的类型标识可以根据后台系统记录的意愿动词表来获取。
步骤505和506是在实际应用中获取当前查询数据的语义特征的过程。
步骤507:查询分类器判断在预置的点击日志中是否存在所述当前查询数据,所述点击日志用于保存查询数据与点击特征的对应关系,如果是,则进入步骤508,如果否,则进入步骤509。
在检索系统中,根据用户输入的当前查询数据,搜索引擎服务器会返回多个与当前查询数据的相关产品链接。其中,点击日志中记录了用户在输入查询词后,都点击了哪些产品链接,以及该产品所属的类目。其中,所述点击日志中还可以包括产品标题,产品的关键字等信息。
步骤508:在预置的点击日志中获取当前查询数据对应的前预定个数的点击类目;所述点击类目为用户在检索该查询数据之后点击的相应产品所属的类目。
例如,当前查询数据为“find Nokia N95 phones”,对应的点击特征有“Click_Category_Top1:telecommunications”,“Click_Category_Top2:consumer electronics”,“Click_Category_Top3:computer hardware&software”,其中Topi(i=1,2,3)标识了该点击特征是属于前第几个点击类目。所述Click_Category为点击类目。
步骤509:查询分类器在点击日志中查询与所述当前查询数据最接近的点击查询数据,所述点击查询数据与所述当前查询数据的编辑距离在点击日志中最小;并将所述点击查询数据的对应的前预定个数的类目作为所述当前查询数据的点击特征。
从步骤507至509为在实际应用中获取当前查询数据的点击特征的具体过程。
步骤5010:查询分类器判断在预置的筛选日志中是否存在所述当前查询数据,所述筛选日志用于保存查询数据与筛选特征的对应关系,如果是,则进入步骤5011,如果否,则进入步骤5012。
步骤5011:查询分类器在预置的筛选日志中获取当前查询数据对应的前预定个数的筛选类目;所述筛选类目表示所述当前查询数据在搜索引擎的映射表中所关联的类目。
步骤5012:查询分类器在筛选日志中查询与所述当前查询数据最接近的筛选查询数据,所述筛选查询数据与所述当前查询数据的编辑距离在筛选日志中最小;并将所述筛选查询数据的对应的前预定个数的类目作为所述当前查询数据的筛选特征。
从步骤5010到5012是在实际应用中获取当前查询数据的筛选特征的具体过程。
步骤5013:在同一个会话中,查询分类器获取所述当前查询数据的上一个查询数据。
在本实施例中,查询分类器则是查询“find Nokia N95phones”的上一个查询数据。
步骤5014:查询分类器获取到所述上一个查询数据对应的最优分类结果所属的类目,并以所述最优分类结果所属的类目为所述当前查询数据的会话特征。
例如,用户以此输入三个查询q1、q2,、和q3。查询分类器判定q1对应的最优的类目为c1。当查询处理器在处理q2的时候,对应的会话特征即是上一个查询数据对应的最优分类结果所属的类目为c1
步骤5015:根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,查询分类器计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度。
其中,假设本实施例中,当前查询数据的词一级的特征值分别为1、1、1和0,句法特征为1和0,语义特征为1、1、1、0和0,点击特征为0、0和1,筛选特征为1、0和1,会话特征为1,那么根据最大熵模型的公式:
p ( y | x ) = 1 Z ( x ) exp ( Σ j λ j f j ( x , y ) )
可以得到每一个类目对应的置信度的数值。步骤5016:查询分类器向客户端返回所述每个类目及对应的置信度。
查询分类器在计算出置信度之后,将对应的类目和置信度的对应关系按照置信度的大小进行排序,从而返回给客户端。
从上述步骤可以看出,所述查询分类器可以独立于搜索引擎服务器存在,当在实际应用中的检索系统需要进行查询分类时,再集成查询分类器到搜索引擎服务器上。参考图6所示,为查询分类器输入和输入内容的结构示意图。
步骤5017:搜索引擎服务器在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图7,示出了本申请一种检索方法实施例4的流程图,可以包括以下步骤:
步骤701:接收客户端提交的当前查询数据.
步骤702:提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度。
步骤703:根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度。
在本实施例中,所述步骤701~703可以和前述的3个方法实施例中的执行过程保持一致,并且关于步骤701~703介绍可以参考前述3个方法实施例。
步骤704:在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索。
在本实施例中,与方法实施例1不同的是,在计算获取到当前查询数据属于每个类目的各个置信度之后,搜索引擎服务器可以做一个判断,即是在步骤703中计算得到的所有置信度中,获取到最大的那个置信度对应的类目,然后在该类目中直接对所述当前查询数据进行检索。更进一步,再将检索结果直接返回给用户。
需要说明的是,此处,搜索引擎服务器不仅可以根据最大的置信度进行检索,还可以根据实际情况,或者后台的记录而选择其中一个置信度对应的类目进行选择,或者,满足一定条件的多个置信度对应的多个类目都可以作为检索当前查询数据的范围,本领域技术人对于本方案作出的一些变形也属于本申请保护的范畴。
基于本实施例所述的方法,无需向用户返回置信度及其对应的类目,而是直接根据最优选的结果进行检索,这样一般情况下,就能满足用户对于检索结果的要求,同时无需后台保存相应的映射表等来记载类目信息,无论用户的当前查询数据有没有出现过,都能够找出其属于某个类目的最大置信度,并将在该类目中的检索作为最合理的检索操作,在提高了对于查询数据的覆盖率的同时,无需搜索引擎先向客户端传输匹配获取的类目,减少了搜索引擎向客户端传输的数据量,减轻了搜索引擎服务器的负担,提高了网络间数据的传输速率。
与上述本申请一种检索方法实施例1所提供的方法相对应,参见图8,本申请还提供了一种检索装置实施例1,在本实施例中,该装置可以包括:
接收模块801,用于接收客户端提交的当前查询数据。
提取模块802,用于提取所述当前查询数据的总属性特征,所述总属性特征用于计算所述当前查询数据与各个类目之间的置信度。
在本申请实施例中,所述当前查询数据的一些特征被提取出来用于后续条件概率的运算,所述当前查询数据共需要提取总属性特征,所述总属性特征在实际应用中优选的可以包括六种特征,所述词一级特征为所述当前查询数据中的关键词,即是非停用词对应的词根被抽取为词一级特征;具体实现时可以通过分词器来获取到当前查询数据的关键词;所述句法特征为所述当前查询数据中的中心词所对应的词根,即是当前查询数据中的句法级别的中心词所对应的词根被抽取为句法特征,中心词可以在一定程度上反映了当前查询数据的意图核心词;所述语义特征为所述关键词对应的语义标签,所述当前查询数据中的关键词所对应的词根所对应的语义标签被抽取为语义的特征,在本申请实施例中所采用的语义标签有:意动词标签(Action),用于标识该词为一意愿动词;产品标签(Product),用于标识该词为某一产品词;品牌标签(Brand),用于标识该词为某一品牌词;型号标签(Model),用于标识该词为某一型号词;其他标签(Other),用于其他词所对应的标签。
所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述预置的点击日志是在搜索引擎服务器上保存的一个数据库,用于保存用户输入查询数据之后,所点击的产品所属的类目。所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目;所述筛选日志就用于保存用户输入的查询词和被点击的类目的对应关系。所述会话特征用于表示在同一个会话(Session)中,所述当前查询数据的前一个查询对应的最优类目;在一个有效的时间内,在同一个浏览器内的一系列的查询行为属于一个会话。即是用户打开一个网页之后,在未关这个网页之前,就认为所输入的查询词都属于同一个浏览器。
计算获取模块803,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度。
其中,根据得到的当前查询数据的特征,可以认为是条件概率模型中的给定条件,而所述置信度为一个0~1之间的数值,用于表示在给定条件下某一件事发生的概率。因为条件概率的含义是求在一件事(条件)发生的前提下,另外一件事发生的概率,因此,本实施例中,当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征则被认为是条件,而对于某个类目计算出的置信度,则可以理解为当前查询数据属于该某个类目的概率是多少。因此可以看出,置信度越大,即是当前查询数据越有可能属于对应的某个类目。
优选情况下,可以采用最大熵模型来对具体的类目计算对应的置信度。还需要说明的是,本申请实施例在对每个类目计算置信度时,主要采用的是机器学习方法,因为该方法可以通过一定规模的训练查询数据,来模拟用户的查询行为,计算获取到查询数据归类于某一类目的概率。可以根据条件概率模型计算存在这些特征值的情况下,当前查询数据归属于某一类目的概率值。
返回模块804,用于向客户端返回所述每个类目及对应的置信度。
假设实际中的分类有40种,则需要对每一个类目都进行计算,在实际中,就计算出对应的40个置信度,搜索引擎服务器分别将每个类目及对应的置信度返回给用户,以便于用户根据自己所感兴趣的类目定位检索范围,以更加精准的检索到需要的产品信息。
第一检索模块805,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
本实施例所述的装置可以集成到搜索引擎的服务器上,也可以单独作为一个实体与搜索引擎服务器相连,另外,需要说明的是,当本申请所述的方法采用软件实现时,可以作为搜索引擎的服务器新增的一个功能,也可以单独编写相应的程序,本申请不限定所述方法或装置的实现方式。
本实施例中,所述装置在能够将置信度和类目的对应关系返回至客户端的基础上,根据客户端所选的类目再对当前查询数据进行检索,这样就在一定程度上减少了搜索引擎服务器的工作,提升了搜索引擎服务器的工作效率和性能,也能增加用户在数据查询方面的搜索体验。
与上述本申请一种检索方法实施例2所提供的方法相对应,参见图9,本申请还提供了一种检索装置的优选实施例2,在本实施例中,该装置具体可以包括:
接收模块801,用于接收客户端提交的当前查询数据。
提取模块802,用于提取所述当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征。
所述词一级特征为所述当前查询数据中的关键词,所述句法特征为所述当前查询数据中的中心词所对应的词根,所述语义特征为所述关键词对应的语义标签,所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目,所述会话特征用于表示在同一个会话中,所述当前查询数据对的前一个查询对应的最优类目。
设置给定信息子模块901,用于将所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,作为条件概率模型的给定信息。
计算置信度子模块902,用于采用条件概率模型计算在所述给定信息的情况下,所述当前查询在每个类目下的后验概率;并将所述后验概率作为当前查询数据的在该类目下的置信度。
条件概率模型可以训练当前查询数据所得到的特征的权重,通过训练得到的对应的特征值和权重,来利用条件概率模型计算当前查询数据被确定为某一类木的条件概率,即是置信度。
条件概率模型优选情况下可以选择最大熵模型,其公式如下所示:
p ( y | x ) = 1 Z ( x ) exp ( Σ j λ j f j ( x , y ) )
其中y∈{c is correct,c is incorrect};x是当前查询数据所对应的给定信息,在本实施例中包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;fj是最大熵模型对应的特征值,例如,即是当x为词一级特征时,如果在训练数据中能够匹配到“当前查询数据的关键词包括phone时,所属类目为C”,则特征fj在条件“当前查询数据的关键词包括phone时”的值就为1,否则为0;λj是当前查询数据的各个特征对应的权重,可以通过模型训练得到的;Z(x)是归一化因子,也通过模型训练得到。
在实际中,还可以采用线性回归或者支持向量机等方式来建立条件概率模型。
第一判断模块903,用于判断所述计算获取的置信度是否大于预置的第一阈值。
在计算获取了当前查询数据归属于所有类目的置信度之后,查询分类可以预置第一阈值,例如,可以将第一阈值设置为0.5,当置信度大于0.5,则认为对应的该类目的可信程度较高。
第一获取模块904,用于当所述第一判断模块的结果为是时,获取所述大于所述阈值的置信度以及所述置信度对应的类目。
查询分类器可以将所有大于第一阈值的置信度及其对应类目都返回给客户端,根据置信度还可以从高至低排序展示;或者查询分类器还可以会把前预定个数的(例如8个)置信度及其对应类目在客户端上进行展示。
第二获取模块905,用于当计算获取的所有类目的置信度均小于所述第一阈值,则从所有置信度中直接获取预定个数的相对较大的置信度以及对应的类目。
等到所有的置信度都已经判断完毕,如果所有类目对应的置信度都不大于第一阈值,则查询分类器直接可以对所有置信度按照从大到小进行排序,并获取前预定个数的相对较大的置信度及其对应的类目。
则所述返回模块804,具体用于:向用户返回所述大于所述阈值的置信度以及所述置信度对应的类目;或者向客户端返回所述每个类目及对应的置信度。
第一检索模块805,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
与上述本申请一种检索方法实施例3所提供的方法相对应,参见图10,本申请还提供了一种检索装置的优选实施例3,在本实施例中,该装置具体可以包括:
接收模块801,用于接收客户端提交的当前查询数据。
标注识别子模块1001,用于对所述当前查询数据中的关键词进行词性标注和短语识别。
其中,进行词性标注还可以由词性标注工具来实现,短语识别还可以由短语识别工具来实现。
抽取中心词子模块1002,用于从前述标注和识别的结果中获取所述当前查询数据中的名词短语,并抽取出所述名词短语的中心词。
词根抽取工具1003,用于获取所述中心词的词根。
类型标识子模块1004,用于对所述当前查询数据的关键词进行类型标识。
获取标签子模块1005,用于根据所述类型标识获取所述关键词的意动词标签、产品标签、品牌标签、型号标签和/或其他标签。
第一判断子模块1006,用于判断在预置的点击日志中是否存在所述
当前查询数据,所述点击日志用于保存查询数据与点击特征的对应关系。
第一获取子模块1007,用于当所述第一判断子模块的结果为是时,在预置的点击日志中获取当前查询数据对应的前预定个数的点击类目;所述点击类目为用户在检索该查询数据之后点击的相应产品所属的类目。
第一查询获取子模块1008,用于当所述第一判断子模块的结果为否时,在点击日志中查询与所述当前查询数据最接近的点击查询数据,所述点击查询数据与所述当前查询数据的编辑距离在点击日志中最小;并将所述点击查询数据的对应的前预定个数的类目作为所述当前查询数据的点击特征。
第二判断子模块1009,用于判断在预置的筛选日志中是否存在所述当前查询数据,所述筛选日志用于保存查询数据与筛选特征的对应关系。
第二获取子模块1010,用于当所述第二判断子模块的结果为是时,在预置的筛选日志中获取当前查询数据对应的前预定个数的筛选类目;所述筛选类目表示所述当前查询数据在搜索引擎的映射表中所关联的类目。
第二查询获取子模块1011,用于当所述第二判断子模块的结果为否时,在筛选日志中查询与所述当前查询数据最接近的筛选查询数据,所述筛选查询数据与所述当前查询数据的编辑距离在筛选日志中最小;并将所述筛选查询数据的对应的前预定个数的类目作为所述当前查询数据的筛选特征。
第三获取子模块1012,用于在同一个会话中,获取所述当前查询数据的上一个查询数据;
第四获取子模块1013,用于获取到所述上一个查询数据对应的最优分类结果所属的类目,并以所述最优分类结果所属的类目为所述当前查询数据的会话特征。
计算获取模块803,用于根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
返回模块804,用于向客户端返回所述每个类目及对应的置信度;
第一检索模块805,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
在本实施例中,可以利用现有的工具,例如分词器、词性标注工具等,这样就降低了实施成本,并且对于基于条件概率的机器学习方法来讲,其覆盖率相对较高,不管当前查询数据之前有没有出现过,都可以由条件概率模型根据提取出的各种特征得到所有可能相关的类目的置信度。这样就比现有技术中的表格可以应用的更为广泛,并且准确。
与上述本申请一种检索方法实施例4所提供的方法相对应,参见图11,本申请还提供了一种检索装置的优选实施例4,在本实施例中,该装置具体可以包括:
接收模块801,用于接收客户端提交的当前查询数据;
提取模块802,用于提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
计算获取模块803,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
第二检索模块1101,用于在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索。
在本实施例中,与装置实施例1不同的是,在计算获取模块803计算获取到当前查询数据属于每个类目的各个置信度之后,搜索引擎服务器可以做一个判断,即是在计算得到的所有置信度中,获取到最大的那个置信度对应的类目,然后在该类目中直接对所述当前查询数据进行检索。更进一步,再将检索结果直接返回给用户。
基于本实施例所述的装置,无需向用户返回置信度及其对应的类目,而是直接根据最优选的结果进行检索,这样一般情况下,就能满足用户对于检索结果的要求,同时无需后台保存相应的映射表等来记载类目信息,无论用户的当前查询数据有没有出现过,都能够找出其属于某个类目的最大置信度,并将在该类目中的检索作为最合理的检索操作,在提高了对于查询数据的覆盖率的同时,优化了搜索引擎服务器的性能,满足了用户不同的检索需求。
与上述本申请一种检索方法和装置实施例相对应,本申请还提供了一种检索系统的实施例,在本实施例中,该系统具体可以包括:
位于搜索引擎服务器端的:
查询分类器,所述查询分类器包括:接收模块、提取模块、计算获取模块和返回模块。
所述接收模块,用于接收客户端提交的当前查询数据。
所述提取模块,用于提取所述当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征。
所述计算获取模块,用于根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度。
所述返回模块,用于向客户端返回所述每个类目及对应的置信度。
第一检索模块,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
需要说明的是,该系统还可以包括客户端:用于通过浏览器接收用户输入的当前查询数据并提交至搜索引擎服务器。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种检索方法、装置及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种检索方法,其特征在于,该方法包括:
接收客户端提交的当前查询数据;
提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据与每个类目的置信度;
根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
向客户端返回所述每个类目及对应的置信度;
在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索,并将检索结果返回给客户端。
2.根据权利要求1所述的方法,其特征在于,所述总属性特征具体包括:词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;所述词一级特征为所述当前查询数据中的关键词,所述句法特征为所述当前查询数据中的中心词所对应的词根,所述语义特征为所述关键词对应的语义标签,所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目,所述会话特征用于表示在同一个会话中,所述当前查询数据对的前一个查询对应的最优类目。
3.根据权利要求2所述的方法,其特征在于,所述根据所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,计算获取所述当前查询数据的类目及其对应的置信度,具体包括:
将所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,作为条件概率模型的给定信息;
采用条件概率模型计算在所述给定信息的情况下,所述当前查询在每个类目下的后验概率;并将所述后验概率作为当前查询数据的在该类目下的置信度。
4.根据权利要求2所述的方法,其特征在于,所述向用户返回所述每个类目及所述每个类目对应的置信度之前,还包括:
判断所述计算获取的置信度是否大于预置的第一阈值;
如果是,则获取所述大于所述阈值的置信度以及所述置信度对应的类目;
则所述向用户返回所述每个类目及所述每个类目对应的置信度,具体包括:
向用户返回所述大于所述阈值的置信度以及所述置信度对应的类目。
5.根据权利要求4所述的方法,其特征在于,所述判断所述计算获取的置信度是否大于预置的第一阈值之后,还包括:
当计算获取的所有类目的置信度均小于所述第一阈值,则从所有置信度中直接获取预定个数的相对较大的置信度以及对应的类目。
6.根据权利要求2所述的方法,其特征在于,所述提取所述当前查询数据的句法特征,具体包括:
对所述当前查询数据中的关键词进行词性标注和短语识别;
从前述标注和识别的结果中获取所述当前查询数据中的名词短语,并抽取出所述名词短语的中心词;
通过词根抽取工具获取所述中心词的词根。
7.根据权利要求2所述的方法,其特征在于,提取所述当前查询数据的语义特征,具体包括:
对所述当前查询数据的关键词进行类型标识;
根据所述类型标识获取所述关键词的意动词标签、产品标签、品牌标签、型号标签和/或其他标签。
8.根据权利要求2所述的方法,其特征在于,提取所述当前查询数据的点击特征,具体包括:
判断在预置的点击日志中是否存在所述当前查询数据,所述点击日志用于保存查询数据与点击特征的对应关系;
如果是,则在预置的点击日志中获取当前查询数据对应的前预定个数的点击类目;所述点击类目为用户在检索该查询数据之后点击的相应产品所属的类目;
如果否,则在点击日志中查询与所述当前查询数据最接近的点击查询数据,所述点击查询数据与所述当前查询数据的编辑距离在点击日志中最小;并将所述点击查询数据的对应的前预定个数的类目作为所述当前查询数据的点击特征。
9.根据权利要求2所述的方法,其特征在于,提取所述当前查询数据的筛选特征,具体包括:
判断在预置的筛选日志中是否存在所述当前查询数据,所述筛选日志用于保存查询数据与筛选特征的对应关系;
如果是,则在预置的筛选日志中获取当前查询数据对应的前预定个数的筛选类目;所述筛选类目表示所述当前查询数据在搜索引擎的映射表中所关联的类目;
如果否,则在筛选日志中查询与所述当前查询数据最接近的筛选查询数据,所述筛选查询数据与所述当前查询数据的编辑距离在筛选日志中最小;并将所述筛选查询数据的对应的前预定个数的类目作为所述当前查询数据的筛选特征。
10.根据权利要求2所述的方法,其特征在于,提取所述当前查询数据的会话特征,具体包括:
在同一个会话中,获取所述当前查询数据的上一个查询数据;
获取到所述上一个查询数据对应的最优分类结果所属的类目,并以所述最优分类结果所属的类目为所述当前查询数据的会话特征。
11.一种检索方法,其特征在于,该方法包括:
接收客户端提交的当前查询数据;
提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索,并将检索结果返回给客户端。
12.一种检索装置,其特征在于,该装置包括:
接收模块,用于接收客户端提交的当前查询数据;
提取模块,用于提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
计算获取模块,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
返回模块,用于向客户端返回所述每个类目及对应的置信度;
第一检索模块,用于在客户端根据所述置信度进行选择的类目中对所述当前查询数据进行检索。
13.根据权利要求12所述的装置,其特征在于,所述提取模块具体用于提取所述当前查询数据的词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征;所述词一级特征为所述当前查询数据中的关键词,所述句法特征为所述当前查询数据中的中心词所对应的词根,所述语义特征为所述关键词对应的语义标签,所述点击特征为所述当前查询数据在预置的点击日志中对应的至少一个点击类目,所述筛选特征为所述当前查询数据在预置的筛选日志中对应的至少一个筛选类目,所述会话特征用于表示在同一个会话中,所述当前查询数据对的前一个查询对应的最优类目。
14.根据权利要求13所述的装置,其特征在于,所述计算获取模块具体包括:
设置给定信息子模块,用于将所述词一级特征、句法特征、语义特征、点击特征、筛选特征和会话特征,作为条件概率模型的给定信息;
计算置信度子模块,用于采用条件概率模型计算在所述给定信息的情况下,所述当前查询在每个类目下的后验概率;并将所述后验概率作为当前查询数据的在该类目下的置信度。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于判断所述计算获取的置信度是否大于预置的第一阈值;
第一获取模块,用于当所述第一判断模块的结果为是时,获取所述大于所述阈值的置信度以及所述置信度对应的类目;
则所述返回模块,具体用于:向用户返回所述大于所述阈值的置信度以及所述置信度对应的类目。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于当计算获取的所有类目的置信度均小于所述第一阈值,则从所有置信度中直接获取预定个数的相对较大的置信度以及对应的类目。
17.根据权利要求13所述的装置,其特征在于,所述提取模块具体包括:
标注识别子模块,用于对所述当前查询数据中的关键词进行词性标注和短语识别;
抽取中心词子模块,用于从前述标注和识别的结果中获取所述当前查询数据中的名词短语,并抽取出所述名词短语的中心词;
词根抽取工具,用于获取所述中心词的词根。
18.根据权利要求13所述的装置,其特征在于,所述提取模块具体包括:
类型标识子模块,用于对所述当前查询数据的关键词进行类型标识;
获取标签子模块,用于根据所述类型标识获取所述关键词的意动词标签、产品标签、品牌标签、型号标签和/或其他标签。
19.根据权利要求13所述的装置,其特征在于,所述提取模块具体包括:
第一判断子模块,用于判断在预置的点击日志中是否存在所述当前查询数据,所述点击日志用于保存查询数据与点击特征的对应关系;
第一获取子模块,用于当所述第一判断子模块的结果为是时,在预置的点击日志中获取当前查询数据对应的前预定个数的点击类目;所述点击类目为用户在检索该查询数据之后点击的相应产品所属的类目;
第一查询获取子模块,用于当所述第一判断子模块的结果为否时,在点击日志中查询与所述当前查询数据最接近的点击查询数据,所述点击查询数据与所述当前查询数据的编辑距离在点击日志中最小;并将所述点击查询数据的对应的前预定个数的类目作为所述当前查询数据的点击特征。
20.根据权利要求13所述的装置,其特征在于,所述提取模块具体包括:
第二判断子模块,用于判断在预置的筛选日志中是否存在所述当前查询数据,所述筛选日志用于保存查询数据与筛选特征的对应关系;
第二获取子模块,用于当所述第二判断子模块的结果为是时,在预置的筛选日志中获取当前查询数据对应的前预定个数的筛选类目;所述筛选类目表示所述当前查询数据在搜索引擎的映射表中所关联的类目;
第二查询获取子模块,用于当所述第二判断子模块的结果为否时,在筛选日志中查询与所述当前查询数据最接近的筛选查询数据,所述筛选查询数据与所述当前查询数据的编辑距离在筛选日志中最小;并将所述筛选查询数据的对应的前预定个数的类目作为所述当前查询数据的筛选特征。
21.根据权利要求13所述的装置,其特征在于,所述提取模块具体包括:
第三获取子模块,用于在同一个会话中,获取所述当前查询数据的上一个查询数据;
第四获取子模块,用于获取到所述上一个查询数据对应的最优分类结果所属的类目,并以所述最优分类结果所属的类目为所述当前查询数据的会话特征。
22.一种检索装置,其特征在于,该装置包括:
接收模块,用于接收客户端提交的当前查询数据;
提取模块,用于提取所述当前查询数据的总属性特征,所述属性特征用于计算所述当前查询数据的置信度;
计算获取模块,用于根据所述总属性特征,计算获取所述当前查询数据与每个类目对应的置信度,所述置信度用于表示所述当前查询数据属于某一个类目的可信程度;
第二检索模块,用于在计算得到的最大的置信度对应的类目中,对所述当前查询数据进行检索。
CN2009101750663A 2009-09-27 2009-09-27 检索方法和装置 Pending CN102033877A (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2009101750663A CN102033877A (zh) 2009-09-27 2009-09-27 检索方法和装置
US12/807,505 US8560513B2 (en) 2009-09-27 2010-09-07 Searching for information based on generic attributes of the query
JP2012530856A JP5513624B2 (ja) 2009-09-27 2010-09-08 クエリの一般属性に基づく情報の検索
PCT/US2010/002456 WO2011037603A1 (en) 2009-09-27 2010-09-08 Searching for information based on generic attributes of the query
EP10819138.8A EP2480995A4 (en) 2009-09-27 2010-09-08 SEARCH FOR INFORMATION BASED ON GENERIC ATTRIBUTES OF THE QUERY
US14/019,427 US9230025B2 (en) 2009-09-27 2013-09-05 Searching for information based on generic attributes of the query
US14/958,817 US9846748B2 (en) 2009-09-27 2015-12-03 Searching for information based on generic attributes of the query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101750663A CN102033877A (zh) 2009-09-27 2009-09-27 检索方法和装置

Publications (1)

Publication Number Publication Date
CN102033877A true CN102033877A (zh) 2011-04-27

Family

ID=43781411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101750663A Pending CN102033877A (zh) 2009-09-27 2009-09-27 检索方法和装置

Country Status (5)

Country Link
US (3) US8560513B2 (zh)
EP (1) EP2480995A4 (zh)
JP (1) JP5513624B2 (zh)
CN (1) CN102033877A (zh)
WO (1) WO2011037603A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999521A (zh) * 2011-09-15 2013-03-27 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103123632A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 搜索中心词确定方法及装置、搜索方法及搜索设备
CN103207876A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 一种信息投放的方法及装置
CN103310343A (zh) * 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
WO2013143429A1 (zh) * 2012-03-26 2013-10-03 腾讯科技(深圳)有限公司 搜索引擎的推荐搜索方法、装置及计算机可读存储介质
CN103425664A (zh) * 2012-05-16 2013-12-04 阿里巴巴集团控股有限公司 一种对实体数据单元进行搜索、显示的方法和设备
CN103620604A (zh) * 2011-06-28 2014-03-05 微软公司 按类别暴露搜索历史
CN103729362A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 导航内容的确定方法和装置
CN103761326A (zh) * 2014-01-29 2014-04-30 百度在线网络技术(北京)有限公司 图片搜索方法以及搜索引擎
CN103778122A (zh) * 2012-10-17 2014-05-07 腾讯科技(深圳)有限公司 搜索方法和系统
CN103885976A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 在网页中配置推荐信息的方法及索引服务器
CN103995831A (zh) * 2014-04-18 2014-08-20 新浪网技术(中国)有限公司 基于物品间相似度的物品处理方法、系统和装置
CN104714954A (zh) * 2013-12-13 2015-06-17 中国电信股份有限公司 基于上下文理解的信息搜索方法和系统
CN104951458A (zh) * 2014-03-26 2015-09-30 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN105468680A (zh) * 2015-11-16 2016-04-06 中国建设银行股份有限公司 一种数据检索方法和装置
CN107145525A (zh) * 2017-04-14 2017-09-08 北京小度信息科技有限公司 用于确认搜索场景的数据处理方法、搜索方法及相应装置
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置
CN107958406A (zh) * 2017-11-30 2018-04-24 北京小度信息科技有限公司 查询数据的获取方法、装置及终端
CN108701128A (zh) * 2016-02-29 2018-10-23 微软技术许可有限责任公司 解释和解析条件自然语言查询
CN108763200A (zh) * 2018-05-15 2018-11-06 达而观信息科技(上海)有限公司 中文分词方法及装置
CN108932244A (zh) * 2017-05-24 2018-12-04 合网络技术(北京)有限公司 信息识别方法及装置
CN111125499A (zh) * 2018-10-30 2020-05-08 阿里巴巴集团控股有限公司 数据查询方法及装置
CN112035688A (zh) * 2019-06-04 2020-12-04 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
WO2021047186A1 (zh) * 2019-09-09 2021-03-18 深圳壹账通智能科技有限公司 咨询对话处理的方法、装置、设备及存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN102567408B (zh) * 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
US20120226681A1 (en) * 2011-03-01 2012-09-06 Microsoft Corporation Facet determination using query logs
CN102737057B (zh) 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
CN102799591B (zh) * 2011-05-26 2015-03-04 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置
US8738612B1 (en) * 2011-07-27 2014-05-27 Google Inc. Resolving ambiguous queries
KR101391107B1 (ko) * 2011-08-10 2014-04-30 네이버 주식회사 검색 대상의 타입을 인터렉티브하게 표시하는 검색 서비스 제공 방법 및 장치
CN103034665B (zh) * 2011-10-10 2016-01-06 阿里巴巴集团控股有限公司 信息查询方法和装置
CN103207881B (zh) * 2012-01-17 2016-03-02 阿里巴巴集团控股有限公司 查询方法和装置
CN103324628B (zh) * 2012-03-21 2016-06-08 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
US20140074812A1 (en) * 2012-06-25 2014-03-13 Rediff.Com India Limited Method and apparatus for generating a suggestion list
US20140032574A1 (en) * 2012-07-23 2014-01-30 Emdadur R. Khan Natural language understanding using brain-like approach: semantic engine using brain-like approach (sebla) derives semantics of words and sentences
CN103593343B (zh) * 2012-08-13 2019-05-03 北京京东尚科信息技术有限公司 一种电子商务平台中的信息检索方法和装置
US10394816B2 (en) 2012-12-27 2019-08-27 Google Llc Detecting product lines within product search queries
US9373322B2 (en) * 2013-04-10 2016-06-21 Nuance Communications, Inc. System and method for determining query intent
US10235455B2 (en) * 2013-07-31 2019-03-19 Innography, Inc. Semantic search system interface and method
US20150186773A1 (en) * 2013-12-26 2015-07-02 Lawrence R. Weill Searching Methods Using Genetic Responsivity Measurements
US9495405B2 (en) 2014-04-28 2016-11-15 International Business Machines Corporation Big data analytics brokerage
CN105630813A (zh) * 2014-10-30 2016-06-01 苏宁云商集团股份有限公司 基于用户自定义模板的关键词推荐方法和系统
CN104376065B (zh) * 2014-11-05 2018-09-18 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
US10339165B2 (en) * 2015-02-27 2019-07-02 Walmart Apollo, Llc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US20170075998A1 (en) * 2015-09-14 2017-03-16 Ebay Inc. Assessing translation quality
CN106547757B (zh) * 2015-09-17 2021-05-28 北京国双科技有限公司 匹配关键词与创意内容的方法和装置
US11347704B2 (en) * 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
US10762145B2 (en) * 2015-12-30 2020-09-01 Target Brands, Inc. Query classifier
US9904669B2 (en) * 2016-01-13 2018-02-27 International Business Machines Corporation Adaptive learning of actionable statements in natural language conversation
US10755195B2 (en) 2016-01-13 2020-08-25 International Business Machines Corporation Adaptive, personalized action-aware communication and conversation prioritization
US20170300533A1 (en) * 2016-04-14 2017-10-19 Baidu Usa Llc Method and system for classification of user query intent for medical information retrieval system
JP6246271B1 (ja) * 2016-06-30 2017-12-13 ヤフー株式会社 属性評価装置、販売システム、属性評価方法、および属性評価プログラム
CN106294711A (zh) * 2016-08-08 2017-01-04 马岩 不同词性在大数据搜索中的实现方法及系统
CN107784029B (zh) * 2016-08-31 2022-02-08 阿里巴巴集团控股有限公司 生成提示关键词、建立索引关系的方法、服务器和客户端
CN106354856B (zh) * 2016-09-05 2020-02-21 北京百度网讯科技有限公司 基于人工智能的深度神经网络强化搜索方法和装置
KR102017853B1 (ko) * 2016-09-06 2019-09-03 주식회사 카카오 검색 방법 및 장치
US10268734B2 (en) * 2016-09-30 2019-04-23 International Business Machines Corporation Providing search results based on natural language classification confidence information
JP6867579B2 (ja) * 2016-11-25 2021-04-28 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018085021A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
RU2640718C1 (ru) * 2016-12-22 2018-01-11 Общество с ограниченной ответственностью "Аби Продакшн" Верификация атрибутов информационных объектов
US11379618B2 (en) * 2017-06-01 2022-07-05 International Business Machines Corporation Secure sensitive personal information dependent transactions
US11113308B1 (en) * 2017-07-13 2021-09-07 Groupon, Inc. Method, apparatus, and computer program product for improving network database functionalities
WO2020027843A1 (en) * 2018-08-02 2020-02-06 Hewlett-Packard Development Company, L.P. Automated user-support
US11455655B2 (en) 2019-12-20 2022-09-27 Walmart Apollo, Llc Methods and apparatus for electronically providing item recommendations for advertisement
US11341528B2 (en) 2019-12-30 2022-05-24 Walmart Apollo, Llc Methods and apparatus for electronically determining item advertisement recommendations
US11954108B2 (en) * 2021-01-30 2024-04-09 Walmart Apollo, Llc Methods and apparatus for automatically ranking items in response to a search request
KR102596815B1 (ko) * 2023-03-20 2023-11-02 주식회사 중고나라 중고 상품 게시글의 개체명 인식 방법

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05211239A (ja) * 1991-09-12 1993-08-20 Texas Instr Inc <Ti> 集積回路相互接続構造とそれを形成する方法
DE4314907C1 (de) * 1993-05-05 1994-08-25 Siemens Ag Verfahren zur Herstellung von vertikal miteinander elektrisch leitend kontaktierten Halbleiterbauelementen
US5391917A (en) * 1993-05-10 1995-02-21 International Business Machines Corporation Multiprocessor module packaging
US6882030B2 (en) * 1996-10-29 2005-04-19 Tru-Si Technologies, Inc. Integrated circuit structures with a conductor formed in a through hole in a semiconductor substrate and protruding from a surface of the substrate
EP2270846A3 (en) * 1996-10-29 2011-12-21 ALLVIA, Inc. Integrated circuits and methods for their fabrication
US6037822A (en) * 1997-09-30 2000-03-14 Intel Corporation Method and apparatus for distributing a clock on the silicon backside of an integrated circuit
US5998292A (en) * 1997-11-12 1999-12-07 International Business Machines Corporation Method for making three dimensional circuit integration
US6253202B1 (en) * 1998-09-18 2001-06-26 Tacit Knowledge Systems, Inc. Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user
JP3532788B2 (ja) * 1999-04-13 2004-05-31 唯知 須賀 半導体装置及びその製造方法
US6322903B1 (en) * 1999-12-06 2001-11-27 Tru-Si Technologies, Inc. Package of integrated circuits and vertical integration
US6444576B1 (en) * 2000-06-16 2002-09-03 Chartered Semiconductor Manufacturing, Ltd. Three dimensional IC package module
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US6599778B2 (en) * 2001-12-19 2003-07-29 International Business Machines Corporation Chip and wafer integration process using vertical connections
WO2003063242A1 (en) * 2002-01-16 2003-07-31 Alfred E. Mann Foundation For Scientific Research Space-saving packaging of electronic circuits
US6762076B2 (en) * 2002-02-20 2004-07-13 Intel Corporation Process of vertically stacking multiple wafers supporting different active integrated circuit (IC) devices
US7437349B2 (en) * 2002-05-10 2008-10-14 International Business Machines Corporation Adaptive probabilistic query expansion
US6800930B2 (en) * 2002-07-31 2004-10-05 Micron Technology, Inc. Semiconductor dice having back side redistribution layer accessed using through-silicon vias, and assemblies
US7030481B2 (en) * 2002-12-09 2006-04-18 Internation Business Machines Corporation High density chip carrier with integrated passive devices
US6841883B1 (en) * 2003-03-31 2005-01-11 Micron Technology, Inc. Multi-dice chip scale semiconductor components and wafer level methods of fabrication
US6924551B2 (en) * 2003-05-28 2005-08-02 Intel Corporation Through silicon via, folded flex microelectronic package
US7111149B2 (en) * 2003-07-07 2006-09-19 Intel Corporation Method and apparatus for generating a device ID for stacked devices
TWI251313B (en) * 2003-09-26 2006-03-11 Seiko Epson Corp Intermediate chip module, semiconductor device, circuit board, and electronic device
US7610587B2 (en) * 2003-11-05 2009-10-27 Hewlett-Packard Development Company, L.P. System and method for creating a best-match object at run time
US7335972B2 (en) * 2003-11-13 2008-02-26 Sandia Corporation Heterogeneously integrated microsystem-on-a-chip
JP4426826B2 (ja) * 2003-11-13 2010-03-03 日本電信電話株式会社 コンテンツ検索方法、コンテンツ更新方法、コンテンツ更新の反映方法、コンテンツ検索装置、コンテンツ更新装置、コンテンツ検索のプログラム及びコンテンツ更新のプログラム並びにそれらの記録媒体
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US7060601B2 (en) * 2003-12-17 2006-06-13 Tru-Si Technologies, Inc. Packaging substrates for integrated circuits and soldering methods
US7049170B2 (en) * 2003-12-17 2006-05-23 Tru-Si Technologies, Inc. Integrated circuits and packaging substrates with cavities, and attachment methods including insertion of protruding contact pads into cavities
JP4467318B2 (ja) * 2004-01-28 2010-05-26 Necエレクトロニクス株式会社 半導体装置、マルチチップ半導体装置用チップのアライメント方法およびマルチチップ半導体装置用チップの製造方法
US7519581B2 (en) * 2004-04-30 2009-04-14 Yahoo! Inc. Method and apparatus for performing a search
US20050262058A1 (en) * 2004-05-24 2005-11-24 Microsoft Corporation Query to task mapping
US7262495B2 (en) * 2004-10-07 2007-08-28 Hewlett-Packard Development Company, L.P. 3D interconnect with protruding contacts
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7297574B2 (en) * 2005-06-17 2007-11-20 Infineon Technologies Ag Multi-chip device and method for producing a multi-chip device
US7693818B2 (en) * 2005-11-15 2010-04-06 Microsoft Corporation UserRank: ranking linked nodes leveraging user logs
US7814109B2 (en) * 2006-03-29 2010-10-12 Yahoo! Inc. Automatic categorization of network events
US8255383B2 (en) * 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
US7966309B2 (en) * 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
JP5012078B2 (ja) * 2007-02-16 2012-08-29 大日本印刷株式会社 カテゴリ作成方法、カテゴリ作成装置、およびプログラム
US20090094223A1 (en) * 2007-10-05 2009-04-09 Matthew Berk System and method for classifying search queries
US9239882B2 (en) * 2007-12-17 2016-01-19 Iac Search & Media, Inc. System and method for categorizing answers such as URLs
US7877404B2 (en) * 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US8615512B2 (en) * 2008-09-30 2013-12-24 Yahoo! Inc. Guiding user moderation by confidence levels
US8145623B1 (en) * 2009-05-01 2012-03-27 Google Inc. Query ranking based on query clustering and categorization

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103620604A (zh) * 2011-06-28 2014-03-05 微软公司 按类别暴露搜索历史
CN102999521A (zh) * 2011-09-15 2013-03-27 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN102999521B (zh) * 2011-09-15 2016-06-15 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103123632A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 搜索中心词确定方法及装置、搜索方法及搜索设备
CN103123632B (zh) * 2011-11-21 2016-02-24 阿里巴巴集团控股有限公司 搜索中心词确定方法及装置、搜索方法及搜索设备
CN103207876A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 一种信息投放的方法及装置
CN103207876B (zh) * 2012-01-17 2017-04-12 阿里巴巴集团控股有限公司 一种信息投放的方法及装置
CN103310343A (zh) * 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
US9665622B2 (en) 2012-03-15 2017-05-30 Alibaba Group Holding Limited Publishing product information
WO2013143429A1 (zh) * 2012-03-26 2013-10-03 腾讯科技(深圳)有限公司 搜索引擎的推荐搜索方法、装置及计算机可读存储介质
CN103425664A (zh) * 2012-05-16 2013-12-04 阿里巴巴集团控股有限公司 一种对实体数据单元进行搜索、显示的方法和设备
CN103729362A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 导航内容的确定方法和装置
CN103729362B (zh) * 2012-10-12 2017-07-21 阿里巴巴集团控股有限公司 导航内容的确定方法和装置
CN103778122A (zh) * 2012-10-17 2014-05-07 腾讯科技(深圳)有限公司 搜索方法和系统
CN103885976B (zh) * 2012-12-21 2017-08-04 腾讯科技(深圳)有限公司 在网页中配置推荐信息的方法及索引服务器
CN103885976A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 在网页中配置推荐信息的方法及索引服务器
CN104714954A (zh) * 2013-12-13 2015-06-17 中国电信股份有限公司 基于上下文理解的信息搜索方法和系统
CN103761326A (zh) * 2014-01-29 2014-04-30 百度在线网络技术(北京)有限公司 图片搜索方法以及搜索引擎
CN104951458A (zh) * 2014-03-26 2015-09-30 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN104951458B (zh) * 2014-03-26 2019-03-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
WO2015144065A1 (zh) * 2014-03-26 2015-10-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN103995831B (zh) * 2014-04-18 2017-04-12 新浪网技术(中国)有限公司 基于物品间相似度的物品处理方法、系统和装置
CN103995831A (zh) * 2014-04-18 2014-08-20 新浪网技术(中国)有限公司 基于物品间相似度的物品处理方法、系统和装置
CN105468680A (zh) * 2015-11-16 2016-04-06 中国建设银行股份有限公司 一种数据检索方法和装置
CN108701128A (zh) * 2016-02-29 2018-10-23 微软技术许可有限责任公司 解释和解析条件自然语言查询
CN107145525A (zh) * 2017-04-14 2017-09-08 北京小度信息科技有限公司 用于确认搜索场景的数据处理方法、搜索方法及相应装置
CN108932244A (zh) * 2017-05-24 2018-12-04 合网络技术(北京)有限公司 信息识别方法及装置
CN107832468B (zh) * 2017-11-29 2019-05-10 百度在线网络技术(北京)有限公司 需求识别方法和装置
CN107832468A (zh) * 2017-11-29 2018-03-23 百度在线网络技术(北京)有限公司 需求识别方法和装置
US10671684B2 (en) 2017-11-29 2020-06-02 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for identifying demand
CN107958406A (zh) * 2017-11-30 2018-04-24 北京小度信息科技有限公司 查询数据的获取方法、装置及终端
CN108763200A (zh) * 2018-05-15 2018-11-06 达而观信息科技(上海)有限公司 中文分词方法及装置
CN111125499A (zh) * 2018-10-30 2020-05-08 阿里巴巴集团控股有限公司 数据查询方法及装置
CN112035688A (zh) * 2019-06-04 2020-12-04 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
CN112035688B (zh) * 2019-06-04 2022-12-13 中移(苏州)软件技术有限公司 资源搜索方法及装置、搜索设备及存储介质
WO2021047186A1 (zh) * 2019-09-09 2021-03-18 深圳壹账通智能科技有限公司 咨询对话处理的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US9230025B2 (en) 2016-01-05
JP5513624B2 (ja) 2014-06-04
US8560513B2 (en) 2013-10-15
US20140040229A1 (en) 2014-02-06
US20160085871A1 (en) 2016-03-24
JP2013506189A (ja) 2013-02-21
WO2011037603A1 (en) 2011-03-31
EP2480995A4 (en) 2016-05-11
EP2480995A1 (en) 2012-08-01
US20110078127A1 (en) 2011-03-31
US9846748B2 (en) 2017-12-19

Similar Documents

Publication Publication Date Title
CN102033877A (zh) 检索方法和装置
CN101887436B (zh) 一种检索方法和装置
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
US8856145B2 (en) System and method for determining concepts in a content item using context
US8468156B2 (en) Determining a geographic location relevant to a web page
US7392238B1 (en) Method and apparatus for concept-based searching across a network
US8266144B2 (en) Techniques to perform relative ranking for search results
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20110307432A1 (en) Relevance for name segment searches
US8977625B2 (en) Inference indexing
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN110633407A (zh) 信息检索方法、装置、设备及计算机可读介质
CN102737021A (zh) 搜索引擎及其实现方法
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
CN105824915A (zh) 一种网购产品评论文摘生成方法及系统
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
US20090234838A1 (en) System, method, and/or apparatus for subset discovery
Gupta et al. Document summarisation based on sentence ranking using vector space model
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
TW201131399A (en) Indexing method and apparatus
Wang et al. An effective content-based recommendation method for Web browsing based on keyword context matching
Lobo et al. Acquiring the best page using query term synonym combination
Ma et al. Using multi-categorization semantic analysis and personalization for semantic search
Noce et al. A Query and Product Suggestion Method for Price Comparison Search Engines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1152121

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1152121

Country of ref document: HK