CN103324644A - 一种查询结果多样化方法及装置 - Google Patents

一种查询结果多样化方法及装置 Download PDF

Info

Publication number
CN103324644A
CN103324644A CN2012100805904A CN201210080590A CN103324644A CN 103324644 A CN103324644 A CN 103324644A CN 2012100805904 A CN2012100805904 A CN 2012100805904A CN 201210080590 A CN201210080590 A CN 201210080590A CN 103324644 A CN103324644 A CN 103324644A
Authority
CN
China
Prior art keywords
query result
subgraph
weight
minimum
related keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100805904A
Other languages
English (en)
Other versions
CN103324644B (zh
Inventor
李建强
刘春辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201210080590.4A priority Critical patent/CN103324644B/zh
Priority to JP2012276584A priority patent/JP5486667B2/ja
Publication of CN103324644A publication Critical patent/CN103324644A/zh
Application granted granted Critical
Publication of CN103324644B publication Critical patent/CN103324644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种查询结果多样化方法及装置,涉及信息检索技术,通过领域本体确定给定查询的关键字集合的相关关键字组合集,并使用这些相关关键字组合进行查询,避免使用不可靠的查询日志确定子查询关键字,从而使得多样化查询结果更加准确。

Description

一种查询结果多样化方法及装置
技术领域
本发明涉及信息检索技术,尤其涉及一种查询结果多样化方法及装置。
背景技术
传统的信息检索技术主要是通过对文献检索进行后处理或重新排序的步骤实现多样化,如搜索结果的聚类或分类,根据均值-方差分析进行重新排序的结果等。
而随着信息检索技术的发展,用户对信息检索的搜索结果多样化和查询消歧的要求也越来越高。其中,搜索结果多样化是指:用户输入的查询关键字可能有多个解释,在获得查询结果时,应该产生包括这些不同解释的结果,搜索结果多样化的目的是通过平衡搜索结果的相关性和新颖性,最大限度地减少用户不满的风险。查询消歧是指:根据用户的输入的关键字确定所有可能的查询意图,并通过更准确的方式表示这些意图。
查询消歧作为一种新的方式支持搜索多样化,有效地节省了计算成本并使结果更容易理解,尤其是当结果规模较大的时候。现有技术中,主要采用了对查询日志的统计分析(或机器学习等)实现多元化搜索。
具体的,目前进行查询结果多样化的方法使用查询-查询的转化形式,如图1所示,包括:
步骤S101、对于给定的查询Q,根据查询日志的分析大样本生成k个相关查询R(Q);
步骤S102、通过从每个查询结果集提取n/(k+1)个结果获得初始DOC列表(文档用户的数量可以视为n);
步骤S103、通过相关反馈方法重排序初始DOC列表。
相应的搜索结果多样化装置如图2所示,包括:
查询单元201,用于存储用户的查询关键字;
查询日志存储单元202,用于存储用户的查询日志;
查询消歧单元203,用于根据用户的查询关键字和查询日志确定与目标查询相关的查询关键字;
子查询存储单元204,用于存储和目标查询相关的查询关键字;
文档存储单元205,用于存储所搜索的文档;
关键字搜索单元206,用于使用子查询的关键字搜索文档存储单元205中的文档;
子查询结果存储单元207,用于存储对每个子查询进行搜索的查询结果;
查询结果合并单元208,用于对各查询结果进行合并;
查询结果存储单元209,用于存储合并后的查询结果;
查询结果排队单元210,用于对合并后的查询结果进行排队处理;
多样化排名列表存储单元211,用于存储对目标查询的最终多样化查询结果。
具体的,例如,用于给出查询关键字“window”,目标查询为q=(window),则根据该查询关键字和查询日志获得子查询的关键字“window XP”“housewindow”......,则q的子查询集合为R(q)={(q1,q,window XP),(q2,q,house window)......},根据对目标查询q进行搜索以及对子查询集合为R(q)中的各个子查询进行搜索,分别获得文档列表,形成文档列表集合S(q)={(q,document listl),(q1,document list2),(q2,document list3)......},从每个文档列表中选取n/(k+1)个数的文档,形成对于q的新的查询结果集合RF(q),其中,n表示结果规模,为预先设定的值,k表示子查询的数量,根据文档和用户兴趣的匹配程度,对RF(q)中的文档进行排序,获得用户查询的多样化查询结果。
根据上述查询结果多样化的方法可知,现有技术中是基于查询日志来确定子查询集合的,但是,本发明的发明人发现,由于查询日志是基于用户输入查询关键字生成的,而查询关键字并不能准确代表当时用户实际的查询意图,同时,对于企业搜索等某些搜索环境,查询日志不可用或查询日志的规模不足以支持查询消歧,所以,查询日志是不可靠的数据来源,导致查询结果多样化后产生的查询结果并不准确。
发明内容
本发明实施例提供一种查询结果多样化方法及装置,以获得较准确的多样化查询结果。
一种查询结果多样化方法,包括:
根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
根据所述相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
从所述查询结果集中获取相应个数的查询结果;
对获取的查询结果进行排序,获得多样化查询结果。
一种查询结果多样化装置,包括:
关键字确定单元,用于根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
查询单元,用于根据所述相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
查询结果获取单元,用于从所述查询结果集中获取相应个数的查询结果;
排序单元,用于对获取的查询结果进行排序,获得多样化查询结果。
本发明实施例提供一种查询结果多样化方法及装置,通过领域本体确定给定查询的关键字集合的相关关键字组合集,并使用这些相关关键字组合进行查询,避免使用不可靠的查询日志确定子查询关键字,从而使得多样化查询结果更加准确。
附图说明
图1为现有技术中查询结果多样化方法流程图;
图2为现有技术中查询多样化装置结构示意图;
图3为本发明实施例提供的查询结果多样化方法流程图;
图4为本发明实施例提供的最小子图获取方法流程图;
图5为本发明实施例提供的查询结果集确定方法流程图;
图6为本发明实施例提供的查询结果获取方法流程图;
图7为本发明实施例提供的排序方法流程图;
图8为本发明实施例提供的根据相似程度进行排序的方法流程图;
图9为本发明实施例提供的查询结果多样化装置结构示意图。
具体实施方式
本发明实施例提供一种查询结果多样化方法及装置,通过领域本体确定给定查询的关键字集合的相关关键字组合集,并使用这些相关关键字组合进行查询,避免使用不可靠的查询日志确定子查询关键字,从而使得多样化查询结果更加准确。
如图3所示,本发明实施例提供的查询结果多样化方法包括:
步骤S301、根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
步骤S302、根据相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
步骤S303、从查询结果集中获取相应个数的查询结果;
步骤S304、对获取的查询结果进行排序,获得多样化查询结果。
由于通过领域本体来进行各个相关关键字的确定,所以使得相关关键字的选取更加准确,更接近用户的意图,进而使得多样化查询结果更加准确,其中,领域本体为专业性的本体,描述的是特定领域中的概念和概念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论。
具体的,步骤S301中,可以先根据给定查询每个关键字,确定该关键字在所述领域本体中的相关关键字;再根据各个相关关键字,确定相关关键字组合集。所确定的相关关键字组合集为:S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm},其中,Ci为给定查询中m个关键字的第i个关键字的相关关键字集合。
在确定关键字在领域本体中的相关关键字时,可以确定领域本体中包括该关键字的概念为相关关键字,也可以确定领域本体中与该关键字相关的相关节点作为相关关键字,当然,本领域技术人员也可以根据其它方式从领域本体中确定相关关键字。
为了能够使得查询结果更加准确,可以进一步对相关关键字以及给定查询中的关键字的组合进行筛选,从而获得更加符合用户意图的关键字组合。
具体的,在步骤S301根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集后,还包括:
对于相关关键字组合集中的每个相关关键字组合,从领域本体中抽取连接各个关键字的最小子图,其中,最小子图为实现连接各关键字的领域本体子图中,边数最少的子图。
如图4所示,假设相关关键字组合中包括5个关键字,所抽取的子图中,连接了全部5个关键字,且边数最少。
此时,如图5所示,在步骤S302中,根据相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集,具体包括:
步骤S501、对于每个最小子图,确定由该最小子图中包括的关键字及其它节点构成子查询;
步骤S502、根据每个子查询中包括的关键字及其它节点进行搜索,获得与最小子图数量相同的子查询结果集;
步骤S503、确定查询结果集为各个子查询结果集构成的集合。
例如,用户输入查询关键字,其中包括m个关键字,为Q={k1,......,km},对于任一个关键字ki都能在领域本体中确定一组相关的关键字Ci={ci1,ci2,......,cini},该组关键字包括ni个关键字,根据领域本体还可以得到每个相关关键字与ki的相关程度值Ri={ri1,ri2,......,rini},此时,对于用户输入的查询关键字可以确定出
Figure BDA0000146504100000061
个查询组合,S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm}。
对于每个子查询,可以根据领域本体确定查询语义图,该查询语义图中包括该子查询中的各个关键字,每个关键字都作为查询语义图的节点,为使得各关键字能够连接起来,该查询语义图中也包括其它节点。对于每个查询语义图,获取连接各个关键字的最小子图,其中,最小子图为实现连接各关键字的子图中,边的条数最少的子图。
在获取最小子图时,可以在查询语义图中随机选取一个关键字,遍历该关键字连接其它节点的每条路径,选择与目标节点之间最短的路径作为最小子图中的路径,直至确定出连接各个关键字的最小子图,若两个节点之间具有两条边数相同的路径,则可以随机选择一条。
在步骤S303中,从查询结果集中获取相应个数的查询结果,可以从每个子查询的子查询结果集中获取设定个数的查询结果,也可以进一步根据子查询关键字与查询关键字的相关程度,从查询结果集中获取相应个数的查询结果,从而使得相关程度高的查询结果数量较多,更容易与用户的查询意图匹配。
具体的,如图6所示,根据每个子查询与给定查询的相关程度,从每个子查询结果集中获取相应个数的查询结果,具体包括:
步骤S601、确定每个最小子图的子图权重,该子图权重为:其中m为查询关键字的数量,ri为根据领域本体确定的相关关键字与相应的关键字的匹配值,E为该子图包括的边的数量;
步骤S602、根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果。
在步骤S602中,根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果,可以具体为:
从该最小子图对应的子查询结果集中获取的查询结果为与该最小子图关联程度最大的前a个查询结果,a为当前最小子图的子图权重与所有最小子图的子图权重和的比值。
进一步,为使得用户能够更方便的看到较符合查询意图的查询结果,本发明实施例提供相应的对查询结果排序的方法,此时,如图7所示,步骤S304对获取的查询结果进行排序,获得多样化查询结果,具体包括:
步骤S701、对于每个查询结果,确定该查询结果与对应的最小子图的关联程度值;
步骤S702、对于每个查询结果,根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重;
步骤S703、根据查询结果的权重,对获取的查询结果进行排序,获得多样化查询结果。
其中,步骤S702中,根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重,具体包括:
确定该查询结果的权重为该查询结果与对应的最小子图的关联程度值与该最小子图的子图权重的乘积。
进一步,在步骤S703中,根据查询结果的权重,对获取的查询结果进行排序,可以直接按照查询结果的权重大小,对获取的查询结果进行排序;也可以进一步考虑查询结果之间的相似性,使得用户能够较方便的获取多样化的查询结果,此时,如图8所示,步骤S703具体包括:
步骤S801、确定权重最大的查询结果为排在第一位的查询结果,并确定每两个查询结果之间的相似程度值;
步骤S802、对于其它查询结果,确定每个查询结果的相似权重为:
Figure BDA0000146504100000081
其中,s为查询结果的权重,d为当前查询结果,D为已排序的查询结果构成的集合,similarity(d,d′)为d和d’的相似程度值;
步骤S803、按照相似权重的大小,对除排在第一位的查询结果外的查询结果进行递归排序。
下面通过一个具体实例对本发明实施例提供的查询结果多样化方法进行说明:
若用户给定查询的关键字为“牡丹”、“北京”时,可以通过领域本体确定C(“牡丹”)={(“牡丹花”,0.5),(“牡丹电视”,0.2),(“牡丹江”,0.2),...},C(“北京”)={(“北京市”,0.8),(“北京牌手表”,0.07),(“北京故事”,0.05)...},其中(“牡丹花”,0.5)表示“牡丹”的相关关键字“牡丹花”与“牡丹”的匹配值。
确定各个相关关键字组合后,获取连接各个关键字的最小子图,例如最小子图集合为:S(graph)={(g1,牡丹花、北京市,0.65),(g2,牡丹电视、北京市,0.5),(g3,牡丹花、李勤勤、北京故事,0.138)...},容易推算,最小子图g1的子图权重为0.65,g2的子图权重为0.5,g3的子图权重为0.138。
根据每个子图中的关键字及其它节点进行搜索,获得各个子查询结果集,例如,result(g1)={(doc1,ωg=0.65,ωr=0.9),(doc2,ωg=0.65,ωr=0.7),...},result(g2)={(doc3,ωg=0.5,ωr=0.8),(doc4,ωg=0.5,ωr=0.6)...}......,对于查询结果集中的每个文档,wg表示其对应的最小子图的子图权重,wr表示该文档与该最小子图的关联程度值,每个子查询结果集中的文档按wr排序。
从该最小子图对应的子查询结果集中获取的查询结果为与该最小子图关联程度最大的前a个查询结果,例如,从result(g1)中选择排名为前
Figure BDA0000146504100000082
的文档加入查询结果集合RF(q)中,从result(g2)中选择排名为前的文档加入查询结果集合RF(q)中。
假设RF(q)为RF(q)={(doc1,0.65,0.9),(doc2,0.65,0.7),(doc3,0.5,0.8)},则:
可以直接根据查询结果的权重大小,对获取的查询结果进行排序,由于三个文档的权重分别为:s1=0.65×0.9,s2=0.65×0.7,s3=0.5×0.8,所以排序后的查询结果为RF(q)={doc1,doc2,doc3}。
也可以根据相似程度对获取的查询结果进行排序,此时,假设similarity(doc 1,doc2)=0.5,similarity(doc 1,doc3)=0.1,similarity(doc2,doc3)=0.2,则排序后的查询结果为:RF(q)={doc1,doc3,doc2}。
本发明实施例还相应提供一种查询结果多样化装置,如图9所示,包括:
关键字确定单元901,用于根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
查询单元902,用于根据相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
查询结果获取单元903,用于从查询结果集中获取相应个数的查询结果;
排序单元904,用于对获取的查询结果进行排序,获得多样化查询结果。
其中,关键字确定单元901具体用于:
根据给定查询每个关键字,确定该关键字在领域本体中的相关关键字;
根据各个相关关键字,确定相关关键字组合集。
关键字确定单元901根据各个相关关键字,确定相关关键字组合集,具体包括:
确定相关关键字组合集为:S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm},其中,Ci为给定查询中m个关键字的第i个关键字的相关关键字集合。
其中,关键字确定单元901还用于:
在根据给定查询中的每个关键字,确定该关键字在领域本体中的相关关键字后:
在根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集后:
对于相关关键字组合集中的每个相关关键字组合,从领域本体抽取连接各个关键字的最小子图,其中,最小子图为实现连接各关键字的领域本体子图中,边数最少的子图;
查询单元902具体用于:
对于每个最小子图,确定由该最小子图中包括的关键字及其它节点构成子查询;
根据每个子查询中包括的关键字及其它节点进行搜索,获得与最小子图数量相同的子查询结果集;
确定查询结果集为各个子查询结果集构成的集合。
查询结果获取单元903具体用于:
根据每个子查询给定查询的相关程度,从每个子查询结果集中获取相应个数的查询结果;
合并从各个子查询结果集中获取的查询结果。
进一步,查询结果获取单元903具体用于:
确定每个最小子图的子图权重为:
Figure BDA0000146504100000101
其中m为查询关键字的数量,ri为根据领域本体确定的相关关键字与相应的关键字的匹配值,E为该子图包括的边的数量;
根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果;
合并从各个子查询结果集中获取的查询结果。
具体的,查询结果获取单元903根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果,具体包括:
从该最小子图对应的子查询结果集中获取的查询结果为与该最小子图关联程度最大的前a个查询结果,a为不大于当前最小子图的子图权重与所有最小子图的子图权重和的比值的最大整数。
排序单元904具体用于:
对于每个查询结果,确定该查询结果与对应的最小子图的关联程度值;
对于每个查询结果,根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重;
根据查询结果的权重,对获取的查询结果进行排序,获得多样化查询结果。
具体的,排序单元904根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重,具体包括:
确定该查询结果的权重为该查询结果与对应的最小子图的关联程度值与该最小子图的子图权重的乘积。
排序单元904根据查询结果的权重,对获取的查询结果进行排序,具体包括:
直接按照查询结果的权重大小,对获取的查询结果进行排序;或者
确定权重最大的查询结果为排在第一位的查询结果,并确定每两个查询结果之间的相似程度值;对于其它查询结果,确定每个查询结果的相似权重为:
Figure BDA0000146504100000111
其中,s为查询结果的权重,d为当前查询结果,D为已排序的查询结果构成的集合,similarity(d,d′)为d和d’的相似程度值;按照相似权重的大小,对除排在第一位的查询结果外的查询结果进行递归排序。
本发明实施例提供一种查询结果多样化方法及装置,通过领域本体确定给定查询的关键字集合的相关关键字组合集,并使用这些相关关键字组合进行查询,避免使用不可靠的查询日志确定子查询关键字,从而使得多样化查询结果更加准确。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种查询结果多样化方法,其特征在于,包括:
根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
根据所述相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
从所述查询结果集中获取相应个数的查询结果;
对获取的查询结果进行排序,获得多样化查询结果。
2.如权利要求1所述的方法,其特征在于,所述根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集,具体包括:
根据给定查询每个关键字,确定该关键字在所述领域本体中的相关关键字;
根据各个相关关键字,确定相关关键字组合集。
3.如权利要求2所述的方法,其特征在于,根据各个相关关键字,确定相关关键字组合集,具体包括:
确定相关关键字组合集为:S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm},其中,Ci为给定查询中m个关键字的第i个关键字的相关关键字集合。
4.如权利要求1所述的方法,其特征在于,在所述根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集后,还包括:
对于相关关键字组合集中的每个相关关键字组合,从领域本体中抽取连接各个关键字的最小子图,所述最小子图为实现连接各关键字的领域本体子图中,边数最少的子图;
所述根据相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集,具体包括:
对于每个最小子图,确定由该最小子图中包括的关键字及其它节点构成的子查询;
根据每个子查询中包括的关键字及其它节点进行搜索,获得与最小子图数量相同的子查询结果集;
确定查询结果集为各个子查询结果集构成的集合。
5.如权利要求4所述的方法,其特征在于,所述从所述查询结果集中获取相应个数的查询结果,具体包括:
根据每个子查询与给定查询的相关程度,从每个子查询结果集中获取相应个数的查询结果;
合并从各个子查询结果集中获取的查询结果。
6.如权利要求5所述的方法,其特征在于,所述根据每个子查询与给定查询的相关程度,从每个子查询结果集中获取相应个数的查询结果,具体包括:
确定每个最小子图的子图权重为:
Figure FDA0000146504090000021
其中m为查询关键字的数量,ri为根据所述领域本体确定的相关关键字与相应的关键字的匹配值,E为该子图包括的边的数量;
根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果。
7.如权利要求6所述的方法,其特征在于,所述根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果,具体包括:
从该最小子图对应的子查询结果集中获取的查询结果为与该最小子图关联程度最大的前a个查询结果,a为不大于当前最小子图的子图权重与所有最小子图的子图权重和的比值的最大整数。
8.如权利要求4所述的方法,其特征在于,所述对获取的查询结果进行排序,获得多样化查询结果,具体包括:
对于每个查询结果,确定该查询结果与对应的最小子图的关联程度值;
对于每个查询结果,根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重;
根据所述查询结果的权重,对获取的查询结果进行排序,获得多样化查询结果。
9.如权利要求8所述的方法,其特征在于,所述根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重,具体包括:
确定该查询结果的权重为该查询结果与对应的最小子图的关联程度值与该最小子图的子图权重的乘积。
10.如权利要求8所述的方法,其特征在于,所述根据所述查询结果的权重,对获取的查询结果进行排序,具体包括:
直接按照所述查询结果的权重大小,对获取的查询结果进行排序;或者
确定权重最大的查询结果为排在第一位的查询结果,并确定每两个查询结果之间的相似程度值;对于其它查询结果,确定每个查询结果的相似权重为:
Figure FDA0000146504090000031
其中,s为查询结果的权重,d为当前查询结果,D为已排序的查询结果构成的集合,similarity(d,d′)为d和d’的相似程度值;按照所述相似权重的大小,对除排在第一位的查询结果外的查询结果进行递归排序。
11.一种查询结果多样化装置,其特征在于,包括:
关键字确定单元,用于根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集;
查询单元,用于根据所述相关关键字组合集中的各个相关关键字组合进行搜索,获得查询结果集;
查询结果获取单元,用于从所述查询结果集中获取相应个数的查询结果;
排序单元,用于对获取的查询结果进行排序,获得多样化查询结果。
12.如权利要求11所述的装置,其特征在于,所述关键字确定单元具体用于:
根据给定查询每个关键字,确定该关键字在所述领域本体中的相关关键字;
根据各个相关关键字,确定相关关键字组合集。
13.如权利要求12所述的装置,其特征在于,所述关键字确定单元根据各个相关关键字,确定相关关键字组合集,具体包括:
确定相关关键字组合集为:S(Q)={(c1,c2,...,cm)|c1∈C1&&c2∈C2&&...cm∈Cm},其中,Ci为给定查询中m个关键字的第i个关键字的相关关键字集合。
14.如权利要求11所述的装置,其特征在于,所述关键字确定单元还用于:
在所述根据给定查询的关键字集合,确定该关键字集合在领域本体中的相关关键字组合集后:
对于相关关键字组合集中的每个相关关键字组合,从领域本体抽取连接各个关键字的最小子图,所述最小子图为实现连接各关键字的领域本体子图中,边数最少的子图;
所述查询单元具体用于:
对于每个最小子图,确定由该最小子图中包括的关键字及其它节点构成子查询;
根据每个子查询中包括的关键字及其它节点进行搜索,获得与最小子图数量相同的子查询结果集;
确定查询结果集为各个子查询结果集构成的集合。
15.如权利要求14所述的装置,其特征在于,所述查询结果获取单元具体用于:
根据每个子查询给定查询的相关程度,从每个子查询结果集中获取相应个数的查询结果;
合并从各个子查询结果集中获取的查询结果。
16.如权利要求15所述的装置,其特征在于,所述查询结果获取单元具体用于:
确定每个最小子图的子图权重为:其中m为查询关键字的数量,ri为根据所述领域本体确定的相关关键字与相应的关键字的匹配值,E为该子图包括的边的数量;
根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果;
合并从各个子查询结果集中获取的查询结果。
17.如权利要求16所述的装置,其特征在于,所述查询结果获取单元根据每个最小子图的子图权重,从该最小子图对应的子查询结果集中获取相应个数的查询结果,具体包括:
从该最小子图对应的子查询结果集中获取的查询结果为与该最小子图关联程度最大的前a个查询结果,a为不大于当前最小子图的子图权重与所有最小子图的子图权重和的比值的最大整数。
18.如权利要求14所述的装置,其特征在于,所述排序单元具体用于:
对于每个查询结果,确定该查询结果与对应的最小子图的关联程度值;
对于每个查询结果,根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重;
根据所述查询结果的权重,对获取的查询结果进行排序,获得多样化查询结果。
19.如权利要求18所述的装置,其特征在于,所述排序单元根据该查询结果与对应的最小子图的关联程度值以及该最小子图的子图权重,确定该查询结果的权重,具体包括:
确定该查询结果的权重为该查询结果与对应的最小子图的关联程度值与该最小子图的子图权重的乘积。
20.如权利要求18所述的装置,其特征在于,所述排序单元根据所述查询结果的权重,对获取的查询结果进行排序,具体包括:
直接按照所述查询结果的权重大小,对获取的查询结果进行排序;或者
确定权重最大的查询结果为排在第一位的查询结果,并确定每两个查询结果之间的相似程度值;对于其它查询结果,确定每个查询结果的相似权重为:
Figure FDA0000146504090000061
其中,s为查询结果的权重,d为当前查询结果,D为已排序的查询结果构成的集合,similarity(d,d′)为d和d’的相似程度值;按照所述相似权重的大小,对除排在第一位的查询结果外的查询结果进行递归排序。
CN201210080590.4A 2012-03-23 2012-03-23 一种查询结果多样化方法及装置 Active CN103324644B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210080590.4A CN103324644B (zh) 2012-03-23 2012-03-23 一种查询结果多样化方法及装置
JP2012276584A JP5486667B2 (ja) 2012-03-23 2012-12-19 クエリ結果を多様化するための方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210080590.4A CN103324644B (zh) 2012-03-23 2012-03-23 一种查询结果多样化方法及装置

Publications (2)

Publication Number Publication Date
CN103324644A true CN103324644A (zh) 2013-09-25
CN103324644B CN103324644B (zh) 2016-05-11

Family

ID=49193391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210080590.4A Active CN103324644B (zh) 2012-03-23 2012-03-23 一种查询结果多样化方法及装置

Country Status (2)

Country Link
JP (1) JP5486667B2 (zh)
CN (1) CN103324644B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN107220341A (zh) * 2017-05-26 2017-09-29 北京中电普华信息技术有限公司 一种日志分析方法及日志分析系统
CN107688620A (zh) * 2017-08-11 2018-02-13 武汉大学 一种基于多样化算法框架TAD的面向Top‑k查询的查询结果即时多样化算法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474704B2 (en) 2016-06-27 2019-11-12 International Business Machines Corporation Recommending documents sets based on a similar set of correlated features

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104061A1 (en) * 2006-10-27 2008-05-01 Netseer, Inc. Methods and apparatus for matching relevant content to user intention
CN101308499A (zh) * 2008-07-04 2008-11-19 华中科技大学 一种基于关联分析的文献检索方法
CN101751422A (zh) * 2008-12-08 2010-06-23 北京摩软科技有限公司 一种移动终端智能搜索的方法、移动终端和服务器
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索系统
CN102081668A (zh) * 2011-01-24 2011-06-01 熊晶 基于领域本体的信息检索优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108597A (ja) * 2001-09-27 2003-04-11 Toshiba Corp 情報検索システム、情報検索方法及び情報検索プログラム
WO2010001455A1 (ja) * 2008-06-30 2010-01-07 富士通株式会社 検索装置及び方法
JP5116593B2 (ja) * 2008-07-25 2013-01-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
KR101048546B1 (ko) * 2009-03-05 2011-07-11 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법
JP5210970B2 (ja) * 2009-05-28 2013-06-12 日本電信電話株式会社 共通クエリグラフパターン生成方法、共通クエリグラフパターン生成装置及び共通クエリグラフパターン生成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104061A1 (en) * 2006-10-27 2008-05-01 Netseer, Inc. Methods and apparatus for matching relevant content to user intention
CN101308499A (zh) * 2008-07-04 2008-11-19 华中科技大学 一种基于关联分析的文献检索方法
CN101751422A (zh) * 2008-12-08 2010-06-23 北京摩软科技有限公司 一种移动终端智能搜索的方法、移动终端和服务器
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索系统
CN102081668A (zh) * 2011-01-24 2011-06-01 熊晶 基于领域本体的信息检索优化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653661A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN107220341A (zh) * 2017-05-26 2017-09-29 北京中电普华信息技术有限公司 一种日志分析方法及日志分析系统
CN107688620A (zh) * 2017-08-11 2018-02-13 武汉大学 一种基于多样化算法框架TAD的面向Top‑k查询的查询结果即时多样化算法
CN107688620B (zh) * 2017-08-11 2020-01-24 武汉大学 一种面向Top-k查询的查询结果即时多样化的方法

Also Published As

Publication number Publication date
JP2013200862A (ja) 2013-10-03
CN103324644B (zh) 2016-05-11
JP5486667B2 (ja) 2014-05-07

Similar Documents

Publication Publication Date Title
Drosou et al. Diversity in big data: A review
US10282419B2 (en) Multi-domain natural language processing architecture
Lee et al. A user similarity calculation based on the location for social network services
US10706103B2 (en) System and method for hierarchical distributed processing of large bipartite graphs
Liu et al. U-skyline: A new skyline query for uncertain databases
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
JP5472110B2 (ja) 関係性発見装置、関係性発見方法および関係性発見プログラム
US9652544B2 (en) Generating snippets for prominent users for information retrieval queries
CN110019647A (zh) 一种关键词搜索方法、装置和搜索引擎
Ashokkumar et al. Intelligent optimal route recommendation among heterogeneous objects with keywords
US10747824B2 (en) Building a data query engine that leverages expert data preparation operations
JP6722615B2 (ja) クエリクラスタリング装置、方法、及びプログラム
CN106156155A (zh) 一种提供电子图书资源的方法和系统
CN107077501A (zh) 将搜索结果分面
CN103324644A (zh) 一种查询结果多样化方法及装置
Agrawal et al. A novel algorithm for automatic document clustering
Lin et al. Automatic tagging web services using machine learning techniques
JP2007323454A (ja) 文書分類装置及びプログラム
CN102708104B (zh) 对文档排序的方法和设备
Wang et al. An efficient multiple-user location-based query authentication approach for social networking
CN111046271B (zh) 用于搜索的挖掘方法、装置、存储介质及电子设备
Luo et al. THUSAM at NTCIR-11 IMine Task.
US20140040302A1 (en) Method and system for developing a list of words related to a search concept
US9183251B1 (en) Showing prominent users for information retrieval requests
Ying et al. A framework for cloud-based POI search and trip planning systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant