CN101110083B - 文档检索装置及文档检索方法 - Google Patents

文档检索装置及文档检索方法 Download PDF

Info

Publication number
CN101110083B
CN101110083B CN2007101361755A CN200710136175A CN101110083B CN 101110083 B CN101110083 B CN 101110083B CN 2007101361755 A CN2007101361755 A CN 2007101361755A CN 200710136175 A CN200710136175 A CN 200710136175A CN 101110083 B CN101110083 B CN 101110083B
Authority
CN
China
Prior art keywords
document
retrieval
result
word
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101361755A
Other languages
English (en)
Other versions
CN101110083A (zh
Inventor
池田哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of CN101110083A publication Critical patent/CN101110083A/zh
Application granted granted Critical
Publication of CN101110083B publication Critical patent/CN101110083B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation

Abstract

本发明涉及文档检索装置,包括:文档数据库部(1),具有存放文档、检索符合某一词语的集合的文档功能;检索要求输入部(2),用词语或文章指定检索要求;用户接口(3),提示文档数据库部(1)检索结果,可选择检索结果一部分;扩展词抽出部(4),将利用用户接口(3)选择出的文档用作种子文档,求出与检索要求相关度高的词语的集合。从检索要求输入部(2)指定检索要求后,显示利用检索要求中含有的词语的集合实施的检索结果,选择检索结果一部分后,将由扩展词抽出部(4)求出的相关度高的词语添加到检索要求中含有的词语集合中,将检索结果进行显示。在文档检索中能减轻对用于适合性反馈的种子文档进行指定的作业负担。

Description

文档检索装置及文档检索方法
技术领域
本发明涉及文档管理中的文档检索装置、利用该文档检索装置实施的文档检索方法、使计算机执行文档检索的文档检索程序及记录有该文档检索程序的记录介质,尤其涉及利用适合性反馈进行检索词扩展的文档检索装置、文档检索方法、文档检索程序及记录介质。
背景技术
近年来,电子化的文档逐渐取代纸张文档成为主要的信息存储手段,用作企业和个人之间的意思传递手段。电子文档一般由称为文档管理装置的装置进行管理。使用者为了从存储在文档管理装置中的电子文档中指定出所需参照的电子文档,需要进行文档检索。在文档检索领域,检索结果是否与使用者的检索要求一致是重要的评价基准之一。以往提出有这样一种文档检索装置,根据检索要求中指定的检索词对各文档求出与检索要求一致的程度,以下称为“拟合优度”(relevancy value),按拟合优度大的顺序输出(例如专利文献1)。
检索结果的质量由平均适合率等评价。所谓平均适合率是指对n=1,2,…N求出检索结果一览中上位的n个文档组中含有的适合文档(符合检索要求的文档)的比例,再将这N个值进行平均所得到的结果。
另一方面,为了得到高质量的检索结果,也有一种不局限于使用者在检索要求中指定的检索词,而是将相关词语也作为检索词进行追加的手法(以下称为“相关词扩展”)。对于因相关词扩展被追加的检索词(以下简称为“扩展词”)的选择方法有各种提案。
作为这样的选择方法之一,例如已知有称为适合性反馈的手法。该手法先向使用者提示利用使用者指定的检索词进行检索(一次检索)所得到的结果,使用者将该结果区分为适合文档和非适合文档。得到其结果后,利用从 适合文档中含有的词语中选择的扩展词进行检索(二次检索),将得到的结果作为最终结果输出。以下,将用于选择扩展词的文档称为种子(seed)文档。
另外,在适合性反馈中,指定种子文档的操作对使用者来说是一种负担,也成为在为了得到目的文档组而进行的一系列检索操作中效率下降的原因。作为减轻该适合性反馈强加于使用者的负担的手段之一,有一种称为模拟适合性反馈的手法。这是一种将定位于一次检索结果上位的文档自动地作为种子文档使用,从而得到扩展词的手法。
然而,模拟适合性反馈中一次检索精度对二次检索结果产生很大影响,另外,使用者无法控制种子文档,因而,无法除去不合适的种子文档,结果,有时需要排除不合适的扩展词这样的操作,难以减轻负担。
为此,专利文献2记载的发明公开了对选有不合适单词的问题的手法;专利文献3记载的发明公开了适合性反馈中指定种子文档的方法;专利文献4及5记载的发明公开了通过视觉性地展示检索结果从而凭直觉把握检索结果集合的特征;专利文献6记载的发明公开了将检索结果在N维平面上提示,并可在该坐标平面上进行移动的手法。
其中,专利文献2记载的发明包括:文档排序部,检索符合通过关键词输入部输入的关键词的文档并按拟合优度高的顺序抽出多份适合文档;以及单词排序部,对被抽出的适合文档中出现的各单词算出与上述关键词的相关度,抽出相关度高的相关词,将抽出后的相关词补充到原来的上述关键词中作为新的关键词。单词排序部在抽出与关键词相关度高的相关词时,将不适合检索词的单词从相关词中除去,文档排序部检索符合该新的关键词的文档,按拟合优度高的顺序再次抽出适合文档。
专利文献3记载的发明包括:特定个人选择手段,根据生成的检索公式从服务器抽出的文献信息中选择作者或发明人即特定个人;输出汇总手段,从服务器抽出由特定个人选择手段选择出的特定个人所作成的文献信息并按时序汇总输出。
专利文献4记载的发明通过在检索援助接口并列设置检索结果显示部和特征词显示部,用户可浏览检索结果的标题信息和特征信息,另外,通过具有标记标题按钮、标记特征词按钮等检索结果分析手段,用户可从各种观点 容易地分析检索结果,而其中标记标题按钮用于强调含有指定的特征词的文档,标记特征词按钮用于强调指定的文档中含有的特征词。
在专利文献5记载的发明中,多维空间模型表现装置包括:进行检索文的输入和检索结果输出的使用者用终端装置;根据检索文进行专利文献检索处理的检索装置;以及在检索装置2中登记专利文献的管理用终端装置,将大量的技术文献(专利文献等)高效地分类在几个多维空间上的组(cluster)中,将这些组配置在二维平面上作成组图,组间的距离越近,越能得到组间距离的误差精度高的组图,能从视觉上把握类似的组彼此的关系。
在专利文献6记载的发明中,对属于某一给出的电子文档的集合,即显示对象电子文档的各电子文档选择两个属性,利用与该两个属性对应的坐标值确定坐标平面上的位置,当该位置处于画面上显示的区域内时,坐标平面显示手段在该区域内显示规定的符号,对给出的电子文档的集合正在显示符号时,若使用者重新选择用作假想坐标平面的坐标轴的两个属性,则可根据该选择切换进行显示的坐标平面。
专利文献1:日本专利特开平11—224264号公报
专利文献2:日本专利特开2002-117043号公报
专利文献3:日本专利特开2005-215765号公报
专利文献4:日本专利特开2004-348768号公报
专利文献5:日本专利特开2005-092442号公报
专利文献6:日本专利特开2005-056081号公报
如上所述,模拟适合性反馈的一次检索精度对二次检索的结果产生很大的影响,而且使用者无法控制种子文档,因而无法除去不合适的种子文档,其结果是需要除去不合适的扩展词的操作,因而有时不能减轻负担。出于这样的原因,作为应对不合适的单词被选出的问题的手法,提出了专利文献2,但在除去不合适的单词时,针对检索对象整体来说对不需要的单词是有效的,但在特定的检索中,作为除去不合适的单词的手段是不适用的。另外,在适合性反馈中,作为指定种子文档的方法有专利文献3的提案,但该专利文献3记载的发明中没有涉及用户的指定方法。
另一方面,上述专利文献4及专利文献5的技术都是为了方便地分析一次 的检索结果的方法,并不是减轻区分适合文档和非适合文档这样的作业负担的方法。而且,若只是专利文献6记载的方法的话,作为坐标轴需要明确地选择用户属性,仅靠该方法的话还是无法减轻指定种子文档的作业的负担。
发明内容
本发明就是为解决上述先有技术所存在的问题而提出来的。本发明的课题在于:提供一种文档检索装置,能减轻对用于适合性反馈的种子文档进行指定的作业的负担。
为了实现上述目的,解决所述问题,第一手段系一种根据输入的检索条件从规定的文档的集合中检索符合所述检索条件的文档的文档检索装置,其特征在于,所述文档检索装置包括:文档数据库,其具有存放文档、能检索符合某一词语的集合的文档的功能;检索要求输入手段,其用于以一个以上的词语或文章来指定检索要求;检索结果显示手段,其提示所述文档数据库的检索结果,可选择所提示的检索结果中的一部分;以及扩展词抽出手段,其将利用检索结果显示手段选择出的文档用作种子文档,求出与检索要求相关度高的词语的集合。所述检索结果显示手段在从所述检索要求输入手段指定了检索要求时,显示利用检索要求中含有的词语的集合实施的检索结果,从所述检索结果显示手段选择了检索结果的一部分时,将由所述扩展词抽出手段求出的相关度高的词语添加到检索要求中含有的词语的集合中,并将检索的结果进行显示。
第二手段的特征在于,在第一手段的基础上,所述检索结果显示手段包含表现至少具有两个坐标的空间的坐标平面显示手段,其中一个坐标是表示相对检索要求的拟合优度的数值,其他坐标是利用文档的属性计算得到的数值,相对检索结果的一部分或全部计算坐标的值,在与所述计算得到的坐标值对应的坐标平面显示手段上的位置上显示规定的符号。
第三手段的特征在于,在第二手段的基础上,取代所述符号显示文档信息的一部分。
第四手段的特征在于,在第一至第三手段中任一手段的基础上,在以所述检索结果显示手段选择种子文档时,当在所述坐标平面显示手段上使指点 器的光标定位在与文档对应地被提示的符号上时,表示对应于所述符号的文档的概要的信息得到显示。
第五手段的特征在于,在第一至第三手段中任一手段的基础上,在以所述坐标平面显示手段上,利用指点器对围住与文档对应地被提示的一个以上的符号的区域进行指定,选择种子文档。
第六手段的特征在于,在第一至第三手段中任一手段的基础上,使在所述坐标平面显示手段上与文档对应地被提示的所需的符号在所述坐标平面显示手段上移动。
第七手段的特征在于,在第六手段的基础上,针对在所述坐标平面显示手段移动后的符号选择种子文档。
第八手段的特征在于,在第一至第三手段中任一手段的基础上,所述扩展词抽出手段将利用被选作种子文档的各个文档所对应的规定的符号在所述坐标平面显示手段上的位置算出的拟合优度的坐标的值用作被选种子文档的加权,对与拟合优度对应的坐标的值大的文档中含有的单词中相关度高的单词进行抽出。
第九手段的特征在于,在第八手段的基础上,由所述拟合优度表示的坐标的值分成两个以上的群(组),所述扩展词抽出手段对各群所使用的作为种子文档的加权的值都相同。
第十手段的特征在于,在第一至第九手段中任一手段的基础上,所述坐标平面显示手段的显示空间是由二维正交坐标或二维极坐标表示的空间。
第十一手段的特征在于,在第一至第十手段中任一手段的基础上,表示所述拟合优度的数值以外的坐标轴至少可从两个候补中选择,若在提示有规定的符号时切换坐标轴的选择,则所述坐标平面显示手段按照切换后的坐标轴的值重新配置规定的符号。
第十二手段系一种利用计算机根据输入的检索条件从规定的文档的集合中检索符合所述检索条件的文档的文档检索方法,其特征在于,所述的文档检索方法包括:第一工序,根据该工序,在用一个以上的词语或文章指定了检索要求时,从存放文档、能检索符合某一词语的集合的文档的文档数据库中检索作为检索对象的所有的文档或规定数量的文档,将文档的标识符、 拟合优度及属性值作为检索结果进行获取;第二工序,根据该工序,提示所述文档数据库的检索结果;第三工序,根据该工序,存在应该选择的文档时,从所述第二工序中所提示到的检索结果中选择一部分文档;第四工序,根据该工序,将在所述第二工序中提示到的、或在所述第三工序中被选择的文档用作种子文档,求出与检索要求相关度高的词语的集合;第五工序,根据该工序,在所述第一工序中存在检索要求时,对利用检索要求中含有的词语的集合实施得到的检索结果进行显示,在所述第三工序选择了文档数据库的检索结果的一部分时,将在所述第四工序求出的相关度高的词语添加到检索要求中含有的词语的集合中,并将检索的结果进行显示。
第十三手段的特征在于,在第十二手段的基础上,在所述第五工序中,设定至少具有两个坐标的空间,其中一个坐标是表示相对检索要求的拟合优度的数值,其他的坐标是利用文档的属性计算得到的数值,针对检索结果的一部分或全部计算坐标的值,在与该计算得到值对应的坐标平面显示手段上的位置上显示规定的符号。
第十四手段系一种让计算机根据输入的检索条件,从规定的文档的集合中检索符合所述检索条件的文档的文档检索程序,其特征在于,所述的文档检索程序包括:第一步骤,在该步骤中,用一个以上的词语或文章指定了检索要求后,从存放文档、能检索符合某一词语的集合的文档的文档数据库中检索作为检索对象的所有的文档或规定数量的文档,将文档的标识符、拟合优度及属性值作为检索结果进行获取;第二步骤,在该步骤中,提示所述文档数据库的检索结果;第三步骤,在该步骤中,存在应该选择的文档时,从所述第二步骤中所提示到的检索结果中选择一部分文档;第四步骤,在该步骤中,将在所述第二步骤中提示到的、或在所述第三步骤中被选择的文档用作种子文档,求出与检索要求相关度高的词语的集合;第五步骤,在该步骤中,在所述第一步骤中存在检索要求时,对利用检索要求中含有的词语的集合实施得到的检索结果进行显示,由所述第三步骤选择了文档数据库的检索结果的一部分时,将在所述第四步骤求出的相关度高的词语添加到检索要求中含有的词语的集合中,并将检索的结果进行显示。
第十五手段的特征在于,在第十四手段的基础上,在所述第五步骤中, 设定至少具有两个坐标的空间,其中一个坐标是表示相对检索要求的拟合优度的数值,其他的坐标是利用文档的属性计算得到的数值,针对检索结果的一部分或全部计算坐标的值,在与该计算得到值对应的坐标平面显示手段上的位置上显示规定的符号。
第十六手段的特征在于,在第十四手段的基础上,所述第一步骤包括获取分别与所述得到的拟合优度及属性值对应的数值的步骤。
第十七手段的特征在于,在第十四或第十五手段的基础上,所述第五步骤包括:第六步骤,在该步骤中,取得所述各检索结果的数值的组的集合;第七步骤,在该步骤中,对所述数值的组的各要素检查集合内的最大值和最小值,对数值的组的各要素计算对应的坐标的位置;第八步骤,在该步骤中,将所述计算得到的坐标位置投影到画面上,作为符号进行显示。
第十八手段的特征在于,在第十七手段的基础上,所述符号是文档信息的一部分。
第十九手段的特征在于,在第十四或第十五手段的基础上,所述第五步骤包括:第九步骤,在该步骤中,当将指点器的光标定位在所述画面上的显示范围内的任意的点上后,判断距所述光标所处的点规定范围内是否有符号;第十步骤,在该步骤中,若在规定的范围内有符号时,利用与指定的点最近的符号对应的标识符从所述文档数据库取得表示文档概要信息;第十一步骤,在该步骤中,在距所述光标所处的点规定的位置上显示窗框,将从文档数据库中得到的表示文档的概要的信息在窗框内显示。
第二十手段的特征在于,在第十四或第十五手段的基础上,所述第五步骤包括:第十二步骤,在该步骤中,在所述画面上的显示范围内设定所需的区域;第十三步骤,在该步骤中,判断所述区域内是否有所述符号;第十四步骤,在该步骤中,当所述区域内有所述符号时,选择与所述符号对应的文档。
第二十一手段的特征在于,在第十四或第十五手段的基础上,所述第五步骤包括:第十五步骤,在该步骤中,利用指点器的光标在所述画面上的显示范围内指定点后,判断距所述光标所处的点规定的范围内是否有符号;第十六步骤,在该步骤中,指定所述符号的移动后的位置;第十七步骤,在该 步骤中,在该步骤中,使所述符号的显示位置变更为被指定的移动后的位置;第十八步骤,在该步骤中,利用所述移动后的符号的显示位置,变更显示画面上的位置与文档的标识符的对应关系。
第二十二手段的特征在于,在第十四或第十五手段的基础上,所述第五步骤包括:第十九步骤,在该步骤中,表示所述拟合优度的数值以外的坐标轴至少从两个候补中选择;第二十步骤,在该步骤中,利用文档的标识符从文档数据库中获取被选作坐标轴的属性值;第二十一步骤,在该步骤中,获取与所述属性值对应的坐标轴上的数值;第二十二步骤,在该步骤中,根据与所述拟合优度及所述属性值对应的所述数值在所述画面上显示所述文档的符号。
第二十三手段的特征在于,将第十四至第二十二手段中任一项所述的文档检索程序存储于计算机可读取的纪录介质上。
在后述的实施形态中,例如文档数据库与数据库管理部1对应,检索要求输入手段与检索要求输入部2对应,检索结果显示手段与用户接口3对应,扩展词抽出手段与扩展词抽出部4对应,坐标平面显示手段与坐标平面显示部6对应,坐标平面显示手段6从硬件上来说相当于终端的显示画面。另外,第一工序及步骤与步骤S101对应,第二工序及步骤与步骤S105、步骤S201~S207对应,第三工序及步骤与步骤S301、S302对应,第四工序及步骤与步骤S401~S403对应,第五工序及步骤与步骤S105、S206及图5对应,第六步骤与步骤S201对应,第七步骤与步骤S202至步骤S205对应,第八步骤与步骤S206对应,第九步骤与步骤S501及S502对应,第十步骤与步骤S503对应,第十一步骤与步骤S504对应,第十二步骤与步骤S601对应,第十三步骤与步骤S602对应,第十四步骤与步骤S603对应,第十五步骤与步骤S701、S702对应,第十六步骤与步骤S703对应,第十七步骤与步骤S704对应,第十八步骤与步骤S705对应,第十九步骤与步骤S801对应,第二十步骤与步骤S802~S804对应,第二十一步骤与步骤S805对应,第二十二步骤与步骤S806对应。
按照本发明,能提供一种文档检索装置,所述文档检索装置能减轻对用于适合性反馈的种子文档进行指定的作业的负担。
附图说明
图1是表示本发明的实施例1的文档检索装置整体的系统构成的功能方框图。
图2表示信息处理装置构成例。
图3是表示用户接口3的动作步骤一例的流程图。
图4是表示坐标平面显示部的动作步骤一例的流程图。
图5是表示坐标平面显示部所制作画面的显示例图。
图6是表示使用者选择文档时的选择动作处理例的流程图。
图7是表示扩展词的抽出和选择的处理步骤一例的流程图。
图8是实施例2的利用坐标平面显示部在终端的显示画面上所显示的显示例。
图9是实施例3的坐标平面显示部的显示画面上的显示例。
图10是表示实施例3的坐标平面显示部的处理步骤一例的流程图。
图11是实施例4的指定两点,利用坐标平面显示部设定区域时的显示画面的例子。
图12是表示实施例4的由坐标平面显示部执行的处理步骤的流程图。
图13是表示实施例5的坐标平面显示部6的处理步骤一例的流程图。
图14是表示实施例8的用户接口3的坐标轴选择的处理步骤的一例的流程图。
图中,1为数据库部,2为检索要求输入部,3为用户接口,4为扩展词抽出部,6为坐标平面显示部,SY为符号。
具体实施方式
下面参照附图详细说明本发明的较佳实施例。在以下实施例中,虽然对构成要素,种类,组合,形状,相对配置等作了各种限定,但是,这些仅仅是例举,本发明并不局限于此。
实施例1
图1是表示本发明的实施例1的文档检索装置10整体系统构成的功能方框图。在该图中,本实施形态的文档检索装置基本上包括:数据库管理部1, 其用于存放文档,能检索符合某一词语的集合的文档;检索要求输入部2,其供使用者以一个或一个以上的词语或文章来指定检索要求;用户接口3,其包括座标系统显示部6及用户指令输入部7,其将数据库管理部1的检索结果向使用者提示,使用者选择其中的一部分;扩展词抽出部4,其将利用用户接口3选择出的文档用作种子文档,求出与检索要求相关度高的词语的集合。
文档检索装置10可以由任何能管理数据的装置实现,例如,具有图2所示构成的信息处理装置。参照图2,文档检索装置10包括中央处理器(CPU)101,显示装置102,输入装置103,存储器104,硬磁盘(HDD)105,介质驱动器106,通信装置107。上述各部分通过总线108连接。
CPU101控制文档检索装置10的动作,例如,按照存储在存储器104的控制程序控制文档检索装置10的动作。更具体地说,CPU101可以起着作为如图1所示的数据库管理部1,检索要求输入部2,用户接口3及扩展词抽出部4的作用。
在CPU101的控制下,显示装置102可以向用户显示各种信息,因此,其起着作为设有座标系统显示部6的用户接口3的功能。显示装置102可以由任何显示器实现,例如,液晶显示器(LCD)等。
在CPU101的控制下,输入装置103可以许可用户输入用户指示,因此,其起着作为检索要求输入部2或设有用户指令输入部7的用户接口3的功能。输入装置103可以由例如键盘,点装置(pointing device),键,按钮等实现。或者,显示装置102及输入装置103的功能可以被结合成一装置,例如,设有图线用户接口的触摸式面板屏幕。
存储器104可以存储包括控制程序的各种数据。或者,存储器104可以起着作为CPU101的工作区的功能。
HDD105可以存储大量数据,因此,其起着作为存储多个文档的文档数据库的功能。
介质驱动器106可以从记录介质读出数据或向记录介质写入数据。
通信装置107许可文档检索装置10与外部设备通过网络通信。例如,当文档检索装置10起着作为服务器功能,与委托人通信时,文档检索装置10接收来自委托人的通过通信装置107的检索要求,使得CPU101根据检索要求检索。 实行检索后,文档检索装置10通过通信装置107向委托人输出检索结果。这种场合,委托人的显示装置可以起着作为座标系统显示部6的功能,委托人的输入装置可以起着作为用户指令输入部7的功能。
如上所述,控制程序可以存储在存储器104中。或者控制程序可以从HDD105读出,或者通过介质驱动器从记录介质读出,或者通过通信装置107从外部设备读出。
在本实施例中,图1的装置可以组装成如图2所示一个设备。或者,图1的装置可以组装成多个设备,例如,构成包括通过网络连接的委托人设备及服务器设备。在文档检索系统的一实施例中,检索要求输入部2,包括座标系统显示部6及用户指令输入部7的用户接口3,以及扩展词抽出部4可以组装成委托人设备。数据库管理部1可以组装成服务器设备。
参照图1,在本发明的一实施动作中,文档检索装置10使用相关反馈方法实行检索。在本实施例中,检索要求输入部2许可用户通过用户接口3输入关键字。当输入句子时,一个或多个字可以使用公知的解析方法从句子中被抽取。当输入该关键字时,检索要求输入部2向数据库管理部1发送包含该用户输入的关键字的检索要求。
数据库管理部1取出一个或多个文档(第1取出文档),其中,各文档包含检索要求中的关键字,作为最初检索结果。在此,对于各初次取出的文档,使用任何公知方法,可以得到用于表示初次取出文档和检索要求之间相关程度的相关值。例如,可以得到初次取出文档的相关值作为如后面所述的S分。
假设用户输入一用语t作为关键字,用语t的加权系数Wt可以使用下式计算:
Wt=log(k1*N/n+k2)
其中,N表示检索而得的文档数,n表示初次取出的文档数,K1,K2表示调整参数。
在本实施例中,N对应于存储在文档数据库中的多个电子文档的数。
进一步说,在本实施例中,较好的是,参数k1及k2可以用于调整相对初次取出文档数n变化,加权系数Wt的变化。
分S可以用于作为相关值,相对各初次取出文档计算,使用用语t的加权 系数Wt,表示用语t在初次取出文档中的出现频度tf,以及调整参数k0按下式进行计算:
S=Wt*tf/k0+tf
在本实施例中,较好的是,参数k0可以用于调整与初次取出文档长度相关的频度tf。当多于一用语t被包含作为检索要求的关键字时,初次取出文档的分S可以得到作为包含在检索要求中的所有用语t的分S的总和。
在本实施例中,各初次取出文档的至少一个属性值可以得到,追加到所述相关值上。该属性值可以是与初次取出文档有关的任何种类的信息,例如,出版或作成数据,文档尺寸,文档题目,文档型式,作者名等,其可以被选择。所述一个或多个属性值可以预先存储在文档数据库中。
即,在数据库管理部1,找出含有由来自终端的检索要求指定的词语、或由检索要求指定的词语和由扩展词抽出部4抽出的扩展词中的全部或一部分的词语的文档,向用户接口3输出表示拟合优度的数值和用于剩余坐标的属性值。例如,在文档检索装置中,从数据库管理部1中储存的检索对象的文档集合检索符合由未图示的检索条件输入部输入的检索条件的文档,针对检索条件中的各项,利用调节参数来计算加权,利用该加权计算符合上述检索条件的文档的文档得分(score),将符合上述检索条件的文档进行排序,从而找出。而上述的调节参数用于对检索对象文档数、出现该项的文档数、文档数的不同引起的加权变动进行调节。该文档检索的详细内容例如记载在日本专利特开2003-281181号公报中。文档检索本身只要使用目前公知的方法即可,本实施例中没有特别的限定。
在检索要求输入部2中,例如在终端的显示画面上显示用于输入字符串的区域,使用者在该区域中输入一个或一个以上的词语。输入的字符串也可是文章,将由公知的语法分析模块切割出的单词用作词语。
在用户接口3,对于从数据库管理部1得到的各检索结果,利用表示拟合优度的数值和属性值求出两个或两个以上的坐标的值,与文档的标识符一起向坐标平面显示部6传递。图3是表示用户接口3的动作步骤的一例的流程图。即,在用户接口3中,一旦开始处理,首先从数据库管理部1作为检索结果得到文档的标识符、拟合优度和属性值(步骤S101)。然后,在还有未处理的 检索结果或没超过规定值之前(步骤S102),将检索结果一个一个取出(步骤S103),取得与属性值对应的数值(步骤S104),将文档的标识符、与拟合优度对应的数值、与属性值对应的数值交给坐标平面显示部6(步骤S105)。上述步骤S103至S105的处理一直重复到没有未处理的检索结果或处理完成的检索结果超过了规定的数为止(步骤S102)。
坐标平面显示部6从用户接口3接收文字的标识符、与拟合优度对应的数值、与属性值对应的坐标的数值,将该坐标的值进行二维投影,在投影后的画面上的位置上显示规定的符号SY。当坐标有三个时,可使用将立方体二维投影后的形状在画面上显示、或利用两组二维平面进行显示等将三维空间投影成二维的公知的方法。对坐标具有四个以上时也同样处理。
图4是表示坐标平面显示部6的动作步骤的一例的流程图。在坐标平面显示部6中,一旦开始处理,首先从用户接口3取得每个检索结果的数值的组的集合(步骤S201)。接着,对数值的组的各要素检查集合内的最大值和最小值(步骤S202)。若有未处理的数值的组(步骤S203),取出一个数值的组(步骤S204),对于数值的组的各要素进行以下计算:
(要素的值-要素的最小值)÷(要素的最大值-要素的最小值)
将通过该计算得到的0~1的数值作为与各要素对应的坐标的位置(步骤S205)。将由步骤S205得到的坐标的位置向画面上的显示范围内投影,在投影得到的位置上配置规定的符号SY(步骤S206),画面上的位置与规定的符号SY所对应的文档的标识符之间的对应由公知的联想存储来进行记录(步骤S207)。上述步骤S204至步骤S207的处理重复进行直到没有未处理的数值的组为止(步骤S203),全部处理后结束处理。
图5是表示坐标平面显示部6所制作的画面的显示例的图。显示本身是在终端的显示画面上进行的,将从用户接口3接收到的坐标的值在显示画面上二维投影,在投影得到的位置上提示、显示规定的符号SY。图5的例子中,横轴取为时间(例如发行年月日),纵轴取为拟合优度。
另外,图6是表示使用者选择文档时的选择动作的处理例的流程图。该选择动作中,当使用者进行了在坐标平面显示部6的显示范围内至少指定一个点的动作(例如点击鼠标)后,若距该点一定的范围内具有某一规定的符 号SY,则从中将至少一个与符号SY对应的文档作为所选择的文档。即,使用者利用指点器指定在显示画面5a上的显示范围内的点(步骤S301)后,检查在距指定的点规定范围内是否有符号SY(步骤S302),将该符号SY中与指定的点最近的符号SY对应的标识符送往扩展词抽出部(步骤S303)。
扩展词抽出部4将种子文档看作适合文档来进行扩展词的抽出和选择。图7是表示扩展词的抽出和选择的处理步骤的一例的流程图。在图7的流程图中,扩展词抽出部4首先将种子文档分割成单词(步骤S401),对各单词求出文档频度(步骤S402)。所谓的单词的文档频度是指含有该单词的种子文档的数量。从文档频度高的单词中选择一定数量作为扩展词(步骤S403)。分割成单词的方法可使用借助由空白划分的单位的公知的语态素分析。或使用单纯地以一定的文字数进行切割的方法。另外,也可在单词的选择中预先指定不适合检索词的单词,即使文档频度高,只要是被指定为不合适的单词就不使用。抽出的个数除了由系统进行固定的构成以外,也可由使用者从检索要求输入部2指定。
在本实施例中,也可如图5中所示那样,坐标平面显示部6所表示的显示空间是终端的显示画面的二维空间,在本实施形态中,是将拟合优度和时间作为两轴的正交坐标来进行表示的,但此外也可用二维极坐标来表示。无认何种方法,若参数增加,只要设定与此相匹配的二维空间的显示轴来进行显示即可。
这样,根据本实施例1,使用者通过上述构成从检索要求输入部2指定检索要求后,利用检索要求中含有的词语的集合进行检索,将检索结果在用户接口3上显示,使用者利用用户接口3选择检索结果的一部分时,将由扩展词抽出部4求得的相关度高的词语添加到检索要求中所含有的词语的集合中,将检索后的结果在用户接口3上显示。用户接口3包括表现至少具有两个坐标的空间的坐标平面显示部6,至少一个坐标是表示相对检索要求的拟合优度的数值,剩余的坐标是利用文档的属性计算得到的数值,针对检索结果的一部分或全部计算坐标的值,在与该计算得到值对应的坐标平面显示部6上的位置上显示规定的符号SY。这些显示实际上是在终端5的显示画面5a上显示的,输入是由来自鼠标或键盘这样的指点器进行的。
在图1中,数据库管理部1,检索要求输入部2,包含坐标平面显示部6的用户接口3以及扩展词抽出部4可以与终端分体设置,但也可全部设置在终端内。例如,可以将数据库管理部1设置在未图示的服务器内,通过网络将终端与服务器连接。
根据本实施例,可减轻指定用于适合性反馈的种子文档的作业的负担。即,使用者可利用除了拟合优度以外还考虑制作者和制作日等属性的显示画面上的分布状况来把握检索结果,可高效地指定种子文档。
另外,使用者在为了检索词扩展而指定种子文档时,由视觉接口确认拟合优度,进一步进行变更,利用视觉接口指定种子文档的集合,籍此,能提高适合性反馈进行再检索的效率。
实施例2
本实施例是将相对实施例1表示的检索结果中的符号SY作为文档信息的一部分的例子。即,本实施例与实施例1在系统构成上相同,但数据库管理部1、用户接口3及坐标平面显示部6的处理不同。
对于文档数据库1,直至利用词语的集合找到符合的文档为止的过程与实施例1相同。但除了与拟合优度对应的值、用于剩余的坐标的属性值以外,将取代符号SY所使用的文档信息交给用户接口3。
在用户接口3,将与拟合优度和属性值对应的数值交给坐标平面显示部6这一点是与实施例1相同。此外还将从数据库管理部1接收到的文档信息直接交给坐标平面显示部6。
在坐标平面显示部6,将从数据库管理部1接收到的文档信息取代图5中的符号SY进行显示。在本实施例中,该显示使用标题开头起最多十个文字的部分。图8是利用该坐标平面显示部6在终端的显示画面上所显示的显示例。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,在用于坐标的属性以外的文档信息对判断适合文档有用时,使用者可更加高效地指定种子文档。即,使用者在分布状况的基础上还可把握标题的一部分等的文档信息。由此,即使不确认文档的详细信息也可容易地判断是否是适合文档。
实施例3
本实施例是这样的例子:在用户接口3选择种子文档时,在坐标平面显示部6上,如使指点器的光标定位在与文档对应提示的规定的符号SY附近,则表示该符号SY所对应的文档的概要的信息被显示。
根据本实施例,坐标平面显示部6的处理与实施例1不同。图9是本实施例3的坐标平面显示部6的显示画面上的显示例。即,在本实施例中,相对上述实施例1的图5的显示画面,将由空心箭头表示的指点器的光标定位在某一符号SY边上时,在另一小的窗口上显示出该符号SY所表示的文档的概要的信息。图10是表示本实施例3的坐标平面显示部6的处理步骤的一例的流程图。
在实施例3中,当使用者将指点器的光标定位在显示画面上的显示范围内的点上规定时间后(步骤S501),坐标平面显示部6判断距光标所处的点规定范围内是否有符号SY(步骤S502),若有符号SY,利用该符号SY中与指定的点最近的符号SY所对应的标识符,从数据库管理部1取得表示文档概要信息(步骤S503)。接着,在距光标所处的点规定的相对位置上显示出窗框,将表示从数据库管理部1中取出的文档概要的信息作为窗口在窗框内显示。本例中显示有“利用Java(登记商标)进行数值计算”这样的标题、作者及出版社的名称。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,在仅利用坐标平面显示部6提示的信息较难判断适合文档时,通过简单的操作对文档的概要进行确认,由此,就可更加高效地指定种子文档。即,使用者只要移动指点器的光标就可把握文档的概要,即使不确认文档的详细信息也可容易地判断是否是适合文档。
实施例4
本实施例是这样的例子:在用户接口3选择种子文档时,在坐标平面显示部6上,利用指点器对围住与文档对应地被提示的一个或一个以上的规定的符号SY的区域进行指定来选择文档。
本实施例中,坐标平面显示部6的处理动作与实施例1不同。直至将检索结果用规定的符号SY进行显示为止的过程与实施例1相同。但在本实施例中, 坐标平面显示部6在选择种子文档时不是指定显示范围上的点,而是如图11所示,指定两个点,选择与由这两个点构成的长方形所围起的范围SY内的对应的文档。这样的范围指定及选择处理本身是目前一般使用的,但本实施例中将与所选择的范围内的符号SY对应的文档的标识符送往扩展词抽出部4,扩展词抽出部4将上述标识符送往数据库管理部1。在数据库管理部1,寻找包含所有或一部分由扩展词抽出部4抽出的扩展词的文档,向用户接口3交给表示拟合优度的数值和用于剩余的坐标的属性值。图11是指定两点,利用坐标平面显示部6设定区域时的本实施例4的显示画面的例子。
如上所述,该处理是由坐标平面显示部6执行的。图12是表示由坐标平面显示部6执行的本实施例的处理步骤的流程图。根据该处理步骤,使用者利用指点器在显示画面上的显示范围内指定两点(步骤S601)。接着,检查由步骤S601指定的两点构成的长方形的区域内是否有符号SY(步骤S602)。若有符号SY,将与该各个符号SY对应的文档的标识符送往扩展词抽出部4(步骤S603)。在数据库管理部1中,根据送来的标识符按上述方法进行处理。
本实施例中形成区域的形状为长方形,但也可是以两个点作为半径的圆等不同形状的图形。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,在坐标平面显示部6上相互靠近的多个文档都是适合文档时,通过作为种子文档一次性指定,能更加高效地进行种子文档的指定。
实施例5
本实施例是这样的例子:可在坐标平面显示部6上使用指点器或键盘移动与文档对应地被提示出的规定的符号SY,针对移动后的规定的符号SY进行种子文档的选择。
在本实施例中,坐标平面显示部6的处理动作与实施例1不同。直至将检索结果用规定的符号SY进行显示为止的过程与实施例1相同。但本实施例中,坐标平面显示部6与选择文档时的动作相同地,利用指点器选择一个或一个以上的规定的符号SY,通过指定移动后的位置或利用键盘的箭头键等以规定的移动宽度为单位进行移动,由此,变更所选择后的符号SY的位置。较佳的 形态是,移动后的位置仅是对应拟合优度的坐标的位置发生变化,当然也可是对应其他坐标的位置也进行移动的形态。
图13是表示进行这样的处理的实施例5的坐标平面显示部6的处理步骤的一例的流程图。在该处理步骤中,使用者利用指点器在显示画面上的显示范围内指定点(步骤S701),检查距指定的点规定范围内是否有符号SY(步骤S702),若有符号SY,使用者利用指点器或键盘来指定符号SY的移动后的位置(步骤S703)。指定后,使规定的符号SY的显示位置变更为所指定的移动后的位置(步骤S704),利用移动后的位置重新记录联想存储(步骤S705),该联想存储中记录显示画面上的位置与文档的标识符之间的对应关系。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,在一次检索时,当拟合优度高的文档中存在非适合文档时或拟合优度低的文档中存在适合文档时,使用者可直接变更坐标平面显示部6的提示内容。使用者可凭直觉来这样判断适合文档,高效地指定种子文档。即,使用者可在检索结果显示部利用视觉分离适合文档和非适合文档,高效地指定种子文档。
实施例6
本实施例是这样的例子:扩展词抽出部4将由被选作种子文档的各个文档所对应的规定的符号SY在坐标平面显示部上的位置算出的拟合优度的坐标的值用作被选择的种子文档的加权,对与拟合优度对应的坐标值大的文档中所含有的单词作为相关度高的单词进行抽出。
本实施例中,坐标平面显示部6及扩展词抽出部4的处理动作与实施例5不同。直至将检索结果用规定的符号SY进行显示为止的过程与实施例1(实施例5)相同。但在本实施例中,当坐标平面显示部6将移动后的符号SY选作种子文档时,将与移动后的位置对应的拟合优度的坐标的值作为加权,与文档的标识符一起送往扩展词抽出部4。扩展词抽出部4使用从坐标平面显示部6接收到的加权值来抽取扩展词。实施例1中表示的是采用了对文档检索进行加权的方式的例子。加权是在计算单词w的文档频度时乘上加权的值来实现的。例如,若加权值被指定为10的种子文档中含有两个单词w,则对单词w的 文档频度不是加上2而是加上10×2=20。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,不仅能将一次检索的结果区分为适合文档和非适合文档,而且对适合文档中拟合优度高的和低的文档也能利用坐标平面显示部中的位置来指定,由此,能抽取合适的扩展词,提高二次检索的精度。即,使用者可指定适合文档的符合程度,与单纯地划分适合文档和非适合文档的情况相比,可提高选择到合适相关词的可能性。
实施例7
本实施例是这样的例子:在坐标平面显示部6中,将由拟合优度表示的坐标的值分成两个以上的群或组,扩展词抽出部4针对各群使用的作为种子文档的加权值都是相同值。
在本实施例中,坐标平面显示部6的处理动作与实施例6不同。直至将规定的符号SY进行移动的部分为止与实施例1(实施例5)相同。但在本实施例中,进一步将拟合优度的坐标值分成规定数量的群,对各个群设定加权的值。坐标平面显示部6将移动后的符号SY选作种子文档时,将含有与移动后的位置对应的拟合优度的坐标值的群中所设定好的加权值与文档的标识符一起送往扩展词抽出部4。在数据库管理部1中,根据从扩展词抽出部4送来的标识符来进行上述处理。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,在利用坐标平面显示部上的位置来指定适合文档的符合程度时,不是使用坐标的值本身而是通过指定群(组)化了的大中小这样的台阶式的值,这样就不需要对移动规定符号SY的位置进行细微地调节,可提高二次检索的精度。换言之,使用者可利用大中小这样的台阶式的值来指定适合文档的符合程度,不需要对移动规定的符号SY的位置进行细微地调节就可抽出合适的扩展词,提高二次检索的精度。
实施例8
本实施例是这样的例子:表示拟合优度的数值以外的坐标至少可从两个 候补选择,在提示有规定的符号SY时切换坐标的选择,则规定的符号SY按照切换后的坐标的值被重新配置。
在本实施例中,用户接口3和坐标平面显示部6的动作与实施例1不同。直至取得检索结果为止与实施例1相同。但本实施例中,在选择了用作坐标轴的属性后从文档数据库取得属性值。坐标轴的候补少时,在获取检索结果时也可取得全部的成为候补的属性值。坐标轴的选择,例如可利用公知的列表框进行选择来实现。
图14是表示本实施例的用户接口3的坐标轴选择的处理步骤的一例的流程图。在本处理步骤中,首先,使用者从坐标轴的选择候补中选择一个(步骤S801)。然后,在还有未处理的检索结果或没超过规定的值之前(步骤S802),将检索结果一个一个取出(步骤S803),利用文档标识符从文档数据库部取得作为坐标轴所选择的属性值(步骤S804)。在取得了与拟合优度及属性值对应的数值后(步骤S805)交给坐标平面显示部6(步骤S806)。上述步骤S803至S806的动作一直重复到没有未处理的检索结果为止。
在本实施例中,是在选择了用作坐标轴的属性后从文档数据库1取得属性值的,但在坐标轴的候补较少时,在获取检索结果时也可取得全部的成为候补的属性值。另外,坐标轴的选择只要通过公知的列表框来选择规定的候补即可。
检索结果显示部6如上所述地进行处理,但直至将规定的符号SY进行移动的部分为止,坐标平面显示部6进行与实施例6相同的处理。在本实施例中,进一步将拟合优度的坐标的值分成规定数量的群(组),对各个群(组)设定加权的值。坐标平面显示部6将移动后的符号SY选作种子文档时,将含有与移动后的位置对应的拟合优度坐标的值的群(组)中所设定好的加权值与文档的标识符一起送往扩展词抽出部4。在数据库管理部1中,根据从扩展词抽出部4送来的标识符来进行上述处理。
此外,没作特别说明的各部与上述实施例1具有同等的构成,发挥同等的功能。
根据本实施例,使用者可确认坐标平面显示部可表现的空间的维数以上的属性所构成的分布状况,由此,能高效地选择种子文档。即,使用者可利 用拟合优度以外的两个或两个以上的属性高效地选择种子文档。
上面参照附图说明了本发明的实施例,但本发明并不局限于上述实施例。在本发明技术思想范围内可以作种种变更,它们都属于本发明的保护范围。

Claims (11)

1.一种文档检索装置,根据输入的检索条件从所定的文档集合中检索符合所述检索条件的文档,其特征在于:
所述文档检索装置包括:
文档数据库,具有存放文档、检索符合某一词语集合的文档的功能;
检索要求输入设备,用一个或一个以上的词语或文章指定检索要求;
检索结果显示设备,提示所述文档数据库的检索结果,能够选择所提示的检索结果的一部分;以及
扩展词抽出设备,将利用检索结果显示设备选择出的文档用作种子文档,求出与检索要求相关度高的词语的集合;
所述检索结果显示设备在从所述检索要求输入设备指定检索要求时,显示利用检索要求中含有的词语的集合实施的检索结果,从所述检索结果显示设备选择检索结果的一部分时,将由所述扩展词抽出设备求出的相关度高的词语添加到检索要求中含有的词语的集合中,并将检索结果进行显示,其中
所述检索结果显示设备包括表现至少具有两个坐标的空间的坐标平面显示设备,其中一个坐标是表示相对检索要求的拟合优度的数值,另一坐标是利用文档的属性计算得到的数值,相对检索结果的一部分或全部计算坐标的值,在与所述计算得到的坐标值对应的坐标平面显示设备的位置上显示规定的符号,并且将至少一个与规定的符号对应的文档作为所选择的文档。
2.如权利要求1所述的文档检索装置,其特征在于:
取代所述规定的符号,显示文档信息一部分。
3.如权利要求1所述的文档检索装置,其特征在于:
在所述检索结果显示设备中选择种子文档时,当在所述坐标平面显示设备上使指点器的光标定位在与文档对应地被提示的所述规定的符号上时,表示所述规定的符号所对应的文档的概要的信息得到显示。
4.如权利要求1所述的文档检索装置,其特征在于:
在所述坐标平面显示设备上利用指点器对围住与文档对应地被提示的一个或一个以上的所述规定的符号的区域进行指定,来选择种子文档。
5.如权利要求1所述的文档检索装置,其特征在于:
使在所述坐标平面显示设备与文档对应地被提示的所希望的所述规定的符号在所述坐标平面显示设备上移动。
6.如权利要求5所述的文档检索装置,其特征在于:
针对所述坐标平面显示设备上移动后的所述规定的符号选择种子文档。
7.如权利要求1所述的文档检索装置,其特征在于:
所述扩展词抽出设备将利用被选作种子文档的各个文档所对应的所述规定的符号在所述坐标平面显示设备上的位置算出的拟合优度的坐标值用作被选的种子文档的加权,对与拟合优度对应的坐标的值大的文档中含有的单词中相关度高的单词进行抽出。
8.如权利要求7所述的文档检索装置,其特征在于:
由所述拟合优度表示的坐标值分成两个或两个以上的群,所述扩展词抽出设备对各群所使用的作为种子文档的加权的值都相同。
9.如权利要求1或2所述的文档检索装置,其特征在于:
所述坐标平面显示设备的显示空间是由二维正交坐标或二维极坐标表示的空间。
10.如权利要求1所述的文档检索装置,其特征在于:
表示所述拟合优度的数值以外的坐标轴至少可从两个候补中选择,若在提示有所述规定的符号时切换坐标轴的选择,则所述坐标平面显示设备按照切换后的坐标轴的值重新配置所述规定的符号。
11.一种文档检索方法,利用计算机根据输入的检索条件从规定的文档的集合中检索符合所述检索条件的文档,其特征在于,所述文档检索方法包括:
第一工序,用一个或一个以上的词语或文章指定检索要求时,从存放文档、能检索符合某一词语的集合的文档的文档数据库中检索作为检索对象的所有的文档或规定数量的文档,将文档的标识符、拟合优度及属性值作为检索结果取得;
第二工序,提示所述文档数据库的检索结果;
第三工序,存在应该选择的文档时,从所述第二工序中所提示的检索结果中选择一部分文档;
第四工序,将在所述第二工序中提示的、或在所述第三工序中被选的文档用作种子文档,求出与检索要求相关度高的词语的集合;
第五工序,在所述第一工序中存在检索要求时,对利用检索要求中含有的词语的集合实施得到的检索结果进行显示,在所述第三工序选择文档数据库的检索结果的一部分时,将在所述第四工序求出的相关度高的词语添加到检索要求中含有的词语的集合中,并将检索的结果进行显示,其中
在所述第五工序中,设定至少具有两个坐标的空间,其中一个坐标是表示相对检索要求的拟合优度的数值,其他的坐标是利用文档的属性计算得到的数值,针对检索结果的一部分或全部计算坐标的值,在与该计算得到值对应的坐标平面显示设备的位置上显示规定的符号,并且将至少一个与规定的符号对应的文档作为所选择的文档。
CN2007101361755A 2006-07-19 2007-07-19 文档检索装置及文档检索方法 Expired - Fee Related CN101110083B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-196428 2006-07-19
JP2006196428 2006-07-19
JP2006196428A JP4972358B2 (ja) 2006-07-19 2006-07-19 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。

Publications (2)

Publication Number Publication Date
CN101110083A CN101110083A (zh) 2008-01-23
CN101110083B true CN101110083B (zh) 2011-08-17

Family

ID=38582772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101361755A Expired - Fee Related CN101110083B (zh) 2006-07-19 2007-07-19 文档检索装置及文档检索方法

Country Status (4)

Country Link
US (1) US7769771B2 (zh)
EP (1) EP1881428A1 (zh)
JP (1) JP4972358B2 (zh)
CN (1) CN101110083B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030886A1 (en) * 2007-07-26 2009-01-29 Hans Chandra Pandeya Method of determining similar attributes between one or more users in a communications network
JP4901962B2 (ja) * 2007-12-03 2012-03-21 パイオニア株式会社 情報検索装置、情報検索方法及び検索処理プログラム
JP5526396B2 (ja) * 2008-03-11 2014-06-18 クラリオン株式会社 情報検索装置、情報検索システム及び情報検索方法
JP4518165B2 (ja) * 2008-03-11 2010-08-04 富士ゼロックス株式会社 関連文書提示システム及びプログラム
CA2757771A1 (en) * 2009-04-08 2010-10-14 Google Inc. Similarity-based feature set supplementation for classification
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
CN102483744A (zh) * 2009-05-07 2012-05-30 Cpa软件有限公司 检索电子文献集合的方法、系统及装置
KR101072691B1 (ko) * 2009-07-23 2011-10-11 포항공과대학교 산학협력단 연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체
US10748119B2 (en) * 2010-02-01 2020-08-18 Microsoft Technology Licensing, Llc Social network search
JP5552448B2 (ja) * 2011-01-28 2014-07-16 株式会社日立製作所 検索式生成装置、検索システム、検索式生成方法
US9507498B2 (en) 2011-03-31 2016-11-29 Nokia Technologies Oy Method and apparatus for discovering similar content or search results
US9021364B2 (en) * 2011-05-31 2015-04-28 Microsoft Technology Licensing, Llc Accessing web content based on mobile contextual data
US9904788B2 (en) 2012-08-08 2018-02-27 Amazon Technologies, Inc. Redundant key management
US9225675B2 (en) 2012-08-08 2015-12-29 Amazon Technologies, Inc. Data storage application programming interface
KR101766214B1 (ko) * 2012-08-08 2017-08-09 아마존 테크놀로지스, 인크. 아카이벌 데이터 저장 시스템
US20140181097A1 (en) * 2012-12-20 2014-06-26 Microsoft Corporation Providing organized content
US10558581B1 (en) 2013-02-19 2020-02-11 Amazon Technologies, Inc. Systems and techniques for data recovery in a keymapless data storage system
US9754020B1 (en) 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
US10242090B1 (en) * 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
US11080777B2 (en) 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
CN105786845B (zh) * 2014-12-23 2020-03-31 中兴通讯股份有限公司 一种提供网络资产数据的方法及装置
CN105427181A (zh) * 2015-12-23 2016-03-23 常熟市三环货物储运有限公司 一种便于运输的线缆盘具查找方法及系统
JP7400408B2 (ja) 2019-11-28 2023-12-19 株式会社リコー 検索根拠可視化システム、プログラム、および方法
CN112181982B (zh) * 2020-09-23 2021-10-12 况客科技(北京)有限公司 数据选取方法、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN1723455A (zh) * 2002-11-15 2006-01-18 皇家飞利浦电子股份有限公司 基于语义关联的内容检索

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736915A (ja) * 1993-06-28 1995-02-07 Sanyo Electric Co Ltd 情報ファイル装置
JP3850514B2 (ja) * 1997-05-13 2006-11-29 株式会社日立製作所 データベースの表示方法
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP3924894B2 (ja) 1998-02-09 2007-06-06 富士ゼロックス株式会社 文書検索装置および文書検索方法ならびに記録媒体
US6564206B1 (en) * 1998-10-05 2003-05-13 Canon Kabushiki Kaisha Information search apparatus and method, and storage medium
US6349307B1 (en) * 1998-12-28 2002-02-19 U.S. Philips Corporation Cooperative topical servers with automatic prefiltering and routing
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
JP3842545B2 (ja) * 2000-09-29 2006-11-08 日本電信電話株式会社 コンテンツ提供システムおよび提供方法
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
JP2002117043A (ja) 2000-10-11 2002-04-19 Ricoh Co Ltd 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2003281181A (ja) 2002-03-19 2003-10-03 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2004126840A (ja) * 2002-10-01 2004-04-22 Hitachi Ltd 文書検索方法、プログラムおよびシステム
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
JP4179858B2 (ja) * 2002-11-28 2008-11-12 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2005056081A (ja) * 2003-08-01 2005-03-03 Ricoh Co Ltd 文書管理装置及び記録媒体
JP2005092442A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc 多次元空間モデル表現装置および多次元空間モデル表現方法
JP5027986B2 (ja) 2004-01-27 2012-09-19 三菱電機株式会社 情報調査方法
US20050240381A1 (en) * 2004-04-26 2005-10-27 Pjm Interconnection, Llc. Systems and methods for analysis of a commodity transmission network
JP2004348768A (ja) 2004-08-24 2004-12-09 Hitachi Ltd 文書検索方法
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
US7555387B2 (en) * 2005-01-28 2009-06-30 Orbitz, L.L.C. System and method for providing travel related product information on an interactive display having neighborhood categories
US7574426B1 (en) * 2005-03-31 2009-08-11 A9.Com, Inc. Efficiently identifying the items most relevant to a current query based on items selected in connection with similar queries
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
EP1904938A2 (en) * 2005-06-28 2008-04-02 Metacarta, Inc. User interface for geographic search
US8694530B2 (en) * 2006-01-03 2014-04-08 Textdigger, Inc. Search system with query refinement and search method
US20070294240A1 (en) * 2006-06-07 2007-12-20 Microsoft Corporation Intent based search
US20080082578A1 (en) * 2006-09-29 2008-04-03 Andrew Hogue Displaying search results on a one or two dimensional graph

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1723455A (zh) * 2002-11-15 2006-01-18 皇家飞利浦电子股份有限公司 基于语义关联的内容检索
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Harald Reiterer,Gabriela Tullius,Thomas M.Mann,SiegfriedHandschuh.INSYDER - An Information Assistant for Business Intelligence.Annual International ACM-Sigir Conference on Research and Development in Information Retrieval CONF.23.2000,(CONF.23),第112-119页.
Harald Reiterer,Gabriela Tullius,Thomas M.Mann,SiegfriedHandschuh.INSYDER- An Information Assistant for Business Intelligence.Annual International ACM-Sigir Conference on Research and Development in Information Retrieval CONF.23.2000,(CONF.23),第112-119页. *
Harald Reiterer,Gabriela Tullius,Thomas M.Mann.INSYDER:a content-based visual-information-seeking systemfor the Web.International, journal on digital libraries,springer-verlag,be5 1.2005,5(1),第25-41页.
Harald Reiterer,Gabriela Tullius,Thomas M.Mann.INSYDER:a content-based visual-information-seeking systemfor the Web.International, journal on digital libraries,springer-verlag,be5 1.2005,5(1),第25-41页. *
Ian Ruthven.A survey on the use of relevance feedback for informationaccess syetems.Knowledge engineering review,Cambridge university press,18 2.2003,18(2),第1-54页.
Ian Ruthven.A survey on the use of relevance feedback for informationaccess syetems.Knowledge engineering review,Cambridge university press,18 2.2003,18(2),第1-54页. *

Also Published As

Publication number Publication date
JP2008027021A (ja) 2008-02-07
US7769771B2 (en) 2010-08-03
US20080021891A1 (en) 2008-01-24
JP4972358B2 (ja) 2012-07-11
CN101110083A (zh) 2008-01-23
EP1881428A1 (en) 2008-01-23

Similar Documents

Publication Publication Date Title
CN101110083B (zh) 文档检索装置及文档检索方法
CN101055585B (zh) 文档聚类系统和方法
CN103914504B (zh) 信息处理装置和用于生成图表的方法
EP1921573B1 (en) Knowledge discovery system
US20080313117A1 (en) Methods and Systems for Creating a Behavioral WEB Graph
US20060218140A1 (en) Method and apparatus for labeling in steered visual analysis of collections of documents
KR20120030389A (ko) 검색 결과 통합
CN106326391A (zh) 多媒体资源推荐方法及装置
JP2010507843A (ja) 個人的な音楽推薦のマッピング
US9946787B2 (en) Computerized systems and methods for generating interactive cluster charts of human resources-related documents
WO2009096799A2 (en) Analysis and visualization of a network
CN103282903A (zh) 话题提取装置和程序
Rautray et al. Document summarization using sentence features
US20150350139A1 (en) System and method for following topics in an electronic textual conversation
CN103262079B (zh) 检索装置及检索方法
US20110087773A1 (en) Contents' relationship visualizing apparatus, contents' relationship visualizing method and its program
CN107220745A (zh) 一种意图行为数据的识别方法、系统及设备
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
WO2014034383A1 (ja) 情報処理装置、レコード位置情報特定方法および情報処理プログラム
Zaïane et al. Mining research communities in bibliographical data
JP4308683B2 (ja) ユーザ活動履歴可視化・分析方法、ユーザ活動履歴可視化・分析装置、および、プログラム
JP6015777B2 (ja) 秘匿化データ生成方法及び装置
CN105975508B (zh) 个性化元搜索引擎检索结果合成排序方法
JP5023453B2 (ja) タスク場生成支援装置、プログラム、および方法
JP2006215675A (ja) データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110817

Termination date: 20190719