WO2009154153A1 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
WO2009154153A1
WO2009154153A1 PCT/JP2009/060784 JP2009060784W WO2009154153A1 WO 2009154153 A1 WO2009154153 A1 WO 2009154153A1 JP 2009060784 W JP2009060784 W JP 2009060784W WO 2009154153 A1 WO2009154153 A1 WO 2009154153A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
formula
document
expression
search result
Prior art date
Application number
PCT/JP2009/060784
Other languages
English (en)
French (fr)
Inventor
野崎康行
Original Assignee
日立ソフトウエアエンジニアリング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立ソフトウエアエンジニアリング株式会社 filed Critical 日立ソフトウエアエンジニアリング株式会社
Priority to CN2009801232751A priority Critical patent/CN102067124A/zh
Priority to EP09766601.0A priority patent/EP2315135B1/en
Priority to US12/999,521 priority patent/US8407232B2/en
Publication of WO2009154153A1 publication Critical patent/WO2009154153A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Abstract

検索システムを用いて目的の文書を収集する時において、効率的・直感的に所望の文書を収集するための文書検索システムを提供することを可能とする。検索結果の一覧表示と共に、新たな検索式の候補およびその検索式で得られたヒット件数を提示する。具体的には、検索キーワードの関連語を集めた関連語辞書と、入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値を表示部に同時に表示する検索結果表示処理部と、を備える。

Description

文書検索システム
 本発明は、文書検索システムに関し、例えば、膨大な文書DBから目的の文書を収集することを支援するための文書検索システムに関する。
 インターネット上あるいはイントラネットやファイルサーバ上に蓄積された膨大な文書DBの中から目的とする文書を探し出したいとき、検索キーワードを入力することによって検索を行う検索技術はよく使われる強力な手段である。インターネット上で検索を行う場合、予め目的とする文書が特に定まっていない、ある特定のテーマに関する過去の知見や関連情報の収集のために行われることが多い。そのため、ユーザは、自分が希望する文書に匹敵する検索キーワードを予想し、その入力の仕方を工夫しながら検索を繰り返し、有用な情報を見つけ出す。一方、イントラネット上やファイルサーバ上での検索や、クライアントパソコン内の検索を行う場合は、検索対象である文書の存在自体が予め分かっていることが多く、ユーザは、それを見つけ出すためのキーワードを与えて検索を実行する。例えば1年前にA社に送った提案資料を参照したいときは、「A社」、提案内容、または資料の送信者などをキーワードとして与え、検索を行う。
 近年では企業の監査対応で、企業内サーバ内の文書検索が行われることが多い。この場合、監査人や企業内監査部門など、監査対象部門の外部の人間か、またはこれら外部の人間の指示・指摘を受けた内部の人間が該当文書の検索を実行する。つまり、実際に検索を実行する人間は、該当文書の作成者ではないことが多く、従ってファイルサーバのどこにどのような文書があるかすぐには分からない。また、該当文書が複数ある場合には、監査の性質上、それらを取りこぼしなく探すことが求められる。
 ところで、一般的な検索システムでは、一つまたは複数の検索キーワードを入力し、それらのキーワードを文書中に全て含むもの(論理積またはAND検索)、どれか含むもの(論理和またはOR検索)、あるいはどれも含まないもの(否定またはNOT検索)などの論理演算を入れることが可能である。これによってユーザの期待する文書群の対象により近づけることができる。また、キーワードAとBのどちらかを含み、かつCを含むものといった、論理演算の組合せによる高度な検索も多くの検索システムでサポートされている。更に、ヒットした検索結果の一覧表示においては、ファイル名(またはWebページのタイトル)に加えて、検索キーワードの前後を含む文章を2~3行で表示する検索システムもある。
 しかし、このような検索技術を用いて実際に関連文書を収集する場合には、いくつかの問題が生じる。例えば監査人が予算資料を収集したいとして、検索システム上で「予算」のキーワードを指定して検索をする場合を考える。このとき監査人が参照したい文書に「予算」のキーワードが使われておらず、代わりに「予実算」や「事業計画書」という言葉が使われている場合、検索にヒットしない。すなわち、このような「予算」の類義語や「予算」の概念を包含する言葉を検索の利用時に思いつかなければ、情報の取りこぼしが発生してしまう。一方、キーワード「予実算」と「事業計画書」を思いつき、「予算」「予実算」「事業計画書」のどれかを含むように検索対象の範囲を広げたとする。しかしその結果、何千・何万件の検索結果が提示されれば、ユーザの望まない文書も多く含むことがあり得るし、全てに目を通すのは現実的に不可能となる。あるいは、監査人が参照したい文書は、「予算」「予実算」「事業計画書」のいずれのキーワードも使用していない可能性もある。つまり、取りこぼしのない(または少ない)関連文書の取得といえども、検索にヒットする文書が多すぎる場合には、ある程度の絞込みを行うことで適当な件数で抑えるのが現実的である。反対に、検索にヒットする文書が無い場合や少なすぎる場合には、ユーザが入力した検索キーワードから連想するようなキーワードを提案し検索可能性を広げる必要がある。
 このような、目的とする内容を多く含み、しかも適当な検索ヒット件数になるような検索キーワードの選び方については、従来から様々な技術・方法が検討されている。目的とする内容を多く含ませるために、例えば特許文献1では、検索キーワードに属性をつけることによって、“天候”“天気”のように同一の意味を持ちながらもキーワードが異なると検索できなかった従来の問題を回避している。また特許文献2では、操作者が入力した検索キーワードに関するシソーラスを参照し、キーワードの上位概念または下位概念、動作目的語を考慮して、操作者が暗黙的に意図した検索条件式を自動的に生成する手段を提供している。適当なヒット件数になるような検索式の生成に関しては、特許文献3や特許文献4によって、検索キーワードの追加・削除・同義語による展開などを繰り返すことで、その検索式によって得られるヒット件数を逐次表示する方式が提案されている。これらの方式では、検索式だけでなく、検索式に含まれる各検索キーワードが検索結果中に何件ヒットしたかも表示する。また特許文献5では、関連文書を検索したい文書を選択すると、予め定めた基準検索件数に最も近いヒット件数となるような検索式を動的に変化させながら自動的に生成する方式を提案している。
特開平6-187374号公報 特開平5-250411号公報 特開平5-314182号公報 特開平11-15841号公報 特開2005-100136号公報 特開2006-12078号公報
 しかしながら、特許文献1から特許文献4の技術では、ユーザが入力した検索キーワードおよび論理演算を基に、検索ヒット件数を参照しながら適切な検索式を生成するため、ユーザの検索目的が明確で、検索式から得られる検索結果に対して確固たるイメージが前もってある場合には有効だが、検索したい対象が明確に定まっていない場合や、検索したいものを表す適切なキーワードが思いつかない場合には、対応することができない。例えば、監査で人材育成に対する活動報告を求められた場合、どのような検索キーワードで調べたらよいのか見当をつけにくい。この場合、検索キーワード「人材育成」を用いても求めるものは見つかりにくく、「教育」や「実習」の方がより望ましいであろう。このような漠然とした対象に対しては、具体性のあるキーワードが分からないので、従来技術では関連文書を収集することが困難である。
 また特許文献3や4では、検索式を作る過程で、同義語による置き換えなど検索キーワードの提示を行い、ユーザにターゲットを絞り込みやすくさせているが、それらの候補となるキーワード間の関係を詳細に知ることができない。例えば特許文献3では、キーワード「情報」が含まれる文書20568件のうち、「検索」が含まれるのは9321件、「媒体」が含まれるのは7566件あることを示している。しかし、この方式を使う上では、「検索」が含まれる文書の集合と「媒体」が含まれる文書の集合とが何件オーバーラップしているかなどは、検索を実行するまでわからない。これを知るには、「情報」と「検索」と「媒体」のAND検索を行って、件数を調べる必要がある。
 図1は、特許文献3を用いて、これらのキーワードの関係を調べたときの一例である。「情報 AND 検索」と「媒体」とのAND検索で、「媒体」が7566件ヒットしていれば、「媒体」が使われているときはいつも「情報」と「検索」が使われていることがわかる。すなわち、「媒体」と「情報や検索」は言葉のイメージが近い概念であることがわかる。逆に0件ならば「媒体」と「検索」が相反する概念のキーワードであることがわかる。従来はこのような相関がわからなかったために、検索対象を絞り込むときに、検索キーワードの追加や削除を繰り返し行う必要があった。従来技術ではこのような、量的な知見(何件ヒットするか)と質的な知見(どのようなキーワードの文書群が存在し、どのような傾向があるのか)について、予め知る術がなかった。
 また特許文献5では、予め指定したヒット件数に近くなるように自動的に検索式を組み立てることができるが、そもそも全ヒット件数のうち何件に絞れば適当数と言えるのか、ユーザは知る術はない。例えば参照したい関連文書を100件と指定していても、そのうちの10件でユーザにとっては十分である場合もあるし、300件なければ関連文書の全体を網羅しているとは言えない場合もある。
 本発明は上記問題に鑑みてなされたものであり、検索システムを用いて関連文書を収集する時において、効率的・直感的に所望の文書を収集することのできる文書検索システムを提供する。
 本発明の文書検索システムは、検索結果の一覧表示と共に、新たな検索式の候補およびその検索式で得られたヒット件数を提示する。
 すなわち、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、検索キーワードの関連語を集めた関連語辞書と、入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、入力された第一の検索式の検索結果中に頻繁に出現する頻出キーワードを用いて新たな検索式である第二の検索式を生成する連想キーワード検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、入力された第一の検索式に含まれる複数の検索キーワードの一部を除いて新たな検索式である第二の検索式を生成する部分検索式作成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、上記文書検索システムにおいて、前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする。
 本発明の検索システムによれば、関連文書を収集する時において、検索結果の一覧表示と共に、次の検索式の候補およびその検索式で得られたヒット件数を提示することで、ユーザが効率的・直感的に所望の文書を収集することができる。
検索キーワードの関係性を表す図である。 本発明の実施の形態に係る検索システムの概略図である。 関連語辞書のデータ構造の一例である。 本発明の処理の流れを示すフローチャートである。 発明の検索システムの初期画面の例である。 検索結果の一覧表示と、関連語を用いた検索式候補を提示する画面の例である。 検索結果の一覧表示と、検索結果の頻出キーワードを用いた検索式候補を提示する画面の例である。 検索結果の一覧表示と、検索キーワードを除外することで作られた検索式候補を提示する画面の例である。
 以下、図面を参照し、本発明の実施の形態に係る文書検索システムについて説明する。尚、本実施形態は本発明を実現するための一例にすぎず、本発明の技術的範囲を制限するものではない。
 <文書検索システムの構成>
 図2は、本発明の一実施形態として構築される、文書検索システムの内部構造を概略的に示した構成図である。このシステムは、検索対象となる文書が蓄積された文書DB201、文書のインデックス情報が蓄積された文書インデックス202、関連語の関係を集めた関連語辞書203、検索結果や検索式の候補等を表示するための表示装置204、検索キーワードの入力やメニューを選択するなどの操作を行うためのキーボード205とマウスなどのポインティングデバイス206、必要な演算処理、制御処理等を行う中央処理装置207、検索結果を一時的に保存するためのメモリ214、を備える。ここで文書DB201は、インターネット上のWeb文書の集合のような、実体がネットワーク上にあるものも対象とする。さらに文書DB201は、DBとしての実体が物理的に一つではなく複数である場合も対象とする。文書インデックス202は入力された検索式から求める文書を高速に探すためのもので、その具体的な形は、形態素と文書DB201内の実際の文書との関連付け(形態素解析による検索アルゴリズムの場合)や、N文字の文字列片と文書DB201内の実際の文書との関連付け(N-gramによる検索アルゴリズムの場合)がある。検索実行時には、文書インデックス202を用いて検索式に適合するものを探し出し、検索結果の表示画面上で実際の文書への関連付けを行う。文書DB201・文書インデックス202・関連語辞書203は、ローカルのPC内に存在しても、ネットワーク上に存在しても構わない。
 <中央処理装置の構成>
 中央処理装置207は、入力された検索式に従って文書インデックス202を用いて検索を実行する検索実行部208、検索結果の一覧および検索対象を調整するための検索式の候補を表示する検索結果表示処理部209、検索式に含まれるキーワードの関連語を用いて検索式を生成する関連語検索式生成処理部210、検索結果の文書群に多く含まれる語句を用いて検索式を生成する連想キーワード検索式生成処理部211、複数のキーワードからなる検索式の場合に一つまたは複数のキーワードを取り除いて新たに検索式を生成する部分検索式生成処理部212、検索結果の関係をベン図で表示するベン図描画処理部213、を備える。また上記処理部・実行部および上記処理部・実行部で使用するプログラム・データ等は、CD-ROM、DVD-ROM、MO、フロッピーディスク(登録商標)、USBメモリ等の記録媒体に格納して提供することもできる。
 <関連語辞書の構成>
 図3は関連語辞書203に含まれるデータの一例である。データは、キーワード301とキーワードに関連する用語を集めた関連語302の組で構成される。関連語は、検索システムの対象に合わせて定義しておくことを想定している。典型的には、303に示すキーワード“文書”に対する“ドキュメント”のような同義語や、304に示すキーワード“第1設計部”に対する“○△事業部第1設計部”または“1設”のような正式名称、略称である。その他にも、305に示すキーワード“2007年”に対する“平成19年”および“H19”など年号の表記の違い、306に示すキーワード“center”に対して“centre”のような表記上のゆれ、あるいは誤記、スペルミスなども含まれる。また、307に示すキーワード“人材育成”に対する“教育”“実習”“研修”のような同義語ではないが関連性が強い言葉、308に示すキーワード“東京”に対する“関東”、309に示すキーワード“肉”に対する“牛肉”“豚肉”“鶏肉”など互いに包含関係にある言葉(上位・下位概念にある言葉)も含まれる。この関連語辞書としてインターネット上のシソーラス辞書を用いる形態もありうる。
 <文書検索処理>
 次に、上記のように構成された本実施形態の文書検索システムにおいて行われる処理について図4を用いて説明する。図4は、文書検索システムによる処理の流れを概略的に示すフローチャートである。
 ステップ401では、検索実行部208が、ユーザによって選択された検索式生成方法を受け付ける。検索式生成方法とは、本検索システムが「検索結果から検索対象を更に絞り込む(または変更する)ための検索式の候補」を生成する方法であり、どのような情報に基づいて生成するかによって、次の3つの方法がある。1つ目は関連語の情報を用いて検索式を生成する方法、2つ目は検索結果の文書群の中に頻出するキーワードを使って検索式を生成する方法、3つ目は検索式のキーワードを一部除くことによって検索式を新たに生成する方法、である。ユーザによって検索式生成方法が選択される際の、インターフェイスとなる画面表示については、図5を用いて後述する。
 ステップ402では、検索実行部208が、ユーザによって本システムに入力された検索式Sに従って、文書インデックス202を用い、検索を実行する。このとき必要であれば、検索実行前に、形態素解析を用いて検索式Sに含まれる単語の区切りに空白を挟む分かち書きや、助詞の削除等の前処理を行う。また、検索式Sが英語で書かれているのであれば、前置詞や接続詞の削除等の前処理を行う。以下のステップ403~407では、上述した3つの検索式生成方法のそれぞれの場合について、どのように、検索対象を絞り込む(または変更する)ための新たな検索式Rの候補を生成するか説明する。
 ステップ403、404では、検索実行部208が、ステップ401において関連語を用いて検索式を生成する方法を受け付けた場合、関連語検索式生成処理部210は、ステップ402において入力された検索式Sに含まれる各検索キーワードの関連語があるか、関連語辞書203を参照しながら調べる。もし関連語があれば、キーワードとその関連語とを論理演算(ANDやOR)でつなげて、新たに検索式Rを生成する。例えば、検索式Sが「X AND Y」であり、キーワードXの関連語としてZがあれば、検索式Rは「(X AND Z) AND Y」、「(X OR Z) AND Y」および「Z AND Y」となる。また、検索式Sに含まれるキーワードが「X」のみであり、キーワードXの関連語としてZがあれば、検索式Rは「Z」、「X AND Z」および「X OR Z」となる。このように論理演算を組合せてすべての場合の検索式Rを列挙する。もし関連語がない場合や、関連語があってもその関連語が検索式に含まれている場合(例えば、検索式Sが「X AND Y」であって、キーワードXの関連語がYである場合)は、関連語に基づいた検索式Rは生成できないので何も行わない。
 ステップ405、406では、検索実行部208が、ステップ401で検索結果の文書群の中に現れる頻出キーワードを用いて検索式を生成する方法を受け付けた場合、連想キーワード検索式生成処理部211は、ステップ402で実行した検索結果の文書群の間で頻繁に現れるキーワードを抽出する。このとき抽出した頻出のキーワードの中に、検索式Sに含まれるものがあれば除外する。検索結果の文書群から抽出した特徴的なキーワードを用いた検索は「連想検索」とよばれており、本実施形態でも用いられている。例えば、特許文献6で連想検索技術が使われているが、本発明でも同様に、文書インデックス202を用いて、検索結果の文書間で使われる特徴的なキーワードを抽出し、それを用いて検索を行う。連想キーワード検索式生成処理部211は、連想検索で抽出されたキーワードと検索式Sとを論理演算でつなげて新たに検索式Rを生成する。頻出キーワードが多数ある場合は、頻出数に応じて選んだ上位数個のキーワードと検索式Sとをつなげるという利用も考えられる。
 ステップ407では、検索実行部208が、ステップ401でキーワードの除外による検索式の生成する方法を受け付けた場合、部分検索式生成処理部212は、検索式Sに含まれる複数のキーワードのうちのいくつかを除いた形で検索式Rを生成する。ここで、除くキーワードとしては、検索式Sに現れる全てのキーワードの中の全ての組み合わせを対象とする。除外キーワードを除いた結果、検索式Rの検索条件が検索式Sの検索条件より広い検索範囲になる(検索ヒット件数が増える)ようにRを構成する。より具体的には、キーワードがANDとORで結ばれている場合はANDとキーワードを取り除き、キーワードがANDでのみ(またはORでのみ)結ばれている場合はAND(またはOR)とキーワードを取り除く。例えば検索式Sが「X AND Y OR Z」であれば、検索式Rは「Y OR Z」(Xを除いたとき)、「X OR Z」(Yを除いたとき)、「X AND Y」(Zを除いたとき)、「X」(YとZを除いたとき)、「Y」(XとZを除いたとき)、「Z」(XとYを除いたとき)、となる。検索式Sがひとつのキーワードのみを含むのであれば、検索式Rは生成できないので何も行わない。
 前記ステップ404、ステップ406、またはステップ407で、検索実行部208が検索式Rを生成できないと判断した場合は、ステップ408からステップ409へ移動する。ステップ409では、検索結果表示処理部209が、ステップ402で実行した検索結果を表示する。その後、後述するステップ416に移動する。
 一方、前記ステップ404、ステップ406、またはステップ407で、関連語検索式作成処理部210、連想キーワード検索式作成処理部211、または部分検索式作成処理部212が検索式Rを生成した場合は、ステップ408からステップ410へ移動する。ステップ410では、検索実行部208が、その検索式Rに従って検索を実行する。
 ステップ411では、検索実行部208が、検索式Rのヒット件数、および検索式Rのヒット件数と検索式Sのヒット件数とを比較したときの増減値を算出する。
 ステップ412では、検索結果表示処理部209が、以上の情報をもとに、検索式Sの検索結果、検索式Rの検索式およびその検索式で得られるヒット件数、検索式Rのヒット件数と検索式Sのヒット件数とを比較したときの増減値を表示する。検索式Sによる検索結果を一覧で表示する際には、文書の重要度に応じた順に表示する。この表示順を決めるアルゴリズムについては、文書と検索式をともに単語の集合からなるベクトルとして捉えてベクトル間の類似度を元に決定するTF-IDF、Webページのリンク構造を用いて人気度合いを測るPageRank、このPageRankの改良版であるSubject-Specific PopularityやHITS、ページ間のリンク構造ではなくページ内の意味のあるブロック同士のリンクで重要度を算出するBlock-level Link Analysis、ページ内の重要なコンテンツの場所を考慮したVision-based Page Segmentation Algorithmなどが知られている。
 ステップ413では、ベン図描画処理部213が、検索式Rで得られる検索結果の関係を、ベン図によって図示する。ベン図には、ヒット件数を反映した領域面積が図示され、各領域内には検索結果の件数が表示される。ベン図の表示方法は、ステップ401で、検索実行部208がどの検索式生成方法を受け付けたかによって、次の3つに分けられる。(1)関連語を用いて検索式を生成する検索式生成方法を受け付けた場合、関連語ごとの検索結果の違いが分かるように描く。具体的には、検索式Sに関連語を有する検索キーワードが含まれている場合、検索式Sから検索キーワードを除いた検索式の検索結果の集合と、検索キーワードの検索結果の集合と、検索キーワードの関連語の検索結果の集合との相互関係を図示する。例えば、検索式Sが「K AND X AND Y」、関連語を有する検索キーワードが「K」、関連語が「K’」であった場合、検索式「X AND Y」と「K」と「K’」の検索結果の関係をベン図で図示する。また、検索式Sがひとつのキーワード「K」からなる場合でキーワード「K」に関連語「K’」がある場合、{検索式Sから検索キーワードを除いた検索結果}が定義できない。この場合はキーワード「K」と「K’」との関係をベン図表示する。
(2)検索結果の文書群の中に現れる頻出キーワードを用いて検索式を生成する検索式生成方法を受け付けた場合、頻出キーワードを用いた検索がどのように検索結果に関係するか(検索対象を絞り込めるか)分かるように描く。具体的には、検索式Sの検索結果の集合と頻出キーワードで検索したときの検索結果の集合との関係を図示する。
(3)検索式のキーワードを一部除くことによって検索式を生成する検索式生成方法を受け付けた場合、元の検索式Sと検索式Sのキーワードの一部が除外された検索式Rとの関係を図示する。
 また、A1,…Anを有限集合としたとき、次の包除原理
Figure JPOXMLDOC01-appb-M000001

と、ド・モルガンの法則
Figure JPOXMLDOC01-appb-M000002

を組合せれば、各領域内の検索結果の件数を再帰的に計算することが可能である。
 ここで|A|は集合Aの個数(基数)とし、A∪Bは「A OR B」、A∩Bは「A AND B」、
Figure JPOXMLDOC01-appb-M000003

は「NOT A」のことを指すこととする。
 またベン図は、一般的に三つの分類間の関係を表示することが多いが、何個の分類間の関係であっても表示可能である(参考:Frank Ruskey, Carla D. Savage, and Stan Wagon. "The Search for Simple Symmetric Venn Diagrams" Notices of the AMS 53 (11): 1304-1311)。しかし、多数の分類間の関係を表示すると図が複雑になるので、例えば後述する図6のように、ユーザによる表示項目の選択に応じて、分類間の関係を図示するなどの利用形態も考えられる。
 ステップ414、415では、ステップ412で表示された検索式Rを見たユーザが、その検索式Rを用いた検索結果の表示を望んだ場合、検索実行部208は、ユーザが選択した検索式Rを検索式Sとして置き換え、ステップ403から処理を続ける。ここで新しい検索式Sの検索結果としては、ステップ410で得られたものとなる。また、二回目以降に実行されるステップ412では、この検索結果の一覧を表示する際に、新たに増えた検索結果の文書について、違いを分かりやすくするための強調表示を行う利用形態も考えられる。
 ステップ416、417では、ユーザが検索式Sを編集し、新しい検索式で再実行する場合、検索実行部208は、編集後の検索式に従って検索を実行する。編集後の検索式を改めてSとおき、ステップ403に戻って処理を続ける。また、ユーザが検索式Sを編集して検索を再実行しないならば、処理を終了する。
 <文書検索システムの初期画面表示例>
 図5は本システムの初期画面表示の例を示した図である。初期画面には、検索式を入力するための検索式入力用テキストボックス501と、検索結果に対して検索対象を絞り込む(または変更する)ための検索式生成方法選択メニュー502がある。検索式生成方法選択メニュー502では、関連語にもとづいて生成する方法、検索結果の文書群に現れる頻出キーワードを用いて生成する方法、検索式の中のキーワードを一部除外しての生成する方法の3つを、ラジオボタンで選択できるようになっている(図4のステップ401)。ユーザは、これらの項目または設定を入力し、検索実行ボタン503を押下すると、検索が開始される(図4のステップ402)。以下、人材育成に関する活動報告に対して、文書DB201から文書を収集することを例にとり説明する。
 <関連語を用いた検索結果の画面表示例>
 図6は、検索結果の一覧および関連語を用いた検索式候補の一覧の画面表示の例を示したもので、図5の検索実行ボタン503が押下された結果、現れるものである。
 検索結果一覧ペイン601には、検索式とヒット件数が表示され、その下に検索結果の一覧が表示される。検索でヒットしたそれぞれの文書のタイトルの傍には、文書内の検索キーワードを含む文章が表示される。ユーザはこれらのタイトルや文章をみて、検索結果がユーザの期待していたものかどうかを判断する。
 検索式候補表示ペイン602には、検索対象を調整するための検索式の一覧が表示される。このペイン602の上部には、検索式生成方法メニュー603でどの基準に従って検索式が生成されたかが表示される。図6の関連語の基準に従った検索式の生成では、メニュー603の下に、入力検索式に関連する語句の一覧が表示される。すなわち、入力検索式に含まれる検索キーワードが、関連語辞書203のキーワード301として登録されていれば、対応する関連語302が表示される。そして、それらの関連語を用いた新しい検索式の一覧と、その新しい検索式で得られる検索結果のヒット件数、および新しい検索式の検索結果のヒット件数と元の検索式の検索結果のヒット件数とを比較したときの増減値が表示される。ユーザが、検索式の傍にある検索実行ボタン604を押下すると、対応する検索式のもとで検索が実行される。
 ベン図表示ペイン605には、ユーザが入力した検索式の検索結果のヒット件数と検索式候補表示ペイン602で提示された関連語の検索結果のヒット件数との相関関係がベン図で表示される。ベン図内の文書集合は、ユーザが関連語選択メニュー606で選択したキーワードに対する検索結果である。このメニュー606には、ユーザが入力した検索式から得られた関連語の一覧と、それぞれのヒット件数、およびチェックボックスが表示され、ユーザがこのチェックボックスにチェックをしたキーワードに対して、対応する検索結果のベン図表示が行われる。ベン図表示ペイン605に示すとおり、各領域にはヒット件数が表示される。例えば、「人材育成 AND 教育」は2件、「教育」は2142件、「人材育成」は12件であるので、「教育」と「人材育成」の重複する領域に2件と表示される。また、ヒット件数は、破線あるいは実線で囲まれた各領域に係る部分のみを表示している。例えば、「人材育成」の全12件のうち、「教育」と重複する領域には2件、その他の領域には10件、と表示される。
 検索式入力ペイン607には、検索式入力用テキストボックス608、およびこのテキストボックス608の検索式を実行するための検索実行ボタン609がある。ベン図表示ペイン605のベン図表示で、ユーザが領域を選択すると、その選択領域の部分を抽出するような検索式が自動的に検索式入力用テキストボックス608に入力されるという利用形態も考えられる。また、ユーザが検索対象に対する検索キーワードが不適当と判断し、検索式を書き換えたい場合や、新規に検索式を入力したい場合は、検索式入力用テキストボックス608へ新たに異なる検索式を入れて実行する。
 このような発明によって、ユーザが検索キーワードに関する関連語を意識しなくても(または、関連語が思い出せなくても)、関連語を用いた検索式(第二の検索式)が自動的に提示されるので、ユーザは期待する文書群を取りこぼしが少ない形で収集することができる。
 また、第二の検索式で検索した場合の検索ヒット件数、および第二の検索式と元の検索式(第一の検索式)とを比較したヒット件数の増減数も同時に表示されるので、ユーザは適切な数で文書を収集するための判断が出来る。たとえば、ユーザが現実的に閲覧できる検索結果が数10件~100件である場合に、「この検索キーワードを追加すればヒット件数が千件以上になるので別のキーワードを考えよう」とか、「この検索キーワードを追加してもヒット件数が3件しか増えないので、それぐらいなら追加しよう」といった判断を行える。
 また、第一の検索式に、その検索式に含まれる検索キーワードの関連語を追加したときに、検索結果の傾向や特徴を、検索実行前に確認することが出来る。すなわち、次にどのような関連語を用いて検索を実行すればよいのかを容易に判断できる。たとえば図6の場合、「人材育成」のキーワード検索の結果は少ないこと、人材育成の活動に関しては「教育」の検索結果に多くの関連文書があるかもしれないこと、「教育」の検索結果には大量の文書が含まれていること、などがわかる。
 さらに、ベン図表示によって、検索キーワード間および検索キーワードと関連語との関係を把握でき、適切なキーワードの組合せ、および、組み合わせた検索式によるヒット件数が視覚的に理解できる。
 <頻出キーワードを用いた検索結果の画面表示例>
 図7は、検索結果の一覧と検索結果の頻出キーワードによる検索式候補の一覧の画面表示例である。これは、図6の検索式生成方法メニュー603で「検索結果の文書群に現れる頻出キーワードを用いて生成」を選択し、検索式を「人材育成 OR 教育」として検索を実行した画面である。
 検索結果一覧ペイン701には、図6と同様、検索式とヒット件数が表示され、その下に新しい検索式「人材育成 OR 教育」の検索結果の一覧が表示される。前回の検索結果から新たに増えた文書については、強調表示される(図7の星印が付された箇所)。このような発明によって、ユーザはどのような文書が増えたかを直接的に理解でき、第二の検索式の効果が容易にわかる。
 検索式候補表示ペイン702には、検索対象を調整するための検索式候補の一覧が表示される。ここでは、検索結果の文書群に現れる頻出キーワードを用いて生成することが、検索式生成方法メニュー703で選択されている。また、実際の検索結果に現れる頻出キーワードは、検索式生成方法メニュー703の下に提示されている。
 ベン図表示ペイン704には、図6と同様に、ユーザが入力した検索式の検索結果のヒット件数と検索結果に現れる頻出キーワードとの相関関係がベン図で図示される。
 このような発明により、検索結果の頻出キーワードを用いた検索式(第二の検索式)が自動的に提示されるので、ユーザが所望する文書群を効率的に収集することができる。
 また、頻出キーワードを用いた検索式について、検索ヒット件数およびヒット件数の増減数も同時に表示されるので、ユーザは適切な数で文書を収集することが出来る。
 また、ユーザは入力した検索式の検索結果内にどのようなキーワードが頻出しているのかを容易に理解できる。たとえば、図7の場合、検索式「人材育成 OR 教育」の検索結果には「講座案内」の通知や、「受講完了通知」の連絡や、「新人」の教育に関する文書が多く含まれていることが俯瞰できる。
 さらに、ベン図表示によって、元の検索式(第一の検索式)の検索結果と頻出キーワードの関係を把握でき、適切なキーワードの組合せ、および、組み合わせた検索式によるヒット件数が視覚的に理解できる。たとえば、図7の場合、キーワード「受講完了通知」を含む文書は必ず「人材育成」または「教育」のキーワードが入っていること、「講座案内」と「受講完了通知」が同時に含まれる文書は存在しないこと、などがわかる。したがって、ユーザが人材育成に関する活動報告を収集する場合においては、講座案内の文書は関係がなさそうなので収集対象から省こうという判断ができる。それに対し、「受講完了通知」や「新人」などのキーワードは、人材育成の活動と関係がありそうなので、収集対象に入れておこうという判断ができる。
 <キーワードを一部除外することによる検索結果の画面表示例>
 図8は、検索結果の一覧と検索式の中のキーワードを一部除外することによる検索式候補の一覧の画面表示例である。これは、図7の検索式生成方法メニュー703で「検索式の中のキーワードを一部除外して生成」を選択し、検索式を「(人材育成 OR 教育)AND (受講完了通知 OR 新人)AND 2007年度」として検索を実行した画面である。
 検索結果一覧ペイン801には、図6と同様に、検索式とヒット件数を表示および検索式「(人材育成 OR 教育) AND (受講完了通知 OR 新人) AND 2007年度」の検索結果の一覧が表示される。検索式候補表示ペイン802には、検索対象を調整するための検索式候補の一覧が表示される。ここでは検索式の中のキーワードを一部除外して生成することが、検索式生成方法メニュー803で選択されている。たとえば、図7の検索式(1)は「(人材育成 OR 教育)AND (受講完了通知 OR 新人)」であるが、これは元の検索式からキーワード「2007年度」を除外して生成した検索式である。
 ベン図表示ペイン804には、図6と同様に、ユーザが入力した検索式による検索結果のヒット件数と、検索キーワードを一部除外して生成した検索式の検索結果との相関関係がベン図で図示される。ベン図内の文書集合は、ユーザが検索式候補選択メニュー805で選択した検索式に対する検索結果である。検索式候補選択メニュー805には、検索式候補表示ペイン802で提示した検索式候補の一覧、それぞれのヒット件数、チェックボックスを表示しており、ユーザがこのチェックボックスにチェックを入れたキーワードに対して、対応する検索結果のベン図表示が行われる。
 このような発明によって、ユーザは、元の検索式(第一の検索式)の条件が収集したい対象に対して、厳しすぎないか/弱すぎないかを確認することが出来る。例えば、ユーザによって入力された第一の検索式が、ある検索キーワードと一般的な検索キーワードとのAND検索であって、その第一の検索式を用いた検索の結果、その一般的なキーワードを省いてもヒット件数がほとんど変わらなければ、そのキーワードは省いた方がよいと判断できる。逆に、第一の検索式がある検索キーワードと特殊な検索キーワードとのAND検索であって、その第一の検索式を用いた検索の結果、ヒット件数が2~3件しかなければ、その特殊な検索キーワードは省いた方がよいと判断できる。たとえば、図8の場合、検索式(1)、すなわち元の検索式から「2007年度」を除外した検索式を用いて検索しても2件しか変わらない。つまり、これらの2件の文書は、「2007年度」というキーワードが、偶然入っていなかった可能性がある。また2件の増加は、元々の検索結果のヒット件数169件に比べて微増なので、人材育成の活動記録としてこの2件も含めておいた方が、より漏れが少なく取り尽くすことができると判断することもできる。
 さらに、ベン図表示によって、元の検索式(第一の検索式)の検索結果と元の検索式の中から検索キーワードを省いたときの効果を検索実行前に視覚的に確認することが出来る。
 <まとめ>
 以上説明したように、本実施の形態によれば、検索結果の一覧が表示されながら検索対象を調整するための検索式が提示されるので、次の検索キーワードとしてどのようなものが適しているか、ユーザは効率的・直接的に理解できる。また、検索結果がユーザの思っているものと異なっていたとき(間違った検索キーワードを指定していたとき)も容易に理解できる。また、検索を繰り返している間に、更に適切な別のキーワードが見つけることができるので、よりユーザの目的に合致した検索を実行することができる。
201…文書DB
202…文書インデックス
203…関連語辞書
204…表示装置
205…キーボード
206…マウス
207…中央処理装置
208…検索実行部
209…検索結果表示処理部
210…関連語検索式生成処理部
211…連想キーワード検索式生成処理部
212…部分検索式生成処理部
213…ベン図描画処理部
214…メモリ
501…検索式入力用テキストボックス
502…検索式生成方法選択メニュー
503…検索実行ボタン
601…検索結果一覧ペイン
602…検索式候補表示ペイン
603…検索式生成方法メニュー
604…検索実行ボタン
605…ベン図表示ペイン
606…関連語選択メニュー
607…検索式入力ペイン
608…検索式入力用テキストボックス
609…検索実行ボタン
701…検索結果一覧ペイン
702…検索式候補表示ペイン
703…検索式生成方法メニュー
704…ベン図表示ペイン
801…検索結果一覧ペイン
802…検索式候補表示ペイン
803…検索式生成方法メニュー
804…ベン図表示ペイン
805…検索式候補選択メニュー

Claims (9)

  1.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     検索キーワードの関連語を集めた関連語辞書と、
     入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  2.  請求項1に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  3.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     入力された第一の検索式の検索結果中に頻繁に出現する頻出キーワードを用いて新たな検索式である第二の検索式を生成する連想キーワード検索式生成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  4.  請求項3に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  5.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     入力された第一の検索式に含まれる複数の検索キーワードの一部を除いて新たな検索式である第二の検索式を生成する部分検索式作成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  6.  請求項5に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  7.  請求項1に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
  8.  請求項3に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
  9.  請求項5に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
PCT/JP2009/060784 2008-06-18 2009-06-12 文書検索システム WO2009154153A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2009801232751A CN102067124A (zh) 2008-06-18 2009-06-12 文档搜索系统
EP09766601.0A EP2315135B1 (en) 2008-06-18 2009-06-12 Document search system
US12/999,521 US8407232B2 (en) 2008-06-18 2009-06-12 Document search system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008159621A JP2010003015A (ja) 2008-06-18 2008-06-18 文書検索システム
JP2008-159621 2008-06-18

Publications (1)

Publication Number Publication Date
WO2009154153A1 true WO2009154153A1 (ja) 2009-12-23

Family

ID=41434068

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/060784 WO2009154153A1 (ja) 2008-06-18 2009-06-12 文書検索システム

Country Status (5)

Country Link
US (1) US8407232B2 (ja)
EP (1) EP2315135B1 (ja)
JP (1) JP2010003015A (ja)
CN (1) CN102067124A (ja)
WO (1) WO2009154153A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209873A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8621376B2 (en) * 2009-10-28 2013-12-31 Yahoo! Inc. Developer interface and associated methods for system for querying and consuming web-based data
JP2011197863A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助系统与搜索辅助方法
WO2012023541A1 (ja) * 2010-08-20 2012-02-23 楽天株式会社 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
JP5567440B2 (ja) * 2010-09-29 2014-08-06 株式会社日立ソリューションズ 監査準備支援装置、監査準備支援システム、監査準備支援方法
US9519714B2 (en) * 2010-12-22 2016-12-13 Microsoft Technology Licensing, Llc Presenting list previews among search results
JP5585489B2 (ja) * 2011-02-17 2014-09-10 富士通株式会社 検索支援装置、プログラム及び方法
EP2678774A4 (en) * 2011-02-24 2015-04-08 Lexisnexis Division Of Reed Elsevier Inc METHOD FOR ELECTRONIC DOCUMENT SEARCHING AND GRAPHICAL DISPLAY OF THE ELECTRONIC DOCUMENT SEARCH
JP5338835B2 (ja) * 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
WO2013066323A1 (en) 2011-11-02 2013-05-10 Hewlett-Packard Development Company, L.P. Method of searching and generating a relevant search string
JP5426710B2 (ja) * 2012-03-19 2014-02-26 株式会社東芝 検索支援装置、検索支援方法およびプログラム
JP5739844B2 (ja) * 2012-06-25 2015-06-24 ヤフー株式会社 情報提示装置、情報提示方法及び情報提示プログラム
US8843495B2 (en) 2012-07-12 2014-09-23 International Business Machines Corporation High-efficiency selection of runtime rules for programmable search
US9542492B2 (en) * 2013-02-07 2017-01-10 Fuji Xerox Co., Ltd. Method and system for generating interactive query results previews
US10152538B2 (en) * 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
EP2827260A1 (en) * 2013-07-16 2015-01-21 Thomson Licensing Apparatus and method enabling interactive searches
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
KR20150120123A (ko) * 2014-04-17 2015-10-27 삼성전자주식회사 정보 제공 방법 및 장치
JP6615514B2 (ja) * 2015-07-07 2019-12-04 一般社団法人日本みらい研 政策会議情報提供システム
US10332123B2 (en) * 2015-08-27 2019-06-25 Oracle International Corporation Knowledge base search and retrieval based on document similarity
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
CN107562753B (zh) * 2016-06-30 2020-04-17 索意互动(北京)信息技术有限公司 一种基于索引词的分析方法与装置
JP7139157B2 (ja) * 2018-06-04 2022-09-20 株式会社ユニバーサルエンターテインメント 検索文生成システム、及び検索文生成方法
US11134090B1 (en) * 2018-06-04 2021-09-28 Target Brands, Inc. Network security analysis and malware detection using multiple types of malware information
US10956470B2 (en) 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations
GB2586002A (en) * 2019-02-08 2021-02-03 All Street Res Limited Improved method and system for text based searching
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11429879B2 (en) 2020-05-12 2022-08-30 Ubs Business Solutions Ag Methods and systems for identifying dynamic thematic relationships as a function of time

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250411A (ja) 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JPH05314182A (ja) 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH06187374A (ja) 1992-12-15 1994-07-08 Hokkaido Nippon Denki Software Kk 検索方式
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH1115841A (ja) 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2004341753A (ja) * 2003-05-14 2004-12-02 Internatl Business Mach Corp <Ibm> 検索支援装置、検索支援方法、およびプログラム
JP2005100136A (ja) 2003-09-25 2005-04-14 Sekai Nipposha:Kk 電子記事のヒット件数最適化検索システム
JP2006012078A (ja) 2004-06-29 2006-01-12 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6897867B2 (en) 1999-12-17 2005-05-24 Fujitsu Limited Information comparison display apparatus using colors and a method thereof
US20020143860A1 (en) * 2001-03-31 2002-10-03 Koninklijke Philips Electronics N. V. Machine readable label reader system with versatile default mode
US7536413B1 (en) * 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
JP3944102B2 (ja) 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
CN101164067B (zh) * 2005-02-28 2013-11-06 搜索引擎科技有限责任公司 通过合并用户输入信息来进行搜索的方法和系统
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250411A (ja) 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JPH05314182A (ja) 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH06187374A (ja) 1992-12-15 1994-07-08 Hokkaido Nippon Denki Software Kk 検索方式
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH1115841A (ja) 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2004341753A (ja) * 2003-05-14 2004-12-02 Internatl Business Mach Corp <Ibm> 検索支援装置、検索支援方法、およびプログラム
JP2005100136A (ja) 2003-09-25 2005-04-14 Sekai Nipposha:Kk 電子記事のヒット件数最適化検索システム
JP2006012078A (ja) 2004-06-29 2006-01-12 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANK RUSKEY; CARLA D. SAVAGE; STAN WAGON: "The Search for Simple Symmetric Venn Diagrams", NOTICES OF THE AMS, vol. 53, no. 11, pages 1304 - 1311
See also references of EP2315135A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209873A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备
CN108563713B (zh) * 2018-03-29 2021-08-10 创新先进技术有限公司 关键词规则生成方法及装置和电子设备

Also Published As

Publication number Publication date
CN102067124A (zh) 2011-05-18
EP2315135B1 (en) 2015-08-26
EP2315135A1 (en) 2011-04-27
US8407232B2 (en) 2013-03-26
JP2010003015A (ja) 2010-01-07
US20110082878A1 (en) 2011-04-07
EP2315135A4 (en) 2013-07-17

Similar Documents

Publication Publication Date Title
WO2009154153A1 (ja) 文書検索システム
Färber et al. Citation recommendation: approaches and datasets
US20180004850A1 (en) Method for inputting and processing feature word of file content
Harman Information retrieval evaluation
US7783644B1 (en) Query-independent entity importance in books
AU2020221062B2 (en) Generating and provisioning of additional content for source perspective(s) of a document
CA2923892A1 (en) Systems, methods, and software for manuscript recommendations and submissions
KR20130029045A (ko) 상관된 정보의 온라인 분석 및 디스플레이
JP2014106665A (ja) 文書検索装置、文書検索方法
US9208150B2 (en) Automatic association of informational entities
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
US8612431B2 (en) Multi-part record searches
JP2003345829A (ja) 情報の検索方法およびその装置および情報検索のためのコンピュータプログラム
JP2020064482A (ja) 属性抽出装置および属性抽出方法
Das et al. Opinion summarization in Bengali: a theme network model
Karthik et al. An Efficient Approach to Retrieve Information for Desktop Search Engine
US20240111944A1 (en) System and Method for Annotation-Based Document Management
Velásquez et al. Tools for external plagiarism detection in DOCODE
Wolde et al. QUERY-BASED AMHARIC LEGAL DOCUMENT SUMMARIZATION
Sharma Hybrid Query Expansion assisted Adaptive Visual Interface for Exploratory Information Retrieval
Saad et al. Supporting literature review by searching, visualizing and navigating related papers
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム
Azimzadeh et al. Incorporating structural information in scientific document retrieval
Shinkawa et al. Online Learning for Long-Query Reduction in Interactive Search for Experienced Workers

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980123275.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09766601

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12999521

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009766601

Country of ref document: EP