WO2010035412A1

WO2010035412A1 - 情報分析装置、情報分析方法、及びプログラム

Info

Publication number: WO2010035412A1
Application number: PCT/JP2009/004399
Authority: WO
Inventors: 河合剛巨; 中澤聡; 安藤真一
Original assignee: 日本電気株式会社
Priority date: 2008-09-25
Filing date: 2009-09-04
Publication date: 2010-04-01
Also published as: JPWO2010035412A1; US8612202B2; US20110137641A1; JP5387577B2

Abstract

　複数の言語表現を分析対象とし、リンク情報生成部（３）と相関値算出部（４）とを備える情報分析装置（１）を用いる。リンク情報生成部（３）は、いずれかの言語表現を含む複数の電子文書から、各電子文書が有する時間情報と電子文書間の関係とを抽出し、時間情報と電子文書間の関係とに基づいて、一の言語表現と他の一の言語表現との間のリンク及びリンクの出現時間を検出し、これらを特定するリンク情報を生成する。相関値算出部（４）は、リンク情報から、一の言語表現と他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、リンクの出現数及び各リンクの出現時間を用いて、一の言語表現と他の一の言語表現との間の相関値をリンクが継続して出現する度合いに応じて算出する。

Description

情報分析装置、情報分析方法、及びプログラム

　本発明は、情報分析装置、情報分析方法、及びプログラムに関し、特には、時間情報に基づいて言語表現間の関係を分析する情報分析装置、情報分析方法、及びプログラムに関する。
　本願は、２００８年９月２５日に、日本に出願された特願２００８－２４５１６２号に基づき優先権を主張し、その内容をここに援用する。

　近年、インターネットの急速な発展により、インターネット上のＷｅｂページや、電子掲示板、ブログ等を介して、大量の情報が、世の中に流通し続けている。そして、流通する情報が大量であるが故に、情報の利用者にとっては、インターネット上の情報の中から着目する情報を見つけ出すためのコストが増加しており、適切な情報分析の技術が求められている。

　また、昨今、インターネット上では、Ｗｅｂページの中で注目されているキーワードや、人気のあるキーワード等の種々のキーワードに関する情報を提供するサービスが行われている。例えば、このようなサービスの一つとして、ある注目されているキーワードが存在する場合に、このキーワードが注目されている理由を知るための手がかりを提示するサービスが挙げられる（例えば、特許文献１を参照）。

　特許文献１に開示されたサービスでは、利用者が知りたい情報と相関性を有する情報を検出し、これを提示する技術が利用される。具体的には、特許文献１では、先ず、ある時点で注目されるキーワードと高頻度に共起し、且つ、それと出現時刻の近いキーワードが検出される。そして、注目されているキーワードと検出されたキーワードとが表示される、共起グラフが生成される。利用者は、この共起グラフを分析することで、注目されているキーワードが注目されている理由を知ることができる。

　しかしながら、特許文献１に開示された技術を用いて、利用者が知りたい情報と相関性を有する情報を検出する場合では、偶発的な原因によって相関性が認められた情報までもが、検出されてしまうことがある。

　これは、特許文献１に開示された技術では、ある指定した時点で注目されるキーワードと高頻度に共起することに加え、指定された時点に出現時刻が近いことも相関性の判断の条件とされ、指定された時点からの近さの影響が判断に強くでるためである。このように、特許文献１に開示された技術を利用した場合は、偶発的な原因によって相関性が認められた情報を排除できないとう問題がある。

　また、例えば、インターネット上のＷｅｂページでは、重要な事象に関する記述や意見等の言語表現は、あるイベントなどによって想起され、たまたま述べられるということが多々ある。このことは、元々相関性を持たない情報同士の間で、誤って相関性が認められる原因となる。

　一方、意味的に強い相関を有する言語表現同士は度々継続して用いられることが多いが、通常、複数の言語表現が、強い相関性に起因して近い時間に出現しているのか、偶発的に近い時間に出現しているのか、判断することは困難である。

　なお、本明細書では、単語からなるキーワードのみならず、テキスト中の特定の名詞や話題、意見、事物などを表す記述を「言語表現」と称する。「言語表現」は、テキスト中に出現する文字列そのものであっても良いし、テキストを形態素解析や構文解析、係り受け解析、同義語処理等の既存の自然言語処理技術を用いて解析した結果、得られるものであっても良い。

　具体的には、例えば、「タバコ」、「健康」等はそれぞれ１単語からなる言語表現である。また、「タバコは健康にとって有害です」、「タバコは有害である」等のテキストを係り受け解析して得られた「タバコ→有害」のような単語間の係り受け解析結果も、１つのまとまった意味を表す言語表現である。

特開２００６－１６４０４５号公報

　本発明の目的は、上記問題を解消し、偶発的な原因に影響されることなく、分析対象となる複数の言語表現の間の相関性を適切に評価し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。

　上記目的を達成するため、本発明の一態様における情報分析装置は、複数の言語表現を分析対象とする情報分析装置であって、
　リンク情報生成部と、相関値算出部とを備え、
　前記リンク情報生成部は、前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
　前記相関値算出部は、前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、ことを特徴とする。

　また、上記目的を達成するため、本発明の一態様における情報分析方法は、複数の言語表現を分析対象とする情報分析方法であって、
（ａ）前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
（ｂ）前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
（ｃ）前記（ｂ）のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを有する、ことを特徴とする。

　更に、上記目的を達成するため、本発明の一態様におけるプログラムは、
　複数の言語表現を分析対象とする情報分析をコンピュータに実行させるためのプログラムであって、
　前記コンピュータに、
（ａ）前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
（ｂ）前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
（ｃ）前記（ｂ）のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを実行させる、ことを特徴とする。

　以上の特徴により、本発明によれば、偶発的な原因に影響されることなく、分析対象となる複数の言語表現の間の相関性は、適切に評価されることとなる。

図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２は、図１に示す記憶装置に格納されている情報の一例を示す図である。図３は、本発明の実施の形態１で生成されるリンク情報の一例を示す図である。図４は、本発明の実施の形態１で生成されるリンク情報の他の例を示す図である。図５は、本発明の実施の形態１における情報分析方法における処理の流れを示すフロー図である。図６は、図１に示す情報分析装置１を実現可能なコンピュータ装置を示す図である。図７は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。図８は、本発明の実施の形態２における情報分析方法における処理の流れを示すフロー図である。

　（実施の形態１）
　以下、本発明の実施の形態１における情報分析装置、情報分析方法、及びプログラムについて、図１～図６を参照しながら説明する。最初に、本実施の形態１における情報分析装置の構成について図１～図４を用いて説明する。図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２は、図１に示す記憶装置に格納されている情報の一例を示す図である。図３は、本発明の実施の形態１で生成されるリンク情報の一例を示す図である。図４は、本発明の実施の形態１で生成されるリンク情報の他の例を示す図である。

　図１に示す情報分析装置１は、複数の言語表現を分析対象とする装置であり、一の言語表現と他の一の言語表現との間の相関性を分析するために用いられる。図１に示すように、情報分析装置１は、リンク情報を生成するリンク情報生成部３と、言語表現間の相関値を算出する相関値算出部４とを備えている。

　リンク情報生成部３は、先ず、複数の言語表現のいずれかを少なくとも含む複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する。また、リンク情報生成部３は、抽出した時間情報と電子文書間の関係とに基づいて、複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及びリンクの出現時間を検出し、そして、検出されたリンク及びリンクの出現時間を特定するリンク情報を生成する。

　相関値算出部４は、リンク情報から、一の言語表現と他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定する。そして、相関値算出部４は、特定されたリンクの出現数及び各リンクの出現時間を用いて、一の言語表現と他の一の言語表現との間の相関値を、リンクが継続して出現する度合いに応じて算出する。ここで、「リンクが継続して出現する度合い」とは、リンクが長期間にわたって継続的に存在するかどうかの強さを表わす度合いである。

　このように、情報分析装置１では、言語表現間のリンクは、言語表現に関係する時間情報だけでなく、各言語表現を含む文書間の関係も考慮して、検出されている。更に、このようなリンクを用いて相関値が算出され、そして、相関性が判断される。このため、情報分析装置１によれば、偶発的な原因によって相関値が高くなり、相関性の判断に誤りが生じてしまう事態が回避される。

　続いて、情報分析装置１の構成について更に具体的に説明する。また、以下においては、２つの言語表現Ｘ及びＹが分析対象となる場合について説明する。図１に示すように、本実施の形態１では、情報分析装置１は、更に、分析対象となる言語表現の入力を受け付ける入力部２を備えている。また、情報分析装置１には、記憶装置１０、入力装置１２及び出力装置１３が接続されている。

　入力装置１２は、外部から情報分析装置１の入力部２に接続され、これに、分析対象となる言語表現等の情報を入力する。入力装置１２の具体例としては、キーボードや、マウス等が挙げられる。出力装置１３は、分析結果を出力するための装置である。出力装置１３の具体例としては、液晶ディスプレイ等の表示装置や、プリンタ等が挙げられる。また、入力装置１２及び出力装置１３は、情報分析装置１にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。

　記憶装置１０は、記憶領域に文書記憶部１１を有し、リンク情報生成部３によるリンク情報の生成に利用される。具体的には、記憶装置１０は、ハードディスク（磁気ディスク記憶装置）等の記憶装置に、データファイルを格納することによって、又はデータファイルが格納された記録媒体を読取装置に搭載することによって実現できる。また、記憶装置１０は、情報分析装置１に直接接続されていても良いし、情報分析装置１にネットワークを介して接続された別のコンピュータ装置に備えられていても良い。

　図２に示すように、文書記憶部１１は、多数の電子文書を格納している。また、図２においては、文書記憶部１１として機能する記憶装置１０の記憶領域は、模式的に表形式で表現されているが、記憶領域の表現は別の形式で行うこともできる。

　図２において、水平方向の行は、それぞれ、文書記憶部１１に格納された１つの電子文書を表わしている。文書記憶部１１は、各電子文書について、その文書内容に加え、各電子文書の識別子（文書ＩＤ）と、時間情報と、参照文書ＩＤとを格納している。これらの情報は、電子文書毎に、対応付けられ、一つの組データとして格納されている。

　図２に示すように、本実施の形態１では、時間情報として、年月日が特定される日付情報が格納されている。例えば、文書ＩＤ「１０００１」の文書は、「２００４／４／１５」で表わされた年月日と関連付けられた状態で格納されている。なお、図２の例では、時間情報として、年月日のみが用いられているが、本実施の形態１は、この例に限定されるものではない。例えば、年、月、日に加え、時分秒までも特定する時間情報が用いられていても良い。また、ある時点を基準にして、秒単位等の単位時間を積算して得られる時間を時間情報として用いても良い。

　参照文書ＩＤは、本実施の形態１では、格納されている電子文書間の参照関係から設定されている。具体的には、電子文書が、インターネット上のＷｅｂページから抽出されている場合は、参照文書ＩＤはハイパーリンク情報から取得される。つまり、元のＷｅｂページに記述されているリンク先のＷｅｂページから抽出された電子文書の文書ＩＤが用いられる。また、電子文書がＨＴＭＬ形式で記述されている場合は、文書ＩＤ及び参照ＩＤは、ＵＲＬで表されていても良い。

　その他、本実施の形態１では、参照文書ＩＤは、格納されている電子文書間の論理的関係から設定されていても良い。電子文書間の論理的関係としては、類似関係や対立関係などを採用することができる。例えば、参照文書ＩＤは、格納されている電子文書間の類似関係から設定されていても良いし、格納されている電子文書間の対立関係から設定されていても良い。前者の場合は、内容が意味的に類似する他の電子文書の文書ＩＤが、参照文書ＩＤとして格納される。

　また、前者の場合、内容が意味的に類似するかどうかの判定は、例えば、各電子文書から、形態素を単位とする文書ベクトルを抽出し、文書ベクトルを用いて電子文書間のコサイン類似度を算出することによって行うことが可能である。そして、例えば、予め設定された閾値を超える電子文書が類似する電子文書とされても良いし、類似度上位の幾つかの電子文書が類似する電子文書とされても良い。

　後者の場合は、先ず、例えば、電子文書中の特徴的な言語表現に否定表現を加え、この言語表現に対立する言語表現が生成される。そして、この対立する言語表現を含む電子文書の抽出が行われ、抽出された電子文書ＩＤが、参照文書ＩＤとして格納される。なお、論理的関係にある電子文書の抽出方法は、上述の例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲において、種々なる態様で実施することができる。

　リンク情報生成部３は、本実施の形態１では、先ず、入力部２から分析対象となる言語表現が入力されると、記憶装置１０の文書記憶部１１にアクセスし、入力された言語表現を含む電子文書を検索する。

　具体的には、「耐震ジェルは有効である」という言語表現Ｘと、「地震が発生した」という言語表現Ｙとが入力部２に入力されているとする。この場合は、検索の結果、図２に示す文書記憶部１１から、言語表現Ｘを含む文書ＩＤ「１０００１」及び「１１００３」の電子文書と、言語表現Ｙを含む文書ＩＤ「１０１０２」及び文「１２００４」の電子文書とが特定される。

　また、このとき、本実施の形態１では、リンク情報生成部２は、単に文字列として一致する言語表現だけでなく、意味的に同じ内容を有する同義の言語表現（同義表現）を含む電子文書も検索することができる。同義表現としては、入力された言語表現と構文構造の点で一致する言語表現や、入力された言語表現の一部を同義語で言いかえて得られる言語表現等が挙げられる。

　次に、リンク情報生成部３は、検索が終了すると、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する。本実施の形態１では、リンク情報生成部３は、電子文書間の関係としては、図２に示した参照文書ＩＤを抽出する。具体的には、検索によって特定された文書ＩＤ「１０００１」、「１０１０２」、「１１００３」及び「１２００４」の電子文書それぞれの時間情報と、参照文書ＩＤとが抽出される。

　続いて、リンク情報生成部３は、抽出した時間情報と参照文書ＩＤとに基づいて、言語表現Ｘと言語表現Ｙとの間のリンクを検出する。また、本実施の形態１では、後述する相関値の精度を高めるため、リンク情報生成部３は、リンクの検出時において、検出されたリンクに加え、そのリンクの出現時間も特定する。

　具体的には、図２の例では、検索によって特定された文書ＩＤ「１０１０２」の参照文書ＩＤとして、同じく検索によって特定された文書ＩＤ「１０００１」が記述されている。この場合、リンク情報生成部３は、文書ＩＤ「１０００１」及び「１０１０２」から、言語表現Ｘと言語表現Ｙとの間のリンクを一つ検出する。また、この場合、文書ＩＤ「１０００１」の電子文書の時間情報と、文書ＩＤ「１０１０２」の電子文書の時間情報とを、互いに関連付け、リンクの出現時間として検出する。

　同様に、リンク情報生成部３は、文書ＩＤ「１１００３」及び「１２００４」からも、言語表現Ｘと言語表現Ｙとの間のリンクを一つ検出する。そして、文書ＩＤ「１１００３」の電子文書の時間情報と、文書ＩＤ「１２００４」の電子文書の時間情報とについても、互いに関連付け、これらに含まれる時間をリンクの出現時間として検出する。

　その後、リンク情報生成部３は、検出したリンクと、各リンクの出現時間とを特定するリンク情報を生成する。具体的には、本実施の形態１では、図３に示すように、リンク情報生成部３は、言語表現Ｘと言語表現Ｙとの間のリンク情報を生成する。なお、図３においては、言語表現Ｘと言語表現Ｙとの間のリンク情報は、模式的に表形式で表現されているが、リンク情報の表現は別の形式で行うこともできる。

　図３の例では、水平方向の各行は、それぞれ１つのリンクを表わしており、リンクの出現数はＮである（ｎ及びＮは、ｎ＜Ｎを満たす任意の自然数である）。また、図３の例では、各リンクが言語表現の何時の時点で出現しているかを示す出現時間が、言語表現毎に、各リンクに関連付けられている。この出現時間は、各言語表現を含む電子文書の時間情報に含まれる時間に対応している。

　例えば、図３のＮＯ．１のリンクは、文書ＩＤ「１０００１」の電子文書と文書ＩＤ「１０１０２」の電子文書とのリンクを表している。このリンクの言語表現Ｘにおけるリンクの出現時間は、文書ＩＤ「１０００１」の電子文書の時間情報に含まれる時間と一致し、言語表現Ｙにおけるリンクの出現時間は、文書ＩＤ「１０１０２」の電子文書の時間情報に含まれる時間と一致する。

　なお、図３の例では、時間情報のみが関連付けられているが、例えば、リンクが方向性を有する場合は、どちらの言語表現からどちらの言語表現へのリンクであるかを示す情報（リンク元とリンク先を示す情報）が関連付けてられていても良い。

　また、図３の例では、各リンクは、言語表現毎に出現時間と関連付けられているが、いずれか一方の言語表現の出現時間のみと関連付けられていても良い。更に、図４に示すように、リンク情報生成部３は、一方の言語表現の出現時間と他方の言語表現の出現時間との中間の時間等の代表時間を求めることができる。この場合、求められた代表時間をリンクの出現時間とし、リンクに関連付けることもできる。このように、一つのリンクに、一つの出現時間（代表時間）を関連付けるようにした場合は、リンク情報生成部３における処理速度の向上が図られる。

　また、本実施の形態１では、参照文書ＩＤは、格納されている電子文書間の類似関係から設定することもできるし、格納されている電子文書間の対立関係から設定することもできる。前者の場合は、リンク情報生成部３は、電子文書間の意味的な類似関係を抽出し、これに基づいて、言語表現間のリンクを抽出する。また、後者の場合は、リンク情報生成部３は、電子文書間の意味的な対立関係を抽出し、これに基づいて、言語表現間のリンクを抽出する。前者及び後者のいずれにおいても、電子文書間に直接の参照関係が無い場合に言語表現間のリンク情報を生成できる。

　また、相関値算出部４は、本実施の形態１では、図３に示したリンク情報から、リンクの出現数Ｎを特定するとともに、各リンクの出現時間も特定する。そして、相関値算出部４は、リンクの出現数Ｎと各リンクの出現時間とを用い、リンクが継続して出現する度合いに応じて、言語表現間の相関値Ｒを算出する。具体的には、相関値算出部４は、下記の式（１）を用いて、言語表現間の相関値Ｒを算出することができる。

　上記式（１）において、ｆ（Ｎ）は、算出に用いられる出現数Ｎの値に応じて増加する関数である。具体的には、ｆ（Ｎ）としては、数式「ｆ（Ｎ）＝ｌｏｇ（Ｎ）」を用いることができる。その他、ｆ（Ｎ）としては、数式「ｆ（Ｎ）＝α×ｌｏｇ（Ｎ）」を用いることもできる。なお、αは重み係数であり、例えば、αとしては、算出に用いられるリンクの出現数の最大値であるＮによって正規化された値を用いることができる。このようにして得られたαは、ｆ（Ｎ）の相関値に対する影響を補正する。

　また、上記式（１）において、ｄｔ_ｍａｘは、最新のリンクの出現時間と最初のリンクの出現時間との差を表わしている。そして、ｇ（ｄｔ_ｍａｘ）は、ｄｔ_ｍａｘの値に応じて増加する関数であり、リンクが継続して出現する度合いを考慮している。例えば、数式「ｇ（ｄｔ_ｍａｘ）＝ｌｏｇ（１＋ｄｔ_ｍａｘ）」を用いることができる。

　また、相関値算出部４は、下記の式（２）を用いて、言語表現間の相関値Ｒを算出することもできる。

　上記式（２）におけるｆ（Ｎ）は、上記式（１）で用いたｆ（Ｎ）と同様の関数である。βは０（ゼロ）ではない定数の補正値である。また、Ｖは、リンクが継続して出現する度合いを、隣り合うリンク間の時間間隔や、リンクの出現密度に関する分散を用いて表した値である。例えば下記の式（３）または、下記の式（４）によって得ることができる。下記の式（３）は、リンク間の出現時間の時間間隔に関する分散である。

　上記式（３）において、ｄＴは、リンク情報から得られる各リンクの出現時間（代表値）を時系列に並べ、隣り合うリンク間の時間間隔を平均化して得られる平均値を表している。また、ｄｔ_ｎは、ｎ番目のリンクの出現時間とｎ＋１番目のリンクの出現時間との差を表している。

　上記式（３）において、「Ｖ」は、Ｖの平方根を計算して、標準偏差として置き換えても良い。また「Ｖ」は、ある所定時間間隔におけるリンクの出現密度に関する分散を用いて、下記の式（４）によっても得ることができる。

　上記式（４）におけるｍは、計算の対象となる言語表現間の最初のリンクの出現時間から最新のリンクの出現時間までの間を、所定の時間間隔で区切ったときに、得られた区間に付される番号を示している。Ｍは、区間の数を表す。ｄｑ_ｍは、ｍ番目の区間におけるリンク数を表す。つまり、ｄｑ_ｍはリンクの出現密度を示している。

　また、上記式（４）において、ｄＱは、ｄｑ_ｍを平均化して得られる平均値を表している。つまり、ｄＱは、リンクの出現密度の平均値を表す。上記式（４）によれば、リンク数ＮがＭよりも著しく大きい場合に、処理速度の向上を図ることができる。また、上記式（４）を用いれば、隣り合うリンク間の時間間隔が、区間の時間間隔に比べて著しく小さいことによる影響を、上記式（３）を用いた場合よりも、抑えることができる。なお、上記式（４）においても、「Ｖ」は、Ｖの平方根を計算して、標準偏差として置き換えても良い。

　なお、上記式（２）は、リンクの分布の偏りによる影響を弱める効果を有している。例えば、着目する言語表現と突発的に発生する言語表現とのリンクを考えた場合、隣接するリンク同士の間の時間間隔は著しく大きく変動し、時間間隔の最大値と最小値との差は大きな値となる。このような言語表現間に、上記式（２）を適用して相関値Ｒを算出すれば、相関値Ｒは低い値となる。このことから、上記式（２）は、重要な関係にある言語表現間のリンクのみを重視したい場合に有効となる。

　更に、相関値算出部４は、下記の式（５）を用いて、言語表現間の相関値Ｒを算出することもできる。

　上記式（５）におけるｆ（Ｎ）は、上記式（１）で用いたｆ（Ｎ）と同様の関数である。βは０（ゼロ）ではない定数の補正値である。また、Ｈ（Ｐ）は、言語表現間のリンクの確率分布Ｐのエントロピーであり、下記の式（６）によって得ることができる。

　上記式（６）において、ｍは、計算の対象となる言語表現間の最初のリンクの出現時間から最新のリンクの出現時間までの間を、所定の時間間隔で区切り、得られた区間に付された番号を示している。Ｍは区間の数を表している。Ｐ_ｍは、ｍ番目の区間におけるリンクの存在確率を表す。Ｐ_ｍは、計算の対象とする言語表現間のリンクの出現数Ｎと、ｍ番目の区間で出現しているリンクの出現数Ｎ_ｍとを用いて、Ｐ_ｍ＝Ｎ_ｍ／Ｎから算出される。

　なお、ｍ番目の区間で出現しているリンクの出現数Ｎ_ｍは、例えば、一つのリンクについて二つの出現時間が特定されている場合は、早い方の出現時間に着目し、ｍ番目の区間内に出現するリンクの数をカウントすることによって求めることができる。また、二つの出現時間について、これらの中間の時間といった代表時間が定められている場合は、早い方の出現時間に着目する代わりに、代表時間に着目して、リンクの数をカウントしても良い。

　上記式（５）は、言語表現間Ａと言語表現間Ｂとのそれぞれについて相関値を求め、更に、言語表現間Ａと言語表現間Ｂとの間の相関性を求める場合に有効である。例えば、言語表現間Ａ及び言語表現間Ｂが、リンク数、全てのリンク間の時間間隔から算出した分散において、同一であるとする。この場合、上記式（５）によれば、各言語表現間における相関値の算出において、リンクの分布の偏りが考慮されるので、言語表現間の相関性が正確に求められる。

　また、本実施の形態１では、電子文書の意味内容が重視される場合は、各リンクに関連している電子文書間の意味的な類似性を基に算出した後述の類似度Ｓを重みとして、相関値Ｒ’を以下の式（７）を用いて算出することができる。

　上記式（７）において、Ｒは上記式（１）、（２）、及び（５）の相関値Ｒである。上記式（７）における類似度Ｓは、例えば、以下の式（８）を用いて算出することができる。

　上記式（８）は、言語表現Ｘと言語表現Ｙとのｎ番目のリンクに関連する、電子文書間の意味的な類似度関数ｓｉｍ（ＤＸ_ｎ、ＤＹ_ｎ）を計算した結果についての相加平均を表している。

　上記式（８）において、類似度関数ｓｉｍ（ＤＸ_ｎ、ＤＹ_ｎ）は、ベクトル空間モデルに基づいて計算することができる。例えば、ＤＸ_ｎをｎ番目のリンクにおける言語表現Ｘに関する文書の特徴ベクトルとし、ＤＹ_ｎをｎ番目のリンクにおける言語表現Ｙに関する文書の特徴ベクトルとする。この場合、類似度関数ｓｉｍ（ＤＸ_ｎ、ＤＹ_ｎ）は、各々の特徴ベクトルがなす角の余弦を用いることで計算することができる。

　具体的には、特徴ベクトルＤＸ_ｎの構成要素としては、言語表現Ｘを含む電子文書内の単語を採用でき、また特徴ベクトルＤＹ_ｎの構成要素としては、言語表現Ｙを含む電子文書内の単語を採用することができる。また、特徴ベクトルＤＸ_ｎ及び特徴ベクトルＤＹ_ｎは、各単語の電子文書内における出現頻度ｔｆ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙ）や、全ての対象となる電子文書内における出現頻度の逆数ｉｄｆ（ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）を重みとして用いた値をベクトル要素に持つようにしても良い。

　なお、類似度関数ｓｉｍ（ＤＸ_ｎ、ＤＹ_ｎ）は、公知の文書間の類似度尺度を用いて計算することができる。本実施の形態１において、上記式（８）や、類似度関数ｓｉｍ（ＤＸ_ｎ、ＤＹ_ｎ）の計算方法は、上述した方法に限定されものではない。

　また、上記式（７）ではなく、ｍ番目の区間において類似度を算出して、上記式（４）や（６）に用いても良い。例えば、ｍ番目の区間における類似度Ｓ_ｍは、以下の式（９）を用いて算出することができる。

　上記式（９）のＮ_ｍは、ｍ番目の区間で出現しているリンクの出現数である。ｋは、ｍ番目の区間で出現しているリンクの順番を表す。類似度関数ｓｉｍ（ＤＸ_ｋ、ＤＹ_ｋ）は、上記式（８）と同様に算出すれば良い。

　また、上記式（９）を上記式（４）に適用する場合は、例えば上記式（４）におけるｄｑ_ｍを以下の式（１０）によって算出すれば良い。

　また、上記式（９）を上記式（６）に適用する場合は、例えば、上記式（６）におけるＰ_ｍの代わりにＰ_ｍ＝Ｐ_ｍ×Ｓ_ｍとすれば良い。あるいは、上記式（６）のＰ_ｍを以下の式（１１）によって算出すれば良い。

　上記式（７）、（９）、（１０）、及び（１１）を用いることにより、リンクで結ばれる両電子文書の内容が意味的に関係のない場合では、リンクが言語表現間の相関値に与える影響が弱められる。一方、リンクで結ばれる両電子文書の内容が類似する場合は、リンクが相関値に与える影響は強められる。このため、上記式（７）、（９）、（１０）、及び（１１）が用いられる場合は、一時期の偶発的な関係に影響されることなく意味的に強い相関を評価することが可能となる。

　例えば、参照文書ＩＤ（図２参照）が、Ｗｅｂページのハイパーリンク情報から取得されている場合を考える。一般的には、ハイパーリンク情報で結ばれたＷｅｂページ間には、何らかの相関があるため、電子文書間には相関性が存在すると考えられる。しかし、Ｗｅｂページ内の主要な内容とは関係のないリンクが含まれる場合がある。

　このような場合に、上記式（７）、（９）、（１０）、及び（１１）を用いれば、Ｗｅｂページ間の内容が意味的に関係のない時のリンクの影響が弱められ、Ｗｅｂページ間の内容が意味的に類似する時のリンクの影響がより重視され、よりいっそう、適切な相関値の算出が可能となる。

　次に、本発明の実施の形態１における情報分析方法について、図５を用いて説明する。図５は、本発明の実施の形態１における情報分析方法における処理の流れを示すフロー図である。本実施の形態１における情報分析法は、図１に示した本実施の形態１における情報分析装置１を動作させることによって実施される。このため、以下の説明は、適宜図１を参酌しながら、情報分析装置１の動作と共に説明する。

　図５に示すように、先ず、入力部２が、分析対象となる複数の言語表現の入力を受け付ける（ステップＡ１）。本実施の形態１では、入力部２は、言語表現Ｘと言語表現Ｙとの入力を受け付け、これらをリンク情報生成部３に入力する。

　次に、リンク情報生成部３は、言語表現が入力されると、記憶装置１０の文書記憶部１１にアクセスし、入力された言語表現を含む電子文書を検索する（ステップＡ２）。本実施の形態では、言語表現Ｘ及び言語表現Ｙのいずれかを少なくとも含む電子文書の検索が行われる。

　次に、検索が終了すると、リンク情報生成部３は、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する（ステップＡ３）。本実施の形態１では、電子文書間の関係として、電子文書間の参照関係から予め設定された参照ＩＤ（図２参照）が抽出される。

　次に、リンク情報生成部３は、ステップＡ３で抽出した時間情報と電子文書間の関係とに基づいて言語表現間のリンクを検出し、リンク情報を生成する（ステップＡ４）。本実施の形態１では、言語表現Ｘと言語表現Ｙとの間のリンクが検出され、更に、リンクの出現時間も検出される。そして、検出されたリンクと、その出現時間とを特定するリンク情報が生成される（図３及び図４参照）。リンク情報生成部３は、リンク情報を相関値算出部４に入力する。

　次に、相関値算出部４は、ステップＡ４で生成されたリンク情報から、言語表現間のリンクの出現数を特定し、リンクの出現数を用いて相関値Ｒを算出する（ステップＡ５）。本実施の形態１では、リンクの出現数に加えて、各リンクの出現時間も用いて、相関値が算出される。また、相関値Ｒの算出は、上述した式（１）、（２）、（５）、及び（７）のうちのいずれか、又は幾つかの組み合わせを用いて行われる。

　その後、相関値算出部４が、算出した相関値Ｒを出力装置１３に出力すると、情報分析装置１における処理は終了する。情報分析装置１は、次の言語表現が入力されるまで停止した状態となる。

　このように、本実施の形態１における情報分析方法によれば、言語表現間のリンクは、言語表現に関係する時間情報だけでなく、各言語表現を含む文書間の関係も考慮して、検出され、このようなリンクを用いて相関値が算出される。よって、相関値の信頼性は高くなり、偶発的な原因により、相関性の判断に誤りが生じてしまう事態は回避される。

　また、本実施の形態１における情報分析装置１は、コンピュータに、図５に示すステップＡ１～Ａ５を実行させ得るプログラムをインストールし、このプログラムを実行することによって、実現することができる。この点について図６を用いて説明する。

　図６は、図１に示す情報分析装置１を実現可能なコンピュータ装置を示す図である。図６に示すように、コンピュータ装置２０は、ＣＰＵ（ｃｅｎｔｒａｌ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）２１、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２２、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２３、インターフェイス回路（Ｉ／Ｆ）２４、光磁気ディスク記憶装置（ハードディスク）２５、読取装置２６、及びビデオカード２７を備えている。

　図６の例では、インターフェイス回路２４が入力部２として機能する。また、入力装置（図１参照）としてはキーボード２８が用いられ、キーボード２８はインターフェイス回路２４に接続されている。また、出力装置（図１参照）としては表示装置２９が用いられ、表示装置２９はビデオカード２７に接続されている。

　また、図６の例では、磁気ディスク記憶装置２５の一部の記憶領域が、文書記憶部１１（図１参照）として利用されている。この一部の記憶領域には、多数の電子文書が格納されている。更に、図５に示すステップＡ１～Ａ５をコンピュータ装置２０に実行させるプログラムは、記録媒体３０に格納されている。

　そして、記録媒体３０に格納されているプログラムは、光ディスク装置等で構成された読取装置２６を介して、コンピュータ装置２０にインストールされる。インストールされたプログラムを実行すると、ＣＰＵ２１は、リンク情報生成部３及び相関値算出部４として機能し、情報分析装置１が具現化される。

　なお、図６の例において、文書記憶部１１（図１参照）は、多数の電子文書が格納された記録媒体を読取装置２６に搭載することによっても実現できる。更に、文書記憶部１１は、コンピュータ装置２０にネットワークを介して接続された別のコンピュータ装置に構築されていても良い。

　（実施の形態２）
　次に本発明の実施の形態２における情報分析装置、情報分析方法、及びプログラムについて、図７及び図８を参照しながら説明する。最初に、図７を用いて、本発明の実施の形態２における情報分析装置の構成について説明する。図７は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。

　図７に示すように、本実施の形態２における情報分析装置５は、言語表現生成部６を備えており、この点で、実施の形態１における情報分析装置１（図１参照）と異なっている。以下に、本実施の形態２における情報分析装置５と、実施の形態１における情報分析装置１との相違点について更に具体的に説明する。

　本実施の形態２においては、入力部２は、分析対象となる一対の言語表現のうち、一方の言語表現の入力を受け付ける。そして、入力部２と、入力を受け付けた言語表現を、リンク情報生成部３に加え、言語表現生成部６にも入力する。なお、以下、入力された言語表現を「入力言語表現」とする。

　言語表現生成部６は、入力言語表現に関連する別の言語表現（以下「関連言語表現」とする）を生成する。本実施の形態では、言語表現生成部６は、一つの入力言語表現に対して一つの関連言語表現を生成する。また、言語表現生成部６は、生成した関連言語表現をリンク情報生成部３に入力する。

　具体的には、例えば、入力言語表現が、「耐震ジェルは有効である」という言語表現Ｘであるとする。この場合、言語表現生成部６は、「耐震ジェルは有効である」という言語表現Ｘに否定表現「ない」を付加し、更に活用形を調整して、「耐震ジェルは有効でない」という関連言語表現を生成することができる。

　また、関連言語表現は、上記例に限定されず、言語表現生成部６は、例えば、入力言語表現に対立する言語表現を、関連言語表現として生成することもできる。更に、言語表現生成部６は、文書記憶部１１に格納されている電子文書の中から、入力言語表現と共起する言語表現を抽出し、抽出した言語表現を関連言語表現とすることもできる。

　リンク情報生成部３は、入力言語表現及び関連言語表現が入力されると、これらを対象としてリンク情報の生成を行う。つまり、リンク情報生成部３は、先ず、入力言語表現及び関連言語表現それぞれを含む電子文書から、電子文書が有する時間情報と、電子文書間の関係とを抽出する。続いて、リンク情報生成部３は、時間情報と電子文書間の関係とに基づいて、入力言語表現と関連言語表現との間のリンクを検出し、そして、検出されたリンクを特定するリンク情報を生成する。

　また、相関値算出部４は、本実施の形態では、入力言語表現と関連言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定されたリンクの出現数及び各リンクの出現時間を用いて、入力言語表現と関連言語表現との間の相関値を、リンクが継続して出現する度合いに応じて算出する。

　このように、本実施の形態２においては、情報分析装置５は、言語表現生成部６を備える点と、これにより、リンク情報生成部３及び相関値算出部４が関連言語表現を処理対象とする点とで、実施の形態１における情報分析装置１と異なっている。これらの点以外については、情報分析装置５は、情報分析装置１と同様に構成されている。

　次に、本発明の実施の形態２における情報分析方法について図８を用いて説明する。図８は、本発明の実施の形態２における情報分析方法における処理の流れを示すフロー図である。本実施の形態２における情報分析法は、図７に示した本実施の形態２における情報分析装置５を動作させることによって実施される。このため、以下の説明は、適宜図７を参酌しながら、情報分析装置５の動作と共に説明する。

　図８に示すように、先ず、入力部２が、分析対象となる一対の言語表現のうち、一方の言語表現の入力を受け付ける（ステップＢ１）。入力が受け付けられた言語表現（入力言語表現）は、リンク情報生成部３及び言語表現生成部６に入力される。なお、ステップＢ１において、入力が受け付けられる言語表現は、一つに限らず、二以上であっても良い。但し、本実施の形態２では、実施の形態１と異なり、二以上の場合であっても、入力された言語表現同士について相関値は算出されない。

　次に、言語表現生成部６が、入力言語表現に基づいて、関連言語表現を生成する（ステップＢ２）。生成された関連言語表現は、リンク情報生成部３に入力される。続いて、リンク情報生成部３は、関連言語表現及び入力言語表現が入力されると、記憶装置１０の文書記憶部１１にアクセスし、入力言語表現及び関連言語表現のいずれかを少なくとも含む電子文書を検索する（ステップＢ３）。本実施の形態では、言語表現Ｘ及び言語表現Ｙのいずれかを少なくとも含む電子文書の検索が行われる。

　次に、検索が終了すると、リンク情報生成部３は、検索によって特定された複数の電子文書から、複数の電子文書それぞれが有する時間情報と、複数の電子文書における電子文書間の関係とを抽出する（ステップＢ４）。

　次に、リンク情報生成部３は、ステップＢ４で抽出した時間情報と電子文書間の関係とに基づいて、入力言語表現と関連言語表現との間のリンク及びリンクの出現時間を検出し、リンク情報を生成する（ステップＢ５）。

　次に、相関値算出部４は、ステップＢ４で生成されたリンク情報から、入力言語表現と関連言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、リンクの出現数及び各リンクの出現時間を用い、リンクが継続して出現する度合いに応じて相関値Ｒを算出する（ステップＢ６）。本実施の形態２においても、相関値Ｒの算出は、実施の形態１で示した式（１）、（２）、（５）、及び（７）のうちのいずれか、又は幾つかの組み合わせを用いて行われる。

　その後、相関値算出部４が、算出した相関値Ｒを出力装置１３に出力すると、情報分析装置５における処理は終了する。情報分析装置５は、次の言語表現が入力されるまで停止した状態となる。

　以上のように、本実施の形態２では、言語表現が入力されると、これに関連する言語表現が生成され、これらの間の相関値が算出される。本実施の形態２は、注目されているキーワードに関連するキーワードを取得したい場合に有効である。また、本実施の形態２においても、実施の形態１と同様に、相関値の信頼性は高く、偶発的な原因により、相関性の判断に誤りが生じてしまう事態は回避される。

　本発明は、時系列関係を検索条件に用いた情報検索装置や、時系列関係の判定結果を用いた情報分類装置といった用途に適用できる。また、本発明は、分析対象とする言語表現に関する情報発見を目的としたテキストマイニング装置といった用途にも適用可能である。

　１　情報分析装置（実施の形態１）
　２　入力部
　３　リンク情報生成部
　４　相関値算出部
　５　情報分析装置（実施の形態２）
　６　言語表現生成部
　１０　記憶装置
　１１　文書記憶部
　１２　入力装置
　１３　出力装置
　２０　コンピュータ装置
　２１　ＣＰＵ
　２２　ＲＡＭ
　２３　ＲＯＭ
　２４　インターフェイス回路
　２５　磁気ディスク記憶装置
　２６　読取装置
　２７　ビデオカード
　２８　キーボード
　２９　表示装置
　３０　記録媒体

Claims

　複数の言語表現を分析対象とする情報分析装置であって、
　リンク情報生成部と、相関値算出部とを備え、
　前記リンク情報生成部は、前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
　前記相関値算出部は、前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、ことを特徴とする情報分析装置。
　前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項１に記載の情報分析装置。
　前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項１に記載の情報分析装置。
　前記リンク情報生成部が、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項１に記載の情報分析装置。
　前記リンク情報生成部が、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項１から４のいずれかに記載の情報分析装置。
　前記リンク情報生成部が、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項１から５のいずれかに記載の情報分析装置。
　分析対象となる第１の言語表現の入力を受け付ける入力部と、
　前記第１の言語表現に関連する第２の言語表現を生成する言語表現生成部とを、更に、備え、
　前記リンク情報生成部が、前記第１の言語表現及び前記第２の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、更に、抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第１の言語表現と前記第２の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
　前記相関値算出部は、前記リンク情報から、前記第１の言語表現と前記第２の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第１の言語表現と前記第２の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項１～６のいずれかに記載の情報分析装置。
　複数の言語表現を分析対象とする情報分析方法であって、
（ａ）前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
（ｂ）前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
（ｃ）前記（ｂ）のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを有する、ことを特徴とする情報分析方法。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項８に記載の情報分析方法。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項８に記載の情報分析方法。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項８に記載の情報分析方法。
　前記（ｂ）のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項８～１１のいずれかに記載の情報分析方法。
　前記（ｂ）のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項８～１１のいずれかに記載の情報分析方法。
（ｄ）分析対象となる第１の言語表現の入力を受け付けるステップと、
（ｅ）前記第１の言語表現に関連する第２の言語表現を生成するステップとを更に有し、
　前記（ｄ）のステップ及び前記（ｅ）のステップは、前記（ａ）のステップの実行前に実行され、
　前記（ａ）のステップにおいて、前記第１の言語表現及び前記第２の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、
　前記（ｂ）のステップにおいて、前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第１の言語表現と前記第２の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
　前記（ｃ）のステップにおいて、前記（ｂ）のステップで生成された前記リンク情報から、前記第１の言語表現と前記第２の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第１の言語表現と前記第２の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項８～１３のいずれかに記載の情報分析方法。
　複数の言語表現を分析対象とする情報分析をコンピュータに実行させるためのプログラムであって、
　前記コンピュータに、
（ａ）前記複数の言語表現のいずれかを少なくとも含む複数の電子文書から、前記複数の電子文書それぞれが有する時間情報と、前記複数の電子文書における電子文書間の関係とを抽出するステップと、
（ｂ）前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記複数の言語表現における一の言語表現と他の一の言語表現との間のリンク及び前記リンクの出現時間を検出し、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成するステップと、
（ｃ）前記（ｂ）のステップで生成された前記リンク情報から、前記一の言語表現と前記他の一の言語表現との間のリンクの出現数及び各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記一の言語表現と前記他の一の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出するステップとを実行させる、ことを特徴とするプログラム。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との参照関係を抽出する、請求項１５に記載のプログラム。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との類似関係を抽出する、請求項１５に記載のプログラム。
　前記（ａ）のステップにおいて、前記複数の電子文書における電子文書間の関係として、前記複数の電子文書における一の電子文書と他の一の電子文書との対立関係を抽出する、請求項１５に記載のプログラム。
　前記（ｂ）のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間とのうち、いずれか一方又は両方を前記リンクの出現時間とする、請求項１５～１８のいずれかに記載のプログラム。
　前記（ｂ）のステップにおいて、前記一の言語表現を含む電子文書の時間情報に含まれる時間と、前記他の一の言語表現を含む電子文書の時間情報に含まれる時間との中間の時間を求め、求めた前記中間の時間を前記リンクの出現時間とする、請求項１５～１８のいずれかに記載のプログラム。
（ｄ）分析対象となる第１の言語表現の入力を受け付けるステップと、
（ｅ）前記第１の言語表現に関連する第２の言語表現を生成するステップとを、前記（ａ）のステップの実行前に、更に前記コンピュータに実行させ、
　前記（ａ）のステップにおいて、前記第１の言語表現及び前記第２の言語表現のいずれか一方を少なくとも含む電子文書から、前記電子文書が有する時間情報と、前記電子文書間の関係とを抽出し、
　前記（ｂ）のステップにおいて、前記（ａ）のステップで抽出した前記時間情報と前記電子文書間の関係とに基づいて、前記第１の言語表現と前記第２の言語表現との間のリンク及び前記リンクの出現時間を検出し、そして、検出された前記リンク及び前記リンクの出現時間を特定するリンク情報を生成し、
　前記（ｃ）のステップにおいて、前記（ｂ）のステップで生成された前記リンク情報から、前記第１の言語表現と前記第２の言語表現との間のリンクの出現数及び前記各リンクの出現時間を特定し、特定された前記リンクの出現数及び前記各リンクの出現時間を用いて、前記第１の言語表現と前記第２の言語表現との間の相関値を前記リンクが継続して出現する度合いに応じて算出する、請求項１５～２０のいずれかに記載のプログラム。