WO2006030751A1

WO2006030751A1 - 文書を時系列に配置した文書相関図の作成装置

Info

Publication number: WO2006030751A1
Application number: PCT/JP2005/016785
Authority: WO
Inventors: Hiroaki Masuyama; Haru-Tada Sato; Makoto Asada; Kazumi Hasuko; Hideaki Hotta
Original assignee: Intellectual Property Bank Corp.
Priority date: 2004-09-14
Filing date: 2005-09-12
Publication date: 2006-03-23
Also published as: CA2589531A1; KR20070053246A; JP4171514B2; EP1806663A1; RU2007114059A; JP2008269639A; BRPI0515687A; US20080294651A1; JPWO2006030751A1

Abstract

　文書相関図作成装置は、１つ又は複数の文書からなる文書要素Ｅの内容データ及び時間データを、複数の文書要素につき抽出する抽出手段２０、３０と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す樹状図を作成する樹状図作成手段５０と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段７０と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段９０と、を備える。これにより、分野ごとの時間的発展を適切に表す樹状図を自動作成する。

Description

明細書

文書を時系列に配置した文書相関図の作成装置

技術分野

[0001] 本発明は、文書相互の関係を示すとともに文書の時間的順序を反映した文書相関図を自動作成する技術に係り、特にこのような文書相関図の作成装置、作成方法及び作成プログラムに関する。

背景技術

[0002] 特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書相互の関係をわ力り易い形で提示するには、関連する内容ごとにその時間的発展を整理することが望ましい。従って、文書の内容による関連付けと時間順による配列とを両立させた文書相関図を自動作成することが望まれる。

[0003] 日本国特開平 11— 53387号公報「文書の関連付け方法及びそのシステム」（特許文献 1)は、時系列に順序付けられた文書を関連付ける方法を開示している。具体的には、文書間の単語の一致度に基づき文書間の類似度を計算し、前記類似度から、時間制約を用いて類似度行列を作成する。この類似度行列を、所定の閾値以上の類似度を持つ行列要素を 1とし残りは 0とする隣接行列に変換する。この隣接行列をもとに、文書の関連図である有向グラフを作成する。

[0004] 特許文献 1：特開平 11 53387号公報「文書の関連付け方法及びそのシステム」発明の開示

発明が解決しょうとする課題

[0005] しかし、上記特開平 11 53387号公報 (特許文献 1)に記載の技術では、ある文書から類似文書へ、更にその類似文書へと順次迪つて行くうちにずれの累積が生じ、やがてはまったく異なる文書に迪り着いてしまう可能性がある。また、ある文書から分岐した複数の流れが最終的に 1つの文書に迪り着くことも生じ、分岐の意味が不明確になる可能性もある。従って、上記特開平 11— 53387号公報 (特許文献 1)に記載の技術では、分野ごとの時間的発展を適切に表すことができないという問題がある。

[0006] 本発明の課題は、分野ごとの時間的発展を適切に表すことのできる文書相関図作成装置、作成方法及び作成プログラムを提供することである。

課題を解決するための手段

[0007] (1)上記の課題を解決するため、本発明の文書相関図作成装置は、 1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素にっき抽出する抽出手段と、前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す榭状図を作成する榭状図作成手段と、前記榭状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を備えている。

本発明によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

[0008] (2)上記の文書相関図作成装置において、前記クラスタリング手段が前記榭状図を切断する前記所定の規則は、連関規則分析により導出されたものであることが望ましい。連関規則分析により導出された切断規則を採用することにより、種々の榭状図に適用可能な (汎用性の高、)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。

[0009] (3)この文書相関図作成装置において、前記所定の規則は、前記榭状図の形状ノラメータに基づき導出されたものであることが望ましい。

榭状図の形状パラメータに基づいて導出された切断規則を採用することにより、榭状図形状に即した適切な切断位置を決定可能な、信頼性の高!ヽ切断規則を用いることができる。

また、解析対象榭状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少な!、計算量で済ませることができる。

榭状図を切断する回数は 1回のみでも良いし（固定 BC法;後述）、 1回の切断で得られた親クラスタの形状パラメータに基づいて切断規則を再度導出して当該親クラスタを切断し、子孫クラスタを抽出するようにしても良い（可変 BC法;後述)。可変 BC法によれば、要素数の多い親クラスタが生成されても、これを更に子孫クラスタに分離することができる。

[0010] (4)上記の各文書相関図作成装置において、前記所定の規則は、前記榭状図の各ノードで結合される複数の文書要素のベクトル次元数に基づき導出されたものであってもよい。

ベクトル次元数を加味して導出された切断規則を採用することにより、より適切な分岐を得ることができる。

上記複数の文書要素のベクトル次元数は、当該複数の文書要素のベクトル総和の次元数から、これら文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分の次元数を除いた次元数であることが望ましい。これにより、より適切な切断規則を用いることができる。

[0011] (5)この文書相関図作成装置において、前記クラスタリング手段は、前記各ノードで結合される複数の文書要素のベクトル次元数が一定値以上である力否かを前記ノードごとに判定し、前記判定の結果に基づいて前記一定値以上のノードを個別に切断することが望ましい。ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断することにより、より適切な分岐を得ることができる。

[0012] (6)上記の文書相関図作成装置において、前記クラスタリング手段は、前記榭状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書要素の内容データに基づいて前記親クラスタに属する文書要素群の相関を示す部分榭状図を作成し、当該作成された部分榭状図を所定の規則に基づき切断して子孫クラスタを抽出することが望ましい。

親クラスタの抽出後に、各親クラスタを再分析して作成した部分榭状図により子クラスタを抽出することにより、子クラスタの誤分類を改善し適切な分類を得ることができる

[0013] (7)この文書相関図作成装置において、前記クラスタリング手段は、前記部分榭状図の作成のために、前記親クラスタに属する複数の文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書要素ベクトル力除去することが望ましい。

親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が小さい値をとるベクトル成分を除去することにより、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行い、適切な分類を得ることができる。

文書要素のベクトル成分は、例えば、当該文書内の個々の索引語についての、全文書 IDF重み付け TF値 (TF * IDF (P)値；後述)である。偏差が小さ!/ヽか否かの判定は、例えば、親クラスタに属するすべての文書要素について、各索引語の TF * ID F (P)値を算出し、親クラスタに属する文書要素間でのこれらの平均に対する標準偏差の比が所定範囲内に収まる力否かによることができる。

[0014] (8)上記の文書相関図作成装置において、前記榭状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記榭状図を作成し、前記クラスタリング手段は、前記榭状図の 2箇所以上の所定の高さで切断して前記クラスタを抽出することが望ましい。

予め決められた複数の切断高さで切断することにより、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。

切断後の結線構造にっヽては、各切断位置で切断される枝線の数に基づヽて分岐構造を決定することが望ましい。これにより、榭状図の階層構造を程よく簡略ィ匕しつつ、当初の榭状図の階層構造を反映させた文書相関図を作成することができる。更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分榭状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。

[0015] (9)上記の各文書相関図作成装置において、前記榭状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記榭状図を作成し、前記クラスタリング手段は、前記榭状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で切断して前記クラスタを抽出することが望ま、。

結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて切断するので、様々な榭状図形状に幅広く対応でき、複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。

結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましぐ平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さ dの平均値く d >及び標準偏差 σ を用いて、 < d > + δ σ (但しー3≤ δ≤3)とするのが好ましい。な d d

お、結合高さ dの偏差を変数として含み、且つ結合高さ dの平均値 < d >を変数として含まない関数としては、例えば、結合高さ dの標準偏差 σ と、中点距離 m (後述)とを d

使って、 m+ ε σ (但し一 3≤ ε ≤ 3)とすることが考えられる。また、偏差は標準偏 d

差 σ に限らず平均偏差でも良い。

d

(10)上記の各文書相関図作成装置において、前記榭状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記榭状図を作成し、前記クラスタリング手段は、前記榭状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該榭状図を切断して親クラスタを抽出し、当該親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該親クラスタを切断して子孫クラスタを抽出することが望ましい。

親クラスタの抽出を、榭状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数 Nが多くても（例えば N > 20)適切な親子クラスタを得ることができる。また、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、榭状図に属する文書要素群の類似度が高い場合など様々な榭状図形状に幅広く対応でき、適切な親子クラスタを得ることができる。

結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数は、特に、少なくとも平均値を変数として含む関数であることが好ましぐ平均値と偏差の両方を変数として含む関数であることがより好ましい。例えば、結合高さ dの平均値く d >及び標準偏差 σ を用いて、 < d > + δ σ (但しー3≤ δ≤3)とするのが好ましい。なお、結合高さ dの偏差を変数として含み、且つ結合高さ dの平均値 < d>を変数として含まない関数としては、例えば、結合高さ dの標準偏差 σ と、中点距離 m (後述)とを

d

使って、 m+ ε σ (但し一 3≤ ε ≤ 3)とすることが考えられる。また、偏差は標準偏

d

差 σ に限らず平均偏差でも良い。

d

[0017] (11)上記の各文書相関図作成装置において、前記文書要素の内容データに基づいて、特定の属性を有する文書要素に対して他の文書要素と区別する表示を付加する区別表示付加手段を更に備えて、ても良、。

これにより、特定の属性を有する文書要素が、他の文書要素との関係で内容的及び時間的にどのように位置づけられるのかを知ることができる。

更に、時間軸を表示し、その時間軸に合わせて各文書要素を配置することが望ましい。これにより、当該技術分野の発展系統上における自社技術の位置付けを把握することがでさる。

また、区別表示のために用いる内容データとしては、例えば特許文書の出願人のデータを用いる。これによつてある出願人による特許文書群が、他社との関係でどのように位置付けられるのかを知ることができる。

例えば、類似度に基づいて比較的多い件数の類似文書群を抽出し、当該類似文書群について分析した場合には、比較的多方面の技術分野にわたる類似文書群の中での自社の位置付けを知ることができる。従って、上記の効果にカ卩え、自社があまり目をつけていな力つた類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。

更に上記比較的多い件数の類似文書群を母集団として再度類似度を算出し、比較的少ない件数の類似文書群について分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。

[0018] (12)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、前記クラスタ内に属する文書要素群で構成される榭状図にお、て、結合された文書要素のどちらがより古いかについて、最下位ノードから順に比較を行い、下位ノードでより古 V、と判定された文書要素を上位ノードでの比較対象として、最上位ノードまで比較して結果を記録し、最上位ノードでの比較の結果決定された最古要素を当該クラスタの先頭に配置し、当該最古要素と直接比較された文書要素の数だけ、当該最古要素からの分岐を作成し、これら比較された文書要素を上記各分岐に接続し、配列を決定することが望ましい。

これにより、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。

上記最古要素と直接比較された文書要素 (最古要素の対戦相手)が、より下位のノードで他の文書要素と比較されて、た場合は、上記最古要素の対戦相手を上記各分岐における最古要素として同様の処理を繰り返すことが望ましい。

[0019] (13)上記の各文書相関図作成装置において、前記クラスタ内配列手段は、当該クラスタ内の最古要素を 1つ又は複数抽出して先頭に配置し、前記最古要素を除いた残りの文書要素について、これら文書要素を定義する分類ごとに時間順配列を形成し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在する時間順配列については、当該同分類の最古要素と結線し、前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在しない時間順配列については、当該時間順配列のうちの最古要素と最も類似度合いの高い文書要素を当該クラスタ内から選出し、当該最も類似度合いの高い文書要素と結線して、当該クラスタ内の配列を決定することが望まし、。

このように、同時刻要素が生じる場合でも、要素定義が分類に基づく場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することがでさる。

[0020] (14)上記の各文書相関図作成装置において、時間スライス分類手段と、時間スライス間結線手段とを更に備え、前記時間スライス分類手段は、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類し、前記榭状図作成手段は、各時間スライスに属する文書要素群の相関を示す榭状図を作成し、前記クラスタリング手段は、前記各時間スライスの榭状図を所定の規則に基づき切断してクラスタを抽出し、前記時間スライス間結線手段は、異なる時間スライスに属するクラスタ同士を結線することが望ま、。このように時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係ち表すことがでさる。

上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合、の高、クラスタ同士を結線することが望まし、。

また、上記時間スライス間結線手段によるクラスタ同士の結線は、結線される双方のクラスタに属する要素間（時間後方群の最古要素と時間前方群の最新要素との間、或いは時間後方群の最古要素と時間前方群の最短距離要素との間など)での結線とすることが望ましい。

(15)また本発明の他の文書相関図作成装置は、 1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類する時間スライス分類手段と、前記各時間スライスに属する各文書要素の内容データに基づき、前記各時間スライス力もクラスタを抽出するクラスタリング手段と、異なる時間スライスに属するクラスタ同士を結線する時間スライス間結線手段と、を備えている。

このように、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、時間スライスによる切り分けを最初に行うことにより、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。

上記クラスタリング手段によるクラスタの抽出は、榭状図切断の方法によるのが好ましいが、これに限られるものではなぐ公知の k一平均法などを用いたクラスタ抽出でちょい。

また、各クラスタ内における文書要素の配列は、文書要素の時間データに基づいて行っても良いし、時間データに基づかずに例えば単なる並列配置としてもよい。上記時間スライス間結線手段によるクラスタ同士の結線は、クラスタ間の類似度合いを群間距離、最古要素と時間前方群の最短距離要素の要素間距離などにより計算し、類似度合、の高、クラスタ同士を結線することが望まし、。

[0022] (16)また本発明は、上記各装置によって実行される方法と同じ工程を備えた文書相関図作成方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる文書相関図作成プログラムである。このプログラムは、 FD、 CDROM、 DVDなどの記録媒体に記録されたものでもよぐネットワークで送受信されるちのでもよい。

発明の効果

[0023] 本発明によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することがでさる。

図面の簡単な説明

[0024] [図 1]本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図

[図 2]上記の文書相関図作成装置における構成と機能を、特に処理装置 1と記録装置 3にっき詳細に説明する図。

[図 3]上記の文書相関図作成装置における処理装置 1の動作手順を示すフローチヤート。

圆 4]実施例 1 (均衡切断法; BC法)で行う連関規則分析に用いるパラメータの説明図。

[図 5]実施例 1におけるクラスタ抽出過程を説明するフローチャート。

[図 6]実施例 1におけるクラスタ抽出過程での榭状図配置例を示す図。

[図 7]実施例 1の方法により生成された文書相関図の具体例を示す図。

[図 8]実施例 2 (余次元降下法; CR法）におけるクラスタ抽出過程を説明するフローチヤート, 圆 9]実施例 2におけるクラスタ抽出過程での榭状図配置例を示す図。

圆 10]実施例 2の方法により生成された文書相関図の具体例を示す図。

[図 11]実施例 3 (細胞分裂法; CD法）におけるクラスタ抽出過程を説明するフローチヤート。

圆 12]実施例 3におけるクラスタ抽出過程での榭状図配置例を示す図。

圆 13]実施例 3の方法により生成された文書相関図の具体例を示す図。

圆 14]実施例 3の方法により生成された文書相関図の他の具体例を示す図。

[図 15]実施例 4 (段階的切断法; SC法）におけるクラスタ抽出過程を説明するフローチャート。

圆 16]実施例 4におけるクラスタ抽出過程での榭状図配置例を示す図。

圆 17]実施例 4の方法により生成された文書相関図 (標準化あり）の具体例を示す図圆 18]実施例 4の方法により生成された文書相関図 (標準化なし)の具体例を示す図圆 19]実施例 5 (可変複合法; FC法）におけるクラスタ抽出過程を説明するフローチヤート。

[図 20]実施例 5におけるクラスタ抽出過程での榭状図配置例の一部を示す図。

圆 21]実施例 5の方法により生成された文書相関図 (g固定)の具体例を示す図。圆 22]実施例 5の方法により生成された文書相関図 (g非設定)の具体例を示す図。圆 23]実施例 5の方法により生成された文書相関図の他の具体例を示す図。

圆 24]実施例 5の変形例 1による方法で生成された文書相関図の具体例を示す図。圆 25]実施例 5の変形例 2による文書相関図の作成過程を示す図。

[図 26]実施例 5の変形例 2による方法で生成された文書相関図の具体例（文書 3000 件)を示す図。

圆 27]実施例 5の変形例 2による方法で生成された文書相関図の具体例 (文書 300 件)を示す図。

[図 28]図 26の文書相関図における別の表示例の一部を示す図。

[図 29]図 26の文書相関図における更に別の表示例の一部を示す図。 [図 30]実施例 6 (—本釣り配列; PLA)におけるクラスタ内配列過程を説明するフローチャート。

[図 31]実施例 6におけるクラスタ内配列過程での榭状図配置例を示す図。

[図 32]実施例 7 (群時系順序; GTO)におけるクラスタ内配列過程を説明するフローチャート。

[図 33]実施例 7におけるクラスタ内配列過程での榭状図配置例の一部を示す図。

[図 34]実施例 8 (時断面分析; TSA)の文書相関図作成装置における構成と機能を、更に詳細に説明する図。

[図 35]実施例 8における文書相関図作成過程を説明するフローチャート。

[図 36]実施例 8における文書相関図作成過程での榭状図配置例を示す図。

[図 37]実施例 8の方法により生成された文書相関図の第 1の具体例及びその生成過程を示す図。

[図 38]実施例 8の方法により生成された文書相関図の第 2の具体例及びその生成過程を示す図。

[図 39]実施例 8の方法により生成された文書相関図の第 3の具体例及びその生成過程を示す図。

[図 40]実施例 8の方法により生成された文書相関図の第 4の具体例及びその生成過程を示す図。

符号の説明

[0025] 1 :処理装置、 2 :入力装置、 3 :記録装置、4 :出力装置、

20：時間データ抽出部 (抽出手段)、 25：時間スライス分類部 (時間スライス分類手段)、 30 :索引語データ抽出部 (抽出手段 )、 50 :榭状図作成部 (榭状図作成手段)、 70：クラスタ抽出部（クラスタリング手段）、 75：時間スライス間結線部（時間スライス間結線手段）、 90：クラスタ内要素配置部 (クラスタ内配列手段）、

E :文書要素、 oc：切断高さ、 c :ノード (結節点）、 n :スライス番号、 G :グループ発明を実施するための最良の形態

[0026] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。

[0027] < 1.語彙の説明等 > 本明細書の中で使用する語彙を説明する。

文書要素 E又は E〜E ：分析対象となる文書集団を構成し、本発明による分析

1 N

の単位となる個々の要素。各文書要素は 1つ又は複数の文書力なる。文書要素群というときは、複数の文書要素を指すものとする。

類似度合い：比較される文書要素と文書要素、文書要素と文書要素群、又は文書要素群と文書要素群の、類似度又は非類似度。比較される文書要素又は文書要素群をベクトル表現し、ベクトル間の余弦乃至 Tanimoto相関（類似度の一例）などべタトル成分間の積の関数を用いて表現する方法、ベクトル間の距離 (非類似度の一例）などベクトル成分間の差の関数を用いて表現する方法がある。

榭状図：分析対象である文書集団を構成する各文書要素を榭状に結線した図。デンドログラム：階層的クラスタ分析によって生成される榭状図。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度 (類似度）に基づいて、非類似度が最小 (類似度が最大)の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さ、順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。

索引語：文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなぐ従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書 (シソーラス）のデータベースを事前に保持し該データべ一スから得られる索引語を利用する方法でもよい。

以降の説明を簡素にするため、略号を決める。

d ：榭状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ (結合距離)。類似度を文書ベクトル (又は文書群ベクトル）間の余弦 _cos Θで定義した場合、 d = a - bcos Θ (例えば a = b = 1)とすることが望ましい。

a 榭状図の切断位置の高さ。

a * : < d > + δ σ (但し 3≤ δ ≤ 3)で算出される榭状図の切断高さ。ここでく d >は当該榭状図における全結合高 dの平均値であり、 σ は当該榭状図における全 d

結合高 dの標準偏差である。

N ：分析対象の文書要素数。

t ：文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れ力とすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。

[0029] TF (E) : 文書要素 Eの索引語による、当該文書要素 Eの中での出現頻度 (索引語頻度； Term Frequency)。

DF (P)：文書要素 Eの索引語による、母集団である全文書 Pの中での文書頻度（ Document Frequency) ₀文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。母集団である全文書 Pとしては、特許文献についての分析であれば、例えば日本国内で過去 10年間に発行されたすベての公開特許公報又は登録実用新案公報約 400万件を用いる。

TF * IDF (P)： TF (E)と、〃DF (P)の逆数 X母集団である全文書数〃の対数との積。文書の索引語ごとに演算される。なお、文書要素 Eが複数の文書からなる場合には、 GF (E) * IDF (P)と等価である。

GF (E) : 文書要素 Eが複数の文書力なる場合に、当該文書要素 Eを構成する各文書の索引語による、当該文書要素 Eの中での出現頻度 (大域的頻度; Global Fr equency)。

DF (E) : 文書要素 Eが複数の文書からなる場合に、当該文書要素 Eを構成する各文書の索引語による、当該文書要素 Eの中での文書頻度。

GFIDF (E)：文書要素 Eが複数の文書力なる場合に、 GF (E) /DF (E)。文書の索引語ごとに演算される。

[0030] < 2.文書相関図作成装置の構成 > 図 1は本発明の一実施形態に係る文書相関図作成装置のハードウェア構成を示す図である。同図に示すように、本実施形態の文書相関図作成装置は、 CPU (中央演算装置)およびメモリ (記録装置)などから構成される処理装置 1、キーボード (手入力器具)などの入力手段である入力装置 2、文書データや条件や処理装置 1による作業結果などを格納する記録手段である記録装置 3、および作成された文書相関図を表示又は印刷等する出力手段である出力装置 4から構成される。

[0031] 図 2は上記の文書相関図作成装置における構成と機能を、特に処理装置 1と記録装置 3にっき詳細に説明する図である。

処理装置 1は、文書読み出し部 10、時間データ抽出部 20、索引語データ抽出部 3 0、類似度演算部 40、榭状図作成部 50、切断条件読み出し部 60、クラスタ抽出部 7 0、配置条件読み出し部 80、クラスタ内要素配置部 90、を備えている。

記録装置 3は、条件記録部 310、作業結果格納部 320、文書格納部 330などから構成される。文書格納部 330は外部データベースや内部データベースを含んで、る。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館の IPDLや、株式会社パトリスでサービスして!/、る PATOLISなどの文書データべ一スを意味する。又内部データベースとは、販売されている例えば特許 JP— ROMなどのデータを自前で格納したデータベース、文書を格納した FD (フレキシブルディスク )、 CD (コンパクトディスク） ROM、 MO (光磁気ディスク）、 DVD (デジタルビデオディスク)などの媒体力読み出す装置、紙などに出力された或いは手書きされた文書を読み込む OCR (光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

[0032] 図 1及び図 2において、処理装置 1、入力装置 2、記録装置 3、および出力装置 4の間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステムバス）ケーブルなどで直接接続してもよ、し、 LAN (ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 DV Dなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

[0033] < 2— 1.入力装置 2の詳細 > 次に、図 2により上記の文書相関図作成装置における構成と機能を詳しく説明する入力装置 2では、文書要素群の読み出し条件、榭状図の作成条件、榭状図の切断によるクラスタの抽出条件、クラスタ内要素の配置条件などの入力を受け付ける。これら入力された条件は、記録装置 3の条件記録部 310へ送られて格納される。

[0034] < 2— 2.処理装置 1の詳細 >

文書読み出し部 10は、入力装置 2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す。読み出された文書要素群のデータは、時間データ抽出部 20及び索引語データ抽出部 30に直接送られて各々での処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

なお、文書読み出し部 10から時間データ抽出部 20及び索引語データ抽出部 30 或ヽは作業結果格納部 320に送られるデータは、読み出された文書要素群の時間データ及び内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ（例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づ!/、て再度文書格納部 330から各文書要素のデータを読み出せばよ、。

[0035] 時間データ抽出部 20は、文書読み出し部 10で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部 90 に直接送られてそこでの処理に用いられ、或、は記録装置 3の作業結果格納部 320 に送られて格納される。

[0036] 索引語データ抽出部 30は、文書読み出し部 10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部 40に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0037] 類似度演算部 40は、索引語データ抽出部 30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度 (又は非類似度)を演算する。この類似度の演算は、入力装置 2から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部 310から呼び出してきて実行する。算出された類似度は、榭状図作成部 50に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0038] 榭状図作成部 50は、入力装置 2で入力される榭状図作成条件に従って、類似度演算部 40で演算された類似度に基づき、分析対象である文書要素群の榭状図を作成する。作成された榭状図は、記録装置 3の作業結果格納部 320に送られて格納される。榭状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。

[0039] 切断条件読み出し部 60は、入力装置 2で入力され記録装置 3の条件記録部 310 に記録された榭状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部 70に送られる。

[0040] クラスタ抽出部 70は、榭状図作成部 50で作成された榭状図を記録装置 3の作業結果格納部 320から読み出すとともに、切断条件読み出し部 60で読み出された切断条件に基づいて当該榭状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記録装置 3の作業結果格納部 320に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。

[0041] 配置条件読み出し部 80は、入力装置 2で入力され記録装置 3の条件記録部 310 に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部 90に送られる。

[0042] クラスタ内要素配置部 90は、クラスタ抽出部 70で抽出されたクラスタのデータを記録装置 3の作業結果格納部 320から読み出すとともに、配置条件読み出し部 80で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記録装置 3の作業結果格納部 320に送られて格納され、必要に応じて出力装置 4にて出力される。

[0043] < 2— 3.記録装置 3の詳細 > 図 2の記録装置 3において、条件記録部 310は、入力装置 2から得られた条件などの情報を記録し、処理装置 1の要求に基づき、必要なデータを送る。作業結果格納部 320は、処理装置 1における各構成要素の作業結果を格納し、処理装置 1の要求に基づき、必要なデータを送る。文書格納部 330は、入力装置 2或いは処理装置 1 の要求に基づき、外部データベース或いは内部データベース力得た、必要な文書データを格納し、提供する。

[0044] < 2-4.出力装置 4の詳細 >

図 2の出力装置 4は、処理装置 1のクラスタ内要素配置部 90で作成され記録装置 3 の作業結果格納部 320に格納された文書相関図を出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。

[0045] < 3.文書相関図作成装置の作用 >

< 3- 1.文書相関図作成装置の動作 >

図 3は上記の文書相関図作成装置における処理装置 1の動作手順を示すフローチヤートである。

[0046] まず、文書読み出し部 10において、入力装置 2で入力される読み出し条件に従つて、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す（ステップ S10)。分析対象となる文書要素群は、例えば、全特許文書のうち、ある特許文書との類似度降順 (非類似度昇順)に選出された文書群としても良いし、特定のキ一ワード (国際特許分類、技術用語、出願人、発明者など)などあるテーマに沿った検索によって選出された文書群としても良いし、他の方法で選出しても良い。

[0047] 次に、時間データ抽出部 20において、文書読み出しステップ S10で読み出された文書要素群から、各要素の時間データを抽出する (ステップ S 20)。

[0048] 次に、索引語データ抽出部 30において、文書読み出しステップ S10で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する (ステップ S30)。各文書要素の索引語データは、例えば、文書要素 E力も抽出された索引語の各々についての当該文書要素内における出現回数 (索引語頻度 TF (E)。文書要素 Eがそれぞれ複数の文書力もなる場合は大域的頻度 GF (E) )の関数値を成分とする、多次元ベクトルで表現することができる。なお、文書要素の内容データとしては、索引語データに限らず、国際特許分類 (IPC)、出願人、発明者等のデータも用いることがでさる。

[0049] 次に、類似度演算部 40において、索引語データ抽出ステップ S30で抽出された各文書要素の索引語データに基づき、文書要素間の類似度 (又は非類似度)を演算する（ステップ S40)。

[0050] 類似度演算の具体的な一例としてベクトル空間法を用いたものを説明すると以下の通りである。今、分析対象である文書集団を構成し分析単位となる個々の文書要素を E〜Eとする。これら文書要素 E〜E に対する演算の結果、文書要素 E力切り

1 N 1 N 1 出された索引語を「赤」「青」「黄」とする。また、文書要素 E力も切り出された索引語

2

を「赤」「白」とする。その場合、各索引語につき、文書要素 Eでの索引語頻度 TF (E )、文書要素 Eでの索引語頻度 TF (E )、母集団である全文書 P (全文書 Pの文書数

2 2

を 400とする。）での文書頻度 DF (P)力それぞれ次の通りであるとする。

[表 1]

TF * IDF (P)を各文書の索引語毎に計算して、各文書要素のベクトル表現を算出する。この結果は文書要素ベクトル E及び Eについて、次のようになる。

1 2

[表 2]

このベクトル E及び E間の余弦 (又は距離)の関数を取れば、文書要素ベクトル E

1 2 1 及び E間の類似度 (又は非類似度)が得られる。なお、ベクトル間の余弦 (類似度）は値が大きいほど類似度合いが高いことを意味し、べ外ル間の距離 (非類似度）は値力 S小さ、ほど類似度合、が高、ことを意味する。

[0053] 各文書要素を表すベクトルの成分としては、文書要素 Eがそれぞれ 1つの文書からなる場合 (ミクロ要素）には、例えば索引語の TF * IDF (P)を用いるのが好ましい。また、文書要素 Eがそれぞれ複数の文書力もなる場合 (マクロ要素）には、各文書要素を表す文書群ベクトルの成分としては、例えば GFIDF (E)或いは GF (E) * IDF (P) を用いることが好ましい。また、これらの関数など他の指標を用いて文書要素ベクトルの成分としてもよい。

また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。

[0054] 次に、榭状図作成部 50において、入力装置 2で入力される榭状図作成条件に従つて、類似度演算ステップ S40で演算された類似度に基づき、分析対象である文書要素群の榭状図を作成する (ステップ S50)。榭状図としては、文書要素などの間の非類似度 (又は類似度)を結合位置の高さ (結合距離)に反映させたデンドログラムを作成することが望ましい。例えば、文書要素間の結合高さ dを、 d= l -cos Θ (cos Θは、例えば、文書要素ベクトル間の余弦又は標準化処理した文書要素ベクトル間の余弦 )とする。デンドログラムの具体的な作成方法としては、公知の Ward法などを用いる。

[0055] 次に、切断条件読み出し部 60において、入力装置 2で入力され記録装置 3の条件記録部 310に記録された榭状図切断条件を読み出す (ステップ S60)。

[0056] 次に、クラスタ抽出部 70において、切断条件読み出しステップ S60で読み出された切断条件に基づき、榭状図作成ステップ S50で作成された榭状図を切断し、クラスタを抽出する (ステップ S70)。

[0057] 次に、配置条件読み出し部 80において、入力装置 2で入力され記録装置 3の条件記録部 310に記録されたクラスタ内の文書要素配置条件を読み出す (ステップ S80)

[0058] 次に、クラスタ内要素配置部 90において、配置条件読み出しステップ S80で読み出された文書要素配置条件に基づき、クラスタ抽出ステップ S70で抽出されたクラスタ内の文書要素の配置を決定する (ステップ S90)。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップ S80を一度実行すれば、他のクラスタのために再度実行する必要はな、。

[0059] < 3— 2.文書相関図作成装置の効果 >

本実施形態によれば、分野ごとの時間的発展を適切に表す文書相関図を自動作成することができるので、例えば特許文書であれば、技術の分岐の源となる発明、基本特許、関連分野などの発掘に役立つ文書相関図を容易に作成することができる。

[0060] また、ある技術が、予想もしな力つた技術からの分岐であったことや、或いは別な技術へ応用されていったことなどが「所要時間も含めて」読み取れるので、製品開発へのヒントを提供することができる。また、新規発明までに要する時間、出願件数の規模の比から開発コストを試算するといつたことも可能になる。

[0061] また、集団内（自社内、他社内、業界内）の特許文書群を対象として文書相関図を作成することにより、当該集団内の特許構造を整理して理解し、特許戦略への活用を図ることができる。

[0062] また、製品ごとに抽出した特許文書群を対象として文書相関図を作成することにより、どの品目がどの技術と結びついて出現してきたかを分析することができる。また、発明者ごとに抽出した特許文書群を対象として文書相関図を作成することにより、技術が誰力も誰へと受け継がれていつたかを分析することもできる。

[0063] <4.クラスタ抽出の実施例 >

次に、上記の文書相関図作成装置による文書相関図の種々の作成方法について、具体的に説明する。まずは榭状図を切断しクラスタを抽出する過程 (主として図 3のステップ S70に相当）に関する実施例 1〜5について説明し、続いて時間データに基づき配列を決定する過程 (主として図 3のステップ S90などに相当）に関する実施例 6 〜8について説明する。クラスタ抽出過程に関する実施例 1〜5と、時間配列過程に関する実施例 6〜8とは、互いに任意の組合せが可能である。

なお、実施例 1〜5及び実施例 6〜8に付した「均衡切断法 (BC法)」「余次元降下法 (CR法)」などの名称は、本発明を説明するために便宜的に与えるものである。

[0064] < 4 1.実施例 1 (均衡切断法； BC法） > 均衡切断法 (Balance Cutting Method)では、榭状図の切断位置の決定に連関規則を用いる。つまり、予め既存の教師図（時間データに基づいて配置した文書相関図を与えるための理想切断位置が既知である榭状図）を多数分析し、理想的な切断位置がなるべく選出される規則 (連関規則)を、種々の榭状図パラメータに対する条件式として求めておく。この分析を連関規則分析という。こうして求めておいた連関規則を、解析対象の榭状図に適用して切断位置を決定する。

[0065] <4 1 1.連関規則分析の説明 >

二つの事象 A、 Bに対し、それぞれが独立に発生する確率を P (A)、 P (B)とする。事象 A (前提事象）が発生した後で事象 B (帰結事象）が発生する場合、その確率 (条件付確率)を P (B I A)と記し、 P (A)を「前提確率」、 P (B)を「事前確率」、 P (B | A) を「事後確率」と呼ぶ。

[0066] 次の（1)〜（3)の基準によって選出された二つの事象のセットを「連関規則」 A→B と呼び、「事象 Aが発生すれば、（ある値以上の確率で)事象 Bが発生する」という規則性を意味する。

(1)前提確率 P (A)が高い

(2)事前確率 P (B)が低く事後確率 P (B I A)が高い

(3)従って、前提確率 P (A)と事後確率 P (B I A)が共に高い

[0067] 確率が「高い」とは、ある閾値以上の値をとることを意味する。例えば、事後確率 P ( B I A)に対する閾値は「信頼度」（confidence)と呼ばれ、例えば 60〜70%程度に設定される。また例えば、同時確率(？(八门8) =? (八)？( I A) )に対する閾値は「サポート」（support)と呼ばれ、例えば 60%程度に設定される。

[0068] 連関規則を算出するアルゴリズムは公知である力これを本発明における榭状図切断位置の決定のための連関規則の導出に適用する場合にっ、て、次の 4 1 2. 4- 1 - 3.にて説明する。

[0069] <4 1 2.パラメータの読み取り >

図 4は、実施例 1で行う連関規則分析に用いるパラメータの説明図である。連関規則の導出のためには、まず、教師図のパラメータを読み取る。例えば、教師図の幾何的形状から以下のパラメータを読み取る。なお、解析対象榭状図に連関規則を適用する際には、当該解析対象榭状図についても、同様のパラメータを読み取ることが必要となる。

[0070] 中点距離 m: 二体結合 (初期結合)の高さを hとし、二体結合より上段の結合につ

0

V、ての下段との差分 Ahを、 Ah=h—h とする。但し添え字 iは結合レベル (初 i i i (i-1)

期結合を 0とし 1段上がるごとに 1をカ卩えた数)である。 Ah Zh ≥1 又は ΔΙιΖΔ

1 o j h ≥2(jは結合レベル iのうち 2以上の数)を満たす Δ hが榭状図全体で p個あつ

(j-l) i

た場合、各 Ahを定める上端下端の中点値 m (k=l, 2, ···, p)の平均

i k

m=(l/p) X∑m

k

を中点距離とする。

[0071] 土台 <h >：二体結合の高さ hの平均値。すなわち、二体結合が榭状図全体で

0 0

q個あった場合、

<h > = (l/q) X∑h

o o

[0072] 最終結合高さ H: 最終結合距離

榭状図面積 S (図示せず）：最終結合高さ H X全要素数 N

クラスタ面積 s (図示せず）：全要素の最初の結合高さの和

[0073] 切断高さ候補 α 、 α 、 α (図示せず）：

0 1 2

a =m

o

a =m-<h >/2

1 0

a =(∑m +∑h )/(p + q)

2 k 0

[0074] なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さ dの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離 mの代わりに、結合高さ平均値 <d>を用いることもできるし、上記土台 <h >の代わりに、結合高さの平均値 <d>と標準偏差 σ

0 d を用いて <d>— σ 或いはく d>— 2σ を用いることもできる。また、切断高さ候補と d d

して、 a =<d〉或いは α =<ά>+0.5σ を追カロしても良い。

3 3 d

[0075] <4 1 3.連関規則の導出例 >

連関規則の導出例として、教師図 28件を基に導出した例を説明する。

ここでは、教師図が少な目であるのでサポート（同時確率 Ρ (Α ΠΒ)=Ρ(Α)Ρ(Β I A)の閾値）は考慮に入れな力つた。代わりに、「前提事象 A発生後の帰結事象 Bの発生数 Z前提事象 A発生の有無で絞る前の事象 Bの発生数」を『保存率』と命名し、また (P (B I A)— P (B) ) /P (B)を確率の『伸び率』と命名し、これらを判定に用いた。これら保存率及び伸び率は、事前確率に対する事後確率の減少度の小ささを表すものということができる。

判定の優先順位として第一に信頼度 (事後確率 P (B I A)に対する閾値 = 65%)、第二に保存率 (60%)、第三に伸び率 (60%)を用いることを原則とした。

[0076] (i)自明解の検出

三つの切断高さ候補 α 、 _α 、 _α のうち、最善値を与える頻度が高力つたのが α

0 1 2 0 で、教師図全 28件のうち 13件であった。 a が最適解 (最善値又は次善値)を与える

0

場合を含めると教師図全 28件のうち 20件が該当したので、第一候補として _α をとる

0 としした。

[0077] (ii)自明解の閾値検出 (前提条件の検出）

教師図全 28件のうち、中点距離 m< 0. 9 をとるもの（12件存在した）に限定して切断高さ候補を適用すると、 12件全件（100%)で α が最適解となった (信頼度 100

0

%) ο

従って、以下の条件式が導かれる。

mく 0. 9 a = a

o

[0078] (iii)残りの前提条件下での規則検出

教師図のうち、残りの m≥0. 9 をとるもの（16件）について分析する。中点距離 m が大きいということは榭状図の高さが高いということを意味する。そこで、教師図全 28 件の高さについて調べたところ、次のような規則が見られた：

s/S≥0. 345 (全 18件） → < h >/m≥0. 5 (内 17件） …式 1

0

ここで、「クラスタ面積 sZ榭状図面積 S」をクラスタ密度、「土台く h >Z中点距離 m」

0

を土台比率と定義する。つまり、 94%の確率で「クラスタ密度が高い→土台比率が高い」という規則が得られた。

[0079] (iii-a) s/S≥0. 345 & < h >/m≥0. 5 の場合

0

そこで、この 17件に対して、条件 m≥0. 9 で絞る前（17件）と絞った後（11件あつた)で最適解の確率を比べると、

[表 3]

となった。事後確率が高く且つ件数の変動が少ないのは _α である (信頼度 82%、保

2

存率 75%)。従って、以下の条件式が導かれる。

m≥0. 9 & s/S≥0. 345 & < h >/m≥0. 5 → a = a

0 2

s/S の条件と < h >/m の条件をクロスさせているのは誤判定を避けるためで

0

ある。

[0080] (iii-b) m/H< 0. 55 の場合

次に、 m≥0. 9 で sZS < 0. 345 又は < h >/m< 0. 5 の場合を考えるベ

0

きである力該当件数が 5件と少ないので、異なる条件分岐で改めて m≥0. 9 の 1 6件を再分析する。再分析の目的は密度が低いもの或いは高さが低いものについての条件式を導くことであるから、高さと密度で条件分岐を考える。

[0081] 高さについて「中点距離 mZ最終結合高さ H」を高層度と定義し、 mZH≥0. 55 ( 高層型）と mZHく 0. 55 (下方群生型）とに分別する。

[0082] 密度に関しては、上記式 1によりクラスタ密度 sZSと土台比率 < h >Zmには高い

0

相関があるので、まず、土台比率 <h >Zmの大小に応じた条件式を探ってみる。

0

教師図全 28件のうち、条件 m≥0. 9 で絞る前（28件）と絞った後（16件)で最適解の確率を比べると、

[0083] mZH≥0. 55 (高層型）においては：

土台比率 < h >/m < 0. 4 に関しては事前確率がゼロ、

0

土台比率 < h >/m ≥ 0. 4 に関しては事前事後確率の大きな変化が認めら

0

れず、

結局、有意な規則は導かれない。 m/H< 0. 55 (下方群生型）においては：

まず、土台比率 < h >/m < 0. 4 のとき、

0

[表 4]

となったので、 a を採用でき (信頼度 100%)、以下の条件式を導くことができる。

0

m≥0. 9 & m/H< 0. 55 & < h〉/m< 0. 4 → a = a

o o

一方、土台比率 <h〉Zm ≥ 0. 4 のとき、

0

[表 5]

となった。 α と α で事後確率が向上している力保存率、伸び率を両者で比較する

1 2

と、 α を採用でき (信頼度 67%、保存率 100%、伸び率 168%)、以下の条件式を導くことができる。

m≥0. 9 & m/H< 0. 55 & < h >/m≥0. 4 → α = α

0 1

(iii-c) m/H≥0. 55 の場合

次に、（iii-b)で決まらなかった m≥0. 9 で mZH≥0. 55 (高層型）の場合について分析する。

ここでは、クラスタ密度 sZSに応じて、条件 m≥0. 9 で絞る前と絞った後で最適解の確率を比べる。

まず、クラスタ密度 sZSく 0. 4のとき、 [表 6]

となった。事後確率 (信頼度）が高いのは _α と _α である力、両者に有意な差はない

0 2

ため、事前確率の高い α

0を採用でき、以下の条件式を導くことができる。

m≥0. 9 & m/H≥0. 55 & sZS< 0. 4 → =

o

次に、クラスタ密度 sZS≥0. 4のとき、

[表 7] 事前確率事後確率

0 3件 Z8 (38%) → 2件 Z7 (29%)

3件 Z8 (38%) → 2件 Z7 (29%) ひ 2 7件ノ 8 (88%) → 6件ノ 7 (86%) となった。事後確率の高い _α を採用でき (信頼度 86%、保存率 86%)、以下の条件

2

式を導くことができる。

m≥0. 9 & m/H≥0. 55 & s/S≥0. 4 → a = a

2

[0086] なお、 m≥0. 9 で mZHく 0. 55 (下方群生型）の場合についても、クラスタ密度 s/Sに応じた分析をした場合、

クラスタ密度 sZS< 0. 4 に間しては事前事後確率の大きな変化が認められず、クラスタ密度 sZS≥0. 4 に間しては事後確率ゼロで、

結局、有意な規則は導かれない。

[0087] (iv)まとめ

以上をまとめて、最適の切断高さ (Xを選出する規則として、以下の式を得ることができる。 a =F (m, 0.9； a , F ( < h > /m, 0.5； A, B) )

Θ 0 0 0

B = F (s/S, 0.345； A, a )

Θ o

A=F (m/H, 0.4； F ( < h > /m, 0.4 ; α , a ) , F (s/S, 0.4 ; a , a θ Θ 0 0 1 0 0

) )

2

[0088] 但し、 F (x， y； y, z) = Θ (x< y ) y+ Θ (x≥ y ) z

Θ

なお、 θ (X)は、命題 Xが真のとき 1、それ以外のとき 0を返す関数である。つまり、 F (X, y； y， z)は、 Xく yのとき y、 x≥ yのとき zを返す関数である。

Θ

[0089] こうして導出された連関規則は、入力装置 2からの入力等に従い、記録装置 3の条件記録部 310に格納される。なお、この連関規則は教師図に依存するものなので、例えば解析対象榭状図の要素数に応じて教師図を更新し、再度連関規則分析をすれば、これと異なる連関規則が導かれ得る。

[0090] く 4— 1—4.クラスタ抽出手順 >

次に、上述の方法で導出された連関規則を用いて決定される切断位置を用いて、榭状図を切断し、クラスタを抽出する具体的手順について説明する。

[0091] 図 5は、実施例 1 (均衡切断法; BC法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例 1の手順を図 3より詳細に示している。図 3と同様のステップには図 3のステップ番号に 100を加えて下二桁を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。

図 6は、実施例 1におけるクラスタ抽出過程での榭状図配置例を示す図であり、図 5 を補足するものである。 E〜E は文書要素を表し、ここでは便宜上、添え字の小さ

1 11

いほうがより小さな時間 tをもつ（より古い)文書要素であるものとする。

[0092] まず、処理装置 1の文書読み出し部 10が、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステップ S 110)。

[0093] 次に、処理装置 1の時間データ抽出部 20が、分析対象である文書集団の各文書要素から時間データを抽出する (ステップ S 120)。

[0094] 次に、処理装置 1の索引語データ抽出部 30が、分析対象である文書集団の各文書要素から索引語データを抽出する (ステップ S 130)。このとき、後述のように文書集団のうちの最古要素（最古の文書要素) Eの索引語データは不要なので、ステップ S 120で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。

[0095] 次に、処理装置 1の類似度演算部 40が、各文書要素間の類似度を演算する (ステップ S140)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。

[0096] 次に、処理装置 1の榭状図作成部 50が、分析対象である文書集団の各文書要素力もなる榭状図を作成する (ステップ S 150 :図 6 (A) )。このとき、最古要素 Eは他の要素との類似度如何に関わらず、榭状図の先頭に配置する。

[0097] 次に、処理装置 1の切断条件読み出し部 60が、切断条件の読み出しを行う (ステツプ S160)。ここでは榭状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。

[0098] 次に、クラスタ抽出部 70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って榭状図のパラメータを読み出す (ステップ S171)。次に、このパラメータに対して上記読み出された連関規則を適用し、榭状図の切断高さ _aを決定する (ステップ S 172 :図 6 (B) )。決定された切断高さに従い、榭状図を切断し、クラスタを抽出する (ステップ S173)。ここで抽出されたクラスタの数だけ、上記先頭要素 E力枝線を作成する（図 6 (C)参照)。

[0099] 次に、抽出された各クラスタにっき、以下の処理を行う。

[0100] まず、各クラスタの文書要素数を計数する (ステップ S 174)。文書要素 3個を超えるクラスタについて、当該クラスタの最古要素 Eを除外して当該クラスタの先頭に配置し、残りのクラスタ内要素 E〜E による部分榭状図を作成する (ステップ SI 75 :図 6 (

8 11

C) )。このときに作成する部分榭状図は、当該クラスタの最古要素 Eが除外されている他は、ステップ S150で最初に作成した榭状図のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素 Eが除外されているので、当該クラスタ内での要素群間距離が変化する。従って、残りのクラスタ内要素 E〜E

8 11 の内容データに基づいて再分析すればステップ S150で作成した榭状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離 (非類似度)或いは文書要素群と文書要素群の距離 (非類似度)として重心間距離又は全距離平均を用いて榭状図を作成する場合、図 6 (B)における要素 E及び Eと要素 Eとの距離

7 8 9 に対して、図 6 (C)における要素 Eと要素 Eとの距離は異なるものとなるので、この部

8 9

分は異なる構造になり得る。

[0101] 部分榭状図の作成されたクラスタについてはステップ S171に戻り、当該部分榭状図のパラメータを読み出し、ステップ S172にて切断高さ aを決定する（図 6 (D) )。

[0102] 部分榭状図のパラメータは、ステップ S150で最初に作成した榭状図のパラメータとは異なる値となるから、同じ連関規則を適用したとしても切断高さ αは変化する。この新たな切断高さでの切断をステップ S 173にて実行し、子孫クラスタを抽出する。なお、部分榭状図に適用する連関規則としては、最初の榭状図に適用した連関規則を再度用いるよりは、別の連関規則を用いるのが好ましい。かかる連関規則は、適用対象となる (部分)榭状図に含まれる文書要素数と同等の要素数をもつ教師図をもとに、連関規則分析を行って導出されたものであることが好ましい。

[0103] 一方、抽出されたクラスタのうち文書要素数が 3以下のものについては、配置条件読み出し部 80で読み出された (ステップ S 180)配置条件に従って、クラスタ内要素配置部 90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S 190 :図 6 (E) )。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例 6〜8による配置など他のものでもよい。

[0104] 以上説明した方法ではステップ S 171に戻るたびに異なる切断高さ aが適用されるので、これを「可変 BC法」と命名する。これに対し図 5に破線で示すように、クラスタ内の文書要素数を計数せず、ステップ S 173から直ちにステップ S 180に移行して時間データに基づく配列を行うことも可能である。これを「固定 BC法」と命名する。

[0105] 図 7は、実施例 1の方法により生成された文書相関図の具体例を示す図である。キ一ワード検索によって抽出した清酒に関する日本特許出願 17件の各公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では 1回の切断ですベてのクラスタが閾値（3)以下の件数になつたので、可変 BC法と固定 BC法とでは同一の出力結果となった。

[0106] < 4 1 5.実施例 1の効果 > 本実施例 1によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、榭状図の切断規則を連関規則分析により導出しているので、種々の榭状図に適用可能な (汎用性の高、)切断規則を用いることができ、切断理想値での切断を高確率で実現することができる。また、教師図の事例数を増やすことにより、切断規則の更なる精度向上を容易に図ることができる。

更に、教師図の形状パラメータに基づいて連関規則を導出しているので、榭状図形状に即した適切な切断位置を決定可能な、信頼性の高!ヽ切断規則を用いることができる。

また、解析対象榭状図の形状パラメータを読み取り、これに連関規則を適用することで切断位置を決定できるので、切断位置の決定を少な!/、計算量で済ませることができる。

[0107] < 4- 2.実施例 2 (余次元降下法; CR法） >

余次元降下法（Codimensional Reduction Method)では、実施例 1 (均衡切断法； B C法)と同様に、榭状図の切断位置の決定に連関規則を用いる。実施例 1では榭状図の幾何的形状力得られたパラメータを用い、切断位置として要素間の結合高さを用いたが、本実施例 2では、文書要素ベクトル間の差異を示す索引語次元を用いて切断位置を決定する。

[0108] 連関規則分析についての基本的な説明は既に実施例 1で行ったので省略し、まずは本実施例 2の連関規則分析で用いるパラメータについて、実施例 1との差異点を説明する。

[0109] く 4— 2—1.パラメータの説明 >

榭状図にお、てあるノード (結節点) cが与えられたとき、その結合レベルを整数 i (c )で表す。初期ペアの結合は結合レベル i (c) =0、その 1つ上段の結合は結合レべル i (c) = 1とする。なお、後述の図 9 (A)にノード c〜cの各々について結合レベル i (c)が示されている。 [0110] 結合レベル i (c)であるノード cにおいて、当該ノード cで結合される文書要素群 (ノード cを頂点とする部分榭状図に属するすべての文書要素)の索引語和集合の次元数 Dから、索引語頻度 TF (E)が文書要素間で同一値をとる索引語の次元数を引いた残りの次元数を R(i;c)とする（これを余次元と呼ぶことにする）。

なお、 Dは榭状図の全要素の索引語和集合の次元数 D以下の値をとるが、ノード c で結合される文書要素群に含まれていない (各文書要素 Eに 0個含まれている）索引語の索引語頻度 TF (E)は、ノード cで結合される文書要素群においてはすべて同一値 0をとる、と考えることもできる。この場合、余次元 Rは、榭状図の全要素の索引語和集合の次元数 Dから、当該ノード cで結合される文書要素間で同一の索引語頻度（ 0を含む）をとる索引語の次元数を引、た次元数、と定義しても良、。

[0111] 索引語和集合の次元数 D又は Dの大きさは、当該ノード以下の部分榭状図又は榭状図全体に属する文書要素間のバラツキの大きさに深く関係する。但し、索引語和集合の次元数 D又は Dが大きくても、索引語頻度 TF (E)を共通にする索引語が多ヽ (余次元 Rが小さ、)ことは文書要素間の差異がさほど大きくな、ことを意味する。逆に、索引語和集合の次元数 D又は Dが大きぐ索引語頻度 TF (E)を共通にする索引語が少ない (余次元 Rが大きい)ことは文書要素間の差異が大きいことを意味する。本実施例 2は、この性質を利用して榭状図の切断位置を決定しょうとするものである。実施例 1 (均衡切断法; BC法)で用いたパラメータが榭状図の形状に関係する幾何的パラメータとすれば、余次元は非幾何的パラメータと言える。

[0112] 本実施例 2では、余次元 Rがある値（臨界次元 D )を超えるノード cを、すべて切断する。この臨界次元を求めるためのパラメータとして、実施例 1で用いた中点距離 m、土台く h >、高さ H、クラスタ密度 sZSなどの幾何的パラメータも用いる。

0

[0113] なお、連関規則分析に用いるパラメータとしては、上記の他にも種々のもの、例えば結合高さ dの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いることもできる。例えば、上記中点距離 mの代わりに、結合高さ平均値 < d>を用いることもできるし、上記土台 <h >の代わりに、結合高さの平均値 < d>と標準偏差 σ

0 d を用いて < d〉一 σ 或いはく d〉一 2 σ を用いることもできる。

d d

[0114] く 4— 2— 2.連関規則の導出例 > 臨界次元を導くための連関規則の算出方法は実施例 1と同様である。すなわち、予め多数の教師図について理想的な臨界次元 D を求めておく。更に、教師図の幾何的パラメータと理想的な臨界次元 D との関係を分析する。そして、教師図の切断位置がなるべく再現されるような臨界次元 D を導く規則を、種々のノメータに対する条件式として求める。

[0115] 求められた連関規則の一例を示すと以下の通りである。当該連関規則の導出過程等の説明は省略する。

D =D X (s/S) X (m/<h >) X [ Θ (s/S≤0. 2) { θ (m≤0. 5Η) + (1/2) a 0

Θ (m>0. 5Η) } + (1/2) θ (s/S >0. 2) ]

但し、 θ (X)は、命題 Xが真のとき 1、それ以外のとき 0を返す関数である。

[0116] この連関規則は、入力装置 2からの入力等に従い、記録装置 3の条件記録部 310 に格納される。

[0117] <4 2— 3.クラスタ抽出手順 >

次に、導出された連関規則を用いて決定される臨界次元を用いて、榭状図を切断し、クラスタを抽出する具体的手順について説明する。本実施例 2では、解析対象となる榭状図の各ノード cの余次元 R(i;c)をすベて算出する。そして、余次元 R(i;c) が臨界次元 D を超えるノード cを、すべて切断する。

[0118] 図 8は、実施例 2 (余次元降下法; CR法）におけるクラスタ抽出過程を説明するフロ一チャートである。このフローチャートは、本実施例 2の手順を図 3より詳細に示している。図 3と同様のステップには図 3のステップ番号に 200をカ卩えて下二桁を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。

図 9は、実施例 2におけるクラスタ抽出過程での榭状図配置例を示す図であり、図 8 を補足するものである。 E

1〜Eは文書要素を表し、ここでは便宜上、添え字の小さい 9

ほうがより小さな時間 tをもつ (より古い)文書要素であるものとする。

[0119] まず、処理装置 1の文書読み出し部 10が、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステップ S210)。

[0120] 次に、処理装置 1の時間データ抽出部 20が、分析対象である文書集団の各文書要素から時間データを抽出する (ステップ S220)。 [0121] 次に、処理装置 1の索引語データ抽出部 30が、分析対象である文書集団の各文書要素から索引語データを抽出する (ステップ S230)。このとき、後述のように文書集団のうちの最古要素（最古の文書要素) Eの索引語データは不要なので、ステップ S 220で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。

[0122] 次に、処理装置 1の類似度演算部 40が、各文書要素間の類似度を演算する (ステップ S 240)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。

[0123] 次に、処理装置 1の榭状図作成部 50が、分析対象である文書集団の各文書要素力もなる榭状図を作成する (ステップ S250 :図 9 (A) )。このとき、最古要素 Eは他の要素との類似度如何に関わらず、榭状図の先頭に配置する。

[0124] 次に、処理装置 1の切断条件読み出し部 60が、切断条件の読み出しを行う (ステツプ S260)。ここでは榭状図のパラメータ読み出し条件と、上記連関規則分析で導出された連関規則を読み出す。

[0125] 次に、クラスタ抽出部 70が、クラスタ抽出を行う。まず、上記読み出されたパラメータ読み出し条件に従って、榭状図のパラメータを読み出す (ステップ S271)。次に、このパラメータに対して上記読み出された連関規則を適用し、榭状図の切断位置を判定するための臨界次元 D を決定する (ステップ S272)。

[0126] 次に、結合レベル i=0のノード (初期ペア）から順に、以下の処理を行う。まず、処理対象ノード cの余次元 R (i； c)を算出する (ステップ S273)。余次元 R (i； c)と臨界次元 D とを比較し(ステップ3274)、1^(1;₍：) >0 なら当該ノードを切断し (ステップ S2 75)、ステップ S276に移行する。 R(i;c)≤D なら切断せず、そのままステップ S27 6に移行する。

[0127] ステップ S276では、現在の結合レベル iの全ノードについての処理が終了したか否かを判定する。現在の結合レベル iの処理が終了していなければ (ステップ S276 :N 0)、ステップ S273に戻って次のノード cについての処理を行う。現在の結合レベル i の処理がすべて終了していれば (ステップ S 276 : YES)、全結合レベルの全ノードにつ、ての処理が終了したか否かを判定する (ステップ S 277)。 [0128] 全結合レベルの処理が終了していなければ (ステップ S277 : NO)、次の結合レべルに移行するため i: =i+ lとし (ステップ S278)、ステップ S273に戻って次の結合レベルのノード cについての処理を行う。全結合レベルの処理がすべて終了していれば (ステップ S277 : YES)、クラスタ抽出部 70での処理を終了し、ステップ S280に移行する。

[0129] 図 9 (B)に、ノード c〜cの各々につ!/、ての余次元 Rと臨界次元 D の比較結果の例を示す。この例ではノード c〜cについては余次元 Rが臨界次元 D 以下であると

1 5 α

判定され、ノード c及び cについては余次元 Rが臨界次元 D を超えると判定された

6 7 α

。従って、上記ステップ S275にてノード c及び cが切断されてクラスタが抽出される。

6 7

この例では、ノード Cよりノード Cの方が、結合高さが高い (結合される文書要素群間

6 5

の非類似度が高い）にもかかわらず、ノード cの余次元が臨界次元 D 以下であった

5 α

ためノード cでは切断されな力つた。この例に示されるように、本実施例 2による切断

5

位置は榭状図における結合高さと直接関係するものではない。

[0130] 本実施例 2では下位ノード (i=0)力順に余次元 Rと臨界次元 D の比較をしている。ある下位ノード cが与えられた場合、その上流に位置する上位ノードで結合される文書要素群は、当該下位ノード cで結合される文書要素 Eをすベて含む。従って上位ノードは、下位ノード cの余次元 Rより大きな余次元 Rを持つことになる。従って例えば図 9 (B)の例のように、下位ノード cの余次元 R (2 ;c )が臨界次元 D を超えると判定

6 6 α

された場合は、その上流に位置する上位ノード cの余次元 R(3 ;c )の算出及び臨界次元 D との比較を省略することも可能である。

[0131] 次に、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う（ステップ S280)。この配置条件に従って、クラスタ内要素配置部 90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S29 0 :図 9 (C) )。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例 6〜8による配置など他のものでもよい。

[0132] なお、上述の例では、余次元 Rを求めるために索引語和集合の次元数から引かれる索引語は、索引語頻度 TF (E)が同一のものとしたが、それ以外のものでもよい。例えば、索引語頻度 TF (E)の偏差が所定方法で定めた値より小さい索引語 (索引語頻度 TF (E)の標準偏差が一定値以下の索引語など)としてもよい。また、文書要素 E がそれぞれ複数の文書カゝらなる場合は、索引語頻度 TF (E)の代わりに大域的頻度 GF (E)とするのが好ましい。また、文書要素のベクトル成分量として索引語頻度 TF ( E)又は大域的頻度 GF (E)以外のものを使用する場合には、そのベクトル成分量の偏差が所定方法で定めた値より小さい索引語とするのが好ましい。

[0133] 図 10は、実施例 2の方法により生成された文書相関図の具体例を示す図である。

実施例 1の図 7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例では図 7と異なり、文書要素 1件だけのクラスタが生成されなかった。本実施例 2において文書要素 1件だけのクラスタが生成されるためには 2〜3件程度の文書要素群で余次元 Rが臨界次元 D に達する必要があるが、 2〜3件程度の文書要素では索引語和集合の次元数が低いので、余次元 Rが臨界次元 D に達しな力つたものと思われる。このように各クラスタにぉ、てそれぞれ複数の文書要素が時間順で並べられたので、時間的に見た流れを把握し易い文書相関図を得ることができた。

[0134] く 4— 2—4.実施例 2の効果 >

本実施例 2によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

更に、切断規則の導出のためにベクトル次元数をカ卩味しているので、適切な分岐を得ることができる。

更に、ノードごとに切断基準の判定を行い、判定結果に基づいて各ノードを個別に切断しているので、より適切な分岐を得ることができる。

[0135] <4 3.実施例 3 (細胞分裂法; CD法） > 細胞分裂法 (Cell Division Method)では、ある方法で決められた切断高さ αで榭状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の榭状図を作成する。この部分榭状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。

[0136] <4 3— 1.クラスタ抽出手川頁>

図 11は、実施例 3 (細胞分裂法; CD法）におけるクラスタ抽出過程を説明するフロ一チャートである。このフローチャートは、本実施例 3の手順を図 3より詳細に示している。図 3と同様のステップには図 3のステップ番号に 300をカ卩えて下二桁を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。

図 12は、実施例 3におけるクラスタ抽出過程での榭状図配置例を示す図であり、図 11を補足するものである。 E

1〜E

10は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間 tをもつ（より古い)文書要素であるものとする。

[0137] まず、処理装置 1の文書読み出し部 10が、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステップ S310)。

[0138] 次に、処理装置 1の時間データ抽出部 20が、分析対象である文書集団の各文書要素から時間データを抽出する (ステップ S320)。

[0139] 次に、処理装置 1の索引語データ抽出部 30が、分析対象である文書集団の各文書要素から索引語データを抽出する (ステップ S330)。このとき、後述のように文書集団のうちの最古要素（最古の文書要素) Eの索引語データは不要なので、ステップ S

320で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。

[0140] 次に、処理装置 1の類似度演算部 40が、各文書要素間の類似度を演算する (ステップ S340)。このときも、上記と同様に最古要素 E以外の要素間の類似度のみを演算する。

[0141] 次に、処理装置 1の榭状図作成部 50が、分析対象である文書集団の各文書要素力もなる榭状図を作成する (ステップ S350 :図 12 (A) )。このとき、最古要素 Eは他の要素との類似度如何に関わらず、榭状図の先頭に配置する。 [0142] 次に、処理装置 1の切断条件読み出し部 60が、切断条件の読み出しを行う (ステツプ S360)。ここでは切断高さ oc、後述の偏差判定閾値などを読み出す。

[0143] 次に、クラスタ抽出部 70が、クラスタ抽出を行う。まず、切断高さ ex = a (但し、結合高さ d = a— bcos 0 )で榭状図を切断する（ステップ S371 :図 12 (B) )。 a = aでクラスタ分離が生じない場合 (ステップ S372)、 a * = <d> + δ σ (但し— 3≤ δ≤3。特 d

に 0≤ δ≤ 2とするのが好ましぐ δ = 1とするのが最も好ましい。）で切断する (ステツプ S373)。榭状図が切断されたら、各クラスタ内の最古要素 E、 Eを当該各クラスタ

2 7

の先頭に配置する (ステップ S374 :図 12 (C) )。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。

[0144] まず、各クラスタにっき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う（ステップ S375)。例えば、図 12の文書要素 Eを先頭とするクラスタにおいて、文書要素 E、 E、 E、 E

2 3 4 5 6 の索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表に示す通りだったとする。

[表 8]

(各文書要素の索引語とベクトル成分値)

偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で 10%と規定した場合には、索引語 w及び wを偏差が小さい値と判定し削除するのである。

b e

次に、各クラスタにっき、上記最古要素以外のクラスタ内要素からなる部分榭状図の作成を行う（ステップ S376 :図 12 (D) )。表 8の例で言えば、残りの索引語 w、 w、 a c w、 wを用いて部分榭状図を作成する。従って、ステップ S350で作成された榭状図 d f

での分岐とは異なるクラスタ内分岐が得られる。特に、偏差力、さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップ S 350で榭状図を作成した際の類似度よりも、本ステップ S376で部分榭状図を作成する際の類似度の方が小さく (非類似度が大きく )評価されること〖こなる。

[0146] ここで、各クラスタにっき、最古要素を除!ヽたクラスタ内要素数を取得し、所定の閾値 (例えば 3)と比較する (ステップ S 377)。図 12 (D)の文書要素 E〜Eのように、最

3 6 古要素 Eを除いた文書要素数が閾値を超えている場合は (ステップ S 377 : NO)、ス

2

テツプ S371に戻って榭状図の切断を行い、子孫クラスタを抽出する。このときの切断高さ a (又は a * )はステップ S 371 (又はステップ S 373)で上述した通りである力偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さ OC (又は ex *)でも再度榭状図の切断が可能となるのである。なお、子孫クラスタ抽出の際にステップ S373の切断高さ a *で切断する場合には、切断される親クラスタにおける各結合位置の高さ dに応じてその都度 oc *を更新してもよいし (可変法 )、の初期値をそのまま用いてもよい（固定法)。

[0147] 図 12 (D)の文書要素 Ε〜Ε のように、クラスタ内の最古要素 Εを除いた文書要

8 10 7

素数が閾値以下であった場合 (ステップ S 377 : YES)、当該クラスタについては最後に切断高さ α = aで切断を行う（ステップ S378 :図 12 (E) )。本ステップ S378では、実際にクラスタ分離が生じない場合でもステップ S380に移行する。

[0148] ステップ S380では、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部 90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S390 :図 12 (F) )。

例えばステップ S378において、図 12 (E)の切断高さ a = aで切断されクラスタ分離が生じな力つた場合は、当該クラスタの文書要素 E〜E の時間データ順の直列

7 10

鎖配列となる（図 12 (F) )。また例えばステップ S378において、図 12 (E)の切断高さ a =aで切断された場合 y

は、文書要素 Eから、文書要素 Eと、文書要素 E及び E の時間データ順の直列鎖

7 8 9 10

と、に分岐される（図示せず)。

また例えばステップ S378において、図 12 (E)の切断高さ a =aで切断された場合 z

は、文書要素 Eから、文書要素 Eと文書要素 Eと文書要素 E の 3枝に分岐される（

7 8 9 10

図示せず)。

クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ま、が、後述の実施例 6〜8による配置など他のものでもよ、。

[0149] なお、偏差の判定閾値について、平均に対する標準偏差の比率で 10%とした例を説明したが、これは各文書要素力^つの文書力もなる場合に好適な例である。各文書要素が 1つの文書からなる場合の判定閾値は、 0%以上 10%以下とするのが好ましい。

一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が 60%或いは 70%以下であれば、偏差が小さいものとして扱うことが好ましい。

[0150] 図 13は、実施例 3の方法により生成された文書相関図の具体例を示す図である。

実施例 1の図 7と同一の公開公報を文書要素とし、文書要素ベクトルの成分値として TF * IDF (P)を用い、切断高さ αとして a = 1を用ヽて分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。この例ではステップ S376で作成した部分榭状図の 1つが更に切断され、 2段階の分岐が形成された。

[0151] 図 14は、実施例 3の方法により生成された文書相関図の他の具体例を示す図である。ある家庭用化学品メーカーを出願人とする約 4000件の日本特許公開公報のうち主な 16分野について、各分野に属すべき文書群をそれぞれキーワード検索によって選出し、各分野の文書群をそれぞれ 1つの文書要素 (マクロ要素）とした。実施例 3に従って最古要素を除外して先頭に配置し、残り 15要素による榭状図の作成及び榭状図切断を行い、図に示す分岐構造が得られた。各文書要素の時間データ tとして出願日の平均値を用い、文書要素ベクトルの成分値として GFIDF (E)を用い、切断高さ aとして a= lを用い、偏差の判定閾値として 70%を採用した。文書相関図には上記 16分野を特徴付けるキーワードを記入した。

[0152] く 4— 3— 2.実施例 3の効果 >

本実施例 3によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、親クラスタの抽出後に、各親クラスタを再分析して作成した部分榭状図により子クラスタを抽出しているので、子クラスタの誤分類を改善し適切な分類を得ることができる。

[0153] 更に、親クラスタの抽出後に、各親クラスタに属する文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を除去しているので、親クラスタの抽出観点とは異なった観点から子クラスタの抽出を行うことができる。例えば、着色材料に関する複数の文書要素を分類した場合、親クラスタの抽出時には溶媒の違いにより、低沸点溶媒を用いた群と高沸点溶媒を用いた群に大別されたとする。子クラスタの抽出時には、各親クラスタにおいて偏差の小さい溶媒に関する索引語が除去されるので、例えば顔料の違ヽが強調されて有機系顔料を用いた群と無機系顔料を用いた群に大別される。各親クラスタにおいて偏差の小さい索引語が除去されない場合には、溶媒に関する更に細力、分類と顔料に関する分類とが拮抗してしまい適切な子クラスタが得られない恐れもある力本実施例 3では、クラスタ内での違いを強調することで、子孫クラスタでの適切な分類を得ることができるのである。

[0154] < 4 4.実施例 4 (段階的切断法; SC法） >

段階的切断法（Stepwise Cutting Method)では、 2つ以上の切断高さ ο；.、 α . (固定値)で榭状図を切断し、親クラスタ及び子孫クラスタを抽出する。

[0155] < 4 4 1.クラスタ抽出手川頁>

図 15は、実施例 4 (段階的切断法; SC法）におけるクラスタ抽出過程を説明するフローチャートである。このフローチャートは、本実施例 4の手順を図 3より詳細に示している。図 3と同様のステップには図 3のステップ番号に 400を加えて下二析を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。図 16は、実施例 4におけるクラスタ抽出過程での榭状図配置例を示す図であり、図 15を補足するものである。 E〜E は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間 tをもつ（より古い)文書要素であるものとする。

[0156] まず、処理装置 1の文書読み出し部 10が、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステップ S410)。

[0157] 次に、処理装置 1の時間データ抽出部 20が、分析対象である文書集団の各文書要素から時間データを抽出する (ステップ S420)。

[0158] 次に、処理装置 1の索引語データ抽出部 30が、分析対象である文書集団の各文書要素から索引語データを抽出する (ステップ S430)。このとき、後述のように文書集団のうちの最古要素（最古の文書要素) Eの索引語データは不要なので、ステップ S

420で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。

[0159] 次に、処理装置 1の類似度演算部 40が、各文書要素間の類似度を演算する (ステップ S440)。このときも、上記と同様に最古要素以外の要素間の類似度のみを演算する。

[0160] 次に、処理装置 1の榭状図作成部 50が、分析対象である文書集団の各文書要素力もなる榭状図を作成する (ステップ S450:図 16(A) )。このとき、最古要素 Eは他の要素との類似度如何に関わらず、榭状図の先頭に配置する。

[0161] 次に、処理装置 1の切断条件読み出し部 60が、切断条件の読み出しを行う (ステツプ S460)。ここでは切断高さ a；、 a (但し、 a > a )又はそれらの算出方法などを読み出す。例えば、 =&、 a =a-0. 2b (但し、結合高さ d = a— bcos0 )とする。また例えば a* = <d>+ δ σ (但しー3≤ δ≤3。特に 0≤ δ≤2とするのが好ましい。）を用いて、 =<d>+ σ 、 = <d〉とする。また、切断高さを α、ひ、 α ( 但し、 α > α > α )の 3箇所とする場合には、例えば、類似度を相関係数で定義した場合、 a =a + b (反相関）、 a =a (無相関）、 a =a— 0. 3b (強相関の閾値)のように、類似度の代表点とすることもできる。

[0162] 次に、クラスタ抽出部 70が、クラスタ抽出を行う。まず、上記榭状図を切断高さ ex = で切断する (ステップ S471:図 16(B))。そして、当該切断線で切断される枝線の数 (第一分岐数)を読み取り、ステップ S450で除外された最古要素から直接、第一分岐数に相当する数の枝線を引く (ステップ S472：図 16 (C) )。この第一分岐数が親クラスタの数となる。

[0163] 次に、同じ榭状図を切断高さ α = aで切断する (ステップ S473：図 16 (D) )。そして、当該切断線で切断される枝線の数 (第二分岐数)を、親クラスタごとに読み取り、各親クラスタの線力直接、当該親クラスタの第二分岐数に相当する数の枝線を引く (ステップ S474)。この第二分岐数を全親クラスタについて合計した数が、子クラスタの総数となる。クラスタの抽出はこれで終了である。

[0164] 上述のようにしてクラスタが抽出されるので、次に、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う（ステップ S480)。この配置条件に従って、クラスタ内要素配置部 90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S490 :図 16 (E) )。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例 6 〜8による配置など他のものでもよい。

[0165] 上述のように、ステップ S472では最古要素から直接、第一分岐数に相当する数の枝線を引く。従って、例えば図 16 (B)の榭状図に示すように親クラスタ [1]と親クラスタ [2]及び [3]とが互いに異なる階層に位置するような場合でも、図 16 (C)に示すように切断高さ αより上方の階層構造を統一的に処理することができる。従って榭状図を簡略ィ匕することができる。

また上述のように、ステップ S474では各親クラスタの線力も直接、当該親クラスタの第二分岐数に相当する数の枝線を引く。従って、例えば図 16 (D)の榭状図に示すように親クラスタ [ 1 ]力分岐する子クラスタ [ 11 ]及び [ 12]と子クラスタ [ 13]とが、互いに異なる階層に位置する場合でも、図 16 (E)に示すように切断高さ αと α との間の階層構造を統一的に処理することができる。従って榭状図を簡略ィ匕することができる

[0166] また、例えば図 16 (D)に示すように親クラスタ [1]から分岐する子クラスタ [11]、 [1 2]及び [13]と、親クラスタ [3]から分岐する子クラスタ [31]及び [32]とが、別々の高さで結合している場合でも、これらを図 16 (E)に示すように同じ高さで結合させる。従つて、切断高さと α _Ηとの間での結合高さの違いを統一的に処理して榭状図を簡略ィ匕することがでさる。

[0167] このように榭状図を程よく簡略ィ匕することができる一方、切断高さ ex iでの第一分岐数と、切断高さでの第二分岐数は維持することができる。従って、榭状図の階層構造を程よく簡略化しつつ、当初の榭状図の階層構造を反映させた文書相関図を作成することができる。

[0168] 図 17及び図 18は、実施例 4の方法により生成された文書相関図の具体例を示す図である。実施例 1の図 7と同一の公開公報を文書要素として分析し、文書相関図には各文書要素につき特許出願番号と発明の名称を記入した。本実施例 4では子孫クラスタ生成の前に最古要素を抽出するという操作をしないので、榭状図全体の最古要素と子孫クラスタとの間に親クラスタの最古要素が配置されることはなぐ榭状図構造のみが表示される。なお、図 17は標準化を施さない類似度 (余弦)を用いて作成した榭状図を切断したもの、図 18は標準化を施した類似度湘関係数)を用いて作成した榭状図を切断したものである。

[0169] く 4—4— 2.実施例 4の効果 >

本実施例 4によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、例えば a = a、 a = a— 0. 2bのような定数で切断する場合、予め決められた複数の切断高さで切断するので、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。

更に、例えば a = < d> + σ 、 a = < d >のような結合高さ dの平均値及び偏差 i d ϋ

のうち何れか又は両方を変数として含む関数 a * = < d> + δ σ で切断する場合、 d

異なる榭状図形状にも幅広く対応でき、切断位置の決定のために複雑な計算を必要とせず、簡易に適切な分岐を得ることができる。

[0170] また、複数の切断位置の各々で切断される枝線の数に基づいて分岐構造を決定することにより、榭状図の階層構造を程よく簡略ィ匕しつつ、当初の榭状図の階層構造を反映させた文書相関図を作成することができる。更に、複数の切断位置での切断により親子クラスタを生成する際に、親クラスタに属する文書要素の部分榭状図を再作成しなくても子クラスタを生成できるので、少ない計算手数で親子クラスタを生成することができる。

[0171] < 4 5.実施例 5 (可変複合法; FC法） >

可変複合法 (Flexible Composite Method)では、榭状図切断を複数回実行する過程において、切断の度に新たな切断高さ exを設定する。例えば、切断高さ αを α * = < d> + δ σ (但しー3≤ δ≤3。特に 0≤ δ≤2とするのが好ましぐ δ = 1とする

d

のが最も好ましい。）で算出する場合、第 1回目の切断では当該榭状図に属する全文書要素のデータをもとに算出したを用い、第 2回目の切断では、切断される親クラスタに属する文書要素のデータのみをもとに算出したひ *を用いる。

[0172] < 4 5— 1.クラスタ抽出手川頁>

図 19は、実施例 5 (可変複合法; FC法）におけるクラスタ抽出過程を説明するフロ一チャートである。このフローチャートは、本実施例 5の手順を図 3より詳細に示している。図 3と同様のステップには図 3のステップ番号に 500をカ卩えて下二桁を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。

図 20は、実施例 5におけるクラスタ抽出過程での榭状図配置例の一部を示す図であり、図 19を補足するものである。 Ε〜Ε は文書要素を表し、ここでは便宜上、添え

1 Ν

字の小さいほうがより小さな時間 tをもつ（より古い）文書要素であるものとする。

[0173] まず、処理装置 1の文書読み出し部 10が、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステップ S510)。

[0174] 次に、処理装置 1の時間データ抽出部 20が、分析対象である文書集団の各文書要素から時間データを抽出する (ステップ S520)。

[0175] 次に、処理装置 1の索引語データ抽出部 30が、分析対象である文書集団の各文書要素から索引語データを抽出する (ステップ S530)。このとき、後述のように文書集団のうちの最古要素（最古の文書要素) Eの索引語データは不要なので、ステップ S

520で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。 [0176] 次に、処理装置 1の類似度演算部 40が、各文書要素間の類似度を演算する (ステップ S540)。このときも、上記と同様に最古要素 E以外の要素間の類似度のみを演算する。

[0177] 次に、処理装置 1の榭状図作成部 50が、分析対象である文書集団の各文書要素力もなる榭状図を作成する (ステップ S550:図 20(A) )。このとき、最古要素 Eは他の要素との類似度如何に関わらず、榭状図の先頭に配置する。

[0178] 次に、処理装置 1の切断条件読み出し部 60が、切断条件の読み出しを行う (ステツプ S560)。ここでは切断高さ aの算出方法、切断回数 (階層数)上限値 gなどを読み出す。

[0179] 切断高さ αは、例えば a* = <d>+ δ σ を用いて、 _α* = <(1>+ σ によって算 d d 出する。また例えば分析対象の文書要素数が多い場合などは、 α* = <ά> + 2σ d によって算出してもよい。

[0180] 切断回数上限値 gは、分析対象となる文書要素の総数 Nに対して、例えば、

g=[lnN÷lnlO + 0. 5]

G

とする。或いは、全文書要素の V分割を繰り返すとき、クラスタ 1つの要素数が U以下になる分割回数 +l(v ^(g_1)≤NZUく v^gの解）として、

g=l + [ln(N/U)÷lnv]

G

としてもよい。但し、上記 [ ] Gはガウスの整数記号であり、括弧内の小数点以下を切り捨てた値を意味する。或いは、文書要素数 Nに対して、

10<N≤20なら g=l、 20<N≤300なら g = 2、 300<N≤ 1000なら g = 3、 100 0<?^なら₈=4

としてちよい。

[0181] 次に、クラスタ抽出部 70が、クラスタ抽出を行う。まず、上記榭状図のうち最古要素 Eを除いた要素 E〜Eの各結合位置の高さ dを用いて、切断高さ a * =<d>

1 2 N [2-N]

+ σ を算出する (ステップ S571)。次に、算出された切断高さ a * が要素 E〜E d [2-N] 2 の結合高さ dの最大値 Max (d)より小さいか否かを判定し (ステップ S572)、小さい

N

場合には、この切断高さ a * で当該榭状図を切断する (ステップ S573：図 20 (B

[2-N]

))。以降の処理は、クラスタごとに行う。 [0182] 各クラスタにっき、文書要素数が所定の閾値 (ここでは 4とする。なお、所定の閾値としては、 4以上、 10 X [InN/lnIO] 以下が好ましい。）を超える場合 (ステップ S5

G

74 : NO) ,当該クラスタの切断回数が上限値 gに達した力否かを判定し、上限値 gに達していない場合は (ステップ S575 : NO)、当該クラスタについて最古要素 Eを除

2 外して当該クラスタの先頭に配置し、残りのクラスタ内要素 E〜Eによる部分榭状図

3 7

を作成する (ステップ S576 :図 20 (C) )。このときに作成する部分榭状図は、当該クラスタの最古要素 Eが除外されている他は、ステップ S550で最初に作成した榭状図

2

のうち当該クラスタに相当する部分とほぼ同じ構造になる。但し、当該クラスタの最古要素 Eが除外されているので、当該クラスタ内での要素群間距離が変化する。従つ

2

て、残りのクラスタ内要素 E〜Eの内容データに基づいて再分析すればステップ S 5

3 7

50で作成した榭状図とは若干異なる構造となる可能性もある。例えば、文書要素と文書要素群の距離 (非類似度)或いは文書要素群と文書要素群の距離 (非類似度）として重心間距離又は全距離平均を用いて榭状図を作成する場合、図 20 (B)における要素 E及び Eと要素 E及び Eとの距離に対して、図 20 (C)における要素 Eと

2 3 4 5 3 要素 E及び Eとの距離は異なるものとなるので、この部分は異なる構造になり得る。

4 5

[0183] クラスタ内要素による部分榭状図を作成後、ステップ S571に戻り、クラスタ内要素のうち最古要素 Eを除いた要素 E〜Eの各結合位置の高さ dを用いて、切断高さ α

2 3 7

* = < ά> + σ を算出する。次に、算出された切断高さが要素 Ε〜Ε

[3-7] d [3-7] 3 7 の結合高さ dの最大値 Max (d)より小さいか否かを判定し (ステップ S572)、小さい場合には、この切断高さ a * で当該クラスタを切断する (ステップ S573：図 20 (C)

[3-7]

参照)。

[0184] 文書要素数が上記所定の閾値 (ここでは 4)以下となったクラスタについては (ステツプ S574 : YES)、クラスタの切断回数に関わらず、当該クラスタについては実施例 3 の細胞分裂法 (CD法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する (ステツプ S577)。

切断回数が上限値 gに達したクラスタについては (ステップ S575 : YES)、当該クラスタの文書要素数に関わらず、当該クラスタについては実施例 3の細胞分裂法 (CD 法)など他のクラスタ抽出法での子孫クラスタ抽出に移行する (ステップ S577)。なお、ステップ S577で行う他のクラスタ抽出法としては、実施例 1の均衡切断法 (B C法)でもよぐ実施例 2の余次元降下法 (CR法)でもよぐ実施例 4の段階切断法 (S C法)でもよい。

[0185] 上記ステップ S572において、切断高さ a * 又は α * 力要素 Ε〜Ε又は

[2-Ν] [3- 7] 2 Ν

Ε〜Εの結合高さ dの最大値以上である場合には（a *≥ Max (d) )、クラスタ分離が

3 7

実現しないので榭状図の切断処理を飛ばして、直ちにステップ S574にてクラスタ内要素数 (最古要素 E又は Eを除く）の判定を行う。そして、クラスタ内要素数が上記

1 2

所定の閾値を超えていればステップ S575にて切断回数の判定を行い（ここでは切断処理が飛ばされて切断回数は増えていないので、切断回数の判定を省略しても良い）、ステップ S576にて次の最古要素 E又は Eを除外する。

2 3

このように、クラスタ分離が実現しない場合でも、最古要素を 1つずつ除外して (ステップ S576)、クラスタ内要素数が閾値以下になれば (ステップ S574)、ステップ S577 に移行する。

[0186] 上述のようにしてクラスタを抽出したら、最後に、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う（ステップ S580)。この配置条件に従って、クラスタ内要素配置部 90が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S590 :図 20 (D) )。この場合の配置条件は、例えば時間データに基づき、古い順に一列に並べるのが好ましいが、後述の実施例 6〜 8による配置など他のものでもよい。

[0187] 上述の説明では切断回数の上限値 gを設定したが、上限値 gを設定しない方法をとることもできる。この場合、ステップ S575は省略され、ステップ S574が NOなら直ちにステップ S576に移行し、切断回数無制限で子孫クラスタの抽出を行う。なお、ステップ S574では、文書要素数が例えば 9を超えていれば NOとし、文書要素数が 9以下となったクラスタにつ、ては YESの判定をすることが望まし、。

[0188] 図 21及び図 22は、実施例 5の方法により生成された文書相関図の具体例を示す図である。キーワード検索によって抽出した地盤の液状ィ匕防止工法に関する日本の特許出願及び実用新案登録出願 60件の各公開公報を文書要素として分析し、得られた文書相関図を、簡単のためここでは一部（35件分)のみ図示した。図示した文書相関図には各文書要素につき特許出願番号 (但し末尾に (u)を付したものは実用新案登録出願番号)を記入し、上位の文書要素については発明（考案)の名称も記入した。実施例 1〜4では要素数 20未満が好ましいと思われるのに対し、本実施例 5では、この例に示されるように分析対象要素数が多くても適切な親子クラスタを得ることができる。

[0189] なお、図 21は切断回数上限値 g= 2に設定し、クラスタ内文書要素数の閾値 =4に設定した結果であり、図 22は切断回数を無制限とし、クラスタ内文書要素数の閾値 = 9に設定した結果である。他の方法による子孫クラスタの抽出 (ステップ S577)は省略した。

図 21では、出願番号 H03-320020を先頭とする親クラスタ（要素数 5)は要素数が閾値 4を超えていたので 2回目の切断で子クラスタに分離された。また、出願番号 S63-0 33662(11)を先頭とする子クラスタ（要素数 10)は 2回目の切断で生成されたものであるため、それ以上切断分離されな力つた。

一方図 22では、出願番号 H03-320020を先頭とする親クラスタ（要素数 5)は要素数が閾値 9以下であるため 2回目の切断はされな力つた。また、出願番号 S63-033662( U)を先頭とする子クラスタ（要素数 10)については 3回目の切断が行われ、孫クラスタに分離された。

[0190] 図 23は、実施例 5の方法により生成された文書相関図の他の具体例を示す図である。実施例 3の図 14と同一の 16分野の文書要素（マクロ要素）について、実施例 5に従って最古要素を除外して先頭に配置し、残り 15要素による榭状図の作成及び榭状図切断を行った。クラスタ内要素数の上限 (4とした)以下になるまで最古要素の除外と榭状図作成及び切断を繰り返した。クラスタ内要素数が上限以下になったクラスタについてはそれぞれ実施例 3 (細胞分裂法; CD法)の方法により更にクラスタ生成を行い、図に示す分岐構造が得られた。各文書要素の時間データ tとして出願日の平均値を用い、文書要素ベクトルの成分値として GFIDF (E)を用い、クラスタ内要素数が上限以下になった後の切断高さ αとして a= 1を用い、偏差の判定閾値として 70 %を採用した。文書相関図には上記 16分野を特徴付けるキーワードを記入した。

[0191] <4 5— 2.変形例 1 > 上述のステップ S550及びステップ S576では、榭状図及び部分榭状図を作成する際に最古要素を除外していたが、最古要素を除外せずに作成することも可能である。そして、この榭状図を上述のように g回切断する。こうしてクラスタを得ることにより、文書要素の分類をすることが可能となる。この場合、得られた分類に対しては、それぞれに属する文書要素の内容データに基づいて適切なラベル付けを行うことにより、文書要素群のマクロ的分析を容易にすることができる。

[0192] 図 24は、実施例 5の変形例 1による方法で生成された文書相関図の具体例を示す図である。この文書相関図を作成した手順は以下の通りである。まず、ある家庭用化学品メーカーを出願人とする約 4000件の日本特許公開公報につき、最古公報を除外せずに榭状図を作成し、本変形例 1に係る方法により g回切断した。こうして得られた 27個のクラスタを新たに文書要素 (マクロ要素）とした榭状図を作成し、実施例 5の方法により最古要素を抽出し、榭状図切断を行った。クラスタ内要素数の上限 (4とした)以下になるまで最古要素の抽出と榭状図切断を繰り返し、図に示す分岐構造が得られた。各マクロ要素に対しては、それぞれに属する文書の内容データに基づいてラベル付けを行った。これにより、膨大な文書数からなる分析対象文書集団であつてもマクロ的に自動分析し、技術の大まかな流れの理解を容易にすることができる。

[0193] <4 5— 3.変形例 2>

次に、変形例 2による方法で生成された文書相関図について説明する。この文書相関図は、ある出願人 X社の保有する特許文書群の文書相関図をまず作成し、更に当該出願人 X社による特許文書群のうち、特定の技術分野に属する特許文書群が、他社の特許文書群とどのような関係にあるかを示したものである。

図 25は、実施例 5の変形例 2による文書相関図の作成過程を示す図であり、図 26 及び図 27が、実施例 5の変形例 2による文書相関図の具体例を示す図である。図 28 及び図 29は、実施例 5の変形例 2による文書相関図における別の表示例の一部を示す図である。

これらの文書相関図を作成した手順は以下の通りである。

[0194] まず、化学メーカーである X社を出願人とする日本特許公報 (公開及び登録)のすベてにっき、最古公報を除外せずに榭状図を作成した。上記変形例 1に係る方法により g回切断した結果、 5個のクラスタが得られた。

これら 5個のクラスタのうち 1つである「機能性素材関連」の特許文書群につき、最古公報を除外せずに再度榭状図を作成した。上記変形例 1に係る方法により g回切断した結果、上記 X社を出願人とする日本特許公報のうち「機能性素材関連」の特許文書群は、文書群「EX01」乃至文書群「EX13」の計 13個のクラスタに分類された (文書群の符号「EX01」等は便宜上付したものである。 ) ₀

これら 13個のクラスタを新たに文書要素 (マクロ要素）とした榭状図を作成し、実施例 5の方法により最古要素を抽出し、榭状図切断を行った。クラスタ内要素数の上限 (4とした)以下になるまで最古要素の抽出と榭状図切断を繰り返し、図 25に示す分岐構造が得られた。

[0195] これら 13個のクラスタのうち 1つである「◊匕ケィ素の製造方法関連」の特許文書群「EX05」の内容データ（索引語データ）に基づき、この特許文書群に類似する文書群を、他社の特許文書群を含む全文書 Pから、 3000件抽出した。

このように全文書 Pから抽出された 3000件の特許文書につき、最古公報を除外せずに榭状図を作成した。上記変形例 1に係る方法により g回切断した結果、文書群「 E101」乃至文書群「E121」の計 21個のクラスタが形成された (文書群の符号「E12

1」等は便宜上付したものである。 ) o

こうして得られた 21個のクラスタを新たに文書要素 (マクロ要素）とした榭状図を作成し、実施例 5の方法により最古要素を抽出し、榭状図切断を行った。クラスタ内要素数の上限 (4とした)以下になるまで最古要素の抽出と榭状図切断を繰り返し、図 2 6に示す分岐構造が得られた。

[0196] 一方、上述の 13個のクラスタのうち 1つである「◊匕ケィ素の製造方法関連」の特許文書群の内容データ (索引語データ）に基づき、この特許文書群に類似する文書群を、上述のように全文書 Pから抽出された 3000件の特許文書から、 300件抽出した。このように 3000件の特許文書力も抽出された 300件の特許文書につき、最古公報を除外せずに榭状図を作成した。上記変形例 1に係る方法により g回切断した結果、文書群「E201」乃至文書群「E219」の計 19個のクラスタが形成された (文書群の符号「E201」等は便宜上付したものである。 ) ₀ こうして得られた 19個のクラスタを新たに文書要素 (マクロ要素）とした榭状図を作成し、実施例 5の方法により最古要素を抽出し、榭状図切断を行った。クラスタ内要素数の上限 (9とした)以下になるまで最古要素の抽出と榭状図切断を繰り返し、図 2 7に示す分岐構造が得られた。

[0197] 図 26及び図 27の各文書要素の中で、上記 X社を出願人とする特許文書が件数で上位 (ここでは 5位以内）を占めているものには他の文書要素と区別するための強調表示を付加し、最上位を占めているものにはより強い強調表示を付加した。このような強調表示は、図に示すような枠線の太さによっても良いし、色分け又は模様等によつても良い。また、このような強調表示は、ある出願人（自社又は他社)の文書が上位を占めている力否かに限らず、ある出願人の文書が 1つでも含まれる力否力、又はその他の基準によっても良い。

また、図 26及び図 27には、各文書要素の出願日の平均値 (ここではその西暦年下二桁)を縦軸の値として記入した。また、図 26及び図 27では説明の便宜上、各文書要素の名称として符号「E201」等のみを表示したが、それぞれに属する文書の内容データに基づいて、その文書要素の内容的特徴を示すラベル付けを行うことが望ましい。

[0198] 本変形例 2ではこのように、文書相関図の各文書要素のうち特定の属性を有する文書要素、例えば特定の出願人の特許文書からなる文書要素又は特定の出願人が優位を占める特許文書群からなる文書要素を、他の文書要素と区別した形態で表示する。これにより、特定の属性を有する文書要素、例えば上記特定の出願人のある分野に属する特許群が、他社との関係で内容的及び時間的にどのように位置づけられるのかを一見して知ることができる。上記特定の出願人として自社を選べば、自社の技術のうちある分野に属する部分につき、業界全体での位置づけを知ることができる。更に時間軸を表示し、その時間軸に合わせて各文書要素を配置したことにより、当該技術分野の発展系統上における自社技術の位置付けを把握することができる。例えば図 26のように類似度を算出し、比較的多い件数 (ここでは類似度上位 3000 件)の類似文書について分析した場合には、比較的多方面の技術分野にわたる類似文書が抽出され、その中での自社の位置付けを知ることができる。従って、上記の効果に加え、自社があまり目をつけていな力つた類似技術を発見でき、自社技術の他分野への適用の可能性を見出すことができるとともに、他社の技術が内容的及び時間的にどのように発展してきたのかを知ることもできる。

更に図 27のように当該 3000件を母集団として再度類似度を算出し、比較的少な Vヽ件数 (ここでは類似度上位 300件)の類似文書につ!ヽて分析した場合には、更に絞り込んだ技術分野での、特に他社との競合関係のより詳細な比較ができる。

[0199] 図 28及び図 29は、図 26の文書相関図における別の表示例の一部を示す図である。これらの例では、各文書要素につき「〇化ケィ素粉末関連」など内容データに基づくラベル付けが行なわれている他、より詳細な表示として、当該文書要素に属する文書数、出願人ランキング (社名と件数)が表示されている。このように詳細な表示を加えることで、より詳細な分析が可能になる。

詳細表示の内容はこれに限らず、特許文書の国際特許分類 (IPC)、出願日（平均値又は範囲等）、キーワードなどでも良ぐこれらに基づくランキングでも良い。また、詳細表示は図 28及び図 29のように全文書要素について同時に行っても良いし、詳細表示を当初含まない文書相関図を画像表示装置で表示し、 1つの文書要素に力一ソルを移動したときに、当該文書要素に関する詳細表示を追カ卩出力するようにしても良い。詳細表示の方法は、図 28のように文書要素の記載欄そのものを拡大しても良いし、図 29のように欄外に吹出しで表示しても良い。また、図 26に限らず、図 27又はその他の文書相関図について同様の詳細表示をしても良い。

[0200] <4- 5-4.実施例 5の効果 >

本実施例 5によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、親クラスタの抽出を、榭状図に属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行い、子クラスタの抽出を、各親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、要素数 Nが多くても適切な親子クラスタを得ることがでさる。更に、クラスタの抽出を文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づいて行うので、榭状図に属する文書要素群の類似度が高い場合など様々な榭状図形状に幅広く対応でき、適切な親子クラスタを得ることがでさる。

[0201] < 5.時間配列の実施例 >

次に、時間配列過程に関する実施例 6〜8を説明する。

[0202] < 5— 1.実施例 6 (—本釣り配列； PLA) >

一本釣り配列（Pole-and-Line Arrangement)では、文書要素が数個程度の小さなクラスタに対して、時間データと榭状図配置データとに基づいて、当該クラスタ内における配列を決定する。

[0203] < 5— 1 1.配列決定手順 >

図 30は、実施例 6 (—本釣り配列; PLA)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図 3のステップ S70 (クラスタ抽出）までの処理でクラスタが抽出されて、ることを前提とし、図 3のステップ S80 (配置条件読み出し)及びステップ S90 (クラスタ内要素配列）の部分について、本実施例 6の手順をより詳細に示したものである。図 3と同様のステップには図 3のステップ番号に 600を加えて下二桁を図 3と同一のステップ番号とし、詳細な説明を省略することがある。図 31は、実施例 6におけるクラスタ内配列過程での榭状図配置例を示す図であり、図 30を補足するものである。 E〜E は文書要素を表し、ここでは便宜上、添え字の

1 20

小さいほうがより小さな時間 tをもつ (より古い)文書要素であるものとする。図 31 (A) は、図 3のステップ S70までの処理によって抽出された 5つのクラスタの各榭状図構造を示している。

[0204] 実施例 1 (均衡切断法： BC法）、実施例 2 (余次元降下法： CR法）、実施例 3 (細胞分裂法： CD法)或いは実施例 4 (段階切断法： SC法)等でクラスタが抽出されたら、まず、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う（ステツプ S680)。この配置条件に従って、クラスタ内要素配置部 90が、当該クラスタ内の各文書要素の時間データ及び榭状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。

[0205] 具体的には、まず、榭状図の当該クラスタ部分をトーナメント表とみなし、各段階の勝者 (時刻 tの小さい方)を決める（図 31 (B) )。すなわち、下位の (結合高さが低い）ノード (結節点)から順番に、いずれの文書要素の時間データ tが小さいかを判定し、その結果を記録する (ステップ S691)。この判定は、最下位ノード（2体結合)から、当該クラスタの最上位ノードまで行う（ステップ S692)。その際、下位のノードにおける勝者 (時間データ tがより小さい文書要素)を、上位のノードにおける対戦当事者 (時間データ tの比較対象）とする (ステップ S693)。

[0206] 最上位ノードまで判定すると優勝者 (最古文書要素）が決まるので、当該優勝者を当該クラスタの先頭に配置する (ステップ S694)。更に、当該優勝者と直接対戦し敗退させられた相手の数 (最古文書要素と直接比較され時間データ tがより大きいと判定された文書要素の数)だけ、当該優勝者からの分岐を作成する (ステップ S695：図 31 (C) )。以下の処理は、各分岐について行う。

[0207] 次に、これら敗退させられた相手を上記各分岐内における優勝者として、各分岐の先頭に配置する（ステップ S696：図 31 (D) )。

さらに、各分岐内における優勝者と直接対戦し敗退させられた相手の数を数える（ステップ S697)。敗退させられた相手の数が 0なら、当該分岐の処理を終了する。敗退させられた相手の数が 1以上なら、当該相手の数だけ、当該分岐内における優勝者からの分岐を新たに作成し (ステップ S698：図 31 (D) )、ステップ S696に戻る。ステップ S696〜S698の処理を繰り返すことにより、クラスタ内配列が決定される ( 図 31 (E) )。

[0208] < 5— 1 2.実施例 6の効果 >

本実施例 6によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、クラスタ内配列を決める際に、時間順による配列を確実に実現するとともに、当該クラスタ内の分岐構造もある程度反映させることができる。 [0209] < 5— 2.実施例 7 (群時系順序； GTO) >

群時系順序 (Group Time Ordering)では、複数の文書力なる文書要素の要素定義を、分類情報及び大きな時間単位に基づ、て行なった場合に有効な方法である。要素定義を大きな時間単位に基づいて (例えば一定年数を単位として)行うと同時刻要素が生じることがあり、時系列での配列を考えるときに支障が生じ得るが、分類情報を加味して配列を決定することでこれを解決する。

[0210] < 5— 2— 1.配列決定手順 >

図 32は、実施例 7 (群時系順序; GTO)におけるクラスタ内配列過程を説明するフローチャートである。このフローチャートは、図 3のステップ S70 (クラスタ抽出）までの処理でクラスタが抽出されて、ることを前提とし、図 3のステップ S80 (配置条件読み出し)及びステップ S90 (クラスタ内要素配列）の部分について、本実施例 7の手順をより詳細に示したものである。図 3と同様のステップには図 3のステップ番号に 700を加えて下二桁を図 3と同一のステップ番号とし、詳細な説明を省略することがある。図 33は、実施例 7におけるクラスタ内配列過程での榭状図配置例の一部を示す図であり、図 32を補足するものである。 E 、E 等はそれぞれ複数の文書からなる文書

Al B1

要素を表し、ここでは便宜上、添え字のアルファベット部分は分類 (国際特許分類 (I PC)等)を、アラビア数字は時間 t (小さいほうがより古い）を表すものとする。

[0211] 切断高さ _a =a (但し、結合高さ d=a— bcos 0 )、 _a * = < d> + δ σ (但しー3≤

d

δ≤3。特に 0≤ δ≤ 2とするのが好ましぐ δ = 1とするのが最も好ましい。）、或いは構造連関分析等で導出された切断高さで榭状図を切断しクラスタが抽出されたら（図 33 (A) )、まず、配置条件読み出し部 80が、クラスタ内での配置条件の読み出しを行う（ステップ S780)。この配置条件に従って、クラスタ内要素配置部 90が、当該クラスタ内の各文書要素の時間データ及び榭状図配置データに基づき、クラスタ内における文書要素群の配列を決定する。

[0212] 具体的には、まず、クラスタ内の最古要素を抽出し、当該クラスタの先頭に配置する

(ステップ S791)。最古要素が複数の場合（図 33 (B)の E と E )は並列結線での

Al B1

配置とする。

次に、上記最古要素を除いた残りの要素について、分類ごとに時系列鎖を構成する (ステップ S792 :図 33 (B) )。そして、ステップ S792で構成された各時系列鎖について、同分類の要素を、ステップ S791で抽出された最古要素力も探す (ステップ S7 93)。

[0213] 上記時系列鎖のうち、同分類の最古要素があった時系列鎖については、当該同分類の最古要素と結線する (ステップ S794)。図 33の例で言えば、文書要素 E 及び

A2

E からなる時系列鎖と、文書要素 E 及び E 力なる時系列鎖については、それ

A3 B2 B3

ぞれ同分類の最古要素 E と E に結線する。

Al B1

上記時系列鎖のうち、同分類の最古要素がない時系列鎖については、そのうちの最古要素と最も類似度の高い要素を当該クラスタ内から抽出する。そして、当該最も類似度の高い要素から分岐させて、当該同分類要素のない時系列鎖の最古要素と結線する (ステップ S795 :図 33 (C) )。図 33では、文書要素 E と最も類似度の高い

C2

クラスタ内要素が文書要素 E であった場合に、文書要素 E を文書要素 E に結線

B2 C2 B2 させた様子を示している。

以上のようにして、クラスタ内配列が決定される。

[0214] < 5— 2— 2.実施例 7の効果 >

本実施例 7によれば、榭状図切断によるクラスタ抽出と時間データに基づくクラスタ内配列の決定とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、要素定義を大きな時間単位に基づいて行ったために同時刻要素が生じる場合でも、要素定義が分類にも基づいている場合にはその分類情報を加味してクラスタ内配列を決定することで、当該同時刻要素を処理することができる。

< 5— 3.実施例 8 (時断面分析; TSA) >

時断面分析 (Time Slice Analyses)では、分析対象となる複数の文書要素を時間データに基づいて分類した後で、各時間分類内においてクラスタ分析を行う方法である。時間データに基づく分析を、内容データに基づくクラスタ抽出より先に行う点で、上記実施例 6及び 7とは異なる。時間データに基づく分類と各時間分類内におけるクラスタ分析とが終わった後、時間前後のクラスタに属する要素間での結線を行うことにより、文書相関図が完成する。

[0216] < 5- 3- 1.文書相関図作成装置の構成 >

図 34は、実施例 8 (時断面分析; TSA)の文書相関図作成装置における構成と機能を、図 2より更に詳細に説明する図である。図 2と共通の部分には同一の符号を付して説明を省略する。

実施例 8の文書相関図作成装置は、図 2で説明した文書相関図作成装置の各構成に加え、時間スライス分類部 25と、時間スライス間結線部 75とを備えている。

[0217] 時間スライス分類部 25は、時間データ抽出部 20で抽出された各文書要素の時間データを、作業結果格納部 320から又は直接時間データ抽出部 20から取得し、この時間データに基づいて、分析対象である文書集団を一定間隔の時間スライスに分類する。分類の結果は類似度演算部 40に直接送られてそこでの処理に用いられ、或いは作業結果格納部 320に送られて格納される。類似度演算部 40では、各時間スライス内での文書要素の類似度を演算し、榭状図作成部 50では、各時間スライスについて榭状図を作成し、クラスタ抽出部 70では、各時間スライスカゝらクラスタを抽出する。

[0218] 時間スライス間結線部 75は、クラスタ抽出部 70で抽出されたクラスタ情報を作業結果格納部 320から又は直接クラスタ抽出部 70から取得し、このクラスタ情報に基づき、異なる時間スライスに属するクラスタ間の結線を行う。生成された結線データは、直接クラスタ内要素配置部 90に送られてそこでの処理に用いられ、或いは作業結果格納部 320に送られて格納される。クラスタ内要素配置部 90は、クラスタ内要素の配置を行うほか、時間スライス間結線部 75の結線データも参照して、文書相関図を完成させる。

[0219] く 5— 3— 2.文書相関図作成手順 >

図 35は、実施例 8における文書相関図作成過程を説明するフローチャートである。このフローチャートは、本実施例 8の手順を図 3より詳細に示している。図 3と同様のステツプには図 3のステップ番号に 800を加えて下二桁を図 3と同一のステップ番号とし、図 3と重複する説明を省略することがある。

図 36は、実施例 8における文書相関図作成過程での榭状図配置例を示す図であり、図 35を補足するものである。

[0220] まず、文書読み出し部 10が、入力装置 2で入力される読み出し条件に従って、分析対象となる複数の文書要素を記録装置 3の文書格納部 330から読み出す (ステツプ S810)。

[0221] 次に、時間データ抽出部 20が、文書読み出しステップ S810で読み出された文書要素群から、各要素の時間データを抽出する (ステップ S820)。

[0222] 各要素の時間データが抽出されたら、これらを時間データに基づいて分類する (ステツプ S825)。この処理は、時間スライス分類部 25が行う。具体的には、時間軸を一定間隔（例えば A t= l年）でスライスし、 tの区間 n≤t<n+ l (n=0, 1, 2, ···)内の時間データをもつ文書要素の集合を「n—スライス」とする。ここで tは、 0—スライスの前方閾値分だけ原点を移動してある。

時間データに基づく分類は、一定時間間隔でなくとも可変間隔であってもよい。例えば、時間順に累積して一定件数に達したときに時間切断するなどしてもよい。すなわち、分析対象要素が例えば 100個あり、これら要素を時間順に並べると古い方から E , E , · · · , E となったとき、例えば 20個ごとに E乃至 E を 0—スライス、 E 乃至 E

1 2 100 1 20 21

40を 1 スライス、 · · ·等とする。これにより時間スライス間の要素数の偏在を防止できる。

[0223] 次に、各スライスにっき、グループ Gを形成する。具体的には、以下のように各スライスカゝらクラスタを抽出する。

[0224] まず、索引語データ抽出部 30が索引語データを抽出し (ステップ S830)、類似度演算部 40が各スライス内の文書要素間の類似度 (又は非類似度)を演算する (ステツプ S840)。そして各スライスにっき、榭状図作成部 50が榭状図を作成する (ステップ S850) _o更に、切断条件読み出し部 60が榭状図切断条件を読み出し (ステップ S86 0)、クラスタ抽出部 70が、各スライス力もクラスタを抽出する (ステップ S870)。

ここで、各 n—スライス力抽出されたクラスタをそれぞれグループ Gと称することにする。各グループ Gはスライス番号 nとグループ番号 jを持ち、これを G (n, j)で表す（図 36 (A) )。グループ Gは複数の文書要素からなる場合もあり、 1つの文書要素からなる場合もある。 1つの文書要素力なるグループを自明グループと称することにする [0225] 榭状図の切断高さ αとしては、例えば a =<d>+ δ σ (但し 3≤ δ≤3。特に d

-3≤ δ≤0が好ましぐ -2≤ δ≤— 1がより好ましい）を用いる。 -3≤ δとしたのは、 δが— 3より小さいと、経験上多くのグループが自明グループとなり、—3より小さくしても自明グループという結果に変わりはないからである。自明グループになること自体は悪!ヽ結果と!/、うわけではな!/、から、 - 3より小さくすることを妨げるものではな、。榭状図の切断高さ aとして、上記 a *のように各時間スライスの結合高さ dの平均値及び偏差のうち何れか又は両方を変数として含む関数を用いる場合は、時間スライスごとに切断高さが異なることになる。特に、スライス内要素数の少ない（例えば 3以下）時間スライスにおいては、 1つの要素がスライス内要素の結合高さ dの平均値及び偏差の変動に及ぼす影響が大きいので、他の時間スライスとの切断高さの相違が大きくなり過ぎる可能性もある。従って、スライス内要素数の少ない (例えば 3以下）時間スライスがある場合には、例えば相関係数で類似度を定義し、結合高さ d=a— bco s Θとして榭状図を作成し、切断高さ aを、 a— b≤ a≤a— 0.5bの範囲内とすることが好ましい。

[0226] クラスタの抽出は、ステップ S830〜S870で説明した榭状図切断によることが好ましいが、それ以外の方法によっても良い。例えば、公知の k一平均法などを用いたクラスタ抽出でもよい。

また例えば、分析対象の文書要素間を結線し、切断半径より非類似度の大きい線を消去することでクラスタを抽出する円弧分割法を用いてもょ、。この円弧分割法の具体的な一例を説明すると、分析対象要素が M個 (E , E , ···, E )あるとして、

1 2 M

まずこれら分析対象の要素間距離 rを成分とする距離行列 (M行 M列)を作成する。次に、要素間距離 rの平均値 <r>と標準偏差 σを用いて、切断半径 * = <r> + δ σ (但しー3≤ δ≤3。特にー3≤ δ≤0が好ましぐ -2≤ δ≤— 1がより好ましい )を決定する。そして、距離行列の成分 rのうち閾値 ρ *を超える成分を 0とした隣接行列（M行 M列）を作成する。最後に、隣接行列の列成分カゝらなる隣接ベクトル (r ', r

1 2

', ···, r ')の非ゼロ成分によってクラスタを生成する。

M

例えば、文書要素 Eに関する隣接ベクトルが（0, 0.5, 0.6, 0, ···, 0)である場合 ( 各成分はそれぞれ文書要素 E , E , E , E , · · · , E との距離 rに基づき算出したも

1 2 3 4 M

ので、省略した成分はすべて 0とする。 )、この文書要素 Eは、文書要素 E及び文書

1 2 要素 Eと同一クラスタとする。

3

なお、切断半径において一 3≤ δとしたのは、上記 α *の場合と同様、 δが一 3 より小さいと、経験上多くのグループが自明グループとなり、—3より小さくしても自明グループと、う結果に変わりはな、からである。 - 3より小さくすることを妨げるものではない。

[0227] グループ Gの形成方法は、上記クラスタ分析以外の方法でも良、。例えば、文書要素群が特許分類や企業名などで既に分類されてヽる場合、これを用いてグループ定義を行ってもよい。この場合、要素定義とグループ定義が一致するので、複数文書からなる 1つの文書要素で、 1つのグループが成立することになる（これも自明グループである)。

[0228] 各 η—スライスにっきクラスタ抽出などの方法によりグループ Gが形成されたら、次に、 0—スライスに属するグループ間の結線を決定する（ステップ S872)。例えば、榭状図切断で得られた各クラスタを、切断位置より上位の榭状図結線構造により結線する（図 36 (B) )。

[0229] 次に、スライス間の結線を行う。この処理は、時間スライス間結線部 75が行う。

[0230] 具体的には、各 n—スライス (n≠0)に属するグループ G (n, j)の最古要素と最も類似度の高い文書要素 (以下「最短距離要素」と称する)を、て < nなる時間前方ダループ G ( τ , j)の要素力選出する。そして、グループ G (n, j)の最古要素と、時間前方グループ G ( τ , j)力も選出された最短距離要素とを結線する (ステップ S875：図 3 6 (C) )。なお、最短距離要素が複数存在する場合は、それらの中で最も古い要素を選出し、グループ G (n, j)の最古要素と結線する。

[0231] 或いは、各 n—スライス (n≠0)に属するグループ G (n, j)と最もグループ間類似度の高い（グループ間距離の短い）グループを、 τ < ηなる時間前方グループ G ( τ , j) 力も選出することとしてもよい。この場合、グループ G (n, j)の最古要素と、選出された時間前方グループ G ( τ , j)の最新要素とを結線する。グループ間距離は、比較されるグループに属する要素間の非類似度 (距離)を用いて、重心間距離、全距離平均などにより定義することができる。 1つの文書要素で 1つのグループが構成される自明グループであれば、要素間の非類似度 (要素間距離）に一致する。

[0232] 最後に、配置条件読み出し部 80が各グループ内の文書要素配置条件を読み出し

(ステップ S880)、クラスタ内要素配置部 90力各グループ内の文書要素の配置を決定し (ステップ S890)、文書相関図が完成する。なお、図 36 (C)では、文書要素を各グループ内で並列に配置した力グループ内でも時間順の配置とするなど他の配置でもよい。

[0233] 図 37は、実施例 8の方法により生成された文書相関図の第 1の具体例及びその生成過程を示す図である。実施例 1の図 7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データ tとし、 1年ごとに n=0〜6の時間スライスに分類した。各時間スライスにっき榭状図を作成し、各榭状図を切断高さ《* = < d >— σ で切断

d

し、グループを形成した（図 37 (A) )。図 37 (A)には n= 2の時間スライスについての榭状図切断の様子のみを示し、他の時間スライスについては榭状図切断の結果すベてのグループが要素 1つのみの自明群となったので榭状図切断の図示を省略した。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した ( 図 37 (B) )。

[0234] 図 38は、実施例 8の方法により生成された文書相関図の第 2の具体例及びその生成過程を示す図である。実施例 3の図 14と同一の 16分野の文書要素 (マクロ要素）について、実施例 8の方法により各文書要素を構成する文書群の出願日平均値を各文書要素の時間データ tとし、 1年ごとに n=0〜4の時間スライスに分類した。各時間スライスにっき榭状図を作成し、各榭状図を切断高さ《* = < d >— σ で切断し、グ

d

ループを形成した（図 38 (A) )。各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記 16分野を特徴付けるキーワードを記入した（図 38 (B) )。

[0235] 図 39は、実施例 8の方法により生成された文書相関図の第 3の具体例及びその生成過程を示す図である。実施例 1の図 7と同一の公開公報を文書要素とし、各文書要素の出願日を時間データ tとし、 1年ごとに n=0〜6の時間スライスに分類した (ここまでは図 37と同様)。各時間スライスにっき、上述の円弧分割法に従って要素間距離 rを成分とする距離行列を作成し、これを切断半径 p * = <r>— σ により隣接行列に変換して（図 39 (A) )クラスタ分析し、グループを形成した。なお、要素数 2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が 0.5を超えるものを別グループとし、図 39 (A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には各文書要素につき特許出願番号を記入した（図 39 (B) )

[0236] 図 40は、実施例 8の方法により生成された文書相関図の第 4の具体例及びその生成過程を示す図である。実施例 3の図 14と同一の 16分野の文書要素 (マクロ要素）について、各文書要素を構成する文書群の出願日平均値を各文書要素の時間データ tとし、 1年ごとに n=0〜4の時間スライスに分類した (ここまでは図 38と同様)。各時間スライスにっき、上述の円弧分割法に従って要素間距離 rを成分とする距離行列を作成し、これを切断半径 p * = <r>— σ により隣接行列に変換して（図 40 (A) )クラスタ分析し、グループを形成した。なお、要素数 2以下の時間スライスについては円弧分割法によらず、相関係数で定義した要素間距離が 0.5を超えるものを別グループとし、図 40 (A)での図示を省略した。その後、各グループの最古要素を時間前方群の最短距離要素と結線し、各グループ内では時系列に結線した。文書相関図には上記 16分野を特徴付けるキーワードを記入した（図 40 (Β) )。

[0237] < 5— 3— 3.実施例 8の効果 >

本実施例 8によれば、クラスタ抽出と時間データに基づく分類とを行うことにより、分野ごとの時間的発展を適切に表す榭状図を作成することができる。

特に、時断面による切り分けを最初に行うので、異なる分類間における同時代文書の関係を表すことができ、併せて異なる期間における同分野文書の関係も表すことができる。

Claims

請求の範囲

[1] 1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、

前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す榭状図を作成する榭状図作成手段と、

前記榭状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列手段と、

を備えた、文書相関図作成装置。

[2] 請求項 1において、

前記クラスタリング手段が前記榭状図を切断する前記所定の規則は、連関規則分析により導出されたものである、文書相関図作成装置。

[3] 請求項 2において、

前記所定の規則は、前記榭状図の形状パラメータに基づき導出されたものである、文書相関図作成装置。

[4] 請求項 1又は請求項 2において、

前記所定の規則は、前記榭状図の各ノードで結合される複数の文書要素のベタトル次元数に基づき導出されたものである、文書相関図作成装置。

[5] 請求項 4において、

前記クラスタリング手段は、前記各ノードで結合される複数の文書要素のベクトル次元数が一定値以上である力否かを前記ノードごとに判定し、前記判定の結果に基づいて前記一定値以上のノードを個別に切断する、文書相関図作成装置。

[6] 請求項 1において、

前記クラスタリング手段は、前記榭状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書要素の内容データに基づ、て前記親クラスタに属する文書要素群の相関を示す部分榭状図を作成し、当該作成された部分榭状図を所定の規則に基づき切断して子孫クラスタを抽出する、文書相関図作成装置。 [7] 請求項 6において、

前記クラスタリング手段は、前記部分榭状図の作成のために、前記親クラスタに属する複数の文書要素間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書要素ベクトルから除去する、文書相関図作成装置。

[8] 請求項 1において、

前記榭状図作成手段は、文書要素間の結合高さが文書要素間の類似度合いを反映するように前記榭状図を作成し、

前記クラスタリング手段は、前記榭状図の 2箇所以上の所定の高さで切断して前記クラスタを抽出する、文書相関図作成装置。

[9] 請求項 1乃至請求項 8の何れか一項において、

前記クラスタリング手段は、前記榭状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で切断して前記クラスタを抽出する、文書相関図作成装置。

[10] 請求項 1乃至請求項 7において、

前記クラスタリング手段は、

前記榭状図に属する前記文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該榭状図を切断して親クラスタを抽出し、

当該親クラスタに属する文書要素群の結合高さ平均値及び偏差のうち何れか又は両方を変数として含む関数に基づく切断位置で当該親クラスタを切断して子孫クラスタを抽出する、文書相関図作成装置。

[11] 請求項 1乃至請求項 10の何れか一項において、

前記文書要素の内容データに基づいて、特定の属性を有する文書要素に対して他の文書要素と区別する表示を付加する区別表示付加手段を更に備えた、文書相関図作成装置。

[12] 請求項 1乃至請求項 11の何れか一項において、

前記クラスタ内配列手段は、

前記クラスタ内に属する文書要素群で構成される榭状図にお、て、結合された文書要素のどちらがより古いかについて、最下位ノードから順に比較を行い、下位ノードでより古いと判定された文書要素を上位ノードでの比較対象として、最上位ノードまで比較して結果を記録し、

最上位ノードでの比較の結果決定された最古要素を当該クラスタの先頭に配置し、当該最古要素と直接比較された文書要素の数だけ、当該最古要素からの分岐を作成し、これら比較された文書要素を上記各分岐に接続し、配列を決定する、文書相関図作成装置。

[13] 請求項 1乃至請求項 11の何れか一項において、

前記クラスタ内配列手段は、

当該クラスタ内の最古要素を 1つ又は複数抽出して先頭に配置し、

前記最古要素を除いた残りの文書要素について、これら文書要素を定義する分類ごとに時間順配列を形成し、

前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在する時間順配列については、当該同分類の最古要素と結線し、

前記時間順配列のうち、これと同分類の文書要素が前記最古要素として存在しな V、時間順配列にっ、ては、当該時間順配列のうちの最古要素と最も類似度合、の高い文書要素を当該クラスタ内から選出し、当該最も類似度合いの高い文書要素と結線して、

当該クラスタ内の配列を決定する、文書相関図作成装置。

[14] 請求項 1乃至請求項 11の何れか一項において、

時間スライス分類手段と、時間スライス間結線手段とを更に備え、

前記時間スライス分類手段は、前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類し、前記榭状図作成手段は、各時間スライスに属する文書要素群の相関を示す榭状図を作成し、

前記クラスタリング手段は、前記各時間スライスの榭状図を所定の規則に基づき切断してクラスタを抽出し、

前記時間スライス間結線手段は、異なる時間スライスに属するクラスタ同士を結線する、文書相関図作成装置。

1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出手段と、

前記複数の文書要素を、各文書要素の前記時間データに基づいて複数の時間スライスに分類する時間スライス分類手段と、

前記各時間スライスに属する各文書要素の内容データに基づき、前記各時間スライス力クラスタを抽出するクラスタリング手段と、

異なる時間スライスに属するクラスタ同士を結線する時間スライス間結線手段と、を備えた、文書相関図作成装置。

[16] 1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、

前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す榭状図を作成する榭状図作成ステップと、

前記榭状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、

前記各文書要素の時間データに基づき、前記各クラスタに属する文書要素群の当該クラスタ内における配列を決定するクラスタ内配列ステップと、

を備えた、文書相関図作成方法。

[17] 1つ又は複数の文書からなる文書要素の内容データ及び時間データを、複数の文書要素につき抽出する抽出ステップと、

前記各文書要素の内容データに基づき、前記複数の文書要素の相関を示す榭状図を作成する榭状図作成ステップと、前記榭状図を所定の規則に基づき切断しクラスタを抽出するクラスタリングステップと、

をコンピュータに実行させる、文書相関図作成プログラム。