WO2002039426A1

WO2002039426A1 - Dispositif de reconnaissance vocale

Info

Publication number: WO2002039426A1
Application number: PCT/JP2001/009711
Authority: WO
Inventors: Katsuki Minamino; Yasuharu Asano; Hiroaki Ogawa; Helmut Lucke
Original assignee: Sony Corporation
Priority date: 2000-11-07
Filing date: 2001-11-07
Publication date: 2002-05-16
Also published as: US7240002B2; JP2002149187A; US20050075877A1

Description

明細書

技術分野

本発明は、音声認識装置に関し、特に、例えば、精度の高い音声認識を、効率的に行うことができるようにする音声認識装置に関する。背景技術

図 1は、従来の音声認識装置の一例の構成を示している。

ユーザが発した音声は、マイク（マイクロフォン） 1に入力され、マイク 1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は， AD (Analog Digital)変換部 2に供給される。 AD変換部 2では、マイク 1からのアナログ信号の音声信号がサンプリング、量子化され、ディジタル信号の音声データに変換される。この音声データは、特徴抽出部 3に供給される。

特徴抽出部 3は、 AD変換部 2らの音声デ一夕について、適当なフレームごとに音響処理を施し、これにより、例えば、 MFCC(Mel Frequency Cepstrum Co efficient)等の特徴量を抽出して、マッチング部 4に供給する。なお、特徴抽出部 3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スぺクトル対等の特徴量を抽出することが可能である。

マッチング部 4は、特徴抽出部 3からの特徴量を用いて、音響モデルデータべ —ス 5、辞書データベース 6、および文法デ一夕べ一ス 7を必要に応じて参照しながら、マイク 1に入力された音声（入力音声）を、例えば、連続分布 HMM法等に基づいて音声認識する。

即ち、音響モデルデータベース 5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布 HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、 HMM(Hidden Markov Model)が用いられる。辞書データベース 6は、認識対象の各単語（語彙）について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法データベース 7は、辞書データベース 6の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（C F G) や、統計的な単語連鎖確率（N— g r a m) などに基づく規則を用いることができる。

マッチング部 4は、辞書データベース 6の単語辞書を参照することにより、音響モデルデータベース 5に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部 4は、幾つかの単語モデルを、文法データベース 7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布 H MM法によって、マイク 1に入力された音声を認識する。即ち、マッチング部 4は、特徴抽出部 3が出力する時系列の特徴量が観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。

つまり、マッチング部 4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。

スコア計算は、一般に、音響モデルデータベース 5に記憶された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法デ一夕ベース 7に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。

即ち、音響スコアは、例えば、 H MM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部 3が出力する特徴量の系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコァと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて、音声認識結果が確定される。

具体的には、ある N個の単語からなる単語列における k番目の単語を w_kとして、その単語 w_kの音響スコアを A (w_k) と、言語スコアを L (w_k) と、それぞれ表すとき、その単語列の最終スコア Sは、例えば、次式にしたがって計算される。

S =∑ (A (w_k) + C _k X L (w_k) )

- … ( 1 ) 但し、 ∑は、 kを 1から Nに変えてのサメーシヨンをとることを表す。また、 C _kは、単語 w_kの言語スコア L (w_k) にかける重みを表す。

マッチング部 4では、例えば、式（1 ) に示す最終スコアを最も大きくする N と、単語列 w,, w₂, · · · , w_Nを求めるマッチング処理が行われ、その単語列 w,， w₂， · · ·， w_Nが、音声認識結果として出力される。

以上のような処理が行われることにより、図 1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューョーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときに、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。

ところで、上述の場合において、辞書データベース 6の単語辞書に、「ニューヨーク」、「に」、「行きたい」、および「です」の 5単語が登録されているとすると、これらの 5単語を用いて構成しうる 5単語の並びは、 5 ⁵通り存在する従って、単純には、マッチング部 4では、この 5 ⁵通りの単語列を評価し、その中から、ユーザの発話に最も適合するもの（最終スコアを最も大きくするもの）を決定しなければならない。そして、単語辞書に登録する単語数が増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は、膨大な数となる。さらに、一般には、発話中に含まれる単語の数は未知であるから、 5単語の並びからなる単語列だけでなく、 1単語、 2単語、 · · ·からなる単語列も、評価の対象とする必要がある。従って、評価すべき単語列の数は、さらに膨大なものとなるから、そのような膨大な単語列の中から、音声認識結果として最も確からしいものを、計算量および使用するメモリ容量の観点から効率的に決定することは、非常に重要な問題である。

計算量およびメモリ容量の効率化を図る方法としては、例えば、音響スコアを求める過程において、その途中で得られる音響スコアが所定の閾値以下となった場合に、そのスコア計算を打ち切るという音響的な枝刈り手法や、言語スコアに基づいて、スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。これらの枝刈り手法によれば、スコア計算の対象が、所定の判断基準（例えば、上述したような計算途中の音響スコアや、単語に与えられる言語スコア）に基づいて絞り込まれることで、計算量の削減を図ることができる。しかしながら、その反面、絞り込みを強くすると、即ち、判断基準を厳しくすると、本来、音声認識結果として正しいものまでも枝刈りされてしまい、誤認識が生じることになる従って、枝刈り手法による場合には、音声認識結果として正しいものが枝刈りされないように、ある程度のマージンをもたせた絞り込みを行う必要があり、このため、計算量を大きく削減することは困難である。

また、音響スコアの計算を、スコア計算の対象となっているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語についての音響スコアの計算の一部を共通化（共有化）する方法が提案されている。この共通化の方法としては、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の異なる音韻には、音響モデルを個々に用いることにより、全体として 1つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。具体的には、例えば、いま、単語「秋田」と「曙」を考え、「秋田」の音韻情報が「aki t a」であり、「曙」の音韻情報が「akebono」であるとすると、単語「秋田」と「曙」の音響スコアは、それぞれの先頭から 2番目までの音韻 a, kについては兼用で計算される。そして、単語「秋田」の残りの音韻 k, i , t, a、および単語「曙」の残りの音韻 e, b, o， n, 0については、それぞれ独立に音響スコアが計算される。

従って、この方法によれば、音響スコアの計算量を大幅に低減することができる。

しかしながら、この方法では、音響スコアの計算が共通化される部分（音響スコアが兼用で計算される部分）において、その音響スコアの計算の対象となっている単語を決定することができない。即ち、上述の単語「秋田」と「曙」の例でいえば、れぞれの先頭から 2番目までの音韻 a, kについて音響スコアが計算されている間は、その音響スコアが計算されている単語が、「秋田」であるのか、または「曙」であるのかを同定することができない。

そして、この場合、「秋田」については、その 3番目の音韻 iについて音響スコアの計算が開始されたときに、その計算の対象となっている単語が「秋田」であることを同定することができ、「曙」についても、その 3番目の音韻 eについての音響スコアの計算が開始されたときに、その計算の対象となっている単語が「曙」であることを同定することができる。

従って、音響スコアの計算の一部を共通化してしまうと、単語の音響スコアの計算の開始時に、その単語を同定することができないため、その単語について、言語スコアを考慮（適用）することができない。その結果、単語の音響スコアの開始前に、上述したような言語的な枝刈り手法を用いることが困難となり、無駄な計算が行われることがある。

さらに、音響スコアの計算の一部を共通化する場合、単語辞書のすべての単語を対象として、上述したような木構造のネットワークが構成されるから、これを保持するための大きなメモリ容量が必要となる。

また、計算量およびメモリ容量の効率化を図る方法としては、音響スコアを計算する場合に、単語辞書のすべての単語を対象とするのではなく、その音響スコァの計算の対象とする単語を予備的に選択（予備選択）し、その予備選択された単語についてだけ、音響スコアを計算する方法がある。ここで、予備選択は、例えば、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。

なお、予備選択の方法は、例えば、 L. R. Bahl, S. V. De Gennaro, P. S. Go palakrishnan and R. L. Mercer, "A Fast Approximate Acoustic Match for La rge Vocabulary Speech Recognition , IEEE Trans. Speech and Audio Proc. , vol. 1, pp.59-67, 1993等に記載されている。

ところで、単語の音響スコアは、音声の特徴量の系列を用いて計算されるが、その計算に使用する特徴量の系列の始点ゃ終点が異なれば、求められる音響スコァも変化する。そして、この変化は、音響スコアと言語スコアとを総合評価して求められる式（1) の最終スコアに影響する。

ある単語に対応する特徴量の系列の始点および終点、即ち、単語どうしの境界 (単語境界）は、例えば、動的計画法（Dynamic Programming)を用いて求めることができる。即ち、特徴量の系列の任意の点を、単語境界の候補とし、音声認識結果の候補となる単語列の各単語について、その音響スコアと言語スコアとを総合評価したスコア（以下、適宜、単語スコアという）を、逐次累積していく。そして、その単語スコアの累積の際に、最も大きい累積値を与える単語境界の候補を、その累積値とともに記憶していく。

これにより、最終的な単語スコアの累積値が求めらると、最も良い累積値、即ち、最も大きい最終スコアを与える単語境界も求められる。

上述のようにして単語境界を求める方法は、ビ夕ビデコーディング（Viterbi d ecoding)、あるいはワンパスデコーディング（One pass decoding)等と呼ばれ、例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、 pp.20- 26、 1 988年 7月 1日等に、その詳細が記載されている。

ところで、上述の予備選択を効果的に行うには、単語境界をどこにするか、即ち、特徴量の系列（特徴量系列）のどの点を始点とするかが非常に重要である。具体的には、例えば、図 2 (A) に示すような、音声「今日はいい天気ですね」について得られた特徴量系列において、「今日」と「は」との正しい単語境界が、時刻 t ,である場合において、単語「今日」に続く単語「は」に関して予備選択を行うときに、正しい時刻 t ,より先行する時刻 t ,_,を始点として予備選択を行うと、その予備選択には、単語「は」の特徴量だけでなく、その直前の単語「今日」の最後の部分の特徴量が影響する。一方、正しい時刻 t ,より後行する時刻 t ₁₊₁を始点として予備選択を行うと、その予備選択においては、単語「は」の最初の部分の特徴量が用いられないことになる。

従って、いずれにしても、始点を誤ると、予備選択、ひいては、その後に行われるマッチング処理に悪影響を与えることとなる。

なお、図 2においては（後述する図 4および図 6においても同様）、左から右方向が、時間の経過を表しており、また、音声区間の開始時刻を 0として、音声区間は時刻 Tで終了するものとしてある。

上述した動的計画法を用いる方法では、特徴量系列の最後、即ち、図 2においては、音声区間の終了時刻 Tまでの単語スコア（音響スコアおよび言語スコア）の計算が終了しないと、最終的な単語境界を決定することができないため、予備選択を行う段階では、その予備選択の始点となる単語境界を一意に決定することは困難である。

そこで、単語境界の候補を、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで保持しておく方法がある。

この方法では、例えば、音声区間の開始時刻 0を始点として、単語「今日」の単語スコアを計算した場合に、時刻 t„ t ₁₊₁が、単語「今日」の発話の終点の候補として求まったとすると、この 3通りの時刻 t い t„ t _l+1が保持され、それぞれを始点として、次の単語の予備選択が行われる。

いま、この予備選択によって、時刻 t _Mを始点とした場合には、「は」と

「いい」の 2単語が、時刻 t ,を始点とした場合には、「は」の 1単語が、時刻 t _|+1を始点とした場合には、「は」と「いい」の 2単語が、それぞれ得られたとし、さらに、これらの各単語を対象として単語スコアの計算を行うことにより，図 2 (B) 乃至図 2 (G) にそれぞれ示すような結果が得られたとする。

即ち、図 2 (B) は、時刻 t Hを始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻 t₂が得られた状態を示しており、図 2 (C) は、時刻を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻 t_2+lが得られた状態を示している。また、図 2

(D) は、時刻を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻 t₂₊₁が得られた状態を示しており、図 2 (E) は、時刻を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻 1₂が得られた状態を示している。さらに、図 2 (F) は、時刻 t _l+l を始点として、単語「は」の単語スコアの計算を行い、その終点の候補として、時刻が得られた状態を示しており、図 2 (G) は、時刻 t₁₊₁を始点として、単語「いい」の単語スコアの計算を行い、その終点の候補として、時刻 t₂₊₂が得られた状態を示している。なお、図 2においては、 t H< t ,< t _|+|< ₂< t ₂ _+l< t ₂₊₂となっている。

図 2 (B) 乃至図 2 (G) のうち、図 2 (B) 、図 2 (E) 、および図 2 (F) に示したものについては、いずれも、音声認識結果の候補としての単語列が、「今日」、「は」で同一あり、さらに、その単語列の最後「は」の終点も、時刻 t₂で同一であるから、その中から最も適切なものを、例えば、時刻までの単語スコアの累積値等に基づいて選び、残りを破棄することが可能である。しかしながら、いまの時点では、図 2 (B) 、図 2 (E) 、または図 2 (F) のうちから選んだものに、図 2 (C) 、図 2 (D) 、図 2 (G) に示したものを加えた中から、正しいものを確定することはできないから、これらの 4通りの場合を保持しておく必要がある。そして、この 4通りの場合それぞれについて、再び、予備選択を行っていくことになる。

従って、この方法では、音声区間の特徴量系列を用いた単語スコアの計算が終了するまで、多くの単語境界の候補を保持しながら、単語スコアの計算を行っていく必要があり、計算量およびメモリ容量の効率化の観点からは好ましくない。なお、この場合、単語境界の候補として、真に正しい単語境界を保持していれば、原理的には、上述の動的計画法を用いた場合と同様の正しい単語境界を、最終的に得ることができるが、その反面、単語境界の候補として、真に正しい単語境界を保持し損ねると、その単語境界を始点または終点とする単語を誤認識し、さらには、それに起因して、その後に続く単語も誤認識することがある。

一方、予備選択は、一般に、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。即ち、予備選択は、一般に、単語辞書の単語すベてを対象として行われるため、精度の高い音響モデルや文法規則を用いて予備選択を行うと、リアルタイム性を維持するには、計算量やメモリ容量といったリソ一スが多く必要となる。そこで、予備選択は、簡易的な音響モデルや文法規則を用いることで、大語彙を対象とした場合でも、比較的少ないリソースで、高速に行うことが可能となっている。

しかしながら、予備選択は、ある単語について、特徴量の系列（特徴量系列）を用いてのマッチング処理が終了し、とりあえず確からしい終点が求められた後に、その終点を始点として、その始点に対応する時刻以後の特徴量系列を用いて行われる。即ち、予備選択は、連続発話された音声に含まれる単語どうしの境界 (単語境界）が、最終的に確定していない時点で行われる。

従って、予備選択に用いられる特徴量系列の始点ゃ終点が、対応する単語の始点や終点からずれている場合には、その単語の直前の単語や直後の単語の音韻の特徴量を含む特徴量系列や、対応する単語の最初や最後の部分の特徴量が欠けた特徴量系列、即ち、いわば音響的に安定していない特徴量系列を用いて、予備選択が行われることになる。

このため、簡易的な音響モデルを用いる予備選択では、発話中に含まれる単語が選択されないことが起こり得る。そして、予備選択において、正しい単語が選択されない場合には、その単語についてマッチング処理が行われないから、音声認識結果は誤つたものとなる。そこで、予備選択において、単語を選択するときの音響的または言語的な判断基準を緩くして、選択される単語の数を多くする方法や、精度の高い音響モデルおよび文法規則を用いる方法がある。

しかしながら、予備選択において、単語を選択するときの音響的または言語的な判断基準を緩くすると、音声認識結果としてそれほど可能性の高くない単語の多くも、マッチング処理の対象となり、予備選択に比較して 1単語あたりの負荷が重いマッチング処理に要する計算量やメモリ容量といったリソースが大きく増大する。

また、予備選択において、精度の高い音響モデルおよび文法規則を用いる場合には、予備選択に要するリソースが大きく増大する。発明の開示

本発明は、このような状況に鑑みてなされたものであり、高い認識性能を維持しながら、音声認識処理を、効率的に行うことができるようにするものである。本発明の第 1の音声認識装置は、音声認識の対象となっている単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成手段と、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、記憶手段に記憶された接続関係を修正する修正手段と、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定手段と、記憶手段に記憶される接続関係によって表される単語の境界位置を制限する単語境界制限手段とを備えることを特徴とする。

本発明の第 1の音声認識方法は、音声認識の対象となっている単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、記憶ステップにおいて記憶された接続関係を修正する修正ステップと、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定ステップと、記憶ステップにおいて記憶される接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えることを特徴とする。

本発明の第 1の記録媒体は、音声認識の対象となっている単語について、スコァを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、記憶ステップにおいて記憶された接続関係を修正する修正ステップと、修正後の接続関係に基づいて、音声認識結果となる単語列を確定する確定ステップと、記憶ステップにおいて記憶される接続関係によって表される単語の境界位置を制限する単語境界制限ステップとを備えるプログラムが記録されていることを特徵とする。

本発明の第 2の音声認識装置は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択手段と、選択手段において選択された単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成手段と、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定手段と、選択手段において選択される単語の開始位置を制限する開始位置制限手段とを備えることを特徴とする。

本発明の第 2の音声認識方法は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択ステップと、選択ステップにおいて選択された単語について、スコァを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定ステップと、選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えることを特徴とする。

本発明の第 2の記録媒体は、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択ステップと、選択ステップにおいて選択された単語について、スコアを計算し、そのスコアに基づいて、音声認識結果の候補となる単語列を構成する構成ステップと、音声認識結果の候補となる単語列の中から、音声認識結果となる単語列を確定する確定ステップと、選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップとを備えるプログラムが記録されていることを特徴とする。

本発明の第 1の音声認識装置および音声認識方法、並びに記録媒体においては，音声認識の対象となっている単語について、スコアが計算され、そのスコアに基づいて、音声認識結果の候補となる単語列が構成される。さらに、音声認識結果の候補となる単語列の単語どうしの接続関係が修正され、その修正後の接続関係に基づいて、音声認識結果となる単語列が確定される。この場合において、音声認識結果の候補となる単語列の単語どうしの接続関係によって表される単語の境界位置が制限される。

本発明の第 2の音声認識装置および音声認識方法、並びに記録媒体においては、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語が選択され、その選択された単語について、スコアが計算される。さらに、そのスコアに基づいて、音声認識結果の候補となる単語列が構成され、その中から、音声認識結果となる単語列が確定される。この場合において、音声認識の対象となっている単語群から選択される単語の開始位置が制限される。図面の簡単な説明

図 1は、従来の音声認識装置の一例の構成を示すプロック図である。

図 2は、単語どうしの境界の候補を保持する必要性を説明する図である。

図 3は、本発明が適用される音声認識装置の構成例を示すブロック図である。図 4は、単語接続情報を説明するための図である。

図 5は、図 3の音声認識装置の処理を説明するためのフローチャートである。図 6は、再評価部 1 5の処理を説明するための図である。図 7は、本発明を適用した音声認識装置の第 1実施の形態の構成例を示すプロック図である。

図 8は、単語接続関係管理部 2 1の処理を説明するための図である。

図 9は、シミュレーション結果を示す図である。

図 1 0は、単語スコアを補正することによる効果を説明するための図である。図 1 1は、図 7の音声認識装置による音声認識処理を説明するフローチャートである。

図 1 2は、本発明を適用した音声認識装置の第 2実施の形態の構成例を示すブロック図である。

図 1 3は、単語接続関係管理部 2 2の処理を説明するための図である。

図 1 4は、図 1 2の音声認識装置による音声認識処理を説明するフローチヤ一卜である。

図 1 5は、単語予備選択結果としての単語の補完方法を説明するための図である。

図 1 6は、本発明を適用した音声認識装置の第 3実施の形態の構成例を示すブ口ック図である。

図 1 7は、本発明を適用した音声認識装置の第 4実施の形態の構成例を示すブ口ック図である。

図 1 8は、単語接続関係管理部 2 1と 2 2の処理を説明するための図である。図 1 9は、図 1 7の音声認識装置による音声認識処理を説明するフローチヤ一卜である。

図 2 0は、本発明を適用したコンピュータの一実施の形態の構成例を示すプロック図である。発明を実施するための最良の形態

図 3は、本発明が適用される音声認識装置の構成例を示している。なお、図中、図 1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

特徴量抽出部 3が出力する、ユーザが発した音声の特徴量の系列は、フレーム単位で、制御部 1 1に供給されるようになっており、制御部 1 1は、特徴量抽出部 3からの特徴量を、特徴量記憶部 1 2に供給する。

また、制御部 1 1は、単語接続情報記憶部 1 6に記憶された単語接続情報を参照し、マッチング部 1 4や再評価部 1 5を制御する。さらに、制御部 1 1は、マツチング部 1 4が、前述した図 1のマッチング部 4と同様のマッチング処理を行うことにより得られるマッチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部 1 6の記憶内容を更新する。また、制御部 1 1は、再評価部 1 5の出力に基づいて、単語接続情報記憶部 1 6の記憶内容を修正する。さらに、制御部 1 1は，単語接続情報記憶部 1 6に記憶された単語接続情報に基づいて、最終的な音声認識結果を確定して出力する。

特徴量記憶部 1 2は、制御部 1 1から供給される特徴量の系列を、例えば、ュ一ザの音声の認識結果が得られるまで記憶する。なお、制御部 1 1は、音声区間の開始時刻を基準（例えば 0 ) とする、特徴抽出部 3が出力する特徴量が得られた時刻（以下、適宜、抽出時刻という）を、その特徴量とともに、特徴量記憶部 1 2に供給するようになっており、特徴量記憶部 1 2は、特徴量を、その抽出時刻とともに記憶する。特徴量記憶部 1 2に記憶された特徴量およびその抽出時刻は、単語予備選択部 1 3、マッチング部 1 4、および再評価部 1 5において、必要に応じて参照することができるようになつている。

単語予備選択部 1 3は、マッチング部 1 4からの要求に応じ、単語接続情報記憶部 1 6、音響モデルデータベース 1 7 A、辞書データベース 1 8 A、および文法データベース 1 9 Aを必要に応じて参照しながら、マッチング部 1 4でマッチング処理の対象とする 1以上の単語を選択する単語予備選択処理を、特徴量記憶部 1 2に記憶された特徴量を用いて行う。

マッチング部 1 4は、制御部 1 1からの制御に基づき、単語接続情報記憶部 1 6、音響モデルデータベース 1 7 B、辞書データベース 1 8 B、および文法デー夕ベース 1 9 Bを必要に応じて参照しながら、単語予備選択部 1 3からの単語予備選択処理の結果得られる単語を対象としたマッチング処理を、特徴量記憶部 1 2に記憶された特徴量を用いて行い、そのマッチング処理の結果を、制御部 1 1 に供給する。

再評価部 1 5は、制御部 1 1からの制御に基づき、音響モデルデータベース 1 7 C、辞書データベース 1 8 C、および文法データベース 1 9 Cを必要に応じて参照しながら、単語接続情報記憶部 1 6に記憶された単語接続情報の再評価を、特徴量記憶部 1 2に記憶された特徴量を用いて行い、その再評価結果を、制御部 1 1に供給する。

単語接続情報記憶部 1 6は、制御部 1 1から供給される単語接続情報を、ユーザの音声の認識結果が得られるまで記憶する。

ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続（連鎖または連接）関係を表すもので、各単語の音響スコアおよび言語スコア、並びに各単語に対応する発話の開始時刻および終了時刻も含んでいる。

即ち、図 4は、単語接続情報記憶部 1 6に記憶される単語接続情報を、グラフ構造を用いて示している。

図 4の実施の形態において、単語接続情報としてのグラフ構造は、単語を表すアーク（図 4において、〇印どうしを結ぶ線分で示す部分）と、単語どうしの境界を表すノード（図 4において〇印で示す部分）とから構成されている。

ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を 0 とする、特徴抽出部 3が出力する特徴量が得られた時刻であるから、図 4において、音声区間の開始、即ち、最初の単語の先頭に対応するノード Node,が有する時刻情報は 0となる。ノードは、アークの始端および終端となるが、始端のノード（始端ノード）、または終端のノード（終端ノード）が有する時刻情報は、それぞれ、そのノードに対応する単語の発話の開始時刻、または終了時刻、つまり単語の境界を表す。

なお、図 4では、左から右方向が、時間の経過を表しており、従って、あるァ —クの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノードとなる。

アークは、そのアークに対応する単語の音響スコアおよび言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ノードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されていく。

即ち、制御部 1 1においては、まず最初に、音声区間の開始を表すノード Nod e,に対して、音声認識結果として確からしい単語に対応するアークが接続される _c 図 4の実施の形態では、「今日」に対応するアーク Arc,、「いい」に対応するアーク Arc₆、および「天気」に対応する Arc _nが接続されている。なお、音声認識結果として確からしい単語かどうかは、マッチング部 1 4において求められる音響スコアおよび言語スコアに基づいて決定される。

そして、以下、同様にして、「今日」に対応するアーク Ar c ,の終端である終端ノード Node₂、「いい」に対応するアーク Arc₆の終端である終端ノード Node₇，

「天気」に対応する Arc _nの終端である終端ノード Node₁₂それぞれに対して、同様に、確からしい単語に対応するアークが接続されていく。

以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される 1以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後（図 4の実施の形態では、時刻 T ) に到達すると、制御部 1 1において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが有している音響スコアおよび言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。具体的には、例えば、図 4において、ノード Node iから、「今日」に対応するアーク Arc,、ノード Node₂、「は」に対応するアーク Arc₂、ノード Node₃、「いい」に対応するアーク Arc₃、ノード Node₄、「天気」に対応するアーク Arc₄、ノード Node₅、「ですね」に対応するアーク Arc₅、およびノード Node₆で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。

なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコァから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る（その後に、アークを接続しない）ようにすることが可能である。

また、上述のようなパスの構成ルールに従えば、 1つのアークの終端が、次に接続される 1以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、 1つのアークの終端が、他のアークの終端に一致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードに共通化される場合がある。

即ち、文法規則としてバイグラムを用いた場合には、別のノードから延びる 2 つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一であるときには、その 2つのアークの終端は一致する。

図 4において、ノード Node₇を始端として延びるアーク Arc ₇、およびノード N ode_{l 3}を始端として延びるアーク Arc₁₃は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、同一のノード N ode₈に共通化されている。

なお、ノードの共通化は行わないようにすることも可能であるが、メモリ容量の効率化の観点からは、行うのが好ましい。また、図 4では、文法規則としてバイグラムを用いているが、その他、例えば、トライグラム等を用いる場合も、ノードの共通化は可能である。

さらに、単語接続情報記憶部 1 6に記憶されている単語接続情報は、単語予備選択部 1 3、マッチング部 1 4、および再評価部 1 5において、必要に応じて参照することができるようになつている。

図 3に戻り、音響モデルデ一夕ベース 1 7 A, 1 7 B、および 1 7 Cは、基本的には、図 1の音響モデルデータベース 5において説明したような音響モデルを記憶している。

但し、音響モデルデータベース 1 7 Bは、音響モデルデータベース 1 7 Aよりも精度の高い処理が可能な高精度の音響モデルを記憶しており、音響モデルデー夕ベース 1 7 Cは、音響モデルデータベース 1 7 Bよりも精度の高い処理が可能なより高精度の音響モデルを記憶している。即ち、音響モデルデータベース 1 7 Aにおいて、各音素や音節について、例えば、前後のコンテキストに依存しない 1パターンの音響モデルだけが記憶されているとすると、音響モデルデータべ一ス 1 7 Bには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルの他、単語間にまたがるコンテキストに依存する音響モデル、つまり、クロスワードモデルも記憶されている。そして、音響モデルデータベース 1 7 Cには、各音素や音節について、例えば、前後のコンテキストに依存しない音響モデルおよびクロスヮードモデルの他、単語内のコンテキストに依存する音響モデルも記憶されている。

辞書デ一夕ベース 1 8 A， 1 8 B、および 1 8 Cは、基本的には、図 1の辞書デ—夕ベース 6において説明したような単語辞書を記憶している。

即ち、辞書データベース 1 8 A乃至 1 8 Cの単語辞書には、同一セットの単語が登録されている。但し、辞書データベース 1 8 Bの単語辞書は、辞書データべース 1 8 Aの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶しており、辞書データベース 1 8 Cの単語辞書は、辞書データベース 1 8 Bの単語辞書よりもさらに精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、辞書データベース 1 8 Aの単語辞書には、例えば、各単語に対して、 1通りの音韻情報（読み）だけ登録されているとすると、辞書データベース 1 8 Bの単語辞書には、例えば、各単語に対して、複数通りの音韻情報が登録されている。そして、辞書デ一夕ベース 1 8 Cの単語辞書には、例えば、各単語に対して、さらに多くの通りの音韻情報が登録されている。

具体的には、例えば、単語「おはよう」に対して、辞書データベース 1 8 Aの単語辞書には、 1通りの音韻情報「おはよう」だけが、辞書データベース 1 8 B の単語辞書には、「おはよう」の他、「おはよ一」や「おはよ」が、辞書デ一夕ベース 1 8 Cの単語辞書には、「おはよう」、「おはよ一」、および「おはよ」の他、「はよう」や「はよ一」が、それぞれ音韻情報として登録されている。文法データベース 1 9 A , 1 9 B、および 1 9 Cは、基本的には、図 1の文法データベース 7において説明したような文法規則を記憶している。

但し、文法データベース 1 9 Bは、文法データベース 1 9 Aよりも精度の高い処理が可能な高精度の文法規則を記憶しており、文法データベース 1 9 Cは、文法データベース 1 9 Bよりも精度の高い処理が可能なより高精度の文法規則を記憶している。即ち、文法データベース 1 9 Aが、例えば、ュニグラム（単語の生起確率）に基づく文法規則を記憶しているとすると、文法データベース 1 9 Bは、例えば、バイグラム（直前の単語との関係を考慮した単語の生起確率）を記憶している。そして、文法データベース 1 9 Cは、例えば、トライグラム（直前の単語およびそのさらに 1つ前の単語との関係を考慮した単語の生起確率）や文脈自由文法等に基づく文法規則を記憶している。

以上のように、音響モデルデ一夕ベース 1 7 Aには、各音素や音節について、 1パターンの音響モデルが、音響モデルデータベース 1 7 Bには、各音素や音節について、複数パターンの音響モデルが、音響モデルデータベース 1 7 Cには、各音素や音節について、さらに多くのパターンの音響モデルが、それぞれ記憶されている。また、辞書データベース 1 8 Aには、各単語について、 1通りの音韻情報が、辞書データベース 1 8 Bには、各単語について、複数通りの音韻情報が、辞書データベース 1 8 Cには、各単語について、さらに多くの通りの音韻情報が、それぞれ記憶されている。そして、文法データベース 1 9 Aには、簡易な文法規則が、文法データベース 1 9 Bには、精度の高い文法規則が、文法データベース 1 9 Cには、さらに精度の高い文法規則が、それぞれ記憶されている。

これにより、音響モデルデ一夕べ一ス 1 7 A、辞書データベース 1 8 A、および文法データベース 1 9 Aを参照する単語予備選択部 1 3では、それほど精度は高くないが、多くの単語を対象として、迅速に、音響スコアおよび言語スコアを求めることができるようになつている。また、音響モデルデータベース 1 7 B、辞書データベース 1 8 B、および文法データベース 1 9 Bを参照するマッチング部 1 4では、ある程度の数の単語を対象として、迅速に、精度の高い音響スコアおよび言語スコアを求めることができるようになつている。そして、音響モデルデータベース 1 7 C、辞書データベース 1 8 C、および文法データベース 1 9 C を参照する再評価部 1 5では、少ない数の単語を対象として、迅速に、より精度の高い音響スコアおよび言語スコアを求めることができるようになつている。なお、ここでは、音響モデルデータベース 1 7 A乃至 1 7 Cそれぞれに記憶させる音響モデルの精度について優劣を設けるようにしたが、音響モデルデータべース 1 7 A乃至 1 7 Cには、いずれにも、同一の音響モデルを記憶させることができ、この場合、音響モデルデータベース 1 7 A乃至 1 7 Cは、 1つの音響モデルデ一夕ベースに共通化することができる。同様に、辞書データベース 1 8 A乃至 1 8 Cの単語辞書それぞれの記憶内容や、文法データべ一ス 1 9 A乃至 1 9 C それぞれの文法規則も、同一にすることができる。

次に、図 5のフローチャートを参照して、図 3の音声認識装置による音声認識処理について説明する。

ユーザが発話を行うと、その発話としての音声は、マイク 1および A D変換部 2を介することにより、ディジタルの音声データとされ、特徴抽出部 3に供給される。特徴抽出部 3は、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、制御部 1 1に供給する。制御部 1 1は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部 3から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部 1 2に供給して記憶させる。

さらに、制御部 1 1は、音声区間の開始後、ステップ S 1において、音声区間の開始を表すノード（以下、適宜、初期ノードという）を生成し、単語接続情報記憶部 1 6に供給して記憶させる。即ち、制御部 1 1は、ステップ S 1において，図 4におけるノード Node,を、単語接続情報記憶部 1 6に記憶させる。

そして、ステップ S 2に進み、制御部 1 1は、単語接続情報記憶部 1 6の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。

即ち、上述したように、図 4に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップ S 2では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード (例えば、図 4におけるノード Node₈や、 Node_1G， Node,,) として検索され、そのような途中ノードが存在するかどうかが判定される。

なお、上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノードが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。

ステップ S 2において、途中ノードが存在すると判定された場合、ステップ S 3に進み、制御部 1 1は、情報接続情報の中に存在する途中ノードのうちの 1つを、それに接続するアークとしての単語を決定するノード（以下、適宜、注目ノ —ドという）として選択する。

即ち、制御部 1 1は、情報接続情報の中に 1つの途中ノードしか存在しない場合には、その途中ノードを、注目ノードとして選択する。また、制御部 1 1は、情報接続情報の中に複数の途中ノードが存在する場合には、その複数の途中ノードのうちの 1つを注目ノードとして選択する。具体的には、制御部 1 1は、例えば、複数の途中ノードそれぞれが有する時刻情報を参照し、その時刻情報が表す時刻が最も古いもの（音声区間の開始側のもの）、または最も新しいもの（音声区間の終わり側のもの）を、注目ノードとして選択する。あるいは、また、制御部 1 1は、例えば、初期ノードから、複数の途中ノードそれぞれに至るまでのパスを構成するアークが有する音響スコアおよび言語スコアを累積し、その累積値 (以下、適宜、部分累積スコアという）が最も大きくなるパス、または小さくなるパスの終端になっている途中ノードを、注目ノードとして選択する。

その後、制御部 1 1は、注目ノードが有する時刻情報を開始時刻としてマッチング処理を行う旨の指令（以下、適宜、マッチング処理指令という）を、マッチング部 1 4および再評価部 1 5に出力する。

再評価部 1 5は、制御部 1 1からマッチング処理指令を受信すると、ステップ S 4に進み、単語接続情報記憶部 1 6を参照することにより、初期ノードから注目ノードに至るまでのパス（以下、適宜、部分パスという）を構成するアークによって表される単語列（以下、適宜、部分単語列という）を認識し、その部分単語列の再評価を行う。即ち、部分単語列は、後述するようにして、単語予備選択部 1 3が予備選択した単語を対象に、マッチング部 1 4がマッチング処理を行うことにより得られた音声認識結果の候補とする単語列の途中結果であるが、再評価部 1 5では、その途中結果が、再度、評価される。

具体的には、再評価部 1 5は、部分単語列について、言語スコアおよび音響スコアを再計算するため、部分単語列に対応する特徴量の系列を、特徴量記憶部 1 2から読み出す。即ち、再評価部 1 5は、例えば、部分パスの先頭のノードである初期ノードが有する時刻情報が表す時刻から、注目ノードが有する時刻情報が表す時刻までに対応付けられている特徴量の系列（特徴量系列）を、特徴量記憶部 1 2から読み出す。さらに、再評価部 1 5は、音響モデルデータベース 1 7 C、辞書デ一夕ベース 1 8 C、および文法デ一夕ベース 1 9 Cを参照し、特徴量記憶部 1 2から読み出した特徴量系列を用いて、部分単語列について、言語スコアおよび音響スコアを再計算する。なお、この再計算は、部分単語列を構成する各単語の単語境界を固定せずに行われる。従って、再評価部 1 5では、部分単語列の言語スコアおよび音響スコアを再計算することにより、部分単語列について、それを構成する各単語の単語境界の決定が、動的計画法に基づいて行われることになる。

再評価部 1 5は、以上のようにして、部分単語列の各単語の言語スコアおよび音響スコア、並びに単語境界を新たに得ると、その新たな言語スコアおよび音響スコアによって、単語接続情報記憶部 1 6の部分単語列に対応する部分パスを構成するアークが有する言語スコアおよび音響スコアを修正するとともに、新たな単語境界によって、単語接続情報記憶部 1 6の部分単語列に対応する部分パスを構成するノードが有する時刻情報を修正する。なお、本実施の形態では、再評価部 1 5による単語接続情報の修正は、制御部 1 1を介して行われるようになっている。

即ち、例えば、図 6に示すノード Node₅が注目ノードとされた場合において、初期ノード Node,から注目ノード Node₅に至る部分パスのうちの、例えば、ノード Node₃、単語「いい」に対応するアーク Arc₃、ノード Node₄、単語「天気」に対応する Arc₄、およびノード Node₅の部分で表される単語列「いい」、「天気」に注目すると、再評価部 1 5は、ノード Node₃に対応する時刻からノード Node₅ に対応する時刻までの特徴量系列を用い、音響モデルデータベース 1 7 Cおよび辞書データベース 1 8 Cを参照することで、単語「いい」、「天気」それぞれの単語モデルを構成し、音響スコアを計算する。さらに、再評価部 1 5は、文法デ一夕ベース 1 9 Cを参照することで、単語「いい」、「天気」それぞれの言語スコアを計算する。具体的には、例えば、文法データべ一ス 1 9 Cに、トライダラムに基づく文法規則が記憶されている場合には、再評価部 1 5は、単語「いい」については、 .その直前の単語「は」と、さらにその前の単語「今日」を用い、単語が、「今日」、「は」、「いい」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。また、再評価部 1 5は、単語「天気」については、その直前の単語「いい」と、さらにその前の単語「は」を用い、単語が、「は」、

「いい」、「天気」と連鎖する確率を求め、その確率に基づいて言語スコアを計算する。

再評価部 1 5は、以上のようにして求められる音響スコアおよび言語スコアを累積し、その累積値が最も大きくなるように、単語「いい」と「天気」の単語境界を決定する。そして、再評価部 1 5は、そのようにして求まった音響スコアおよび言語スコアによって、単語「いい」に対応するアーク Arc₃と、単語「天気」に対応する Arc₄がそれぞれ有する音響スコアおよび言語スコアを修正するとともに、決定した単語境界によって、単語「いい」と「天気」の単語境界に対応するノード Node₄が有する時刻情報を修正する。

従って、再評価部 1 5では、部分単語列の各単語どうしの単語境界が、動的計画法に基づいて決定され、単語接続情報 1 6に記憶された単語接続情報が、逐次修正されていく。そして、この修正された単語接続情報を参照して、単語予備選択部 1 3およびマッチング部 1 4で処理が行われるため、それぞれにおける処理の精度および信頼性を向上させることができる。

さらに、再評価部 1 5において単語接続情報の単語境界が修正されるため、単語接続情報として記憶しておく単語境界の候補の数を大幅に削減することができ、メモリ容量の効率化を図ることができる。

即ち、従来においては、例えば、前述の図 2で説明したように、単語「今日」と「は」との単語境界の候補として、時刻 t卜い t„ t _I の 3つを保持しておく必要があり、また、正しい単語境界である時刻を保持し損ねた場合には、その後のマッチング処理に悪影響を与える。これに対して、再評価部 1 5において単語境界を逐次修正する場合には、例えば、誤った単語境界である時刻の 1つだけしか保持しなかったとしても、再評価部 1 5において、その誤った単語境界である時刻 t が、正しい単語境界である時刻 t ,に修正されるから、その後のマッチング処理に悪影響を与えることはない。

また、再評価部 1 5では、部分単語列を構成する単語については、最初と最後の単語を除き、その前と後に接続する単語それぞれを考慮したクロスヮードモデルを用いて音響スコアを計算し、さらに、言語スコアの計算も、その前と後に接続する単語それぞれを考慮して行うことができ、従って、高精度の処理を行うことができる。

再評価部 1 5は、以上のようにして、単語接続情報記憶部 1 6の単語接続情報の修正を終了すると、その旨を、制御部 1 1を介して、マッチング部 1 4に供給する。

マッチング部 1 4は、上述したように、制御部 1 1からマッチング処理指令を受信した後、再評価部 1 5から、制御部 1 1を介して、単語接続情報の修正が終了した旨を受信すると、注目ノード、およびそれが有する時刻情報を、単語予備選択部 1 3に供給し、単語予備選択処理を要求して、ステップ S 5に進む。

ステップ S 5では、単語予備選択部 1 3は、マッチング部 1 4から、単語予備選択処理の要求を受信すると、注目ノードに接続されるアークとなる単語の候補を選択する単語予備選択処理を、辞書データベース 1 8 Aの単語辞書に登録された単語を対象として行う。

即ち、単語予備選択部 1 3は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部 1 2から読み出す。さらに、単語予備選択部 1 3は、辞書データベース 1 8 Aの単語辞書に登録された各単語の単語モデルを、音響モデルデータベース 1 7 Aの音響モデルを接続することで構成し、その単語モデルに基づき、特徴量記憶部 1 2から読み出した特徴量の系列を用いて、音響スコアを計算する。

また、単語予備選択部 1 3は、各単語モデルに対応する単語の言語スコアを、文法データベース 1 9 Aに記憶された文法規則に基づいて計算する。即ち、単語予備選択部 1 3は、各単語の言語スコアを、例えばュニグラムに基づいて求める _c なお、単語予備選択部 1 3においては、単語接続情報を参照することにより、各単語の音響スコアの計算を、その単語の直前の単語（注目ノードが終端となつているアークに対応する単語）に依存するクロスヮードモデルを用いて行うことが可能である。

また、単語予備選択部 1 3においては、単語接続情報を参照することにより、各単語の言語スコアの計算を、その単語が、その直前の単語と連鎖する確率を規定するバイグラムに基づいて行うことが可能である。

単語予備選択部 1 3は、以上のようにして、各単語について音響スコアおよび言語スコアを求めると、その音響スコアおよび言語スコアを総合評価したスコアを、以下、適宜、単語スコアという）を求め、その上位 L個を、マッチング処理の対象とする単語として、マッチング部 1 4に供給する。

なお、ここでは、単語予備選択部 1 3において、各単語の音響スコアおよび言語スコアを総合評価した単語スコアに基づいて、単語を選択するようにしたが、単語予備選択部 1 3では、その他、例えば、音響スコアだけや、言語スコアだけに基づいて、単語を選択するようにすることが可能である。

また、単語予備選択部 1 3では、特徴量記憶部 1 2から読み出した特徴量の系列の最初の部分だけを用いて、音響モデルデ一夕ベース 1 7 Aの音響モデルに基づき、対応する単語の最初の部分の幾つかの音韻を求め、最初の部分が、その音韻に一致する単語を選択するようにすることも可能である。

さらに、単語予備選択部 1 3では、単語接続情報を参照して、直前の単語（注目ノードが終端ノードとなっているアークに対応する単語）の品詞を認識し、その品詞に続く単語の品詞として可能性の高い品詞の単語を選択するようにすることも可能である。

即ち、単語予備選択部 1 3における単語の選択方法は、どのような方法を用いても良く、究極的には、単語を、ランダムに選択しても良い。

マッチング部 1 4は、単語予備選択部 1 3から、マッチング処理に用いる L個の単語（以下、適宜、選択単語という）を受信すると、ステップ S 6において、その選択単語を対象として、マッチング処理を行う。

即ち、マッチング部 1 4は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部 1 2から読み出す。さらに、マッチング部 1 4は、辞書データベース 1 8 Bを参照することで、単語予備選択部 1 3からの選択単語の音韻情報を認識し、その音韻情報に対応する音響モデルを、音響モデルデータベース 1 7 Bから読み出して接続することで、単語モデルを構成する。

そして、マッチング部 1 4は、上述のようにして構成した単語モデルに基づき、特徴量記憶部 1 2から読み出した特徴量系列を用いて、単語予備選択部 1 3からの選択単語の音響スコアを計算する。なお、マッチング部 1 4においては、単語接続情報を参照することにより、単語の音響スコアの計算を、クロスワードモデルに基づいて行うようにすることが可能である。

さらに、マッチング部 1 4は、文法データベース 1 9 Bを参照することで、単語予備選択部 1 3からの選択単語の言語スコアを計算する。即ち、マッチング部 1 4は、例えば、単語接続情報を参照することにより、単語予備選択部 1 3からの選択単語の直前の単語、さらには、その前の単語を認識し、バイグラムやトラィグラムに基づく確率から、単語予備選択部 1 3からの選択単語の言語スコアを求める。

マッチング部 1 4は、以上のようにして、単語予備選択部 1 3からの L個の選択単語すベてについて、その音響スコアおよび言語スコアを求め、ステップ S 7 に進む。ステップ S 7では、選択単語それぞれについて、その音響スコアおよび言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて、単語接続情報記憶部 1 6に記憶された単語接続情報が更新される。

即ち、ステップ S 7では、マッチング部 1 4は、選択単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を、選択単語の中から絞り込む。そして、マッチング部 1 4は、その絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部 1 1に供給する。なお、マッチング部 1 4において、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコアおよび言語スコアとのセットが、制御部 1 1に供給される。

制御部 1 1は、上述のようにしてマッチング部 1 4から供給される単語の音響スコア、言語スコア、およ終了時刻を受信すると、マッチング部 1 4からの各単語について、単語接続情報記憶部 1 6に記憶された単語接続情報（図 4 ) における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部 1 1は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップ S 2に戻り、以下、同様の処理が繰り返される。

以上のように、単語接続情報は、マッチング部 1 4の処理結果に基づいて、逐次更新され、さらに、再評価部 1 5において逐次修正されるので、単語予備選択部 1 3およびマッチング部 1 4は、常時、単語接続情報を利用して処理を行うことが可能となる。

なお、制御部 1 1は、単語接続情報を更新する際に、可能であれば、上述したような終端ノードの共通化を行う。

一方、ステップ S 2において、途中ノードが存在しないと判定された場合、ステツプ S 8に進み、制御部 1 1は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。

以上のように、単語予備選択部 1 3において、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語が選択され、マッチング部 1 4 において、その選択された単語（選択単語）について、スコアが計算されて、そのスコアに基づき、音声認識結果の候補となる単語列が構成される。そして、再評価部 1 5において、音声認識結果の候補となる単語列の単語どうしの単語接続関係が修正され、制御部 1 1において、その修正後の単語接続関係に基づいて、音声認識結果となる単語列が確定される。従って、処理に要するリソースの増大を抑えながら、精度の高い音声認識を行うことができる。

即ち、再評価部 1 5において単語接続情報の単語境界が修正されるため、注目ノードが有する時刻情報が、単語境界を表している精度が高くなり、単語予備選択部 1 3やマッチング部 1 4では、そのような精度の高い時刻情報が表す時刻以降の特徴量系列を用いて処理が行われる。従って、単語予備選択部 1 3において選択する単語の判断基準や、マッチング部 1 4において単語を絞り込むときの判断基準を強化しても、音声認識結果として正しい単語が除外されてしまう可能性を極めて低くすることができる。

そして、単語予備選択部 1 3において選択する単語の判断基準を強化した場合には、マッチング部 1 4においてマッチング処理の対象となる単語数が少なくなり、その結果、マッチング部 1 4の処理に要する演算量およびメモリ容量も少なくすることができる。

さらに、仮に、単語予備選択部 1 3において、正しい音声認識結果としての単語列を構成する単語のうち、ある時刻から開始する単語が、その時刻に選択されなかったとしても、その時刻から多少ずれた時刻（従って、誤った時刻）において選択されれば、再評価部 1 5において、その誤った時刻が修正され、正しい音声認識結果としての単語列を得ることができる。即ち、単語予備選択部 1 3で、正しい音声認識結果としての単語列を構成する単語の選択漏れがあつたとしても、再評価部 1 5において、その選択漏れを是正して、正しい音声認識結果としての単語列を得ることができる。

従って、再評価部 1 5では、マッチング部 1 4における終了時刻の検出の誤りの他、単語予備選択部 1 3における単語の選択の誤りも是正することができる。次に、図 7は、本発明を適用した音声認識装置の第 1実施の形態の構成例を示している。なお、図中、図 3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 7の音声認識装置は、制御部 1 1と単語接続情報記憶部 1 6との間に、単語接続関係管理部 2 1が新たに設けられている他は、基本的に、図 3における場合と同様に構成されている。

従って、図 7の実施の形態においては、制御部 1 1は、単語接続関係管理部 2 1を介して、単語接続情報記憶部 1 6に対して、マッチング部 1 4からの情報に基づいて生成した単語接続情報を書き込むが、その際、単語接続関係管理部 2 1 は、その単語接続情報によって表される単語の境界位置を制限する。

即ち、制御部 1 1は、上述したように、マッチング部 1 4から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部 1 4からの各単語について、単語接続情報記憶部 1 6に記憶された単語接続情報（図 4 ) における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部 1 1は、各ァークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。

その際、単語接続関係管理部 2 1は、注目ノードを始点ノードとして延ばされるアークの終端ノードの位置（単語の終了時刻）を制限する。

即ち、例えば、いま、図 8 (A) に示すように、特徴抽出部 3において、時間 T_sごとに特徴量が抽出され、制御部 1 1に供給されるとすると、制御部 1 1は、この時間 T_sを最小単位とした終了時刻を終端ノードとする単語すべてに対応するアークを、単語接続情報として、単語接続情報記憶部 1 6に書き込む。

従って、例えば、図 8 (A) に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、例えば、図 8 ( B ) に示すように、時間 T _sごとの連続する 7つの時刻（タイミング） a， b， c , d , e , f , gが得られたときには、この 7つの時刻 a乃至 gそれぞれを終端ノードとする単語「今日」に対応するアークが、単語接続情報として記憶されることになる。

即ち、単語の境界位置（つまり、単語の終了時刻）は、特徴抽出部 3において特徴量が得られるタイミングで設定することができるため、終端ノードとすることができるタイミング（以下、適宜、ノード記憶タイミングという）も、図 8 ( C ) に矢印で示すように、時間 T_sを最小単位としたタイミングとなり、その結果、上述のような時間 T_sごとの連続する 7つの時刻 a乃至 gそれぞれを終端ノードとするアークが、単語接続情報として記憶されることがある。

しかしながら、このように、多数のアークが、単語接続情報として記憶されるのは、単語接続情報記憶部 1 6の記憶容量や、処理時間等の観点から効率的ではない。

そこで、単語接続関係管理部 2 1は、終端ノードの位置（単語の終了時刻）を、特徴抽出部 3から特徴量が供給されるタイミングを間引いたタイミングに制限する。

即ち、単語接続関係管理部 2 1は、終端ノードの位置を、例えば、図 8 (D ) に示すように、時間 3 T_sごとのタイミングに制限する。

ここで、単語接続関係管理部 2 1によって制限された、終端ノードの位置としてとり得る位置（タイミング）を、以下、適宜、新ノード記憶タイミングという _c この場合、制御部 1 1において、単語「今日」の終了時刻の候補として、図 8 ( B ) に示したように、時間 T_sごとの連続する 7つの時刻 a乃至 gが得られたとしても、単語接続関係管理部 2 1において、終端ノードの位置は、 2つの時刻 cと f に制限されることとなり、その結果、単語接続情報記憶部 1 6として必要な記憶容量を低減することができる。さらに、この場合、その後に注目ノードとされる途中ノードが少なくなることから、処理の高速化を図ることができる。ところで、上述のように、単語接続関係管理部 2 1において、終端ノードの位置を制限した場合には、正しい単語境界が得られないことがある。即ち、図 8の実施の形態においては、図 8 (A) に示すように、単語「今日」と「は」との間の正しい単語境界は、時刻 dであるが、終端ノードの位置は、図 8 (D ) に示したように、時刻 cと f に制限され、正しい単語境界の時刻 dを、終端ノードとして得ることができない。

従って、誤った境界位置である時刻 cまたは f を、正しい境界位置として、その後の処理が行われる場合には、認識性能が低下することになる。

しかしながら、図 7の音声認識装置では、図 3の音声認識装置について説明したように、再評価部 1 5が、単語接続情報の単語境界を修正するため、ある程度の境界位置の誤りは、正しい境界位置に修正される。その結果、上述したように、終端ノードの位置を、ある程度制限しても、認識性能の低下を防止することがでさる。

即ち、図 9は、終端ノードの位置を制限して行った音声認識処理のシミュレ一ション結果を示している。

図 9において、「時間間隔」の欄は、終端ノードの位置の制限条件を表しており ·、そこに記載してある数字は、特徴抽出部 3から特徴量が供給される時間間隔 T_sに対する、終端ノードの位置として許可するタイミングの時間間隔を表す。即ち、「時間間隔」の欄の数字 # iは、終端ノードの位置を、時間 i X T_sごとの時刻に制限したことを表す。従って、例えば、「時間間隔」の欄における「1」は、終端ノードの位置を制限しない場合を表し、また、例えば、「時間間隔」の欄における「2」は、終端ノードの位置を、時間 2 T_sごとの時刻に制限した場合を表す。

また、「単語正解率」の欄は、音声の認識率を表す。

なお、シミュレーションでは、特徴抽出部 3から特徴量が供給される時間間隔 T_sを、 1 0 m sとした。

また、シミュレーションでは、音声認識の対象とする単語数を 2万語とし、 1 0人の話者それぞれによる 2 0の発話、即ち、延べ 2 0 0発話を対象に、音声認識を行った。さらに、文法としては、トライグラムを用いた。図 9のシミュレーション結果から、終端ノードの位置を、時間 T_s乃至 4 T_Sそれぞれごとの時刻に制限しても、ほとんど同様の認識性能が得られていることが分かる。

なお、上述のように、シミュレーションは、 2 0 0発話しか対象にしていないため、「単語正解率」の欄の認識率における 0 . 5 %乃至 1 %程度の上下差は、誤差の範囲内である。

ところで、例えば、図 8 (A) と同様の図 1 0 (A) に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、例えば、図 1 0 ( B ) に示すように、時間 T_sだけ離れた 2つの連続する時刻（タイミング） d と eが得られたとする。

即ち、マッチング部 1 4において、例えば、図 1 0 (A) に示した、時間 T_s ごとの時刻 a乃至 gそれぞれを終了時刻とした単語「今日」の単語スコアが計算され、その単語スコアによる、上述した絞り込みによって、時刻 dと eをそれぞれ終了時刻とする単語「今日」が残ったとする。

この場合、単語接続関係管理部 2 1において、終端ノードの位置を、例えば、図 1 0 ( C ) に示すように、時間 3 T_Sごとのタイミングに制限すると、時刻 d と eは、いずれも、その制限されたタイミング、即ち、新ノード記憶タイミングの位置にないため、時刻 dと eをそれぞれ終了時刻とするアークは、いずれも、単語接続情報記憶部 1 6に記憶されないことになる。

即ち、図 1 0 ( B ) の実施の形態では、単語「今日」の終了時刻として正しい時刻 dと、その時刻に近い時刻 eが得られているのにもかかわらず、いずれの時刻も、ノードとして記憶されない。

そして、このように、正しい終了時刻付近にノードが記憶されない場合には、再評価部 1 5の処理によっても、単語どうしの間の境界位置を、正しい位置に修正することが困難となり、この場合、音声認識性能が劣化することになる。そこで、制御部 1 1は、マッチング部 1 4を制御することにより、マッチング部 14が計算した単語スコアを補正させ、その補正後の単語スコア（以下、適宜、補正スコアという）に基づいて、音声認識結果の候補となる単語列の単語の境界位置の候補の仮決定（絞り込み）を行わせる。

即ち、例えば、いま、時刻 Xを終了時刻とする単語の音響スコアと言語スコアを、それぞれ A (x) とし (x) と表すとともに、時刻 Xの前と後に隣接する時刻を、それぞれ x と x_+lと表すこととすると、マッチング部 14は、時刻 Xを終了時刻とする単語の補正スコアを求めるのに用いる音響スコア A' (X) と言語スコア L' (X) (以下、適宜、それぞれを、補正音響スコア A' (X) と補正言語スコア L' (X) という）を、次式にしたがって求める。

A' (X) =ma x {A (x.,) , A (x) , A (x₊₁) }

L ' (x) =m a x { L ( x_,) , L ( x ) ， L ( ₊₁) }

• · · (2) ここで、式（2) において、 ma x {} は、カツコ {} 内の最大値を意味するまた、式（2) における音響スコア A (x_,) , A (x) ， A (x₊₁) それぞれには、各音響スコアを計算する時間長に依存しないように、何らかの正規化が施されるものとする。

式（2) によれば、ある時刻 Xを終了時刻とする単語の音響スコアが、その時刻の音響スコア、その時刻の前と後にそれぞれ隣接する時刻 x_,と x₊₁を終了時刻とする単語の音響スコアのうちの最も大きいものに補正される。さらに、言語スコアについても、同様の補正が行われる。その結果、直感的には、ある時刻 X を終了時刻とする単語の単語スコアは、その時刻 Xを含む、その時刻 Xに近い時刻を終了時刻とする単語の単語スコアのうちの最も大きいものに補正されることになる。

従って、図 10 (B) に示したように、補正前の単語スコアによる絞り込みによって、時刻 dと eをそれぞれ終了時刻とする単語「今日」が残る場合というのは、時刻 dと eをそれぞれ終了時刻とする単語「今日」の単語スコアが所定の閾値以上であり、かつ他の時刻を終了時刻とする単語「今日」の単語スコアが所定の閾値未満である場合であるから、時刻 dの直前の時刻 cを終了時刻とする単語「今日」の単語スコアは、時刻 dを終了時刻とする単語「今日」の単語スコアより小さく、また、時刻 eの直後の時刻 f を終了時刻とする単語「今日」の単語スコアは、時刻 eを終了時刻とする単語「今日」の単語スコアより小さい。

その結果、時刻 cを終了時刻とする単語「今日」の単語スコアは、その時刻 c の直後の時刻 dを終了時刻とする単語「今日」の単語スコアに補正され、また、時刻 f を終了時刻とする単語「今日」の単語スコアも、その時刻 f の直前の時刻 eを終了時刻とする単語「今日」の単語スコアに補正される。

これにより、時刻 cと f をそれぞれ終了時刻とする単語「今日」の補正後の単語スコア（補正スコア）は、いずれも、所定の閾値以上となる。従って、そのような補正スコアに基づいて、絞り込みを行うことにより、図 1 0 ( D ) に示すように、時刻 dと eをそれぞれ終了時刻とする単語「今日」だけでなく、時刻じと f をそれぞれ終了時刻とする単語「今日」も残ることになる。

この場合、単語接続関係管理部 2 1において、終端ノードの位置を、図 1 0 ( C ) と同様の図 1 0 ( E ) に示すように、時間 3 T_Sごとのタイミングに制限しても、単語「今日」の終了時刻として正しい時刻 dに近い時刻 cと f が得られ、この時刻 cと fそれぞれが、ノードとして記憶されることになる。

従って、正しい終了時刻 dに近い時刻 cと f が、ノードとして記憶されるので、上述した再評価部 1 5の処理によって、単語どうしの間の境界位置が、正しい位置に修正されることになる。

次に、図 1 1のフローチャートを参照して、図 7の音声認識装置による音声認識処理について説明する。

図 7の音声認識装置では、ステップ S 1 1乃至 S 1 6において、図 5のステツプ S 1乃至 S 6における場合とそれぞれ同様の処理が行われる。

そして、ステップ S 1 6において、図 5のステップ S 6で説明したように、マツチング部 1 4が、単語予備選択部 1 3からの選択単語すべてについて、それぞれの音響スコアおよび言語スコアを求めた後は、ステップ S 1 7に進み、マッチング部 1 4は、式（2 ) にしたがい、各単語の音響スコアと言語スコアを、他の時刻を終了時刻とする同一単語の音響スコアと言語スコアによって、それぞれ補正する。さらに、マッチング部 1 4は、補正後の音響スコアと言語スコアから、補正後の単語スコア（補正スコア）を計算する。そして、マッチング部 1 4は、ステップ S 1 8に進み、その補正スコアによって、単語の絞り込みを行い、これにより、単語の境界位置の候補を、特に位置を制限することなく決定（仮決定）する。

その後、マッチング部 1 4は、ステップ S 1 8における絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部 1 1に供給する。

制御部 1 1は、上述のようにしてマッチング部 1 4から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、そのうちの各単語についての終了時刻を、単語接続関係管理部 2 1に供給する。

単語接続関係管理部 2 1は、ステップ S 1 9において、単語の境界候補となつている終了時刻を、新ノード記憶タイミングで間引き、即ち、新ノード記憶タイミングの位置にない終了時刻を削除し、残った終了時刻を、単語の境界候補となる時刻として、最終的に決定する。単語接続関係管理部 2 1は、このようにして最終的に残った終了時刻を、制御部 1 1に返し、制御部 1 1は、ステップ S 2 0 において、単語接続関係管理部 2 1から終了時刻が返された単語に関して、単語接続情報記憶部 1 6に記憶された単語接続情報を、単語接続関係管理部 2 1を介して更新する。

即ち、ステップ S 2 0では、図 5のステップ S 7で説明した場合と同様に、単語接続関係管理部 2 1から終了時刻が返された各単語について、単語接続情報記憶部 1 6に記憶された単語接続情報（図 4 ) における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部 1 1は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。

その後は、ステップ S 1 2に戻り、以下、同様の処理が繰り返される。

そして、ステップ S 1 2において、途中ノードが存在しないと判定されると、ステップ S 2 1に進み、図 5のステップ S 8における場合と同様に、制御部 1 1 は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。

以上のように、単語接続関係管理部 2 1において、終端ノードの位置を、特徴抽出部 3から特徴量が供給されるタイミングを間引いた夕イミング（新ノード記憶タイミング）に制限するようにしたので、単語接続情報記憶部 1 6の記憶容量や処理時間等を低減することができ、処理の効率化を図ることができる。

さらに、終端ノードの位置を制限しても、再評価部 1 5によって、その位置が、正しい単語の境界の位置に修正されるため、認識性能の劣化を防止することができる。なお、図 7の実施の形態では、単語予備選択部 1 3を設けて、音声認識装置を構成するようにしたが、音声認識装置は、単語予備選択部 1 3を設けずに構成することも可能である。

次に、図 1 2は、本発明を適用した音声認識装置の第 2実施の形態の構成例を示している。なお、図中、図 3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 2の音声認識装置は、単語予備選択部 1 3とマッチング部 1 4との間に、単語接続関係管理部 2 2が新たに設けられている他は、基本的に、図 3における場合と同様に構成されている。

従って、図 1 2の実施の形態においては、マッチング部 1 4が単語予備選択処理の要求とともに出力する注目ノード、およびそれが有する時刻情報は、単語接続関係管理部 2 2を介して、単語予備選択部 1 3に供給されることとなるが、その際、単語接続関係管理部 2 2は、マッチング部 1 4からの注目ノードの時刻情報、つまり、選択単語の開始位置（開始時刻）を制限する。

即ち、例えば、いま、図 1 3 (A) に示すように、特徴抽出部 3において、時間 T_sごとに特徴量が抽出され、制御部 1 1に供給されるとすると、制御部 1 1 は、この時間 T_sを最小単位とした終了時刻を終端ノードとする単語すべてに対応するアークを、単語接続情報として、単語接続情報記憶部 1 6に書き込む。従って、例えば、図 1 3 (A) に示すように、「今日はいい天気ですね」と発話された場合において、単語「今日」と「は」との間の境界位置の候補、即ち、単語「今日」の終了時刻の候補として、時間 T_sごとの連続する 7つの時刻 a , b , c， d , e , f , gが得られたときには、この 7つの時刻 a乃至 gそれぞれが、終端ノードとして、単語接続情報記憶部 1 6に記憶されることになる。その結果、この 7つの終端ノード a乃至 gは、その後、順次、注目ノードとされるから、単語予備選択部 1 3は、 7つの終端ノード a乃至 gそれぞれを、単語の開始位置として、単語予備選択処理を行うこととなる。

しかしながら、このように、多数の時刻を開始位置として単語予備選択を行うのは、処理時間等の観点から効率的ではない。

そこで、単語接続関係管理部 2 2は、マッチング部 1 4から単語予備選択部 1 3に供給される注目ノードの位置（単語の開始時刻）を、特徴抽出部 3から特徴量が供給されるタイミングを間引いたタイミングに制限する。

即ち、単語接続関係管理部 2 2は、注目ノードの位置を、例えば、図 1 3 ( B ) に示すように、時間 2 T_sごとのタイミングに制限する。これにより、単語予備選択部 1 3において、単語予備選択処理が開始されるタイミング（単語の開始時刻）は、時間 2 T_sごとのタイミングに制限される。

具体的には、単語接続関係管理部 2 2は、マッチング部 1 4から供給される注目ノードの位置が、単語の開始時刻として許可された位置（以下、適宜、許可位置という）である場合には、その注目ノードを、そのまま単語予備選択部 1 3に供給し、マッチング部 1 4から供給される注目ノードの位置が、単語の開始時刻として許可されていない位置（以下、適宜、不許可位置という）である場合（制限されている場合）には、その注目ノードの時刻情報を、単語予備選択部 1 3に供給せずに一時保持する。

その結果、単語予備選択部 1 3では、許可位置のみを開始位置として単語予備選択が行われるので、単語予備選択処理に要する処理時間の短縮化等を図ることができる。

ところで、上述のように、単語予備選択部 1 3において、許可位置のみを開始位置として単語予備選択が行われる場合には、不許可位置を開始位置とする単語予備選択結果が得られないから、このままでは、不許可位置を開始位置とする単語が、マッチング処理部 1 4において処理の対象とされることがなくなってしまうことになる。

しかしながら、マッチング部 1 4が単語予備選択処理の要求とともに出力する注目ノードの時刻情報は、いまの場合、時間 T_sを最小単位とするものであり、マッチング部 1 4から単語予備選択部 1 3に対しては、許可位置のみならず、不許可位置を開始位置とする単語予備選択処理が要求される場合がある。

従って、不許可位置を開始位置とする単語が、単語予備選択結果として、マツチング部 1 4に供給されず、その結果、まったく処理の対象とされないことは、認識性能の劣化を招くことになる。

そこで、単語接続関係管理部 2 2は、マッチング部 1 4から、不許可位置を開始位置とする単語の単語予備選択処理の要求があった場合には、不許可位置を開始位置とする単語を補完し、マッチング部 1 4に供給するようになっている。即ち、単語接続関係管理部 2 2は、例えば、図 1 3 (A) に示した時間 T_sごとの時刻 a乃至 gのうちの、図 1 3 ( B ) に示した時間 2 T_s ごとの時刻 b， d , f に、単語予備選択処理が開始されるタイミング（単語の開始時刻）を制限する場合において、その時刻以外の時刻（不許可位置） cや eを開始位置とする単語予備選択処理の要求があったときには、その時刻 cや eに近い許可位置を開始位置とする単語予備選択処理の結果得られた単語（選択単語）によって、不許可位置である時刻 cや eを開始位置とする単語予備選択結果としての単語を補完する _c 具体的には、単語接続関係管理部 2 2は、例えば、不許可位置である時刻 cについては、図 1 3 ( C ) に示すように、その前後の許可位置の時刻 bと dをそれぞれ開始位置とする単語予備選択処理の結果得られた単語の集合を、時刻 cを開始位置とする単語予備選択結果として補完し、マッチング部 1 4に供給する。また、単語接続関係管理部 2 2は、例えば、不許可位置である時刻 eについては、図 1 3 ( C ) に示すように、その前後の許可位置の時刻 dと f をそれぞれ開始位置とする単語予備選択処理の結果得られた単語の集合を、時刻 eを開始位置とする単語予備選択結果として補完し、マッチング部 1 4に供給する。

以上のように、単語予備選択部 1 3において、実際に、単語予備選択処理が行われるのは、許可位置を開始時刻とする単語についてだけであるが、マッチング部 1 4には、許可位置を開始時刻とする単語予備選択結果としての単語だけでなく、不許可位置を開始時刻とする単語予備選択結果としての単語も補完されて供給される。従って、単語予備選択処理に要するコストを低減しながら、認識性能の劣化を防止することができる。

なお、上述のように、単語接続関係管理部 2 2は、マッチング部 1 4から、不許可位置を開始時刻とする単語予備選択処理の要求があった場合には、上述のように、その不許可位置を開始時刻とする単語を補完して、マッチング部 1 4に単語予備選択結果として供給することから、その補完のために、例えば、単語予備選択部 1 3からの許可位置を開始時刻とする単語予備選択結果としての単語を、一時記憶しておくようにする必要がある。

また、単語接続関係管理部 2 2において、不許可位置を開始時刻とする単語の補完に用いられる単語予備選択結果が記憶されていない場合には、単語接続関係管理部 2 2は、例えば、不許可位置に近い許可位置を開始時刻とする単語予備選択処理を、単語予備選択部 1 3に要求し、その要求に対応して単語予備選択部 1 3から供給される、許可位置を開始時刻とする単語予備選択結果によって、不許可位置を開始時刻とする単語を補完するようになっている。

次に、図 1 4のフローチャートを参照して、図 1 2の音声認識装置による音声認識処理について説明する。

図 1 2の音声認識装置では、ステップ S 3 1乃至 S 3 4において、図 5のステップ S 1乃至 S 4における場合とそれぞれ同様の処理が行われる。

そして、ステップ S 3 4において、図 5のステップ S 4で説明したように、再評価部 1 5が、単語接続情報記憶部 1 6の単語接続情報を修正し、マッチング部 1 4が、その修正が終了した旨を、制御部 1 1を介して受信すると、マッチング部 1 4は、上述したように、注目ノード、およびそれが有する時刻情報を、単語予備選択処理の要求とともに出力する。

マッチング部 1 4が注目ノードおよび時刻情報とともに出力する単語予備選択処理の要求は、単語接続関係管理部 2 2で受信される。

単語接続関係管理部 2 2は、単語予備選択処理の要求を受信すると、ステップ S 3 5において、マッチング部 1 4からの単語予備選択処理の要求が、許可位置を開始時刻とするものであるかどうかを判定する。ステップ S 3 5において、単語予備選択処理の要求が、許可位置を開始時刻とするものであると判定された場合、単語接続関係管理部 2 2は、その単語予備選択処理の要求を、単語予備選択部 1 3に供給して、ステップ S 3 6に進む。ステップ S 3 6では、図 5のステツプ S 5における場合と同様にして、単語予備選択部 1 3が単語予備選択処理を行い、その結果得られる単語（選択単語）を、単語接続関係管理部 2 2に供給する。単語接続関係管理部 2 2は、単語予備選択部 1 3からの選択単語（これは、許可位置を開始時刻とするもの）を一時記憶するとともに、単語予備選択結果として、マッチング部 1 4に供給し、ステップ S 3 8に進む。

一方、ステップ S 3 5において、単語予備選択処理の要求が、許可位置を開始時刻とするものでないと判定された場合、即ち、不許可位置を開始時刻とするものである場合、ステップ S 3 7に進み、単語接続関係管理部 2 2は、不許可位置の前後の許可位置を開始時刻とする単語予備選択結果を、単語予備選択部 1 3から既に得ている単語予備選択結果の中から得て、それを、不許可位置を開始時刻とする単語予備選択結果として補完する。そして、単語接続関係管理部 2 2は、その補完によって得られた不許可位置を開始時刻とする単語予備選択結果を、マツチング部 14に供給し、ステップ S 38に進む。

その後は、ステップ S 38乃至 S 40において、図 5のステップ S 6乃至 S 8 における場合とそれぞれ同様の処理が行われる。

なお、上述の場合においては、不許可位置を開始位置とする単語予備選択結果としての単語を、その不許可位置の前後の許可位置を開始位置とする単語予備選択結果によって補完するようにしたが、この補完は、例えば、図 1 5 (A) に示すように、不許可位置 X。からある程度の範囲内にある複数の許可位置 χ,, x₂, 3, χ₄. χ₅， χ₆を開始位置とする単語予備選択結果によって行うことが可能である。

さらに、このように、不許可位置 X。を開始位置とする単語予備選択結果としての単語を、その不許可位置 X。から広い範囲にある複数の許可位置 X ,乃至 x₆ を開始位置とする単語予備選択結果によって補完する場合には、その複数の許可位置 X ,乃至 x₆それぞれに対して、不許可位置からの距離に応じた重みを付し、その重みに基づいて、不許可位置 x_Qを開始位置とする単語を補完することが可能である。

この場合、例えば、図 1 5 (B) に示すような、不許可位置 X。からの距離が遠くなるほど小さくなる重みを採用することが可能である。即ち、この場合、不許可位置 x_Qについての補完には、不許可位置 x_Qからの距離が近い、例えば、許可位置 x₃や x₄を開始位置とする単語予備選択結果としての単語が多く用いられる。また、不許可位置 x_Qからの距離が遠い、例えば、許可位置 X,や x₆を開始位置とする単語予備選択結果としての単語については、少ない数を用いて、補完が行われる。なお、このような重みを採用する場合、補完には、ある許可位置を開始位置とする単語予備選択結果としての単語すべてではなく、そのうちの一部の単語が用いられることとなるが、この一部の単語は、例えば、単語予備選択処理において得られる単語スコアに基づいて選択することが可能である。即ち、補完に用いる一部の単語は、例えば、単語スコアの高い順に選択するようにすることが可能である。

以上のように、単語予備選択処理を開始するタイミングを、許可位置のみに制限し、また、マッチング部 1 4において、不許可位置からの単語予備選択処理が要求された場合には、単語予備選択結果となる単語を補完するようにしたので、認識性能を劣化させることなく、処理量を大幅に低減することができる。

なお、図 1 2の実施の形態においては（後述する図 1 6の実施の形態においても同様）、再評価部 1 5を設けて音声認識装置を構成するようにしたが、音声認識装置は、再評価部 1 5を設けずに構成することが可能である。

次に、図 1 6は、本発明を適用した音声認識装置の第 3実施の形態の構成例を示している。なお、図中、図 1 2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 6の音声認識装置は、 1つの単語予備選択部 1 3に替えて、 2つの単語予備選択部 1 3 Aおよび 1 3 Bが設けられている他は、基本的に、図 1 2における場合と同様に構成されている。

但し、図 1 6の実施の形態においては、辞書データベース 1 8 Aに登録されている単語が、音韻数の長い単語と、短い単語の 2つのカテゴリに分類されており、単語予備選択部 1 3 Aは、音韻数の長い単語を対象とした単語予備選択処理を行レ単語予備選択部 1 3 Bは、音韻数の短い単語を対象とした単語予備選択処理を行うようになっている。

また、単語接続関係管理部 2 2は、単語予備選択部 1 3 Aが単語予備選択処理を開始するタイミングと、単語予備選択部 1 3 Bが単語予備選択処理を開始するタイミングとを、異なる条件で制限するようになっている。

即ち、単語接続関係管理部 2 2は、単語予備選択部 1 3 Aが単語予備選択処理を開始するタイミングの間隔を、比較的長くなるように制限するとともに、単語予備選択部 1 3 Aが単語予備選択処理を開始するタイミングの間隔を、比較的短くなるように制限する。

この場合、単語予備選択処理において、音韻数の短い単語の検出漏れが生じることを防止して、処理効率を向上させることができる。

即ち、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限した場合、単語予備選択処理のコストは低減する。しかしながら、例えば、助詞等の音韻数が短い単語は、一般に、その発話時間も短いことから、このような単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限すると、そのタイミングと、単語の発話開始時刻とのずれが、その単語の発話時間に対して大きくなりやすくなり、その結果、単語予備選択処理において、検出されにくくなる。一方、音韻数が多く、発話時間が長い単語は、一般に、その発話時間も長いことから、このような単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるように制限しても、その夕イミングと、単語の発話開始時刻とのずれが、その単語の発話時間に対して、それほど大きくはならず、その結果、単語予備選択処理においても、それほど検出されにくくなることはない。

従って、上述のように、音韻数の短い単語については、単語予備選択処理を開始するタイミングを、その間隔が短くなるようにするとともに、音韻数の長い単語については、単語予備選択処理を開始するタイミングを、その間隔が長くなるようにすることで、音韻数の短い単語の検出漏れによる認識性能の劣化を防止しながら、処理効率を向上させることができる。

なお、図 1 6の実施の形態においては、辞書データベース 1 8 Aに登録されている単語を 2つのカテゴリに分け、 2つの単語予備選択部 1 3 Aおよび 1 3 Bを設けるようにしたが、単語を分類するカテゴリ数、および単語予備選択部の数は、 3以上とすることが可能である。

また、図 1 6の実施の形態では、単語を、その音韻数によって分類するようにしたが、その他、例えば、単語が発話されるときの平均時間を求め、その平均時間によつて、単語を分類することも可能である。さらに、単語を、その重要度に基づいて分類し、重要度の高いものほど、単語予備選択処理を開始するタイミングの間隔が短くなるにすることも可能である。ここで、単語の重要度は、例えば、各単語の使用頻度や発話履歴等の情報を収集し、その情報に基づいて設定することが可能である。

次に、図 1 7は、本発明を適用した音声認識装置の第 4実施の形態の構成例を示している。なお、図中、図 3、図 7、または図 1 2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する即ち、図 1 7の音声認識装置は、図 7の単語接続関係管理部 2 1と図 1 2の単語接続関係管理部 2 2が新たに設けられている他は、基本的に、図 3における場合と同様に構成されている。

従って、図 1 7の実施の形態では、単語接続関係管理部 2 1において、単語接続情報として記憶される終端ノードの位置が制限されるとともに、単語接続関係管理部 2 2において、単語予備選択処理の開始タイミングが制限される。

即ち、図 8 (A) と同様の図 1 8 (A) に示すように、特徴抽出部 3において特徴量が得られるタイミングの間隔が、時間 T_sである場合において、単語接続関係管理部 2 1は、終端ノードの位置を、例えば、図 1 8 ( B ) に示すように、時間 2 T_Sごとのタイミングに制限する。さらに、単語接続関係管理部 2 2は、単語予備選択処理の開始タイミングを、例えば、図 1 8 ( C ) に示すように、時間 4 T_sごとのタイミングに制限する。

この場合、単語接続関係管理部 2 1において、終端ノードの位置が、時間 2 T _sごとのタイミングに制限されることから、マッチング部 1 4においては、時間 2 T_sごとのタイミングで、単語予備選択処理が要求されうる。しかしながら、単語予備選択処理の開始タイミングは、単語接続関係管理部 2 2において、時間 4 T_sごとのタイミングに制限される。

従って、この場合も、終端ノードの位置がとり得る位置の中に、予備選択処理の開始タイミングとしてとり得ない位置（不許可位置）が存在する。そこで、単語接続関係管理部 2 2は、不許可位置を開始時刻とする単語予備選択処理の要求については、図 1 8 (D ) に示すように、許可位置（ここでは、時間 4 T_Sごとのタイミング）を開始時刻とする単語予備選択処理の処理結果によって補完を行うようになっている。

次に、図 1 9のフローチャートを参照して、図 1 7の音声認識装置による音声認識処理について説明する。

図 1 7の音声認識装置では、ステップ S 5 1乃至 S 5 4において、図 5のステップ S 1乃至 S 4における場合とそれぞれ同様の処理が行われる。

そして、ステップ S 5 4において、図 5のステップ S 4で説明したように、再評価部 1 5が、単語接続情報記憶部 1 6の単語接続情報を修正し、マッチング部 1 4が、その修正が終了した旨を、制御部 1 1を介して受信すると、マッチング部 1 4は、上述したように、注目ノード、およびそれが有する時刻情報を、単語予備選択処理の要求とともに出力する。

マツチング部 1 4が注目ノードおよび時刻情報とともに出力する単語予備選択処理の要求は、単語接続関係管理部 2 2で受信される。

単語接続関係管理部 2 2は、単語予備選択処理の要求を受信すると、ステップ S 5 5において、マッチング部 1 4からの単語予備選択処理の要求が、許可位置を開始時刻とするものであるかどうかを判定する。ステップ S 5 5において、単語予備選択処理の要求が、許可位置を開始時刻とするものであると判定された場合、単語接続関係管理部 2 2は、その単語予備選択処理の要求を、単語予備選択部 1 3に供給して、ステップ S 5 6に進む。ステップ S 5 6では、図 5のステツプ S 5における場合と同様にして、単語予備選択部 1 3が単語予備選択処理を行い、その結果得られる単語（選択単語）を、単語接続関係管理部 2 2に供給する。単語接続関係管理部 2 2は、単語予備選択部 1 3からの選択単語（これは、許可位置を開始時刻とするもの）を一時記憶するとともに、単語予備選択結果として、マッチング部 1 4に供給し、ステップ S 5 8に進む。

一方、ステップ S 5 5において、単語予備選択処理の要求が、許可位置を開始時刻とするものでないと判定された場合、即ち、不許可位置を開始時刻とするものである場合、ステップ S 5 7に進み、単語接続関係管理部 2 2は、不許可位置の前後の許可位置を開始時刻とする単語予備選択結果を、単語予備選択部 1 3から既に得ている単語予備選択結果の中から得て、それを、不許可位置を開始時刻とする単語予備選択結果として補完する。そして、単語接続関係管理部 2 2は、その補完によって得られた不許可位置を開始時刻とする単語予備選択結果を、マツチング部 1 4に供給し、ステップ S 5 8に進む。

ステップ S 5 8では、図 5のステップ S 6で説明したように、マッチング部 1 4が、単語予備選択部 1 3からの単語予備選択結果としての選択単語すべてについて、それぞれの音響スコアおよび言語スコアを求め、ステップ S 5 9に進み、マッチング部 1 4は、式（2 ) にしたがい、各単語の音響スコアと言語スコアを、他の時刻を終了時刻とする同一単語の音響スコアと言語スコアによって、それぞれ補正する。さらに、マッチング部 1 4は、補正後の音響スコアと言語スコアから、補正後の単語スコア（補正スコア）を計算する。そして、マッチング部 1 4 は、ステップ S 6 0に進み、その補正スコアによって、単語の絞り込みを行い、これにより、単語の境界位置の候補を、特に位置を制限することなく決定（仮決定）する。

その後、マッチング部 1 4は、ステップ S 6 0における絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部 1 1に供給する。

単語接続関係管理部 2 1は、ステップ S 6 1において、単語の境界候補となつている終了時刻を、新ノード記憶タイミングで間引き、即ち、新ノード記憶タイミングの位置にない終了時刻を削除し、残った終了時刻を、単語の境界候補となる時刻として、最終的に決定する。単語接続関係管理部 2 1は、このようにして最終的に残った終了時刻を、制御部 1 1に返し、制御部 1 1は、ステップ S 6 2 において、図 5のステップ S 7で説明した場合と同様に、単語接続関係管理部 2 1から終了時刻が返された単語に関して、単語接続情報記憶部 1 6に記憶された単語接続情報を、単語接続関係管理部 2 1を介して更新する。

その後は、ステップ S 5 2に戻り、以下、同様の処理が繰り返される。

そして、ステップ S 5 2において、途中ノードが存在しないと判定されると、ステップ S 6 3に進み、図 5のステップ S 8における場合と同様に、制御部 1 1 は、単語接続情報を参照することで、ユーザの発話に対する音声認識結果を確定して出力し、処理を終了する。

以上のように、単語接続関係管理部 2 1と 2 2の両方によってタイミングを制限する場合には、認識性能を維持しながら、処理効率を、より向上させることができる。

即ち、本件発明者が行ったシミュレーションによれば、単語接続関係管理部 2 1において、単語接続情報として記憶される終端ノードの位置を、時間 4 T_Sごとの時刻に制限するとともに、単語接続関係管理部 2 2において、単語予備選択処理の開始タイミングを、時間 8 T_sごとの時刻に制限した場合において、そのような制限を行わない場合の認識率をほぼ維持しながら、演算量を約 1 5 %低減することができた。

ここで、図 1 8の実施の形態においては、単語接続関係管理部 2 2による制限のタイミングを、単語接続関係管理部 2 1による制限のタイミングの 2倍の時間間隔に同期させるようにしたが、単語接続関係管理部 2 1と 2 2によるタイミングの制限は、独立に行うことが可能である。また、単語接続関係管理部 2 1によつて制限するタイミングの間隔は、固定である必要はなく、可変にすることが可能である。単語接続関係管理部 2 2によって制限するタイミングの間隔についても同様である。

なお、上述した各実施の形態における音声認識装置は、例えば、音声によってデータベースの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデ —夕入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロポット、キ一ポ一ドの代わりに音声入力によりテキスト作成を行うディクテーシヨンシステム、ユーザとの会話を行うロボッ卜における対話システム等に適用可能である。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図 20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードデイスク 1 05や ROM103に予め記録しておくことができる。

あるいはまた、プログラムは、フロッピーディスク、 CD-ROM (Compact Disc Re ad Only Memory) , MO (Magneto Opt ical)ディスク， DVD (Digi tal Versatile Dis c)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体 1 1 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体 1 1 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体 1 1 1からコンビユー夕にインスト一ルする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LAN(Local Area Netwo rk)、イン夕一ネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 108で受信し、内蔵するハードディスク 105にインストールすることができる。

コンピュータは、 CPlKCentral Processing Uni t) 102を内蔵している。 CPU 102には、バス 10 1を介して、入出力ィン夕フェース 1 10が接続されており、 CPU1 02は、入出力インタフェース 1 1 0を介して、ュ一ザによって、キ一ボードや、マウス、マイク等で構成される入力部 1 0 7が操作等されることにより指令が入力されると、それにしたがって、 R0M (Read On l y Memory) 1 0 3に格納されているプログラムを実行する。あるいは、また、 CPU 1 0 2は、ハードディスク 1 0 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 1 0 8で受信されてハードディスク 1 0 5にインストールされたプログラム、またはドライブ 1 0 9に装着されたリム一バブル記録媒体 1 1 1から読み出されてハードディスク 1 0 5にィンストールされたプログラムを、 RAM (Random Acces s Memory) 1 0 4にロードして実行する。これにより、 CPU 1 0 2 は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、 CPU 1 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 1 1 0を介して、 LCD (L i qu i d Crys t a l D i sp l ay)やスピーカ等で構成される出力部 1 0 6から出力、あるいは、通信部 1 0 8から送信、さらには、ハードディスク 1 0 5に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理 (例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い産業上の利用可能性

本発明の第 1の音声認識装置および音声認識方法、並びに記録媒体によれば、音声認識の対象となっている単語について、スコアが計算され、そのスコアに基づいて、音声認識結果の候補となる単語列が構成される。さらに、音声認識結果の候補となる単語列の単語どうしの接続関係が修正され、その修正後の接続関係に基づいて、音声認識結果となる単語列が確定される。この場合において、音声認識結果の候補となる単語列の単語どうしの接続関係によって表される単語の境界位置が制限される。従って、処理効率を向上させることが可能となる。

本発明の第 2の音声認識装置および音声認識方法、並びに記録媒体によれば、音声認識の対象となっている単語群から、音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語が選択され、その選択された単語について、スコアが計算される。さらに、そのスコアに基づいて、音声認識結果の候補となる単語列が構成され、その中から、音声認識結果となる単語列が確定される。この場合において、音声認識の対象となっている単語群から選択される単語の開始位置が制限される。従って、処理効率を向上させることが可能となる。

Claims

請求の範囲

1 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、

音声認識の対象となっている単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成手段と、前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、

前記記憶手段に記憶された前記接続関係を修正する修正手段と、

修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定手段と、

前記記憶手段に記憶される前記接続関係によって表される単語の境界位置を制限する単語境界制限手段と

を備えることを特徴とする音声認識装置。

2 . 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、

前記単語境界制限手段は、前記特徴量が供給されるタイミングを間引いたタイミングに、前記単語の境界位置を制限する

ことを特徴とする請求の範囲第 1項に記載の音声認識装置。

3 . 前記構成手段が計算した前記単語のスコアを補正するスコア補正手段と、その補正後のスコアに基づいて、前記音声認識結果の候補となる単語列の単語の境界位置の候補を仮決定する仮決定手段と

をさらに備え、

前記単語境界制限手段は、前記仮決定手段において得られた前記単語の境界位置の候補を対象として、前記単語の境界位置を制限する

4 . 前記スコア補正手段は、所定の境界位置を境界とする単語のスコアを、その境界位置に近い他の境界位置を境界とする単語のスコアに補正することを特徴とする請求の範囲第 3項に記載の音声認識装置。

5 . 音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択手段をさらに備え、

前記構成手段は、前記選択手段において選択された単語を対象に、前記スコアを計算する

6 . 前記選択手段において選択される単語の開始位置を制限する開始位置制限手段をさらに備える

ことを特徴とする請求の範囲第 5項に記載の音声認識装置。

7 . 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、

前記開始位置制限手段は、前記特徴量が供給されるタイミングを間引いたタイミングに、前記単語の開始位置を制限する

ことを特徴とする請求の範囲第 6項に記載の音声認識装置。

8 . 前記開始位置制限手段は、前記単語境界制御手段によって制限された単語の境界位置としてとり得る位置を間引いた位置に、単語の開始位置を制限することを特徴とする請求の範囲第 6項に記載の音声認識装置。

9 . 前記開始位置制限手段によって前記単語の開始位置とすることが許可されていない不許可位置を開始位置とする単語であって、前記構成手段において前記スコアの計算の対象とするものを補完する補完手段をさらに備える

1 0 . 前記補完手段は、前記開始位置制限手段によって前記単語の開始位置とすることが許可されている許可位置であって、前記不許可位置に近い位置を開始位置とする単語によって、その不許可位置を開始位置とする単語を補完することを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 1 . 前記補完手段は、前記許可位置に対して、前記不許可位置からの距離に応じた重みを付し、その重みに基づいて、前記不許可位置を開始位置とする単語を補完する

ことを特徴とする請求の範囲第 1 0項に記載の音声認識装置。

1 2 . 音声認識の対象となっている単語群は、 2以上のカテゴリに分類されており、

前記選択手段は、各カテゴリごとの単語群から、単語を選択し、

前記開始位置制限手段は、前記選択手段において選択される単語の開始位置を，前記カテゴリごとに異なる条件にしたがって制限する

1 3 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識方法であって、

音声認識の対象となっている単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶ステップと、

前記記憶ステップにおいて記憶された前記接続関係を修正する修正ステップと、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定ステップと、

前記記憶ステップにおいて記憶される前記接続関係によって表される単語の境界位置を制限する単語境界制限ステップと

を備えることを特徴とする音声認識方法。

1 4 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

前記記憶ステップにおいて記憶された前記接続関係を修正する修正ステップと，修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する確定ステップと、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。

1 5 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、

音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択手段と、

前記選択手段において選択された単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成手段と、前記音声認識結果の候補となる単語列の中から、前記音声認識結果となる単語列を確定する確定手段と、

前記選択手段において選択される単語の開始位置を制限する開始位置制限手段と

を備えることを特徴とする音声認識装置。

1 6 . 前記構成手段は、入力された音声の特徴量を抽出する抽出手段から供給される前記特徴量に基づいて、前記スコアを計算し、

ことを特徴とする請求の範囲第 1 5項に記載の音声認識装置。

1 7 . 前記開始位置制限手段によって前記単語の開始位置とすることが許可されていない不許可位置を開始位置とする単語であって、前記構成手段において前記スコアの計算の対象とするものを補完する補完手段をさらに備えることを特徴とする請求の範囲第 1 5項に記載の音声認識装置。

1 8 . 前記補完手段は、前記開始位置制限手段によって前記単語の開始位置とすることが許可されている許可位置であって、前記不許可位置に近い位置を開始位置とする単語によって、その不許可位置を開始位置とする単語を補完する

ことを特徴とする請求の範囲第 1 7項に記載の音声認識装置。

1 9 . 前記補完手段は、前記許可位置に対して、前記不許可位置からの距離に応じた重みを付し、その重みに基づいて、前記不許可位置を開始位置とする単語を補完する

ことを特徴とする請求の範囲第 1 8項に記載の音声認識装置。

2 0 . 音声認識の対象となっている単語群は、 2以上のカテゴリに分類されており、

前記開始位置制限手段は、前記選択手段において選択される単語の開始位置を、前記カテゴリごとに異なる条件にしたがって制限する

2 1 . 前記音声認識結果の候補となる単語列の単語どうしの接続関係を記憶する記憶手段と、

前記接続関係を修正する修正手段と

をさらに備え、

前記確定手段は、修正後の前記接続関係に基づいて、前記音声認識結果となる単語列を確定する

2 2 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識方法であって、

音声認識の対象となっている単語群から、前記音声認識結果の候補となる単語列の、既に求まっている単語に続く 1以上の単語を選択する選択ステップと、前記選択ステップにおいて選択された単語について、前記スコアを計算し、そのスコアに基づいて、前記音声認識結果の候補となる単語列を構成する構成ステップと、

前記音声認識結果の候補となる単語列の中から、前記音声認識結果となる単語列を確定する確定ステップと、

前記選択ステップにおいて選択される単語の開始位置を制限する開始位置制限ステップと

を備えることを特徴とする音声認識方法。

2 3 . 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であつて、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。