WO2005062293A1

WO2005062293A1 - オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Info

Publication number: WO2005062293A1
Application number: PCT/IB2004/004007
Authority: WO
Inventors: Rika Koyama
Original assignee: Kabushikikaisha Kenwood
Priority date: 2003-12-05
Filing date: 2004-12-06
Publication date: 2005-07-07
Also published as: US7529676B2; EP1691343B1; CN1890708B; JP4533845B2; DE602004016681D1; CN1890708A; JPWO2005062293A1; US20070265844A1; EP1691343A1; EP1691343A4

Description

明細書

オーディオ機器制御装置、オーディオ機器制御方法及びプログラム技術分野

[0001] この発明は、オーディオ機器制御装置、オーディオ機器制御方法、データ出力装置及びプログラムに関する。

背景技術

[0002] 近年、音声認識の技術を用レヽて音声を認識し、認識結果に応答して電気機器などを制御する手法が用いられている。この手法は、具体的には、入力した音声が表す単語を識別し、識別された単語が所定のキーワードに合致するか否かを判別して、判別結果に基づいて外部の機器を制御するものである。このような手法は、例えばォ一ディォ機器の制御にも用いられている (例えば、特許文献 1及び特許文献 2参照）特許文献 1 :特開平 4— 324312号公報

特許文献 2 :特開 2002— 182688号公報

発明の開示

発明が解決しょうとする課題

[0003] しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため、上述の手法では、人間が言語の形で発する指示に適切に応答することができない場合があった。

[0004] この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムを提供することを目的とする。

課題を解決するための手段

[0005] 上記目的を達成するため、この発明の第 1の観点に力かるオーディオ機器制御装置は、

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、

前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該ォ一ディォ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、

ことを特徴とする。 '

[0006] また、この発明の第 2の観点にかかるオーディオ機器制御装置は、

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、

前記音声認識手段が特定した候捕と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、

ことを特徴とする。

[0007] また、この発明の第 3の観点にかかるオーディオ機器制御装置は、

前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定手段と、

前記音声認識手段が特定した候捕と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境デ一タ及ぴ /又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、ことを特徴とする。

[0008] 前記環境データは、例えば、前記オーディオ機器が使用される環境の現在位置を示すデータからなっている。

[0009] 前記環境データは、例えば、前記オーディオ機器が使用される環境の遮音状況を示すデータからなっている。

[0010] また、この発明の第 4の観点に力かるオーディオ機器制御方法は、

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、

制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、前記音声認識ステップで特定された候捕に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とする。

[0011] また、この発明の第 5の観点に力かるオーディオ機器制御方法は、

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、 '

前記音声認識ステップで特定された侯捕と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用 + 態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とする。

[0012] また、この発明の第 6の観点に力かるオーディオ機器制御方法は、

前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、

前記音声認識ステップで特定された候捕と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とする。

[0013] また、この発明の第 7の観点に係るコンピュータプログラムは、

コンピュータに、

制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とする。

[0014] また、この発明の第 8の観点に係るコンピュータプログラムは、

コンピュータに、

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候捕を特定する音声認識ステップと、

前記音声認識ステップで特定された候捕と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、

を実行させることを特徴とする。

[0015] また、この発明の第 9の観点に係るコンピュータプログラムは、

コンピュータに、

前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させる。

発明の効果

[0016] この発明によれば、人間が言語の形で努する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムが実現される。

図面の簡単な説明

[0017] [図 1]この発明の実施の形態に係るオーディオ機器制御システムを示す図である。

[図 2]この実施の形態に係るオーディオ機器制御システムのより詳細な構成図である

[図 3]楽曲データベースのデータ構成の例を示す図である。

[図 4]単語データベースの具体例を模式的に示す図である。

[図 5]トリガ取得処理を説明するための図である。 [図 6]判別処理を説明するための図である。

[図 7]間い合わせ付きの判別処理を説明するための図である。

[図 8]入出力処理を説明するための図である。

[図 9]ワイヤの例を示す図である。

[図 10]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。

[図 11]処理項目データベース及ぴワイヤデータベースが全体として表してレ、るフローを示す図である。

[図 12]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。

[図 13]処理項目データベース及びワイヤデータベースが全体として表して!/、るフローを示す図である。

[図 14]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。

[図 15]処理項目データベース及びワイヤデータベースが全体として表して!/、るフローを示す図である。

[図 16]各ワイヤに設定される重み係 ¾Jを説明するための図である。

[図 17]エージェント処理部の動作を説明するためのフローチャートである。

[図 18]外部サーバ (配信サーバ）の構成と、ネットワーク構成とを示す図である。

[図 19]ダウンロード処理を説明するためのフローチャートである。

符号の説明

1 音声入力部

2 言語解析部

3 音声合成処理部

4 音声出力部

5 入出力対象機器群

51 CDプレーヤ

52 MDプレーヤ 53 HDDプレーヤ

54 車両位置特定部

55 窓開閉制御部

56 クロック

6 エージェント処理部

発明を実施するための最良の形態

[0019] 以下、図面を参照して、この発明の実施の形態を、車両内に設置されたオーディオ機器制御システムを例として説明する。

図 1は、このオーディオ機器制御システムの構成を示すプロック図である。また、図 2は、各部の物理的な構成の例を示すプロック図である。

図 1に示すように、このオーディオ機器制御システムは、音声入力部 1と、言語解析部 2と、音声合成処理部 3と、音声出力部 4と、入出力対象機器群 5と、エージェント処理部 6とより構成されている。

[0020] 音声入力部 1は、音声を入力し、入力した音声力デジタル形式の音声データを生成し、この音声データを言語解析部 2へと供給する。具体的には、音声入力部 1は、図 2に示すように、例えば、マイクロフォン 11と、 AF (Audio Frequency)増幅器 12と、サンプルホールド回路を内蔵する AZD (Analog-to-Digital)コンバータ 13などより構成されている。マイクロフォン 11は音声を音声信号に変換して出力する。 AF増幅器 12は、マイクロフォン 11からの音声信号を増幅して出力する。 A/Dコンバータ 13は、 AF増幅器 12からの増幅された音声信号をサンプリング、 A/D変換することにより、デジタル音声データを生成し、言語解析部 2へと供給する。

[0021] 言語解析部 2と音声合成処理部 3とエージェント処理部 6とは、図 2に示すように、それぞれ、例えば、 CPU (Central Processing Unit)等からなるプロセッサ 21、 31、 61と、このプロセッサ 21、 31、 61が実行するプログラムを記憶するハードディスク装置等の不揮発性メモリ 22、 32、 62と、プロセッサのワークエリアとなる記憶領域を有する R AM (Random Access Memory)等の揮発性メモリ 23、 33、 63とより構成されている。なお、言語解析部 2、音声合成処理部 3及ぴエージェント処理部 6の一部又は全部の機能を 1つのプロセッサや 1つの不揮発性メモリや 1つの揮発性メモリで構成してもよい。

[0022] 言語解析部 2は、音声入力部 1より供給された音声データに音声認識処理を行う。

言語解析部 2は、音声認識処理により、音声データが表している単語の候捕と、この候補の尤度 (スコア）とを特定する。音声露識の手法は任意である。また、単語の候捕は複数特定されてよい。言語解析部 2は、特定した候補とその候補のスコアとを示すデータ (以下、単語データと呼ぶ)を生成し、エージェント処理部 6へと供給する。

[0023] 音声合成処理部 3の不揮発性メモリ 32は、単語の波形を表すデータを記憶する音片データベース D1と、音素を構成するための波形を表すデータを記憶する素片データベース D2とを記憶する。

[0024] 音片データベース D1は、単語の波形を表すデータを記憶する。素片データベース D2は、音素を構成すための波形を表すデータを記憶する。音声合成処理部 3は、音片データベース Di及び//又は素片データベース D2に格納されているデータを用いて、エージェント処理部 6より供給された文章データを読み上げる音声を表すデジタル音声データを生成する。

[0025] 音声合成部 3は、生成した音声データを音声出力部 4に供給する。

デジタル音声データを生成する手法は任意であるが、例えば、録音編集方式や規則合成方式 (Rule- based synthesis)を使用できる。なお、録音編集方式は、例えば、単語単位の音声を予めアナウンサーに読んでもらい、それらをつなぎあわせて出力する方式である。また、規則合成方式は、音韻 (子音や母音)や仮名のような比較的小さな単位をつなぎあわせて出力する方式である。

[0026] 音声出力部 4は、音声合成処理部 3から供給されたデジタル音声データが表す音声を再生する。より詳細には、音声出力部 4は、図 2に示すように、 D/A(

Digital-to-Analog)コンバータ 41、 AF増幅器 42及ぴスピーカ 43を備える。

D/Aコンバータ 41は、音声合成処理部 3より供給されたデジタル音声データを A変換して、アナログ音声信号に変換する。 AF増幅器 42は、アナログ音声信号を増幅する。スピーカ 43は、アナログ音声信号に従って振動し、アナログ音声データが表す音声を再生し、放音する。

[0027] 入出力対象機器群 5は、例えば、 CD (Compact Disc)プレーヤ 51、 MD (Mini Disc )プレーヤ 52、 HDD (ノヽードディスクドライプ)プレーヤ 53、車両位置特定部 54、窓開閉制御部 55や、クロック装置 56、などを含む。

[0028] CDプレーヤ 51は、自己に装着された CDに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、 CDの排出、等の動作を、エージェント処理部 6が供給する制御信号に従って行う。

MDプレーヤ 52は、自己に装着された MDに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、 CDの排出、等の動作を、エージェント処理部 6が供給する制御信号に従って行う。

HDDプレーヤ 53は、不揮発性の磁気ディスクであり、音声データの記憶、音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一 7火停止、等の動作を、エージェント処理部 6が供給する制御信号に従って行う。

[0029] 車両位置特定部 54は、 GPS (Global Positioning System)の移動局を用レ、た公知のカーナビゲーシヨンシステムなどより構成されている。車両位置特定部 54は、例えば、エージェント処理部 6が供給する制御信号に従って車両の現在位置を検知し、検知した現在位置が地図上でどの位置に当たる力表すデータを生成して、エージェント処理部 6に供給する。

[0030] 窓開閉制御部 55は、モータや、制御信号に従ってモータの回転及ぴ停止を制御する制御回路や、モータの回転に従って車両の窓ガラスを動かすためのウィンチ等力も構成されている。窓開閉制御部 55は、自己に供給される制御信号に従って、車両の窓の開閉を行う。また、窓開閉制御部 55の制御回路は、窓開閉制御部 55の動作状態を表すデータとして、例えば、開閉する対象の窓が開いている量を示すデータを生成して出力する。

[0031] クロック装置 56は、例えば水晶発振器やカウンタ回路等より構成されておいる。クロック装置 56は、現在の時刻を示すデータを連続的に生成し、エージェント処理部 6に供給する。尚、クロック装置 56は、カーナビゲーシヨンシステムを介して GPS力得られる時刻情報を用いてもよい。

[0032] エージェント処理部 6は、モデムやパケット通信端末等力なる通信制御装置 64を備え、この通信制御装置を介して外部のネットワーク (例えば、無線電話回線を介したインターネット）を介して後述する配信サーバ 100に接続している。

[0033] また、エージェント処理部 6の不揮発性メモリ 62は、更に、楽曲データベース D6を記憶する。楽曲データベース D6は、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されている CD、 MD、及び/又は MDD53と、当該 CD、 MD及び/又は HDD53でこの楽曲が記録されているトラックの番号と、を互 V、に対応付けて格納するデータベースである。

[0034] 具体的には、楽曲データベース D6は、図 3 (a)に示すように、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されている CD、 MD 及ぴ Z又は HDD53の ID (識別情報）と、当該 CD、 MD及び Z又は HDDでこの楽曲が記録されているトラックの番号と、その楽曲のテンポ、その楽曲に関する種々の属性情報 (例えば、その曲の雰囲気が適した季節、時間帯、地理的位置などの情報力 S)が互いに対応付けて格納する。

[0035] また、楽曲データベース D6は、図 3 (b)に示すように、ユーザを特定するユーザ情報と楽曲の再生履歴を示す再生履歴情報を対応付けて記憶する。ユーザ情報は、ユーザ個人を特定できる情報である必要はな V、が、ユーザを区別できる情報である。ユーザ情報は、例えば、各ユーザの音声波形の基本ピッチの形状を示す基本ピッチ情報から構成され、音声入力部 1で取得され、言語解析部 2から単語データに付随して提供される。再生履歴情報は、楽曲を特定する情報と、その楽曲を再生したことを示す情報、その楽曲の再生をリピートしたことを示す情報、その楽曲の再生を途中で停止したことを示す情報、その楽曲の途中で「うるさい」などの否定的な感想を述べたことの履歴情報等を含む。これらの情報を分析することにより、ユーザの嗜好 (好きな楽曲、嫌いな楽曲）を判別することができる。

[0036] エージェント処理部 6の不揮発性メモリ 62は、単語データベース D3を記憶する。単語データベース D3は、複数の単語のデータと、複数の単語のグルーピングを示すための単語グルーピング用のフラグとを、互いに対応付けて格納する。

[0037] 1個の単語に対応付けられているフラグは、ある概念に対応付けられてグルーピングされている。そして、フラグが所定の値 (以下では、 "1")を示す場合は、このフラグに対応付けられた単語が、このフラグに対応付けられたグループに所属されている。一方、このフラグが他の値 (例えば" 0")を示す場合は、この単語は、そのフラグに対応付けられたグループには所属してレ、なレ、。

[0038] 図 4は、グルーピング用のフラグの具体例を模式的に示す図である。図 4に示すように、複数の単語 (図 3では「再生」、「聞きたい」、「停止」、「つまらない」、「昨日」、「越天楽」、「津軽じょんがら節」、「久米利佳」）に、単語グルーピング用のフラグ (ビット）が所定数ずつ対応付けられている。また、いずれの単語に対応付けられたフラグ群についても、その最上位のフラグが「再生」という概念に対応付けられており、上位から 2ビット目のフラグが「感想」という概念に对応付けられており、上位から 3ビット目のフラグが「否定」とレ、う概念に、上位力 4ビット目のフラグが「楽曲名」とレ、う概念に、上位から 5ビット目のフラグが「アーティスト」という概念に対応付けられている。

[0039] —方、図示するように、単語「再生」に対応付けられている上位 5ビットのフラグ群の値が 2進数" 10000"であり、単語「聞きたい」に対応付けられている上位 5ビットのフラグ群の値が 2進数" 11000"であり、単語「停止」に対応付けられているフラグ群の値が 2進数" 00100"であり、単語「つまらない Jに対応付けられているフラグ群の値が 2進数" 01100"であり、単語「昨曰」に対応付けられているフラグ群の値が 2進数" 00 000"であり、単語「越天楽」と「津軽じょんがら節」に対応付けられているフラグ群の値が 2進数" 00010"であり、単語「久米利佳」に対応付けられているフラグ群の値が 2進数" 00001 "である。

[0040] この場合、このフラグ群は、概念「再生」の下には単語「再生」と「聞きたい」がグルービングされており、概念「感想」の下には単語「聞きたい」及び「つまらなレ、」がグルービングされており、概念「否定」の下には単語「停止」及び「つまらない」がグルーピングされており、概念「楽曲名」の下には単語「越天楽」及び「津軽じょんがら節」がダル一ビングされており、概念「アーティスト」の下には単語「久米利佳」がグルーピングされていることを示す。

また、単語「昨日」のように、いずれの概念にも属さないものがあってもよい。なお、各単語及ぴ各概念は、例えば、処理項目データベース D4に格納されている各処理項目の「トリガ」、「判別条件」等として使用される。

[0041] エージェント処理部 6の不揮発性メモリ 62は、更に、処理項目データベース D4及びワイヤデータベース D5を記憶してレ、る。

[0042] 処理項目データベース D4は、エージェント処理部 6が実行する様々な処理、例えば、トリガ取得処理 (TGxx)、判別処理 (CNxx又は QBxx)及び入出力処理 (後述する EXxx)の内容を、処理項目（ポインタ）毎に記述するデータ（処理項目データ)を格納したデータベースである。なお、「XX」は識別番号である。

[0043] 処理項目データベース D4に格納される処理項目のうち、「トリガ取得処理 (TGxx) Jの内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデータ（トリガとして取得するデータの内容を指定するデータ）と、後述する進行方向決定用の遷移定数 k (その進行方向に遷移する程度を示すもので、後述する重み係 ¾Jの算出基準となる定数)とを含む。

トリガデータは任意であり、例えば、窓が開いている量を示すデータや、室内の温度を示すデータや、言語解析部 2より供給される上述の単語データである。トリガデータは、エージェント処理部 6自身が行う処理から引き渡されるデータであってもよい。トリガデータが単語データである場合は、当該単語データが表す単語が属すダル一ビングに割り当てられている「概念」を示すデータでもよい。ただし、トリガ取得処理の内容は、例えば、複数のトリガ取得処理が互いに同一の単語を表す単語データを取得することがないように記述されるものとする。

[0044] 図 5 (a)にトリガ取得処理 TGxxの例を示す。この例では、トリガ TG01は、トリガとしての概念「再生」を取得する (概念「再生」にグルーピングされてレ、る単語 (図 3の例では、単語「再生」又は「聞きたい」）を識別する）処理であり、その処理に後続する処理に進む (遷移する）か否かを決定するための遷移定数 kは 0. 8である。図 5 (b)には、トリガ取得処理 TG01のフローチャートを示す。

トリガ取得処理 TG02は単語「MD」を取得する処理である。トリガ取得処理 TG03 は概念「否定」に対応するグループに属す単語を取得する（図 3では、「停止」、「つまらな!/、」の！/、ずれかを取得する）処理である。

[0045] 処理項目データベース D4に格納されている「判別処理 (CNxx)」の内容を記述するデータは、判別条件と、判別結果としてとり得る結果のリストと、その判別結果を取つた場合の処理の進行方向を決定するための遷移定数 kと、後述する戻り方向の遷移定数 kとを、判別処理別に記述したデータを含む。

[0046] 図 6 (a)に判別処理 CNxxの例を示す。この例では、判別処理 CN01は「窓が開！/ヽているか否かを判別する処理」であり、開いていると判別したときに、それに後続する処理に進むか否かを決定するための遷移定数 kが 0. 5、開いていないと判別したときにそれに後続する処理に進むか否かを決定するため遷移定数 kが 0. 5である。この例のフローチャートを図 6 (b)に示す。図 6 (b)に示すノード CN01. 1は、処理の開始点を示す始点ノード、ノード CN01. 2は、窓が閉じていると判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。さらに、ノード CN01. 3は、窓が開いていると判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。また、判別処理 CN02は、 MDプレーヤ 52と、 CDプレーヤ 51と、 HDD53のいずれが動作中かを判別する処理であり、動作中であると判別したときに後続する処理に進むか否力決定するための遷移定数 kがそれぞれ 0. 5である。

[0047] 「判別処理 jは、判別に用いるデータを任意の取得源から取得する処理を含んでもよい。取得源としては、例えば、言語解析部 2や、エージェント処理部 6が実行する他の処理や、入出力対象機器群 5に属する機器や、その他外部の機器 'センサなどが考えられる。この場合、判別処理の内容を記述するデータは、例えば、判別に用いるデータの取得源を指定するデータを含む。

[0048] また、「判別処理」は、所定のデータを、判別に先立って所定の出力先に出力して、出力に対する応答を取得する処理を含んでもよ!/ヽ (この場合は、処理を示す記号を QBxxとする)。この種の判別処理としては、例えば、所定の質問を表すデータを、判別に先立って音声合成処理部 3に引き渡し、その後、言語解析部 2からの入力を待機する処理がある。判別処理 QBxxにおいて、判別に先立って所定のデータを出力する場合、処理の内容を記述するデータは、例えば、出力するデータの内容と、このデータの出力先とを指定するデータを含む。

[0049] . 図 7 (a)に判別処理 QBxxの例を示す。この例では、例えば、判別処理 QB01は、「 MDを再生しますか？ CDを再生しますか？ HDDを再生しますか？」と利用者に問い合わせ、その応答（利用者の回答）が「MD」であったときの遷移定数 kが 0. 5、「C D」であったときの遷移定数 kが 0. 5、「HDD」であったときの遷移定数 kが 0. 5である。この例のフロ一チャートを図 7 (b)に示す。図 7 (b)に示すノード QB01. 1は、処理の開始点を示す始点ノード、ノード QB01. 2は、問い合わせに対して、「CD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数 kは 0. 7である。また、ノード QB01. 3は、「MD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。さらに、ノード QB01. 4は、「HDD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。

[0050] 処理項目データベース D4に格納されている「入出力処理」の内容を記述するデータは、入力あるいは出力するデータの内容を指定するデータ力構成されている。入力データ及び出力データは任意の内容を有していてよい。例えば、出力データは、音声合成処理部 3を介して音声出力部 4に発生させる音声の読みを表すデータや外部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の機器力供給されるデータであってもよい。

図 8 (a)に入出力処理 EXxxの例を示す。この例では、例えば、入出力処理 EX01 は、「窓を閉める」という動作であり、動作後の処理を行う進行方向の遷移定数 kが 0. 8である。この例のフローチャートを図 8 (b)に示す。図 8 (b)に示すノード EX01. 1は、処理の開始点を示す始点ノード、ノード EX01. 2は、処理の終了を示すノードであり、遷移定数 kは 0. 8である。なお、入出力処理 EXxxについては、遷移定数 kの設定などを行わずに、処理の終了を示すノードの選択を必須処理としてもよい。

[0051] ワイヤデータベース D5は、複数の処理 (TG、 CNxx、 QBxx、 EXxx)間の遷移を記述するデータ (以下、このデータをワイヤと呼ぶ)の集合力構成されている。ワイャは、例えば図 9に示すような書式で記述されたデータ力構成されている。ワイヤ W n (Wl、 W2...)は図示するように、先行する処理 X (From (X))から後続する処理 Y (To(Y))への遷移 (From (X) To (Y))について、当該先行の処理 (X)と、当該後続の処理 (Y)と、当該遷移に対して与えられた重み係 ¾ [と、を指定するデータである。なお、先行の処理 Xが判別処理である場合は、当該判別処理のどの判別結果からの遷移である力まで記述される必要がある。

また、遷移元処理 Xと遷移先 Yは、それぞれ、各処理のノード番号で特定される。各ワイヤの重み係 ¾Iは、固定値ではなぐ処理の進行に応じて、適宜計算され、設定されるものである。ワイヤの重み係 ¾Jの計算は図 15を参照して後述する。

[0052] エージェント処理部 6は、処理項目データベース D4及ぴワイヤデータベース D5が全体として表しているフローを実行する。処理項目データベース D4及ぴワイヤデータベース D5は、例えば、図 4〜図 9の例に基づくと、全体として図 10〜図 13に示すような処理フローを記述することができる。

[0053] 図 10に示すフローにおいては、エージェント処理部 6は、トリガ処理 TG01では、概念「再生」と!/ヽぅグループに属す単語を示す単語データを言語解析部 2より供給されるのを待機して、供給されるとこれを取得して判別処理 CN01に引き渡す (ワイヤ W1 エージェント処理部 6は、判別処理 CN01では、窓が開いているか否かを示す情報を窓開閉制御部 54より取得し、開いていると判別すると入出力処理 EX01に処理を移す（ワイヤ W2)。入出力処理 EX01では、窓開閉制御部 54に、窓を閉めることを指示する制御信号を出力する。この結果、窓開閉制御部 54は窓を閉める。その後、判別処理 QB01に進む。なお、入出力処理 EX01を行う前に、窓を閉めるか否かを問い合わせる判別処理 QBxxを実行して、その応答に応じて入出力処理 EX01を実行するようにしてもよい。

[0054] 即ち、この例では、エージェント処理部 6 、楽曲の再生が指示されたことを認識した場合は、楽曲の再生を指示する処理に移る前に、車両の窓が開いているか否かを判別する。そして、開いていると判別した場合は、楽曲の再生の指示を行う前に、車内の遮音状況が悪いことを認識して、窓開閉制御部 55に窓を閉めるよう指示するか、あるいは音声合成処理部 3を介して音声出力部 4に、窓を閉めるよう促すメッセージを読み上げる音声を努生させる。なお、楽曲の再生中に、「ボリュームを上げて」という意味を示す単語データが高！/、スコアを示す場合、ボリュームの上昇処理に先立つて窓の開閉状態を検出し、窓が開いていれば「窓が開いてレ、るよ。窓を閉める？」という音声データを音声合成処理部 3で形成し、音声出力部 4で出力させるようにしてあよい。

[0055] 判別処理 CN01で「窓が閉じている」と判別すると、又は入出力処理 EX01を終了すると、質問を含む判別処理 QB01に処理を移す（ワイヤ W3、ワイヤ W7)。判別処理 QB01でエージェント処理部 6は、まず、「MDを再生しますか？ CDを再生しますか？ HDDを再生しますか？」という文章を表すデータを音声合成処理部 3に供給する。音声合成処理部 3は、音声出力部 4を介して、この文章を読み上げる音声を再生させる。

[0056] 続いて、エージェント処理部 6は、言語解析部 2から、単語「MD」、単語「CD」又は単語「HDD」を表すデータが供給されるのを待機する。エージェント処理部 6は、該当する単語データが供給されると、このデータが単語「MD」と「CDJと「HDD」のいずれを表すかを判別する。そして、単語 !^0」を表すと判別すると入出力処理 EX03 に処理を移し (ワイヤ W5)、単語「CD」を表すと判別すると、入出力処理 EX02に処理を移し (ワイヤ W6)、単語「HDD」を表すと判別すると、入出力処理 EX04に処理を移す（ワイヤ W9)。

[0057] エージェント処理部 6は、入出力処理 EX02では、 CD装置 51に、 CDの再生を開始することを指示する制御信号を出力する。エージェント処理部 6は、入出力処理 E

X03では、 MD装置 52に、 MDの再生を開始することを指示する制御信号を出力する。エージェント処理部 6は、入出力処理 EX04では、 HDD装置 53に、 HDDの再生を開始することを指示する制御信号を出力する。

[0058] —方、エージェント処理部 6は、「MDを聞く」或いは「MDを再生」という単語を示すデータを言語解析部 2より供給されるのを待機して (トリガ処理 TG02)、供給されると

、入出力処理 EX03へと制御を移す（ワイヤ W4)。

[0059] 同様に、エージェント処理部 6は、「CDを聞く」或いは「CDを再生」という単語を示すデータを言語解析部 2より供給されるのを待機して (トリガ処理 TG03)、供給されると、入出力処理 EX02に制御を移す（ワイヤ W8)。

また、エージェント処理部 6は、「HDDを聞く」或いは「HDDを再生」という単語を示すデータを言語解析部 2より供給されるのを待機して (トリガ処理 TG04)、供給されると、入出力処理 EX04に制御を移す（ワイヤ W8)。

[0060] 次に、図 11に示すフローにおいては、エージェント処理部 6は、トリガ処理 TG54では、単語「停止」を示す単語データを言語解析部 2より供給されるのを待機して、供給されるとこれを取得して判別処理 CN02に引き渡す（ワイヤ Wl 1)。

エージェント処理部 6は、判別処理 CN02では、 MDプレーヤ 52と CDプレーヤ 51 と HDDプレーヤ 53のいずれが動作しているかを判別する。エージェント処理部 6は、「MDプレーヤ 52が動作している」と判別すると、入出力処理 EX05に処理を移す（ワイヤ W13)。入出力処理 EX05では、 MDプレーヤ 52に、停止を指示する制御信号を出力する。この結果、 MDプレーヤ 52は動作を停止する。

[0061] エージェント処理部 6は、判別処理 CN02で、「CDプレーヤ 51が動作している」と判別すると、入出力処理 EX06に処理を移す（ワイヤ W12)。エージェント処理部 6は、入出力処理 EX05で、 CDプレーヤ 51に、停止を指示する制御信号を出力する。この結果、 CDプレーヤ 51は動作を停止する。

エージェント処理部 6は、判別処理 CN02で、「HDDプレーヤ 53が動作してレ、る」と判別すると、入出力処理 EX07に処理を移す (ワイヤ W14)。エージェント処理部 6 は、入出力処理 EX07では、 HDDプレーヤ 53に、停止を指示する制御信号を出力する。この結果、 HDDプレーヤ 53は動作を停止する。

[0062] また、エージェント処理部 6は、トリガ処理 TG06で、単語「うるさい」を示す単語データを言語解析部 2より供給されるのを待機して、供給されるとこれを取得して判別処理 CN03に引き渡す（ワイヤ W15)。

エージェント処理部 6は、判別処理 CN03で、 MDプレーヤ 52と CDプレーヤ 51と HDDプレーヤ 53のレ、ずれが再生動作中であるかを判別する。「MDプレーヤ 52が再生中である」と判別すると、入出力処理 EX08に処理を移す (ワイヤ W16)。入出力処理 EX08では、 MDプレーヤ 52に、ボリュームを所定量下げさせる指示する制御信号を出力する。この結果、 MDプレーヤ 52は再生音量を低下する。

[0063] エージェント処理部 6は、判別処理 CN03で、「CDプレーヤ 51が再生中である」と判別すると、入出力処理 EX09に処理を移す（ワイヤ W17)。入出力処理 EX09では、 CDプレーヤ 51に、再生音量を低下させる制御信号を出力する。この結果、 CDプレーャ 51は再生音量を低下させる。

また、エージェント処理部 6は、判別処理 CN03で、「HDDプレーヤ 53が再生中である」と判別すると、入出力処理 EX10に処理を移す (ワイヤ W18)。入出力処理 EX 10では、 HDDプレーヤ 53に、再生音量を低下させる制御信号を出力する。この結果、 HDDプレーヤ 53は再生音量を低下させる。

[0064] また、エージェント処理部 6は、概念「曲名」又は概念「アーティスト名」を表す単語データが言語解析部 2より供給されると、図 12に示すトリガ取得処理 TG07と TG08 でこれらの単語を検出し、ワイヤ W19又は W20を迪つて、制御を入出力処理 EX11 に移す。

エージェント処理部 6は、入出力処理 EX11で、楽曲データベース D6を検索する。即ち、エージェント処理部 6は、言語解析部 2から提供された単語 (楽曲名又はァーテイスト名）で図 3 (a)に示すデータ構造の楽曲名とアーティスト名とを検索し、該当するものがあれば、該当する楽曲の MD/CD/HDD識別情報とトラック番号と抽出する。

検索処理が終了すると、エージェント制御部 6は、制御を、ワイヤ W21を迪つて、判別処理 CN04に移し、該当する楽曲が検出できたか否かを判別する。

[0065] エージェント制御部 6は、該当する楽曲が検出できていれば、制御をワイヤ W22を迪つて、入出力処理 EX12に移し、その楽曲を再生する。

[0066] 一方、該当する楽曲が検出できていなければ、制御をワイヤ W23を迪つて、入出力処理 EX13に移し、適当な楽曲を検出できな力た旨のメッセージを出力する。

[0067] また、ユーザが「つまんない」と発話したときに、これを検出してユーザが楽しめる音楽ソースを再生するようにすることも可能である。

この例を図 13を参照して説明する。

まず、ターゲット処理 TG09で、単語「つまんない」を待ち受ける。これを検出すると、ワイヤ W24を迪つて、判別処理 CN05で、各プレーヤ 51〜53のステータスをチエツクして、各プレーヤ 51〜53が再生動作を行っているか否かを判別する。いずれのプレーャ 51~53も動作を行っていない場合には、ワイヤ W25を介して、問い合わせ付き判別処理 QB11に移り、「オーディオをオンしますか？」というメッセージデータを音声合成部 3を介して出力する。 ■

ここで、「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤ W26を介して問い合わせ付判定処理 QB12に移り、「どのプレーヤをオンしますか？」等のプレーャを特定させるメッセージを音声合成部 3を介して出力する。

ここで、「MD」、「CD」、「HDD」などと発話されると、これが検出され、それぞれ、ヮィャ W27， W28, W29を介して入出力処理 EX14、 EX15、 EX16に移り、指示された MD、 CD、 HDDを再生させる。

[0068] 一方、判別処理 CN05で、いずれかのプレーヤ 51、 52又は 53が動作を行っていると判別した場合には、ワイヤ W30を介して、問い合わせ付き判別処理 QB13に移り、「他のプレーヤに変更しますか？」というメッセージデータを音声合成部 3を介して出力する。

ここで、単に「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤ W31を介して入出力処理 EX17に移り、現在再生動作を行っているプレーヤを停止して、他のプレーヤ (例えば、ランダムに選択）を起動する。

また、問い合わせ付き入出力処理 QB11, QB13において、「MD」、「MDプレーヤ」、「CD」、「CDプレーヤ」、「HDDJ、「HDDプレーヤ」などと具体的なプレーヤを特定する単語が発話されると、これが検出され、それぞれ、ワイヤ W32, W35 ;W33, W36 ;W34, W37を介して入出力処理 EX14、 EX15、 EX16に移り、指示された M D、 CD、 HDDを再生させる。

[0069] なお、任意の処理において、再生対象の楽曲が複数検索された場合は、該当する複数の楽曲すベてを再生させてもよいし、制御対象機器群 5から取得する任意のデータに基づいて、任意の基準に従い、再生する対象の楽曲を選択してもよい。

[0070] 複数の楽曲のうち力も任意の曲を選択する手法を、図 14 (a)〜図 15 (b)を参照して説明する。

[0071] 図 14 (a)の例では、エージェント処理部 6は、判別処理 CN04等で複数の楽曲が検索された場合に、入出力処理 EX14で、車両位置特定部 54から車両の走行状態に関するデータを取り込んで車両の速度を判別する。続いて、エージェント処理部 6 は、入出力処理 EX15で、車両の走行速度に対応するテンポを有する楽曲を選択して、入出力処理 EXxxで選択した楽曲を再生する。これにより、例えば、車両が高速道を走行中であるときは、テンポが速い楽曲を選択して、再生する等の動作が可能となる。 [0072] 図 14 (b)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入出力処理 EX16で、車両位置特定部 54から車両の走行状態に関するデータと地図情報とを取り込んで、現在位置の地理的特徴 (海の近ぐ山間部、田園地帯、車両が東西南北のいずれをむいているか等、）を判別する。エージェント処理部 6は、入出力処理 EX17で、地理的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理 EXxxでこれを再生する。これにより、例えば、海沿いの道を走行中の場合に、この環境に関連付けられた属性を有する楽曲が再生される。これは、演奏者等のイメージから関連付けられてもよいし、また、曲のタイトルに「波」「海」などの言葉が含まれて！/、る楽曲を選曲するようにしてもよ!、。

[0073] 図 15 (a)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入出力処理 EX18で、クロック装置 56から現在の年月曰日時に関するデータを取り込んで、現在の時間的特徴 (春夏秋冬、初夏、晩秋、 . .朝、昼、夕方、夜、等)を判別する。エージェント制御部 6は、入出力処理 EX19で、現在の時間的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理 EXxxでこれを再生する

[0074] 図 15 (b)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入出力処理 EX20で、言語解析部 2から話者のピッチ情報を取り込み、楽曲データべース D6内のユーザ情報を参照して、ユーザを特定する。

[0075] 続いて、エージェント処理部 6は、入出力処理 EX21で、特定した話者の履歴情報に基づいて、話者の嗜好に合致する楽曲を特定して、入出力処理 EXxxでこれを再生する。

[0076] 話者の嗜好に合致する楽曲を選択する手法は任意である。例えば、過去に繰り返して再生してレ、る楽曲のジャンル、アーティスト、楽曲の年代等を判別し、これらに該当する楽曲を選択すればよい。

また、エージェント処理部 6は、クロック装置 56から、所定の条件に合致する日時データが供給されると、これに応答して、ネットワークを介して外部のサーバ等に接続して、楽曲データをダウンロードして、楽曲データベース D6に追カ卩してもよい。

また、エージェント処理部 6は、ユーザに告知すべき情報 (該当するアーティストに係る商品の販売スケジュールなど)を表すデータをダウンロードして、音声合成処理部 3を介し、音声出力部 4に、この情報を音声の形で提供させてもよい。

また、ユーザが要求したアーティストや曲名に対応する楽曲が楽曲データベース D 6に保有されていない場合に、外部のサーバ等に接続し、該当するアーティストや楽曲等を楽曲データベースにダウンロードして楽曲 D6に追加するようにしてもよい。尚、ダウンロードを開始する前に「希望した楽曲が現在保有されていないので、購入してダウンロードするか？」という問い合わせのメッセージを出力するようにしてもよレ、。

[0077] また、エージェント処理部 6は、アーティスト名を表す単語データが言語解析部 2より供給されると、これに応答して、ネットワークを介して外部のショッピングサイトのサーバ等に接続し、該当するアーティストに係る商品の予約手続が可能な状態として、当該商品の予約を促すメッセージを、例えば音声合成処理部 3を介し、音声出力部 4に、音声の形で発させてもよい。

[0078] エージェント処理部 6は、例えば言語解析部 2が単語データを複数供給した場合などにおいては、複数の判別処理を並行して行う。この場合、エージェント処理部 6は同一の単語を入力の対象とする処理 (例えば、トリガ取得処理や、判別処理におけるデータの入力)が複数があって、該当する単語を表す単語データが言語解析部 2より供給された場合は、これらの処理すベてを並行して行う。

[0079] 次に、各ワイヤの重み係對を計算する方法を説明する。

複数の処理がワイヤ Wにより連結されてレ、る場合には、注目するワイヤ Wの重み係慰は、現在処理中の処理を起点として、注目しているワイヤ Wに至るまでの遷移の経路上の進行方向決定用の遷移定数 kを順次乗算することにより求められる。

理解を容易にするため、図 16 (a)にフローを示す処理を想定する。

図 16 (a)の処理は、全体としては、単語「音楽」が入力されると、オーディオ機器が再生動作中力否かを判別し、再生中で無ければ、再生するか否かを発話者に問い合わせ、応答に応じて次の処理を実行するという処理である。

[0080] 図 16 (a)に示す処理では、処理 TG101、 CN101, QB101のいずれについても、各進行方向決定用の遷移定数 kは、順方向についてはいずれも 0. 5、逆 (戻り）方向については、いずれも 0. 1である。この場合、ワイヤは、例えば、図 16 (b)に示すように、定義される。

[0081] 例えば、エージェント処理部 6は、処理（又は制御）がトリガ処理 TG101に位置するとき（処理ポインタ PPがターゲット処理 TG101を指しているとき）、トリガ処理 TG101 を起点として、進行方向の遷移定数 kを遷移経路に沿って順次乗算することにより、ワイヤ W51〜W55 (図示していないワイヤが存在する場合にはそれらを含むすべて )のそれぞれの重み係 ¾Jを計算し、計算結果をワイヤ W51〜W55に対応付けてヮィャデータベース D5に書き込む。

具体的には、トリガ処理 TG101に処理が到達したとき、例えば、ワイヤ W51の重み係衡は、トリガ処理 TG101の判別処理 CN101に繋がるノードに割り当てられている遷移定数 kの値すなわち 0. 5となる。

判別処理 CN101のワイヤ W52の重み係 ¾Jは、トリガ処理 TG101のワイヤ W51に係る遷移定数 k=0. 5に判別処理 CN101のワイヤ W52に繋がるノードに害 ijり当てられている遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。同様に、判別処理 C N101のワイヤ W54の重み係 Jは、トリガ処理 TG101のワイヤ W51に繋がるノードに割り当てられてレ、る遷移定数 k= 0. 5に判別処理 CN101のワイヤ W54に繋がるノードの遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。

[0082] ワイヤ W53の重み係 SJは、トリガ処理 TG101のワイヤ W51に繋がるノードに割り当てられている遷移定数 k=0. 5に、判別処理 CN101のワイヤ W52に繋がるノードに割り当てられてレ、る遷移定数 k=0. 5を乗じた結果に更に判別処理 QB101のワイャ W53に繋力 Sるノードに割り当てられている遷移定数 k=0. 5を乗じた結果、すなわち 0. 125となる。同様に、ワイヤ W53の重み係 ¾1は、トリガ処理 TG101のワイヤ W5 1に繋がるノードに割り当てられている遷移定数 k=0. 5に、判別処理 CN101のワイャ W52に繋がるノードに割り当てられてレ、る遷移定数 k=0. 5を乗じた結果に、更に判別処理 QB101のワイヤ W55に繋がるノードに割り当てられている遷移定数 k=0. 5を乗じた結果、すなわち 0. 125となる。

[0083] このようにして、処理中の処理を基点としたときのそれぞれのワイヤの重み係 ¾Jが計算される。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度各ワイヤ Wの重み係 ¾Jが計算される。

[0084] 具体的には、現在の状態が判別処理 CN101に遷移すると、ワイヤ W52の重み係衡は、ワイヤ W52に繋がるノードに割り当てられている遷移定数 kに等しい値 0. 5となり、ワイヤ W54の重み係 ¾Jは、ワイヤ W52に繋がるノードに割り当てられてレ、る遷移定数 kに等しい値 0. 5となる。また、ワイヤ W53の重み係 Uはワイヤ W52に繋がるノードに割り当てられている遷移定数 k=0. 5と判別処理 QB101のワイヤ W55に繋がるノードに割り当てられている遷移定数 k=0. 5との積すなわち 0. 25となり、ワイャ W55の重み係はワイヤ W52に繋がるノードに害 ijり当てられている遷移定数 k= 0. 5と判別処理 QB101のワイヤ W55に繋がるノードに割り当てられている遷移定数 k=0. 5との積すなわち 0. 25となる。さらに、逆方向（トリガ処理 TG101に戻る方向に係るワイヤ W51の重み係 ¾1は、ワイヤ W51に繫がるノードに割り当てられている戻り方向のノードの遷移定数 k=0. 1に等しい値 0. 1となる。

[0085] また、現在の状態が判別処理 QB101に遷移すると、ワイヤ W53と W55の重み係は、ワイヤ W53と W55にそれぞれ繋がるノードに割り当てられている遷移定数 k に等しヽ値 0. 5となる。

[0086] さらに、ワイヤ W52の重み係對は、それに繋がる戻り方向のノードに割り当てられてレ、る戻り方向の遷移定数 k=0. 1がそのままワイヤ W52の重み係 Uとなる。さらに、ワイヤ W51の重み係娄ほ、判別処理 QB101のワイヤ W52に繋力 Sるノードに割り当てられている戻り方向の遷移定数 k=0. 1に、判別処理 CN101のワイヤ W51に繋がれて！/、る戻り方向のノードに割り当てられてレ、る戻り方向の遷移定数 k= 0. 1の積の 0. 01となる。ワイヤ W54の重み係 ¾Jは、判別処理 QB101のワイヤ W52に繋力 ¾ノードに割り当てられている戻り方向の遷移定数 k=0. 1に、判別処理 CN101 ' のワイヤ W54に繋がれているノードに割り当てられている遷移定数 k=0. 5の積の 0 . 05となる。

各ワイヤ Wnの重み係 ¾Jの変化の例を図 15 (c)に示す。

[0087] 重み係 Jの計算は、関連するフローの処理のみではなぐ全てのフローの全てのワイヤについて実行され、計算された重み係 ¾Jが各ワイヤに設定される。ここで現在の処理に関連のな!/ヽワイヤにつ！/ヽては、予め定められた低！/ヽ計数値を割り当てるようにすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、遷移定数 kをある程度高く設定するようにする。こうすることによって、直前までなされていた会話と著しく異なる内容の会話にもジャンプすることが可能になる。

[0088] 次に、このように構成されたシステム全体の動作を、図 17を参照して説明する。

音声入力部 1と言語解析部 2とは、独自に動作して、音声を取り込み、解析し、単語データをエージェント処理部 6に提供する。

そして、エージェント処理部 6は、判別条件に係る（1個又は複数個の）単語データが言語解析部 2より供給されると、以下の処理を行う。

供給された単語を認識 (識別）し (図 17ステップ S 11)、それが、単語データベース D4に登録されている単語に相当するか否かを判別する (ステップ S12)。登録されていなければ (ステップ S12， No)、単語入力処理を終了する。

一方、登録されていれば (ステップ S 12, Yes)、その単語又はその単語の属すダループの「概念」が条件となって!/、る処理に関し、単語の尤度 Sとワイヤの重み係 ¾Jの積を計算する (ステップ S 13)。

例えば、図 16 (a)に示すフローを実行している場合において、処理ポインタ PPがトリガ処理 TG101を指示しているとする。この場合の、各ワイヤの重み計 #Jは図 16 (c —1)に示す通りである。

この状態で、スコアが 80%の単語「音楽」と、スコアが 50%の単語「再生」を示す単語データが入力されたと仮定する。

図 16 (a)と (b)に示す例では、トリガ処理 TG101では、単語「音楽」が判別条件に関連し、判別処理 QB101では、単語「再生」が判別条件に関連する。

図 16 (c— 1)示すように、単語「音楽」を示す単語データを入力する処理を先行の処理とするワイヤ W51の重み係 ¾1が 0. 5、単語「再生」を示す単語データを入力する処理を先行の処理とするワイヤ W53の重み係 ¾1が◦. 25である。この場合、ワイヤ W51及ひ^ W53について求められる尤度 (スコア） Sと重み係衡の積は、数式 1及び 2 に示すとおりとなる。

[0089] (数 1) ワイヤ W51についての ¾F'S :「音楽」のスコア S80% Xワイヤ W51の重み係對（ = 0. 5) =40 [0090] (数 2) ワイヤ W53についての樹 'S :「再生」のスコア S50% Xワイヤ W53の重み係 #J ( = 0. 25) = 12. 5

[0091] エージェント処理部 6は、各単語の尤度 (スコア） Sと重み係 ¾Jとの積を求める上述の処理を、フローが有するすべてのワイヤについて行う。

続いて、エージェント制御部 6は、計算された樹 'S力 Sもっとも大きいワイヤを選択する（図 17,ステップ S14)。エージェント制御部 6は、選択したワイヤに後続する処理に制御を進める (ステップ S15)。例えば、ワイヤ W51について求めた積が最も高い値を示した場合、入力された単語データは単語「音楽」を示すものであつたと認識して、ワイヤ W51が後続の処理としている判別処理 CN101に遷移する。通常、現在の処理中の処理を起点するとワイヤの重み係娄が比較的大きい。このため、一般的には

、次の処理に移るが、従前と全く異なる単語で尤度の高いものが入力された場合には、その単語に対応する処理が開始されることもある。

[0092] エージェント処理部 6は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤの重み係を再計算する (ステップ S 16)。

以後は、その処理の内容に従って処理を進める (ステップ S17)。この例では、判別処理 CN101を実行する。すなわち、エージェント処理部 6は、窓開閉制御部 55から窓の開閉の情報を取り込み、取り込んだ情報に基づいてワイヤ W52と W54についての尤度 Sと重み係の積を求め、ワイヤ W24についての尤度 Sと重み係 Uの窗 'S を求めて、いずれかのワイヤ Wを選択して、選択したワイヤ Wに後続する処理を実行する。

なお、窓開閉制御部 54からの窓の開閉を示す信号は、開の尤度が 100%又は 0% 、閉の尤度が 0%又は 100%でもよぐまた、開度に応じて変化させるようにしてもよい。そして、処理の過程で、入出力処理 EXxxがあり、エージェント処理部 6がその処理を実行して、音声データを出力すれば、それが音声として放音され、入出力機器群 5 への制御を行う処理を実行すると、その処理内容に従って、入出力機器群 5への制御を行う。

[0093] トリガ取得処理 TGxxからの遷移に対しては、ある程度高い遷移定数 kを設定しておくとよい。具体的には、概念「再生」、単語「停止」、「うるさい」を取得するトリガ取得処理 TGxxからの遷移に対しては、例えば遷移定数 k=0. 9を与えておく。そうすると、該当する概念又は単語の入力を検出したときに、そのトリガ取得処理 TGxxからのワイヤの窗 'Sが大きくなり、これら他のワイヤについての積よりも大きくなりやすぐ結果として、会話の流れとは異なる要求に対しても対応することが可能になる。

[0094] この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数 kは、進行方向の遷移定数 kに比べて低い値に設定するようにすればよい。そうすると、入力された音声力高いスコアの音声データが仮に得られても、戻り方向の遷移定数 kが重み係数として書き込まれたワイヤについて求めた積は低い値となるため、戻り方向への遷移の可能性を低く抑えることができる。

また、エージェント処理部 6は、求めた積の値が所定の条件に合致しないような処理 (たとえば、積の値が所定値に達しないような処理）は、遷移を実行する対象から除外するよう取り扱ってもよレヽ。

[0095] なお、例えば図 9に示してレ、るように、ワイヤは、処理項目力処理項目へという形で遷移を定義する。そして、ワイヤを図 8に示すような形態で記述してワイヤデータべース D5に格納することにより、各処理項目同士の関係を、あた力 ^コンピュータのマクロ処理のように定義することが可能になる。これによつて、各処理項目を容易に接続することができる。

[0096] また、トリガとなる処理項目は、実際には、接続されるワイヤに係る認識対象単語等 (他の入力対象機器群からの入力の場合もあり得る）のスコアの判定になるので、ワイャにおいてトリガ処理項目はワイヤの開始点として定義されず、ワイヤそのものが遷移元として定義されることになる。

[0097] 更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザが休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そうすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接続されたワイヤの遷移定数 kをある程度大きくすることで、当該入力「ファミリーレストランを探して」に適切に対応することができるようになる。（ただしこの場合、エージェント処理部 6は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を記憶し、あるいは外部の地図データ等にアクセスするものとする。 )

このワイヤの自動追加は、ある処理項目からある処理項目へのジャンプの回数を計数し、これが所定回数に達したときに自動で行うようにすればよい。

[0098] 前述のように、エージェント処理部 6は、処理項目データベース D4やワイヤデータベース D5の内容を、外部から供給される新たな処理項目データやワイヤへと更新する機能を有する。具体的には、例えば、処理項目データ及び/又はワイヤを記憶する外部のサーバが、その内容が更新されると、ネットワークを介し、エージェント処理部 6に、処理項目データ及び/又はワイヤの更新がある旨を通知する。すると、エージェント処理部 6はこの通知に応答して、ネットワークを介し、このサーバにアクセスして、新たな処理項目データ及びノ又はワイヤをダウンロードする。そして、自己の処理項目データベース D4やワイヤデータベース D5に格納されて!/ヽる、古!/、処理項目データ及び Z又はワイヤを、ダウンロードした新たな処理項目データ及ぴ Z又はワイャへと更新する。

また、エージェント処理部 6が、外部サーバにアクセスし、データベースが更新されてレ、れば、これをダウンロードするようにしてもよ！/、。

[0099] 外部サーバの構成例を図 18に示す。

この外部サーバ 100は、単語データ、処理項目データ及び/又はワイヤデータを通信ネットワークを介して複数の車両のエージェント処理部 6に配信するためのものであり、制御部 110、通信制御部 120、単語データベース 130、処理項目データべース 140、ワイヤベース 150、人力部 160、出力部 170、力ら構成される。

[0100] 制御部 110は、例えば CPU (Central Processing Unit :中央演算処理装置）などから構成され、配信サーバ 100の各部を制御するとともに、所定のプログラムを実行することで後述する各処理を実現する。

[0101] 通信制御部 120は、例えば、モデム、ルータなどの通信装置から構成され、配信サーパ 100と車両のエージェント処理部 6 (通信制御部）との間のネットワークを介した通信を制御する。 [0102] ' ネットワークの構成は任意である。例えば、専用線、公衆回線網、ケーブルテレビ（ CATV)網、無線通信網、有線放送網、などを採用することができる。

[0103] 単語データベース 130は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信サーバ 100が配信する単語データをバージョン情報 (例えば、タィムスタンプ)共に蓄積する。

[0104] 処理項目データベース 140は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象の処理項目データをバージョン情報 (例えば、タイムスタンプ)共に蓄積する。

[0105] ワイヤデータベース 150は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象のワイヤデータをバージョン情報 (例えば、タイムスタンプ) 共に蓄積している。

[0106] 配信サーバ 100の管理者は、適宜、入力部 160を操作して、各データベース 130 〜 150の情報を更新する。

各車両のエージェント処理部 6は、通信制御部（CCU) 64を介して、配信サーバ 10 0からの更新通知を受信すると、例えば、図 19 (a)の処理を開始し、セッションを確立し (ステップ S21)、更新されたデータをダウンロードし、自己のデータベースを更新する（ステップ S22)。或いは、各車両のエージェント処理部 6は、定期的或いは適宜、この配信サーバ 100に通信制御部（CCU) 64を介してアクセスしてセッションを確立し (ステップ S31)、各データベースのバージョン情報 (更新日付など)を取得する（ステップ S32)。そして、両データのバージョンを比較し (ステップ S33)、自己が記憶しているデータよりも新しいデータをダウンロードして、自己のデータベースにセットする（ステップ S 34)。

このような構成とすれば、配信サーバ 100に記録されている情報を更新するだけで、配信サーバ 100を利用可能なすべての車两制御システムのデータを適宜更新することができる。

なお、配信サーバ 100には、データを圧縮及び暗号化して格納しておき、エージェント処理部 6がダウンロードしてデータを伸張及ぴ復号ィ匕してデータベースにセットすることが望ましい。このようにすることにより、通信の量を抑え、情報漏洩を防止できる [0107] エージェント処理部 6が配信サーバ 100からデータをダウンロードするタイミングは上述の例に限定されず任意であり、例えば、ユーザの要求に対応する処理項目及びノ又はワイヤが記憶されていない場合、これを検出してネットワークを介して配信サーバ looにアクセスし、新たな処理項目データ及び Z又はワイヤをダウンロードするようにしてもよい。更には、エージェント処理部 6に接続される入出力対象機器 5が新たに追加された場合や、新たな機能が追加された場合に、自動でこれを検出して、上述と同様に、ネットワークを介して配信サーバ 100にアクセスし、新たな処理項目データ及び/又はワイヤをダウンロードするようにしてもよい。

[0108] 尚、本発明におけるエージェント処理部 6は、新たなワイヤを自動で生成する機能を有する力ダウンロードした新たな処理項目及び既存の処理項目に対して、どのような関係のワイヤを設定するかにっレ、て、これを記述したプログラムを一緒にダウン口ードするようにしてもよい。

[0109] 以上説明したこのオーディオシステムは、処理の内容を示すデータやワイヤが適切に記述されれば、制御する対象である機器や加える制御の内容を完全に特定することを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語からユーザの欲求を推測し、この欲求を満たすためにどの機器にどのような制御をカ卩えればよいかを適切に判断して、判断結果に従った制御を機器に加えることができるようになる。

[0110] また、処理項目データやワイヤは随時新たなものへと更新されるので、エージェント処理部 6の応答の仕方を変化させる余地が常にあり、ユーザはこのオーディオシステムとの対話に飽きにくい。

[0111] なお、このカーオーディオシステムの構成は上述のものに限られない。

例えば、入出力対象機器群 5に属する機器は、必ずしも直接にユーザの欲求を満たす結果をもたらす機器である必要はなぐ例えば、外部の表示装置等を制御してユーザに特定の行動をとるよう促すメッセージを出力する機器 (例えば、液晶ディスプレイ等の表示装置)からなつていてもよい。

[0112] また、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語からなる語句を示すデータを単語データベースの要素として記憶するようにしてもよいし、単語の一部ある!/、は音素を示すデータを単語データベースの要素として記憶するようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピングされている必要はなぐグルーピングを行う場合も、グルーピングを行うために用いられるデータは、必ずしもフラグの集合の形をとつていなくてもよい。

[0113] また、エージヱント処理部 6は、ワイヤに記述された遷移定数 kを、過去に当該ワイャが表す遷移を実行した数などに基づき所定の基準に従って変化させ、遷移定数係数 kが変化後の値となるようにワイヤ (ワイヤの始点となるノード）に割り当てられている遷移定数 kを書き換えてもよい。

具体的には、例えば、ワイヤデータベースに、それぞれのワイヤについて、当該ワイャが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部 6は、当該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の値を 1ずつインクリメントし、それぞれのワイヤに記述された遷移定数 kを、例えば、当該ワイヤについて記憶された回数に比例した値と書き換える。

[0114] また、エージェント処理部 6は、判別処理や入出力処理において出力するデータを、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、その他任意の条件に従って変化させるようにしてもよい。

[0115] また、このカーオーディオシステムは、エージェント処理部 6の制御に従って画像を出力するための表示装置 (例えば、液晶ディスプレイ等)を備えていてもよぐエージェント処理部 6は、入出力処理や判別処理において、処理毎に所定の画像を表示させるようこの表示装置を制御してもよレ、。

[0116] また、エージェント処理部 6は、 1個の入力処理や 1個の判別処理において、連続して発話される等した複数の単語データを一括して取得するようにしてもよい。また、ェージェント処理部 6は、一括して取得した複数の単語データがどの概念の下で同一のグループ内にグルーピングされてレ、るかを特定し、特定した概念が所定の概念に合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものとしてもよい。

[0117] また、エージェント処理部 6は、トリガ取得処理、判別処理、入出力処理等の各種処理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数のデータ処理装置 (例えば、コンピュータ等)から構成されていてもよい。この場合、解析処理部 3を構成するそれぞれのデータ処理装置は、解析処理部 3が実行し得るフロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目データベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞれのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の処理をマクロ定義するようなデータとなってレ、れば、複数のデータ処理装置に分散処理を行わせることも容易である。

[0118] また、このカーオーディオシステムは、音声入力部 1や言語解析部 2あるいは音声出力部 4も複数備えて!/、てよレ、。

また、音声入力部 1は、たとえば、音声を表すデータが記録された記録媒体 (たとえば、フロッピー（登録商標）ディスクや、 CDや、 MO (Magneto-Optical Disk)など）力ら波形信号を読み出して言語解析部 2に供給する記録媒体ドライブ装置 (たとえば、フロッピー（登録商標）ディスクドライブや、 CD—ROMドライブや、 MOドライプなど）を備えていてもよい。

[0119] 言語解析部 2は、音声入力部 1より供給された音声データが表す音声の話者 (あるいは話者の性別など)を任意の手法で特定し、特定した話者を示す話者データをェージヱント処理部 3に供給するようにしてもよい。一方、エージェント処理部 3は、例えば楽曲の再生を指示するたびに、楽曲データベースに、再生の対象となった楽曲が、話者データが示す話者のために再生されたことを示す履歴データを追加するようにしてもよい (あるいは、当該楽曲が当該話者のために再生された回数を示すデータを履歴データとして記憶しておき、この履歴データを 1だけインクリメントするようにしてもよい)。そして、再生する楽曲を選択する場合は、このような.履歴データに基づいて、楽曲を選択するようにしてもよい。

[0120] 以上、この発明の実施の形態を説明したが、この発明にかかるオーディオ機器制御装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。

例えば、入出力対象機器群 5及び通信制御装置に接続されたパーソナルコンビュータに上述の音声入力部 1、言語解析部 2、音声合成処理部 3、音声出力部 4及びエージェント処理部 6の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行するカーオーディオシステムを構成することができる。そして、このプログラムを実行するパーソナルコンビュータが、図 1のカーオーディオシステムの動作に相当する処理として、例えば、図 16 に示すフローを実行するものとする。

[0121] なお、パーソナルコンピュータに上述のカーオーディオシステムの機能を行わせるプログラムは、例えば、通信回線の掲示板 (BBS)にアップロードし、これを通信回線を介して配信してもよぐまた、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。そして、このプログラムを起動し、 OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。

[0122] なお、 OSが処理の一部を分担する場合、あるいは、 OSが本願発明の 1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする

Claims

請求の範囲

[1] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、

制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、

ことを特徴とするオーディオ機器制御装置。

[2] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、

前記音声認識手段が特定した候捕と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状。態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、

ことを特徴とするオーディオ機器制御装置。

[3] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候捕を特定する音声認識手段と、

前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、ことを特徵とするオーディオ機器制御装置。

[4] 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータ力構成されている、ことを特徴とする請求項 2に記載のオーディオ機器制御装置。

[5] 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成されている、ことを特徴とする請求項 3に記載のオーディオ機器制御装置。

[6] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候捕を特定する音声認識ステップと、

制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とするオーディオ機器制御方法。

[7] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、

前記音声認識ステップで特定された候捕と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とするオーディオ機器制御方法。

[8] . 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、

前記音声認識ステップで特定された候ネ詹と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、

ことを特徴とするオーディオ機器制御方法。

[9] コンピュータに、

制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とするコンピュータプログラム。

[10] コンピュータに、

前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、

を実行させることを特徴とするコンピュータプログラム。

コンピュータに、

前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させるコンピュータプログラム。