WO2005062293A1 - オーディオ機器制御装置、オーディオ機器制御方法及びプログラム - Google Patents

オーディオ機器制御装置、オーディオ機器制御方法及びプログラム Download PDF

Info

Publication number
WO2005062293A1
WO2005062293A1 PCT/IB2004/004007 IB2004004007W WO2005062293A1 WO 2005062293 A1 WO2005062293 A1 WO 2005062293A1 IB 2004004007 W IB2004004007 W IB 2004004007W WO 2005062293 A1 WO2005062293 A1 WO 2005062293A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio device
speech
data
speaker
voice
Prior art date
Application number
PCT/IB2004/004007
Other languages
English (en)
French (fr)
Inventor
Rika Koyama
Original Assignee
Kabushikikaisha Kenwood
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushikikaisha Kenwood filed Critical Kabushikikaisha Kenwood
Priority to EP04801318A priority Critical patent/EP1691343B1/en
Priority to US10/581,823 priority patent/US7529676B2/en
Priority to DE602004016681T priority patent/DE602004016681D1/de
Priority to JP2005516408A priority patent/JP4533845B2/ja
Priority to CN2004800360694A priority patent/CN1890708B/zh
Publication of WO2005062293A1 publication Critical patent/WO2005062293A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • Audio device control apparatus audio device control method, and program
  • the present invention relates to an audio device control device, an audio device control method, a data output device, and a program.
  • Patent Document 2 Japanese Patent Laid-Open No. 2002-182688
  • the present invention has been made in view of the above circumstances, and provides an audio device control device, an audio device control method, and a program capable of controlling a device in response to an instruction issued by a human in the form of a language. With the goal.
  • an audio device control device according to the first aspect of the present invention provides:
  • Speech recognition means for acquiring speech data representing speech and performing speech recognition on the speech data to identify candidate words represented by the speech;
  • Operation state information acquisition means for acquiring operation state information indicating the operation state of the audio device to be controlled;
  • the usage mode is realized based on the usage mode of the audio device desired by the voice speaker and the operation state information acquired by the operation state information acquisition unit.
  • An audio device control means for specifying an operation to be added to the audio device to control the audio device and for adding the specified operation.
  • Speech recognition means for acquiring speech data representing speech and performing speech recognition on the speech data to identify candidate words represented by the speech;
  • the voice speaker is based on the candidate identified by the voice recognition means and the environmental data indicating the status of the environment in which the external audio device is used and / or the operating status data indicating the operating status of the audio device.
  • An audio device control unit that specifies a usage mode of the audio device desired by the user and an operation to be applied to the audio device to realize the usage mode, and controls the audio device to add the specified operation.
  • an audio equipment control device according to the third aspect of the present invention provides:
  • Speech recognition means for acquiring speech data representing speech and performing speech recognition on the speech data to identify candidate words represented by the speech;
  • a speaker identification means for identifying a speaker of the voice or an attribute of the speaker based on the voice data
  • the environmental data includes, for example, data indicating the current position of the environment in which the audio device is used.
  • the environmental data includes, for example, data indicating a sound insulation state of an environment where the audio device is used.
  • an audio device control method includes:
  • An operation state acquisition step for acquiring an operation state of an audio device to be controlled, a usage mode of the audio device desired by a speaker of the voice, and an operation state acquisition based on the candidate identified in the speech recognition step
  • An audio device control step of identifying an operation to be applied to the audio device in order to realize the usage mode based on the operation state acquired in the step, and controlling the audio device to add the identified operation;
  • an audio device control method includes:
  • An audio device control step for identifying a use mode of the audio device desired by a person and an operation to be performed on the audio device in order to realize the use mode, and controlling the audio device to add the identified operation; Composed of,
  • an audio device control method includes:
  • a speech recognition step for identifying candidate words represented by the speech
  • a computer program according to the seventh aspect of the present invention provides:
  • An operation state acquisition step for acquiring an operation state of an audio device to be controlled, a usage mode of the audio device desired by the voice speaker based on the candidates specified in the speech recognition step, and an operation state acquisition step
  • an audio device control step for identifying an operation to be applied to the audio device in order to realize the usage mode and controlling the audio device to add the identified operation based on the operation state acquired in It is characterized by being executed.
  • a computer program according to an eighth aspect of the present invention provides:
  • the speech utterance is based on the symptom identified in the speech recognition step, environmental data indicating the environment in which the external audio device is used, and operation status data indicating the operating state of Z or the audio device.
  • Use of audio equipment that consumers want An audio device control step of identifying a mode and an operation to be applied to the audio device to realize the usage mode, and controlling the audio device to add the specified operation;
  • a computer program according to a ninth aspect of the present invention provides:
  • Candidates identified in the speech recognition step, speaker or speaker attributes identified in the speaker identification step, environment data and / or the audio device indicating an environment in which an external audio device is used Based on the operational state data indicating the operational state of the audio device, the usage mode of the audio device desired by the voice speaker and the operation to be applied to the audio device to realize the usage mode are identified, and the identified operation And an audio device control step for controlling the audio device to add.
  • an audio device control device an audio device control method, and a program that can control a device in response to an instruction that a human makes an effort in the form of a language are realized.
  • FIG. 1 is a diagram showing an audio equipment control system according to an embodiment of the present invention.
  • FIG. 2 is a more detailed configuration diagram of the audio equipment control system according to this embodiment.
  • FIG. 3 is a diagram showing an example of the data structure of a music database.
  • FIG. 4 is a diagram schematically showing a specific example of a word database.
  • FIG. 5 is a diagram for explaining trigger acquisition processing.
  • FIG. 6 is a diagram for explaining discrimination processing.
  • FIG. 7 is a diagram for explaining a discrimination process with a gap.
  • FIG. 8 is a diagram for explaining input / output processing.
  • FIG. 9 is a diagram showing an example of a wire.
  • FIG. 10 is a diagram showing a flow represented as a whole by the processing item database and the wire database.
  • FIG. 11 A diagram showing the flow of processing item database and wire database as a whole.
  • FIG. 12 is a diagram showing a flow represented as a whole by the processing item database and the wire database.
  • FIG. 13 is a diagram showing the flow of the process item database and wire database as a whole!
  • FIG. 14 is a diagram showing a flow represented as a whole by the processing item database and the wire database.
  • FIG. 15 is a diagram showing the flow of the process item database and the wire database as a whole!
  • FIG. 16 is a diagram for explaining a weighting factor J set for each wire.
  • FIG. 17 is a flowchart for explaining the operation of the agent processing unit.
  • FIG. 18 is a diagram showing a configuration of an external server (distribution server) and a network configuration.
  • FIG. 19 is a flowchart for explaining download processing.
  • FIG. 1 is a block diagram showing the configuration of this audio equipment control system.
  • FIG. 2 is a block diagram illustrating an example of a physical configuration of each unit.
  • the audio device control system includes a speech input unit 1, a language analysis unit 2, a speech synthesis processing unit 3, a speech output unit 4, an input / output target device group 5, and an agent processing unit. It consists of six.
  • the speech input unit 1 inputs speech, generates speech data in the input speech power digital format, and supplies the speech data to the language analysis unit 2.
  • the audio input unit 1 includes, for example, a microphone 11, an AF (Audio Frequency) amplifier 12, an AZD (Analog-to-Digital) converter 13 including a sample hold circuit, and the like. It consists of more.
  • the microphone 11 converts the sound into a sound signal and outputs it.
  • the AF amplifier 12 amplifies and outputs the audio signal from the microphone 11.
  • the A / D converter 13 generates digital audio data by sampling and A / D converting the amplified audio signal from the AF amplifier 12, and supplies the digital audio data to the language analysis unit 2.
  • the language analysis unit 2, the speech synthesis processing unit 3, and the agent processing unit 6 are each a processor 21, 31, 61, for example, composed of a CPU (Central Processing Unit) or the like. And a nonvolatile memory 22, 32, 62 such as a hard disk device for storing programs executed by the processors 21, 31, 61, and a RAM (Random Access Memory) having a storage area as a work area of the processor. Memory 23, 33 and 63. Note that some or all of the functions of the language analysis unit 2, the speech synthesis processing unit 3, and the agent processing unit 6 may be configured by one processor, one nonvolatile memory, and one volatile memory. Good.
  • the language analysis unit 2 performs voice recognition processing on the voice data supplied from the voice input unit 1.
  • the language analysis unit 2 identifies a candidate for the word represented by the speech data and the likelihood (score) of the candidate through speech recognition processing.
  • the method of speech exposure is arbitrary. Multiple word candidates may be specified.
  • the language analysis unit 2 generates data (hereinafter referred to as word data) indicating the identified candidate and the score of the candidate, and supplies it to the agent processing unit 6.
  • the non-volatile memory 32 of the speech synthesis processing unit 3 includes a speech unit database D1 for storing data representing the waveform of a word, and a unit database D2 for storing data representing a waveform for constituting a phoneme.
  • a speech unit database D1 for storing data representing the waveform of a word
  • a unit database D2 for storing data representing a waveform for constituting a phoneme.
  • the sound piece database D1 stores data representing the waveform of a word.
  • the segment database D2 stores data representing waveforms for composing phonemes.
  • the speech synthesis processing unit 3 uses the data stored in the speech unit database Di and / or the unit database D2 to generate digital speech data representing speech that reads out the text data supplied from the agent processing unit 6. To do.
  • the voice synthesizer 3 supplies the generated voice data to the voice output unit 4.
  • the method for generating digital audio data is arbitrary.
  • a recording editing method or a rule-based synthesis method can be used.
  • the recording and editing method is, for example, a method in which an announcer reads voices in units of words in advance and connects them together for output.
  • the rule composition method is a method of outputting relatively small units such as phonemes (consonants and vowels) and kana.
  • the voice output unit 4 reproduces the voice represented by the digital voice data supplied from the voice synthesis processing unit 3. More specifically, as shown in FIG. 2, the audio output unit 4 has a D / A (
  • Digital-to-Analog converter 41 Digital-to-Analog converter 41, AF amplifier 42 and speaker 43 are provided.
  • the D / A converter 41 A-converts the digital voice data supplied from the voice synthesis processing unit 3 and converts it into an analog voice signal.
  • the AF amplifier 42 amplifies the analog audio signal.
  • the speaker 43 vibrates according to the analog audio signal, reproduces the sound represented by the analog audio data, and emits the sound.
  • the input / output target device group 5 includes, for example, a CD (Compact Disc) player 51, an MD (Mini Disc ) Player 52, HDD (node disc drive) player 53, vehicle position specifying unit 54, window opening / closing control unit 55, clock device 56, and the like.
  • CD Compact Disc
  • MD Mini Disc
  • HDD node disc drive
  • the CD player 51 performs operations such as playback of audio represented by the audio data recorded on the CD attached to the CD player, stop of playback, mute, fast forward playback, rewind playback, pause, CD ejection, etc. , According to the control signal supplied by the agent processing unit 6.
  • the MD player 52 performs agent processing such as playback, stop, mute, fast forward, rewind, pause, eject CD, etc., of the audio data recorded in the MD data installed in itself. Perform according to the control signal supplied by unit 6.
  • the HDD player 53 is a non-volatile magnetic disk that stores audio data, stops playback of the audio represented by the audio data, stops playback, mute, fast forward playback, rewind playback, 1-7 fire stop, etc. Is performed according to the control signal supplied by the agent processing unit 6.
  • the vehicle position specifying unit 54 includes a known car navigation system using a GPS (Global Positioning System) mobile station. For example, the vehicle position specifying unit 54 detects the current position of the vehicle in accordance with the control signal supplied by the agent processing unit 6, generates data representing the force on which the detected current position hits the map, and performs agent processing. Supply to part 6.
  • GPS Global Positioning System
  • the window opening / closing control unit 55 includes a motor, a control circuit that controls rotation and stop of the motor according to the control signal, and a winch force that moves the window glass of the vehicle according to the rotation of the motor.
  • the window opening / closing control unit 55 opens and closes the windows of the vehicle according to the control signal supplied to itself. Further, the control circuit of the window opening / closing control unit 55 generates and outputs, for example, data indicating the amount of opening of the window to be opened / closed as data indicating the operation state of the window opening / closing control unit 55.
  • the clock device 56 is composed of, for example, a crystal oscillator, a counter circuit, or the like.
  • the clock device 56 continuously generates data indicating the current time and supplies it to the agent processing unit 6.
  • the clock device 56 may use time information obtained by GPS power via a car navigation system.
  • the agent processing unit 6 includes a communication control device 64 such as a modem or a packet communication terminal, and through this communication control device, an external network (for example, via a wireless telephone line). Connected to the distribution server 100 described later via the Internet.
  • a communication control device 64 such as a modem or a packet communication terminal
  • an external network for example, via a wireless telephone line
  • the non-volatile memory 62 of the agent processing unit 6 further stores a music database D6.
  • the music database D6 includes the name of the music, the artist name of the artist performing the music, the CD, MD, and / or MDD53 on which the music is recorded, and the music on the CD, MD, and / or HDD53. This is a database that stores track numbers that are recorded in association with each other.
  • the music database D6 includes the name of the music, the name of the artist who performs the music, and the CD, MD, and Pi Z or HDD53 ID (identification information), the number of the track on which this music is recorded on the CD, MD and Z or HDD, the tempo of the song, and various attribute information about the song (e.g. Information such as season, time zone, geographical location, etc. where the atmosphere of the song is suitable is stored in association with each other.
  • the music database D6 stores user information for identifying the user and reproduction history information indicating the reproduction history of the music in association with each other.
  • User information does not need to be information that can identify individual users, but is information that can distinguish users.
  • the user information includes, for example, basic pitch information indicating the shape of the basic pitch of each user's speech waveform, is acquired by the speech input unit 1, and is provided along with word data from the language analysis unit 2.
  • the playback history information includes information that identifies a song, information that indicates that the song has been played, information that indicates that the song has been played repeatedly, information that indicates that the song has stopped playing, and that song This includes historical information on negative comments such as “noisy”. By analyzing this information, the user's preference (favorite music, disliked music) can be discriminated.
  • the nonvolatile memory 62 of the agent processing unit 6 stores a word database D3.
  • the word database D3 stores a plurality of word data and a word grouping flag for indicating a grouping of the plurality of words in association with each other.
  • Flags associated with one word are grouped in association with a certain concept. If the flag indicates a predetermined value (hereinafter “1”), the word associated with this flag belongs to the group associated with this flag. On the other hand, if this flag indicates another value (eg, “0”), this word belongs to the group associated with that flag.
  • FIG. 4 is a diagram schematically showing a specific example of grouping flags.
  • multiple words in Fig. 3, "Play”, “I want to hear”, “Stop”, “Boring”, “Yesterday”, “Etsutenraku”, “Tsugaru Jongara”, “Rika Kume”
  • bits word grouping flags
  • the highest flag is associated with the concept of “playback”
  • the second bit flag from the top corresponds to the concept of “impression”.
  • the flag for the third bit from the top is “No” and the flag for the top four is “Song Title” and the flag for the fifth bit from the top is It is associated with the concept of “artist”.
  • the value of the upper 5-bit flag group associated with the word “play” is the binary number “10000”, and the upper group associated with the word “I want to hear”.
  • the value of the 5-bit flag group is the binary number “11000”, the value of the flag group associated with the word “stop” is the binary number “00100”, and is associated with the word “bottom J”.
  • the value of the flag group is the binary number “01100”
  • the value of the flag group associated with the word “Yesterday” is the binary number “00 000”
  • the value of the flag group associated with “Kara clause” is the binary number “000010”
  • the value of the flag group associated with the word “Rika Kume” is the binary number “00001”.
  • Each word and each concept is used as, for example, “trigger”, “discrimination condition”, etc., of each processing item stored in the processing item database D4.
  • the nonvolatile memory 62 of the agent processing unit 6 further includes a processing item database D4 and a processing item database D4. And store the wire database D5.
  • the process item database D4 contains various processes executed by the agent processing unit 6, such as trigger acquisition process (TGxx), determination process (CNxx or QBxx), and input / output process (EXxx described later). It is a database that stores data (process item data) described for each process item (pointer). “XX” is an identification number.
  • Trigger acquisition process (TGxx)
  • the data describing the contents of J is the trigger data that identifies the trigger for starting these processes (data acquired as a trigger).
  • a transition constant k for determining the traveling direction described later (which indicates the degree of transition in the traveling direction and is a constant used as a calculation reference for the weight coefficient 3 ⁇ 4J described later).
  • the trigger data is arbitrary, and is, for example, data indicating the amount of opening of the window, data indicating the temperature in the room, or the above-described word data supplied from the language analysis unit 2.
  • the trigger data may be data delivered from processing performed by the agent processing unit 6 itself.
  • the trigger data is word data, it may be data indicating a “concept” assigned to the dulling to which the word represented by the word data belongs.
  • the contents of the trigger acquisition process are described so that, for example, a plurality of trigger acquisition processes do not acquire word data representing the same word.
  • Fig. 5 (a) shows an example of the trigger acquisition process TGxx.
  • the trigger TG01 acquires the concept “play” as the trigger (the word that is grouped into the concept “play” (in the example of FIG. 3, the word “play” or “want to hear”)).
  • the transition constant k for determining whether or not to proceed to the process following that process (transition) is 0.8.
  • Figure 5 (b) shows a flowchart of the trigger acquisition process TG01.
  • Trigger acquisition process TG02 is a process for acquiring the word “MD”.
  • Trigger acquisition process TG03 is a process to acquire words belonging to the group corresponding to the concept “Negation” (in FIG. 3, to acquire “Stop”, “Miscellaneous! /,”! /, Or deviation).
  • the data describing the contents of the “discrimination process (CNxx)” stored in the process item database D4 includes the discrimination conditions, a list of results that can be taken as discrimination results, and the discrimination results.
  • Transition constant k for determining the processing direction and return direction transition described later It contains data describing the transfer constant k for each discrimination process.
  • FIG. 6 (a) shows an example of the discrimination process CNxx.
  • the discrimination process CN01 is “a process for discriminating whether or not the window is open / closed”. When it is determined that the window is open, it is determined whether or not to proceed to the subsequent process.
  • the transition constant k is 0.5, and when it is determined that it is not open, the transition constant k is 0.5 to determine whether or not to proceed to the subsequent processing.
  • the flowchart for this example is shown in Fig. 6 (b). Node CN01.1 shown in Fig.
  • node CN01.2 is the node in the direction of travel when it is determined that the window is closed, and its transition constant k is 0.5.
  • node CN01.3 is a node in the traveling direction when it is determined that the window is open, and its transition constant k is 0.5.
  • the determination process CN02 is a process for determining which of the MD player 52, the CD player 51, and the HDD 53 is in operation, and when it is determined that the operation is in progress, whether to proceed to the subsequent process is determined.
  • the transition constants k are 0.5 for each.
  • Determination process j may include a process of acquiring data used for determination from an arbitrary acquisition source.
  • the acquisition source include other processes executed by the language analysis unit 2 and the agent processing unit 6. Or devices belonging to the I / O target device group 5 or other external devices' sensors, etc.
  • the data describing the contents of the discrimination processing is, for example, data specifying the acquisition source of the data used for discrimination including.
  • the "discrimination process” may include a process of outputting predetermined data to a predetermined output destination prior to discrimination and obtaining a response to the output! / ⁇ (In this case, the process The symbol shown is QBxx).
  • this type of discrimination process for example, there is a process in which data representing a predetermined question is delivered to the speech synthesis processing unit 3 prior to discrimination, and thereafter waiting for input from the language analysis unit 2.
  • the data describing the content of the process includes, for example, data specifying the content of the output data and the output destination of this data.
  • FIG. 7 (a) shows an example of the discrimination process QBxx.
  • the discrimination process QB01 asks the user “Do you play MD? Do you play CD? Do you play HDD?”, And responds (user's response)
  • the transition constant k when the value of “MD” is 0.5
  • the transition constant k when it is “CD” is 0.5
  • the transition constant k when “HDD” is 0.5.
  • Node QB01.1 shown in Fig. 7 (b) is the start node indicating the start point of processing
  • node QB01.2 has determined that “CD” is specified to be played in response to the query.
  • Node QB01.3 is a node in the direction of travel when it is determined that “MD” is to be played back, and its transition constant k is 0.5.
  • the node QB01.4 is a node in the traveling direction when it is determined that “HDD” is to be played back, and its transition constant k is 0.5.
  • the data describing the contents of the "input / output process" stored in the process item database D4 has a data power for specifying the contents of data to be input or output.
  • Input data and output data may have arbitrary contents.
  • the output data may be data representing voice reading generated by the voice output unit 4 via the voice synthesis processing unit 3 or a control signal for controlling an external device.
  • the input data may be data supplied from an external device, for example.
  • Figure 8 (a) shows an example of I / O processing EXxx.
  • the input / output processing EX01 is an operation of “closing the window”, and the transition constant k in the traveling direction for performing the processing after the operation is 0.8.
  • the flowchart for this example is shown in Fig. 8 (b).
  • Node EX01.1 shown in FIG. 8 (b) is a start point node indicating the start point of the process, and node EX01.2 is a node indicating the end of the process, and the transition constant k is 0.8.
  • selection of a node indicating the end of processing may be made an essential processing without setting the transition constant k.
  • the wire database D5 is configured with a collective force of data (hereinafter, this data is referred to as a wire) describing transitions between a plurality of processes (TG, CNxx, QBxx, EXxx).
  • the wire is composed of data capabilities described in the format shown in FIG.
  • the wire W n (Wl, W2 ) transitions from the preceding process X (From (X)) to the subsequent process Y (To (Y)) (From (X) To (Y) )
  • the preceding process X is a discrimination process, it is necessary to describe the force that is the transition from which discrimination result of the discrimination process.
  • transition source process X and the transition destination Y are specified by the node numbers of the respective processes.
  • the weighting factor I of each wire is calculated and set as appropriate according to the progress of processing that is not a fixed value. The calculation of the wire weight coefficient 3 ⁇ 4J will be described later with reference to FIG.
  • the agent processing unit 6 executes the flow represented by the processing item database D4 and the wire database D5 as a whole.
  • the processing item database D4 and the wire database D5 can describe processing flows as shown in FIGS. 10 to 13 as a whole based on the examples of FIGS.
  • the agent processing unit 6 is supplied with word data indicating a word belonging to the concept “reproduction” and! / ⁇ ⁇ group from the language analysis unit 2 in the trigger processing TG01.
  • the wire W1 agent processing unit 6 receives information indicating whether the window is open or not from the window opening / closing control unit 54 in the determination processing CN01. If it is acquired and determined to be open, the process proceeds to the input / output process EX01 (wire W2), which outputs a control signal that instructs the window opening / closing control unit 54 to close the window.
  • the window open / close control unit 54 closes the window, and then proceeds to the determination process QB01.Before performing the input / output process EX01, execute the determination process QBxx to inquire whether or not to close the window. Depending on the response, I / O processing EX01 is executed It may be.
  • the agent processing unit 6 recognizes that the reproduction of the music has been instructed, whether or not the vehicle window is open before proceeding to the processing for instructing the reproduction of the music. Is determined. If it is determined that the sound is open, it is recognized that the sound insulation inside the vehicle is bad and the window opening / closing control unit 55 is instructed to close the window or the sound is heard before the music playback instruction is given. Through the synthesis processing unit 3, the voice output unit 4 is forced to read out a message that prompts the user to close the window. During music playback, the word data that means “increase volume” is high! / If the score is shown, the open / closed state of the window is detected prior to the volume increasing process, and if the window is open, the voice data “Open the window. It may be formed by the processing unit 3 and output by the audio output unit 4.
  • the discrimination process CN01 discriminates that the window is closed, or the input / output process EX01 is terminated. Then, the process moves to the discrimination process QB01 including the question (wire W3, wire W7). Discriminant processing In QB01, the agent processing unit 6 first supplies the voice synthesis processing unit 3 with data representing the sentence “Do you want to play the MD? Do you want to play the CD? The The voice synthesis processing unit 3 reproduces the voice that reads out the sentence via the voice output unit 4.
  • the agent processing unit 6 waits for data representing the word “MD”, the word “CD”, or the word “HDD” to be supplied from the language analysis unit 2.
  • the agent processing unit 6 determines whether the data represents the word “MD”, “CDJ, or“ HDD ”. If it is determined that it represents the word! ⁇ 0, the process proceeds to the input / output process EX03 (wire W5). If it is determined to represent the word “CD”, the process proceeds to the input / output process EX02 (wire W6). If it is determined that it represents “HDD”, the processing is transferred to the input / output processing EX04 (wire W9).
  • agent processing unit 6 In the input / output process EX02, the agent processing unit 6 outputs a control signal instructing the CD device 51 to start playing a CD. Agent processing unit 6 is responsible for I / O processing E
  • the MD device 52 outputs a control signal instructing to start MD reproduction.
  • the agent processing unit 6 outputs a control signal instructing the HDD device 53 to start playback of the HDD.
  • the agent processing unit 6 waits for the data indicating the words "listen to MD” or "play MD” to be supplied from the language analysis unit 2 (trigger processing TG02), and is supplied.
  • the agent processing unit 6 waits for the data indicating the words "listen to CD” or "play CD” to be supplied from the language analysis unit 2 (trigger processing TG03), and supplies the data. Then, control is transferred to input / output processing EX02 (wire W8).
  • the agent processing unit 6 waits for the data indicating the words “listen to HDD” or “play HDD” to be supplied from the language analysis unit 2 (trigger processing TG04). Transfer control to I / O processing EX04 (wire W8).
  • the agent processing unit 6 waits for the word data indicating the word “stop” to be supplied from the language analysis unit 2 and supplies it. Is acquired and handed over to the discrimination process CN02 (wire Wl 1).
  • the agent processing unit 6 determines which of the MD player 52, the CD player 51, and the HDD player 53 is operating. If the agent processing unit 6 determines that “the MD player 52 is operating”, the agent processing unit 6 shifts the processing to the input / output processing EX05 (wire W13). In the input / output process EX05, the MD player 52 outputs a control signal instructing the stop. As a result, the MD player 52 stops operating.
  • the agent processing unit 6 determines in the determination process CN02 that "the CD player 51 is operating"
  • the agent processing unit 6 moves the process to the input / output process EX06 (wire W12).
  • the agent processing unit 6 outputs a control signal for instructing the CD player 51 to stop in the input / output processing EX05. As a result, the CD player 51 stops operating.
  • the agent processing unit 6 determines in the determination process CN02 that “the HDD player 53 is operating and ready”, the process proceeds to the input / output process EX07 (wire W14). In the input / output process EX07, the agent processing unit 6 outputs a control signal instructing the HDD player 53 to stop. As a result, the HDD player 53 stops operating.
  • the agent processing unit 6 waits for the word data indicating the word "noisy" to be supplied from the language analysis unit 2 in the trigger processing TG06, and when it is supplied, obtains this and determines it. Deliver to process CN03 (wire W15).
  • the agent processing unit 6 determines whether or not the misalignment of the MD player 52, the CD player 51, and the HDD player 53 is in a reproducing operation in the determination process CN03. If it is determined that “MD player 52 is playing”, the process proceeds to input / output process EX08 (wire W16). In the input / output process EX08, the MD player 52 outputs a control signal for instructing to lower the volume by a predetermined amount. As a result, the MD player 52 decreases the playback volume.
  • the agent processing unit 6 determines that the "CD player 51 is playing" in the determination process CN03, the agent processing unit 6 moves the process to the input / output process EX09 (wire W17). In the input / output processing EX09, a control signal for reducing the reproduction volume is output to the CD player 51. As a result, the CD player 51 decreases the playback volume.
  • the agent processing unit 6 determines that the “HDD player 53 is playing” in the determination process CN03, the process proceeds to the input / output process EX10 (wire W18). I / O processing EX At 10, a control signal for reducing the playback volume is output to the HDD player 53. As a result, the HDD player 53 reduces the playback volume.
  • the agent processing unit 6 performs the trigger acquisition processing TG07 and TG08 shown in FIG. Is detected, wire W19 or W20 is connected, and control is transferred to input / output processing EX11.
  • the agent processing unit 6 searches the music database D6 by the input / output process EX11. That is, the agent processing unit 6 searches the music name and artist name of the data structure shown in FIG. 3 (a) by using the word (music name or artist name) provided from the language analysis unit 2, and applies the corresponding. If there is something, extract the MD / CD / HDD identification information and track number of the corresponding music.
  • the agent control unit 6 transfers control to the determination process CN04 through the wire W21, and determines whether or not the corresponding music piece has been detected.
  • the agent control section 6 transfers control to the input / output process EX12 through the wire W22 and reproduces the music piece.
  • the target process TG09 it waits for the word “Unbearable”.
  • the wire W24 is picked up and the status of each player 51-53 is checked in the discrimination process CN05 to discriminate whether or not each player 51-53 is performing a reproduction operation. If none of the players 51 to 53 are operating, the process moves to inquiry processing QB11 via wire W25 and the message data “Would you like to turn on the audio?” Output via. ⁇
  • the process moves to the input / output processing EX17 via the wire W31, stops the player currently performing the playback operation, and Start a player (for example, randomly selected).
  • the agent processing unit 6 relates to the vehicle running state from the vehicle position specifying unit 54 in the input / output processing EX14 when a plurality of pieces of music are searched in the discrimination processing CN04 or the like. Capture data to determine vehicle speed. Subsequently, the agent processing unit 6 selects music having a tempo corresponding to the traveling speed of the vehicle in the input / output process EX15, and reproduces the music selected in the input / output process EXxx. As a result, for example, when the vehicle is traveling on a highway, an operation such as selecting and playing a music with a fast tempo becomes possible. [0072] In the example of Fig.
  • the agent processing unit 6 when a plurality of pieces of music are searched, the agent processing unit 6 performs data input / output processing EX16 from the vehicle position specifying unit 54 to data and map information on the vehicle running state. To determine the geographical characteristics of the current location (mountain near the sea, countryside, or whether the vehicle is east, west, south, or north). The agent processing unit 6 searches for music having titles and attribute information that match the geographical features by the input / output processing EX17, and reproduces it by the input / output processing EXxx. As a result, for example, when traveling on a road along the sea, music having attributes associated with this environment is reproduced. This may be related from the image of the performer, etc. Also, the title of the song includes words such as “wave” and “sea”! / You can choose the music you want!
  • the agent processing unit 6 uses the input / output processing EX18 to capture data relating to the current date / time from the clock device 56. Determine current temporal characteristics (spring, summer, autumn, winter, early summer, late autumn, morning, noon, evening, night, etc.).
  • the agent control unit 6 searches the music having the title and attribute information that matches the current temporal characteristics in the input / output process EX19, and plays it in the input / output process EXxx.
  • the agent processing unit 6 takes in the speaker pitch information from the language analysis unit 2 in the input / output processing EX20, and stores the music data. Refer to the user information in the source D6 to identify the user.
  • the agent processing unit 6 identifies the music that matches the speaker's preference based on the identified speaker history information in the input / output processing EX21, and re-executes this in the input / output processing EXxx. To be born.
  • a method of selecting music that matches the taste of the speaker is arbitrary. For example, the genre of the music to be reproduced repeatedly in the past, the artist, the age of the music, etc. may be determined, and the music corresponding to these may be selected.
  • the agent processing unit 6 connects to an external server or the like via the network in response to this, and the music data May be downloaded and added to the music database D6.
  • the agent processing unit 6 also sends information to be notified to the user (Data representing the sales schedule of such products) may be downloaded, and this information may be provided in the form of speech via the speech synthesis processing unit 3 to the speech output unit 4.
  • the music database D 6 does not have a song corresponding to the artist or song name requested by the user, it connects to an external server, etc., downloads the corresponding artist or music, etc. to the song database, and sends the song D 6 You may make it add to. Before starting the download, you may want to output a message asking "Do you want to buy and download it because the desired song is not currently held?"
  • the agent processing unit 6 connects to a server or the like of an external shopping site via the network in response to this, In a state where the product reservation procedure for the corresponding artist is possible, a message prompting reservation of the product may be sent to the audio output unit 4 in the form of speech via the speech synthesis processing unit 3, for example.
  • the agent processing unit 6 performs a plurality of determination processes in parallel, for example, when the language analysis unit 2 supplies a plurality of word data.
  • the agent processing unit 6 has a plurality of processes (for example, data acquisition in the trigger acquisition process and the discrimination process) that target the same word, and the word data representing the corresponding word is the language analysis unit. When supplied from 2, all these processes are performed in parallel.
  • the weighting of the wire W of interest is on the transition path from the current process to the wire W of interest.
  • a transition constant k for determining the traveling direction.
  • the transition constant k for determining each traveling direction is 0.5 for the forward direction and the reverse (return) direction for any of the processes TG101, CN101, and QB101. As for, both are 0.1.
  • the wire is defined as shown in FIG. 16 (b), for example.
  • the agent processing unit 6 uses the trigger process TG101 as a starting point to change the direction of travel.
  • the weight coefficient 3 ⁇ 4J of each of the wires W51 to W55 is calculated, and the calculation result is calculated as the wire W51.
  • the weight balance of the wire W51 is the value of the transition constant k assigned to the node connected to the determination process CN101 of the trigger process TG101, that is, 0.5. Become.
  • the weight balance of the wire W52 becomes a value 0.5 equal to the transition constant k assigned to the node connected to the wire W52.
  • the weight factor 3 ⁇ 4J of W54 is assigned to the node connected to the wire W52 and has a value 0.5 equal to the transition constant k.
  • the product of the transition constant k 0.5, or 0.25.
  • the weighting factors of the wires W53 and W55 are equal to the transition constant k assigned to the nodes connected to the wires W53 and W55, respectively, and the value 0.5 Become.
  • the calculation of the weighting factor J is executed for all the wires of all the flows other than the processing of the related flows, and the calculated weighting factor 3 ⁇ 4J is set for each wire.
  • the transition constant k should be set high to some extent, especially for wires that have the trigger acquisition process as the preceding process. By doing this, it is possible to jump to a conversation whose content is significantly different from that of the conversation that was made just before.
  • the voice input unit 1 and the language analysis unit 2 operate independently to capture and analyze the voice, and provide word data to the agent processing unit 6.
  • the agent processing unit 6 performs the following process when word data (one or more) related to the determination condition is supplied from the language analysis unit 2.
  • step S11 in FIG. 17 The supplied word is recognized (identified) (step S11 in FIG. 17), and it is determined whether or not it corresponds to a word registered in the word database D4 (step S12). If not registered (step S12, No), the word input process is terminated.
  • step S 12 if it is registered (step S 12, Yes), the word likelihood S and the weight of the wire are related to the processing of the word or concept to which the word belongs! Calculate the product of coefficient 3 ⁇ 4J (step S13).
  • the process pointer PP indicates the trigger process TG101 when the flow shown in FIG.
  • the weight meter #J of each wire is as shown in Fig. 16 (c-1).
  • the word “music” is related to the determination condition
  • the word “reproduction” is related to the determination condition
  • the process of inputting the word data indicating the word "music” is the preceding process.
  • the weight coefficient 3 ⁇ 41 of the wire W51 is 0.5, and the word data indicating the word "play” is input.
  • the weighting factor 3 ⁇ 41 of the wire W53 with this processing as the preceding processing is ..25.
  • the product of the likelihood (score) S and the weighting factor required for the wires W51 and W53 is as shown in Equations 1 and 2.
  • the agent processing unit 6 performs the above-described processing for obtaining the product of the likelihood (score) S of each word and the weighting factor J for all the wires included in the flow.
  • the agent control unit 6 selects the calculated tree'S force S having the largest wire (FIG. 17, step S14).
  • the agent control unit 6 advances the control to the process subsequent to the selected wire (step S15). For example, if the product obtained for the wire W51 shows the highest value, the input word data is recognized as indicating the word “music”, and the process transitions to the discrimination process CN101 that the wire W51 is the subsequent process. To do.
  • the wire weighting factor is relatively large. For this reason, in general
  • the process proceeds to the next process.
  • the process corresponding to the word may be started.
  • the agent processing unit 6 recalculates the weighting factor of each wire based on the state after the transition (step S 16).
  • the process proceeds according to the content of the process (step S17).
  • the discrimination process CN101 is executed. That is, the agent processing unit 6 takes in the information about the opening / closing of the window from the window opening / closing control unit 55, obtains the product of the likelihood S and the weighting factor for the wires W52 and W54 based on the fetched information, and calculates the likelihood for the wire W24. ⁇ 'S of degree S and weighting unit U is obtained, one of the wires W is selected, and the processing following the selected wire W is executed.
  • the signal indicating the opening / closing of the window from the window opening / closing control unit 54 may have a likelihood of opening of 100% or 0% and a likelihood of closing of 0% or 100%. You may do it.
  • a transition in the return direction can also occur.
  • the transition constant k in the return direction may be set to a lower value than the transition constant k in the traveling direction.
  • the product obtained for the wire written with the transition constant k in the return direction as a weighting factor is a low value. The possibility of transition can be kept low.
  • the agent processing unit 6 excludes a process in which the obtained product value does not meet the predetermined condition (for example, a process in which the product value does not reach the predetermined value) from the target for executing the transition. You can handle it like this.
  • a wire defines a transition in the form of a process item force process item. Then, by describing the wire in the form as shown in Fig. 8 and storing it in the wire database D5, the relationship between each processing item can be defined as the power ⁇ computer macro processing. Is possible. As a result, each processing item can be easily connected.
  • the processing item serving as a trigger is actually a score determination of a recognition target word or the like (which may be input from another input target device group) related to the connected wire.
  • the trigger processing item is not defined as the starting point of the wire, but the wire itself is defined as the transition source.
  • a wire can be easily added. For example, if there are many opportunities for the user to enter a voice saying “Find a family restaurant” with the intention of taking a break after the voice input “Hot”, a wire is automatically connected to the search processing item of the family restaurant. to add. Then, after the wire is automatically added, the transition constant k of the wire connected to the family restaurant search processing item is increased to some extent, so that the input “family restaurant” is increased. It will be possible to respond appropriately to “Search for (However, in this case, the agent processing unit 6 stores, for example, map data including information indicating the location of the family restaurant, or accesses external map data.)
  • This automatic addition of wires may be performed automatically by counting the number of jumps from a certain process item to a certain process item and when this reaches a predetermined number of times.
  • the agent processing unit 6 has a function of updating the contents of the processing item database D4 and the wire database D5 to new processing item data and wires supplied from the outside. Specifically, for example, when the content of an external server that stores processing item data and / or wires is updated, the processing unit data and / or wires are updated to the agent processing unit 6 via the network. Notify that there is. Then, in response to this notification, the agent processing unit 6 accesses this server via the network and downloads new processing item data and data or wire. Then, it is stored in its own processing item database D4 or wire database D5! / Old, old! /, Processing item data and Z or wire to new processing item data and Z or wire downloaded. Update.
  • the agent processing unit 6 may access an external server and download it if the database is updated! /.
  • Fig. 18 shows a configuration example of the external server.
  • This external server 100 is for distributing word data, processing item data and / or wire data to the agent processing units 6 of a plurality of vehicles via a communication network.
  • the external server 100 includes a control unit 110, a communication control unit 120, a word It consists of database 130, processing item database 140, wire base 150, manpower section 160, output section 170, force.
  • the control unit 110 is constituted by, for example, a CPU (Central Processing Unit) and the like, and controls each unit of the distribution server 100 and executes each process described later by executing a predetermined program. Realize.
  • a CPU Central Processing Unit
  • the communication control unit 120 includes a communication device such as a modem and a router, for example, and controls communication between the distribution server 100 and the vehicle agent processing unit 6 (communication control unit) via the network.
  • a communication device such as a modem and a router, for example, and controls communication between the distribution server 100 and the vehicle agent processing unit 6 (communication control unit) via the network.
  • 'Network configuration is arbitrary. For example, a dedicated line, a public line network, a cable television (CATV) network, a wireless communication network, a cable broadcasting network, and the like can be employed.
  • CATV cable television
  • the word database 130 is composed of a rewritable storage device such as a hard disk device, for example, and stores word data distributed by the distribution server 100 together with version information (eg, time stamp).
  • version information eg, time stamp
  • the processing item database 140 is composed of, for example, a rewritable storage device such as a hard disk device, and stores processing item data to be distributed together with version information (for example, a time stamp).
  • the wire database 150 is composed of a rewritable storage device such as a hard disk device, for example, and stores wire data to be distributed together with version information (for example, a time stamp).
  • the administrator of the distribution server 100 operates the input unit 160 as appropriate to update the information in each of the databases 130 to 150.
  • the agent processing unit 6 of each vehicle When the agent processing unit 6 of each vehicle receives the update notification from the distribution server 100 via the communication control unit (CCU) 64, for example, it starts the processing of FIG. 19 (a) and establishes a session ( In step S21), the updated data is downloaded and its own database is updated (step S22).
  • the agent processing unit 6 of each vehicle establishes a session by accessing the distribution server 100 via the communication control unit (CCU) 64 periodically or appropriately (step S31), and version information ( Update date, etc.) (step S32). Then, the versions of both data are compared (step S33), and newer data than the data stored in the memory is downloaded and set in its own database (step S34).
  • the data of all the vehicle control systems that can use the distribution server 100 can be updated as appropriate by simply updating the information recorded in the distribution server 100.
  • the timing at which the agent processing unit 6 downloads data from the distribution server 100 is not limited to the example described above, and is arbitrary. For example, when the processing item corresponding to the user request and the node or wire are not stored, This may be detected and the distribution server loo may be accessed via the network to download new process item data and Z or wire.
  • the agent processing unit 6 in the present invention has a function of automatically generating a new wire, and sets the relationship of the wire to the downloaded new processing item and the existing processing item.
  • the program describing this may be downloaded together.
  • the audio system described above does not necessarily need to completely specify the device to be controlled and the content of the control to be applied if the data and wires indicating the content of the processing are appropriately described.
  • the user's desire is estimated from this language, and what kind of control should be assigned to which device in order to satisfy this desire Control according to the result can be applied to the device.
  • the configuration of the car audio system is not limited to that described above.
  • the devices belonging to the input / output target device group 5 do not necessarily have to directly satisfy the user's desire.
  • an external display device is controlled to take a specific action to the user. It may consist of a device that outputs a message prompting the user (for example, a display device such as a liquid crystal display).
  • the word database may store not only data indicating words, but also data indicating phrases composed of a plurality of words as elements of the word database.
  • data indicating a phoneme may be stored as an element of the word database.
  • the data used for grouping does not necessarily have to take the form of a set of flags. .
  • the agent processing unit 6 changes the transition constant k described in the wire in accordance with a predetermined criterion based on the number of transitions represented by the wire in the past, and the transition constant coefficient k is changed.
  • the transition constant k assigned to the wire (the node that is the starting point of the wire) may be rewritten so that the value becomes.
  • the agent processing unit 6 rewrites the value of the number of times, thereby incrementing the value of the number of times by 1, and sets the transition constant k described in each wire to, for example, Rewrite the value proportional to the number of times stored for the wire.
  • the agent processing unit 6 changes the data output in the discrimination process and the input / output process according to the data handed over to these processes, the data input accompanying these processes, and other arbitrary conditions. You may make it make it.
  • the car audio system may include a display device (for example, a liquid crystal display) for outputting an image according to the control of the agent processing unit 6.
  • the agent processing unit 6 may include an input / output process. In the discrimination process, the display device may be controlled so that a predetermined image is displayed for each process.
  • the agent processing unit 6 may collectively acquire a plurality of word data uttered continuously in one input process or one discrimination process.
  • the agent processing unit 6 identifies under which concept the plurality of word data acquired in a batch is grouped in the same group, and the identified concept matches the predetermined concept. Only in some cases, some or all of the acquired word data may be used for processing.
  • the agent processing unit 6 shares a plurality of processes such as a trigger acquisition process, a determination process, and an input / output process, and a flow formed as a whole, and a plurality of mutually connected processes.
  • You may comprise from a data processor (for example, computer etc.).
  • each data processing device constituting the analysis processing unit 3 uses the processing item database to represent data representing a portion that the analysis processing unit 3 may execute among the entire flow that can be executed by the analysis processing unit 3. Or as a wire database element. Then, if the data stored in each data processing device becomes data that defines a macro process for the processing executed by the data processing device, distributed processing is performed on a plurality of data processing devices. It is easy to do.
  • This car audio system also includes a plurality of voice input units 1, language analysis units 2, or voice output units 4! /, Teyore.
  • the audio input unit 1 reads out a waveform signal from the force of a recording medium (for example, a floppy (registered trademark) disk, CD, MO (Magneto-Optical Disk), etc.) on which data representing audio is recorded.
  • a recording medium for example, a floppy (registered trademark) disk, CD, MO (Magneto-Optical Disk), etc.
  • a recording medium drive device for example, a floppy (registered trademark) disk drive, a CD-ROM drive, an MO drive, etc.
  • the language analysis unit 2 identifies the speaker (or the gender of the speaker) of the voice represented by the voice data supplied from the voice input unit 1 by any method, and shows the identified speaker.
  • the employee data may be supplied to the agent processing unit 3.
  • every time the agent processing unit 3 gives an instruction to play a song for example, the history data indicating that the song to be played has been played for the speaker indicated by the speaker data in the song database. (Alternatively, data indicating the number of times the music has been played for the speaker may be stored as history data, and the history data may be incremented by one. ). And when selecting the music to reproduce, you may make it select a music based on such historical data.
  • the audio device control apparatus can be realized using a normal computer system, not a dedicated system.
  • the speech input unit 1, the language analysis unit 2, the speech synthesis processing unit 3, the speech output unit 4 and the personal computer connected to the input / output target device group 5 and the communication control device By installing the program from a recording medium storing a program for executing the operation of the agent processing unit 6, a car audio system that executes the above-described processing can be configured. It is assumed that the personal computer executing this program executes, for example, the flow shown in FIG. 16 as a process corresponding to the operation of the car audio system shown in FIG.
  • a program for causing a personal computer to perform the functions of the above-described car audio system may be uploaded to a bulletin board (BBS) on a communication line and distributed via the communication line.
  • the carrier wave may be modulated by a signal representing a program, the obtained modulated wave may be transmitted, and a device that has received the modulated wave may demodulate the modulated wave to restore the program.
  • the above-described processing can be executed by starting this program and executing it under the control of the OS in the same manner as other application programs.
  • the recording medium is a program excluding the part. May be stored. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.

Description

明 細 書
オーディオ機器制御装置、オーディオ機器制御方法及びプログラム 技術分野
[0001] この発明は、オーディオ機器制御装置、オーディオ機器制御方法、データ出力装 置及びプログラムに関する。
背景技術
[0002] 近年、音声認識の技術を用レヽて音声を認識し、認識結果に応答して電気機器など を制御する手法が用いられている。この手法は、具体的には、入力した音声が表す 単語を識別し、識別された単語が所定のキーワードに合致するか否かを判別して、 判別結果に基づいて外部の機器を制御するものである。このような手法は、例えばォ 一ディォ機器の制御にも用いられている (例えば、特許文献 1及び特許文献 2参照) 特許文献 1 :特開平 4— 324312号公報
特許文献 2 :特開 2002— 182688号公報
発明の開示
発明が解決しょうとする課題
[0003] しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため 、上述の手法では、人間が言語の形で発する指示に適切に応答することができない 場合があった。
[0004] この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示 に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御 方法及びプログラムを提供することを目的とする。
課題を解決するための手段
[0005] 上記目的を達成するため、この発明の第 1の観点に力かるオーディオ機器制御装 置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、 制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作 状態情報取得手段と、
前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該ォ 一ディォ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報 とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操 作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ 機器制御手段と、を備える、
ことを特徴とする。 '
[0006] また、この発明の第 2の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候捕と、外部のオーディオ機器が使用される環境の 状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状 態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と 、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し 、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手 段と、を備える、
ことを特徴とする。
[0007] また、この発明の第 3の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定手段と、
前記音声認識手段が特定した候捕と、前記発話者特定手段が特定した発話者又 は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境デ 一タ及ぴ /又は当該オーディオ機器の動作状態を示す動作状態データとに基づき 、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を 実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を 加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、 ことを特徴とする。
[0008] 前記環境データは、例えば、前記オーディオ機器が使用される環境の現在位置を 示すデータからなっている。
[0009] 前記環境データは、例えば、前記オーディオ機器が使用される環境の遮音状況を 示すデータからなっている。
[0010] また、この発明の第 4の観点に力かるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、 前記音声認識ステップで特定された候捕に基づき、前記音声の発話者が欲する当 該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づ き、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定 し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御 ステップと、より構成される、
ことを特徴とする。
[0011] また、この発明の第 5の観点に力かるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、 '
前記音声認識ステップで特定された侯捕と、外部のオーディオ機器が使用される 環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動 作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用 + 態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを 特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器 制御ステップと、より構成される、
ことを特徴とする。
[0012] また、この発明の第 6の観点に力かるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定ステップと、
前記音声認識ステップで特定された候捕と、前記発話者特定ステップで特定され た発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を 示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データ とに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利 用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定し た操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、 より構成される、
ことを特徴とする。
[0013] また、この発明の第 7の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、 前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当 該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づ き、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定 し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御 ステップと、を実行させる ことを特徴とする。
[0014] また、この発明の第 8の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候捕を特定する音声認識ステップと、
前記音声認識ステップで特定された候捕と、外部のオーディオ機器が使用される 環境の状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動 作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用 態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを 特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器 制御ステップと、
を実行させることを特徴とする。
[0015] また、この発明の第 9の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定ステップと、
前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された 発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示 す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データと に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用 態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した 操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、 を実行させる。
発明の効果
[0016] この発明によれば、人間が言語の形で努する指示に適切に応答して機器を制御で きるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムが実現され る。
図面の簡単な説明
[0017] [図 1]この発明の実施の形態に係るオーディオ機器制御システムを示す図である。
[図 2]この実施の形態に係るオーディオ機器制御システムのより詳細な構成図である
[図 3]楽曲データベースのデータ構成の例を示す図である。
[図 4]単語データベースの具体例を模式的に示す図である。
[図 5]トリガ取得処理を説明するための図である。 [図 6]判別処理を説明するための図である。
[図 7]間い合わせ付きの判別処理を説明するための図である。
[図 8]入出力処理を説明するための図である。
[図 9]ワイヤの例を示す図である。
[図 10]処理項目データベース及びワイヤデータベースが全体として表しているフロー を示す図である。
[図 11]処理項目データベース及ぴワイヤデータベースが全体として表してレ、るフロー を示す図である。
[図 12]処理項目データベース及びワイヤデータベースが全体として表しているフロー を示す図である。
[図 13]処理項目データベース及びワイヤデータベースが全体として表して!/、るフロー を示す図である。
[図 14]処理項目データベース及びワイヤデータベースが全体として表しているフロー を示す図である。
[図 15]処理項目データベース及びワイヤデータベースが全体として表して!/、るフロー を示す図である。
[図 16]各ワイヤに設定される重み係 ¾Jを説明するための図である。
[図 17]エージェント処理部の動作を説明するためのフローチャートである。
[図 18]外部サーバ (配信サーバ)の構成と、ネットワーク構成とを示す図である。
[図 19]ダウンロード処理を説明するためのフローチャートである。
符号の説明
1 音声入力部
2 言語解析部
3 音声合成処理部
4 音声出力部
5 入出力対象機器群
51 CDプレーヤ
52 MDプレーヤ 53 HDDプレーヤ
54 車両位置特定部
55 窓開閉制御部
56 クロック
6 エージェント処理部
発明を実施するための最良の形態
[0019] 以下、図面を参照して、この発明の実施の形態を、車両内に設置されたオーディオ 機器制御システムを例として説明する。
図 1は、このオーディオ機器制御システムの構成を示すプロック図である。また、図 2は、各部の物理的な構成の例を示すプロック図である。
図 1に示すように、このオーディオ機器制御システムは、音声入力部 1と、言語解析 部 2と、音声合成処理部 3と、音声出力部 4と、入出力対象機器群 5と、エージェント 処理部 6とより構成されている。
[0020] 音声入力部 1は、音声を入力し、入力した音声力 デジタル形式の音声データを生 成し、この音声データを言語解析部 2へと供給する。具体的には、音声入力部 1は、 図 2に示すように、例えば、マイクロフォン 11と、 AF (Audio Frequency)増幅器 12と、 サンプルホールド回路を内蔵する AZD (Analog-to-Digital)コンバータ 13などより構 成されている。マイクロフォン 11は音声を音声信号に変換して出力する。 AF増幅器 12は、マイクロフォン 11からの音声信号を増幅して出力する。 A/Dコンバータ 13は 、 AF増幅器 12からの増幅された音声信号をサンプリング、 A/D変換することにより 、デジタル音声データを生成し、言語解析部 2へと供給する。
[0021] 言語解析部 2と音声合成処理部 3とエージェント処理部 6とは、図 2に示すように、そ れぞれ、例えば、 CPU (Central Processing Unit)等からなるプロセッサ 21、 31、 61と 、このプロセッサ 21、 31、 61が実行するプログラムを記憶するハードディスク装置等 の不揮発性メモリ 22、 32、 62と、プロセッサのワークエリアとなる記憶領域を有する R AM (Random Access Memory)等の揮発性メモリ 23、 33、 63とより構成されている。 なお、言語解析部 2、音声合成処理部 3及ぴエージェント処理部 6の一部又は全部 の機能を 1つのプロセッサや 1つの不揮発性メモリや 1つの揮発性メモリで構成しても よい。
[0022] 言語解析部 2は、音声入力部 1より供給された音声データに音声認識処理を行う。
言語解析部 2は、音声認識処理により、音声データが表している単語の候捕と、この 候補の尤度 (スコア)とを特定する。音声露識の手法は任意である。また、単語の候 捕は複数特定されてよい。言語解析部 2は、特定した候補とその候補のスコアとを示 すデータ (以下、単語データと呼ぶ)を生成し、エージェント処理部 6へと供給する。
[0023] 音声合成処理部 3の不揮発性メモリ 32は、単語の波形を表すデータを記憶する音 片データベース D1と、音素を構成するための波形を表すデータを記憶する素片デ ータベース D2とを記憶する。
[0024] 音片データベース D1は、単語の波形を表すデータを記憶する。素片データベース D2は、音素を構成すための波形を表すデータを記憶する。音声合成処理部 3は、音 片データベース Di及び//又は素片データベース D2に格納されているデータを用 いて、エージェント処理部 6より供給された文章データを読み上げる音声を表すデジ タル音声データを生成する。
[0025] 音声合成部 3は、生成した音声データを音声出力部 4に供給する。
デジタル音声データを生成する手法は任意であるが、例えば、録音編集方式や規則 合成方式 (Rule- based synthesis)を使用できる。なお、録音編集方式は、例えば、単 語単位の音声を予めアナウンサーに読んでもらい、それらをつなぎあわせて出力す る方式である。また、規則合成方式は、音韻 (子音や母音)や仮名のような比較的小 さな単位をつなぎあわせて出力する方式である。
[0026] 音声出力部 4は、音声合成処理部 3から供給されたデジタル音声データが表す音 声を再生する。より詳細には、音声出力部 4は、図 2に示すように、 D/A(
Digital-to-Analog)コンバータ 41、 AF増幅器 42及ぴスピーカ 43を備える。
D/Aコンバータ 41は、音声合成処理部 3より供給されたデジタル音声データを A変換して、アナログ音声信号に変換する。 AF増幅器 42は、アナログ音声信号を増 幅する。スピーカ 43は、アナログ音声信号に従って振動し、アナログ音声データが表 す音声を再生し、放音する。
[0027] 入出力対象機器群 5は、例えば、 CD (Compact Disc)プレーヤ 51、 MD (Mini Disc )プレーヤ 52、 HDD (ノヽードディスクドライプ)プレーヤ 53、車両位置特定部 54、窓 開閉制御部 55や、クロック装置 56、などを含む。
[0028] CDプレーヤ 51は、自己に装着された CDに記録された音声データが表す音声の 再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、 CDの排出、等 の動作を、エージェント処理部 6が供給する制御信号に従って行う。
MDプレーヤ 52は、自己に装着された MDに記録された音声データが表す音声の 再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、 CDの排出、等 の動作を、エージェント処理部 6が供給する制御信号に従って行う。
HDDプレーヤ 53は、不揮発性の磁気ディスクであり、音声データの記憶、音声デ ータが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一 7火停 止、等の動作を、エージェント処理部 6が供給する制御信号に従って行う。
[0029] 車両位置特定部 54は、 GPS (Global Positioning System)の移動局を用レ、た公知 のカーナビゲーシヨンシステムなどより構成されている。車両位置特定部 54は、例え ば、エージェント処理部 6が供給する制御信号に従って車両の現在位置を検知し、 検知した現在位置が地図上でどの位置に当たる力 表すデータを生成して、エージ ェント処理部 6に供給する。
[0030] 窓開閉制御部 55は、モータや、制御信号に従ってモータの回転及ぴ停止を制御 する制御回路や、モータの回転に従って車両の窓ガラスを動かすためのウィンチ等 力も構成されている。窓開閉制御部 55は、自己に供給される制御信号に従って、車 両の窓の開閉を行う。また、窓開閉制御部 55の制御回路は、窓開閉制御部 55の動 作状態を表すデータとして、例えば、開閉する対象の窓が開いている量を示すデー タを生成して出力する。
[0031] クロック装置 56は、例えば水晶発振器やカウンタ回路等より構成されておいる。クロ ック装置 56は、現在の時刻を示すデータを連続的に生成し、エージェント処理部 6に 供給する。尚、クロック装置 56は、カーナビゲーシヨンシステムを介して GPS力 得ら れる時刻情報を用いてもよい。
[0032] エージェント処理部 6は、モデムやパケット通信端末等力 なる通信制御装置 64を 備え、この通信制御装置を介して外部のネットワーク (例えば、無線電話回線を介し たインターネット)を介して後述する配信サーバ 100に接続している。
[0033] また、エージェント処理部 6の不揮発性メモリ 62は、更に、楽曲データベース D6を記 憶する。楽曲データベース D6は、楽曲の曲名と、この楽曲を実演するアーティストの アーティスト名と、この楽曲が記録されている CD、 MD、及び/又は MDD53と、当 該 CD、 MD及び/又は HDD53でこの楽曲が記録されているトラックの番号と、を互 V、に対応付けて格納するデータベースである。
[0034] 具体的には、楽曲データベース D6は、図 3 (a)に示すように、楽曲の曲名と、この 楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されている CD、 MD 及ぴ Z又は HDD53の ID (識別情報)と、当該 CD、 MD及び Z又は HDDでこの楽 曲が記録されているトラックの番号と、その楽曲のテンポ、その楽曲に関する種々の 属性情報 (例えば、その曲の雰囲気が適した季節、時間帯、地理的位置などの情報 力 S)が互いに対応付けて格納する。
[0035] また、楽曲データベース D6は、図 3 (b)に示すように、ユーザを特定するユーザ情 報と楽曲の再生履歴を示す再生履歴情報を対応付けて記憶する。ユーザ情報は、 ユーザ個人を特定できる情報である必要はな V、が、ユーザを区別できる情報である。 ユーザ情報は、例えば、各ユーザの音声波形の基本ピッチの形状を示す基本ピッチ 情報から構成され、音声入力部 1で取得され、言語解析部 2から単語データに付随し て提供される。再生履歴情報は、楽曲を特定する情報と、その楽曲を再生したことを 示す情報、その楽曲の再生をリピートしたことを示す情報、その楽曲の再生を途中で 停止したことを示す情報、その楽曲の途中で「うるさい」などの否定的な感想を述べた ことの履歴情報等を含む。これらの情報を分析することにより、ユーザの嗜好 (好きな 楽曲、嫌いな楽曲)を判別することができる。
[0036] エージェント処理部 6の不揮発性メモリ 62は、単語データベース D3を記憶する。単 語データベース D3は、複数の単語のデータと、複数の単語のグルーピングを示すた めの単語グルーピング用のフラグとを、互いに対応付けて格納する。
[0037] 1個の単語に対応付けられているフラグは、ある概念に対応付けられてグルーピン グされている。そして、フラグが所定の値 (以下では、 "1")を示す場合は、このフラグ に対応付けられた単語が、このフラグに対応付けられたグループに所属されている。 一方、このフラグが他の値 (例えば" 0")を示す場合は、この単語は、そのフラグに対 応付けられたグループには所属してレ、なレ、。
[0038] 図 4は、グルーピング用のフラグの具体例を模式的に示す図である。図 4に示すよう に、複数の単語 (図 3では「再生」、「聞きたい」、「停止」、「つまらない」、「昨日」、「越 天楽」、「津軽じょんがら節」、「久米利佳」)に、単語グルーピング用のフラグ (ビット) が所定数ずつ対応付けられている。また、いずれの単語に対応付けられたフラグ群 についても、その最上位のフラグが「再生」という概念に対応付けられており、上位か ら 2ビット目のフラグが「感想」という概念に对応付けられており、上位から 3ビット目の フラグが「否定」とレ、う概念に、上位力 4ビット目のフラグが「楽曲名」とレ、う概念に、 上位から 5ビット目のフラグが「アーティスト」という概念に対応付けられている。
[0039] —方、図示するように、単語「再生」に対応付けられている上位 5ビットのフラグ群の 値が 2進数" 10000"であり、単語「聞きたい」に対応付けられている上位 5ビットのフ ラグ群の値が 2進数" 11000"であり、単語「停止」に対応付けられているフラグ群の 値が 2進数" 00100"であり、単語「つまらない Jに対応付けられているフラグ群の値が 2進数" 01100"であり、単語「昨曰」に対応付けられているフラグ群の値が 2進数" 00 000"であり、単語「越天楽」と「津軽じょんがら節」に対応付けられているフラグ群の 値が 2進数" 00010"であり、単語「久米利佳」に対応付けられているフラグ群の値が 2進数" 00001 "である。
[0040] この場合、このフラグ群は、概念「再生」の下には単語「再生」と「聞きたい」がグルー ビングされており、概念「感想」の下には単語「聞きたい」及び「つまらなレ、」がグルー ビングされており、概念「否定」の下には単語「停止」及び「つまらない」がグルーピン グされており、概念「楽曲名」の下には単語「越天楽」及び「津軽じょんがら節」がダル 一ビングされており、概念「アーティスト」の下には単語「久米利佳」がグルーピングさ れていることを示す。
また、単語「昨日」のように、いずれの概念にも属さないものがあってもよい。 なお、各単語及ぴ各概念は、例えば、処理項目データベース D4に格納されている 各処理項目の「トリガ」、「判別条件」等として使用される。
[0041] エージェント処理部 6の不揮発性メモリ 62は、更に、処理項目データベース D4及 びワイヤデータベース D5を記憶してレ、る。
[0042] 処理項目データベース D4は、エージェント処理部 6が実行する様々な処理、例え ば、トリガ取得処理 (TGxx)、判別処理 (CNxx又は QBxx)及び入出力処理 (後述 する EXxx)の内容を、処理項目(ポインタ)毎に記述するデータ(処理項目データ)を 格納したデータベースである。なお、「XX」は識別番号である。
[0043] 処理項目データベース D4に格納される処理項目のうち、「トリガ取得処理 (TGxx) Jの内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデー タ(トリガとして取得するデータの内容を指定するデータ)と、後述する進行方向決定 用の遷移定数 k (その進行方向に遷移する程度を示すもので、後述する重み係 ¾Jの 算出基準となる定数)とを含む。
トリガデータは任意であり、例えば、窓が開いている量を示すデータや、室内の温 度を示すデータや、言語解析部 2より供給される上述の単語データである。トリガデ ータは、エージェント処理部 6自身が行う処理から引き渡されるデータであってもよい 。トリガデータが単語データである場合は、当該単語データが表す単語が属すダル 一ビングに割り当てられている「概念」を示すデータでもよい。ただし、トリガ取得処理 の内容は、例えば、複数のトリガ取得処理が互いに同一の単語を表す単語データを 取得することがないように記述されるものとする。
[0044] 図 5 (a)にトリガ取得処理 TGxxの例を示す。この例では、トリガ TG01は、トリガとし ての概念「再生」を取得する (概念「再生」にグルーピングされてレ、る単語 (図 3の例で は、単語「再生」又は「聞きたい」)を識別する)処理であり、その処理に後続する処理 に進む (遷移する)か否かを決定するための遷移定数 kは 0. 8である。図 5 (b)には、 トリガ取得処理 TG01のフローチャートを示す。
トリガ取得処理 TG02は単語「MD」を取得する処理である。トリガ取得処理 TG03 は概念「否定」に対応するグループに属す単語を取得する(図 3では、「停止」、「つま らな!/、」の!/、ずれかを取得する)処理である。
[0045] 処理項目データベース D4に格納されている「判別処理 (CNxx)」の内容を記述す るデータは、判別条件と、判別結果としてとり得る結果のリストと、その判別結果を取 つた場合の処理の進行方向を決定するための遷移定数 kと、後述する戻り方向の遷 移定数 kとを、判別処理別に記述したデータを含む。
[0046] 図 6 (a)に判別処理 CNxxの例を示す。この例では、判別処理 CN01は「窓が開!/ヽ ているか否かを判別する処理」であり、開いていると判別したときに、それに後続する 処理に進むか否かを決定するための遷移定数 kが 0. 5、開いていないと判別したとき にそれに後続する処理に進むか否かを決定するため遷移定数 kが 0. 5である。この 例のフローチャートを図 6 (b)に示す。図 6 (b)に示すノード CN01. 1は、処理の開始 点を示す始点ノード、ノード CN01. 2は、窓が閉じていると判別したときの進行方向 のノードであり、その遷移定数 kは 0. 5である。さらに、ノード CN01. 3は、窓が開い ていると判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。また、 判別処理 CN02は、 MDプレーヤ 52と、 CDプレーヤ 51と、 HDD53のいずれが動 作中かを判別する処理であり、動作中であると判別したときに後続する処理に進むか 否力 決定するための遷移定数 kがそれぞれ 0. 5である。
[0047] 「判別処理 jは、判別に用いるデータを任意の取得源から取得する処理を含んでも よい。取得源としては、例えば、言語解析部 2や、エージェント処理部 6が実行する他 の処理や、入出力対象機器群 5に属する機器や、その他外部の機器 'センサなどが 考えられる。この場合、判別処理の内容を記述するデータは、例えば、判別に用いる データの取得源を指定するデータを含む。
[0048] また、「判別処理」は、所定のデータを、判別に先立って所定の出力先に出力して、 出力に対する応答を取得する処理を含んでもよ!/ヽ (この場合は、処理を示す記号を QBxxとする)。この種の判別処理としては、例えば、所定の質問を表すデータを、判 別に先立って音声合成処理部 3に引き渡し、その後、言語解析部 2からの入力を待 機する処理がある。判別処理 QBxxにおいて、判別に先立って所定のデータを出力 する場合、処理の内容を記述するデータは、例えば、出力するデータの内容と、この データの出力先とを指定するデータを含む。
[0049] . 図 7 (a)に判別処理 QBxxの例を示す。この例では、例えば、判別処理 QB01は、「 MDを再生しますか? CDを再生しますか? HDDを再生しますか?」と利用者に問 い合わせ、その応答(利用者の回答)が「MD」であったときの遷移定数 kが 0. 5、「C D」であったときの遷移定数 kが 0. 5、「HDD」であったときの遷移定数 kが 0. 5であ る。この例のフロ一チャートを図 7 (b)に示す。図 7 (b)に示すノード QB01. 1は、処 理の開始点を示す始点ノード、ノード QB01. 2は、問い合わせに対して、「CD」を再 生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数 kは 0. 7である。また、ノード QB01. 3は、「MD」を再生することが指定されたことを 判別したときの進行方向のノードであり、その遷移定数 kは 0. 5である。さらに、ノード QB01. 4は、「HDD」を再生することが指定されたことを判別したときの進行方向の ノードであり、その遷移定数 kは 0. 5である。
[0050] 処理項目データベース D4に格納されている「入出力処理」の内容を記述するデー タは、入力あるいは出力するデータの内容を指定するデータ力 構成されている。入 力データ及び出力データは任意の内容を有していてよい。例えば、出力データは、 音声合成処理部 3を介して音声出力部 4に発生させる音声の読みを表すデータや外 部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の 機器力 供給されるデータであってもよい。
図 8 (a)に入出力処理 EXxxの例を示す。この例では、例えば、入出力処理 EX01 は、「窓を閉める」という動作であり、動作後の処理を行う進行方向の遷移定数 kが 0. 8である。この例のフローチャートを図 8 (b)に示す。図 8 (b)に示すノード EX01. 1は 、処理の開始点を示す始点ノード、ノード EX01. 2は、処理の終了を示すノードであ り、遷移定数 kは 0. 8である。なお、入出力処理 EXxxについては、遷移定数 kの設 定などを行わずに、処理の終了を示すノードの選択を必須処理としてもよい。
[0051] ワイヤデータベース D5は、複数の処理 (TG、 CNxx、 QBxx、 EXxx)間の遷移を 記述するデータ (以下、このデータをワイヤと呼ぶ)の集合力 構成されている。ワイ ャは、例えば図 9に示すような書式で記述されたデータ力 構成されている。ワイヤ W n (Wl、 W2...)は図示するように、先行する処理 X (From (X))から後続する処理 Y (To(Y))への遷移 (From (X) To (Y))について、当該先行の処理 (X)と、当該後続の 処理 (Y)と、当該遷移に対して与えられた重み係 ¾ [と、を指定するデータである。な お、先行の処理 Xが判別処理である場合は、当該判別処理のどの判別結果からの遷 移である力 まで記述される必要がある。
また、遷移元処理 Xと遷移先 Yは、それぞれ、各処理のノード番号で特定される。 各ワイヤの重み係 ¾Iは、固定値ではなぐ処理の進行に応じて、適宜計算され、設 定されるものである。ワイヤの重み係 ¾Jの計算は図 15を参照して後述する。
[0052] エージェント処理部 6は、処理項目データベース D4及ぴワイヤデータベース D5が 全体として表しているフローを実行する。処理項目データベース D4及ぴワイヤデー タベース D5は、例えば、図 4〜図 9の例に基づくと、全体として図 10〜図 13に示す ような処理フローを記述することができる。
[0053] 図 10に示すフローにおいては、エージェント処理部 6は、トリガ処理 TG01では、概 念「再生」と!/ヽぅグループに属す単語を示す単語データを言語解析部 2より供給され るのを待機して、供給されるとこれを取得して判別処理 CN01に引き渡す (ワイヤ W1 エージェント処理部 6は、判別処理 CN01では、窓が開いているか否かを示す情報 を窓開閉制御部 54より取得し、開いていると判別すると入出力処理 EX01に処理を 移す(ワイヤ W2)。入出力処理 EX01では、窓開閉制御部 54に、窓を閉めることを指 示する制御信号を出力する。この結果、窓開閉制御部 54は窓を閉める。その後、判 別処理 QB01に進む。なお、入出力処理 EX01を行う前に、窓を閉めるか否かを問 い合わせる判別処理 QBxxを実行して、その応答に応じて入出力処理 EX01を実行 するようにしてもよい。
[0054] 即ち、この例では、エージェント処理部 6 、楽曲の再生が指示されたことを認識し た場合は、楽曲の再生を指示する処理に移る前に、車両の窓が開いているか否かを 判別する。そして、開いていると判別した場合は、楽曲の再生の指示を行う前に、車 内の遮音状況が悪いことを認識して、窓開閉制御部 55に窓を閉めるよう指示するか 、あるいは音声合成処理部 3を介して音声出力部 4に、窓を閉めるよう促すメッセージ を読み上げる音声を努生させる。なお、楽曲の再生中に、「ボリュームを上げて」とい う意味を示す単語データが高!/、スコアを示す場合、ボリュームの上昇処理に先立つ て窓の開閉状態を検出し、窓が開いていれば「窓が開いてレ、るよ。窓を閉める?」と いう音声データを音声合成処理部 3で形成し、音声出力部 4で出力させるようにして あよい。
[0055] 判別処理 CN01で「窓が閉じている」と判別すると、又は入出力処理 EX01を終了 すると、質問を含む判別処理 QB01に処理を移す(ワイヤ W3、ワイヤ W7)。判別処 理 QB01でエージェント処理部 6は、まず、「MDを再生しますか? CDを再生します か? HDDを再生しますか?」という文章を表すデータを音声合成処理部 3に供給す る。音声合成処理部 3は、音声出力部 4を介して、この文章を読み上げる音声を再生 させる。
[0056] 続いて、エージェント処理部 6は、言語解析部 2から、単語「MD」、単語「CD」又は 単語「HDD」を表すデータが供給されるのを待機する。エージェント処理部 6は、該 当する単語データが供給されると、このデータが単語「MD」と「CDJと「HDD」のい ずれを表すかを判別する。そして、単語 !^0」を表すと判別すると入出力処理 EX03 に処理を移し (ワイヤ W5)、単語「CD」を表すと判別すると、入出力処理 EX02に処 理を移し (ワイヤ W6)、単語「HDD」を表すと判別すると、入出力処理 EX04に処理 を移す(ワイヤ W9)。
[0057] エージェント処理部 6は、入出力処理 EX02では、 CD装置 51に、 CDの再生を開 始することを指示する制御信号を出力する。エージェント処理部 6は、入出力処理 E
X03では、 MD装置 52に、 MDの再生を開始することを指示する制御信号を出力す る。エージェント処理部 6は、入出力処理 EX04では、 HDD装置 53に、 HDDの再生 を開始することを指示する制御信号を出力する。
[0058] —方、エージェント処理部 6は、「MDを聞く」或いは「MDを再生」という単語を示す データを言語解析部 2より供給されるのを待機して (トリガ処理 TG02)、供給されると
、入出力処理 EX03へと制御を移す(ワイヤ W4)。
[0059] 同様に、エージェント処理部 6は、「CDを聞く」或いは「CDを再生」という単語を示 すデータを言語解析部 2より供給されるのを待機して (トリガ処理 TG03)、供給される と、入出力処理 EX02に制御を移す(ワイヤ W8)。
また、エージェント処理部 6は、「HDDを聞く」或いは「HDDを再生」という単語を示 すデータを言語解析部 2より供給されるのを待機して (トリガ処理 TG04)、供給される と、入出力処理 EX04に制御を移す(ワイヤ W8)。
[0060] 次に、図 11に示すフローにおいては、エージェント処理部 6は、トリガ処理 TG54で は、単語「停止」を示す単語データを言語解析部 2より供給されるのを待機して、供給 されるとこれを取得して判別処理 CN02に引き渡す(ワイヤ Wl 1)。
エージェント処理部 6は、判別処理 CN02では、 MDプレーヤ 52と CDプレーヤ 51 と HDDプレーヤ 53のいずれが動作しているかを判別する。エージェント処理部 6は 、「MDプレーヤ 52が動作している」と判別すると、入出力処理 EX05に処理を移す( ワイヤ W13)。入出力処理 EX05では、 MDプレーヤ 52に、停止を指示する制御信 号を出力する。この結果、 MDプレーヤ 52は動作を停止する。
[0061] エージェント処理部 6は、判別処理 CN02で、「CDプレーヤ 51が動作している」と 判別すると、入出力処理 EX06に処理を移す(ワイヤ W12)。エージェント処理部 6は 、入出力処理 EX05で、 CDプレーヤ 51に、停止を指示する制御信号を出力する。こ の結果、 CDプレーヤ 51は動作を停止する。
エージェント処理部 6は、判別処理 CN02で、「HDDプレーヤ 53が動作してレ、る」 と判別すると、入出力処理 EX07に処理を移す (ワイヤ W14)。エージェント処理部 6 は、入出力処理 EX07では、 HDDプレーヤ 53に、停止を指示する制御信号を出力 する。この結果、 HDDプレーヤ 53は動作を停止する。
[0062] また、エージェント処理部 6は、トリガ処理 TG06で、単語「うるさい」を示す単語デー タを言語解析部 2より供給されるのを待機して、供給されるとこれを取得して判別処理 CN03に引き渡す(ワイヤ W15)。
エージェント処理部 6は、判別処理 CN03で、 MDプレーヤ 52と CDプレーヤ 51と HDDプレーヤ 53のレ、ずれが再生動作中であるかを判別する。「MDプレーヤ 52が 再生中である」と判別すると、入出力処理 EX08に処理を移す (ワイヤ W16)。入出力 処理 EX08では、 MDプレーヤ 52に、ボリュームを所定量下げさせる指示する制御 信号を出力する。この結果、 MDプレーヤ 52は再生音量を低下する。
[0063] エージェント処理部 6は、判別処理 CN03で、「CDプレーヤ 51が再生中である」と 判別すると、入出力処理 EX09に処理を移す(ワイヤ W17)。入出力処理 EX09では 、 CDプレーヤ 51に、再生音量を低下させる制御信号を出力する。この結果、 CDプ レーャ 51は再生音量を低下させる。
また、エージェント処理部 6は、判別処理 CN03で、「HDDプレーヤ 53が再生中で ある」と判別すると、入出力処理 EX10に処理を移す (ワイヤ W18)。入出力処理 EX 10では、 HDDプレーヤ 53に、再生音量を低下させる制御信号を出力する。この結 果、 HDDプレーヤ 53は再生音量を低下させる。
[0064] また、エージェント処理部 6は、概念「曲名」又は概念「アーティスト名」を表す単語 データが言語解析部 2より供給されると、図 12に示すトリガ取得処理 TG07と TG08 でこれらの単語を検出し、ワイヤ W19又は W20を迪つて、制御を入出力処理 EX11 に移す。
エージェント処理部 6は、入出力処理 EX11で、楽曲データベース D6を検索する。 即ち、エージェント処理部 6は、言語解析部 2から提供された単語 (楽曲名又はァー テイスト名)で図 3 (a)に示すデータ構造の楽曲名とアーティスト名とを検索し、該当す るものがあれば、該当する楽曲の MD/CD/HDD識別情報とトラック番号と抽出す る。
検索処理が終了すると、エージェント制御部 6は、制御を、ワイヤ W21を迪つて、判 別処理 CN04に移し、該当する楽曲が検出できたか否かを判別する。
[0065] エージェント制御部 6は、該当する楽曲が検出できていれば、制御をワイヤ W22を 迪つて、入出力処理 EX12に移し、その楽曲を再生する。
[0066] 一方、該当する楽曲が検出できていなければ、制御をワイヤ W23を迪つて、入出 力処理 EX13に移し、適当な楽曲を検出できな力 た旨のメッセージを出力する。
[0067] また、ユーザが「つまんない」と発話したときに、これを検出してユーザが楽しめる音 楽ソースを再生するようにすることも可能である。
この例を図 13を参照して説明する。
まず、ターゲット処理 TG09で、単語「つまんない」を待ち受ける。これを検出すると 、ワイヤ W24を迪つて、判別処理 CN05で、各プレーヤ 51〜53のステータスをチエツ クして、各プレーヤ 51〜53が再生動作を行っているか否かを判別する。いずれのプ レーャ 51~53も動作を行っていない場合には、ワイヤ W25を介して、問い合わせ付 き判別処理 QB11に移り、「オーディオをオンしますか?」というメッセージデータを音 声合成部 3を介して出力する。 ■
ここで、「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤ W26を介して 問い合わせ付判定処理 QB12に移り、「どのプレーヤをオンしますか?」等のプレー ャを特定させるメッセージを音声合成部 3を介して出力する。
ここで、「MD」、「CD」、「HDD」などと発話されると、これが検出され、それぞれ、ヮ ィャ W27, W28, W29を介して入出力処理 EX14、 EX15、 EX16に移り、指示され た MD、 CD、 HDDを再生させる。
[0068] 一方、判別処理 CN05で、いずれかのプレーヤ 51、 52又は 53が動作を行ってい ると判別した場合には、ワイヤ W30を介して、問い合わせ付き判別処理 QB13に移り 、「他のプレーヤに変更しますか?」というメッセージデータを音声合成部 3を介して 出力する。
ここで、単に「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤ W31を 介して入出力処理 EX17に移り、現在再生動作を行っているプレーヤを停止して、他 のプレーヤ (例えば、ランダムに選択)を起動する。
また、問い合わせ付き入出力処理 QB11, QB13において、「MD」、「MDプレーヤ 」、「CD」、「CDプレーヤ」、「HDDJ、「HDDプレーヤ」などと具体的なプレーヤを特 定する単語が発話されると、これが検出され、それぞれ、ワイヤ W32, W35 ;W33, W36 ;W34, W37を介して入出力処理 EX14、 EX15、 EX16に移り、指示された M D、 CD、 HDDを再生させる。
[0069] なお、任意の処理において、再生対象の楽曲が複数検索された場合は、該当する 複数の楽曲すベてを再生させてもよいし、制御対象機器群 5から取得する任意のデ ータに基づいて、任意の基準に従い、再生する対象の楽曲を選択してもよい。
[0070] 複数の楽曲のうち力も任意の曲を選択する手法を、図 14 (a)〜図 15 (b)を参照し て説明する。
[0071] 図 14 (a)の例では、エージェント処理部 6は、判別処理 CN04等で複数の楽曲が 検索された場合に、入出力処理 EX14で、車両位置特定部 54から車両の走行状態 に関するデータを取り込んで車両の速度を判別する。続いて、エージェント処理部 6 は、入出力処理 EX15で、車両の走行速度に対応するテンポを有する楽曲を選択し て、入出力処理 EXxxで選択した楽曲を再生する。これにより、例えば、車両が高速 道を走行中であるときは、テンポが速い楽曲を選択して、再生する等の動作が可能と なる。 [0072] 図 14 (b)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入 出力処理 EX16で、車両位置特定部 54から車両の走行状態に関するデータと地図 情報とを取り込んで、現在位置の地理的特徴 (海の近ぐ山間部、田園地帯、車両が 東西南北のいずれをむいているか等、)を判別する。エージェント処理部 6は、入出 力処理 EX17で、地理的特徴に合致するタイトルや属性情報を有する楽曲をサーチ して、入出力処理 EXxxでこれを再生する。これにより、例えば、海沿いの道を走行 中の場合に、この環境に関連付けられた属性を有する楽曲が再生される。これは、演 奏者等のイメージから関連付けられてもよいし、また、曲のタイトルに「波」「海」などの 言葉が含まれて!/、る楽曲を選曲するようにしてもよ!、。
[0073] 図 15 (a)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入 出力処理 EX18で、クロック装置 56から現在の年月曰日時に関するデータを取り込 んで、現在の時間的特徴 (春夏秋冬、初夏、晩秋、 . .朝、昼、夕方、夜、等)を判別 する。エージェント制御部 6は、入出力処理 EX19で、現在の時間的特徴に合致する タイトルや属性情報を有する楽曲をサーチして、入出力処理 EXxxでこれを再生する
[0074] 図 15 (b)の例では、エージェント処理部 6は、複数の楽曲が検索された場合に、入 出力処理 EX20で、言語解析部 2から話者のピッチ情報を取り込み、楽曲データべ ース D6内のユーザ情報を参照して、ユーザを特定する。
[0075] 続いて、エージェント処理部 6は、入出力処理 EX21で、特定した話者の履歴情報 に基づいて、話者の嗜好に合致する楽曲を特定して、入出力処理 EXxxでこれを再 生する。
[0076] 話者の嗜好に合致する楽曲を選択する手法は任意である。例えば、過去に繰り返 して再生してレ、る楽曲のジャンル、アーティスト、楽曲の年代等を判別し、これらに該 当する楽曲を選択すればよい。
また、エージェント処理部 6は、クロック装置 56から、所定の条件に合致する日時デ ータが供給されると、これに応答して、ネットワークを介して外部のサーバ等に接続し て、楽曲データをダウンロードして、楽曲データベース D6に追カ卩してもよい。
また、エージェント処理部 6は、ユーザに告知すべき情報 (該当するアーティストに 係る商品の販売スケジュールなど)を表すデータをダウンロードして、音声合成処理 部 3を介し、音声出力部 4に、この情報を音声の形で提供させてもよい。
また、ユーザが要求したアーティストや曲名に対応する楽曲が楽曲データベース D 6に保有されていない場合に、外部のサーバ等に接続し、該当するアーティストや楽 曲等を楽曲データベースにダウンロードして楽曲 D6に追加するようにしてもよい。 尚、ダウンロードを開始する前に「希望した楽曲が現在保有されていないので、購 入してダウンロードするか?」という問い合わせのメッセージを出力するようにしてもよ レ、。
[0077] また、エージェント処理部 6は、アーティスト名を表す単語データが言語解析部 2より 供給されると、これに応答して、ネットワークを介して外部のショッピングサイトのサー バ等に接続し、該当するアーティストに係る商品の予約手続が可能な状態として、当 該商品の予約を促すメッセージを、例えば音声合成処理部 3を介し、音声出力部 4に 、音声の形で発させてもよい。
[0078] エージェント処理部 6は、例えば言語解析部 2が単語データを複数供給した場合な どにおいては、複数の判別処理を並行して行う。この場合、エージェント処理部 6は 同一の単語を入力の対象とする処理 (例えば、トリガ取得処理や、判別処理における データの入力)が複数があって、該当する単語を表す単語データが言語解析部 2より 供給された場合は、これらの処理すベてを並行して行う。
[0079] 次に、各ワイヤの重み係對を計算する方法を説明する。
複数の処理がワイヤ Wにより連結されてレ、る場合には、注目するワイヤ Wの重み係 慰は、現在処理中の処理を起点として、注目しているワイヤ Wに至るまでの遷移の 経路上の進行方向決定用の遷移定数 kを順次乗算することにより求められる。
理解を容易にするため、図 16 (a)にフローを示す処理を想定する。
図 16 (a)の処理は、全体としては、単語「音楽」が入力されると、オーディオ機器が 再生動作中力否かを判別し、再生中で無ければ、再生するか否かを発話者に問い 合わせ、応答に応じて次の処理を実行するという処理である。
[0080] 図 16 (a)に示す処理では、処理 TG101、 CN101, QB101のいずれについても、 各進行方向決定用の遷移定数 kは、順方向についてはいずれも 0. 5、逆 (戻り)方向 については、いずれも 0. 1である。この場合、ワイヤは、例えば、図 16 (b)に示すよう に、定義される。
[0081] 例えば、エージェント処理部 6は、処理(又は制御)がトリガ処理 TG101に位置する とき(処理ポインタ PPがターゲット処理 TG101を指しているとき)、トリガ処理 TG101 を起点として、進行方向の遷移定数 kを遷移経路に沿って順次乗算することにより、 ワイヤ W51〜W55 (図示していないワイヤが存在する場合にはそれらを含むすべて )のそれぞれの重み係 ¾Jを計算し、計算結果をワイヤ W51〜W55に対応付けてヮ ィャデータベース D5に書き込む。
具体的には、トリガ処理 TG101に処理が到達したとき、例えば、ワイヤ W51の重み 係衡は、トリガ処理 TG101の判別処理 CN101に繋がるノードに割り当てられている 遷移定数 kの値すなわち 0. 5となる。
判別処理 CN101のワイヤ W52の重み係 ¾Jは、トリガ処理 TG101のワイヤ W51に 係る遷移定数 k=0. 5に判別処理 CN101のワイヤ W52に繋がるノードに害 ijり当てら れている遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。同様に、判別処理 C N101のワイヤ W54の重み係 Jは、トリガ処理 TG101のワイヤ W51に繋がるノード に割り当てられてレ、る遷移定数 k= 0. 5に判別処理 CN101のワイヤ W54に繋がるノ ードの遷移定数 k=0. 5を乗じた結果すなわち 0. 25となる。
[0082] ワイヤ W53の重み係 SJは、トリガ処理 TG101のワイヤ W51に繋がるノードに割り 当てられている遷移定数 k=0. 5に、判別処理 CN101のワイヤ W52に繋がるノード に割り当てられてレ、る遷移定数 k=0. 5を乗じた結果に更に判別処理 QB101のワイ ャ W53に繋力 Sるノードに割り当てられている遷移定数 k=0. 5を乗じた結果、すなわ ち 0. 125となる。同様に、ワイヤ W53の重み係 ¾1は、トリガ処理 TG101のワイヤ W5 1に繋がるノードに割り当てられている遷移定数 k=0. 5に、判別処理 CN101のワイ ャ W52に繋がるノードに割り当てられてレ、る遷移定数 k=0. 5を乗じた結果に、更に 判別処理 QB101のワイヤ W55に繋がるノードに割り当てられている遷移定数 k=0. 5を乗じた結果、すなわち 0. 125となる。
[0083] このようにして、処理中の処理を基点としたときのそれぞれのワイヤの重み係 ¾Jが 計算される。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度各 ワイヤ Wの重み係 ¾Jが計算される。
[0084] 具体的には、現在の状態が判別処理 CN101に遷移すると、ワイヤ W52の重み係 衡は、ワイヤ W52に繋がるノードに割り当てられている遷移定数 kに等しい値 0. 5と なり、ワイヤ W54の重み係 ¾Jは、ワイヤ W52に繋がるノードに割り当てられてレ、る遷 移定数 kに等しい値 0. 5となる。また、ワイヤ W53の重み係 Uはワイヤ W52に繋が るノードに割り当てられている遷移定数 k=0. 5と判別処理 QB101のワイヤ W55に 繋がるノードに割り当てられている遷移定数 k=0. 5との積すなわち 0. 25となり、ワイ ャ W55の重み係 はワイヤ W52に繋がるノードに害 ijり当てられている遷移定数 k= 0. 5と判別処理 QB101のワイヤ W55に繋がるノードに割り当てられている遷移定数 k=0. 5との積すなわち 0. 25となる。さらに、逆方向(トリガ処理 TG101に戻る方向 に係るワイヤ W51の重み係 ¾1は、ワイヤ W51に繫がるノードに割り当てられている 戻り方向のノードの遷移定数 k=0. 1に等しい値 0. 1となる。
[0085] また、現在の状態が判別処理 QB101に遷移すると、ワイヤ W53と W55の重み係 は、ワイヤ W53と W55にそれぞれ繋がるノードに割り当てられている遷移定数 k に等し ヽ値 0. 5となる。
[0086] さらに、ワイヤ W52の重み係對は、それに繋がる戻り方向のノードに割り当てられ てレ、る戻り方向の遷移定数 k=0. 1がそのままワイヤ W52の重み係 Uとなる。さらに 、ワイヤ W51の重み係娄 ほ、判別処理 QB101のワイヤ W52に繋力 Sるノードに割り 当てられている戻り方向の遷移定数 k=0. 1に、判別処理 CN101のワイヤ W51に 繋がれて!/、る戻り方向のノードに割り当てられてレ、る戻り方向の遷移定数 k= 0. 1の 積の 0. 01となる。ワイヤ W54の重み係 ¾Jは、判別処理 QB101のワイヤ W52に繋 力 ¾ノードに割り当てられている戻り方向の遷移定数 k=0. 1に、判別処理 CN101 ' のワイヤ W54に繋がれているノードに割り当てられている遷移定数 k=0. 5の積の 0 . 05となる。
各ワイヤ Wnの重み係 ¾Jの変化の例を図 15 (c)に示す。
[0087] 重み係 Jの計算は、関連するフローの処理のみではなぐ全てのフローの全ての ワイヤについて実行され、計算された重み係 ¾Jが各ワイヤに設定される。ここで現在 の処理に関連のな!/ヽワイヤにつ!/ヽては、予め定められた低!/ヽ計数値を割り当てるよう にすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、遷 移定数 kをある程度高く設定するようにする。こうすることによって、直前までなされて いた会話と著しく異なる内容の会話にもジャンプすることが可能になる。
[0088] 次に、このように構成されたシステム全体の動作を、図 17を参照して説明する。
音声入力部 1と言語解析部 2とは、独自に動作して、音声を取り込み、解析し、単語 データをエージェント処理部 6に提供する。
そして、エージェント処理部 6は、判別条件に係る(1個又は複数個の)単語データ が言語解析部 2より供給されると、以下の処理を行う。
供給された単語を認識 (識別)し (図 17ステップ S 11)、それが、単語データベース D4に登録されている単語に相当するか否かを判別する (ステップ S12)。登録されて いなければ (ステップ S12, No)、単語入力処理を終了する。
一方、登録されていれば (ステップ S 12, Yes)、その単語又はその単語の属すダル ープの「概念」が条件となって!/、る処理に関し、単語の尤度 Sとワイヤの重み係 ¾Jの 積を計算する (ステップ S 13)。
例えば、図 16 (a)に示すフローを実行している場合において、処理ポインタ PPがト リガ処理 TG101を指示しているとする。この場合の、各ワイヤの重み計 #Jは図 16 (c —1)に示す通りである。
この状態で、スコアが 80%の単語「音楽」と、スコアが 50%の単語「再生」を示す単 語データが入力されたと仮定する。
図 16 (a)と (b)に示す例では、トリガ処理 TG101では、単語「音楽」が判別条件に 関連し、判別処理 QB101では、単語「再生」が判別条件に関連する。
図 16 (c— 1)示すように、単語「音楽」を示す単語データを入力する処理を先行の 処理とするワイヤ W51の重み係 ¾1が 0. 5、単語「再生」を示す単語データを入力す る処理を先行の処理とするワイヤ W53の重み係 ¾1が◦. 25である。この場合、ワイヤ W51及ひ^ W53について求められる尤度 (スコア) Sと重み係衡の積は、数式 1及び 2 に示すとおりとなる。
[0089] (数 1) ワイヤ W51についての ¾F'S :「音楽」のスコア S80% Xワイヤ W51の重み係 對( = 0. 5) =40 [0090] (数 2) ワイヤ W53についての樹 'S :「再生」のスコア S50% Xワイヤ W53の重み係 #J ( = 0. 25) = 12. 5
[0091] エージェント処理部 6は、各単語の尤度 (スコア) Sと重み係 ¾Jとの積を求める上述 の処理を、フローが有するすべてのワイヤについて行う。
続いて、エージェント制御部 6は、計算された樹 'S力 Sもっとも大きいワイヤを選択す る(図 17,ステップ S14)。エージェント制御部 6は、選択したワイヤに後続する処理に 制御を進める (ステップ S15)。例えば、ワイヤ W51について求めた積が最も高い値 を示した場合、入力された単語データは単語「音楽」を示すものであつたと認識して、 ワイヤ W51が後続の処理としている判別処理 CN101に遷移する。通常、現在の処 理中の処理を起点するとワイヤの重み係娄 が比較的大きい。このため、一般的には
、次の処理に移るが、従前と全く異なる単語で尤度の高いものが入力された場合に は、その単語に対応する処理が開始されることもある。
[0092] エージェント処理部 6は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤ の重み係 を再計算する (ステップ S 16)。
以後は、その処理の内容に従って処理を進める (ステップ S17)。この例では、判別 処理 CN101を実行する。すなわち、エージェント処理部 6は、窓開閉制御部 55から 窓の開閉の情報を取り込み、取り込んだ情報に基づいてワイヤ W52と W54について の尤度 Sと重み係 の積を求め、ワイヤ W24についての尤度 Sと重み係 Uの窗 'S を求めて、いずれかのワイヤ Wを選択して、選択したワイヤ Wに後続する処理を実行 する。
なお、窓開閉制御部 54からの窓の開閉を示す信号は、開の尤度が 100%又は 0% 、閉の尤度が 0%又は 100%でもよぐまた、開度に応じて変化させるようにしてもよい 。そして、処理の過程で、入出力処理 EXxxがあり、エージェント処理部 6がその処理 を実行して、音声データを出力すれば、それが音声として放音され、入出力機器群 5 への制御を行う処理を実行すると、その処理内容に従って、入出力機器群 5への制 御を行う。
[0093] トリガ取得処理 TGxxからの遷移に対しては、ある程度高い遷移定数 kを設定して おくとよい。具体的には、概念「再生」、単語「停止」、「うるさい」を取得するトリガ取得 処理 TGxxからの遷移に対しては、例えば遷移定数 k=0. 9を与えておく。そうすると 、該当する概念又は単語の入力を検出したときに、そのトリガ取得処理 TGxxからの ワイヤの窗 'Sが大きくなり、これら他のワイヤについての積よりも大きくなりやすぐ結 果として、会話の流れとは異なる要求に対しても対応することが可能になる。
[0094] この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を 戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数 kは、進行方向の遷 移定数 kに比べて低い値に設定するようにすればよい。そうすると、入力された音声 力 高いスコアの音声データが仮に得られても、戻り方向の遷移定数 kが重み係数と して書き込まれたワイヤについて求めた積は低い値となるため、戻り方向への遷移の 可能性を低く抑えることができる。
また、エージェント処理部 6は、求めた積の値が所定の条件に合致しないような処 理 (たとえば、積の値が所定値に達しないような処理)は、遷移を実行する対象から除 外するよう取り扱ってもよレヽ。
[0095] なお、例えば図 9に示してレ、るように、ワイヤは、処理項目力 処理項目へという形 で遷移を定義する。そして、ワイヤを図 8に示すような形態で記述してワイヤデータべ ース D5に格納することにより、各処理項目同士の関係を、あた力 ^コンピュータのマ クロ処理のように定義することが可能になる。これによつて、各処理項目を容易に接 続することができる。
[0096] また、トリガとなる処理項目は、実際には、接続されるワイヤに係る認識対象単語等 (他の入力対象機器群からの入力の場合もあり得る)のスコアの判定になるので、ワイ ャにおいてトリガ処理項目はワイヤの開始点として定義されず、ワイヤそのものが遷 移元として定義されることになる。
[0097] 更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、 簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザ が休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が 多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そ うすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接 続されたワイヤの遷移定数 kをある程度大きくすることで、当該入力「ファミリーレストラ ンを探して」に適切に対応することができるようになる。(ただしこの場合、エージェント 処理部 6は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を 記憶し、あるいは外部の地図データ等にアクセスするものとする。 )
このワイヤの自動追加は、ある処理項目からある処理項目へのジャンプの回数を計 数し、これが所定回数に達したときに自動で行うようにすればよい。
[0098] 前述のように、エージェント処理部 6は、処理項目データベース D4やワイヤデータ ベース D5の内容を、外部から供給される新たな処理項目データやワイヤへと更新す る機能を有する。具体的には、例えば、処理項目データ及び/又はワイヤを記憶す る外部のサーバが、その内容が更新されると、ネットワークを介し、エージェント処理 部 6に、処理項目データ及び/又はワイヤの更新がある旨を通知する。すると、エー ジェント処理部 6はこの通知に応答して、ネットワークを介し、このサーバにアクセスし て、新たな処理項目データ及びノ又はワイヤをダウンロードする。そして、自己の処 理項目データベース D4やワイヤデータベース D5に格納されて!/ヽる、古!/、処理項目 データ及び Z又はワイヤを、ダウンロードした新たな処理項目データ及ぴ Z又はワイ ャへと更新する。
また、エージェント処理部 6が、外部サーバにアクセスし、データベースが更新され てレ、れば、これをダウンロードするようにしてもよ!/、。
[0099] 外部サーバの構成例を図 18に示す。
この外部サーバ 100は、単語データ、処理項目データ及び/又はワイヤデータを 通信ネットワークを介して複数の車両のエージェント処理部 6に配信するためのもの であり、制御部 110、通信制御部 120、単語データベース 130、処理項目データべ ース 140、ワイヤベース 150、人力部 160、出力部 170、力ら構成される。
[0100] 制御部 110は、例えば CPU (Central Processing Unit :中央演算処理装置)などか ら構成され、配信サーバ 100の各部を制御するとともに、所定のプログラムを実行す ることで後述する各処理を実現する。
[0101] 通信制御部 120は、例えば、モデム、ルータなどの通信装置から構成され、配信サ ーパ 100と車両のエージェント処理部 6 (通信制御部)との間のネットワークを介した 通信を制御する。 [0102] ' ネットワークの構成は任意である。例えば、専用線、公衆回線網、ケーブルテレビ( CATV)網、無線通信網、有線放送網、などを採用することができる。
[0103] 単語データベース 130は、例えば、ハードディスク装置などの書換可能な記憶装置 から構成され、配信サーバ 100が配信する単語データをバージョン情報 (例えば、タ ィムスタンプ)共に蓄積する。
[0104] 処理項目データベース 140は、例えば、ハードディスク装置などの書換可能な記憶 装置から構成され、配信対象の処理項目データをバージョン情報 (例えば、タイムス タンプ)共に蓄積する。
[0105] ワイヤデータベース 150は、例えば、ハードディスク装置などの書換可能な記憶装 置から構成され、配信対象のワイヤデータをバージョン情報 (例えば、タイムスタンプ) 共に蓄積している。
[0106] 配信サーバ 100の管理者は、適宜、入力部 160を操作して、各データベース 130 〜 150の情報を更新する。
各車両のエージェント処理部 6は、通信制御部(CCU) 64を介して、配信サーバ 10 0からの更新通知を受信すると、例えば、図 19 (a)の処理を開始し、セッションを確立 し (ステップ S21)、更新されたデータをダウンロードし、自己のデータベースを更新 する(ステップ S22)。或いは、各車両のエージェント処理部 6は、定期的或いは適宜 、この配信サーバ 100に通信制御部(CCU) 64を介してアクセスしてセッションを確 立し (ステップ S31)、各データベースのバージョン情報 (更新日付など)を取得する( ステップ S32)。そして、両データのバージョンを比較し (ステップ S33)、自己が記憶 しているデータよりも新しいデータをダウンロードして、自己のデータベースにセットす る(ステップ S 34)。
このような構成とすれば、配信サーバ 100に記録されている情報を更新するだけで 、配信サーバ 100を利用可能なすべての車两制御システムのデータを適宜更新する ことができる。
なお、配信サーバ 100には、データを圧縮及び暗号化して格納しておき、エージェ ント処理部 6がダウンロードしてデータを伸張及ぴ復号ィ匕してデータベースにセットす ることが望ましい。このようにすることにより、通信の量を抑え、情報漏洩を防止できる [0107] エージェント処理部 6が配信サーバ 100からデータをダウンロードするタイミングは 上述の例に限定されず任意であり、例えば、ユーザの要求に対応する処理項目及び ノ又はワイヤが記憶されていない場合、これを検出してネットワークを介して配信サ ーバ looにアクセスし、新たな処理項目データ及び Z又はワイヤをダウンロードする ようにしてもよい。更には、エージェント処理部 6に接続される入出力対象機器 5が新 たに追加された場合や、新たな機能が追加された場合に、自動でこれを検出して、 上述と同様に、ネットワークを介して配信サーバ 100にアクセスし、新たな処理項目 データ及び/又はワイヤをダウンロードするようにしてもよい。
[0108] 尚、本発明におけるエージェント処理部 6は、新たなワイヤを自動で生成する機能 を有する力 ダウンロードした新たな処理項目及び既存の処理項目に対して、どのよ うな関係のワイヤを設定するかにっレ、て、これを記述したプログラムを一緒にダウン口 ードするようにしてもよい。
[0109] 以上説明したこのオーディオシステムは、処理の内容を示すデータやワイヤが適切 に記述されれば、制御する対象である機器や加える制御の内容を完全に特定するこ とを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語からユーザの欲 求を推測し、この欲求を満たすためにどの機器にどのような制御をカ卩えればよいかを 適切に判断して、判断結果に従った制御を機器に加えることができるようになる。
[0110] また、処理項目データやワイヤは随時新たなものへと更新されるので、エージェント 処理部 6の応答の仕方を変化させる余地が常にあり、ユーザはこのオーディオシステ ムとの対話に飽きにくい。
[0111] なお、このカーオーディオシステムの構成は上述のものに限られない。
例えば、入出力対象機器群 5に属する機器は、必ずしも直接にユーザの欲求を満 たす結果をもたらす機器である必要はなぐ例えば、外部の表示装置等を制御して ユーザに特定の行動をとるよう促すメッセージを出力する機器 (例えば、液晶ディスプ レイ等の表示装置)からなつていてもよい。
[0112] また、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語か らなる語句を示すデータを単語データベースの要素として記憶するようにしてもよい し、単語の一部ある!/、は音素を示すデータを単語データベースの要素として記憶す るようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピングされてい る必要はなぐグルーピングを行う場合も、グルーピングを行うために用いられるデー タは、必ずしもフラグの集合の形をとつていなくてもよい。
[0113] また、エージヱント処理部 6は、ワイヤに記述された遷移定数 kを、過去に当該ワイ ャが表す遷移を実行した数などに基づき所定の基準に従って変化させ、遷移定数 係数 kが変化後の値となるようにワイヤ (ワイヤの始点となるノード)に割り当てられて いる遷移定数 kを書き換えてもよい。
具体的には、例えば、ワイヤデータベースに、それぞれのワイヤについて、当該ワイ ャが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部 6は、当 該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の値 を 1ずつインクリメントし、それぞれのワイヤに記述された遷移定数 kを、例えば、当該 ワイヤについて記憶された回数に比例した値と書き換える。
[0114] また、エージェント処理部 6は、判別処理や入出力処理において出力するデータを 、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、 その他任意の条件に従って変化させるようにしてもよい。
[0115] また、このカーオーディオシステムは、エージェント処理部 6の制御に従って画像を 出力するための表示装置 (例えば、液晶ディスプレイ等)を備えていてもよぐエージ ェント処理部 6は、入出力処理や判別処理において、処理毎に所定の画像を表示さ せるようこの表示装置を制御してもよレ、。
[0116] また、エージェント処理部 6は、 1個の入力処理や 1個の判別処理において、連続し て発話される等した複数の単語データを一括して取得するようにしてもよい。また、ェ ージェント処理部 6は、一括して取得した複数の単語データがどの概念の下で同一 のグループ内にグルーピングされてレ、るかを特定し、特定した概念が所定の概念に 合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものと してもよい。
[0117] また、エージェント処理部 6は、トリガ取得処理、判別処理、入出力処理等の各種処 理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数の データ処理装置 (例えば、コンピュータ等)から構成されていてもよい。この場合、解 析処理部 3を構成するそれぞれのデータ処理装置は、解析処理部 3が実行し得るフ ロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目デー タベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞ れのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の 処理をマクロ定義するようなデータとなってレ、れば、複数のデータ処理装置に分散処 理を行わせることも容易である。
[0118] また、このカーオーディオシステムは、音声入力部 1や言語解析部 2あるいは音声 出力部 4も複数備えて!/、てよレ、。
また、音声入力部 1は、たとえば、音声を表すデータが記録された記録媒体 (たとえ ば、フロッピー(登録商標)ディスクや、 CDや、 MO (Magneto-Optical Disk)など)力 ら波形信号を読み出して言語解析部 2に供給する記録媒体ドライブ装置 (たとえば、 フロッピー(登録商標)ディスクドライブや、 CD—ROMドライブや、 MOドライプなど) を備えていてもよい。
[0119] 言語解析部 2は、音声入力部 1より供給された音声データが表す音声の話者 (ある いは話者の性別など)を任意の手法で特定し、特定した話者を示す話者データをェ ージヱント処理部 3に供給するようにしてもよい。一方、エージェント処理部 3は、例え ば楽曲の再生を指示するたびに、楽曲データベースに、再生の対象となった楽曲が 、話者データが示す話者のために再生されたことを示す履歴データを追加するように してもよい (あるいは、当該楽曲が当該話者のために再生された回数を示すデータを 履歴データとして記憶しておき、この履歴データを 1だけインクリメントするようにしても よい)。そして、再生する楽曲を選択する場合は、このような.履歴データに基づいて、 楽曲を選択するようにしてもよい。
[0120] 以上、この発明の実施の形態を説明したが、この発明にかかるオーディオ機器制 御装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能 である。
例えば、入出力対象機器群 5及び通信制御装置に接続されたパーソナルコンビュ ータに上述の音声入力部 1、言語解析部 2、音声合成処理部 3、音声出力部 4及び エージェント処理部 6の動作を実行させるためのプログラムを格納した記録媒体から 該プログラムをインストールすることにより、上述の処理を実行するカーオーディオシ ステムを構成することができる。そして、このプログラムを実行するパーソナルコンビュ ータが、図 1のカーオーディオシステムの動作に相当する処理として、例えば、図 16 に示すフローを実行するものとする。
[0121] なお、パーソナルコンピュータに上述のカーオーディオシステムの機能を行わせる プログラムは、例えば、通信回線の掲示板 (BBS)にアップロードし、これを通信回線 を介して配信してもよぐまた、このプログラムを表す信号により搬送波を変調し、得ら れた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラム を復元するようにしてもよい。そして、このプログラムを起動し、 OSの制御下に、他の アプリケーションプログラムと同様に実行することにより、上述の処理を実行することが できる。
[0122] なお、 OSが処理の一部を分担する場合、あるいは、 OSが本願発明の 1つの構成 要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラム を格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実 行する各機能又はステップを実行するためのプログラムが格納されているものとする

Claims

請求の範囲
[1] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、
制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作 状態情報取得手段と、
前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該ォ 一ディォ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報 とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操 作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ 機器制御手段と、を備える、
ことを特徴とするオーディオ機器制御装置。
[2] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候捕と、外部のオーディオ機器が使用される環境の 状況を示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状 。 態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と 、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し 、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手 段と、を備える、
ことを特徴とするオーディオ機器制御装置。
[3] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候捕を特定する音声認識手段と、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定手段と、
前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又 は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境デ ータ及び 又は当該オーディオ機器の動作状態を示す動作状態データとに基づき 、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を 実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を 加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、 ことを特徵とするオーディオ機器制御装置。
[4] 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデー タ又は前記オーディオ機器が使用される環境の遮音状況を示すデータ力 構成され ている、ことを特徴とする請求項 2に記載のオーディオ機器制御装置。
[5] 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデー タ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成され ている、ことを特徴とする請求項 3に記載のオーディオ機器制御装置。
[6] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候捕を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、 前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当 該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づ き、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定 し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御 ステップと、より構成される、
ことを特徴とするオーディオ機器制御方法。
[7] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候捕と、外部のオーディオ機器が使用される 環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動 作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用 態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを 特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器 制御ステップと、より構成される、
ことを特徴とするオーディオ機器制御方法。
[8] . 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定ステップと、
前記音声認識ステップで特定された候ネ詹と、前記発話者特定ステップで特定され た発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を 示す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データ とに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利 用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定し た操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、 より構成される、
ことを特徴とするオーディオ機器制御方法。
[9] コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、 前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当 該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づ き、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定 し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御 ステップと、を実行させる ことを特徴とするコンピュータプログラム。
[10] コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される 環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動 作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用 態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを 特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器 制御ステップと、
を実行させることを特徴とするコンピュータプログラム。
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話 者特定ステップと、
前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された 発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示 す環境データ及び Z又は当該オーディオ機器の動作状態を示す動作状態データと に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用 態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した 操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、 を実行させるコンピュータプログラム。
PCT/IB2004/004007 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム WO2005062293A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP04801318A EP1691343B1 (en) 2003-12-05 2004-12-06 Audio device control device,audio device control method, and program
US10/581,823 US7529676B2 (en) 2003-12-05 2004-12-06 Audio device control device, audio device control method, and program
DE602004016681T DE602004016681D1 (de) 2003-12-05 2004-12-06 Audioeinrichtungs-steuereinrichtung, audioeinrichtungs-steuerverfahren und programm
JP2005516408A JP4533845B2 (ja) 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
CN2004800360694A CN1890708B (zh) 2003-12-05 2004-12-06 音频设备控制装置、音频设备控制方法及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003406669 2003-12-05
JP2003-406669 2003-12-05

Publications (1)

Publication Number Publication Date
WO2005062293A1 true WO2005062293A1 (ja) 2005-07-07

Family

ID=34708667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2004/004007 WO2005062293A1 (ja) 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Country Status (6)

Country Link
US (1) US7529676B2 (ja)
EP (1) EP1691343B1 (ja)
JP (1) JP4533845B2 (ja)
CN (1) CN1890708B (ja)
DE (1) DE602004016681D1 (ja)
WO (1) WO2005062293A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010026639A1 (ja) * 2008-09-04 2010-03-11 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
WO2010029639A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
WO2010029640A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
CN103971688A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种语音数据采集服务系统及方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
KR20170054707A (ko) * 2015-11-10 2017-05-18 삼성전자주식회사 전자 장치 및 그 제어 방법
JP2021092651A (ja) * 2019-12-10 2021-06-17 トヨタ自動車株式会社 エージェント管理装置、プログラムおよびエージェント管理方法
US11289114B2 (en) 2016-12-02 2022-03-29 Yamaha Corporation Content reproducer, sound collector, content reproduction system, and method of controlling content reproducer

Families Citing this family (220)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP1930906A1 (en) * 2006-12-08 2008-06-11 Sony Corporation Information processing apparatus, display control processing method and display control processing program
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101312040B (zh) * 2007-05-24 2011-08-17 佳世达科技股份有限公司 声音命令处理装置与方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9469247B2 (en) * 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
JP5929879B2 (ja) * 2013-12-06 2016-06-08 カシオ計算機株式会社 音声出力装置、プログラム、及び音声出力方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6011584B2 (ja) * 2014-07-08 2016-10-19 トヨタ自動車株式会社 音声認識装置及び音声認識システム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9798512B1 (en) * 2016-02-12 2017-10-24 Google Inc. Context-based volume adjustment
US10514881B2 (en) * 2016-02-18 2019-12-24 Sony Corporation Information processing device, information processing method, and program
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
KR20190111624A (ko) 2018-03-23 2019-10-02 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 제어 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
JP2002165298A (ja) * 2000-11-28 2002-06-07 Matsushita Electric Ind Co Ltd 車載用音響装置
JP2003140664A (ja) * 2001-11-07 2003-05-16 Fujitsu Ten Ltd 音声再生装置、情報提供装置及び音声再生プログラム、情報提供プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04324312A (ja) 1991-04-24 1992-11-13 Sharp Corp ナビゲーション装置
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
KR100201256B1 (ko) * 1996-08-27 1999-06-15 윤종용 음성을 이용한 차량 시동 제어장치
DE69712485T2 (de) * 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
KR19990059297A (ko) * 1997-12-30 1999-07-26 서평원 음성 인식 장치 및 방법
JP3708747B2 (ja) * 1999-04-16 2005-10-19 アルパイン株式会社 音声認識方法
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP4155383B2 (ja) * 2001-03-05 2008-09-24 アルパイン株式会社 音声認識機器操作装置
JP2002297185A (ja) * 2001-03-29 2002-10-11 Pioneer Electronic Corp 情報処理装置および情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
JP2002165298A (ja) * 2000-11-28 2002-06-07 Matsushita Electric Ind Co Ltd 車載用音響装置
JP2003140664A (ja) * 2001-11-07 2003-05-16 Fujitsu Ten Ltd 音声再生装置、情報提供装置及び音声再生プログラム、情報提供プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1691343A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010026639A1 (ja) * 2008-09-04 2010-03-11 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
WO2010029639A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
WO2010029640A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
CN103971688A (zh) * 2013-02-01 2014-08-06 腾讯科技(深圳)有限公司 一种语音数据采集服务系统及方法
CN103971688B (zh) * 2013-02-01 2016-05-04 腾讯科技(深圳)有限公司 一种语音数据采集服务系统及方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
KR20170054707A (ko) * 2015-11-10 2017-05-18 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102453603B1 (ko) * 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US11289114B2 (en) 2016-12-02 2022-03-29 Yamaha Corporation Content reproducer, sound collector, content reproduction system, and method of controlling content reproducer
JP2021092651A (ja) * 2019-12-10 2021-06-17 トヨタ自動車株式会社 エージェント管理装置、プログラムおよびエージェント管理方法
JP7287258B2 (ja) 2019-12-10 2023-06-06 トヨタ自動車株式会社 エージェント管理装置、プログラムおよびエージェント管理方法

Also Published As

Publication number Publication date
US7529676B2 (en) 2009-05-05
EP1691343B1 (en) 2008-09-17
CN1890708B (zh) 2011-12-07
JP4533845B2 (ja) 2010-09-01
DE602004016681D1 (de) 2008-10-30
CN1890708A (zh) 2007-01-03
JPWO2005062293A1 (ja) 2007-07-19
US20070265844A1 (en) 2007-11-15
EP1691343A1 (en) 2006-08-16
EP1691343A4 (en) 2007-08-22

Similar Documents

Publication Publication Date Title
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
US8103510B2 (en) Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
JP6078964B2 (ja) 音声対話システム及びプログラム
EP1693829A1 (en) Voice-controlled data system
JP2001209662A (ja) 情報処理装置および情報処理方法、並びに記録媒体
US7505909B2 (en) Device control device and device control method
WO2018230670A1 (ja) 歌唱音声の出力方法及び音声応答システム
CN116917984A (zh) 交互式内容输出
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
JP2006285416A (ja) 電子機器、アシスタント表示方法、アシスタント表示用プログラム、および、電子機器システム
CN111105776A (zh) 有声播放装置及其播放方法
JP2003162293A (ja) 音声認識装置及び方法
JPH09146580A (ja) 効果音検索装置
JP4516919B2 (ja) 機器制御装置、機器制御方法及びプログラム
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP6858567B2 (ja) 情報出力装置及び情報出力方法
JP2000181475A (ja) 音声応答装置
KR20050041749A (ko) 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템
JP4198040B2 (ja) データ利用装置及びデータ利用方法
JP2005167866A (ja) データ記録装置及びデータ記録方法
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JPH11167388A (ja) 音楽演奏装置
JP2018112666A (ja) 情報出力装置及び情報出力方法
JP6781636B2 (ja) 情報出力装置及び情報出力方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480036069.4

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005516408

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2004801318

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2004801318

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10581823

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10581823

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 2004801318

Country of ref document: EP