WO2007071834A1 - Voice synthesis by concatenation of acoustic units - Google Patents

Voice synthesis by concatenation of acoustic units Download PDF

Info

Publication number
WO2007071834A1
WO2007071834A1 PCT/FR2006/002745 FR2006002745W WO2007071834A1 WO 2007071834 A1 WO2007071834 A1 WO 2007071834A1 FR 2006002745 W FR2006002745 W FR 2006002745W WO 2007071834 A1 WO2007071834 A1 WO 2007071834A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
elementary
processing
operator
synthesized
Prior art date
Application number
PCT/FR2006/002745
Other languages
French (fr)
Inventor
Edouard Hinard
Cédric BOIDIN
Laurent Roussarie
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to DE602006012540T priority Critical patent/DE602006012540D1/en
Priority to EP06841948A priority patent/EP1960996B1/en
Publication of WO2007071834A1 publication Critical patent/WO2007071834A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • the present invention relates to a system and method for voice synthesis by concatenation of acoustic units and a computer program for implementing the method.
  • a speech synthesis system based on a text conventionally comprises input means of the text to be synthesized and linguistic processing means of this text to transform it into a series of phonemes accompanied by prosodic indications.
  • These linguistic treatments include syntactic treatments, grapheme-phoneme translations as well as prosodic treatments. They rely on dictionaries as well as rulesets.
  • It also includes concatenation synthesis means of prerecorded elements for generating an acoustic signal according to the sequence of phonemes provided by the linguistic processing.
  • the Lexitool tool that is part of the catalog of the company Elan Speech, allows to manage an exceptional lexicon.
  • the operator enriches the data of the system by adding in the lexicon the words that the system does not pronounce correctly and associating with them the expected pronunciation.
  • the object of the invention is therefore to overcome this drawback by proposing an interactive speech synthesis system and method that is easy to use for an operator.
  • the object of the invention is a voice synthesis system by concatenation of acoustic units comprising:
  • synthesis means by concatenating pre-recorded elements to restore an acoustic signal, as a function of the series of phonemes,
  • the linguistic processing means comprise at least one elementary processing unit generating intermediate results of linguistic processing of said text, said elementary processing unit being associated with an editor of the means of inputting and editing, allowing an operator to modify the results of the elementary processing unit, and said voice synthesis system further comprises means for setting the text to be synthesized according to the results modified by the operator, and said linguistic processing means adapting the linguistic processing of the text according to said parameterization.
  • the text setting includes tags inserted into the text to be synthesized
  • the or each unit of elementary treatment is adapted to perform one of the elementary treatments of all the elementary treatments of: a) validation of the text to be synthesized, b) cutting of the text into sentences, c) cutting of the text in groups of breath, d) - division of text into words, e) - modification of a lexicon of exceptions, f) - phonetization of words, g) - grammatical analysis, h) - prosody.
  • the linguistic processing means comprise elementary processing means for performing all of the elementary treatments of said set of elementary processes.
  • Another object is a method of concatenating acoustic voice synthesis comprising the steps of:
  • the modification of the parameters consists of creating / modifying tags in the text to be synthesized
  • the step of generating intermediate results comprises one of the elementary treatment sub-stages:
  • said method further comprises a step of selecting the elementary treatment substep to be performed from among the set of elementary treatment substeps; it is executed successively 8 times and each time, a different elementary treatment sub-step is selected in the following order:
  • Another object is a computer program comprising program code instructions for performing the steps of the method when said program is executed on a computer.
  • the linguistic processing is decomposed for the operator into a series of elementary processes allowing him to control all the parameters having an impact on the quality of the sound flow produced.
  • sequence of elementary treatments proposes a logic order of treatment well adapted to the mode of operation of the operator while it does not correspond to the internal operation of the synthesis system.
  • FIG. 1 is a block diagram of a speech synthesis system according to one embodiment of the invention.
  • FIG. 2 is a flow chart of a speech synthesis method according to one embodiment of the invention.
  • FIG. 3 is a variant of the method according to FIG. 2;
  • FIG. 4 is a flow chart of a speech synthesis method using the method of FIG. 3 according to an order of presentation of elementary processes.
  • a voice synthesis system 1 comprises means 2 for inputting a text to be synthesized. This text is stored in a buffer memory 3 in the form of a record comprising the actual coded text, for example, according to the ISO / IEC 10646 standard, as well as linguistic processing aid parameters, for example in the form of tags. SSML.
  • the buffer memory 3 is connected to linguistic processing means 4 of this text. These linguistic processing means 4 are connected to a second buffer 5 in which they store the result of the linguistic processing in the form of a series of phonemes accompanied by prosodic indications.
  • This second memory 5 is connected to synthesis means 6 by concatenation of prerecorded elements to restore an acoustic signal as a function of the sequence of phonemes.
  • the acoustic signal is transformed into sounds by speakers 7.
  • the voice synthesis system 1 comprises means 8 for inputting and editing.
  • These input and edit means 8 comprise keyboard-type input means 9 and a pointing tool 10 such as a mouse. They also comprise a display screen 11 and means 12 for controlling these devices 9, 10, 11.
  • these input and edit means 8 present to an operator of the voice synthesis system 1 a user-friendly graphical interface.
  • the linguistic processing means 4 comprise a unit processing unit chain 4A, 4B, 4C, each of which processes a particular element of the linguistic processing chain such as the division of the text into sentences, the division of the sentences into words, the phonetization of words, grammatical analysis, prosody ...
  • Each unit 4A, 4B, 4C of elementary treatment is connected to a specialized editor 8A, 8B, 8C 8 means of input and editing allowing the operator to intervene on the elementary results of the corresponding unit 4A, 4B, 4C to modify them.
  • Each pair consisting of a unit 4A, 4B, 4C of elementary processing and its editor 8A, 8B, 8C, constitutes a module 13A, 13B, 13C of processing and editing for a determined stage of linguistic processing.
  • the voice synthesis system 1 comprises parameterization means 14 connected to the first buffer memory 3 and to the elementary processing modules 13A, 13B, 13C.
  • the speech synthesis system 1 comprises 8 modules corresponding to 8 stages of the linguistic processing of the text.
  • the first module deals with the text itself. It allows the operator to validate that the text to be synthesized suits him. Optionally, this module enriches the text with change of voice tags.
  • this first module is described in the state of the art, for example in the standardization of the W3C SSML language.
  • the second module deals with the division of text into phases.
  • the editor shows the operator which phase boundaries can be deleted, moved or inserted.
  • the third module deals with splitting into breath groups.
  • the publisher highlights breath groups and break times between groups.
  • the operator can change the placement of breaks and their durations.
  • the fourth module deals with the division into words.
  • the publisher highlights the groupings of words that have a link.
  • the operator can separate words or group others to form phrases.
  • the fifth module deals with the lexicon.
  • the operator intervenes on the data by adding, modifying or deleting entries of the exception lexicon.
  • the sixth module deals with the phonetization of words.
  • the editor presents to the operator the phonetic form or forms of each word on which the system is based to vocalize the text.
  • the operator intervenes on the choice of the variants of pronunciation, the connections, the e dumb, ... It should be noted that this module differs from the preceding module on the lexicon in that it does not modify the data but the result of the phonetization process.
  • the seventh module deals with grammatical analysis.
  • the editor presents the operator with the result of the grammar analysis and the rules that resulted in this result.
  • the operator can modify the choice of grammar rules and markers associated with each word or group of words.
  • the eighth module is about prosody.
  • the editor presents the operator with prosodic information in the form of curves or tables of values that the operator can modify.
  • This synthesis 21 comprises successively a linguistic processing step 22 and a concatenation synthesis step 23 as explained above.
  • one of the units 4A 1 4B, 4C of elementary processing generates in 24 intermediate results.
  • the grammatical analysis means generate a grammatical analysis result accompanied by the rules used.
  • the sound result and the intermediate results obtained are presented to the operator at 25.
  • the sound result and / or intermediate results are not in accordance with the expectations of the operator, it modifies the intermediate results in 28 using the corresponding interface module.
  • the improvement process loops until the operator is satisfied with the result obtained.
  • the speech synthesis method further includes a step 30 of selecting the elementary processing module whose intermediate results will be analyzed and possibly modified by the operation.
  • the operator can advantageously choose the type of elementary treatment which he wishes to analyze and modify the results.
  • FIG. 4 the modifications are made in the order of presentation of the following elementary treatment units.
  • the operator starts at 40 by editing the text via the first module associated with the basic processing units of the text itself.
  • the operator launches at 41 the second module for cutting the text into sentences.
  • This embodiment is remarkable in that it follows a logical order for the operator but does not correspond to the organization of the processing within a linguistic analyzer of a conventional speech synthesis system.
  • the operator can also go back to modify the intermediate results of one of the modules already treated, for example because he noticed a mistake late.

Abstract

The present invention relates to a system of voice synthesis by concatenation of acoustic units comprising: - means (4) for linguistically processing a text so as to transform it into a string of phonemes accompanied by prosodic indications, - means (6) for synthesizing prerecorded elements by concatenation so as to restore an acoustic signal, as a function of the string of phonemes, - input and editing means (8), such that the linguistic processing means (4) comprise at least one elementary processing unit (4A, 4B, 4C) that generates intermediate results of the linguistic processing of said text, said unit being associated with an editor (8A, 8B, 8C) of the input and editing means (8), allowing an operator to modify the intermediate results and the voice synthesis system comprises means (14) for parameterizing the text on the basis of the results modified by the operator, the linguistic processing means (4) adapting the linguistic processing of the text on the basis of said parameterization.

Description

synthèse vocale par concaténation d'unités acoustiques vocal synthesis by concatenation of acoustic units
La présente invention concerne un système et un procédé de synthèse vocale par concaténation d'unités acoustiques ainsi qu'un programme d'ordinateur pour la mise en œuvre du procédé.The present invention relates to a system and method for voice synthesis by concatenation of acoustic units and a computer program for implementing the method.
Un système de synthèse vocale à partir d'un texte comporte classiquement des moyens d'entrée du texte à synthétiser et des moyens de traitement linguistique de ce texte pour le transformer en une suite de phonèmes accompagnés d'indications prosodiques. Ces traitements linguistiques comportent des traitements syntaxiques, des traductions graphèmes-phonèmes ainsi que des traitements prosodiques. Ils s'appuient sur des dictionnaires ainsi que sur des jeux de règles.A speech synthesis system based on a text conventionally comprises input means of the text to be synthesized and linguistic processing means of this text to transform it into a series of phonemes accompanied by prosodic indications. These linguistic treatments include syntactic treatments, grapheme-phoneme translations as well as prosodic treatments. They rely on dictionaries as well as rulesets.
Il comporte également des moyens de synthèse par concaténation d'éléments préenregistrés pour générer un signal acoustique en fonction de la suite de phonèmes fournis par les traitements linguistiques.It also includes concatenation synthesis means of prerecorded elements for generating an acoustic signal according to the sequence of phonemes provided by the linguistic processing.
Un tel système est explicité plus en détail dans Gaël Richard, Olivier Cappé « Synthèse de la parole à partir du texte », Techniques de l'ingénieur H 7 288.Such a system is explained in more detail in Gaël Richard, Olivier Cappé "Synthesis of speech from the text", Techniques of the engineer H 7 288.
De tels systèmes cherchent à atteindre une qualité comparable à celle de la parole naturelle.Such systems seek to achieve a quality comparable to that of natural speech.
Actuellement, une limitation importante dans la qualité de ces systèmes à synthèse vocale réside dans le traitement linguistique. Cette limitation est liée à la perte d'information induite par la transcription et la nature ambiguë de certaines formes textuelles. De ce fait, le recours systématique à la parole synthétique pour des enregistrements statiques ne peut se faire que sous le contrôle d'un opérateur qui pallie les défauts inévitables de ce traitement linguistique.Currently, a significant limitation in the quality of these speech synthesis systems lies in linguistic processing. This limitation is related to the loss of information induced by transcription and the ambiguous nature of certain textual forms. As a result, the systematic use of synthetic speech for static recordings can only be done under the control of an operator who overcomes the inevitable defects of this linguistic treatment.
Dans l'état de la technique, trois méthodes sont connues pour permettre à un opérateur de contrôler le résultat d'un système de synthèse de parole :In the state of the art, three methods are known to allow an operator to control the result of a speech synthesis system:
- une méthode d'enrichissement du texte par la présence de balises. Cet enrichissement du texte permet de contrôler l'analyse linguistique (phonétisation d'un mot ou son étiquette grammaticale) ou le synthétiseur (volume, hauteur de la voix, vitesse d'élocution). L'utilisation de balises est actuellement, en cours de normalisation par l'organisme W3C. Une première version du langage de balisage SSML (Speech Synthesis Markup Language - langage de balisage pour la synthèse vocale) a été publiée en septembre 2004, via l'url http://www.w3.org/TR/speech-svnthesis/. L'enrichissement du texte d'entrée se fait grâce à un éditeur spécialisé. L'outil « TTS Director » de la société Loquendo est un exemple d'éditeur dédié à la synthèse vocale (http://www.loquendo.com/en/technology/tts director.htm).- a method of enriching the text by the presence of tags. This enrichment of the text makes it possible to control the linguistic analysis (Phonetization of a word or its grammatical label) or the synthesizer (volume, pitch of voice, speed of speech). The use of tags is currently being standardized by W3C. A first version of the Speech Synthesis Markup Language (SSML) markup language was published in September 2004, via the URL http://www.w3.org/TR/speech-svnthesis/. The enrichment of the input text is done through a specialized editor. The "TTS Director" tool from Loquendo is an example of a publisher dedicated to speech synthesis (http://www.loquendo.com/en/technology/tts director.htm).
- le paramétrage du système. Par exemple, l'outil Lexitool qui fait partie du catalogue de la société Elan Speech, permet de gérer un lexique d'exception. L'opérateur enrichit les données du système en ajoutant dans le lexique les mots que le système ne prononce pas correctement et en leur associant la prononciation attendue.- the configuration of the system. For example, the Lexitool tool that is part of the catalog of the company Elan Speech, allows to manage an exceptional lexicon. The operator enriches the data of the system by adding in the lexicon the words that the system does not pronounce correctly and associating with them the expected pronunciation.
- la synthèse interactive. Celle-ci est décrite dans l'article de Peter Rutten, Justin Fackrell « The application of interactive speech unit sélection in TTS Systems ». Eurospeech 2003. L'intervention de l'opérateur se fait dans le processus de synthèse après l'exécution d'une étape importante du traitement et conduit à modifier le comportement global du système par la suite en modifiant les paramètres de cette étape de traitement. Par exemple, dans cet article, un opérateur peut modifier localement le paramétrage du synthétiseur, après exécution du traitement de sélection, pour produire une variante de production de synthèse plus proche de ce qui est attendu.- interactive synthesis. This is described in the article by Peter Rutten, Justin Fackrell "The application of interactive speech unit selection in TTS Systems". Eurospeech 2003. The intervention of the operator is done in the process of synthesis after the execution of an important stage of the treatment and leads to modify the global behavior of the system later by modifying the parameters of this stage of treatment. For example, in this article, an operator can locally modify the parameterization of the synthesizer, after execution of the selection process, to produce a synthetic production variant that is closer to what is expected.
Ces méthodes ont pour inconvénient majeur la faible corrélation entre la modification effectuée par l'opérateur et le résultat final obtenu. Par le terme « faible corrélation », on entend ici que l'opérateur n'a pas une manipulation intuitive du système. Cette manipulation nécessite un apprentissage important avant que l'opérateur soit capable de déterminer le ou les paramètres à modifier pour obtenir un meilleur résultat.These methods have the major disadvantage of the low correlation between the modification performed by the operator and the final result obtained. By the term "low correlation" is meant here that the operator does not have an intuitive manipulation of the system. This manipulation requires significant learning before the operator is able to determine the parameter or parameters to be modified to obtain a better result.
Le but de l'invention est donc de résoudre cet inconvénient en proposant un système et un procédé de synthèse vocale interactif d'utilisation aisée pour un opérateur. L'objet de l'invention est un système de synthèse vocale par concaténation d'unités acoustiques comportant :The object of the invention is therefore to overcome this drawback by proposing an interactive speech synthesis system and method that is easy to use for an operator. The object of the invention is a voice synthesis system by concatenation of acoustic units comprising:
- des moyens de mémorisation d'un texte à synthétiser,means for memorizing a text to be synthesized,
- des moyens de traitement linguistique dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,means for linguistically processing said text to transform said text into a series of phonemes accompanied by prosodic indications,
- des moyens de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique, en fonction de la suite de phonèmes,synthesis means by concatenating pre-recorded elements to restore an acoustic signal, as a function of the series of phonemes,
- des moyens de saisie et d'édition, caractérisé en ce que les moyens de traitement linguistique comportent au moins une unité de traitement élémentaire générant des résultats intermédiaires de traitement linguistique dudit texte, ladite unité de traitement élémentaire étant associée à un éditeur des moyens de saisie et d'édition, permettant à un opérateur de modifier les résultats de l'unité de traitement élémentaire, et ledit système de synthèse vocale comporte en outre des moyens de paramétrage du texte à synthétiser en fonction des résultats modifiés par l'opérateur, et lesdits moyens de traitement linguistiques adaptant le traitement linguistique du texte en fonction dudit paramétrage.input and edit means, characterized in that the linguistic processing means comprise at least one elementary processing unit generating intermediate results of linguistic processing of said text, said elementary processing unit being associated with an editor of the means of inputting and editing, allowing an operator to modify the results of the elementary processing unit, and said voice synthesis system further comprises means for setting the text to be synthesized according to the results modified by the operator, and said linguistic processing means adapting the linguistic processing of the text according to said parameterization.
D'autres caractéristiques sont :Other features are:
- le paramétrage du texte comporte des balises insérées dans le texte à synthétiser ;- The text setting includes tags inserted into the text to be synthesized;
- la ou chaque unité de traitement élémentaire est adaptée pour effectuer l'un des traitements élémentaires de l'ensemble des traitements élémentaires de : a) - validation du texte à synthétiser, b) - découpage du texte en phrases, c) - découpage du texte en groupes de souffle, d) - découpage du texte en mots, e) - modification d'un lexique d'exceptions, f) - phonétisation des mots, g) - analyse grammaticale, h) - prosodie. - les moyens de traitement linguistique comportent des moyens de traitement élémentaires pour effectuer la totalité des traitements élémentaires dudit ensemble de traitements élémentaires.the or each unit of elementary treatment is adapted to perform one of the elementary treatments of all the elementary treatments of: a) validation of the text to be synthesized, b) cutting of the text into sentences, c) cutting of the text in groups of breath, d) - division of text into words, e) - modification of a lexicon of exceptions, f) - phonetization of words, g) - grammatical analysis, h) - prosody. the linguistic processing means comprise elementary processing means for performing all of the elementary treatments of said set of elementary processes.
Un autre objet est un procédé de synthèse vocale par concaténation d'unités acoustiques comportant les étapes de :Another object is a method of concatenating acoustic voice synthesis comprising the steps of:
- stockage d'un texte à synthétiser,- storage of a text to synthesize,
- traitement linguistique dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,linguistic processing of said text to transform said text into a series of phonemes accompanied by prosodic indications,
- génération d'un signal sonore et de résultats intermédiaires à partir de ladite suite,generating a sound signal and intermediate results from said sequence,
- analyse par un opérateur du signal sonore et des résultats intermédiaires,- analysis by an operator of the sound signal and the intermediate results,
- modification par l'opérateur desdits résultats intermédiaires si ledit opérateur établit que la qualité du signal sonore est insuffisante,- modification by the operator of said intermediate results if said operator establishes that the quality of the sound signal is insufficient,
- création et/ou modification de paramètres du texte à synthétiser,creation and / or modification of parameters of the text to be synthesized,
- bouclage sur l'étape de traitement linguistique, celle-ci générant une nouvelle suite de phonèmes tenant compte desdits paramètres.- Looping on the linguistic processing step, the latter generating a new series of phonemes taking into account said parameters.
D'autres caractéristiques de cet objet sontOther features of this object are
- la modification des paramètres consiste à créer/modifier des balises dans le texte à synthétiser ;- the modification of the parameters consists of creating / modifying tags in the text to be synthesized;
- l'étape de la génération de résultats intermédiaires comporte l'une des sous étapes de traitement élémentaire :the step of generating intermediate results comprises one of the elementary treatment sub-stages:
- validation du texte à synthétiser,- validation of the text to be synthesized,
- découpage du texte en phrases,- cutting the text into sentences,
- découpage du texte en groupes de souffle,- cutting the text into groups of breath,
- découpage du texte en mots,- cutting the text into words,
- modification d'un lexique d'exceptions,- modification of a lexicon of exceptions,
- phonétisation des mots,- phonetics of words,
- analyse grammaticale,- grammatical analysis,
- prosodie.- prosody.
- ledit procédé comporte en outre une étape de sélection de la sous étape de traitement élémentaire à exécuter parmi l'ensemble des sous étapes de traitement élémentaire ; - il est exécuté successivement 8 fois et à chaque fois, une sous étape de traitement élémentaire différente est sélectionnée dans l'ordre suivant :said method further comprises a step of selecting the elementary treatment substep to be performed from among the set of elementary treatment substeps; it is executed successively 8 times and each time, a different elementary treatment sub-step is selected in the following order:
- validation du texte à synthétiser,- validation of the text to be synthesized,
- découpage du texte en phrases,- cutting the text into sentences,
- découpage du texte en groupes de souffle,- cutting the text into groups of breath,
- découpage du texte en mots,- cutting the text into words,
- modification d'un lexique d'exceptions,- modification of a lexicon of exceptions,
- phonétisation des mots,- phonetics of words,
- analyse grammaticale,- grammatical analysis,
- prosodie.- prosody.
Un autre objet est un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé lorsque ledit programme est exécuté sur un ordinateur.Another object is a computer program comprising program code instructions for performing the steps of the method when said program is executed on a computer.
Avantageusement, le traitement linguistique est décomposé pour l'opérateur en une série de traitements élémentaires lui permettant de maîtriser l'ensemble des paramètres ayant un impact sur la qualité du flux sonore produit.Advantageously, the linguistic processing is decomposed for the operator into a series of elementary processes allowing him to control all the parameters having an impact on the quality of the sound flow produced.
Pouvant sélectionner l'étape élémentaire sur laquelle il souhaite intervenir, l'opérateur maîtrise avantageusement l'outil de synthèse vocale dans ce qui lui paraît être le détail de son fonctionnement.Being able to select the elementary step on which he wishes to intervene, the operator advantageously controls the speech synthesis tool in what appears to him to be the detail of its operation.
De plus, la suite de traitements élémentaires propose un ordre logique de traitement bien adapté au mode de fonctionnement de l'opérateur alors qu'elle ne correspond pas au fonctionnement interne du système de synthèse.In addition, the sequence of elementary treatments proposes a logic order of treatment well adapted to the mode of operation of the operator while it does not correspond to the internal operation of the synthesis system.
L'invention sera mieux comprise à la lecture de la description qui va suivre, faite uniquement à titre d'exemple, et en relation avec les dessins en annexe dans lesquels :The invention will be better understood on reading the description which follows, made solely by way of example, and in relation to the appended drawings in which:
- la figure 1 est un schéma synoptique d'un système de synthèse vocale selon un mode de réalisation de l'invention ;FIG. 1 is a block diagram of a speech synthesis system according to one embodiment of the invention;
- la figure 2 est un ordinogramme d'un procédé de synthèse vocale selon un mode de réalisation de l'invention ;FIG. 2 is a flow chart of a speech synthesis method according to one embodiment of the invention;
- la figure 3 est une variante du procédé selon la figure 2 ; etFIG. 3 is a variant of the method according to FIG. 2; and
- la figure 4 est un ordinogramme d'un procédé de synthèse vocale utilisant le procédé de la figure 3 selon un ordre de présentation de traitements élémentaires. En référence à la figure 1 , un système 1 de synthèse vocale comporte des moyens 2 d'entrée d'un texte à synthétiser. Ce texte est stocké dans une mémoire tampon 3 sous la forme d'un enregistrement comprenant le texte proprement dit codé, par exemple, selon la norme ISO/IEC 10646 ainsi que des paramètres d'aide au traitement linguistique, par exemple sous forme de balises SSML.FIG. 4 is a flow chart of a speech synthesis method using the method of FIG. 3 according to an order of presentation of elementary processes. With reference to FIG. 1, a voice synthesis system 1 comprises means 2 for inputting a text to be synthesized. This text is stored in a buffer memory 3 in the form of a record comprising the actual coded text, for example, according to the ISO / IEC 10646 standard, as well as linguistic processing aid parameters, for example in the form of tags. SSML.
La mémoire tampon 3 est connectée à des moyens 4 de traitement linguistique de ce texte. Ces moyens 4 de traitement linguistique sont connectés à une seconde mémoire tampon 5 dans laquelle ils stockent le résultat du traitement linguistique sous forme d'une suite de phonèmes accompagnés d'indications prosodiques.The buffer memory 3 is connected to linguistic processing means 4 of this text. These linguistic processing means 4 are connected to a second buffer 5 in which they store the result of the linguistic processing in the form of a series of phonemes accompanied by prosodic indications.
Cette seconde mémoire 5 est connectée à des moyens 6 de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique en fonction de la suite de phonèmes.This second memory 5 is connected to synthesis means 6 by concatenation of prerecorded elements to restore an acoustic signal as a function of the sequence of phonemes.
Le signal acoustique est transformé en sons par des enceintes 7.The acoustic signal is transformed into sounds by speakers 7.
Une description détaillée de ces différents éléments est contenue dans le document de G. Richard et O. Cappé précité.A detailed description of these various elements is contained in the document by G. Richard and O. Cappé cited above.
Le système 1 de synthèse vocale comporte des moyens 8 de saisie et d'édition. Ces moyens 8 de saisie et d'édition comportent des moyens 9 de saisie de type clavier ainsi qu'un outil de pointage 10 tel qu'une souris. Ils comportent également un écran de visualisation 11 et des moyens 12 de pilotage de ces périphériques 9, 10, 11.The voice synthesis system 1 comprises means 8 for inputting and editing. These input and edit means 8 comprise keyboard-type input means 9 and a pointing tool 10 such as a mouse. They also comprise a display screen 11 and means 12 for controlling these devices 9, 10, 11.
De façon avantageuse, ces moyens 8 de saisie et d'édition présentent à un opérateur du système 1 de synthèse vocale une interface graphique conviviale.Advantageously, these input and edit means 8 present to an operator of the voice synthesis system 1 a user-friendly graphical interface.
Les moyens 4 de traitement linguistique comportent une chaîne d'unités 4A, 4B, 4C de traitement élémentaire, chacune de celle-ci traitant un élément particulier de la chaîne de traitement linguistique tel que le découpage du texte en phrases, le découpage des phrases en mots, la phonétisation des mots, l'analyse grammaticale, la prosodie...The linguistic processing means 4 comprise a unit processing unit chain 4A, 4B, 4C, each of which processes a particular element of the linguistic processing chain such as the division of the text into sentences, the division of the sentences into words, the phonetization of words, grammatical analysis, prosody ...
Chaque unité 4A, 4B, 4C de traitement élémentaire est connectée à un éditeur 8A, 8B, 8C spécialisé des moyens 8 de saisie et d'édition permettant à l'opérateur d'intervenir sur les résultats élémentaires de l'unité 4A, 4B, 4C correspondante pour les modifier.Each unit 4A, 4B, 4C of elementary treatment is connected to a specialized editor 8A, 8B, 8C 8 means of input and editing allowing the operator to intervene on the elementary results of the corresponding unit 4A, 4B, 4C to modify them.
Chaque paire constituée d'une unité 4A, 4B, 4C de traitement élémentaire et de son éditeur 8A, 8B, 8C, constitue un module 13A, 13B, 13C de traitement et d'édition pour une étape déterminée du traitement linguistique.Each pair consisting of a unit 4A, 4B, 4C of elementary processing and its editor 8A, 8B, 8C, constitutes a module 13A, 13B, 13C of processing and editing for a determined stage of linguistic processing.
Le système 1 de synthèse vocale comporte des moyens 14 de paramétrage connectés à la première mémoire-tampon 3 et aux modules 13A, 13B, 13C de traitement élémentaire.The voice synthesis system 1 comprises parameterization means 14 connected to the first buffer memory 3 and to the elementary processing modules 13A, 13B, 13C.
Ces moyens 14 de paramétrage ajoutent, modifient ou suppriment les paramètres d'aide au traitement linguistique contenus dans l'enregistrement stocké dans la mémoire tampon en fonction des modifications apportées par l'opérateur sur les résultats élémentaires de l'unité 4A, 4B1 4C de traitement élémentaire de sorte que lors d'un traitement ultérieur de l'enregistrement par les mêmes unités de traitement élémentaire, le résultat élémentaire obtenu en sortie de chaque unité soit le résultat modifié par l'opérateur. Les moyens 14 ne sont pas propres à agir sur le paramétrage proprement dit des unités de traitement élémentaires, ni sur les moyens de synthèse 6.These setting means 14 add, modify or delete the linguistic processing aid parameters contained in the recording stored in the buffer memory according to the modifications made by the operator on the elementary results of the unit 4A, 4B 1 4C. of elementary processing so that during a subsequent processing of the recording by the same elementary processing units, the elementary result obtained at the output of each unit is the result modified by the operator. The means 14 are not suitable for acting on the actual parameter setting of the elementary processing units, nor on the synthesis means 6.
Dans un mode de réalisation préféré, le système 1 de synthèse vocale comporte 8 modules correspondant à 8 étapes du traitement linguistique du texte.In a preferred embodiment, the speech synthesis system 1 comprises 8 modules corresponding to 8 stages of the linguistic processing of the text.
Le premier module porte sur le texte lui-même. Il permet à l'opérateur de valider que le texte à synthétiser lui convient. Optionnellement, ce module permet d'enrichir le texte avec des balises de changement de voix.The first module deals with the text itself. It allows the operator to validate that the text to be synthesized suits him. Optionally, this module enriches the text with change of voice tags.
La technique utilisée par ce premier module est décrite dans l'état de la technique, par exemple dans la standardisation du langage SSML du W3C.The technique used by this first module is described in the state of the art, for example in the standardization of the W3C SSML language.
Le deuxième module porte sur le découpage du texte en phases. L'éditeur montre à l'opérateur les frontières de phases qui peuvent ainsi être supprimées, déplacées ou insérées.The second module deals with the division of text into phases. The editor shows the operator which phase boundaries can be deleted, moved or inserted.
Le troisième module porte sur le découpage en groupes de souffle. L'éditeur met en évidence les groupes de souffle et les durées des pauses entre les groupes. L'opérateur peut modifier le placement des pauses et leurs durées. Le quatrième module porte sur le découpage en mots. L'éditeur met en évidence les regroupements de mots qui ont un lien. L'opérateur peut séparer des mots ou en regrouper d'autres pour former des locutions.The third module deals with splitting into breath groups. The publisher highlights breath groups and break times between groups. The operator can change the placement of breaks and their durations. The fourth module deals with the division into words. The publisher highlights the groupings of words that have a link. The operator can separate words or group others to form phrases.
Le cinquième module porte sur le lexique. L'opérateur intervient sur les données en ajoutant, modifiant ou supprimant des entrées du lexique d'exception.The fifth module deals with the lexicon. The operator intervenes on the data by adding, modifying or deleting entries of the exception lexicon.
Le sixième module porte sur la phonétisation des mots. L'éditeur présente à l'opérateur la ou les formes phonétiques de chaque mot sur lesquels le système se base pour vocaliser le texte. L'opérateur intervient sur le choix des variantes de prononciation, les liaisons, le e muet,... Il est à noter que ce module se différentie du module précédent portant sur le lexique en ce qu'il ne modifie pas les données mais le résultat du processus de phonétisation.The sixth module deals with the phonetization of words. The editor presents to the operator the phonetic form or forms of each word on which the system is based to vocalize the text. The operator intervenes on the choice of the variants of pronunciation, the connections, the e dumb, ... It should be noted that this module differs from the preceding module on the lexicon in that it does not modify the data but the result of the phonetization process.
Le septième module porte sur l'analyse grammaticale. L'éditeur présente à l'opérateur le résultat de l'analyse grammaticale et les règles ayant abouti à ce résultat. L'opérateur peut modifier le choix des règles et des marqueurs grammaticaux associés à chacun des mots ou groupe de mots.The seventh module deals with grammatical analysis. The editor presents the operator with the result of the grammar analysis and the rules that resulted in this result. The operator can modify the choice of grammar rules and markers associated with each word or group of words.
Le huitième module porte sur la prosodie. L'éditeur présente à l'opérateur les informations prosodiques sous forme de courbes ou de tableaux de valeurs que l'opérateur peut modifier.The eighth module is about prosody. The editor presents the operator with prosodic information in the form of curves or tables of values that the operator can modify.
Le fonctionnement de chaque unité de traitement élémentaire et de son module d'interfaçage associé va maintenant être explicité en relation avec la figure 2.The operation of each elementary processing unit and its associated interfacing module will now be explained in relation to FIG. 2.
Le texte étant stocké en 20 dans le système 1 de synthèse vocale, une synthèse vocale complète, jusqu'à la génération du signal sonore, est effectuée en 21. L'opérateur a ainsi un signal sonore de référence pour son analyse.Since the text is stored at 20 in the voice synthesis system 1, a complete speech synthesis, until the sound signal is generated, is performed at 21. The operator thus has a reference sound signal for his analysis.
Cette synthèse 21 comporte successivement une étape de traitement linguistique 22 et une étape de synthèse par concaténation 23 comme expliqué précédemment.This synthesis 21 comprises successively a linguistic processing step 22 and a concatenation synthesis step 23 as explained above.
Lors de l'étape de traitement linguistique 22, l'une des unités 4A1 4B, 4C de traitement élémentaire génère en 24 des résultats intermédiaires. Par exemple, les moyens d'analyse grammaticale génèrent un résultat d'analyse grammaticale accompagné des règles utilisées. Le résultat sonore ainsi que les résultats intermédiaires obtenus sont présentés à l'opérateur en 25.During the linguistic processing step 22, one of the units 4A 1 4B, 4C of elementary processing generates in 24 intermediate results. For example, the grammatical analysis means generate a grammatical analysis result accompanied by the rules used. The sound result and the intermediate results obtained are presented to the operator at 25.
Si le résultat sonore est conforme en 26 aux attentes de l'opérateur, celui-ci est validé en 27 ainsi que les résultats intermédiaires.If the sound result is in accordance with 26 expectations of the operator, it is validated in 27 and the intermediate results.
Si le résultat sonore et/ou les résultats intermédiaires ne sont pas conformes aux attentes de l'opérateur, celui-ci modifie en 28 les résultats intermédiaires en utilisant le module d'interface correspondant.If the sound result and / or intermediate results are not in accordance with the expectations of the operator, it modifies the intermediate results in 28 using the corresponding interface module.
Ces modifications sont prises en compte en 29 par le système 1 de synthèse vocale sous forme d'une modification des paramètres d'aide au traitement linguistique contenus dans le texte mémorisé. De façon préférentielle, cette prise en compte est faite sous la forme d'un enrichissement ou d'une modification de l'enrichissement du texte à synthétiser.These modifications are taken into account at 29 by the voice synthesis system 1 in the form of a modification of the linguistic processing aid parameters contained in the memorized text. Preferably, this consideration is made in the form of an enrichment or a modification of the enrichment of the text to be synthesized.
Puis l'étape 21 de synthèse vocale est exécutée de nouveau en utilisant le nouveau texte enrichi.Then the voice synthesis step 21 is executed again using the new enriched text.
Le procédé d'amélioration boucle jusqu'à ce que l'opérateur soit satisfait du résultat obtenu.The improvement process loops until the operator is satisfied with the result obtained.
On conçoit que pour obtenir un flux sonore ayant toutes les caractéristiques souhaitées par l'opérateur, il peut être nécessaire d'intervenir sur plusieurs traitements élémentaires.It is conceivable that to obtain a sound flow having all the characteristics desired by the operator, it may be necessary to intervene on several elementary treatments.
Dans un mode préférentiel de réalisation, figure 3, le procédé de synthèse vocale comporte en outre une étape 30 de sélection du module de traitement élémentaire dont les résultats intermédiaires vont être analysés et, éventuellement, modifiés par l'opération.In a preferred embodiment, FIG. 3, the speech synthesis method further includes a step 30 of selecting the elementary processing module whose intermediate results will be analyzed and possibly modified by the operation.
Ainsi, l'opérateur peut avantageusement choisir le type de traitement élémentaire dont il souhaite analyser et modifier les résultats.Thus, the operator can advantageously choose the type of elementary treatment which he wishes to analyze and modify the results.
De manière avantageuse, figure 4 les modifications sont faites dans l'ordre de présentation des unités de traitement élémentaire suivant.Advantageously, FIG. 4 the modifications are made in the order of presentation of the following elementary treatment units.
L'opérateur commence en 40 par éditer le texte par l'intermédiaire du premier module associé aux unités de traitement élémentaire du texte lui-même.The operator starts at 40 by editing the text via the first module associated with the basic processing units of the text itself.
Puis, quand il a obtenu un résultat satisfaisant à ce niveau, l'opérateur lance en 41 le deuxième module de découpage du texte en phrases.Then, when he has obtained a satisfactory result at this level, the operator launches at 41 the second module for cutting the text into sentences.
Après obtention d'un résultat intermédiaire satisfaisant, il lance en 42 le troisième module de découpage en groupes de souffle, puis en 43 le quatrième module de découpage en mots, puis en 44 le cinquième module du lexique, puis en 45 le sixième module de phonétisation des mots, puis en 46 le septième module d'analyse grammaticale, puis en 47 le huitième module de prosodie.After obtaining a satisfactory intermediate result, it launches at 42 the third module of division into groups of breath, then in 43 the fourth word cutting module, then 44 the fifth module of the lexicon, then 45 the sixth word phonation module, then 46 the seventh grammatical analysis module, then 47 the eighth prosody module.
Ce mode de réalisation est remarquable en ce qu'il suit un ordre logique pour l'opérateur mais qui ne correspond pas à l'organisation des traitements à l'intérieur d'un analyseur linguistique d'un système de synthèse vocale classique.This embodiment is remarkable in that it follows a logical order for the operator but does not correspond to the organization of the processing within a linguistic analyzer of a conventional speech synthesis system.
L'opérateur peut également revenir en arrière pour modifier les résultats intermédiaires d'un des modules déjà traités, par exemple parce qu'il s'est aperçu tardivement d'une erreur. The operator can also go back to modify the intermediate results of one of the modules already treated, for example because he noticed a mistake late.

Claims

REVENDICATIONS
1. Système de synthèse vocale par concaténation d'unités acoustiques comportant :1. Concatenated voice synthesis system for acoustic units comprising:
- des moyens de mémorisation (2) d'un texte à synthétiser,means for memorizing (2) a text to be synthesized,
- des moyens (4) de traitement linguistique dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,means (4) for linguistic processing of said text to transform said text into a series of phonemes accompanied by prosodic indications,
- des moyens (6) de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique, en fonction de la suite de phonèmes,- means (6) of synthesis by concatenation of prerecorded elements to restore an acoustic signal, as a function of the sequence of phonemes,
- des moyens (8) de saisie et d'édition, caractérisé en ce que les moyens (4) de traitement linguistique comportent au moins une unité (4A, 4B, 4C) de traitement élémentaire générant des résultats intermédiaires de traitement linguistique dudit texte, ladite unité de traitement élémentaire étant associée à un éditeur (8A, 8B, 8C) des moyens de saisie et d'édition (8), permettant à un opérateur de modifier les résultats de l'unité (4A, 4B, 4C) de traitement élémentaire, et en ce que ledit système de synthèse vocale comporte en outre des moyens (14) de paramétrage du texte à synthétiser en fonction des résultats modifiés par l'opérateur, et lesdits moyens (4) de traitement linguistiques adaptant le traitement linguistique du texte en fonction dudit paramétrage.means (8) for inputting and editing, characterized in that the linguistic processing means (4) comprise at least one unit (4A, 4B, 4C) of elementary processing generating intermediate results of linguistic processing of said text, said elementary processing unit being associated with an editor (8A, 8B, 8C) of inputting and editing means (8), allowing an operator to modify the results of the processing unit (4A, 4B, 4C) elementary, and in that said voice synthesis system further comprises means (14) for parameterizing the text to be synthesized according to the results modified by the operator, and said linguistic processing means (4) adapting the linguistic processing of the text according to said parameterization.
2. Système de synthèse vocale selon la revendication 1 , caractérisé en ce que le paramétrage du texte comporte des balises insérées dans le texte à synthétiser.2. Voice synthesis system according to claim 1, characterized in that the text setting includes tags inserted into the text to be synthesized.
3. Système de synthèse vocale selon la revendication 1 ou 2, caractérisé en ce que la ou chaque unité de traitement élémentaire est adaptée pour effectuer l'un des traitements élémentaires de l'ensemble des traitements élémentaires de : a) - validation du texte à synthétiser, b) - découpage du texte en phrases, c) - découpage du texte en groupes de souffle, d) - découpage du texte en mots, e) - modification d'un lexique d'exceptions, f) - phonétisation des mots, g) - analyse grammaticale, h) - prosodie.3. Voice synthesis system according to claim 1 or 2, characterized in that the or each unit of elementary treatment is adapted to perform one of the elementary treatments of all the elementary treatments of: a) - validation of the text to synthesize, b) - splitting the text into sentences, c) - splitting the text into groups of breath, d) - splitting the text into words, e) - modifying a lexicon of exceptions, f) - phonetization of words, g) - grammatical analysis, h) - prosody.
4. Système de synthèse vocale selon la revendication 3, caractérisé en ce que les moyens de traitement linguistique comportent des moyens de traitement élémentaires pour effectuer la totalité des traitements élémentaires dudit ensemble de traitements élémentaires.4. Voice synthesis system according to claim 3, characterized in that the linguistic processing means comprise elementary processing means for performing all the elementary treatments of said set of elementary treatments.
5. Procédé de synthèse vocale par concaténation d'unités acoustiques comportant les étapes de :5. Process for concatenating acoustic voice synthesis comprising the steps of:
- stockage (20) d'un texte à synthétiser,storage (20) of a text to be synthesized,
- traitement linguistique (22) dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,linguistic processing (22) of said text to transform said text into a series of phonemes accompanied by prosodic indications,
- génération (23,24) d'un signal sonore et de résultats intermédiaires à partir de ladite suite,generating (23,24) a sound signal and intermediate results from said sequence,
- analyse (25) par un opérateur du signal sonore et des résultats intermédiaires,- analysis (25) by an operator of the sound signal and intermediate results,
- modification (28) par l'opérateur desdits résultats intermédiaires si ledit opérateur établit que la qualité du signal sonore est insuffisante,- modification (28) by the operator of said intermediate results if said operator establishes that the quality of the sound signal is insufficient,
- création et/ou modification (29) de paramètres du texte à synthétiser,creation and / or modification (29) of parameters of the text to be synthesized,
- bouclage sur l'étape de traitement linguistique, celle-ci générant une nouvelle suite de phonèmes tenant compte desdits paramètres.- Looping on the linguistic processing step, the latter generating a new series of phonemes taking into account said parameters.
6. Procédé de synthèse vocale selon la revendication 5, caractérisé en ce que la modification des paramètres consiste à créer/modifier des balises dans le texte à synthétiser.6. speech synthesis method according to claim 5, characterized in that the modification of the parameters consists in creating / modifying tags in the text to be synthesized.
7. Procédé de synthèse vocale selon la revendication 5 ou 6, caractérisé en ce que l'étape de la génération de résultats intermédiaires comporte l'une des sous étapes de traitement élémentaire :A speech synthesis method according to claim 5 or 6, characterized in that the step of generating intermediate results comprises one of the basic processing sub-steps:
- validation du texte à synthétiser,- validation of the text to be synthesized,
- découpage du texte en phrases,- cutting the text into sentences,
- découpage du texte en groupes de souffle,- cutting the text into groups of breath,
- découpage du texte en mots,- cutting the text into words,
- modification d'un lexique d'exceptions,- modification of a lexicon of exceptions,
- phonétisation des mots, - analyse grammaticale,- phonetics of words, - grammatical analysis,
- prosodie.- prosody.
8. Procédé de synthèse vocale selon la revendication 7, caractérisé en ce qu'il comporte en outre une étape de sélection (30) de la sous étape de traitement élémentaire à exécuter parmi l'ensemble des sous étapes de traitement élémentaire.8. speech synthesis method according to claim 7, characterized in that it further comprises a step of selecting (30) the substep of elementary processing to be performed among all the substeps of elementary treatment.
9. Procédé de synthèse vocale caractérisé en ce que le procédé de la revendication 8 est exécuté successivement 8 fois et qu'à chaque fois, une sous étape de traitement élémentaire différente est sélectionnée dans l'ordre suivant :9. Voice synthesis method characterized in that the method of claim 8 is executed successively 8 times and that each time, a different elementary sub-step is selected in the following order:
- validation du texte à synthétiser,- validation of the text to be synthesized,
- découpage du texte en phrases,- cutting the text into sentences,
- découpage du texte en groupes de souffle,- cutting the text into groups of breath,
- découpage du texte en mots,- cutting the text into words,
- modification d'un lexique d'exceptions,- modification of a lexicon of exceptions,
- phonétisation des mots,- phonetics of words,
- analyse grammaticale,- grammatical analysis,
- prosodie.- prosody.
10. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'une des revendications 5 à 9 lorsque ledit programme est exécuté sur un ordinateur. A computer program comprising program code instructions for performing the steps of the method according to one of claims 5 to 9 when said program is executed on a computer.
PCT/FR2006/002745 2005-12-16 2006-12-15 Voice synthesis by concatenation of acoustic units WO2007071834A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE602006012540T DE602006012540D1 (en) 2005-12-16 2006-12-15 SPEECH PRODUCTION BY CONNECTING ACOUSTIC UNITS
EP06841948A EP1960996B1 (en) 2005-12-16 2006-12-15 Voice synthesis by concatenation of acoustic units

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0512854A FR2895133A1 (en) 2005-12-16 2005-12-16 SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD.
FR0512854 2005-12-16

Publications (1)

Publication Number Publication Date
WO2007071834A1 true WO2007071834A1 (en) 2007-06-28

Family

ID=36716805

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2006/002745 WO2007071834A1 (en) 2005-12-16 2006-12-15 Voice synthesis by concatenation of acoustic units

Country Status (4)

Country Link
EP (1) EP1960996B1 (en)
DE (1) DE602006012540D1 (en)
FR (1) FR2895133A1 (en)
WO (1) WO2007071834A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PETER RUTTEN ET AL: "The application of interactive speech unit selection in TTS systems", EUROSPEECH 2003, September 2003 (2003-09-01), pages 285 - 288, XP007006675 *

Also Published As

Publication number Publication date
EP1960996A1 (en) 2008-08-27
EP1960996B1 (en) 2010-02-24
DE602006012540D1 (en) 2010-04-08
FR2895133A1 (en) 2007-06-22

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US8352270B2 (en) Interactive TTS optimization tool
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
KR100811568B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US20160027431A1 (en) Systems and methods for multiple voice document narration
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP2007249212A (en) Method, computer program and processor for text speech synthesis
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2003295882A (en) Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor
US7912718B1 (en) Method and system for enhancing a speech database
US7895037B2 (en) Method and system for trimming audio files
EP1846918B1 (en) Method of estimating a voice conversion function
EP1960996B1 (en) Voice synthesis by concatenation of acoustic units
JP4409279B2 (en) Speech synthesis apparatus and speech synthesis program
JP2003186489A (en) Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling
Guennec Study of unit selection text-to-speech synthesis algorithms
JP2009020264A (en) Voice synthesis device and voice synthesis method, and program
Mac Lochlainn Sintéiseoir 1.0: a multidialectical TTS application for Irish
JP6159436B2 (en) Reading symbol string editing device and reading symbol string editing method
WO2007028871A1 (en) Speech synthesis system having operator-modifiable prosodic parameters
Saito et al. A method of creating a new speaker's VoiceFont in a text-to-speech system
JPS63208098A (en) Voice synthesizer
JPH0756589A (en) Voice synthesis method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006841948

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006841948

Country of ref document: EP