WO2007028871A1 - Speech synthesis system having operator-modifiable prosodic parameters - Google Patents

Speech synthesis system having operator-modifiable prosodic parameters Download PDF

Info

Publication number
WO2007028871A1
WO2007028871A1 PCT/FR2006/001967 FR2006001967W WO2007028871A1 WO 2007028871 A1 WO2007028871 A1 WO 2007028871A1 FR 2006001967 W FR2006001967 W FR 2006001967W WO 2007028871 A1 WO2007028871 A1 WO 2007028871A1
Authority
WO
WIPO (PCT)
Prior art keywords
prosodic
text
sound
prosody
parameters
Prior art date
Application number
PCT/FR2006/001967
Other languages
French (fr)
Inventor
Edouard Hinard
Cédric BOIDIN
Laurent Roussarie
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2007028871A1 publication Critical patent/WO2007028871A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the present invention relates to a system and method for voice synthesis by concatenating acoustic units.
  • a speech synthesis string from a text comprises the steps of: linguistic processing for extracting linguistic information relevant to the synthesis from the text,
  • phonetic transcription transforming the linguistic information into a phonetic string comprising a series of target acoustic units.
  • This phonetic transcription can be accompanied by a generation of prosodic information
  • selection of the candidate acoustic units that is to say selection of the fragments of pre-recorded words that will be used for the synthesis
  • the prosodic generation step that uses a prosody model to generate a target prosody.
  • the target prosody is the prosody imposed by the system. It can be used in the selection step and / or in the signal processing step,
  • the step of selecting the acoustic units which consists in selecting, in a database, prerecorded speech segments that will be used. for the synthesis, and who use or not the target prosody, - the step of processing the signal that creates the final signal.
  • Signal processing methods allow for prosodic modifications to effectively obtain the target prosody.
  • the object of the invention is therefore to remedy this drawback by proposing an interactive voice synthesis system in which the user-provided parameter changes have a direct relationship with the expected result. This advantageously allows such a system to be used by an operator with little experience.
  • the object of the invention is therefore a voice synthesis system of a text by concatenation of acoustic units comprising:
  • - Prosodic generation means capable of generating a target prosody of the text in the form of a set of prosodic parameters
  • - candidate acoustic unit selection means capable of generating a stream of candidate acoustic units representative of the text and the target prosody of it
  • signal processing means able to create the sound signal representative of the text and comprising: means for concatenating the flow of candidate acoustic units into a first intermediate flow, and
  • editing means adapted to allow a user to apply modifications to the parameters of the speech synthesis system so that he generates a new sound flow
  • the editing means are adapted to edit the prosody generated with the final sound stream and to modify the prosodic parameters of the unit selection means and / or the prosodic modification means before the creation of a new sound signal by the means ( 8) signal processing.
  • the modifiable prosodic parameters are at least the fundamental frequency, the duration and / or the energy
  • the modifiable prosodic parameters relate to the phonemes, the syllables, the words, the groups of words, the sentence of the text or a combination of these;
  • Another object of the invention is a method for the vocal synthesis of a paracatenation text of acoustic units comprising the steps of: a) prosodic generation of a target prosody of the text in the form of a set of prosodic parameters, b) selection of candidate acoustic units in the form of a representative flow of the text and the target prosody thereof; c) concatenation of the flow of candidate acoustic units into an intermediate sound flux; and d) prosodic modification of this sound flux.
  • the modifiable prosodic parameters are at least the fundamental frequency, the duration and / or the energy
  • the modifiable prosodic parameters relate to the phonemes, the syllables, the words, the groups of words, the sentences of the text or a combination of these.
  • Another object is a computer program product including program code instructions recorded on a computer readable medium, for implementing the steps of the method when said program is running on a computer.
  • Another object is a data carrier supporting the computer program.
  • it is the prosody of the sound flow generated during a first pass that serves as a target for the second pass or, in general, it is the prosody generated at a given iteration that serves as a basis for the prosody target used at the next iteration.
  • the prosodic parameters that can be modified by the user are advantageously the parameters such as the fundamental frequency, the duration and / or the energy of which the relationship with the qualities of the sound flow is directly perceptible to the user, even if he is not very experienced.
  • the system and the method advantageously make it possible to apply the prosodic modifications to all or part of the text to be synthesized and according to a totally configurable particle size.
  • the modification can be applied to phonemes as well as to syllables, words, groups of words or sentences of the text: The invention will be better understood on reading the description which follows, made solely as a example and in connection with the appended drawings in which:
  • FIG. 1 is a simplified diagram of a voice synthesis system according to the invention
  • FIG. 2 is a flow diagram of the method according to the invention
  • FIG. 3 is an example of display of the information by the editing means.
  • FIG. 4 is a second example of information display by the interface means.
  • a voice synthesis system 1 is intended to transform a text 2 into a sound wave 3.
  • the text 2 is entered in the system 1 by means of input means 4 which transforms it into a file , typically to UNICODE standard.
  • This file is processed by linguistic processing means 5 making it possible to extract from the text information relevant for the synthesis by a linguistic analysis of this text.
  • This linguistic information is used by the phonetic transcription and prosodic generation means.
  • This transcription not necessarily unique, is in the form of a series of target acoustic units, augmented by additional information representing the target prosody of this text.
  • This target prosody is in the form of a set of prosodic parameters such as, for example, fundamental frequency, duration or energy.
  • the voice synthesis system 1 also comprises means 7 for selecting candidate acoustic units.
  • These candidate acoustic units are prerecorded speech pieces corresponding to phonemes, diphones, syllables ... and represent a sound variation of a basic acoustic unit, for example a variation of length, size, ...
  • These selection means 7 generate a stream of candidate acoustic units representative of the text to be synthesized and the target prosody defined above.
  • This stream of candidate acoustic units is processed by signal processing means 8 to produce a sound flux. This sound stream is used by listening means 9 to generate the sound wave 3.
  • the signal processing means 8 comprise means 10 for concatenating the flow of candidate acoustic units into a single intermediate sound flux.
  • the signal processing means 8 also comprise prosodic modification means 11 capable of modifying this intermediate sound flux as a function of the parameters of the target prosody in order to obtain the final sound flux.
  • the voice synthesis system 1 also comprises editing means 12 of the prosodic parameters. These editing means 12 allow a user, through a visual interface to edit the prosody generated with the final sound flow and modify the prosodic parameters used by the unit selection means and / or the means of prosodic modifications.
  • voice synthesis system 1 The operation of voice synthesis system 1 will now be described as a method, with reference to FIG. 2. The method starts in step 20.
  • a target prosody is generated in 21 from the text 2 by the implementation of well known means described above.
  • the candidate acoustic units are selected at 22 as a representative stream of the text and the target prosody thereof. This stream is concatenated in 23 into a single intermediate sound stream.
  • Prosodic modifications are then applied at 24 on this intermediate sound flow, depending on the target prosody, to obtain a final sound flow.
  • This sound stream is listened to by the user. It is, in parallel, presented visually at 26 on the interface 13.
  • the method executes a new step 22 of selecting the candidate acoustic units and / or only a prosodic modification at 24 of the intermediate sound flux.
  • Figure 3 is shown an example of a user interface.
  • This figure shows the structure of the sound flux generated by the system during the first phase. It contains in particular a curve at 31 representing the main prosodic information of the sound flow generated: the fundamental frequency at 32 and the duration of the different segments that constitute this stream at 33.
  • Figure 4 shows the structure of the sound flow with a prosody being modified by the operator.
  • the operator considers that the first part of the stream does not need to be modified.
  • This first part is referenced 40.
  • a second part referenced 41, requires prosodic modifications. It can make modifications on all the prosodic parameters such as the fundamental frequency, the duration or the energy and with several possible scales as for example at the level of the phoneme, the syllable, the word, the group of words or the sentence .
  • the modified prosody is thus represented by the curve 42.
  • the juxtaposition of the prosody of the two parts namely the prosody of the unmodified part and the new prosody associated with the modified part give a new target prosody.
  • the voice synthesis system 1 generates a new sound flow from this new target prosody.
  • the speech synthesis system described is, preferably, embodied as a computer program executable on a conventional computer, for example a workstation, comprising a sound card and loudspeakers.
  • the invention also relates to a computer program comprising software instructions for executing the method previously described by the routing equipment.
  • This computer program can be stored or transmitted by a data carrier.
  • This may be a hardware storage medium such as a CD-ROM, a magnetic diskette or a hard disk, or a transmissible medium such as an electrical signal, optical or radio.
  • it is the prosody of the sound flow generated during a first pass that serves as a target for the second pass or, in general, it is the prosody generated at a given iteration that serves as a basis for the prosody target used at the next iteration.
  • the user-modifiable prosodic parameters are advantageously the parameters such as the fundamental frequency, the duration and / or the energy of which the relationship with the qualities of the sound flow is directly perceptible to the user, even if he is not very experienced.
  • the system and method thus described advantageously make it possible to apply the prosodic modifications to all or part of the text to be synthesized and according to a totally configurable particle size.
  • the This modification can be applied to phonemes as well as to syllables, words, groups of words or sentences of the text.

Abstract

The invention concerns a system for speech synthesis of a text by concatenation of acoustic units comprising means for: generating (6) a target prosody in the form of a set of prosodic parameters; selecting (7) candidate acoustic units; and processing the signal (8) to create the sound signal including: means (10) for concatenation of the candidate acoustic units into a first intermediate stream; and means (11) for prosodic modification of said intermediate audio stream based on the target prosody so as to obtain the sound signal, and said system comprising: means (9) enabling the final sound signal to be listened to by a user; and means (12) enabling the speech synthesis system to be edited by the user, for editing the prosody generated with the sound signal and for modifying the prosodic parameters of the unit selecting means (7) and/or of the prosodic modifying means (11) prior to the creation of a new sound signal.

Description

Système de synthèse vocale avant des paramètres prosodiques modifiables par un opérateur. Voice synthesis system before prosodic parameters modifiable by an operator.
La présente invention concerne un système et un procédé de synthèse vocale par concaténation d'unités acoustiques.The present invention relates to a system and method for voice synthesis by concatenating acoustic units.
La synthèse vocale par concaténation d'unités acoustiques utilise un certain nombre de principes connus.Concatenated vocal synthesis of acoustic units uses a number of known principles.
Typiquement, une chaîne de synthèse vocale à partir d'un texte comprend les étapes de : - traitement linguistique permettant d'extraire du texte des informations linguistiques pertinentes pour la synthèse,Typically, a speech synthesis string from a text comprises the steps of: linguistic processing for extracting linguistic information relevant to the synthesis from the text,
- transcription phonétique transformant les informations linguistiques en une chaîne phonétique comportant une suite d'unités acoustiques cibles. Cette transcription phonétique peut s'accompagner d'une génération d'informations prosodiques,phonetic transcription transforming the linguistic information into a phonetic string comprising a series of target acoustic units. This phonetic transcription can be accompanied by a generation of prosodic information,
- sélection des unités acoustiques candidates, c'est-à-dire sélection des fragments de paroles préenregistrées qui seront utilisés pour la synthèse, etselection of the candidate acoustic units, that is to say selection of the fragments of pre-recorded words that will be used for the synthesis, and
- synthèse du signal consistant à concaténer les unités acoustiques candidates sélectionnées pour former le signal sonore demandé. Cette synthèse vocale peut également s'accompagner de modifications prosodiques. La prosodie se retrouve ainsi dans trois des étapes citées :signal synthesis consisting in concatenating the selected candidate acoustic units to form the requested sound signal. This vocal synthesis can also be accompanied by prosodic modifications. The prosody is thus found in three of the steps mentioned:
- l'étape de génération prosodique qui utilise un modèle de prosodie pour générer une prosodie cible. La prosodie cible est la prosodie imposée par le système. Elle est utilisable dans l'étape de sélection et/ou dans l'étape de traitement du signal,- The prosodic generation step that uses a prosody model to generate a target prosody. The target prosody is the prosody imposed by the system. It can be used in the selection step and / or in the signal processing step,
- l'étape de sélection des unités acoustiques qui consiste à sélectionner, dans une base de données, des segments de paroles préenregistrées qui seront utilisés. pour la synthèse, et qui utilisent ou non la prosodie cible, - l'étape de traitement du signal qui crée le signal final. Des méthodes de traitement du signal permettent d'effectuer des modifications prosodiques de manière à obtenir effectivement la prosodie cible.the step of selecting the acoustic units, which consists in selecting, in a database, prerecorded speech segments that will be used. for the synthesis, and who use or not the target prosody, - the step of processing the signal that creates the final signal. Signal processing methods allow for prosodic modifications to effectively obtain the target prosody.
L'élaboration d'un modèle de prosodie est un sujet bien connu de l'homme du métier. Cependant, aucun modèle ne permet actuellement de générer une prosodie parfaite, qui donnerait un ton naturel. Aussi, pour obtenir cette prosodie parfaite, il a été proposé d'utiliser des systèmes de synthèse vocale assistés par un opérateur. Un tel système est décrit par exemple dans la demande de brevet US 2003/02 29494 de RUTTEN et al. Dans cette demande de brevet, l'opérateur agit itérativement. Il écoute la phrase produite par le système et peux ensuite ajuster les paramètres de l'étape de sélection puis lancer une nouvelle sélection. Ce processus est réitéré jusqu'à ce que l'opérateur obtienne la solution qui lui convienne.The development of a prosody model is a subject well known to those skilled in the art. However, no model currently allows to generate a perfect prosody, which would give a natural tone. Also, to obtain this perfect prosody, it has been proposed to use voice synthesis systems assisted by an operator. Such a system is described for example in US Patent Application 2003/02 29494 RUTTEN et al. In this patent application, the operator acts iteratively. He listens to the sentence produced by the system and can then adjust the parameters of the selection step and start a new selection. This process is repeated until the operator obtains the solution that suits him.
L'inconvénient d'un tel système est que la relation entre des modifications effectuées par l'opérateur et le résultat entendu n'est pas intuitif. Il est ainsi difficile à l'opérateur de prédire le résultat des modifications proposées.The disadvantage of such a system is that the relationship between changes made by the operator and the result heard is not intuitive. It is thus difficult for the operator to predict the result of the proposed changes.
Le but de l'invention est donc de remédier à cet inconvénient en proposant un système de synthèse vocale interactif dans lequel ies-modifications de paramètres apportées par l'utilisateur ont une relation directe avec le résultat attendu. Cela permet avantageusement à un tel système d'être utilisé par un opérateur n'ayant qu'une faible expérience.The object of the invention is therefore to remedy this drawback by proposing an interactive voice synthesis system in which the user-provided parameter changes have a direct relationship with the expected result. This advantageously allows such a system to be used by an operator with little experience.
L'objet de l'invention est donc un système de synthèse vocale d'un texte par concaténation d'unités acoustiques comportant :The object of the invention is therefore a voice synthesis system of a text by concatenation of acoustic units comprising:
- des moyens de génération prosodique aptes à générer une prosodie cible du texte sous forme d'un ensemble de paramètres prosodiques, - des moyens de sélection d'unités acoustiques candidates aptes à générer un flux d'unités acoustiques candidates représentatifs du texte et de la prosodie cible de celui-ci,- Prosodic generation means capable of generating a target prosody of the text in the form of a set of prosodic parameters, - candidate acoustic unit selection means capable of generating a stream of candidate acoustic units representative of the text and the target prosody of it,
- des moyens de traitement du signal aptes à créer le signal sonore représentatif du texte et comportant : - des moyens de concaténation du flux d'unités acoustiques candidates en un premier flux intermédiaire, etsignal processing means able to create the sound signal representative of the text and comprising: means for concatenating the flow of candidate acoustic units into a first intermediate flow, and
- des moyens de modification prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible afin d'obtenir le flux sonore final, et ledit système comportant en outre - des moyens d'écoute du flux sonore final par un utilisateur, etmeans of prosodic modification of this intermediate sound flux as a function of the target prosody in order to obtain the final sound flux, and said system further comprising means for listening to the final sound flow by a user, and
- des moyens d'édition aptes à permettre à un utilisateur d'appliquer des modifications aux paramètres du système de synthèse vocale pour qu'il génère un nouveau flux sonore, et les moyens d'édition sont adaptés pour éditer la prosodie générée avec le flux sonore final et modifier les paramètres prosodiques des moyens de sélection d'unité et/ou des moyens de modification prosodique avant la création d'un nouveau signal sonore par les moyens (8) de traitement du signal. D'autres caractéristiques de l'invention sontediting means adapted to allow a user to apply modifications to the parameters of the speech synthesis system so that he generates a new sound flow, and the editing means are adapted to edit the prosody generated with the final sound stream and to modify the prosodic parameters of the unit selection means and / or the prosodic modification means before the creation of a new sound signal by the means ( 8) signal processing. Other features of the invention are
- les paramètres prosodiques modifiables sont au moins la fréquence fondamentale, la durée et/ou l'énergie ;the modifiable prosodic parameters are at least the fundamental frequency, the duration and / or the energy;
- les paramètres prosodiques modifiables portent sur les phonèmes, les syllabes, les mots, les groupes de mots, la phrase du texte ou une combinaison de ceux-ci ;the modifiable prosodic parameters relate to the phonemes, the syllables, the words, the groups of words, the sentence of the text or a combination of these;
Un autre objet de l'invention est un procédé de synthèse vocale d'un texte parconcaténation d'unités acoustiques comportant les étapes de : a) génération prosodique d'une prosodie cible du texte sous forme d'un ensemble de paramètres prosodiques, b) sélection d'unités acoustiques candidates sous forme d'un flux représentatif du texte et de la prosodie cible de celui-ci, c) concaténation du flux d'unités acoustiques candidates en un flux sonore intermédiaire, et d) modification prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible pour obtenir le flux sonore final, e) écoute par un utilisateur du flux sonore ainsi généré, et f) modification des paramètres du système de synthèse vocale puis branchement sur l'étape b) si l'utilisateur considère le flux sonore généré incorrect, les modifications portant sur les paramètres prosodiques utilisés par les étapes de sélection d'unités acoustiques candidates et/ou de modification prosodique en fonction de la prosodie générée avec le flux sonore final. D'autres caractéristiques de ce procédé sontAnother object of the invention is a method for the vocal synthesis of a paracatenation text of acoustic units comprising the steps of: a) prosodic generation of a target prosody of the text in the form of a set of prosodic parameters, b) selection of candidate acoustic units in the form of a representative flow of the text and the target prosody thereof; c) concatenation of the flow of candidate acoustic units into an intermediate sound flux; and d) prosodic modification of this sound flux. intermediate according to the target prosody to obtain the final sound flow, e) listens by a user of the sound stream thus generated, and f) modification of the parameters of the speech synthesis system and connection to step b) if the user considers the incorrect generated sound flow, the modifications relating to the prosodic parameters used by the candidate acoustic unit selection and / or prosodic modification steps n function of the prosody generated with the final sound flow. Other features of this process are
- les paramètres prosodiques modifiables sont au moins la fréquence fondamentale, la durée et/ou l'énergie ;the modifiable prosodic parameters are at least the fundamental frequency, the duration and / or the energy;
- les paramètres prosodiques modifiables portent sur les phonèmes, les syllabes, les mots, les groupes de mots, des phrases du texte ou une combinaison de ceux-ci. Un autre objet est un produit programme d'ordinateur comprenant des instructions de code de programme enregistré sur un support lisible par un ordinateur, pour mettre en œuvre les étapes du procédé lorsque ledit programme fonctionne sur un ordinateur. Un autre objet est un support de données supportant le programme d'ordinateur.the modifiable prosodic parameters relate to the phonemes, the syllables, the words, the groups of words, the sentences of the text or a combination of these. Another object is a computer program product including program code instructions recorded on a computer readable medium, for implementing the steps of the method when said program is running on a computer. Another object is a data carrier supporting the computer program.
Ainsi, avantageusement, c'est la prosodie du flux sonore générée lors d'une première passe qui sert de cible pour la seconde passe ou, de façon générale, c'est la prosodie générée à une itération donnée qui sert de base à la prosodie cible utilisée à l'itération suivante.Thus, advantageously, it is the prosody of the sound flow generated during a first pass that serves as a target for the second pass or, in general, it is the prosody generated at a given iteration that serves as a basis for the prosody target used at the next iteration.
Les paramètres prosodiques modifiables par l'utilisateur sont avantageusement les paramètres comme la fréquence fondamentale, la durée et/ou l'énergie dont la relation avec les qualités du flux sonore est directement perceptible par l'utilisateur même peu expérimenté. De plus, le système et le procédé permettent avantageusement d'appliquer les modifications prosodiques à tout ou partie du texte à synthétiser et selon une granulométrie totalement paramétrable. La modification peut s'appliquer aussi bien à des phonèmes qu'à des syllabes, des mots, des groupes de mots ou des phrases du texte: L'invention sera mieux comprise à la lecture de la description qui va suivre faite uniquement à titre d'exemple et en relation avec les dessins en annexe dans lesquels :The prosodic parameters that can be modified by the user are advantageously the parameters such as the fundamental frequency, the duration and / or the energy of which the relationship with the qualities of the sound flow is directly perceptible to the user, even if he is not very experienced. In addition, the system and the method advantageously make it possible to apply the prosodic modifications to all or part of the text to be synthesized and according to a totally configurable particle size. The modification can be applied to phonemes as well as to syllables, words, groups of words or sentences of the text: The invention will be better understood on reading the description which follows, made solely as a example and in connection with the appended drawings in which:
- la figure 1 est un schéma simplifié d'un système de synthèse vocale selon l'invention ; - la figure 2 est un ordinogramme du procédé selon l'invention ;FIG. 1 is a simplified diagram of a voice synthesis system according to the invention; FIG. 2 is a flow diagram of the method according to the invention;
- la figure 3 est un exemple d'affichage des informations par les moyens d'édition ; etFIG. 3 is an example of display of the information by the editing means; and
- la figure 4 est un second exemple d'affichage d'informations par les moyens d'interface. En référence à la figure 1 , un système 1 de synthèse vocale est destiné à transformer un texte 2 en une onde sonore 3. Le texte 2 est entré dans le système 1 par l'intermédiaire de moyens de saisie 4 qui le transforment en un fichier, typiquement au standard UNICODE. Ce fichier est traité par des moyens 5 de traitements linguistiques permettant d'extraire du texte des informations pertinentes pour la synthèse par une analyse linguistique de ce texte.FIG. 4 is a second example of information display by the interface means. With reference to FIG. 1, a voice synthesis system 1 is intended to transform a text 2 into a sound wave 3. The text 2 is entered in the system 1 by means of input means 4 which transforms it into a file , typically to UNICODE standard. This file is processed by linguistic processing means 5 making it possible to extract from the text information relevant for the synthesis by a linguistic analysis of this text.
Ces informations linguistiques sont utilisées par les moyens 6 de transcription phonétique et de génération prosodique. Cette transcription, non nécessairement unique, se présente sous la forme d'une suite d'unités acoustiques cibles, augmentée d'informations supplémentaires représentant la prosodie cible de ce texte. Cette prosodie cible se présente sous la forme d'un ensemble de paramètres prosodiques tels que, par exemple, la fréquence fondamentale, la durée ou l'énergie.This linguistic information is used by the phonetic transcription and prosodic generation means. This transcription, not necessarily unique, is in the form of a series of target acoustic units, augmented by additional information representing the target prosody of this text. This target prosody is in the form of a set of prosodic parameters such as, for example, fundamental frequency, duration or energy.
Le système de synthèse vocale 1 comporte également des moyens 7 de sélection d'unités acoustiques candidates. Ces unités acoustiques candidates sont des morceaux de paroles préenregistrées correspondant à des phonèmes, des diphones, des syllabes... et représentent une variation sonore d'une unité acoustique de base, par exemple une variation de longueur, de taille, ...The voice synthesis system 1 also comprises means 7 for selecting candidate acoustic units. These candidate acoustic units are prerecorded speech pieces corresponding to phonemes, diphones, syllables ... and represent a sound variation of a basic acoustic unit, for example a variation of length, size, ...
Ces moyens 7 de sélection génèrent un flux d'unités acoustiques candidates représentatif du texte à synthétiser et de la prosodie cible définie précédemment.These selection means 7 generate a stream of candidate acoustic units representative of the text to be synthesized and the target prosody defined above.
Ce flux d'unités acoustiques candidates est traité par des moyens 8 de traitement du signal afin de produire un flux sonore. Ce flux sonore est utilisé par des moyens 9 d'écoute pour générer l'onde sonore 3.This stream of candidate acoustic units is processed by signal processing means 8 to produce a sound flux. This sound stream is used by listening means 9 to generate the sound wave 3.
Les moyens 8 de traitement du signal comportent des moyens 10 de concaténation du flux d'unités acoustiques candidates en un flux sonore unique intermédiaire. Les moyens 8 de traitement du signal comportent également des moyens 11 de modification prosodiques aptes à modifier ce flux sonore intermédiaire en fonction des paramètres de la prosodie cible afin d'obtenir le flux sonore final.The signal processing means 8 comprise means 10 for concatenating the flow of candidate acoustic units into a single intermediate sound flux. The signal processing means 8 also comprise prosodic modification means 11 capable of modifying this intermediate sound flux as a function of the parameters of the target prosody in order to obtain the final sound flux.
Ces différents moyens de système 1 de synthèse vocale ne seront pas décrits en détail dans la mesure où ils sont bien connus de l'homme du métier. Des informations complémentaires sur ces moyens peuvent être trouvées, par exemple, dans la demande de brevet US 2003/02 29 494 précitée.These different means of speech synthesis system 1 will not be described in detail insofar as they are well known to those skilled in the art. Further information on these means can be found, for example, in the aforementioned US patent application 2003/0229494.
Le système de synthèse vocale 1 comporte également des moyens d'édition 12 des paramètres prosodiques. Ces moyens 12 d'édition permettent à un utilisateur, grâce à une interface visuelle d'éditer la prosodie générée avec le flux sonore final et de modifier les paramètres prosodiques utilisés par les moyens de sélection d'unités et/ou les moyens de modifications prosodiques.The voice synthesis system 1 also comprises editing means 12 of the prosodic parameters. These editing means 12 allow a user, through a visual interface to edit the prosody generated with the final sound flow and modify the prosodic parameters used by the unit selection means and / or the means of prosodic modifications.
Le fonctionnement du système 1 de synthèse vocale va maintenant être décrit sous la forme d'un procédé, en référence à la figure 2. Le procédé démarre à l'étape 20.The operation of voice synthesis system 1 will now be described as a method, with reference to FIG. 2. The method starts in step 20.
Une prosodie cible est générée en 21 à partir du texte 2 par la mise en œuvre des moyens bien connus décrits précédemment.A target prosody is generated in 21 from the text 2 by the implementation of well known means described above.
Les unités acoustiques candidates sont sélectionnées en 22 sous la forme d'un flux représentatif du texte et de la prosodie cible de celui-ci. Ce flux est concaténé en 23 en un flux sonore unique intermédiaire.The candidate acoustic units are selected at 22 as a representative stream of the text and the target prosody thereof. This stream is concatenated in 23 into a single intermediate sound stream.
Des modifications prosodiques sont alors appliquées en 24 sur ce flux sonore intermédiaire, en fonctiσn-de la prosodie cible, pour obtenir un flux sonore final.Prosodic modifications are then applied at 24 on this intermediate sound flow, depending on the target prosody, to obtain a final sound flow.
Ce flux sonore est écouté en 25 par l'utilisateur. II est, en parallèle, présenté visuellement en 26 sur l'interface 13.This sound stream is listened to by the user. It is, in parallel, presented visually at 26 on the interface 13.
Si l'utilisateur considère en 27 que le flux sonore est d'une qualité satisfaisante, le procédé se termine en 28.If the user considers in 27 that the sound flow is of satisfactory quality, the process ends in 28.
Par contre, si le flux sonore présente des défauts, l'utilisateur modifie les paramètres prosodiques en 29 par l'intermédiaire de l'interface 13. Suivant le type de modification prosodique demandée, c'est-à-dire les paramètres prosodiques modifiés, le procédé exécute une nouvelle étape 22 de sélection des unités acoustiques candidates et/ou, seulement une modification prosodique en 24 du flux sonore intermédiaire.On the other hand, if the sound flow has defects, the user modifies the prosodic parameters at 29 via the interface 13. Depending on the type of prosodic modification requested, that is to say the modified prosodic parameters, the method executes a new step 22 of selecting the candidate acoustic units and / or only a prosodic modification at 24 of the intermediate sound flux.
Le procédé est ainsi réitéré jusqu'à obtention d'une qualité satisfaisante pour le flux sonore.The process is thus reiterated until a satisfactory quality for the sound flow is obtained.
En figure 3 est représenté un exemple d'interface utilisateur. Sur cette figure est représentée la structure du flux sonore généré par le système lors de la première phase. Elle contient notamment une courbe en 31 représentant les principales informations prosodiques du flux sonore généré : la fréquence fondamentale en 32 et la durée des différents segments qui constituent ce flux en 33.In Figure 3 is shown an example of a user interface. This figure shows the structure of the sound flux generated by the system during the first phase. It contains in particular a curve at 31 representing the main prosodic information of the sound flow generated: the fundamental frequency at 32 and the duration of the different segments that constitute this stream at 33.
La figure 4 représente la structure du flux sonore avec une prosodie en cours de modification par l'opérateur. Dans cet exemple, l'opérateur considère que la première partie du flux n'a pas besoin d'être modifiée. Cette première partie est référencée 40. Par contre, il considère qu'une seconde partie, référencée 41 , nécessite des modifications prosodiques. Il peut effectuer des modifications sur tous les paramètres prosodiques tels que la fréquence fondamentale, la durée ou l'énergie et à plusieurs échelles possibles comme par exemple au niveau du phonème, de la syllabe, du mot, du groupe de mots ou de la phrase. La prosodie modifiée est ainsi représentée par la courbe 42. La juxtaposition de la prosodie des deux parties à savoir la prosodie de la partie non modifiée et la nouvelle prosodie associée à la partie modifiée donnent une nouvelle prosodie cible. Une fois les modifications validées par l'opérateur, le système 1 de synthèse vocale génère un nouveau flux sonore à partir de cette nouvelle prosodie cible.Figure 4 shows the structure of the sound flow with a prosody being modified by the operator. In this example, the operator considers that the first part of the stream does not need to be modified. This first part is referenced 40. On the other hand, he considers that a second part, referenced 41, requires prosodic modifications. It can make modifications on all the prosodic parameters such as the fundamental frequency, the duration or the energy and with several possible scales as for example at the level of the phoneme, the syllable, the word, the group of words or the sentence . The modified prosody is thus represented by the curve 42. The juxtaposition of the prosody of the two parts namely the prosody of the unmodified part and the new prosody associated with the modified part give a new target prosody. Once the modifications have been validated by the operator, the voice synthesis system 1 generates a new sound flow from this new target prosody.
Le système de synthèse vocale décrit est, de façon préférentielle, réalisé sous la forme d'un programme d'ordinateur exécutable sur un ordinateur classique, par exemple une station de travail, comportant une carte son et des haut-parleurs.The speech synthesis system described is, preferably, embodied as a computer program executable on a conventional computer, for example a workstation, comprising a sound card and loudspeakers.
Par conséquent, l'invention concerne également un programme d'ordinateur comprenant des instructions logicielles pour faire exécuter le procédé précédemment décrit par l'équipement de routage. Ce programme d'ordinateur peut être stocké ou transmis par un support de données. Celui-ci peut être un support matériel de stockage tel qu'un CD-ROM, une disquette magnétique ou un disque dur, ou bien un support transmissible tel qu'un signal électrique, optique ou radio.Therefore, the invention also relates to a computer program comprising software instructions for executing the method previously described by the routing equipment. This computer program can be stored or transmitted by a data carrier. This may be a hardware storage medium such as a CD-ROM, a magnetic diskette or a hard disk, or a transmissible medium such as an electrical signal, optical or radio.
Ainsi, avantageusement, c'est la prosodie du flux sonore générée lors d'une première passe qui sert de cible pour la seconde passe ou, de façon générale, c'est la prosodie générée à une itération donnée qui sert de base à la prosodie cible utilisée à l'itération suivante.Thus, advantageously, it is the prosody of the sound flow generated during a first pass that serves as a target for the second pass or, in general, it is the prosody generated at a given iteration that serves as a basis for the prosody target used at the next iteration.
On constate également que les paramètres prosodiques modifiables par l'utilisateur sont avantageusement les paramètres comme la fréquence fondamentale, la durée et/ou l'énergie dont la relation avec les qualités du flux sonore est directement perceptible par l'utilisateur même peu expérimenté.It is also noted that the user-modifiable prosodic parameters are advantageously the parameters such as the fundamental frequency, the duration and / or the energy of which the relationship with the qualities of the sound flow is directly perceptible to the user, even if he is not very experienced.
De plus, le système et le procédé ainsi décrits permettent avantageusement d'appliquer les modifications prosodiques à tout ou partie du texte à synthétiser et selon une granulométrie totalement paramétrable. La modification peut s'appliquer aussi bien à des phonèmes qu'à des syllabes, des mots, des groupes de mots ou des phrases du texte. In addition, the system and method thus described advantageously make it possible to apply the prosodic modifications to all or part of the text to be synthesized and according to a totally configurable particle size. The This modification can be applied to phonemes as well as to syllables, words, groups of words or sentences of the text.

Claims

REVENDICATIONS
1. Système de synthèse vocale d'un texte par concaténation d'unités acoustiques comportant :1. System for the voice synthesis of a text by concatenation of acoustic units comprising:
- des moyens (6) de génération prosodique aptes à générer une prosodie cible du texte sous forme d'un ensemble de paramètres prosodiques,means (6) of prosodic generation capable of generating a target prosody of the text in the form of a set of prosodic parameters,
- des moyens (7) de sélection d'unités acoustiques candidates aptes à générer un flux d'unités acoustiques candidates représentatifs du texte et de la prosodie cible de celui-ci,means (7) for selecting candidate acoustic units capable of generating a stream of candidate acoustic units representative of the text and the target prosody thereof,
- des moyens (8) de traitement du signal aptes à créer un signal sonore représentatif du texte et comportant :signal processing means (8) able to create a sound signal representative of the text and comprising:
- des moyens (10) de concaténation du flux d'unités acoustiques candidates en un-premierflux intermédiaire, etmeans (10) for concatenating the flow of candidate acoustic units into a first intermediate stream, and
- des moyens (11) de modification prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible afin d'obtenir le signal sonore, et ledit système comportant en outremeans (11) of prosodic modification of this intermediate sound flux as a function of the target prosody in order to obtain the sound signal, and said system further comprising
- des moyens (9) d'écoute du signal sonore par un utilisateur, etmeans (9) for listening to the sound signal by a user, and
- des moyens (12) d'édition aptes à permettre à l'utilisateur d'appliquer des modifications aux paramètres du système de synthèse vocale pour qu'il génère un nouveau signal sonore, caractérisé en ce que les moyens (12) d'édition sont adaptés pour éditer la prosodie générée avec le signal sonore et modifier les paramètres prosodiques des moyens (7) de sélection d'unités et/ou des moyens (11) de modification prosodique avant la création dudit nouveau signal sonore par les moyens (8) de traitement du signal. editing means (12) adapted to allow the user to apply modifications to the parameters of the speech synthesis system so that he generates a new sound signal, characterized in that the means (12) for editing are adapted to edit the generated prosody with the sound signal and to modify the prosodic parameters of the unit selection means (7) and / or the prosodic modification means (11) before the creation of said new sound signal by the means (8) signal processing.
2. Système de synthèse vocale selon la revendication 1 , caractérisé en ce que les paramètres prosodiques modifiables sont au moins la fréquence fondamentale, la durée et/ou l'énergie.2. Voice synthesis system according to claim 1, characterized in that the modifiable prosodic parameters are at least the fundamental frequency, the duration and / or the energy.
3. Système de synthèse vocale selon la revendication 1 ou 2, caractérisé en ce que les paramètres prosodiques modifiables portent sur les phonèmes, les syllabes, les mots, les groupes de mots, la phrase du texte ou une combinaison de ceux-ci.Speech synthesis system according to claim 1 or 2, characterized in that the modifiable prosodic parameters relate to the phonemes, the syllables, the words, the groups of words, the sentence of the text or a combination of these.
4. Procédé de synthèse vocale d'un texte par concaténation d'unités acoustiques comportant les étapes de : a) génération prosodique (21) d'une prosodie cible du texte sous forme d'un ensemble de paramètres prosodiques, b) sélection (22) d'unités acoustiques candidates sous forme d'un flux représentatif du texte et de la prosodie cible de celui-ci, c) concaténation (23) du flux d'unités acoustiques candidates en un flux sonore intermédiaire, et d) modification (24) prosodique de ce flux sonore intermédiaire en fonction de la prosodie cible pour obtenir le flux sonore final, e) écoute (25) par un utilisateur du flux sonore ainsi généré, et f) modification (29) des paramètres du système de synthèse vocale puis branchement sur l'étape b) si l'utilisateur considère le flux sonore généré incorrect, caractérisé en ce que les modifications portent sur les paramètres prosodiques utilisés par les étapes de sélection (22) d'unités acoustiques candidates et/ou de modification prosodique (24) en fonction de la prosodie générée avec le flux sonore final.4. Method of voice synthesis of a text by concatenation of acoustic units comprising the steps of: a) prosodic generation (21) of a target prosody of the text in the form of a set of prosodic parameters, b) selection (22) of candidate acoustic units in the form of a representative flow of the text and the target prosody of the latter, c) concatenation (23) of the flow of candidate acoustic units into an intermediate sound flux, and d) prosodic modification (24) of this intermediate sound flux as a function of the target prosody to obtain the final sound flux, e ) listening (25) by a user of the sound stream thus generated, and f) modifying (29) the parameters of the speech synthesis system and then branching to step b) if the user considers the sound flow generated incorrect, characterized in that that the modifications relate to the prosodic parameters used by the selection steps (22) of candidate acoustic units and / or prosodic modification (24) as a function of the prosody generated with the final sound flow.
5. Procédé de synthèse vocale selon la revendication 4, caractérisé-en ce que les paramètres prosodiques modifiables sont au moins la fréquence fondamentale, la durée et/ou l'énergie. 5. Voice synthesis method according to claim 4, characterized in that the modifiable prosodic parameters are at least the fundamental frequency, duration and / or energy.
6. Procédé de synthèse vocale selon l'une des revendications 4 ou 5, caractérisé en ce que les paramètres prosodiques modifiables portent sur les phonèmes, les syllabes, les mots, les groupes de mots, des phrases du texte ou une combinaison de ceux-ci.6. Voice synthesis method according to one of claims 4 or 5, characterized in that the modifiable prosodic parameters relate to phonemes, syllables, words, groups of words, sentences of the text or a combination of these. this.
7. Produit programme d'ordinateur comprenant des instructions de code de programme enregistré sur un support lisible par un ordinateur, pour mettre en œuvre les étapes du procédé selon l'une quelconque des revendications 4 à 6 lorsque ledit programme fonctionne sur un ordinateur.A computer program product comprising program code instructions recorded on a computer readable medium, for carrying out the steps of the method according to any one of claims 4 to 6 when said program is running on a computer.
8. Support de données supportant le programme d'ordinateur selon la revendication 7. Data carrier supporting the computer program according to claim 7.
PCT/FR2006/001967 2005-09-07 2006-08-22 Speech synthesis system having operator-modifiable prosodic parameters WO2007028871A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0509135 2005-09-07
FR0509135 2005-09-07

Publications (1)

Publication Number Publication Date
WO2007028871A1 true WO2007028871A1 (en) 2007-03-15

Family

ID=36180710

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2006/001967 WO2007028871A1 (en) 2005-09-07 2006-08-22 Speech synthesis system having operator-modifiable prosodic parameters

Country Status (1)

Country Link
WO (1) WO2007028871A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509552A (en) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0880127A2 (en) * 1997-05-21 1998-11-25 Nippon Telegraph and Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US20030229494A1 (en) * 2002-04-17 2003-12-11 Peter Rutten Method and apparatus for sculpting synthesized speech
US20050182629A1 (en) * 2004-01-16 2005-08-18 Geert Coorman Corpus-based speech synthesis based on segment recombination

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
EP0880127A2 (en) * 1997-05-21 1998-11-25 Nippon Telegraph and Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US20030229494A1 (en) * 2002-04-17 2003-12-11 Peter Rutten Method and apparatus for sculpting synthesized speech
US20050182629A1 (en) * 2004-01-16 2005-08-18 Geert Coorman Corpus-based speech synthesis based on segment recombination

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509552A (en) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium
CN112509552B (en) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 Speech synthesis method, device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
Pitrelli et al. The IBM expressive text-to-speech synthesis system for American English
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
FR2553555A1 (en) SPEECH CODING METHOD AND DEVICE FOR IMPLEMENTING IT
JP7152791B2 (en) Crosslingual speech conversion system and method
EP1970894A1 (en) Method and device for modifying an audio signal
JP2007249212A (en) Method, computer program and processor for text speech synthesis
JP2013534650A (en) Correcting voice quality in conversations on the voice channel
WO2018146305A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
WO2009071795A1 (en) Automatic simultaneous interpretation system
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
Sanabria et al. Measuring the impact of individual domain factors in self-supervised pre-training
KR102072627B1 (en) Speech synthesis apparatus and method thereof
EP1846918B1 (en) Method of estimating a voice conversion function
JP2017167526A (en) Multiple stream spectrum expression for synthesis of statistical parametric voice
WO2007028871A1 (en) Speech synthesis system having operator-modifiable prosodic parameters
EP1803116B1 (en) Voice recognition method comprising a temporal marker insertion step and corresponding system
WO2023114064A1 (en) Adaptation and training of neural speech synthesis
Wilkinson et al. Open-Source Consumer-Grade Indic Text To Speech.
CN114783408A (en) Audio data processing method and device, computer equipment and medium
Melguy et al. Perceptual adaptation to a novel accent: Phonetic category expansion or category shift?
EP1741092B1 (en) Voice recognition based on the contextual modelling of voice units
EP1960996B1 (en) Voice synthesis by concatenation of acoustic units
JP2809769B2 (en) Speech synthesizer
US9905218B2 (en) Method and apparatus for exemplary diphone synthesizer
EP1589524A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06808055

Country of ref document: EP

Kind code of ref document: A1