WO2003063133A1 - Personalisation of the acoustic presentation of messages synthesised in a terminal - Google Patents

Personalisation of the acoustic presentation of messages synthesised in a terminal Download PDF

Info

Publication number
WO2003063133A1
WO2003063133A1 PCT/FR2002/003984 FR0203984W WO03063133A1 WO 2003063133 A1 WO2003063133 A1 WO 2003063133A1 FR 0203984 W FR0203984 W FR 0203984W WO 03063133 A1 WO03063133 A1 WO 03063133A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
terminal
acoustic characteristics
describing
server
Prior art date
Application number
PCT/FR2002/003984
Other languages
French (fr)
Other versions
WO2003063133A8 (en
Inventor
Ghislain Moncomble
Philippe Passelaigue
Jean-Pierre Remy
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2003063133A1 publication Critical patent/WO2003063133A1/en
Publication of WO2003063133A8 publication Critical patent/WO2003063133A8/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • the present invention relates to the audio presentation of messages in a terminal.
  • the messages are initially textual, then synthesized by voice by a means of voice synthesis internal or external to the terminal.
  • US patents 5,860,064 and 6,006,187 propose a selection of speech emotion parameters in an integrated speech synthesis system linked to the graphical user interface in a personal computer. These parameters are mainly directed to the pitch, the volume and the speech rate and apply to a voice message, or to selected parties in a voice message.
  • the present invention aims to remedy the drawbacks of “mono-voice” servers of the prior art so that each user personalizes the acoustic context of the voice messages broadcast by the servers, and thus makes the messages more intelligible and perceptible, and therefore more familiar. voice messages broadcast, while improving the distribution of the means used and the personalization of voice messages compared to the two aforementioned US patents.
  • a method for personalizing the sound presentation of messages synthesized in a terminal comprises steps of selecting acoustic characteristics describing a voice in a first catalog of acoustic characteristics pre-memorized in a server means, selecting acoustic characteristics describing a sound effect in a second catalog of acoustic characteristics stored in the server means in order to transmit them with the selected acoustic characteristics describing the voice by means of voice synthesis, and synthesizing a text message in the voice synthesis means in dependence on the selected acoustic characteristics describing the voice into a voice message which is mixed with the selected sound effects to be transmitted to the terminal.
  • the invention distributes the means implemented for the method in the terminal and the server. It improves the personalization of messages by selecting the acoustic characteristics of sound effects superimposed on the synthesized voice.
  • the terminal user can directly select a voice in the first catalog and a sound effect in the second catalog, or even select a combination which is stored in a third catalog at least in the terminal and which includes at least one voice and at least one sound effect in order to synthesize any text message depending on the acoustic characteristics of the combination.
  • the selection of voices and sound effects is preferably accompanied by a selection of characteristics of a visual presentation, which can be a wallpaper and / or a facial animation, in a fourth catalog pre-memorized in the server medium in order to transmit to the terminal and display the visual presentation in the terminal in synchronism with the reproduction of the voice message in the terminal.
  • a visual presentation which can be a wallpaper and / or a facial animation
  • the invention also relates to a system for personalizing the sound presentation of messages in a terminal, for implementing the method of the invention.
  • the system is characterized in that it includes server means for storing acoustic characteristics describing voices, and also acoustic characteristics describing sound effects to be selectively mixed with described voices, a voice synthesis means in which voices are described depending on acoustic characteristics, and an application means in the terminal for selecting in the server means acoustic characteristics describing a voice and acoustic characteristics describing a sound effect so that the voice synthesis means synthesizes at least one text message according to the selected acoustic characteristics describing the voice in a voice message mixed with the sound effects described and transmitted to the terminal.
  • FIG. 1 is a schematic block diagram of a system for the audio presentation of messages according to a preferred embodiment of the invention.
  • FIG. 2 is an algorithm of a method of audio presentation of messages according to the invention.
  • a sound presentation system for messages essentially comprises a user terminal 1 provided at least with a loudspeaker or a listener, a central sound server 2 and an equipment voice synthesis 3.
  • the system is based on an architecture of the client-server type between the terminal 1 associated with the equipment 3 and the central sound server 2.
  • the user terminal 1 is a personal computer or a digital assistant personal, or a smart TV or radio receiver, or a landline or mobile cell phone.
  • the voice synthesis equipment 3 is connected to the terminal 1 by a conventional link 4 of the wired or radio proximity type.
  • the equipment 3 is removably integrated, like a card, in the terminal 1.
  • the terminal 1 is connected to the central server 2 via an access network 5 corresponding to the type of terminal and of a packet network 6 such as the internet network.
  • the voice synthesis equipment 3 essentially comprises a buffer memory 30 for storing a text message MT to be synthesized, and preferably at least one test text TE to be synthesized, an analyzer 31 of the phonetics and of the prosody of the text to be synthesized, a speech synthesizer 32 proper, and a generator 33 generating an acoustic model as a function of acoustic characteristics CA delivered by the terminal 1 and supplied by the central server 2.
  • the functional elements 30 to 33 schematically represent the speech synthesis equipment for a better understanding of the invention and may correspond to software modules.
  • the invention relates more particularly to the third module 33 which defines an acoustic model in dependence on the parameters, in particular such as values, CA characteristics of a sound, such as a voice mixed with a sound effect, in order to apply to this model of predetermined rules for synthesizing a textual message MT transcribed phonetically and prosodically in the analyzer 31 into a synthesized voice message MS transmitted by the synthesizer 32 at terminal 1.
  • the characteristics CA received in the generator 3 make it possible to select acoustic units which are concatenated according to predetermined rules in the synthesizer 32 in order to reproduce vocally a message analyzed phonetically and prosodically in the analyzer 31.
  • speech synthesis is defined as a function of acoustic characteristics CA processed in module 33 and selected by terminal 1.
  • the terminal 1 supports a sound presentation personalization application 10 for selecting the acoustic characteristics CA of a sound to be composed or for selecting an imprint of a sound described by acoustic characteristics in the central server 2.
  • MT text messages to be temporarily stored in the memory oire 30 to synthesize them are provided by the user of terminal 1, either by entering them with the keyboard or by voice recognition in the terminal, or by reading them in the memory of the terminal if they have been prerecorded in the terminal, or again by downloading them from document servers through networks 5 and 6.
  • the test message TE contained in the memory 30 is preselected by the user of the terminal 1 and therefore known by the user to test a voice configured by the user and modeled in the text-to-speech equipment 3.
  • At least one text-to-speech equipment 3 is integrated into the central server 2 and shared by several user terminals 1 for which user identifiers IDU are associated respectively with test messages MT respectively.
  • the central server 2 is then analogous to an interactive voice server in which synthesized voices and their characteristics can be selected by users to listen to voice or multimedia messages.
  • the exchanges in particular of acoustic characteristic commands and of voice message broadcasting are carried out through the access network 5 and the packet network 6 between the terminal 1 and the server 2, and not also between the server 2 and the equipment 3 via the terminal 1 according to FIG. 1.
  • the central sound server 2 is distributed into several central servers in each of which one or more catalogs of files defined below can be consulted.
  • the central server 2 essentially comprises three catalogs of sound files V (CV, AV), B (CB, AB) and C (CC, AC) from which a terminal user can draw to personalize the sound presentation of voice messages reproduced in his terminal. All these files can be selected from terminal 1 using the application 10.
  • the first catalog of V files (CV, AV) relates to voices whose voice prints have been recorded and analyzed in order to memorize the essential acoustic characteristics CV of those voices.
  • the acoustic characteristics describing a predetermined voice V and contained in a file from the first catalog concerns the male or female sex, age in the form of a period relating to childhood or adolescence or adulthood or old age, prosodic characters such as successive lengths of segments syllabics, the emphasis being in particular on the accent on sentence components, the laryngeal and fundamental frequencies relating to the pitch of the voice (in English "pitch"), the flow or rhythm of speech which can be slow or fast or intermediate, the level of sound expressed in decibels, etc.
  • the file of a predetermined voice V also contains AV attributes specific to each voice which are optional and which concern the owner of the voice such as a user or a company or an organization as a collective user, and / or access restrictions to the voice file so that it can be distributed and used by predetermined users who are identified by IDU identifiers entered in a list of UV users authorized to use the predetermined voice, or characteristics defining a profile user that a user must present to access the voice user, and / or a fee for the use of the voice which may be free, and any other feature contributing to market the predetermined voice.
  • the second catalog of files B (CB, AB) relates to sound effects B which can be sound effects, special sounds or musical pieces one or more of which can be selected by the user of the terminal 1 in order to be superimposed to the selected voice with which a text message is synthesized.
  • Each B sound effect is defined as the voices in the first catalog, by acoustic characteristics CB and where appropriate is associated with attributes AB and with a list of authorized users UB.
  • the different sound effects in the second catalog are preferably made up of small, chained and looped sound files. One or more linked sound effects can be downloaded to the terminal.
  • the third catalog of files C (CC, AC) relates to files of combinations of sounds which each result from acoustic characteristics CC combining the acoustic characteristics CV and CB at least of a voice V and at least of a sound effect B, or several combinations of voices and sound effects distributed in time. Each combination is thus defined by acoustic characteristics CC and associated with attributes AC and a list of authorized users UC.
  • a terminal user can thus define an audio program which is divided into various periods during which combinations of voice and sound effects will respectively personalize portions of a text message MT to be synthesized.
  • the attributes of a combination define in particular the lengths of periods for respective sound combinations, as well as the start time of these periods relative to the start time of a message.
  • the central sound server 2 comprises a fourth PV catalog (CPV, APV) relating to visual presentations PV of text messages to be synthesized, each defined by CPV characteristics and APV attributes.
  • CPV characteristics of a visual presentation relate to a wallpaper, or more or less animated images, or more particularly the face of a head of an animator whose eyes and mouth at least are animated according to the pronunciation of the message voice synthesized by means of a facial animation engine implemented in the user terminal.
  • the whole animator's head or elements such as eyes and mouths can be chosen from the fourth catalog.
  • visual presentation attributes APV define the owner of the visual presentation PV, access restrictions for example associated with a list of authorized users UPV, or remuneration relating to the selected visual presentation.
  • the four catalogs defined above are distributed in respective servers instead of being centralized in a single server 2, and / or are declined for example by geographic region in order to offer in particular voices and sound effects adapted to regional or local customs and reduce response time.
  • the terminal 1 is designated by an identifier IDU which may include a number of telephone or an Internet Protocol (IP) address accompanied, where appropriate, by a confidential access code.
  • IDU Internet Protocol
  • the commands relating to selections made during the course of the process correspond to the pressing of a key on the terminal keyboard, for example translated into a DTMF (Dual Tone MultiFrequency) multifrequency code for a telephone or radiotelephone or a command specific to a communication protocol or user graphical interface, or else correspond to a voice command recognized by an included voice recognition means in terminal 1 and / or server 2.
  • the various selections are preferably assisted by pages displayed in the terminal, when the latter has a display or a display screen, the dialogue between terminal 1 and server 2 thus being carried out in a known manner.
  • the dialogue between the terminal 1 and the central server 2 is carried out by means of an interactive voice server.
  • the presentation of the catalogs consulted in the server 2 by the terminal 1 is tree-like, that is to say carried out by means of successive menus and submenus with a return to a main menu.
  • the user selects the acoustic characteristics of at least one voice V and of a sound effect B and / or of a combination of sounds C either directly in the server central 2, either after downloading to terminal 1 of part of the catalogs relating to files made available to the public, or access to which is authorized for this user.
  • FIG. 2 illustrates a preferred example of steps making up the personalization method according to the invention, both for the above variants.
  • step E1 the user in front of the terminal 1 opens a session of the application 10 relating to the audio presentation of messages to be synthesized so that the terminal 1 calls the central server 2, the IP address of which is stored in the terminal. If the application allows it, the user selects the catalogs or sound categories in the catalogs from a menu and downloads them from the server 2 in the terminal 1 in order to make various selections according to the following steps to build a sound presentation customized. Otherwise, the following selection steps are carried out through a question and answer dialogue between the terminal 1 and the server 2 which, as the user selects, constructs a specific sound presentation. This second variant will be referred to below.
  • the application 10 asks the user if he wishes to select at least one of his favorite combinations determined and stored previously, possibly in association with the identifier IDU in the server 2, if they exist in the third catalog. Otherwise, sound characteristics are selected below by the user in order to constitute a combination of sounds personalizing the voice presentation of text messages MT to be synthesized by the voice synthesis equipment 3.
  • the user of terminal 1 selects acoustic characteristics CV by validating the parameters thereof so as to constitute a personalized voice V in the first catalog of voice files.
  • the user instead of selecting acoustic characteristics of voice V, the user selects a voice V from among several voices authorized in the first catalog, each of which is designated by a name and a brief description of the acoustic characteristics of that voice. this.
  • the application 10 optionally proposes to the user to further personalize the sound presentation of his messages by recording a predetermined voice print, for example a predetermined sentence pronounced by the user.
  • step E5 To subsequently mix the voice defined by the selected characteristics CV or the previously selected voice with one or more sound effects B, the user selects in step E5, in a manner analogous to step E4, acoustic characteristics CB in the second catalog of sound effects files so as to determine one or more sound effects, or directly selects one or more authorized sound effects each defined by predetermined acoustic characteristics.
  • steps E4 and E5 the voice and sound effects characteristics selected directly or indirectly are transmitted to the acoustic model generator 33.
  • the TE test text selected in step E6 can be a text, or a combination of texts, scanned and prerecorded in the terminal 1 or the buffer memory 30 of the equipment 3, or entered directly by the user in the terminal 1, or downloaded from one or more at least textual document servers via the terminal 1 into the memory 30 of the equipment 3.
  • the test text TE is preferably stored in the memory 30 of the equipment 3 in particular for test steps in subsequent sound presentations.
  • test text TE read in the memory 30 is analyzed by the analyzer 31 and synthesized in the synthesizer 32 as a function in particular of the acoustic model defined by the acoustic characteristics of voice CV selected in step E4 with mixing of sound effects B selected in step E5.
  • the voice message MS produced by the synthesizer 32 is transmitted to the terminal 1 so that the user can listen to it.
  • step E8 the application 10 proposes to him in step E8 to modify, that is to say to add or remove or correct an acoustic characteristic CV of the voice described V or CB of the sound effects described B selected in steps E4 and E5, returning to step E4.
  • the terminal 1 and the server 2 store the acoustic characteristics [CV + CB] of the selected combination CS in step E9, preferably by associating it with the IDU user identifier.
  • step E10 the application 10 offers the user a selection of CPV characteristics in the fourth catalog of visual presentation files in order to select in step E101 a visual presentation such as a wallpaper. and / or facial animation.
  • the terminal 1 and the server 2 store the visual presentation characteristics CPV possibly selected in step E101 in association with the combination of acoustic characteristics of voice and sound effects [CV + CB] selected in steps E4 to E8.
  • the application 10 invites the user of the terminal 1 to select one or more parameters, in particular temporal and / or documentary, personalizing the use of the combination of sounds CS composed in the preceding steps.
  • step E121 the user indicates two dates of broadcast about the selected combination CS.
  • the user indicates a start date of broadcast and / or an end date of broadcast of the selected combination.
  • One or more broadcast periods can thus be selected to make the combination selected during these periods accessible.
  • audio programs are formed.
  • the audiovisual programs created are preferably displayed in the terminal with their respective time positions. All previous and following time data are expressed in year, month, day, hour, minute and second.
  • step E122 the application 10 proposes to the user to determine the time of start of introduction of the selected combination CS as well as the duration of the latter relative to the time of start of listening d a voice message MS synthesized in the equipment 3 in order to constitute with other selected combinations an audio program.
  • the start time and the duration of diffusion of the selected combination CS are chosen randomly by the application 10.
  • several combinations are selected to constitute a series of combinations of sounds which is repeated periodically.
  • step E123 the application 10 offers the user to associate predetermined documents with the selected combination CS.
  • Each of these documents is identified by an identifier which can be a name and / or an address such as a URL (Uniform Resource Locator) address read from a website server.
  • the association of a document with one or more combinations can be made available to any user.
  • the application 10 prompts the user of the terminal 1 to listen to a text message MT of his choice in order to transmit it to the voice synthesis equipment 3 which has received the acoustic characteristics CV and CB of the selected or favorite combination.
  • the voice message MS resulting from the voice synthesis of the selected text message MT is listened to by the user simultaneously with a possible visual presentation such as a facial animation whose CPV characteristics were selected in step E10 and which is displayed in the terminal.
  • step E14 if the user wishes to modify acoustic and / or visual characteristics of the presentation of the synthesized message, as indicated in step E14, he again proceeds to the selection of acoustic characteristics of voice and / or sound effects and possibly of characteristics visual presentation from step E4. Otherwise, the session of the application 10 at least between the terminal 1 and the equipment 3 is terminated in step E15.

Abstract

The invention relates to the personalisation of the acoustic presentation of messages synthesised in a terminal (1), whereby acoustic characteristics (CV) which describe a voice (V) are selected from a catalogue of acoustic characteristics pre-recorded on a server (2) for transmission to a voice synthesiser (3). A text message (MT) which can be selected on the terminal is synthesised in the synthesiser, based on the selected acoustic characteristics, as a voice message (MS) which is transmitted to the terminal for listening. At least one noise (B) can be selected on the server for mixing with the voice message.

Description

Personnalisation de la présentation sonore de messages synthétisés dans un terminal Personalization of the audio presentation of synthesized messages in a terminal
La présente invention concerne la présentation sonore de messages dans un terminal. Les messages sont initialement textuels, puis synthétisés vocalement par un moyen de synthèse vocale interne ou externe au terminal.The present invention relates to the audio presentation of messages in a terminal. The messages are initially textual, then synthesized by voice by a means of voice synthesis internal or external to the terminal.
Actuellement, les serveurs vocaux interactifs ou tout autre moyen de synthèse vocale accessible par l'intermédiaire d'un serveur diffusent des messages qui résultent de la synthèse vocale de messages textuels sur la base de modèles vocaux artificiels ou naturels. Excepté un préfiltrage et un réglage des graves et des aigus dans les moyens audio de la plupart des terminaux, tels que récepteurs de télévision, récepteurs radiophoniques ou terminaux personnels du type ordinateur ou assistant numérique ou terminal téléphonique ou radiotéléphonique, les usagers de ces terminaux consultant les serveurs vocaux écoutent tous les mêmes voix pour la diffusion des messages synthétisés sans aucune influence personnelle sur celles-ci. A cause des messages diffusés avec une seule voix par un serveur vocal donné, les messages ne sont pas toujours très bien perçus par certains usagers.Currently, interactive voice servers or any other means of voice synthesis accessible via a server broadcast messages which result from the voice synthesis of text messages on the basis of artificial or natural voice models. With the exception of pre-filtering and adjustment of the bass and treble in the audio means of most terminals, such as television receivers, radio receivers or personal terminals of the computer type or digital assistant or telephone or radiotelephone terminal, the users of these terminals consult the voice servers all listen to the same voices for the dissemination of the synthesized messages without any personal influence on them. Because of messages broadcast with a single voice by a given voice server, the messages are not always very well perceived by some users.
Par ailleurs, les brevets US 5,860,064 et 6,006,187 proposent une sélection de paramètres d'émotion vocale dans un système de synthèse vocale intégrée lié à l'interface d'usager graphique dans un ordinateur personnel. Ces paramètres sont dirigés essentiellement vers la hauteur de voix, le volume sonore et le débit de parole et s'appliquent à un message vocal, ou à des parties sélectionnées dans un message vocal.Furthermore, US patents 5,860,064 and 6,006,187 propose a selection of speech emotion parameters in an integrated speech synthesis system linked to the graphical user interface in a personal computer. These parameters are mainly directed to the pitch, the volume and the speech rate and apply to a voice message, or to selected parties in a voice message.
Toutefois, les voix ainsi construites par l'usager ne sont accessibles qu'à celui-ci. De plus, les moyens mis en œuvre pour construire par les voix doivent être reproduits dans chaque ordinateur d' usager .However, the voices thus constructed by the user are only accessible to the user. In addition, the means used to build by voice must be reproduced on each user computer.
La présente invention vise à remédier aux inconvénients des serveurs «mono-voix» de la technique antérieure afin que chaque usager personnalise le contexte acoustique des messages vocaux diffusés par les serveurs, et ainsi rende plus intelligibles et perceptibles, et donc plus familiers, les messages vocaux diffusés, tout en améliorant la répartition des moyens mis en œuvre et la personnalisation des messages vocaux par rapport aux deux brevets US précités.The present invention aims to remedy the drawbacks of “mono-voice” servers of the prior art so that each user personalizes the acoustic context of the voice messages broadcast by the servers, and thus makes the messages more intelligible and perceptible, and therefore more familiar. voice messages broadcast, while improving the distribution of the means used and the personalization of voice messages compared to the two aforementioned US patents.
A cette fin, un procédé pour personnaliser la présentation sonore de messages synthétisés dans un terminal, est caractérisé en ce qu'il comprend des étapes de sélectionner des caractéristiques acoustiques décrivant une voix dans un premier catalogue de caractéristiques acoustiques prémémorisé dans un moyen serveur, sélectionner des caractéristiques acoustiques décrivant un bruitage dans un deuxième catalogue de caractéristiques acoustiques prémémorisé dans le moyen serveur afin de les transmettre avec les caractéristiques acoustiques sélectionnées décrivant la voix au moyen de synthèse vocale, et synthétiser un message textuel dans le moyen de synthèse vocale en dépendance des caractéristiques acoustiques sélectionnées décrivant la voix en un message vocal qui est mélangé au bruitage sélectionné pour être transmis au terminal.To this end, a method for personalizing the sound presentation of messages synthesized in a terminal, is characterized in that it comprises steps of selecting acoustic characteristics describing a voice in a first catalog of acoustic characteristics pre-memorized in a server means, selecting acoustic characteristics describing a sound effect in a second catalog of acoustic characteristics stored in the server means in order to transmit them with the selected acoustic characteristics describing the voice by means of voice synthesis, and synthesizing a text message in the voice synthesis means in dependence on the selected acoustic characteristics describing the voice into a voice message which is mixed with the selected sound effects to be transmitted to the terminal.
Ainsi, l'invention répartit les moyens mis en œuvre pour le procédé dans le terminal et le serveur. Elle améliore la personnalisation des messages par la sélection des caractéristiques acoustiques d'un bruitage superposé à la voix synthétisée.Thus, the invention distributes the means implemented for the method in the terminal and the server. It improves the personalization of messages by selecting the acoustic characteristics of sound effects superimposed on the synthesized voice.
Au lieu de sélectionner des caractéristiques acoustiques pour décrire et ainsi composer une voix et un bruitage, l'usager du terminal peut sélectionner directement une voix dans le premier catalogue et un bruitage dans le deuxième catalogue, ou encore sélectionner une combinaison qui est prémémorisée dans un troisième catalogue au moins dans le terminal et qui comprend au moins une voix et au moins un bruitage afin de synthétiser tout message textuel en dépendance de caractéristiques acoustiques de la combinaison.Instead of selecting acoustic characteristics to describe and thus compose a voice and a sound effect, the terminal user can directly select a voice in the first catalog and a sound effect in the second catalog, or even select a combination which is stored in a third catalog at least in the terminal and which includes at least one voice and at least one sound effect in order to synthesize any text message depending on the acoustic characteristics of the combination.
La sélection de voix et de bruitage est de préférence accompagnée d'une sélection de caractéristiques d'une présentation visuelle, qui peut être un fond d'écran et/ou une animation faciale, dans un quatrième catalogue prémémorisé dans le moyen serveur afin de les transmettre au terminal et d'afficher la présentation visuelle dans le terminal en synchronisme avec la reproduction du message vocal dans le terminal.The selection of voices and sound effects is preferably accompanied by a selection of characteristics of a visual presentation, which can be a wallpaper and / or a facial animation, in a fourth catalog pre-memorized in the server medium in order to transmit to the terminal and display the visual presentation in the terminal in synchronism with the reproduction of the voice message in the terminal.
L'invention concerne également un système pour personnaliser la présentation sonore de messages dans un terminal, pour la mise en oeuvre du procédé de l'invention. Le système est caractérisé en ce qu'il comprend un moyen serveur pour mémoriser des caractéristiques acoustiques décrivant des voix, et également des caractéristiques acoustiques décrivant des bruitages à mélanger sélectivement à des voix décrites, un moyen de synthèse vocale dans lequel des voix sont décrites en dépendance de caractéristiques acoustiques, et un moyen applicatif dans le terminal pour sélectionner dans le moyen serveur des caractéristiques acoustiques décrivant une voix et des caractéristiques acoustiques décrivant un bruitage afin que le moyen de synthèse vocale synthétise au moins un message textuel selon les caractéristiques acoustiques sélectionnées décrivant la voix en un message vocal mélangé au bruitage décrit et transmis au terminal.The invention also relates to a system for personalizing the sound presentation of messages in a terminal, for implementing the method of the invention. The system is characterized in that it includes server means for storing acoustic characteristics describing voices, and also acoustic characteristics describing sound effects to be selectively mixed with described voices, a voice synthesis means in which voices are described depending on acoustic characteristics, and an application means in the terminal for selecting in the server means acoustic characteristics describing a voice and acoustic characteristics describing a sound effect so that the voice synthesis means synthesizes at least one text message according to the selected acoustic characteristics describing the voice in a voice message mixed with the sound effects described and transmitted to the terminal.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels :Other characteristics and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention with reference to the corresponding appended drawings in which:
- la figure 1 est un bloc-diagramme schématique d'un système pour la présentation sonore de messages selon une réalisation préférée de l'invention ; et- Figure 1 is a schematic block diagram of a system for the audio presentation of messages according to a preferred embodiment of the invention; and
- la figure 2 est un algorithme d'un procédé de présentation sonore de messages selon l'invention.- Figure 2 is an algorithm of a method of audio presentation of messages according to the invention.
En référence à la figure 1, un système de présentation sonore de messages selon l'invention comprend essentiellement un terminal d'usager 1 muni au moins d'un haut-parleur ou d'un écouteur, un serveur central de sons 2 et un équipement de synthèse vocale 3. Le système repose sur une architecture du type client-serveur entre le terminal 1 associé à l'équipement 3 et le serveur central de sons 2.With reference to FIG. 1, a sound presentation system for messages according to the invention essentially comprises a user terminal 1 provided at least with a loudspeaker or a listener, a central sound server 2 and an equipment voice synthesis 3. The system is based on an architecture of the client-server type between the terminal 1 associated with the equipment 3 and the central sound server 2.
Par exemple, le terminal d'usager 1 est un ordinateur personnel ou un assistant numérique personnel, ou bien un récepteur de télévision ou de radio intelligent, ou un téléphone fixe ou un radiotéléphone cellulaire mobile. L'équipement de synthèse vocale 3 est relié au terminal 1 par une liaison classique 4 du type filaire ou radioélectrique de proximité. En variante, l'équipement 3 est intégré de manière amovible, comme une carte, dans le terminal 1. D'autre part, le terminal 1 est relié au serveur central 2 par l'intermédiaire d'un réseau d'accès 5 correspondant au type du terminal et d'un réseau de paquets 6 tel que le réseau internet.For example, the user terminal 1 is a personal computer or a digital assistant personal, or a smart TV or radio receiver, or a landline or mobile cell phone. The voice synthesis equipment 3 is connected to the terminal 1 by a conventional link 4 of the wired or radio proximity type. As a variant, the equipment 3 is removably integrated, like a card, in the terminal 1. On the other hand, the terminal 1 is connected to the central server 2 via an access network 5 corresponding to the type of terminal and of a packet network 6 such as the internet network.
L'équipement de synthèse vocale 3 comprend essentiellement une mémoire tampon 30 pour mémoriser un message textuel MT à synthétiser, et de préférence au moins un texte de test TE à synthétiser, un analyseur 31 de la phonétique et de la prosodie du texte à synthétiser, un synthétiseur vocal 32 proprement dit, et un générateur 33 générant un modèle acoustique en fonction de caractéristiques acoustiques CA délivrées par le terminal 1 et fournies par le serveur central 2. Les éléments fonctionnels 30 à 33 représentent schématiquement l'équipement de synthèse vocale pour une meilleure compréhension de l'invention et peuvent correspondre à des modules logiciels.The voice synthesis equipment 3 essentially comprises a buffer memory 30 for storing a text message MT to be synthesized, and preferably at least one test text TE to be synthesized, an analyzer 31 of the phonetics and of the prosody of the text to be synthesized, a speech synthesizer 32 proper, and a generator 33 generating an acoustic model as a function of acoustic characteristics CA delivered by the terminal 1 and supplied by the central server 2. The functional elements 30 to 33 schematically represent the speech synthesis equipment for a better understanding of the invention and may correspond to software modules.
L'invention concerne plus particulièrement le troisième module 33 qui définit un modèle acoustique en dépendance des paramètres, notamment tels que des valeurs, des caractéristiques CA d'un son, tel qu'une voix mélangée à un bruitage, afin d'appliquer à ce modèle des règles prédéterminées pour synthétiser un message textuel MT transcrit phonétiquement et prosodiquement dans l'analyseur 31 en un message vocal synthétisé MS transmis par le synthétiseur 32 au terminal 1. Selon une autre variante, les caractéristiques CA reçues dans le générateur 3 permettent de sélectionner des unités acoustiques qui sont concaténées selon des règles prédéterminées dans le synthétiseur 32 afin de reproduire vocalement un message analysé phonétiquement et prosodiquement dans l'analyseur 31. Quel que soit le type de synthèse vocale mise en oeuvre dans le synthétiseur 32, la synthèse vocale est définie en dépendance de caractéristiques acoustiques CA traitées dans le module 33 et sélectionnées par le terminal 1. Comme on le verra dans la suite de la description en référence à la figure 2, le terminal 1 supporte une application de personnalisation de présentation sonore 10 pour sélectionner les caractéristiques acoustiques CA d'un son à composer ou pour sélectionner une empreinte d'un son décrite par des caractéristiques acoustiques dans le serveur central 2. Les messages textuels MT à mémoriser temporairement dans la mémoire 30 pour les synthétiser sont fournis par l'usager du terminal 1, soit en les saisissant avec le clavier ou par reconnaissance vocale dans le terminal, soit en les lisant dans la mémoire du terminal s'ils ont été préenregistrés dans le terminal, ou bien encore en les téléchargeant depuis des serveurs de documents à travers les réseaux 5 et 6. De préférence, le message de test TE contenu dans la mémoire 30 est présélectionné par l'usager du terminal 1 et donc connu par l'usager pour tester une voix paramétrée par l'usager et modélisée dans l'équipement de synthèse vocale 3.The invention relates more particularly to the third module 33 which defines an acoustic model in dependence on the parameters, in particular such as values, CA characteristics of a sound, such as a voice mixed with a sound effect, in order to apply to this model of predetermined rules for synthesizing a textual message MT transcribed phonetically and prosodically in the analyzer 31 into a synthesized voice message MS transmitted by the synthesizer 32 at terminal 1. According to another variant, the characteristics CA received in the generator 3 make it possible to select acoustic units which are concatenated according to predetermined rules in the synthesizer 32 in order to reproduce vocally a message analyzed phonetically and prosodically in the analyzer 31. Whatever the type of speech synthesis implemented in synthesizer 32, speech synthesis is defined as a function of acoustic characteristics CA processed in module 33 and selected by terminal 1. As will be seen in the following description With reference to FIG. 2, the terminal 1 supports a sound presentation personalization application 10 for selecting the acoustic characteristics CA of a sound to be composed or for selecting an imprint of a sound described by acoustic characteristics in the central server 2. MT text messages to be temporarily stored in the memory oire 30 to synthesize them are provided by the user of terminal 1, either by entering them with the keyboard or by voice recognition in the terminal, or by reading them in the memory of the terminal if they have been prerecorded in the terminal, or again by downloading them from document servers through networks 5 and 6. Preferably, the test message TE contained in the memory 30 is preselected by the user of the terminal 1 and therefore known by the user to test a voice configured by the user and modeled in the text-to-speech equipment 3.
Selon une autre variante d'architecture de système, au moins un équipement de synthèse vocale 3 est intégré dans le serveur central 2 et partagé par plusieurs terminaux d'usager 1 pour lesquels des identificateurs d'usager IDU sont associés respectivement à des messages de test MT respectivement. Le serveur central 2 est alors analogue à un serveur vocal interactif dans lequel des voix synthétisées et leurs caractéristiques peuvent être sélectionnées par des usagers pour écouter des messages vocaux ou multimédias. Dans cette variante, les échanges notamment de commandes de caractéristique acoustique et de diffusion de message vocal sont effectués à travers le réseau d' accès 5 et le réseau de paquets 6 entre le terminal 1 et le serveur 2, et non également entre le serveur 2 et l'équipement 3 via le terminal 1 selon la figure 1.According to another variant of system architecture, at least one text-to-speech equipment 3 is integrated into the central server 2 and shared by several user terminals 1 for which user identifiers IDU are associated respectively with test messages MT respectively. The central server 2 is then analogous to an interactive voice server in which synthesized voices and their characteristics can be selected by users to listen to voice or multimedia messages. In this variant, the exchanges in particular of acoustic characteristic commands and of voice message broadcasting are carried out through the access network 5 and the packet network 6 between the terminal 1 and the server 2, and not also between the server 2 and the equipment 3 via the terminal 1 according to FIG. 1.
Selon une autre variante, le serveur central de sons 2 est réparti en plusieurs serveurs centraux dans chacun desquels un ou plusieurs catalogues de fichiers définis ci-après peuvent être consultés.According to another variant, the central sound server 2 is distributed into several central servers in each of which one or more catalogs of files defined below can be consulted.
Le serveur central 2 comprend essentiellement trois catalogues de fichiers de son V(CV,AV), B(CB,AB) et C(CC,AC) dans lesquels un usager de terminal peut puiser pour personnaliser la présentation sonore de messages vocaux reproduits dans son terminal. Tous ces fichiers sont sélectionnables depuis le terminal 1 au moyen de l'application 10. Le premier catalogue de fichiers V(CV,AV) est relatif à des voix dont les empreintes vocales ont été enregistrées et analysées afin de mémoriser les caractéristiques acoustiques essentielles CV de ces voix. Par exemple, les caractéristiques acoustiques décrivant une voix prédéterminée V et contenues dans un fichier du premier catalogue concernent le sexe masculin ou féminin, l'âge sous la forme d'une période relative à l'enfance ou l'adolescence ou l'âge adulte ou la vieillesse, des caractères prosodiques tels que des durées successives de segments syllabiques, l'emphase portant notamment sur l'accent sur des constituants de phrase, les fréquences laryngiennes et fondamentale relatives à la hauteur de la voix (en anglais «pitch») , le débit ou le rythme de parole qui peut être lent ou rapide ou intermédiaire, le niveau de son exprimé en décibels, etc.The central server 2 essentially comprises three catalogs of sound files V (CV, AV), B (CB, AB) and C (CC, AC) from which a terminal user can draw to personalize the sound presentation of voice messages reproduced in his terminal. All these files can be selected from terminal 1 using the application 10. The first catalog of V files (CV, AV) relates to voices whose voice prints have been recorded and analyzed in order to memorize the essential acoustic characteristics CV of those voices. For example, the acoustic characteristics describing a predetermined voice V and contained in a file from the first catalog concerns the male or female sex, age in the form of a period relating to childhood or adolescence or adulthood or old age, prosodic characters such as successive lengths of segments syllabics, the emphasis being in particular on the accent on sentence components, the laryngeal and fundamental frequencies relating to the pitch of the voice (in English "pitch"), the flow or rhythm of speech which can be slow or fast or intermediate, the level of sound expressed in decibels, etc.
Le fichier d'une voix prédéterminée V contient également des attributs AV spécifiques à chaque voix qui sont facultatifs et qui concernent le propriétaire de la voix tel qu'un usager ou une société ou un organisme en tant qu'usager collectif, et/ou des restrictions d'accès au fichier de voix afin que celui-ci puisse être diffusé et utilisé par des usagers prédéterminés qui sont repérés par des identificateurs IDU introduits dans une liste d'usagers UV autorisés à utiliser la voix prédéterminée, ou des caractéristiques définissant un profil d'usager qu'un usager doit présenter pour accéder à l'usager de la voix, et/ou une rémunération de l'usage de la voix qui peut être éventuellement gratuit, et toute autre caractéristique contribuant à commercialiser la voix prédéterminée.The file of a predetermined voice V also contains AV attributes specific to each voice which are optional and which concern the owner of the voice such as a user or a company or an organization as a collective user, and / or access restrictions to the voice file so that it can be distributed and used by predetermined users who are identified by IDU identifiers entered in a list of UV users authorized to use the predetermined voice, or characteristics defining a profile user that a user must present to access the voice user, and / or a fee for the use of the voice which may be free, and any other feature contributing to market the predetermined voice.
Le deuxième catalogue de fichiers B(CB,AB) est relatif à des bruitages B qui peuvent être des effets sonores, des sons spéciaux ou des morceaux musicaux dont un ou plusieurs peuvent être sélectionnés par l'usager du terminal 1 afin d'être superposés à la voix sélectionnée avec laquelle un message textuel est synthétisé. Chaque bruitage B est défini, comme les voix dans le premier catalogue, par des caractéristiques acoustiques CB et le cas échéant est associé à des attributs AB et à une liste d'usagers autorisés UB. Pour des raisons pratiques de téléchargement, les différents bruitages du deuxième catalogue sont constitués de préférence par des fichiers de son de petite taille chaînés et en boucle. Un ou plusieurs fichiers de bruitage chaînés peuvent être téléchargés dans le terminal.The second catalog of files B (CB, AB) relates to sound effects B which can be sound effects, special sounds or musical pieces one or more of which can be selected by the user of the terminal 1 in order to be superimposed to the selected voice with which a text message is synthesized. Each B sound effect is defined as the voices in the first catalog, by acoustic characteristics CB and where appropriate is associated with attributes AB and with a list of authorized users UB. For practical reasons of downloading, the different sound effects in the second catalog are preferably made up of small, chained and looped sound files. One or more linked sound effects can be downloaded to the terminal.
Le troisième catalogue de fichiers C(CC,AC) est relatif à des fichiers de combinaisons de sons qui résultent chacune de caractéristiques acoustiques CC combinant les caractéristiques acoustiques CV et CB au moins d'une voix V et au moins d'un bruitage B, ou de plusieurs combinaisons de voix et de bruitage réparties temporellement . Chaque combinaison est ainsi définie par des caractéristiques acoustiques CC et associée à des attributs AC et à une liste d'usagers autorisés UC.The third catalog of files C (CC, AC) relates to files of combinations of sounds which each result from acoustic characteristics CC combining the acoustic characteristics CV and CB at least of a voice V and at least of a sound effect B, or several combinations of voices and sound effects distributed in time. Each combination is thus defined by acoustic characteristics CC and associated with attributes AC and a list of authorized users UC.
Un usager de terminal peut ainsi définir un programme audio qui est partagé en diverses périodes au cours desquelles des combinaisons de voix et de bruitage personnaliseront respectivement des portions d'un message textuel MT à synthétiser. Les attributs d'une combinaison définissent notamment les longueurs de périodes pour des combinaisons sonores respectives, ainsi que l'instant de début de ces périodes par rapport à l'instant de début d'un message.A terminal user can thus define an audio program which is divided into various periods during which combinations of voice and sound effects will respectively personalize portions of a text message MT to be synthesized. The attributes of a combination define in particular the lengths of periods for respective sound combinations, as well as the start time of these periods relative to the start time of a message.
De préférence, le serveur central de sons 2 comprend un quatrième catalogue PV (CPV,APV) relatif à des présentations visuelles PV de messages textuels à synthétiser définies chacune par des caractéristiques CPV et des attributs APV. Les caractéristiques CPV d'une présentation visuelle concernent un fond d'écran, ou des images plus ou moins animées, ou plus particulièrement le visage d'une tête d'un animateur dont les yeux et la bouche au moins sont animés en fonction de la prononciation du message vocal synthétisé au moyen d'un moteur d'animation faciale implémenté dans le terminal d'usager. Toute la tête de l'animateur ou des éléments tels qu'yeux et bouches peuvent être choisis dans le quatrième catalogue. Comme dans les catalogues précédents, des attributs de présentation visuelle APV définissent le propriétaire de la présentation visuelle PV, des restrictions d'accès par exemple associées à une liste d'usagers autorisés UPV, ou une rémunération relative à la présentation visuelle sélectionnée.Preferably, the central sound server 2 comprises a fourth PV catalog (CPV, APV) relating to visual presentations PV of text messages to be synthesized, each defined by CPV characteristics and APV attributes. CPV characteristics of a visual presentation relate to a wallpaper, or more or less animated images, or more particularly the face of a head of an animator whose eyes and mouth at least are animated according to the pronunciation of the message voice synthesized by means of a facial animation engine implemented in the user terminal. The whole animator's head or elements such as eyes and mouths can be chosen from the fourth catalog. As in the previous catalogs, visual presentation attributes APV define the owner of the visual presentation PV, access restrictions for example associated with a list of authorized users UPV, or remuneration relating to the selected visual presentation.
En variante, les quatre catalogues définis ci- dessus sont répartis dans des serveurs respectifs au lieu d'être centralisés dans un unique serveur 2, et/ou sont déclinés par exemple par région géographique afin d'offrir notamment des voix et des bruitages adaptés à des coutumes régionales ou locales et de réduire le temps de réponse.As a variant, the four catalogs defined above are distributed in respective servers instead of being centralized in a single server 2, and / or are declined for example by geographic region in order to offer in particular voices and sound effects adapted to regional or local customs and reduce response time.
On se réfère maintenant à la figure 2 pour décrire les étapes principales El à E14 du procédé pour personnaliser la présentation sonore de messages synthétisés MS depuis le terminal d'usager 1. Le terminal 1 est désigné par un identificateur IDU qui peut comprendre un numéro de téléphone ou une adresse IP (Internet Protocol) accompagnée le cas échéant d'un code confidentiel d'accès.Reference is now made to FIG. 2 to describe the main steps E1 to E14 of the method for personalizing the sound presentation of synthesized messages MS from the user terminal 1. The terminal 1 is designated by an identifier IDU which may include a number of telephone or an Internet Protocol (IP) address accompanied, where appropriate, by a confidential access code.
En fonction du type du terminal, les commandes relatives à des sélections effectuées au cours du déroulement du procédé correspondent à l'appui d'une touche du clavier du terminal par exemple traduit en un code à multifréquence DTMF (Dual Tone MultiFrequency) pour un téléphone ou un radiotéléphone ou une commande spécifique à un protocole de communication ou d'interface graphique d'usager, ou bien encore correspondent à une commande vocale reconnue par un moyen de reconnaissance vocale inclus dans le terminal 1 et/ou le serveur 2. Les diverses sélections sont assistées de préférence par des pages affichées dans le terminal, lorsque celui- ci possède un afficheur ou un écran d'affichage, le dialogue entre le terminal 1 et le serveur 2 s' effectuant ainsi d'une manière connue. En variante, le dialogue entre le terminal 1 et le serveur central 2 est réalisé par l'intermédiaire d'un serveur vocal interactif. La présentation des catalogues consultés dans le serveur 2 par le terminal 1 est arborescente, c'est-à-dire réalisée par l'intermédiaire de menus et sous-menus successifs avec un retour à un menu principal . En fonction de l'application de personnalisation 10 implémentée dans le terminal 1, l'usager sélectionne les caractéristiques acoustiques d'au moins une voix V et d'un bruitage B et/ou d'une combinaison de sons C soit directement dans le serveur central 2, soit après téléchargement dans le terminal 1 d'une partie des catalogues relative à des fichiers mis à la disposition du public, ou dont l'accès est autorisé pour cet usager.Depending on the type of terminal, the commands relating to selections made during the course of the process correspond to the pressing of a key on the terminal keyboard, for example translated into a DTMF (Dual Tone MultiFrequency) multifrequency code for a telephone or radiotelephone or a command specific to a communication protocol or user graphical interface, or else correspond to a voice command recognized by an included voice recognition means in terminal 1 and / or server 2. The various selections are preferably assisted by pages displayed in the terminal, when the latter has a display or a display screen, the dialogue between terminal 1 and server 2 thus being carried out in a known manner. As a variant, the dialogue between the terminal 1 and the central server 2 is carried out by means of an interactive voice server. The presentation of the catalogs consulted in the server 2 by the terminal 1 is tree-like, that is to say carried out by means of successive menus and submenus with a return to a main menu. Depending on the personalization application 10 implemented in the terminal 1, the user selects the acoustic characteristics of at least one voice V and of a sound effect B and / or of a combination of sounds C either directly in the server central 2, either after downloading to terminal 1 of part of the catalogs relating to files made available to the public, or access to which is authorized for this user.
La figure 2 illustre un exemple préféré d'étapes composant le procédé de personnalisation selon l'invention, à la fois pour les variantes ci-dessus.FIG. 2 illustrates a preferred example of steps making up the personalization method according to the invention, both for the above variants.
D'une manière classique à l'étape El, l'usager devant le terminal 1 ouvre une session de l'application 10 relative à la présentation sonore de messages à synthétiser afin que le terminal 1 appelle le serveur central 2 dont l'adresse IP est mémorisée dans le terminal. Si l'application le permet, l'usager sélectionne dans un menu les catalogues ou des catégories de son dans les catalogues et les télécharge depuis le serveur 2 dans le terminal 1 afin de procéder à diverses sélections selon les étapes suivantes pour construire une présentation sonore personnalisée. Sinon, les étapes suivantes de sélection sont effectuées à travers un dialogue de questions-réponses entre le terminal 1 et le serveur 2 qui construit au fur et à mesure des sélections par l'usager une présentation sonore déterminée. On se référera ci-après à cette deuxième variante.In a conventional manner in step E1, the user in front of the terminal 1 opens a session of the application 10 relating to the audio presentation of messages to be synthesized so that the terminal 1 calls the central server 2, the IP address of which is stored in the terminal. If the application allows it, the user selects the catalogs or sound categories in the catalogs from a menu and downloads them from the server 2 in the terminal 1 in order to make various selections according to the following steps to build a sound presentation customized. Otherwise, the following selection steps are carried out through a question and answer dialogue between the terminal 1 and the server 2 which, as the user selects, constructs a specific sound presentation. This second variant will be referred to below.
A l'étape suivante E3, l'application 10 demande à l'usager s'il souhaite sélectionner au moins l'une de ses combinaisons favorites déterminées et mémorisées antérieurement, éventuellement en association avec l'identificateur IDU dans le serveur 2, si elles existent dans le troisième catalogue. Sinon, des caractéristiques de son sont sélectionnées ci-après par l'usager afin de constituer une combinaison de sons personnalisant la présentation vocale de messages textuels MT à synthétiser par l'équipement de synthèse vocale 3. A l'étape suivante E4, l'usager du terminal 1 sélectionne des caractéristiques acoustiques CV en validant les paramètres de celles-ci de manière à constituer une voix personnalisée V dans le premier catalogue de fichiers de voix. En variante, au lieu de sélectionner des caractéristiques acoustiques de voix V, l'usager sélectionne une voix V parmi plusieurs voix autorisées dans le premier catalogue, chacune d'entre elles étant désignée par un nom et une brève description des caractéristiques acoustiques de celle-ci. A l'étape E4, l'application 10 propose optionnellement à l'usager de personnaliser encore plus la présentation sonore de ses messages en enregistrant une empreinte vocale prédéterminée, par exemple une phrase prédéterminée prononcée par l'usager. Pour mélanger ultérieurement la voix définie par les caractéristiques sélectionnées CV ou la voix sélectionnée précédemment à un ou plusieurs bruitages B, l'usager sélectionne à l'étape E5, d'une manière analogue à l'étape E4, des caractéristiques acoustiques CB dans le deuxième catalogue de fichiers de bruitage de manière à déterminer un ou plusieurs bruitages, ou sélectionne directement un ou plusieurs bruitages autorisés définis chacun par des caractéristiques acoustiques prédéterminées. Après les étapes E4 et E5, les caractéristiques de voix et de bruitage sélectionnées directement ou indirectement sont transmises au générateur de modèle acoustique 33.In the next step E3, the application 10 asks the user if he wishes to select at least one of his favorite combinations determined and stored previously, possibly in association with the identifier IDU in the server 2, if they exist in the third catalog. Otherwise, sound characteristics are selected below by the user in order to constitute a combination of sounds personalizing the voice presentation of text messages MT to be synthesized by the voice synthesis equipment 3. In the following step E4, the user of terminal 1 selects acoustic characteristics CV by validating the parameters thereof so as to constitute a personalized voice V in the first catalog of voice files. As a variant, instead of selecting acoustic characteristics of voice V, the user selects a voice V from among several voices authorized in the first catalog, each of which is designated by a name and a brief description of the acoustic characteristics of that voice. this. In step E4, the application 10 optionally proposes to the user to further personalize the sound presentation of his messages by recording a predetermined voice print, for example a predetermined sentence pronounced by the user. To subsequently mix the voice defined by the selected characteristics CV or the previously selected voice with one or more sound effects B, the user selects in step E5, in a manner analogous to step E4, acoustic characteristics CB in the second catalog of sound effects files so as to determine one or more sound effects, or directly selects one or more authorized sound effects each defined by predetermined acoustic characteristics. After steps E4 and E5, the voice and sound effects characteristics selected directly or indirectly are transmitted to the acoustic model generator 33.
Puis un texte de test TE est éventuellement sélectionné à l'étape E6 afin que le texte de test sélectionné serve d'essai pour la synthèse vocale dans le synthétiseur 32, dépendant d'un modèle acoustique défini par les caractéristiques sélectionnées CV dans le générateur 33, avant de valider définitivement le choix des caractéristiques acoustiques de la combinaison sélectionnée de voix et de bruitage CS = CV + CB sélectionnée aux étapes précédentes E4 et E5. Le texte de test TE sélectionné à l'étape E6 peut être un texte, ou une combinaison de textes, numérisé et préenregistré dans le terminal 1 ou la mémoire tampon 30 de l'équipement 3, ou saisi directement par l'usager dans le terminal 1, ou téléchargé depuis un ou plusieurs serveurs de documents au moins textuels via le terminal 1 dans la mémoire 30 de l'équipement 3. Le texte de test TE est de préférence mémorisé dans la mémoire 30 de l'équipement 3 notamment pour des étapes de test dans des présentations sonores ultérieures.Then a test text TE is optionally selected in step E6 so that the selected test text serves as a test for speech synthesis in the synthesizer 32, depending on an acoustic model defined by the selected characteristics CV in the generator 33 , before definitively validating the choice of acoustic characteristics of the selected combination of voice and sound effects CS = CV + CB selected in the preceding steps E4 and E5. The TE test text selected in step E6 can be a text, or a combination of texts, scanned and prerecorded in the terminal 1 or the buffer memory 30 of the equipment 3, or entered directly by the user in the terminal 1, or downloaded from one or more at least textual document servers via the terminal 1 into the memory 30 of the equipment 3. The test text TE is preferably stored in the memory 30 of the equipment 3 in particular for test steps in subsequent sound presentations.
A l'étape suivante E7, le texte de test TE lu dans la mémoire 30 est analysé par l'analyseur 31 et synthétisé dans le synthétiseur 32 en fonction notamment du modèle acoustique défini par les caractéristiques acoustiques de voix CV sélectionnées à l'étape E4 avec mixage de bruitage (s) B sélectionnés à l'étape E5. Le message vocal MS produit par le synthétiseur 32 est transmis au terminal 1 afin que l'usager l'écoute.In the next step E7, the test text TE read in the memory 30 is analyzed by the analyzer 31 and synthesized in the synthesizer 32 as a function in particular of the acoustic model defined by the acoustic characteristics of voice CV selected in step E4 with mixing of sound effects B selected in step E5. The voice message MS produced by the synthesizer 32 is transmitted to the terminal 1 so that the user can listen to it.
Si l'usager n'est pas satisfait par les caractéristiques acoustiques du message vocal produit, l'application 10 lui propose à l'étape E8 de modifier, c'est-à-dire d'ajouter ou de retirer ou corriger une caractéristique acoustique CV de la voix décrite V ou CB du ou des bruitages décrits B sélectionnés aux étapes E4 et E5, en revenant à l'étape E4. Finalement, après éventuellement une ou plusieurs répétitions des étapes E4 à E8, le terminal 1 et le serveur 2 mémorisent les caractéristiques acoustiques [CV + CB] de la combinaison sélectionnée CS à l'étape E9, de préférence en l'associant à l'identificateur d'usager IDU.If the user is not satisfied with the acoustic characteristics of the voice message produced, the application 10 proposes to him in step E8 to modify, that is to say to add or remove or correct an acoustic characteristic CV of the voice described V or CB of the sound effects described B selected in steps E4 and E5, returning to step E4. Finally, after possibly one or more repetitions of steps E4 to E8, the terminal 1 and the server 2 store the acoustic characteristics [CV + CB] of the selected combination CS in step E9, preferably by associating it with the IDU user identifier.
Optionnellement, à l'étape E10, l'application 10 propose à l'usager une sélection de caractéristiques CPV dans le quatrième catalogue de fichiers de présentation visuelle afin de sélectionner à l'étape E101 une présentation visuelle telle qu'un fond d'écran et/ou une animation faciale.Optionally, in step E10, the application 10 offers the user a selection of CPV characteristics in the fourth catalog of visual presentation files in order to select in step E101 a visual presentation such as a wallpaper. and / or facial animation.
A l'étape suivante Eli, le terminal 1 et le serveur 2 mémorisent les caractéristiques de présentation visuelle CPV éventuellement sélectionnées à l'étape E101 en association avec la combinaison de caractéristiques acoustiques de voix et de bruitage [CV + CB] sélectionnées aux étapes E4 à E8.In the next step Eli, the terminal 1 and the server 2 store the visual presentation characteristics CPV possibly selected in step E101 in association with the combination of acoustic characteristics of voice and sound effects [CV + CB] selected in steps E4 to E8.
Puis à des étapes suivantes notamment E121, E122 et E123, l'application 10 invite l'usager du terminal 1 à sélectionner un ou plusieurs paramètres notamment temporels et/ou documentaires personnalisant l'usage de la combinaison de sons CS composée aux étapes précédentes.Then at the following steps, in particular E121, E122 and E123, the application 10 invites the user of the terminal 1 to select one or more parameters, in particular temporal and / or documentary, personalizing the use of the combination of sounds CS composed in the preceding steps.
A l'étape E121, l'usager indique deux dates de diffusion au sujet de la combinaison sélectionnée CS. En pratique, l'usager indique une date de début de diffusion et/ou une date de fin de diffusion de la combinaison sélectionnée. Une ou plusieurs périodes de diffusion peuvent être ainsi sélectionnées pour rendre accessible la combinaison sélectionnée pendant ces périodes. Au moyen de l'association de telles périodes à diverses combinaisons sélectionnées, des programmes audio sont constitués. Les programmes audiovisuels constitués sont de préférence affichés dans le terminal avec leurs positions temporelles respectives. Toutes les données temporelles précédentes et suivantes sont exprimées en année, mois, jour, heure, minute et seconde.In step E121, the user indicates two dates of broadcast about the selected combination CS. In practice, the user indicates a start date of broadcast and / or an end date of broadcast of the selected combination. One or more broadcast periods can thus be selected to make the combination selected during these periods accessible. By associating such periods with various selected combinations, audio programs are formed. The audiovisual programs created are preferably displayed in the terminal with their respective time positions. All previous and following time data are expressed in year, month, day, hour, minute and second.
A l'étape E122, l'application 10 propose à l'usager de déterminer l'instant de début d'introduction de la combinaison sélectionnée CS ainsi que la durée de celle-ci par rapport à l'instant de début d'écoute d'un message vocal MS synthétisé dans l'équipement 3 afin de constituer avec d'autres combinaisons sélectionnées un programme audio. Optionnellement, l'instant de début et la durée de diffusion de la combinaison sélectionnée CS sont choisis aléatoirement par l'application 10. En variante, plusieurs combinaisons sont sélectionnées pour constituer une série de combinaisons de sons qui est répétée périodiquement.In step E122, the application 10 proposes to the user to determine the time of start of introduction of the selected combination CS as well as the duration of the latter relative to the time of start of listening d a voice message MS synthesized in the equipment 3 in order to constitute with other selected combinations an audio program. Optionally, the start time and the duration of diffusion of the selected combination CS are chosen randomly by the application 10. In alternatively, several combinations are selected to constitute a series of combinations of sounds which is repeated periodically.
A l'étape E123, l'application 10 propose à l'usager d'associer des documents prédéterminés à la combinaison sélectionnée CS. Chacun de ces documents est repéré par un identificateur qui peut être un nom et/ou une adresse telle qu'une adresse URL (Uniform Resource Locator) lue dans un serveur de site web. L'association d'un document avec une ou des combinaisons peut être mise à la disposition de tout usager.In step E123, the application 10 offers the user to associate predetermined documents with the selected combination CS. Each of these documents is identified by an identifier which can be a name and / or an address such as a URL (Uniform Resource Locator) address read from a website server. The association of a document with one or more combinations can be made available to any user.
Après les étapes E121 et/ou E122 et/ou E123, ou après l'étape E3 ayant sélectionné une combinaison dite «favorite» déjà mémorisée dans le serveur 2 ou le terminal 1 et accessible à l'usager, l'application 10 invite l'usager du terminal 1 à écouter un message textuel MT de son choix afin de le transmettre à l'équipement de synthèse vocale 3 qui a reçu les caractéristiques acoustiques CV et CB de la combinaison sélectionnée ou favorite. Le message vocal MS résultant de la synthèse vocale du message textuel sélectionné MT est écouté par l'usager simultanément à une éventuelle présentation visuelle telle qu'une animation faciale dont les caractéristiques CPV ont été sélectionnées à l'étape E10 et qui est affichée dans le terminal. Puis si l'usager souhaite modifier des caractéristiques acoustiques et/ou visuelles de la présentation du message synthétisé, comme indiqué à l'étape E14, il procède de nouveau à la sélection de caractéristiques acoustiques de voix et/ou de bruitage et éventuellement de caractéristiques de présentation visuelle à partir de l'étape E4. Sinon, la session de l'application 10 au moins entre le terminal 1 et l'équipement 3 est terminée à l'étape E15. After steps E121 and / or E122 and / or E123, or after step E3 having selected a so-called “favorite” combination already stored in the server 2 or the terminal 1 and accessible to the user, the application 10 prompts the user of the terminal 1 to listen to a text message MT of his choice in order to transmit it to the voice synthesis equipment 3 which has received the acoustic characteristics CV and CB of the selected or favorite combination. The voice message MS resulting from the voice synthesis of the selected text message MT is listened to by the user simultaneously with a possible visual presentation such as a facial animation whose CPV characteristics were selected in step E10 and which is displayed in the terminal. Then if the user wishes to modify acoustic and / or visual characteristics of the presentation of the synthesized message, as indicated in step E14, he again proceeds to the selection of acoustic characteristics of voice and / or sound effects and possibly of characteristics visual presentation from step E4. Otherwise, the session of the application 10 at least between the terminal 1 and the equipment 3 is terminated in step E15.

Claims

REVENDICATIONS
1 - Procédé pour personnaliser la présentation sonore de messages synthétisés dans un terminal (1) , caractérisé en ce qu'il comprend des étapes de sélectionner (E4) des caractéristiques acoustiques1 - Method for personalizing the sound presentation of messages synthesized in a terminal (1), characterized in that it comprises steps for selecting (E4) acoustic characteristics
(CV) décrivant une voix (V) dans un premier catalogue de caractéristiques acoustiques prémémorisé dans un moyen serveur (2) , sélectionner (E5) des caractéristiques acoustiques (CB) décrivant un bruitage (B) dans un deuxième catalogue de caractéristiques acoustiques prémémorisé dans le moyen serveur (2) afin de les transmettre avec les caractéristiques acoustiques sélectionnées (CV) décrivant la voix (V) au moyen de synthèse vocale (3) , et synthétiser (E7) un message textuel (MT) dans le moyen de synthèse vocale en dépendance des caractéristiques acoustiques sélectionnées décrivant la voix en un message vocal (MS) qui est mélangé au bruitage sélectionné pour être transmis au terminal (1) •(CV) describing a voice (V) in a first catalog of acoustic characteristics stored in a server means (2), select (E5) acoustic characteristics (CB) describing a sound effect (B) in a second catalog of acoustic features stored in the server means (2) in order to transmit them with the selected acoustic characteristics (CV) describing the voice (V) by means of voice synthesis (3), and synthesize (E7) a text message (MT) in the voice synthesis means depending on the selected acoustic characteristics describing the voice in a voice message (MS) which is mixed with the selected sound effects to be transmitted to the terminal (1) •
2 - Procédé conforme à la revendication 1, selon lequel les étapes de sélectionner (E4, E5) des caractéristiques acoustiques décrivant une voix (V) et un bruitage (B) sont remplacées par une étape de sélectionner directement une voix dans le premier catalogue et un bruitage dans le deuxième catalogue.2 - Method according to claim 1, according to which the steps of selecting (E4, E5) acoustic characteristics describing a voice (V) and a sound effect (B) are replaced by a step of directly selecting a voice in the first catalog and sound effects in the second catalog.
3 - Procédé conforme à conforme à la revendication 1 ou 2, comprenant une étape (E6) de sélectionner le message textuel (MT) à synthétiser.3 - Method according to according to claim 1 or 2, comprising a step (E6) of selecting the text message (MT) to synthesize.
4 - Procédé conforme à la revendication 3, selon lequel le message textuel (MT) à synthétiser est transmis par le terminal (1) et mémorisé dans le moyen de synthèse vocale (3) .4 - Process according to claim 3, according to which the text message (MT) to be synthesized is transmitted by the terminal (1) and stored in the voice synthesis means (3).
5 - Procédé conforme à la revendication 3, selon lequel le message textuel (MT) à synthétiser est sélectionné dans un serveur de documents textuels afin de le télécharger via le terminal (1) dans le moyen de synthèse vocale (3) .5 - Method according to claim 3, according to which the text message (MT) to be synthesized is selected in a text document server in order to download it via the terminal (1) in the voice synthesis means (3).
6 - Procédé conforme à l'une quelconque des revendications 1 à 5, comprenant après une écoute (E7) du message vocal (MS) transmis par le moyen de synthèse vocale (3) au terminal (1), une étape (E8) d'ajouter ou de retirer ou de corriger une caractéristique acoustique (CV, CB) pour décrire au moins la voix.6 - Method according to any one of claims 1 to 5, comprising after listening (E7) of the voice message (MS) transmitted by the voice synthesis means (3) to the terminal (1), a step (E8) d '' add or remove or correct an acoustic characteristic (CV, CB) to describe at least the voice.
7 - Procédé conforme à l'une quelconque des revendications 1 à 6, comprenant une étape (E3) de sélectionner au moins une combinaison (C) prémémorisée dans un troisième catalogue au moins dans le terminal et comprenant au moins une voix (V) et au moins un bruitage (B) afin de synthétiser tout message textuel (MT) en dépendance de caractéristiques acoustiques de la combinaison.7 - Method according to any one of claims 1 to 6, comprising a step (E3) of selecting at least one combination (C) stored in a third catalog at least in the terminal and comprising at least one voice (V) and at least one sound effect (B) in order to synthesize any text message (MT) depending on the acoustic characteristics of the combination.
8 - Procédé conforme à l'une quelconque des revendications 1 à 7, comprenant une sélection (E10, E101) de caractéristiques d'une présentation visuelle (CPV) dans un quatrième catalogue prémémorisé dans le moyen serveur (2) afin de les transmettre au terminal8 - Method according to any one of claims 1 to 7, comprising a selection (E10, E101) of characteristics of a visual presentation (CPV) in a fourth catalog stored in the server means (2) in order to transmit them to the terminal
(1) et d'afficher la présentation visuelle dans le terminal en synchronisme avec la reproduction du message vocal (MS) dans le terminal. 9 - Procédé conforme à l'une quelconque des revendications 1 à 8, comprenant en outre une étape(1) and to display the visual presentation in the terminal in synchronism with the reproduction of the voice message (MS) in the terminal. 9 - Process according to any one of claims 1 to 8, further comprising a step
(E121, E122, E123) de sélectionner au moins l'un des paramètres suivants personnalisant l'usage au moins de la voix (V) décrite par les caractéristiques acoustiques sélectionnées : date et période de diffusion de la voix sélectionnée, instant d' introduction et durée de la voix sélectionnée par rapport à l'instant du début d'un message vocal synthétisé dans le moyen de synthèse vocale (3) , identificateur de documents à associer à la voix, combinaison de sons, y compris la voix sélectionnée, ou d'une série de sons.(E121, E122, E123) to select at least one of the following parameters personalizing the use of at least the voice (V) described by the selected acoustic characteristics: date and period of diffusion of the selected voice, instant of introduction and duration of the voice selected with respect to the instant of the start of a voice message synthesized in the voice synthesis means (3), identifier of documents to be associated with the voice, combination of sounds, including the selected voice, or of a series of sounds.
10 - Procédé conforme à l'une quelconque des revendications 1 à 9, comprenant préalablement dans le moyen serveur (2) une définition d'attributs spécifiques au moins à des voix et relatifs à la propriété et/ou une restriction d'accès et/ou une rémunération de l'usage des voix.10 - Method according to any one of claims 1 to 9, comprising beforehand in the server means (2) a definition of attributes specific at least to voices and relating to the property and / or a restriction of access and / or remuneration for the use of votes.
11 - Système pour personnaliser la présentation sonore de messages synthétisés dans un terminal (1) , caractérisé en ce qu'il comprend un moyen serveur (2) pour mémoriser des caractéristiques acoustiques (CV) décrivant des voix (V) et des caractéristiques acoustiques (CB) décrivant des bruitages (B) à mélanger sélectivement à des voix décrites, un moyen de synthèse vocale (3) dans lequel des voix sont décrites en dépendance de caractéristiques acoustiques, et un moyen applicatif (10) dans le terminal (1) pour sélectionner dans le moyen serveur (2) des caractéristiques acoustiques décrivant une voix et des caractéristiques acoustiques décrivant un bruitage afin que le moyen de synthèse vocale synthétise un message textuel (MT) selon les caractéristiques acoustiques sélectionnées décrivant la voix en un message vocal (MS) mélangé au bruitage décrit et transmis au terminal.11 - System for personalizing the sound presentation of messages synthesized in a terminal (1), characterized in that it comprises server means (2) for memorizing acoustic characteristics (CV) describing voices (V) and acoustic characteristics ( CB) describing sound effects (B) to be selectively mixed with described voices, a voice synthesis means (3) in which voices are described depending on acoustic characteristics, and an application means (10) in the terminal (1) for selecting in the server means (2) acoustic characteristics describing a voice and acoustic characteristics describing a sound effect so that the voice synthesis means synthesizes a text message (MT) according to the selected acoustic characteristics describing the voice into a voice message (MS) mixed with the sound effects described and transmitted to the terminal.
12 - Système conforme à la revendication 11, dans lequel le moyen de synthèse vocale est un équipement (3) situé à proximité du ou intégré dans le terminal (1) .12 - System according to claim 11, wherein the voice synthesis means is an equipment (3) located near or integrated into the terminal (1).
13 - Système conforme à la revendication 11, dans lequel le moyen de synthèse vocale (3) est intégré dans le moyen serveur (2) . 13 - System according to claim 11, wherein the voice synthesis means (3) is integrated in the server means (2).
PCT/FR2002/003984 2002-01-23 2002-11-21 Personalisation of the acoustic presentation of messages synthesised in a terminal WO2003063133A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR02/00851 2002-01-23
FR0200851A FR2835087B1 (en) 2002-01-23 2002-01-23 PERSONALIZATION OF THE SOUND PRESENTATION OF SYNTHESIZED MESSAGES IN A TERMINAL

Publications (2)

Publication Number Publication Date
WO2003063133A1 true WO2003063133A1 (en) 2003-07-31
WO2003063133A8 WO2003063133A8 (en) 2005-04-28

Family

ID=27589573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/003984 WO2003063133A1 (en) 2002-01-23 2002-11-21 Personalisation of the acoustic presentation of messages synthesised in a terminal

Country Status (2)

Country Link
FR (1) FR2835087B1 (en)
WO (1) WO2003063133A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2383502B (en) * 2001-11-02 2005-11-02 Nec Corp Voice synthesis system and method,and portable terminal and server therefor
WO2008043694A1 (en) * 2006-10-10 2008-04-17 International Business Machines Corporation Voice messaging feature provided for electronic communications

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102413282B1 (en) * 2017-08-14 2022-06-27 삼성전자주식회사 Method for performing personalized speech recognition and user terminal and server performing the same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
EP0843168A2 (en) * 1996-11-19 1998-05-20 Sony Corporation An information processing apparatus, an information processing method, and a medium for use in a three-dimensional virtual reality space sharing system
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
EP1083536A2 (en) * 1999-09-09 2001-03-14 Lucent Technologies Inc. A method and apparatus for interactive language instruction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
EP0843168A2 (en) * 1996-11-19 1998-05-20 Sony Corporation An information processing apparatus, an information processing method, and a medium for use in a three-dimensional virtual reality space sharing system
EP1083536A2 (en) * 1999-09-09 2001-03-14 Lucent Technologies Inc. A method and apparatus for interactive language instruction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2383502B (en) * 2001-11-02 2005-11-02 Nec Corp Voice synthesis system and method,and portable terminal and server therefor
US7313522B2 (en) 2001-11-02 2007-12-25 Nec Corporation Voice synthesis system and method that performs voice synthesis of text data provided by a portable terminal
WO2008043694A1 (en) * 2006-10-10 2008-04-17 International Business Machines Corporation Voice messaging feature provided for electronic communications

Also Published As

Publication number Publication date
WO2003063133A8 (en) 2005-04-28
FR2835087B1 (en) 2004-06-04
FR2835087A1 (en) 2003-07-25

Similar Documents

Publication Publication Date Title
US7142645B2 (en) System and method for generating and distributing personalized media
US20060136556A1 (en) Systems and methods for personalizing audio data
US8855334B1 (en) Mixed content for a communications device
JP2003521750A (en) Speech system
US20030028380A1 (en) Speech system
WO2006078246A1 (en) System and method for generating and distributing personalized media
US8311830B2 (en) System and method for client voice building
US20130151364A1 (en) System and method for offering a title for sale over the internet
US20080120311A1 (en) Device and Method for Protecting Unauthorized Data from being used in a Presentation on a Device
US20110161377A1 (en) System and method for correlating a first title with a second title
US20080120312A1 (en) System and Method for Creating a New Title that Incorporates a Preexisting Title
US20080120342A1 (en) System and Method for Providing Data to be Used in a Presentation on a Device
US20080141180A1 (en) Apparatus and Method for Utilizing an Information Unit to Provide Navigation Features on a Device
US20020010584A1 (en) Interactive voice communication method and system for information and entertainment
US20080120330A1 (en) System and Method for Linking User Generated Data Pertaining to Sequential Content
US20080119953A1 (en) Device and System for Utilizing an Information Unit to Present Content and Metadata on a Device
US20030028377A1 (en) Method and device for synthesizing and distributing voice types for voice-enabled devices
US20080082316A1 (en) Method and System for Generating, Rating, and Storing a Pronunciation Corpus
WO2014100893A1 (en) System and method for the automated customization of audio and video media
WO2007039693A1 (en) Streaming distribution of multimedia digital documents via a telecommunication network
WO2003063133A1 (en) Personalisation of the acoustic presentation of messages synthesised in a terminal
EP1474933A1 (en) Interactive telephone voice services
CN115393484A (en) Method and device for generating virtual image animation, electronic equipment and storage medium
EP1793605A1 (en) Method for supplying on demand interactive menus to terminals connected to a network
WO2001073752A1 (en) Storage medium, distributing method, and speech output device

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
CFP Corrected version of a pamphlet front page
CR1 Correction of entry in section i

Free format text: IN PCT GAZETTE 31/2003 ADD "DECLARATION UNDER RULE 4.17: - OF INVENTORSHIP (RULE 4.17(IV)) FOR US ONLY."

122 Ep: pct application non-entry in european phase
CFP Corrected version of a pamphlet front page
CR1 Correction of entry in section i

Free format text: IN PCT GAZETTE 31/2003 ADD "DECLARATION UNDER RULE 4.17: - AS TO THE APPLICANT S ENTITLEMENT TO CLAIM THE PRIORITY OF THE EARLIER APPLICATION (RULE 4.17(III)) FOR US ONLY."; ADD "DECLARATION UNDER RULE 4.17: - AS TO THE APPLICANT S ENTITLEMENT TO CLAIM THE PRIORITY OF THE EARLIER APPLICATION (RULE 4.17(III)) FORUS ONLY."; ADD "DECLARATION UNDER RULE 4.17: - AS TO THE APPLICANT S ENTITLEMENT TO CLAIM THE PRIORITY OF THE EARLIER APPLICATION (RULE 4.17(III)) FOR US ONLY."; ADD "DECLARATION UNDER RULE 4.17: - OF INVENTORSHIP (RULE 4.17(IV)) FOR US ONLY."

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP