DE10042944C2 - Graphem-Phonem-Konvertierung - Google Patents
Graphem-Phonem-KonvertierungInfo
- Publication number
- DE10042944C2 DE10042944C2 DE10042944A DE10042944A DE10042944C2 DE 10042944 C2 DE10042944 C2 DE 10042944C2 DE 10042944 A DE10042944 A DE 10042944A DE 10042944 A DE10042944 A DE 10042944A DE 10042944 C2 DE10042944 C2 DE 10042944C2
- Authority
- DE
- Germany
- Prior art keywords
- word
- grapheme
- interface
- partial words
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Description
Die Erfindung betrifft ein Verfahren, ein
Computerprogrammprodukt und ein Computersystem zur Graphem-
Phonem-Konvertierung eines Worts, das als Ganzes nicht in
einem Aussprachelexikon enthalten ist.
Sprachverarbeitungsverfahren im Allgemeinen sind
beispielsweise aus US 6 029 135, US 5 732 388, DE 196 36 739 C1
und DE 197 19 381 C1 bekannt. Bei einem Sprachsynthese-System
ist die Schrift-zu-Sprache- bzw. Graphem-Phonem-Konvertierung
der zu sprechenden Wörter von entscheidender Bedeutung.
Fehler bei Lauten, Silbengrenzen und der Wortbetonung sind
direkt hörbar, können zur Unverständlichkeit führen und im
schlimmsten Fall sogar den Sinn einer Aussage verdrehen.
Die beste Qualität erhält man, wenn das zu sprechende Wort in
einem Aussprachelexikon enthalten ist. Die Verwendung solcher
Lexika bereitet jedoch Probleme. Auf der einen Seite erhöht
die Anzahl der Einträge den Suchaufwand. Auf der anderen
Seite ist es gerade bei Sprachen wie dem Deutschen nicht
möglich, alle Wörter in einem Lexikon zu erfassen, da die
Möglichkeiten der Kompositabildung nahezu unbeschränkt sind.
Abhilfe kann in diesem Fall eine morphologische Zerlegung
schaffen. Ein Wort, das nicht im Lexikon gefunden wird, wird
in seine morphologischen Bestandteile wie Präfixe, Stämme und
Suffixe zerlegt, und diese Bestandteile werden im Lexikon
gesucht. Eine morphologische Zerlegung ist jedoch gerade bei
langen Wörtern problematisch, weil die Anzahl der möglichen
Zerlegungen mit der Wortlänge steigt. Sie erfordert außerdem
ein ausgezeichnetes Wissen über die Wortbildungsgrammatik
einer Sprache. Daher werden Wörtern, die nicht in einem
Aussprachelexikon gefunden werden, mit Out-Of-Vocabulary-
Verfahren (OOV-Verfahren), z. B. mit Neuronalen Netzen,
transkribiert. Solche OOV-Behandlungen sind allerdings
relativ rechenintensiv und führen in aller Regel zu
schlechteren Ergebnissen als die phonetische Konvertierung
ganzer Wörter mit Hilfe eines Aussprachelexikons. Zur
Bestimmung der Aussprache eines Worts, das nicht in einem
Aussprachelexikon enthalten ist, kann das Wort auch in
Teilwörter zerlegt werden. Die Teilwörter können mit Hilfe
eines Aussprachelexikons oder eines OOV-Verfahrens
transkribiert werden. Die gefundenen Teiltranskriptionen
können aneinander gehängt werden. Dies führt jedoch zu
Fehlern an den Trennstellen zwischen den Teiltranskriptionen.
Aufgabe der Erfindung ist es, das Aneinanderfügen von
Teiltranskriptionen zu verbessern. Diese Aufgabe wird durch
ein Verfahren, ein Computerprogrammprodukt und ein
Computersystem gemäß den unabhängigen Ansprüchen gelöst.
Dabei wird unter einem Computerprogrammprodukt das
Computerprogramm als handelbares Produkt verstanden, in
welcher Form auch immer, z. B. auf Papier, auf einem
computerlesbaren Datenträger, über ein Netz verteilt, etc.
Erfindungsgemäß wird bei der Graphem-Phonem-Konvertierung
eines Worts, das als Ganzes nicht in einem Aussprachelexikon
enthalten ist, zunächst das Wort in Teilwörter zerlegt.
Anschließend wird eine Graphem-Phonem-Konvertierung der
Teilwörter durchgeführt.
Die Transkriptionen der Teilwörter werden hintereinander
aufgereiht, wobei sich mindestens eine Schnittstelle zwischen
den Transkriptionen der Teilwörter ergibt. Die an die
mindestens eine Schnittstelle grenzenden Phoneme der
Teilwörter werden bestimmt.
Dabei besteht die Möglichkeit, nur das letzte Phonem des in
der zeitlichen Reihenfolge der Aussprache vor der
Schnittstelle liegenden Teilworts zu berücksichtigen. Besser
ist es jedoch, wenn sowohl das genannte als auch das erste
Phonem der folgenden Silbe für die erfindungsgemäße
Sonderbehandlung ausgewählt werden. Noch bessere Ergebnisse
werden erzielt, wenn weitere angrenzende Phoneme einbezogen
werden, z. B. ein oder zwei Phoneme vor der Schnittstelle und
zwei nach der Schnittstelle.
Anschließend werden diejenigen Grapheme der Teilwörter
bestimmt, die die an die mindestens eine Schnittstelle
grenzenden Phoneme erzeugen. Dies kann mittels eines Lexikons
erfolgen, das angibt, durch welche Grapheme diese Phoneme
erzeugt wurden. Wie das Lexikon zu erstellen ist, ist in
Horst-Udo Hain: "Automation of the Training Procedures for
Neural Networks Performing Multi-Lingual Grapheme to Phoneme
Conversion", Eurospeech 1999, S. 2087-2090, ausgeführt.
Danach wird die Graphem-Phonem-Konvertierung der bestimmten
Grapheme im Kontext, das heißt in Abhängigkeit des Kontexts,
der jeweiligen Schnittstelle neu berechnet. Dies ist nur
möglich, weil klar ist, welches Phonem durch welches Graphem
bzw. welche Grapheme erzeugt wurde.
Die Schnittstellen zwischen den Teiltranskriptionen werden
somit gesondert behandelt. Gegebenenfalls werden Änderungen
an den vorher ermittelten Teiltranskriptionen vorgenommen.
Ein für ein Sprachsynthese-System nicht unerheblicher Vorteil
der Erfindung ist die Beschleunigung der Berechnung. Während
Neuronale Netze für die Konvertierung der 310000 Wörter eines
typischen Lexikons für die deutsche Sprache ca. 80 Minuten
benötigen, geschieht dies mit dem erfindungsgemäßen Ansatz in
nur 25 Minuten.
In einer vorteilhaften Weiterbildung der Erfindung kann die
Graphem-Phonem-Konvertierung der Grapheme im Kontext der
jeweiligen Schnittstelle mittels eines Neuronalen Netzes neu
berechnet werden. Ein Aussprachelexikon hat den Vorteil, die
"richtige" Transkription zu liefern. Es versagt jedoch, wenn
unbekannte Wörter auftreten. Neuronale Netze können hingegen
für jede beliebige Zeichenkette eine Transkription liefern,
machen dabei aber unter Umständen erhebliche Fehler. Die
Weiterbildung der Erfindung kombiniert die Sicherheit des
Lexikons mit der Flexibilität der Neuronalen Netze.
Die Transkription der Teilwörter kann auf verschiedene Weise
erfolgen, z. B. mittels einer Out-of-Vocabulary-Behandlung
(OOV-Behandlung). Ein recht zuverlässiger Weg besteht darin,
für das Wort in einer Datenbank, die phonetische
Transkriptionen von Wörtern enthält, nach Teilwörtern zu
suchen. Als Transkription wird dann für ein in der Datenbank
gefundenes Teilwort die in der Datenbank verzeichnete
phonetische Transkription gewählt. Dies führt für die meisten
Wörter bzw. Teilwörter zu brauchbaren Ergebnissen.
Falls das Wort neben dem gefundenen Teilwort mindestens einen
weiteren Bestandteil aufweist, der nicht in der Datenbank
verzeichnet ist, kann dieser mittels einer OOV-Behandlung
phonetisch transkribiert werden. Die OOV-Behandlung kann
mittels eines statistischen Verfahrens, z. B. mittels eines
Neuronalen Netzes, oder regelbasiert erfolgen.
Vorteilhafterweise wird das Wort in Teilwörter einer gewissen
Mindestlänge zerlegt, damit möglichst große Teilwörter
gefunden werden und entsprechend wenig Nachbesserungen
anfallen.
Weitere vorteilhafte Weiterbildungen der Erfindung sind in
den Unteransprüchen gekennzeichnet.
Im folgenden wird die Erfindung anhand von
Ausführungsbeispielen näher erläutert, die in den Figuren
schematisch dargestellt sind. Im einzelnen zeigt:
Fig. 1 ein zur Graphem-Phonem-Konvertierung geeignetes
Computersystem; und
Fig. 2 eine schematische Darstellung des
erfindungsgemäßen Verfahrens.
Fig. 1 zeigt ein zur Graphem-Phonem-Konvertierung eines Worts
geeignetes Computersystem. Dies weist einen Prozessor
(processor, CPU) 20, einen Arbeitsspeicher (RAM) 21, einen
Programmspeicher (programm memory, ROM) 22, einen
Festplatten-Controller (hard disc controller, HDC) 23, der
eine Festplatte (hard disk) 30 steuert, und einen
Schnittstellen-Controller (I/O controller) 24 auf. Prozessor
20, Arbeitsspeicher 21, Programmspeicher 22, Festplatten-
Controller 23 und Schnittstellen-Controller 24 sind über
einen Bus, den CPU-Bus 25, zum Austausch von Daten und
Befehlen miteinander gekoppelt. Ferner weist der Computer
einen Ein-/Ausgabe-Bus (I/O Bus) 26 auf, der verschiedene
Ein- und Ausgabeeinrichtungen mit dem Schnittstellen-
Controller 24 koppelt. Zu den Ein- und Ausgabeeinrichtungen
zählen z. B. eine allgemeine Ein- und Ausgabe-Schnittstelle
(I/O interface) 27, eine Anzeigeeinrichtung (display) 28,
eine Tastatur (keyboard) 29 und eine Maus 31.)
Betrachten wir als Beispiel für die Graphem-Phonem-
Konvertierung das deutsche Wort "überflüssigerweise".
Zunächst wird versucht, das Wort in Teilwörter zu zerlegen,
die Bestandteile eines Aussprache-Lexikons sind. Um die
Anzahl der möglichen Zerlegungen auf ein sinnvolles Maß zu
beschränken, wird für die gesuchten Bestandteile eine
Mindestlänge vorgegeben. Für die deutsche Sprache haben sich
6 Buchstaben als Mindestlänge in der Praxis bewährt.
Alle gefundenen Bestandteile werden in einer verketteten
Liste abgespeichert. Bei mehreren Möglichkeiten wird immer
der längste Bestandteil bzw. der Pfad mit den längsten
Bestandteilen verwendet.
Werden nicht alle Teile des Worts als Teilwörter im
Aussprachelexikon gefunden, so werden die verbleibenden
Lücken im bevorzugten Ausführungsbeispiel durch ein
Neuronales Netz geschlossen. Im Gegensatz zur
Standardanwendung des Neuronalen Netzes, bei der die
Transkription für das ganze Wort erstellt werden muss, ist
die Aufgabe beim Auffüllen der Lücken einfacher, weil
zumindest der linke Phonemkontext als sicher angenommen
werden kann, da er ja aus dem Aussprachelexikon stammt. Die
Eingabe der vorhergehenden Phoneme stabilisiert somit die
Ausgabe des Neuronalen Netzes für die zu füllende Lücke, da
das zu generierende Phonem nicht nur von den Buchstaben,
sondern auch vom vorhergehenden Phonem abhängt.
Ein Problem beim Aneinanderhängen der Transkriptionen aus dem
Lexikon sowie bei der Bestimmung der Transkription für die
Lücken mittels eines Neuronalen Netzes besteht darin, daß in
einigen Fällen der letzte Laut der vorhergehenden, linken
Transkription verändert werden muss. Dies ist bei dem
betrachteten Wort "überflüssigerweise" der Fall. Es wird im
Lexikon als Ganzes nicht gefunden, dafür aber das Teilwort
"überflüssig" und das Teilwort "erweise".
Im Folgenden werden Grapheme zur besseren Unterscheidung in
spitzen Klammern << eingeschlossen und Phoneme in eckigen
Klammern [].
Die Endung <-ig< am Silbenende wird gesprochen wie [IC],
dargestellt in der Lautschrift SAMPA, also wie [I]
(ungespannter kurzer ungerundeter vorderer Vokal) gefolgt vom
Ich-Laut [C] (stimmloser palataler Frikativ). Die Vorsilbe
<er-< wird gesprochen wie [Er], mit einem [E] (ungespannter
kurzer ungerundeter halboffener vorderer Vokal, offenes "e")
und einem [r] (zentraler Sonorant).
Beim einfachen Verketten der Transkriptionen wird
sinnvollerweise automatisch eine Silbengrenze zwischen den
beiden Wörtern eingefügt, dargestellt durch einen Bindestrich
"-". Es ergibt sich somit als Gesamttranskription des Worts
<überflüssigerweise<
[y: - b6 - flY - sIC - Er - vaI - z@]
statt richtigerweise
[y: - b6 - flY - sI - g6 - vaI - z@]
mit einem [g] (stimmhafter velarer Plosiv) und einem [6]
(nichtbetonter zentraler halboffener Vokal mit velarer
Färbung) sowie einer verschobenen Silbengrenze. Somit wären
an der Wortgrenze Laut und Silbengrenze falsch.
Abhilfe kann hier geschaffen werden, indem ein Neuronales
Netz den letzten Laut der linken Transkription berechnet.
Dabei stellt sich aber die Frage, welche Buchstaben am Ende
der linken Transkription zur Bestimmung des letzten Lautes
herangezogen werden sollen.
Für diese Entscheidung wird ein spezielles Aussprachelexikon
benutzt. Die Besonderheit an diesem Lexikon besteht darin,
daß es die Information enthält, welche Graphemgruppe zu
welchem Laut gehört. Wie das Lexikon zu erstellen ist, ist in
Horst-Udo Hain: "Automation of the Training Procedures for
Neural Networks Performing Multi-Lingual Grapheme to Phoneme
Conversion". Eurospeech 1999, S. 2087-2090, ausgeführt.
Der Eintrag für "überflüssig" hat in diesem Lexikon die Form
Damit kann eindeutig bestimmt werden, aus welcher
Graphemgruppe der letzte Laut entstanden ist, nämlich aus dem
<g<.
Das Neuronale Netz kann nun mit Hilfe des jetzt vorhandenen
rechten Kontextes <erweise< neu über Phonem und Silbengrenze
am Wortende entscheiden. Das Ergebnis ist in diesem Falle das
Phonem [g], vor dem eine Silbengrenze gesetzt wird.
Jetzt ist die Silbengrenze an der richtigen Stelle und das
<g< wird auch als [g] transkribiert und nicht als [C].
Der erste Laut der rechten Transkription wird nach dem
gleichen Schema neu bestimmt. Die richtige Transkription für
<er-< von <erweise< ist an dieser Stelle [6] und nicht [Er].
Hier sind gleich zwei Laute zu revidieren, weshalb im
bevorzugten Ausführungsbeispiel stets zwei Laute revidiert
werden.
Im Ergebnis erhält man die korrekte phonetische Transkription
an dieser Schnittstelle.
Weitere Verbesserungen sind zu erzielen, wenn für das
Ausfüllen der Transkriptionslücken nicht das Standardnetz
verwendet wird, das zur Konvertierung ganzer Wörter trainiert
wurde, sondern ein speziell zum Ausfüllen der Lücken
trainiertes Netz. Zumindest in den Fällen, bei denen der
rechte Phonemkontext auch vorhanden ist, bietet sich ein
Spezialnetz an, das unter Verwendung des rechten
Phonemkontextes über den zu generierenden Laut entscheidet.
Claims (9)
1. Verfahren zur Graphem-Phonem-Konvertierung eines Wortes,
das als Ganzes nicht in einem Aussprachelexikon enthalten
ist, mit folgenden Schritten:
- a) das Wort wird in Teilwörter zerlegt,
- b) eine Graphem-Phonem-Konvertierung der Teilwörter wird durchgeführt,
- c) die durch die Konvertierung erhaltenen Transkriptionen der Teilwörter werden hintereinander aufgereiht, wobei sich mindestens eine Schnittstelle zwischen den Transkriptionen der Teilwörter ergibt,
- d) die an die mindestens eine Schnittstelle grenzenden Phoneme der Teilwörter werden bestimmt,
- e) es werden diejenigen Grapheme der Teilwörter bestimmt, die die an die mindestens eine Schnittstelle grenzenden Phoneme erzeugen,
- f) die Graphem-Phonem-Konvertierung der bestimmten Grapheme wird im Kontext der jeweiligen Schnittstelle neu berechnet.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme
im Kontext der jeweiligen Schnittstelle mittels eines
Neuronalen Netzes neu berechnet werden.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass die Graphem-Phonem-Konvertierung der bestimmten Grapheme
im Kontext der jeweiligen Schnittstelle mittels eines
Lexikons neu berechnet werden.
4. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
dass für das Wort in einer Datenbank, die phonetische
Transkriptionen von Wörtern enthält, nach Teilwörtern des
Worts gesucht wird; und- dass für ein in der Datenbank
gefundenes Teilwort die in der Datenbank verzeichnete
phonetische Transkription gewählt wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet,
dass das Wort neben dem gefundenen Teilwort mindestens einen
weiteren Bestandteil aufweist, der nicht in der Datenbank
verzeichnet ist; und- dass dieser weitere Bestandteil mittels
einer OOV-Behandlung phonetisch transkribiert wird.
6. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass das Wort in
Teilwörter einer gewissen Mindestlänge zerlegt wird.
7. Computerprogrammprodukt, das durch einen Computer
ausführbar ist und dabei die Schritte nach einem der
Ansprüche 1 bis 6 ausführt.
8. Computersystem mit Mitteln zum Ausführen des Verfahrens
nach einem der Ansprüche 1 bis 6.
9. Computersystem zur Graphem-Phonem-Konvertierung eines
Worts, das als Ganzes nicht in einem Aussprachelexikon
enthalten ist,
einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
einer Verarbeitungseinheit (20) zum Laden des Computerprogramms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Zerlegen des Worts in Teilwörter;
mit Mitteln zum hintereinander Aufreihen der Transkriptionen der Teilwörter, wobei sich mindestens eine Schnittstelle zwischen den Transkriptionen der Teilwörter ergibt;
mit Mitteln zum Bestimmen der an die mindestens eine Schnittstelle grenzenden Phoneme der Teilwörter;
mit Mitteln zum Bestimmen derjenigen Grapheme der Teilwörter, die die an die mindestens eine Schnittstelle grenzenden Phoneme erzeugen;
mit Mitteln zum erneuten Berechnen der Graphem-Phonem- Konvertierung der bestimmten Grapheme im Kontext der jeweiligen Schnittstelle; und
mit Mitteln zum anschließenden Schreiben der an der Schnittstelle neu berechneten Phoneme in eine zweite Speichereinrichtung.
einer Speichereinrichtung (22, 30) zum Speichern eines Computerprogramms auf einem Speichermedium;
einer Verarbeitungseinheit (20) zum Laden des Computerprogramms aus der Speichereinrichtung und zum Ausführen des Computerprogramms;
mit Mitteln zum Zerlegen des Worts in Teilwörter;
mit Mitteln zum hintereinander Aufreihen der Transkriptionen der Teilwörter, wobei sich mindestens eine Schnittstelle zwischen den Transkriptionen der Teilwörter ergibt;
mit Mitteln zum Bestimmen der an die mindestens eine Schnittstelle grenzenden Phoneme der Teilwörter;
mit Mitteln zum Bestimmen derjenigen Grapheme der Teilwörter, die die an die mindestens eine Schnittstelle grenzenden Phoneme erzeugen;
mit Mitteln zum erneuten Berechnen der Graphem-Phonem- Konvertierung der bestimmten Grapheme im Kontext der jeweiligen Schnittstelle; und
mit Mitteln zum anschließenden Schreiben der an der Schnittstelle neu berechneten Phoneme in eine zweite Speichereinrichtung.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042944A DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
EP01117869A EP1184839B1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
DE50107556T DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
US09/942,735 US7107216B2 (en) | 2000-08-31 | 2001-08-31 | Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042944A DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10042944A1 DE10042944A1 (de) | 2002-03-21 |
DE10042944C2 true DE10042944C2 (de) | 2003-03-13 |
Family
ID=7654523
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10042944A Expired - Fee Related DE10042944C2 (de) | 2000-08-31 | 2000-08-31 | Graphem-Phonem-Konvertierung |
DE50107556T Expired - Lifetime DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50107556T Expired - Lifetime DE50107556D1 (de) | 2000-08-31 | 2001-07-23 | Graphem-Phonem-Konvertierung |
Country Status (3)
Country | Link |
---|---|
US (1) | US7107216B2 (de) |
EP (1) | EP1184839B1 (de) |
DE (2) | DE10042944C2 (de) |
Families Citing this family (179)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7047193B1 (en) | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
US7353164B1 (en) * | 2002-09-13 | 2008-04-01 | Apple Inc. | Representation of orthography in a continuous vector space |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
AU2003239828A1 (en) * | 2003-04-30 | 2004-11-23 | Loquendo S.P.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
US20050108013A1 (en) * | 2003-11-13 | 2005-05-19 | International Business Machines Corporation | Phonetic coverage interactive tool |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
CN1315108C (zh) * | 2004-03-17 | 2007-05-09 | 财团法人工业技术研究院 | 对易标错形素重新评分以提高准确率的文字转音标的方法 |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
TWI250509B (en) * | 2004-10-05 | 2006-03-01 | Inventec Corp | Speech-synthesizing system and method thereof |
US20060259301A1 (en) * | 2005-05-12 | 2006-11-16 | Nokia Corporation | High quality thai text-to-phoneme converter |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
TWI340330B (en) * | 2005-11-14 | 2011-04-11 | Ind Tech Res Inst | Method for text-to-pronunciation conversion |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
EP2954514B1 (de) | 2013-02-07 | 2021-03-31 | Apple Inc. | Sprachtrigger für einen digitalen assistenten |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9910836B2 (en) * | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10102189B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105590623B (zh) * | 2016-02-24 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的字母音素转换模型生成方法及装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11195513B2 (en) * | 2017-09-27 | 2021-12-07 | International Business Machines Corporation | Generating phonemes of loan words using two converters |
CN113707131A (zh) * | 2021-08-30 | 2021-11-26 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
DE69420955T2 (de) * | 1993-03-26 | 2000-07-13 | British Telecomm | Umwandlung von text in signalformen |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
AU3734395A (en) * | 1994-10-03 | 1996-04-26 | Helfgott & Karas, P.C. | A database accessing system |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6188984B1 (en) * | 1998-11-17 | 2001-02-13 | Fonix Corporation | Method and system for syllable parsing |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
-
2000
- 2000-08-31 DE DE10042944A patent/DE10042944C2/de not_active Expired - Fee Related
-
2001
- 2001-07-23 EP EP01117869A patent/EP1184839B1/de not_active Expired - Lifetime
- 2001-07-23 DE DE50107556T patent/DE50107556D1/de not_active Expired - Lifetime
- 2001-08-31 US US09/942,735 patent/US7107216B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69420955T2 (de) * | 1993-03-26 | 2000-07-13 | British Telecomm | Umwandlung von text in signalformen |
US6029135A (en) * | 1994-11-14 | 2000-02-22 | Siemens Aktiengesellschaft | Hypertext navigation system controlled by spoken words |
US5732388A (en) * | 1995-01-10 | 1998-03-24 | Siemens Aktiengesellschaft | Feature extraction method for a speech signal |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
Non-Patent Citations (1)
Title |
---|
HAIN, Horst-Udo, "Automation of the Training Procedures for Neural Networks Performing Multi-Lingual Grapheme to Phoneme Conversion, in: Eurospeech 1999, S. 2087-2090 * |
Also Published As
Publication number | Publication date |
---|---|
US7107216B2 (en) | 2006-09-12 |
EP1184839A3 (de) | 2003-02-05 |
EP1184839A2 (de) | 2002-03-06 |
EP1184839B1 (de) | 2005-09-28 |
DE10042944A1 (de) | 2002-03-21 |
US20020046025A1 (en) | 2002-04-18 |
DE50107556D1 (de) | 2005-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE3242866C2 (de) | ||
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE69832393T2 (de) | Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE69917960T2 (de) | Phonembasierte Sprachsynthese | |
DE69727046T2 (de) | Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system | |
DE202017106303U1 (de) | Bestimmen phonetischer Beziehungen | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP0285221A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
EP1264301A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
EP1184838B1 (de) | Phonetische Übersetzung für die Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20150303 |