DE69726339T2 - Verfahren und Apparat zur Sprachübersetzung - Google Patents

Verfahren und Apparat zur Sprachübersetzung Download PDF

Info

Publication number
DE69726339T2
DE69726339T2 DE69726339T DE69726339T DE69726339T2 DE 69726339 T2 DE69726339 T2 DE 69726339T2 DE 69726339 T DE69726339 T DE 69726339T DE 69726339 T DE69726339 T DE 69726339T DE 69726339 T2 DE69726339 T2 DE 69726339T2
Authority
DE
Germany
Prior art keywords
translation
record
language
word
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69726339T
Other languages
English (en)
Other versions
DE69726339D1 (de
Inventor
Hiyan Millburn Alshawi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69726339D1 publication Critical patent/DE69726339D1/de
Application granted granted Critical
Publication of DE69726339T2 publication Critical patent/DE69726339T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft die automatische Sprachübersetzung. Genauer gesagt, bezieht sich die vorliegende Erfindung auf Verfahren und Einrichtungen zur unmittelbaren Übersetzung unter Verwendung eines Lexikon-Wahrscheinlichkeits-Übersetzungsmodells.
  • Hintergrund der Erfindung
  • Die Sprachübersetzung beinhaltet die Umwandlung von Sätzen von einer natürlichen Sprache, welche im allgemeinen als die Ausgangssprache bezeichnet wird, in eine andere Sprache, welche typischerweise als Zielsprache bezeichnet wird. Wird die Übersetzung durch eine Maschine ausgeführt, beispielsweise einen Rechner, so wird diese Übersetzung als eine automatische Sprachübersetzung oder Maschinenübersetzung bezeichnet.
  • Viele unterschiedliche Verfahren zur automatischen Sprachübersetzung sind in den letzten Jahrzehnten vorgeschlagen und verwirklicht worden. Siehe hierzu W. J. Hutchins und H. L. Somer, An Introduction to Machine Translation (Academic Press, N. Y. 1992). Die meisten Übersetzungssysteme verwenden die Übertragung über Zwischendarstellungen. Beispielsweise ist in den sogenannten "Interlingua"-Übersetzungssystemen die Zwischendarstellung eine sprachunabhängige Darstellung, welche aus einer anfänglichen Analyse der Sätze der Quellensprache oder Ausgangssprache resultiert. Die Zwischendarstellung wird dann durch eine Erzeugungsphase in die Zielsprache umgeformt. Siehe beispielsweise Nirenburg u. a., Machine Translation: A Knowledge-Based Approach, (Morgan Kaufmann, San Mateo, Ca. 1992). Ein zweites Beispiel einer Übertragung über eine Zwischendarstellung sind die "Transfer"-Übersetzungssysteme. Solche Systeme umfassen drei Phasen: Die Analyse des Satzes der Ausgangssprache in eine Ausgangsdarstellung, die Umwandlung dieser Ausgangsdarstellung in eine Zieldarstellung, und die Erzeugung eines Zielsprachensatzes aus der Zieldarstellung. Siehe hierzu von Noord u. a., "An Overview of Mimo2", v.6 Machine Translation, Seiten 201–04, 1991.
  • Eine zweite Art von Übersetzungssystemen kann als ein "direktes" Übersetzungssystem klassifiziert werden. Solche direkten Verfahren verwenden keine Zwischendarstellungen. Einige der frühesten Übersetzungssysteme verwendeten direkte Verfahren. Sie waren jedoch in ihrer Natur spontan und von einer großen Sammlung von Übersetzungsregeln und Ausnahmen abhängig.
  • In jüngerer Zeit wurden systematischere direkte Übersetzungsverfahren vorgeschlagen. Ein solches Verfahren basiert auf einem statistischen Modell zur Übertragung von Wörtern der Ausgangssprache in Wörter und Wortstellungen in der Zielsprache. Ein Nachteil dieser Methode besteht darin, daß sie die Anordnung von Redewendungen in dem Satz der Ausgangssprache und der Zielsprache ignoriert, wenn sie ein Wort in die entsprechende Position in dem Satz der Zielsprache überträgt. Das Verfahren ignoriert somit die lexikalen Beziehungen, welche eine Position in dem Zielsprachensatz wahrscheinlicher machen als eine andere. Siehe hierzu Brown u. a., "A Statistical Approach to Machine Translation", v.16 Computational Linguistics, Seiten 79–85, 1990. Bei einem anderen direkten Verfahren wird ein syntaktischer Baum gleichzeitig für den Satz der Ausgangssprache und der Zielsprache aufgebaut, wobei spezielle Redewendungs-Strukturregeln verwendet werden, welche die Reihenfolge der Bestandteile des Satzbaus umkehren können. Ein Nachteil dieser Methode ist es, daß sie nicht eine Wort-zu-Wort-Zuordnung in der Ausgangssprache und der Zielsprache berücksichtigt. Siehe D. Wu, "Trainable Coarse Bilingual Grammars for Parallel Text Bracketing", 1995, Proc. Workshop Very Large Corpora, Cambridge, Massachussetts.
  • Ein drittes System der unmittelbaren Übersetzung wurde vorgeschlagen, welches für die Übersetzung Standard-Umsetzer endlicher Zustände von links nach rechts verwendet. Die Verwendung solcher Standard-Umsetzer endlicher Zustände begrenzt die Fähigkeit des Verfahrens, Wörter in dem Zielsprachensatz beliebig weit entfernt von ihrer Originalposition in dem Satz der Ausgangssprache zuzulassen. Der Grund dafür ist, daß für ein nicht triviales Vokabular die erforderliche Anzahl von Umsetzerzuständen für den praktischen Gebrauch zu groß wird. Siehe Vilar u. a., "Spoken-Language Machine Translation in Limited Domains: Can it be Achieved by Finite-State Models?", 1995, Proc. Sixth International Conference Theoretical and Methodological Issues in Machine Translation, Leuven, Belgien.
  • Die EP-A-0651340 offenbart eine Einrichtung und ein Verfahren zur Sprachübersetzung unter Verwendung von auf dem Zusammenhang basierenden Übersetzungsmodellen. Im einzelnen wird eine Einrichtung zur Übersetzung einer Reihe von Ausgangssprachenwörtern in einer ersten Sprache in eine Reihe von Zielsprachenwörtern in einer zweiten Sprache geoffenbart. Für eine Eingangsreihe von Ausgangssprachenwörtern werden mindestens zwei Zielsprachenhypothesen erzeugt, welche jeweils eine Reihe von Zielsprachenwörtern enthalten. Jedes Zielsprachenwort hat einen Zusammenhang, welcher mindestens ein anderes Wort in der Zielsprachenhypothese enthält. Für jede Zielsprachenhypothese enthält eine Sprachmodell-Passungsbewertung eine Abschätzung der Wahrscheinlichkeit des Auftretens der Reihe von Wörtern, in der Zielsprachenhypothese. Es wird mindestens eine Verbindung zwischen einem Ausgangssprachenwort mit mindestens einem Zielsprachenwort in der Zielsprachenhypothese identifiziert. Für jedes Ausgangssprachenwort und jede Zielsprachenhypothese enthält eine Wort-Passungsbewertung, eine Abschätzung der möglichen Wahrscheinlichkeit des Auftretens des Ausgangssprachenwortes unter Annahme des Zielsprachenwortes in der Zielsprachenhypothese, welches mit dem Ausgangssprachenwort verbunden ist und unter Annahme des Zusammenhangs des mit dem Ausgangssprachenwort verbundenen Zielsprachenwortes in der Zielsprachenhypothese. Für jede Zielsprachenhypothese enthält eine Übersetzungs-Passungsbewertung eine Kombination der Wort-Passungsbewertung für die Zielsprachenhypothese und das Ausgangssprachenwort in der Eingangsreihe von Ausgangssprachenwörtern.
  • Eine Zielsprachenhypothesen-Passungsbewertung enthält eine Kombination der Sprachmodell-Passungsbewertung für die Zielsprachenhypothese und der Übersetzungs-Passungsbewertung für die Zielsprachenhypothese.
  • Die Zielsprachenhypothese, welche die beste Zielsprachenhypothesen-Passungsbewertung hat, wird ausgegeben. Somit gehört dieses bekannte Übersetzungssystem zur der oben diskutierten "direkten" Übersetzungssystemart. Auch bei dieser bekannten Übersetzungseinrichtung und -methode besteht nur eine begrenzte Möglichkeit dafür, daß berücksichtigt wird, daß Wörter in dem Zielsprachensatz möglicherweise weit weg von ihrer ursprünglichen Position in dem Ausgangssprachensatz stehen.
  • Aus der EP-A-0525470 sind ein Verfahren und ein System für eine natürliche Sprachübersetzung bekannt, wobei das System einen Ausgangstext herausgreift und ihn in eine Zwischenstrukturdarstellung übersetzt. Die Zwischenstrukturdarstellungen werden dann in eine Zwischen-Zielsprachenstrukturhypothese übersetzt. Die Zwischen-Zielsprachenstrukturhypothesen werden nun durch Zuordnung einer Wahrscheinlichkeit der Zielsprachenstruktur bewertet, wobei von der Zwischen-Zielsprachenstruktur ausgegangen wird. Die Zwischen-Zielsprachenstrukturhypothese mit der höchsten Wahrscheinlichkeit wird dann in Teile des Textes in der Zielsprache übersetzt. Dieses bekannte Übersetzungsverfahren gehört daher zu der oben diskutierten Art mit Zwischen-Sprachdarstellungen.
  • Es ist ein Ziel der vorliegenden Erfindung, ein verbessertes System und ein verbessertes Verfahren zur automatischen Sprachübersetzung zu schaffen, das die Beschränkungen der oben erwähnten bekannten Systeme und Verfahren vermeidet.
  • Dieses Ziel wird gemäß der vorliegenden Erfindung durch eine Übersetzungseinrichtung mit den Merkmalen von Anspruch 1 erreicht. Weiter wird obiges Ziel durch ein Verfahren zur Übersetzung eines Satzes oder einer Wortfolge einer Ausgangssprache in einen Satz oder eine Wortfolge in einer Zielsprache mit den Verfahrensschritten von Anspruch 9 erreicht.
  • Es wird also ein verbessertes System und ein verbessertes Verfahren zur direkten Sprachübersetzung geoffenbart. Gemäß der vorliegenden Erfindung besteht die Übersetzungseinrichtung aus einer Mehrzahl von Umsetzern endlicher Zustände, welche als Hauptumsetzer bezeichnet werden, einem zweisprachigen Lexikon, welches Wortpaare aus den beiden Sprachen bestimmten Hauptumsetzern zuordnet, einer Parametertabelle, welche "Aufwands"-Werte für die durch die Umsetzer unternommenen Aktionen beschreibt, sowie einer Übersetzungssuchmaschine zum Auffinden der Übersetzung mit dem geringsten Aufwand für eine eingegebene Redewendung oder einen eingegebenen Satz. Die Aufwendungen von Aktionen beschreiben lexikalische Zuordnungen in der Ausgangssprache und der Zielsprache; ein geringerer Aufwand entspricht einer stärkeren lexikalischen Zuordnung.
  • Die Hauptumsetzer, welche gemäß der vorliegenden Erfindung verwendet werden, sind von den Standard-Umsetzern endlicher Zustände zu unterscheiden, wie sie im Stande der Technik bekannt sind. Standard-Umsetzer sind typischerweise auf die Umformung einer einzigen eingegebenen Folge in eine einzige Ausgangsfolge beschränkt, wobei üblicherweise die eingegebene Folge von links nach rechts gelesen wird. Die vorliegenden Hauptumsetzer haben die Fähigkeit, ein Paar von Folgen zu lesen, und zwar eine mit Abtastung nach links und die andere mit Abtastung nach rechts, um dann ein Paar von Folgen zu schreiben, und zwar die eine nach links und die andere nach rechts.
  • Jeder Hauptumsetzer ist einem Paar von Hauptwörtern mit entsprechenden Bedeutungen in der Ausgangssprache und der Zielsprache zugeordnet. Ein Hauptwort ist typischerweise ein Wort, welches Träger der grundsätzlichen oder wichtigsten Bedeutung einer Redewendung ist. Hauptwörter stehen in Zuordnung mit abhängigen Wörtern, welche die Hauptwörter von Nebensätzen der Redewendung oder des Satzes sind. Die Aufgabe eines Umsetzers für eine bestimmte Hauptwortpaarung ist (i) abhängige Wörter zur Rechten und zur Linken des Hauptwortes der Ausgangssprache zu erkennen, und (ii) entsprechende abhängige Wörter zur Linken und zur Rechten des Hauptwortes der Zielsprache in dem zu bildenden Zielsprachensatz vorzuschlagen.
  • Ein zweisprachiges Lexikon mit zugehörigen Hauptumformern gestattet viele mögliche Übersetzungen eines Satzes. Dies resultiert aus vielen verschiedenen Wahlmöglichkeiten bezüglich Eingaben von dem Lexikon einschließlich Wahlmöglichkeiten von Zielsprachenwörtern, Wahlmöglichkeiten von Hauptwörtern in den Sätzen oder Redewendungen im Ausgangssprachensatz und Wahlmöglichkeiten von abhängigen Wörtern in den Ausgangssprachenredewendungen und Zielsprachenredewendungen. Die Parametertabelle liefert verschiedene "Aufwandswerte" für solche Auswahlen, welche die zugehörigen Anstrengungen reflektieren, d. h., welche die Wahrscheinlichkeit des gleichzeitigen Auftretens für solche Ausgangssprachen-Zielsprachen-Wortübersetzungen und für Hauptwort-Abhängigkeitswort-Wortpaare in jeder der beiden Sprachen anzeigen. Somit kann der Gesamtübersetzungsaufwand als die Summe der Aufwände für sämtliche Wahlvorgänge definiert werden, welche zu der betreffenden Übersetzung führen. Die Übersetzung mit dem geringsten Gesamtaufwand wird als der Ausgang der Übersetzungseinrichtung gewählt, ist also die Übersetzung.
  • Die Suche nach der Übersetzung mit dem geringsten Aufwand wird durch die Übersetzungssuchmaschine durchgeführt. Die Übersetzungssuchmaschine verwendet die Hauptumsetzer zum rekursiven Übersetzen zunächst des Hauptwortes, dann der Hauptwörter jeder der abhängigen Sätze, und danach ihrer abhängigen Bestandteile u. s. w. Dieser Vorgang wird hier als rekursive Hauptumsetzung bezeichnet.
  • Das vorliegende System und die vorliegenden Verfahren bedürfen nicht einer unmittelbaren Modellbildung von Wortpositionen, wodurch der Nachteil des Verfahrens vermieden wird, das von Brown vorgeschlagen ist. Weiter sind das vorliegende System und die vorliegenden Verfahren rein lexikal. Als solches bedarf das erfindungsgemäße Verfahren im Unterschied zu dem Verfahren, welches von Wu vorgeschlagen ist, keiner syntaktischen Regeln. Vielmehr wird die beste Übersetzung auf der Basis von Wort-zu-Wort-Zuordnungsstärken in der Ausgangssprache und in der Zielsprache gewählt. Weiter gestatten die Hauptumsetzer, die bei der vorliegenden Erfindung verwendet werden, daß die Wörter in dem Zielsprachensatz beliebig weit weg von ihrer ursprünglichen Stellung in dem Ausgangssprachensatz stehen, ohne daß eine entsprechende Erhöhung in der Zahl von Modellzuständen auftritt.
  • Kurze Beschreibung der Zeichnungen
  • Weitere Aspekte der Erfindung werden aus der folgenden detaillierten Beschreibung bestimmter Ausführungsformen der Erfindung in Verbindung mit den begleitenden Zeichnungen noch deutlicher. In diesen stellen dar:
  • 1 eine bevorzugte Ausführungsform einer Übersetzungseinrichtung gemäß der vorliegenden Erfindung;
  • 2 ein Flußdiagramm eines Verfahrens zur Übersetzung gemäß der vorliegenden Erfindung unter Verwendung der Übersetzungseinrichtung nach 1
  • 3 eine rekursive Umsetzung einer Ausgangssprachenfolge in eine Zielsprachenfolge;
  • 4 beispielsweise mögliche Hauptumsetzeraktionen für zwei Hauptumsetzer, welche zur Erzeugung eines Teiles der Umsetzung gemäß 3 verwendet werden;
  • 5 ein Flußdiagramm, welches eine Ausführungsform der Übersetzungssuchmaschine wiedergibt; und
  • 6 ein Verfahren, durch welches eine Zielsprachenfolge als die Übersetzung von dem Ausgang der Übersetzungssuchmaschine ausgewählt wird.
  • Detaillierte Beschreibung
  • Die vorliegende Erfindung betrifft verbesserte Systeme und Verfahren zur automatischen Sprachübersetzung. Es versteht sich, daß die vorliegende Erfindung sowohl auf geschriebene als auch auf gesprochene Sprache anwendbar ist. Als solche kann die vorliegende Erfindung als die Übersetzungskomponente eines Übersetzungssystems für gedruckten Text eines Handschriftübersetzungssystems oder eines Übersetzungssystems für gesprochene Sprache verwendet werden. Darüber hinaus betrifft die vorliegende Erfindung die natürliche Sprachübersetzung sowie auch die Übersetzung anderer Arten von Sprachen, beispielsweise Programmiersprachen und dergleichen.
  • Zwecks Klarheit der Erläuterung sind die beispielsweisen Ausführungsformen der vorliegenden Erfindung in einzelnen funktionellen Blocksymbolen dargestellt. Die Funktionen dieser Blocksymbole können unter Verwendung entweder anteilsmäßig benutzter Hardware oder zugeordneter Hardware verwirklicht werden, einschließlich, jedoch nicht im beschränkenden Sinne, von Hardware, welche bestimmte Software durchführt. Erläuternde Ausführungsformen können Digitalsignal-Verarbeitungs-Hardware (DSP), Festwertspeicher (ROM) zur Speicherung von Software zur Durchführung der unten diskutierten Operationen, Speicher wahlfreien Zugriffs (RAM) zur Speicherung von DSP-Ergebnissen und zur Speicherung von Daten, die durch die Übersetzungseinrichtung für eine bestimmte Übersetzung verwendet werden, und nichtflüchtige Speichermittel zur Speicherung des vollständigen Datensatzes enthalten, nämlich eines vollständigen Lexikons, Aufwandsparameter und dergleichen, wie sie von der Übersetzungseinrichtung verwendet werden.
  • Im Zuge der vorliegenden Beschreibung wird die Erläuterung der Erfindung in Abstimmung mit entsprechenden Beschreibungen des Standes der Technik vorgenommen. Beispielsweise werden Operationen an einem „Ausgangssprachensatz" oder einer „Ausgangssprachenwortfolge" oder einer „Ausgangssprachenredewendung" zur Erzeugung eines „Zielsprachensatzes" oder einer „Zielsprachenwortfolge" oder einer „Zielsprachenredewendung" durchgeführt. Es versteht sich, daß solche Ausgangssprachen- und Zielsprachensätze, -wortfolgen oder -redewendungen als Signale vorliegen können. Solche Signale werden durch die oben beschriebene Hardware bearbeitet. Somit sind gemäß dem hier gewählten Gebrauch die Ausdrücke „Ausgangssprachensatz", „Ausgangssprachenwortfolge" und dergleichen mit dem Ausdruck „Eingangssignal" austauschbar. In gleicher Weise sind die Ausdrücke „Zielsprachensatz", „Zielsprachenredewendung" und dergleichen gegen den Ausdruck „Ausgangssignal" austauschbar.
  • Definitionsgemäß wird hier der Ausdruck „Hauptwort" typischerweise für das Wort gebraucht, welches die grundsätzlichste oder wichtigste Bedeutung einer Redewendung für die Übersetzung trägt. Beispielsweise kann das Haupt-Tätigkeitswort eines Satzes als das Hauptwort ausgewählt werden. Es versteht sich jedoch, daß die vorliegenden Verfahren nicht irgendeine linguistische Interpretation des Ausdrucks erfordern. Die abhängigen Wörter eines Hauptwortes sind die Hauptwörter von Unter-Redewendungen oder Nebensätzen der Redewendung oder des Satzes. Beispielsweise können die abhängigen Wörter eines Verbums, das einen Satz prägt, das Hauptsubstantiv des Satzsubjektes des Satzes und auch das Hauptsubstantiv des Satzobjektes des Satzes sein. Gemäß dem hier geübten Gebrauch können die Ausdrücke „Wort", „Symbol" und „Zeichen" gegeneinander vertauscht werden, außer, wenn dies anders angegeben ist.
  • 1 ist die Darstellung einer bevorzugten Ausführungsform einer Übersetzungseinrichtung 1 nach der vorliegenden Erfindung und 2 ist ein Flußdiagramm eines Ausführungsbeispiels eines Übersetzungsverfahrens 1a unter Verwendung der Übersetzungseinrichtung 1 nach 1. Die Übersetzungseinrichtung 1 enthält einen fakultativ vorgesehenen Ausgangssprachen-Vorprozessor 5, eine Übersetzungssuchmaschine 10, eine Mehrzahl von Hauptumsetzern 13, ein zweisprachiges Lexikon 15, eine Parametertabelle 17 und einen Zielsprachen-Wortfolgewähler 20.
  • In dem Schritt 101 wird ein Ausgangsspracheneingang für die Übersetzung bereitgestellt. Wie zuvor beschrieben kann die Ausgangssprache geschriebene oder gesprochene Sprache sein. In einer bevorzugten Ausführungsform wird der Ausgangsspracheneingang in eine Mehrzahl von Wortpositionsaufzeichnungen umgeformt, wie dies im Schritt 105 angedeutet ist. Jede dieser Wortpositionsaufzeichnungen besteht aus einem Ausgangssprachenwort w, zwei Positionsanzeigern i und j und einer Aufwandsaufzeichnung co, also beispielsweise (w, i, j, co). Die Wortpositionsaufzeichnung zeigt an, daß ein Wort w von der Position i zur Position j in dem Eingang mit einer Sicherheit vorhanden ist, welche durch die Aufwandsaufzeichnung co angezeigt wird, wobei ein niedriger Aufwand eine höhere Sicherheit anzeigt.
  • Das Wortpositions-Aufzeichnungsformat wird verwendet, da es eine kompakte Möglichkeit der Darstellung möglicher Eingangswortfolgen von einer Zahl von Ausgangssprachen-Vorverarbeitungskomponenten 5 darstellt. Solche Eingangswortfolgen können die Gestalt von einfachem Text oder der Ausgang eines Spracherkennungsgerätes oder der Ausgang von Texttrennungseinrichtungen für Sprachen, wie chinesisch, haben, welche keine Abstände zwischen den Wörtern vorsehen. In dem Falle von einfachem Text ist eine Aufzeichnung für jedes Eingangswort vorhanden und die Aufwandsaufzeichnung co ist für alle Aufzeichnungen Null. Somit ist die Aufzeichnung für eine Eingangswortfolge "w1, w2 ... wn" das folgende: (w1, 1, 2, 0), (w2, 1, 2, 0), ... (wn n – 1, n, 0).
  • Für Vorverarbeitungseinrichtungen 5 mit einem bestimmten Grad der Ungewißheit über die Identität der Eingangswörter oder ihrer Position, beispielsweise für ein Spracherkennungsgerät oder einen Segmentierer für chinesischen Text, sind typischerweise mehr Eingangsaufzeichnungen vorhanden als für einfachen Text. In diesem Falle werden die Eingangs-Wortpositionsaufzeichnungen vorzugsweise als eine Wortgitterdatenstruktur organisiert, welche eine bekannte Konstruktion zur Speicherung einer Sammlung möglicher Wortfolgen ist, welche zuläßt, daß sich die Folgen jeweils Unterfolgen teilen. Im Falle der Spracherkennung beispielsweise können die Indizies i und j jeweils Zeitpunkten im Eingangssprachsignal entsprechen und die Aufwandsaufzeichnung co zeigt den Grad an, mit welchem das Eingangssprachsignal zwischen i und j einem akustischen Bezugsmuster für w entspricht. Ein solches Spracherkennungssystem ist in der Anmeldung Seriennummer 08/331,874, eingereicht am 10. April 1996 beschrieben, welche auf den Zessionar der vorliegenden Erfindung übertragen ist und hier durch Bezugnahme eingefügt sei.
  • Im Falle der Übersetzung gesprochener Sprache kann der Eingang zu der Übersetzungssuchmaschine 10 entweder die Mehrzahl von Wortfolgehypothesen sein, welche durch das akustische Modell der Spracherkennung erzeugt werden, oder alternativ die „beste" Wortfolge, welche aus der Mehrzahl von Wortfolgehypothesen durch das Sprachmodell der Spracherkennung ausgesucht worden ist. Es sei nochmals gesagt, daß dann, wenn der Eingang eine Mehrzahl von Wortfolgehypothesen ist, diese vorzugsweise als ein Wortgitter organisiert werden, und dann, wenn der Eingang eine einzige „beste" Wortfolge ist, diese in der oben beschriebenen Weise als Wortpositionsaufzeichnungen organisiert wird.
  • Außerdem muß eine Gruppe von Indizes I für den Start des Eingangs und J für das Ende des Eingangs definiert werden. In oben vorgelegten Beispiel von einfachem Text gilt I = {0} und J = {n}. Jeder „Weg" durch das Wortgitter von einem Bestandteil von I zu einem Bestandteil von J entspricht einer möglichen Eingangs-Ausgangssprachen-Wortfolge, welche den gesamten Eingang überspannt. Der Ausgang der Übersetzungseinrichtung ist eine Zielsprachen-Wortfolge „v1, v2 ...", welche die Übersetzung mit dem geringsten Aufwand für jede solche Wortfolge ist, welche die gesamte Eingabe überspannt.
  • Eine detaillierte Beschreibung der verschiedenen Ausgangssprachen-Vorprozessoren 5 sei hier nicht gegeben; solche Vorprozessoren sind dem Fachmann auf diesem Gebiete bekannt. Im wesentlichen wandelt der Ausgangssprachen-Vorprozessor 5 die geschriebene oder gesprochene Sprache für die Übersetzung in ein Format um, das für die Verwendung durch die Übersetzungssuchmaschine 10 geeignet ist.
  • Die Hauptumsetzer 13 sind Umsetzer endlicher Zustände. Jeder Hauptumsetzer 13 ist einem Paar von Hauptwörtern zugeordnet, welche entsprechende Bedeutungen in der Ausgangssprache und der Zielsprache haben. Beispielsweise kann ein Hauptwort ein englisches Tätigkeitswort w sein und das andere Hauptwort kann ein chinesisches Tätigkeitswort v sein. Für die Übersetzung von Englisch in Chinesisch ist es der Zweck eines Hauptumsetzers 13 für w und v, die abhängigen Wörter von w zu seiner linken und seiner rechten in der Ausgangssprache („die linke Ausgangssprachenfolge" und „die rechte Ausgangssprachenfolge") zu erkennen oder zu lesen und entsprechende abhängige Wörter zur Linken und zur Rechten von v in der Zielsprachenfolge, welche erzeugt wird, vorzuschlagen („die linke Zielsprachenfolge" und „die rechte Zielsprachenfolge"). Beim Vorschlag, welcher Folge Zielsprachen-Abhängigkeitswörter zuzuschreiben sind, berücksichtigt der Hauptumsetzer 13 die gewünschte Wortordnung für die Zielsprache. Die Hauptwörter jeder der abhängigen Redewendungen werden entsprechend übersetzt, und dann deren abhängige Wörter, u. s. w., was durch die Übersetzungssuchmaschine geschieht. Dieser Vorgang wird hier als rekursive Hauptumsetzung bezeichnet.
  • Die rekursive Hauptumsetzung ist in 3 dargestellt, wobei ein Ausgangssprachensatz „w1w2w3w4w5w6w7w8" in einen Zielsprachensatz „v5v6v2v3v4v10v8v9v7" umgesetzt wird. Die dem obersten Niveau entsprechenden Hauptwörter sind w4 und v4 und die Paare von entsprechenden abhängigen Wörtern sind (w3, v3), (w6, v6) und (w7, v7). Im nächsten Niveau haben w6 und v6, ein einziges entsprechendes Paar von abhängigen Wörtern (w5, v5), u. s. w. Es sei bemerkt, daß in dem in 3 gezeigten Beispiel die Wörterordnung des Zielsprachensatzes von derjenigen des Ausgangssprachensatzes verschieden ist. Dies kann geschehen, da die Wörterordnung sich abhängig von der Sprache ändern kann.
  • Der Hauptumsetzer 13 ist durch eine endliche Gruppe von Zuständen Q und eine Umsetzungsaktionstabelle gekennzeichnet, welche mögliche Aktionen beschreibt, welcher der Hauptumsetzer 13 unternehmen kann. Ein mögliche Aktion enthält eine Startaktion; der Hauptumsetzer kann mit einem Zustand q ϵ Q mit leeren Zielsprachenfolgen starten. Eine zweite mögliche Aktion ist eine Stopaktion; der Hauptumsetzer kann in einem Zustand q ϵ Q abstoppen, wobei in diesem Falle beide Zielsprachenfolgen als vollständig angesehen werden. Eine andere mögliche Aktion ist ein Übergang. Ein Übergang tritt auf, wenn in einem Zustand q der Hauptumsetzer 13 nach Lesen eines Symbols w' aus einer der Eingangsfolgen und Schreiben eines Symbols v' in einer der Zielsprachenfolgen in einen Zustand q' eintreten kann.
  • Die Positionen, aus denen Symbole abgelesen werden und Symbole geschrieben werden, sind auch in den Übergängen spezifiziert. Um einen Übergang einer Ausgangssprachenfolge in eine Zielsprachenfolge unterschiedlicher Länge zuzulassen, läßt man die Eingangs- und Ausgangssymbole w' bzw. v' die leere Wortfolge sein, die mit ϵ bezeichnet ist.
  • Wie zuvor beschrieben sind die Hauptumsetzer 13, die in der vorliegenden Erfindung verwendet werden, von „Standard"-Umsetzern endlicher Zustände, wie sie in der Technik bekannt sind, verschieden. Die letzteren sind typisch darauf beschränkt, eine einzelne Eingangsfolge in eine einzige Ausgangsfolge umzusetzen, wobei üblicherweise eine Lesung der Eingangsfolge und ein Schreiben der Ausgangsfolge von links nach rechts geschieht. Verglichen mit solchen Umsetzern ist ein Hauptumsetzer gemäß der vorliegenden Erfindung mit derselben Anzahl von Zuständen wie ein „Standard"-Umsetzer in der Lage, einen größeren Grad von Divergenz zwischen der Ordnung von Wörtern in der Eingangswortfolge und in der Ausgangswortfolge zu erzeugen. Diese zusätzliche Flexibilität bezüglich der Ordnung resultiert aus der Fähigkeit, jedes Ausgangssymbol, d. h., Zeichen, Identifikationen, Wörter und dergleichen nach Bedarf in die linke oder die rechte Ausgangswortfolge zu schreiben. Ein zusätzlicher Vorteil der vorliegenden Hauptumsetzer besteht darin, daß sie von einem Hauptwort einer Redewendung nach außen arbeiten, was typischerweise in genaueren Übersetzungen resultiert, da die Verarbeitung mit einem weniger allgemeinen Wort starten kann, was die Möglichkeiten der Übersetzung beschränkt.
  • In einer bevorzugten Ausführungsform einer Übersetzungseinrichtung nach der vorliegenden Erfindung sind die Lese- und Schreibpositionen für Übergänge auf bestimmte "Richtungen" beschränkt. Entsprechend den vier Ausgangssprachen-Zielsprachen-Kombinationen (→,→), (←,→), (→,←), (←,←) der beiden Ausgangssprachenfolgen und der beiden Zielsprachenfolgen, welche in 4 gezeigt sind, kann im einzelnen ein Übergang ein Schreiben zum rechten Ende der rechten Zielsprachenfolge 50 bezeichnet mit →, oder ein Schreiben zum linken Ende der linken Zielsprachenfolge 55 hin, bezeichnet mit ←, festlegen. In entsprechender Weise kann ein Übergang ein Lesen des nächsten Symbols der rechten Ausgangssprachenfolge 40 vom linken Ende dieser Folge nach rechts, bezeichnet mit →, festlegen, oder ein Lesen des nächsten Symbols der linken Ausgangssprachenfolge 45 vom rechten Ende dieser Folge nach links gehend, bezeichnet mit ←, festlegen. In dieser bevorzugten Ausführungsform gibt es also vier Variationen von Übergängen. Es versteht sich, daß bei anderen Ausführungsformen andere Variationen von Übergängen vorgesehen sein können. Beispielsweise gibt es in einer alternativen Ausführungsform acht Variationen von Übergängen, wobei die Hauptumsetzer von den anderen Enden der Folgen aus lesen oder schreiben.
  • Eintragungen in dem zweisprachigen Lexikon 15 sind Aufzeichnungen der Form (w, v, M) Solch eine Eintragung erklärt, daß das Ausgangssprachenwort w in das Zielsprachenwort v übersetzt werden kann, und daß die abhängigen Wörter von dem Wort w in die abhängigen Wörter des Wortes v entsprechend dem Hauptumsetzer M umgesetzt werden können. Wenn eine solche Eintragung von der Übersetzungseinrichtung 1 benutzt wird, dann hat die Eintragung den Hauptumsetzer M "aktiviert".
  • Wie oben bemerkt kann in einer zweisprachigen Eintragung eines der Wörter w oder v die leere Folge ε, anstatt eines normalen Wortes im Vokabular der Sprache, sein. Eintragungen mit einer leeren Folge werden für Übersetzungen verwendet, bei denen ein Wort in einer Sprache ohne ein entsprechendes Wort in der anderen Sprache vorliegt. Beispiele umfassen die Einführung eines Artikels oder die Übersetzung eines Ausgangssprachenwortes in zwei Zielsprachenwörter. Im vorliegend gewählten Gebrauch können die Ausdrücke "Wort", "Folge" und "Redewendung", wenn nicht anders angegeben, "leere Folge" bedeuten. In einer bevorzugten Ausführungsform ist der Hauptumsetzer M einer lexikalen Eintragung mit einer leeren Folge darauf beschränkt, daß er nur einen einzigen Zustand qo und keine Übergänge hat.
  • Wie zuvor beschrieben, erfordert die Umformung eines Paars von Ausgangssprachenfolgen in ein Paar von Zielsprachenfolgen eine Reihe von Aktionen durch einen Hauptumsetzer 13. Diese Aktionen umfassen eine Startaktion, eine Reihe von Null oder mehr Übergängen und eine Stoppaktion. Ein Aufwandswert kann jeder dieser Aktionen zugeordnet werden. Eine Übersetzungseinrichtung gemäß der vorliegenden Erfindung erzeugt mögliche Übersetzungen durch Anwendung des Hauptumsetzers 13 zur Umwandlung der abhängigen Wörter des Hauptwortes des Ausgangssprachensatzes in die abhängigen Wörter des Hauptwortes des Zielsprachensatzes und durch rekursives Umsetzen der abhängigen Wörter dieser abhängigen Wörter unter Verwendung der Übersetzungssuchmaschine 10. Ein Übersetzungsgesamtaufwand kann als die Summe der Aufwände sämtlicher Aktionen definiert werden, welche von allen Hauptumsetzern unternommen werden, die bei der Übersetzung involviert waren. Die Übersetzung mit dem niedrigsten Gesamtaufwand wird als der Ausgang der Übersetzungseinrichtung, also die Übersetzung, gewählt. Der Aufwand der verschiedenen Aktionen, welche durch die verschiedenen Hauptumsetzer 13 unternommen werden, sind in der Paramtertabelle 17 enthalten.
  • Vorzugsweise berücksichtigen die Aufwendungen, welche in der Parametertabelle 17 für einen Hauptumsetzer M festgehalten sind, die Identität des Ausgangssprachenwortes w und des Zielsprachenwortes v in der Eintragung des zweisprachigen Lexikons, welche zu der Aktivierung von M geführt hat. Im einzelnen ist der Aufwand einer Startaktion feine Funktion von M, w, v und dem Startzustand q, d. h., also f(M, w, v, q). Der Aufwand eines Überganges g ist eine Funktion von M, w, v, von Zuständen q und q' vor und nach dem Übergang, des Ausgangssprachenabhängigkeitswortes w' und des Zielsprachenabhängigkeitswortes v' und den Lese- und Schreibrichtungen d1 und d2, somit also g(M, w, v, q, q', w', v', d1, d2). Der Aufwand einer Stoppaktion h ist eine Funktion von M, w, v und des Stoppzustandes q, somit also h(M, w, v, q).
  • Die Aufwände in der Parametertabelle 17 enthalten nicht nur Aufwände für die zutreffende Übersetzung eines Ausgangssprachenwortes in ein entsprechendes Zielsprachenwort, sondern auch den Aufwand der Zuordnungen zwischen vom Hauptwort abhängigen Wörtern in jeder der beiden Sprachen. Die Stärken dieser Zuordnungen, d. h., die Wahrscheinlichkeit des gleichzeitigen Auftreffens solcher Wörter, kann die Auswahl des Zielsprachensatzes beeinflussen, wobei eine stärkere Zuordnung durch einen geringeren Aufwand angezeigt wird.
  • Die 5A und 5B zeigen Beispiele für mögliche Übergänge für den Hauptumsetzer M1 bzw. M2 zur Erzeugung eines Teils der Wortfolgenumsetzung, welche in 3 gezeigt ist. Die Zustände sind als Kreise dargestellt und die Übergänge als Pfeile mit Angabe der Ausgangssprachenrichtung und Zielsprachenrichtung. Zustände, bei welchen Stoppaktionen auftreten können, sind als Doppelkreise eingezeichnet. Die relevanten Parametertabelleneintragungen, welche für diese Umsetzung erforderlich sind, sind außerdem unten in Tabelle 1 dargestellt. Die Aktionen von M1 formen die abhängigen Wortfolgen für w4 in diejenige für v4 um, und die Aktionen für M2 wandeln die abhängigen Ausgangssprachen-Wortfolgen für w1 in diejenige für v1 um.
  • Tabelle 1
    Figure 00170001
  • Es sei auf 5A und Tabelle 1 Bezug genommen. Der Hauptumsetzer M1 mit den Zuständen q1, q2 und q3, wird durch den lexikalen Eintrag (w4, v4, M1) aktiviert und startet im Zustand q1 mit dem Aufwand c1. Ein Übergang von q1 nach q2 mit den Richtungen (←,←) und dem Aufwand c3 liest das Ausgangssprachenwort w3 mit Richtung nach links und schreibt das Zielsprachenwort v3, ebenfalls mit Richtung nach links. Ein Übergang von q2 nach q3 mit Richtungen (→,←) liest das Ausgangssprachenwort w6 nach rechts und schreibt das Zielsprachenwort v6 nach links. Ein dritter Übergang vom Zustand q3 zurück zum Zustand q3 mit Richtungen (→,→) liest das Ausgangssprachenwort w1 nach rechts und schreibt das Zielsprachenwort v1 ebenfalls nach rechts. Der Umsetzer M1 unternimmt dann eine Stoppaktion im Zustand q3 mit dem Aufwand c8.
  • Es sei nun auf 5B in Verbindung mit Tabelle 1 Bezug genommen. Der Hauptumsetzer M2 wird durch einen Eintrag (w7, v7, M2) aktiviert und startet im Zustand q4 mit dem Aufwand c2. M2 unternimmt einen Übergang zu dem Zustand q5 und liest die leere Folge ε und schreibt das Zielsprachenwort v9 nach links. Der Hauptumsetzer macht dann einen Übergang zu dem Zustand q6 und liest das Ausgangssprachenwort w8 nach rechts und schreibt das Zielsprachenwort v8 nach links. Der Umsetzer M2 unternimmt dann eine Stoppaktion im Zustand q6 mit dem Aufwand c9.
  • Es sein nun zu 2 zurückgekehrt. Es wird in dem Schritt 110 ein Umsetzungsgitter basierend auf der Eingabe der Ausgangssprache erzeugt. Das Umsetzungsgitter wird durch die Übersetzungssuchmaschine 10 erzeugt. Der Zielsprachenwortfolgewähler 20 wählt "die Übersetzung" von dem Ausgang der Suchmaschine 10. 6 zeigt eine Ausführungsform eines Verfahrens, mit welchem die Übersetzungssuchmaschine 10 das Umsetzungsgitter konstruiert.
  • Wie im Schritt 200 angedeutet, werden die Wortpositionsaufzeichnungen oder das Wortgitter, welche durch den Ausgangssprachen-Vorprozessor 5 erzeugt worden sind, empfangen. Das Verfahren beginnt mit einem Initialisierungsschritt, welcher in den einzelnen Schritten 205 bis 220 durchgeführt wird, welche zusammengefaßt durch die Bezugszahl 230 bezeichnet sind. Die Initialisierung findet in der Weise statt, daß eine Gruppe von Umsetzungsaufzeichnungen (M, w, v, i, j, qo, v, c2), die aus den Wortpositionsaufzeichnungen entwickelt wurden, zu einer Reihe zusammengesetzt werden. Die Gruppe von Umsetzungsaufzeichnungen entspricht den Aktivierungen sämtlicher Eintragungen des zweisprachigen Lexikons (w, v, M) für das Ausgangssprachenwort w für jede eingegebene Wortpositionsaufzeichnung (w, i, j, co). Das Aktivieren einer Eintragung des zweisprachigen Lexikons, d. h., das Aktivieren eines Hauptumsetzers M, besteht in dem Aufsuchen der Eintragung in dem zweisprachigen Lexikon 15, welches in einem Speicher festgehalten ist. Die Parametertabelle 17 enthält den Aufwand c1 = f(M, w, v, qo) zum Starten des Hauptumsetzers M in dem Zustand qo und c2 = c1 + co. Sämtliche Hauptumsetzer für jedes Wort w in dem Wortgitter oder den Wortpositionsaufzeichnungen werden durch Schleifen aktiviert, die durch Entscheidungsblöcke 215 und 205 eröffnet werden.
  • Gemäß der vorliegenden Erfindung werden nur diejenigen Hauptumsetzer aktiviert, welche zu den Ausgangssprachenwörtern in den Eingangs-Wortpositionsaufzeichnungen oder dem Wort Gitter in Beziehung stehen. Mit anderen Worten ist es gemäß der vorliegenden Erfindung nicht notwendig, das gesamte Lexikon in einen Speicher wahlfreien Zugriffs (RAM) zu laden. Im Gegensatz hierzu erfordern es typische Übersetzungseinrichtungen nach dem Stand der Technik, daß ihre gesamten Sammlungen an grammatikalischen Regeln, Übersetzungsregeln und dergleichen in einen RAM-Speicher geladen werden. Das vorliegende Übersetzungssystem und das hier angegebene Übersetzungsverfahren können somit unter Verwendung von Rechnern verwirklicht werden, welche einen begrenzten RAM-Speicher haben.
  • Die verbleibenden Schritte 240 bis 295 bilden eine Schleife, welche Bestandteile aus der Reihe verbraucht und neue Umsetzungsaufzeichnungen erzeugt. Der Entscheidungsblock 240 fragt ab, ob die Folge leer ist. Ist sie das, dann sind alle Eintragungen niedrigen Aufwandes, welche aus den Ausgangssprachenwörtern entwickelt werden können, soweit wie möglich „ausgedehnt", d. h., alle anwendbaren Übergänge sind durch die Hauptumsetzer ausgeführt worden. Das Umsetzungsgitter, d. h., die Sammlung von Umsetzungsaufzeichnungen, welche durch die Übersetzungssuchmaschine 10 entwickelt worden sind, sind dann in dem Zielsprachen-Wortfolgenwähler 20 nachverarbeitet worden, um die beste Übersetzung auszusuchen, wie in dem Schritt 300 angegeben ist.
  • Ist die Reihe oder Folge nicht leer, dann setzt sich die Verarbeitung mit dem Schritt 245 fort, in welchem eine Umsetzungsaufzeichnung aus der Reihe entfernt wird. Gemäß einer bevorzugten Ausführungsform des vorliegenden Verfahrens wird der Aufwand c der Umsetzungsaufzeichnung mit der gegenwärtigen Aufzeichnung des niedrigsten Aufwandes im Schritt 250 verglichen. Die Aufzeichnung niedrigsten Aufwandes wird in einer Hash-Tabelle identifiziert. Die Eintragungen in der Hash- Tabelle umfassen einen Hash-Schlüssel (w, v, i, j, q, M), und einen Hash-Wert, der ein Zeiger zu der Umsetzungsaufzeichnung ist. Die Hash-Tabelle hält den Zeiger zu der Umsetzungsaufzeichnung niedrigsten Aufwandes fest, welche zwischen i und j unter w in dem Zustand q der Maschine oder des Hauptumsetzers M gefunden wird. Die Information, welche den Hash-Schlüssel bildet, wird als „Vollzustand" bezeichnet und c wird als „Aufwand des Vollzustandes" bezeichnet. Wenn der Aufwand c der Umsetzungsaufzeichnung, welche betrachtet wird („gegenwärtige Aufzeichnung") nicht kleiner als der Vollzustandsaufwand ist, dann wird die gegenwärtige Aufzeichnung verworfen oder ausgeschieden. Die Verarbeitung kehrt dann zu dem Schritt 240 zurück, um festzustellen, ob eine andere Umsetzungsaufzeichnung verfügbar ist. Wenn die gegenwärtige Aufzeichnung einen niedrigeren Aufwandswert hat als die Aufzeichnung niedrigsten Aufwandes, welche in der Hash-Tabelle identifiziert wird, dann wird sie in dem Schritt 255 zu dem Umsetzungsgitter hinzugefügt. Während der Schritt 250 in dem hier angegebenen Verfahren nicht als Schritt erforderlich ist, verbessert er die Wirksamkeit, da er die Erzeugung von Umsetzungsaufzeichnungen vermeidet, welche später ausgeschieden werden.
  • Wenn nach Hinzufügen der Umsetzungsaufzeichnung zu dem Umsetzungsgitter in dem Schritt 255 die Umsetzungsaufzeichnung an eine andere Satzkonstruktion angrenzt, dann kann ein Kombinationsvorgang stattfinden. Der Entscheidungsblock 260 fragt daher nach, ob eine Kombination mit weiteren Redewendungen oder Satzkonstruktionen stattfinden soll oder nicht. Ist dies nicht der Fall, dann kehrt die Verarbeitung zurück zu dem Entscheidungsblock 240. Wenn weitere Satzteile vorhanden sind, dann resultiert eine Kombinationsoperation, welche durch die Schritte durchgeführt wird, die zusammengenommen durch die Bezugszahl 280 identifiziert sind, in einer neuen Aufzeichnung für eine ausgedehnte Teilübersetzung. Die alten Aufzeichnungen bleiben noch in dem Gitter. Kombinationsoperationen werden hier weiter unten im einzelnen beschrieben.
  • Für jede neue Umsetzungsaufzeichnung, die aus den Kombinationsoperationen resultiert, wird in dem Schritt 285 der Aufwand der Aufzeichnung mit der Vollzustandsaufzeichnung in der Hash-Tabelle verglichen. Wenn der Aufwand der neuen Aufzeichnung größer als der Vollzustandsaufwand ist, dann kehrt die Verarbeitung zu dem Schritt 260 zurück, ohne daß die neue Aufzeichnung zu der Reihe hinzugefügt wird und damit praktisch ausgeschieden wird. Wenn der Aufwand der neuen Aufzeichnung kleiner als der Vollzustandswert ist, dann wird die Eintragung in der Hash-Tabelle mit dem neuen Aufzeichnungszeiger im Schritt 290 aktualisiert und die alte Vollzustandsaufzeichnung wird aus dem Umsetzungsgitter entfernt. Die neue Aufzeichnung niedrigsten Aufwandes wird dann zu der Reihe in dem Schritt 295 hinzugefügt und die Verarbeitung schreitet mit dem Schritt 260 fort.
  • Nachdem die Reihe geleert worden ist, setzt sich die Verarbeitung mit dem Schritt 300 fort, in welchem der Zielsprachen-Wortfolgenwähler 20 die Wortfolge mit dem niedrigsten Aufwand auswählt. Ein Verfahren für eine solche Auswahl der Wortfolge niedrigsten Aufwandes ist in 7 gezeigt. In einem ersten Schritt 310 wird eine Liste von sämtlichen Aufzeichnungen des Gitters (M, w, v, i, j, q, t, c) von einer anfänglichen Eingangsposition i ε I bis zu einer End-Eingangsposition j ε J angesammelt. Im Schritt 320 wird der Aufwand der Stopaktion, nämlich h(M, w, v, q), der in der Parametertabelle 17 festgehalten ist, zu jeder Aufzeichnung in der Liste hinzugefügt. Schließlich wird im Schritt 330 die Wortfolge t aus der Aufzeichnung mit dem niedrigsten Gesamtaufwand als die Übersetzung ausgewählt. Wenn es verschiedene solche überspannende Aufzeichnungen mit demselben niedrigen Aufwand gibt, dann wird eine dieser Aufzeichnungen auf Zufallsbasis ausgewählt.
  • Wie zuvor beschrieben kann, wenn die Hinzufügung einer Umsetzungsaufzeichnung zu dem Gitter sie in Nachbarschaft zu einer anderen Umsetzungsaufzeichnung bringt, eine Kombinationsaktion stattfinden, welche in einer erweiterten Teilübersetzung resultiert. Jede Kombination entspricht einer Übergangsaktion des Hauptumsetzers für eine der zwei Umsetzungsaufzeichnungen. Im einzelnen ist die Kombination ein Übergangsvorgang für den Umsetzer, der als Hauptumsetzer in der Kombination wirkt, während die andere Aufzeichnung in der Kombination als abhängig wirksam ist. Ist sie erfolgreich, dann resultiert die Kombinationsoperation in einer neuen Aufzeichnung für eine erweiterte Teilübersetzung, wobei die alten Aufzeichnungen in dem Gitter verbleiben.
  • Die vier Kombinationen von Übergangsrichtungen, welche zuvor beschrieben worden, entsprechen vier Arten von Umsetzungen oder Kombinationsschritten aufgrund der Wahl einer linken oder rechten Richtung in der Ausgangssprache und einer linken oder rechten Richtung in der Zielsprache. Ein Beispiel eines Umsetzungsschrittes wird für eine Ausgangssprachenrichtung nach links (←) und eine Zielobjektrichtung nach rechts (→) beschrieben. Die anderen drei Arten von Umsetzungsschritten sind analog, wobei die Ausgangssprachen-Satzaufzeichnungen und die Zielsprachen-Wortfolgeverkettungen in geeigneter Weise umzukehren sind. Wenn das Umsetzungsgitter benachbarte Teilübersetzungen (M1, w1, v1, i, k, q1, t1, c1) und (M2, w2, v2, k, j, q2, t2, c2) enthält und die Aktionstabelle für M2 einen Übergang von q2 nach q'2, mit der Ausgangssprachenrichtung ←, der Zielsprachenrichtung →, enthält und die Parametertabelle 17 einen Aufwand c3 = g(M2, w2, v2, w1, v1, q2, q'2, ←, →) für diesen Übergang mit dem abhängigen Wort w1 in der Ausgangssprache und dem abhängigen Wort v1 in der Zielsprache enthält und die Aktionstabelle für M1 eine Stopaktion im Zustand q1 enthält, für welche die Parametertabelle 17 einen Aufwand c4 = h(M1, w1, v1, q1) enthält, dann wird eine neue erweiterte Teilübersetzung (M2, w2, v2, i, j, q'2, t', c5) erzeugt, worin: c5 = c1 + c2 + c3 + c4 und t' die Verkettung (t2, t1) ist.
  • Mit anderen Worten, der Hauptumsetzer M2 hat durch Aktivierung durch den Eintrag des zweisprachigen Lexikons (w2, v2, M2) einen Übergang erfahren, welcher eine abhängige Ausgangssprachenwortfolge nach links (mit w1 als Hauptwort) verbraucht hat und die Zielsprachenwortfolge t2 nach rechts durch eine Wortfolge t1 (mit v1 als Hauptwort) erweitert hat, worin t1 die Übersetzung der „verbrauchten" Wortfolge ist.
  • Der oben beschriebene Umsetzungsschritt ist anzuwenden, außer wenn das abhängige Ausgangssprachenwort für den Übergang, beispielsweise w1 im obigen Beispiel, die leere Folge, also ε ist. Für solche Übergänge ist nur die alte Aufzeichnung für das Hauptwort, d. h., (M2, w2, v2, ε, k, j, q2, t2, e2) für das Stattfinden des Übergangs erforderlich. Die Parametertabelle 17 muß dann den Aufwand t3 = g(M2, w2, v2, ε, v1, q2, q'2, ←, →) enthalten und das Lexikon muß den Eintrag (ε, v1, M1) enthalten. Wie zuvor beschrieben hat dann der Hauptumsetzer M, nur einen einzigen Zustand q0 und keine Übergänge. Die neue Aufzeichnung, welche durch den Umsetzungsschritt erzeugt wird, ist (M2, w2, v2, k, j, q'2, t', c6), worin M2, w2, v2, k, j und q'2, dasselbe sind wie zuvor, c6 = c2 + c3 + f(M1, ε, v1, q0) + h(M1, ε, v1 q0), und t' = Verkettung (t2, v1).
  • Umsetzungsschritte, welche leere Folgen umfassen, können nicht in einem fehlenden Abschluß des Suchprozesses resultieren, da die Prüfung in der Umsetzungsschleife sicherstellt, daß Teilübersetzungen, welche zu der Reihe hinzugefügt werden, eine niedrigere Aufwandszahl haben müssen, als vorausgegangene Satzteile mit demselben vollen Zustand.
  • Bezüglich der Aufwandsparameter benötigt die vorliegende Erfindung keine spezielle Interpretation der verschiedenen Aufwandsparameter für Umsetzungsaktionen über die allgemeine Forderung hinaus, daß die niedrigeren Aufwandszahlen den erwünschteren Übersetzungen entsprechen. In einer bevorzugten Ausführungsform ist die Aufwandsfunktion die negative Log-Wahrscheinlichkeit. Die Log-Wahrscheinlichkeitsaufwände können für die vorliegende Erfindung folgendermaßen bestimmt werden. Umsetzeraktionen können als Ereignisse in einem sogenannten generativen Modell betrachtet werden, insbesondere einem Wahrscheinlichkeitsmodell für die gleichzeitige Erzeugung einer Ausgangssprachenwortfolge und einer Zielsprachenwortfolge. Es wird ein Datensatz für Ausgangssprachensätze für eine bestimmte Übersetzungsanwendung gesammelt. Es wird eine Parametertabelle erstellt, in welcher sämtliche Aufwände denselben konstanten Wert haben. Die Übersetzungseinrichtung wird mit jedem der Ausgangssprachensätze aus dem gegebenen Satz betrieben, wobei eine Zählung sämtlicher unternommener Umsetzeraktionen festgehalten wird. Die resultierenden Paare von Ausgangssprachen- und Zielsprachensätzen werden einer Person, welche beide Sprachen beherrscht, vorgelegt, welche sie als akzeptable oder nicht akzeptable Übersetzungen klassifiziert. Zählungen, welche zu nicht akzeptablen Übersetzungen führen, werden ausgeschieden und die Wahrscheinlichkeiten werden aus den verbleibenden Zählungen unter Verwendung von gängigen statistischen Methoden abgeschätzt. Für jede geschätzte Wahrscheinlichkeit P(e) für eine Aktion e, wird der Aufwand für e dem Wert –log(P(e)) gleichgesetzt und es wird aus diesen Aufwandswerten eine neue Parametertabelle konstruiert.
  • Es versteht sich, daß andere Methoden zum Abschätzen der Wahrscheinlichkeiten, welche dem Fachmann auf diesem Gebiet bekannt sind, verwendet werden können, beispielsweise die Erwartungsmaximierung. Weiter können Aufwandsfunktionen, welche von der log-Wahrscheinlichkeit verschieden sind, verwendet werden, beispielsweise das Wahrscheinlichkeitsverhältnis, ohne daß hierauf eine Beschränkung vorliegt. Das Wahrscheinlichkeitsverhältnis ist die Zahl von Malen beim Training, welche eine bestimmte Umsetzeraktion zu der unrichtigen Wortfolge führt, zu der Zahl von Malen, daß sie zu der Auswahl einer richtigen Wortfolge führt.
  • Es versteht sich, daß die hier beschriebenen Ausführungsbeispiele zur Illustration der Grundsätze der Erfindung dienen und daß vielerlei Modifikationen durch den Fachmann auf diesem Gebiet vorgenommen werden können und verwirklicht werden können, ohne daß der grundsätzliche Gedanke der vorliegenden Erfindung verlassen wird.
  • Beispielsweise können in anderen Ausführungsformen einer Übersetzungseinrichtung nach der vorliegenden Erfindung Werte, welche von den "Aufwänden" verschieden sind, für die Auswahl der besten Übersetzung verwendet werden. Solche Mittel oder Werte umfassen, ohne daß eine Beschränkung hierauf zum Ausdruck gebracht werden soll, "Zwänge". Nicht beschränkende Beispiele von Zwängen zur Verwendung in der hier angegebenen Übersetzungseinrichtung sind Vereinheitlichungszwänge und Auswahlbeschränkungen. In solchen Übersetzungseinrichtungen auf Zwänge-Basis ist die Parametertabelle 17 nicht erforderlich. Bei einigen Ausführungsformen ersetzt eine Zwänge-Tabelle 17a die Parametertabelle 17. Es sei bemerkt, daß in solchen Übersetzungseinrichtungen auf der Basis der Beurteilung von Zwängen, die Übersetzungssuchmaschine 10a die Ergebnisse von Kombinationen auf einer anderen Basis als der Aufwandsbasis zuläßt. In anderen Ausführungsformen wird die beste Übersetzung auf Zufallsbasis aus Übersetzungskandidaten ausgesucht, so daß ein Zielsprachen-Wortfolgewähler 20a nicht erforderlich ist.
  • In den meisten nicht trivialen Übersetzungsfällen ist eine Vielzahl von Hauptumsetzern 13 erforderlich. Bei einfacheren Anwendungen jedoch, beispielsweise bei der Übersetzung bestimmter Ansammlungen von Rechnerbefehlen, kann für die Übersetzung ein einziger Hauptumsetzer 13 verwendet werden.

Claims (11)

  1. Übersetzungssystem zum Übersetzen einer Wortfolge in einer Ausgangssprache (45, 40) in mindestens eine Wortfolge in einer Zielsprache (55, 50), wobei das Verfahren folgendes enthält: mindestens einen Hauptumsetzer (13), welcher ein Umsetzer endlicher Zustände ist und einem Paar von Hauptwörtern zu geordnet ist, welche entsprechende Bedeutungen in der Ausgangssprache und der Zielsprache haben; ein zweisprachiges Lexikon (15), welches den Umformer (13) dem Paar von Hauptwörtern zuordnet; eine Tabelle (17), welche eine Mehrzahl von Parametern enthält, welche aus der Gruppe gewählt sind, die aus Aufwänden und Zwängen besteht, wobei ein Parameter der Mehrzahl von Parametern jeder Aktion des mindestens einen Hauptumformers (13) zugeordnet ist; eine Übersetzungssuchmaschine (10), welche eine Mehrzahl von Kanidaten von Übersetzungen des Ausgangssprachensatzes unter Verwendung des mindestens einen Hauptumformers (13) erzeugt und der Übersetzung einen Wert zuordnet, wobei dieser Wert eine Funktion der Parameter ist, die bei allen Aktionen involviert sind, die durch den mindestens einen Hauptumformer (13) bei der Übersetzung unternommen wurden; und einen Zielsprachen-Wortfolgewähler (20), welcher eine Übersetzung aus der Mehrzahl von Kanidaten von Übersetzungen auswählt; und wobei ferner der Hauptumformer (13) links- und rechtsgeordnete Ausgangssprachensequenzen von abhängigen Wörtern des Ausgangssprachenhauptwortes in links- und rechts geordnete Zielsprachensequenzen von abhängigen Wörtern des Zielsprachen-Hauptwortes umwandelt.
  2. System nach Anspruch 1, bei welchem die genannten Aktionen aus der Gruppe gewählt sind, welche aus Startaktionen, Stoppaktionen und Übergängen besteht, wobei ein Übergang eine erste Richtung und eine zweite Richtung anzeigt, von denen die erste Richtung für das Lesen von links- und rechtsgeordneten Ausgangssprachensequenzen und die zweite Richtung für das Schreiben in links- und rechtsgeordnete Zielsprachensequenzen gilt, so daß die gewünschten Ordnungsunterschiede zwischen den Ausgangssprachensequenzen und Zielsprachensequenzen beeinflußt werden.
  3. System nach Anspruch 2, bei welchem die Aufwände für Übergangsaktionen eine Anzeige für die Wahrscheinlichkeit des gleichzeitigen Auftretens von zwei Ausgangssprachenwörtern und der Wahrscheinlichkeit des gleichzeitigen Auftretens von zwei Zielsprachenwörtern sind.
  4. System nach Anspruch 1, welches weiter einen Ausganssprachen-Vorprozessor (5) enthält, um den Ausganssprachensatz (45, 40) in ein Format umzuwandeln, das durch die Übersetzungssuchmaschine (10) brauchbar ist.
  5. System nach Anspruch 4, bei welchem das Format mindestens eine Wortpositionsaufzeichnung ist.
  6. System nach Anspruch 1, bei welchem der Zielsprachen-Wortfolgewähler (20) die genannte eine Übersetzung auf der Basis eines Vergleiches der zugeordneten Werte für jeden der Kanidaten der Übersetzung aus der Mehrzahl auswählt.
  7. System nach Anspruch 1, bei welchem die Zwänge in den im dem zweisprachigen Lexikon vorhandenen Hauptwörtern inbegriffen sind.
  8. System nach Anspruch 1, bei welchem die Zwänge oder Einschränkungen aus Vereinheitlichungseinschränkungen und Auswahleinschränkungen ausgewählt sind.
  9. Verfahren zur Übersetzung eines Satzes (40, 45) in einer Ausgangssprache in einen Satz in einer Zielsprache (50, 55), mit den folgenden Schritten: Aktivieren von Zustandsmaschinen (220), welche jedem Wort in dem Satz der Ausgangssprache zugeordnet sind, wobei die aktivierten Zustandsmaschinen (210) aus einer Mehrzahl von solchen Zustandsmaschinen ausgewählt sind, welche einer Mehrzahl von Worten zugeordnet sind, die ein Lexikon definieren und wobei jede der aktivierten Zustandsmaschinen zur Umwandlung eines Paares von Ausgangssprachen-Wortfolgen (40, 45) in ein Paar von Zielsprachen-Wortfolgen (50, 55) dient, und wobei weiter jede Zustandsmaschine einen Anfangszustand hat; Erzeugen einer ersten Mehrzahl von Übersetzungsaufzeichnungen (230), wobei eine Übersetzungsaufzeichnung für jedes Wort in dem Ausgangssprachensatz erzeugt wird und jede Übersetzungsaufzeichnung eine Zustandsmaschine, ein Ausgangssprachenwort, eine Zielsprachen-Wortfolge, zwei Postitionsanzeiger zur Lokalisierung der Position des Ausgangssprachenwortes in dem Ausgangssprachen satz, den Anfangszustand der Zustandsmaschine und einen Aufwandswert aufweist; Erzeugen eines Übersetzungsgitters (255) durch Bilden einer Datenstruktur, welche aus den Übersetzungsaufzeichnungen besteht, die während des ersten Erzeugungsschrittes gebildet worden sind; Erzeugen einer Mehrzahl von erweiterten Übersetzungsaufzeichnungen (280), wobei eine erweiterte Übersetzungsaufzeichnung gebildet (265) wird, wenn eine Übersetzungsaufzeichnung innerhalb des Übersetzungsgitters eine benachbarte Übersetzungsaufzeichnung in dem Übersetzungsgitter durch einen Zustandsmaschinenübergang (275) aufbraucht, und wobei die erweiterte Aufzeichnung eine erweiterte Zielsprachen-Wortfolge enthält, die durch Verketten der Zielsprachen-Wortfolge der aufgebrauchten Aufzeichnung und der aufbrauchenden Aufzeichnung in einer Reihenfolge erzeugt wird, welche durch die Richtungen der Zustandsmaschinenübergänge angezeigt wird, und die erweiterte Übersetzungsaufzeichnung weiter einen neuen Aufwandswert, welcher die Summe der Aufwände der aufgebrauchten Aufzeichnung und der aufbrauchenden Aufzeichnung ist, weiter einen Aufwandswert, der dem Zustandsmaschinenübergang der aufbrauchenden Aufzeichnung zugeordnet ist, sowie einen Aufwandswert enthält, der einem Stopp zugeordnet ist, der durch die aufgebrauchte Zustandsmaschine unternommen wurde; Addieren der erweiterten Übersetzungsaufzeichnung (295) zu dem Übersetzungsgitter; Wiederholen der vorausgegangenen beiden Schritte, wobei eine Übersetzungsaufzeichnung eine benachbarte Übersetzungsaufzeichnung (280) aufbraucht, bis sämtliche Aufzeichnungen im vollem Maße erweitert worden sind; und Auswahl der Übersetzungsaufzeichnung (300) mit dem niedrigsten Aufwandswert, welche den gesamten Ausgangssprachensatz überspannt.
  10. Verfahren nach Anspruch 9, bei welchem der Aufwandswert, der dem Zustandsmaschinenübergang zugeordnet ist, eine Anzeige für die Wahrscheinlichkeit des gleichzeitigen Auftretens der Wörter ist, welche die Zustandsmaschinen für die aufgebrauchte Aufzeichnung und die aufbrauchende Aufzeichnung aktiviert haben, sowie eine Anzeige für das gleichzeitige Auftreten der entsprechenden Zielsprachenwörter in der Zielsprache für solche Aufzeichnungen ist.
  11. Verfahren nach Anspruch 9, bei welchem, wenn die erweiterte Übersetzungsaufzeichnung addiert wird, die Übersetzungsaufzeichnung zu dem Übersetzungsgitter addiert wird, wenn der neue Aufwandswert der erweiterten Übersetzungsaufzeichnung niedriger als ein Bezugs-Übersetzungsaufzeichnungs-Aufwandswert (285) ist, und, wenn die Schritte wiederholt werden, dieses weiter das Aktualisieren des Bezugs-Übersetzungsaufzeichnungs-Aufwandswertes (290) durch die erweiterten Übersetzungsaufzeichnungen umfaßt, die zu dem Übersetzungsgitter addiert werden.
DE69726339T 1996-06-14 1997-06-10 Verfahren und Apparat zur Sprachübersetzung Expired - Fee Related DE69726339T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/665,182 US6233544B1 (en) 1996-06-14 1996-06-14 Method and apparatus for language translation
US665182 1996-06-14

Publications (2)

Publication Number Publication Date
DE69726339D1 DE69726339D1 (de) 2004-01-08
DE69726339T2 true DE69726339T2 (de) 2004-09-09

Family

ID=24669064

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69726339T Expired - Fee Related DE69726339T2 (de) 1996-06-14 1997-06-10 Verfahren und Apparat zur Sprachübersetzung

Country Status (4)

Country Link
US (1) US6233544B1 (de)
EP (1) EP0813156B1 (de)
CA (1) CA2202696C (de)
DE (1) DE69726339T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017008079A1 (de) 2017-08-25 2018-04-19 Daimler Ag Verfahren zum Übersetzen einer ersten Wortfolge in eine zweite Wortfolge

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489980B2 (en) 1998-02-23 2013-07-16 Transperfect Global, Inc. Translation management system
US10541973B2 (en) 1998-02-23 2020-01-21 Transperfect Global, Inc. Service of cached translated content in a requested language
US6952827B1 (en) * 1998-11-13 2005-10-04 Cray Inc. User program and operating system interface in a multithreaded environment
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6697780B1 (en) 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US7082396B1 (en) 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
US20010029442A1 (en) * 2000-04-07 2001-10-11 Makoto Shiotsu Translation system, translation processing method and computer readable recording medium
DE10018143C5 (de) * 2000-04-12 2012-09-06 Oerlikon Trading Ag, Trübbach DLC-Schichtsystem sowie Verfahren und Vorrichtung zur Herstellung eines derartigen Schichtsystems
US7219058B1 (en) 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US6990452B1 (en) 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
US7035803B1 (en) 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
US20080040227A1 (en) * 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US7091976B1 (en) * 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US7209880B1 (en) 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US20030055644A1 (en) * 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
JP2005507524A (ja) * 2001-10-29 2005-03-17 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 機械翻訳
US7671861B1 (en) 2001-11-02 2010-03-02 At&T Intellectual Property Ii, L.P. Apparatus and method of customizing animated entities for use in a multi-media communication application
US7221654B2 (en) * 2001-11-13 2007-05-22 Nokia Corporation Apparatus, and associated method, for selecting radio communication system parameters utilizing learning controllers
FR2833375B1 (fr) * 2001-12-07 2004-06-04 Amadeus Procede, dispositif d'adaptation de fichiers numeriques
US7272377B2 (en) 2002-02-07 2007-09-18 At&T Corp. System and method of ubiquitous language translation for wireless devices
AU2003269808A1 (en) * 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8234115B2 (en) * 2002-03-29 2012-07-31 At&T Intellectual Property Ii, L.P. Systems and methods for determining the N-best strings
DE60212330T2 (de) * 2002-04-12 2007-06-21 Targit A/S Verfahren zur Verarbeitung von mehrsprachigen Abfragen
USH2189H1 (en) * 2002-10-21 2007-05-01 Oracle International Corporation SQL enhancements to support text queries on speech recognition results of audio data
US7257575B1 (en) * 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7660400B2 (en) 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8265924B1 (en) 2005-10-06 2012-09-11 Teradata Us, Inc. Multiple language data structure translation and management of a plurality of languages
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7827028B2 (en) * 2006-04-07 2010-11-02 Basis Technology Corporation Method and system of machine translation
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) * 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
US7949679B2 (en) * 2008-03-05 2011-05-24 International Business Machines Corporation Efficient storage for finite state machines
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20100332215A1 (en) * 2009-06-26 2010-12-30 Nokia Corporation Method and apparatus for converting text input
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
IT1400269B1 (it) 2010-05-31 2013-05-24 Google Inc Distanza di editazione generalizzata per interrogazioni
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN104572028B (zh) * 2014-12-26 2017-06-20 中国科学院自动化研究所 一种状态机等价变换的方法和装置
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US9916305B1 (en) * 2016-12-28 2018-03-13 Facebook, Inc. Translating terms within a digital communication
US10552547B2 (en) * 2017-10-10 2020-02-04 International Business Machines Corporation Real-time translation evaluation services for integrated development environments
JP6784718B2 (ja) * 2018-04-13 2020-11-11 グリー株式会社 ゲームプログラム及びゲーム装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
JPH02165378A (ja) * 1988-12-20 1990-06-26 Csk Corp 機械翻訳システム
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
GB9209346D0 (en) 1992-04-30 1992-06-17 Sharp Kk Machine translation system
US5434777A (en) * 1992-05-27 1995-07-18 Apple Computer, Inc. Method and apparatus for processing natural language
JP3599775B2 (ja) * 1993-04-21 2004-12-08 ゼロックス コーポレイション ハイフネーション規則に関する有限状態符号化システム
US5510981A (en) 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017008079A1 (de) 2017-08-25 2018-04-19 Daimler Ag Verfahren zum Übersetzen einer ersten Wortfolge in eine zweite Wortfolge

Also Published As

Publication number Publication date
EP0813156A3 (de) 1998-12-23
DE69726339D1 (de) 2004-01-08
CA2202696C (en) 2001-02-06
EP0813156B1 (de) 2003-11-26
EP0813156A2 (de) 1997-12-17
CA2202696A1 (en) 1997-12-14
MX9704287A (es) 1998-06-30
US6233544B1 (en) 2001-05-15

Similar Documents

Publication Publication Date Title
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69837979T2 (de) System zum Extrahieren einer mehrsprachigen Terminologie
DE69820343T2 (de) Linguistisches Suchsystem
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE3032664A1 (de) Elektronisches sprachuebersetzungsgeraet.
DE69728282T2 (de) System und verfahren zur extraktion und kodierung von medizinischer fachsprache
DE3616751A1 (de) Uebersetzungssystem
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE2854837A1 (de) Uebersetzungsvorrichtung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE3034510A1 (de) Elektronisches uebersetzungsgeraet
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
DE69835239T2 (de) Verfahren und anordnung zur übersetzung von informationen
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
DE3511920A1 (de) Elektronischer ratgeber
DE102016114265A1 (de) Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
DE3733674C2 (de)
DE2613703C2 (de) Schaltungsanordnung zum Übersetzen von Programmtexten
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee