-
Gebiet der
Erfindung
-
Die vorliegende Erfindung betrifft
die automatische Sprachübersetzung.
Genauer gesagt, bezieht sich die vorliegende Erfindung auf Verfahren
und Einrichtungen zur unmittelbaren Übersetzung unter Verwendung eines
Lexikon-Wahrscheinlichkeits-Übersetzungsmodells.
-
Hintergrund
der Erfindung
-
Die Sprachübersetzung beinhaltet die Umwandlung
von Sätzen
von einer natürlichen
Sprache, welche im allgemeinen als die Ausgangssprache bezeichnet
wird, in eine andere Sprache, welche typischerweise als Zielsprache
bezeichnet wird. Wird die Übersetzung
durch eine Maschine ausgeführt,
beispielsweise einen Rechner, so wird diese Übersetzung als eine automatische
Sprachübersetzung
oder Maschinenübersetzung bezeichnet.
-
Viele unterschiedliche Verfahren
zur automatischen Sprachübersetzung
sind in den letzten Jahrzehnten vorgeschlagen und verwirklicht worden.
Siehe hierzu W. J. Hutchins und H. L. Somer, An Introduction to Machine
Translation (Academic Press, N. Y. 1992). Die meisten Übersetzungssysteme
verwenden die Übertragung über Zwischendarstellungen.
Beispielsweise ist in den sogenannten "Interlingua"-Übersetzungssystemen
die Zwischendarstellung eine sprachunabhängige Darstellung, welche aus
einer anfänglichen
Analyse der Sätze
der Quellensprache oder Ausgangssprache resultiert. Die Zwischendarstellung
wird dann durch eine Erzeugungsphase in die Zielsprache umgeformt.
Siehe beispielsweise Nirenburg u. a., Machine Translation: A Knowledge-Based
Approach, (Morgan Kaufmann, San Mateo, Ca. 1992). Ein zweites Beispiel
einer Übertragung über eine
Zwischendarstellung sind die "Transfer"-Übersetzungssysteme. Solche
Systeme umfassen drei Phasen: Die Analyse des Satzes der Ausgangssprache
in eine Ausgangsdarstellung, die Umwandlung dieser Ausgangsdarstellung
in eine Zieldarstellung, und die Erzeugung eines Zielsprachensatzes
aus der Zieldarstellung. Siehe hierzu von Noord u. a., "An Overview of Mimo2", v.6 Machine Translation,
Seiten 201–04, 1991.
-
Eine zweite Art von Übersetzungssystemen
kann als ein "direktes" Übersetzungssystem klassifiziert werden.
Solche direkten Verfahren verwenden keine Zwischendarstellungen.
Einige der frühesten Übersetzungssysteme
verwendeten direkte Verfahren. Sie waren jedoch in ihrer Natur spontan
und von einer großen Sammlung
von Übersetzungsregeln
und Ausnahmen abhängig.
-
In jüngerer Zeit wurden systematischere
direkte Übersetzungsverfahren
vorgeschlagen. Ein solches Verfahren basiert auf einem statistischen
Modell zur Übertragung
von Wörtern
der Ausgangssprache in Wörter und
Wortstellungen in der Zielsprache. Ein Nachteil dieser Methode besteht
darin, daß sie
die Anordnung von Redewendungen in dem Satz der Ausgangssprache
und der Zielsprache ignoriert, wenn sie ein Wort in die entsprechende
Position in dem Satz der Zielsprache überträgt. Das Verfahren ignoriert
somit die lexikalen Beziehungen, welche eine Position in dem Zielsprachensatz
wahrscheinlicher machen als eine andere. Siehe hierzu Brown u. a., "A Statistical Approach
to Machine Translation",
v.16 Computational Linguistics, Seiten 79–85, 1990. Bei einem anderen
direkten Verfahren wird ein syntaktischer Baum gleichzeitig für den Satz
der Ausgangssprache und der Zielsprache aufgebaut, wobei spezielle
Redewendungs-Strukturregeln verwendet werden, welche die Reihenfolge
der Bestandteile des Satzbaus umkehren können. Ein Nachteil dieser Methode
ist es, daß sie
nicht eine Wort-zu-Wort-Zuordnung in der Ausgangssprache und der
Zielsprache berücksichtigt.
Siehe D. Wu, "Trainable
Coarse Bilingual Grammars for Parallel Text Bracketing", 1995, Proc. Workshop Very
Large Corpora, Cambridge, Massachussetts.
-
Ein drittes System der unmittelbaren Übersetzung
wurde vorgeschlagen, welches für
die Übersetzung Standard-Umsetzer
endlicher Zustände
von links nach rechts verwendet. Die Verwendung solcher Standard-Umsetzer
endlicher Zustände
begrenzt die Fähigkeit
des Verfahrens, Wörter
in dem Zielsprachensatz beliebig weit entfernt von ihrer Originalposition
in dem Satz der Ausgangssprache zuzulassen. Der Grund dafür ist, daß für ein nicht
triviales Vokabular die erforderliche Anzahl von Umsetzerzuständen für den praktischen Gebrauch
zu groß wird.
Siehe Vilar u. a., "Spoken-Language
Machine Translation in Limited Domains: Can it be Achieved by Finite-State
Models?", 1995,
Proc. Sixth International Conference Theoretical and Methodological
Issues in Machine Translation, Leuven, Belgien.
-
Die EP-A-0651340 offenbart eine Einrichtung
und ein Verfahren zur Sprachübersetzung
unter Verwendung von auf dem Zusammenhang basierenden Übersetzungsmodellen.
Im einzelnen wird eine Einrichtung zur Übersetzung einer Reihe von
Ausgangssprachenwörtern
in einer ersten Sprache in eine Reihe von Zielsprachenwörtern in
einer zweiten Sprache geoffenbart. Für eine Eingangsreihe von Ausgangssprachenwörtern werden
mindestens zwei Zielsprachenhypothesen erzeugt, welche jeweils eine
Reihe von Zielsprachenwörtern
enthalten. Jedes Zielsprachenwort hat einen Zusammenhang, welcher
mindestens ein anderes Wort in der Zielsprachenhypothese enthält. Für jede Zielsprachenhypothese
enthält
eine Sprachmodell-Passungsbewertung eine Abschätzung der Wahrscheinlichkeit
des Auftretens der Reihe von Wörtern,
in der Zielsprachenhypothese. Es wird mindestens eine Verbindung
zwischen einem Ausgangssprachenwort mit mindestens einem Zielsprachenwort
in der Zielsprachenhypothese identifiziert. Für jedes Ausgangssprachenwort
und jede Zielsprachenhypothese enthält eine Wort-Passungsbewertung,
eine Abschätzung
der möglichen
Wahrscheinlichkeit des Auftretens des Ausgangssprachenwortes unter
Annahme des Zielsprachenwortes in der Zielsprachenhypothese, welches
mit dem Ausgangssprachenwort verbunden ist und unter Annahme des
Zusammenhangs des mit dem Ausgangssprachenwort verbundenen Zielsprachenwortes
in der Zielsprachenhypothese. Für
jede Zielsprachenhypothese enthält
eine Übersetzungs-Passungsbewertung
eine Kombination der Wort-Passungsbewertung
für die
Zielsprachenhypothese und das Ausgangssprachenwort in der Eingangsreihe
von Ausgangssprachenwörtern.
-
Eine Zielsprachenhypothesen-Passungsbewertung
enthält
eine Kombination der Sprachmodell-Passungsbewertung für die Zielsprachenhypothese
und der Übersetzungs-Passungsbewertung
für die
Zielsprachenhypothese.
-
Die Zielsprachenhypothese, welche
die beste Zielsprachenhypothesen-Passungsbewertung
hat, wird ausgegeben. Somit gehört
dieses bekannte Übersetzungssystem
zur der oben diskutierten "direkten" Übersetzungssystemart. Auch
bei dieser bekannten Übersetzungseinrichtung
und -methode besteht nur eine begrenzte Möglichkeit dafür, daß berücksichtigt
wird, daß Wörter in
dem Zielsprachensatz möglicherweise
weit weg von ihrer ursprünglichen
Position in dem Ausgangssprachensatz stehen.
-
Aus der EP-A-0525470 sind ein Verfahren
und ein System für
eine natürliche
Sprachübersetzung
bekannt, wobei das System einen Ausgangstext herausgreift und ihn
in eine Zwischenstrukturdarstellung übersetzt. Die Zwischenstrukturdarstellungen
werden dann in eine Zwischen-Zielsprachenstrukturhypothese übersetzt.
Die Zwischen-Zielsprachenstrukturhypothesen
werden nun durch Zuordnung einer Wahrscheinlichkeit der Zielsprachenstruktur
bewertet, wobei von der Zwischen-Zielsprachenstruktur ausgegangen
wird. Die Zwischen-Zielsprachenstrukturhypothese mit der höchsten Wahrscheinlichkeit
wird dann in Teile des Textes in der Zielsprache übersetzt.
Dieses bekannte Übersetzungsverfahren
gehört
daher zu der oben diskutierten Art mit Zwischen-Sprachdarstellungen.
-
Es ist ein Ziel der vorliegenden
Erfindung, ein verbessertes System und ein verbessertes Verfahren zur
automatischen Sprachübersetzung
zu schaffen, das die Beschränkungen
der oben erwähnten
bekannten Systeme und Verfahren vermeidet.
-
Dieses Ziel wird gemäß der vorliegenden
Erfindung durch eine Übersetzungseinrichtung
mit den Merkmalen von Anspruch 1 erreicht. Weiter wird obiges Ziel
durch ein Verfahren zur Übersetzung
eines Satzes oder einer Wortfolge einer Ausgangssprache in einen
Satz oder eine Wortfolge in einer Zielsprache mit den Verfahrensschritten
von Anspruch 9 erreicht.
-
Es wird also ein verbessertes System
und ein verbessertes Verfahren zur direkten Sprachübersetzung geoffenbart.
Gemäß der vorliegenden
Erfindung besteht die Übersetzungseinrichtung
aus einer Mehrzahl von Umsetzern endlicher Zustände, welche als Hauptumsetzer
bezeichnet werden, einem zweisprachigen Lexikon, welches Wortpaare
aus den beiden Sprachen bestimmten Hauptumsetzern zuordnet, einer
Parametertabelle, welche "Aufwands"-Werte für die durch
die Umsetzer unternommenen Aktionen beschreibt, sowie einer Übersetzungssuchmaschine
zum Auffinden der Übersetzung
mit dem geringsten Aufwand für
eine eingegebene Redewendung oder einen eingegebenen Satz. Die Aufwendungen
von Aktionen beschreiben lexikalische Zuordnungen in der Ausgangssprache
und der Zielsprache; ein geringerer Aufwand entspricht einer stärkeren lexikalischen
Zuordnung.
-
Die Hauptumsetzer, welche gemäß der vorliegenden
Erfindung verwendet werden, sind von den Standard-Umsetzern endlicher
Zustände
zu unterscheiden, wie sie im Stande der Technik bekannt sind. Standard-Umsetzer
sind typischerweise auf die Umformung einer einzigen eingegebenen
Folge in eine einzige Ausgangsfolge beschränkt, wobei üblicherweise die eingegebene
Folge von links nach rechts gelesen wird. Die vorliegenden Hauptumsetzer
haben die Fähigkeit,
ein Paar von Folgen zu lesen, und zwar eine mit Abtastung nach links
und die andere mit Abtastung nach rechts, um dann ein Paar von Folgen
zu schreiben, und zwar die eine nach links und die andere nach rechts.
-
Jeder Hauptumsetzer ist einem Paar
von Hauptwörtern
mit entsprechenden Bedeutungen in der Ausgangssprache und der Zielsprache
zugeordnet. Ein Hauptwort ist typischerweise ein Wort, welches Träger der grundsätzlichen
oder wichtigsten Bedeutung einer Redewendung ist. Hauptwörter stehen
in Zuordnung mit abhängigen
Wörtern,
welche die Hauptwörter
von Nebensätzen
der Redewendung oder des Satzes sind. Die Aufgabe eines Umsetzers
für eine
bestimmte Hauptwortpaarung ist (i) abhängige Wörter zur Rechten und zur Linken
des Hauptwortes der Ausgangssprache zu erkennen, und (ii) entsprechende
abhängige
Wörter
zur Linken und zur Rechten des Hauptwortes der Zielsprache in dem
zu bildenden Zielsprachensatz vorzuschlagen.
-
Ein zweisprachiges Lexikon mit zugehörigen Hauptumformern
gestattet viele mögliche Übersetzungen
eines Satzes. Dies resultiert aus vielen verschiedenen Wahlmöglichkeiten
bezüglich
Eingaben von dem Lexikon einschließlich Wahlmöglichkeiten von Zielsprachenwörtern, Wahlmöglichkeiten
von Hauptwörtern
in den Sätzen
oder Redewendungen im Ausgangssprachensatz und Wahlmöglichkeiten
von abhängigen
Wörtern
in den Ausgangssprachenredewendungen und Zielsprachenredewendungen.
Die Parametertabelle liefert verschiedene "Aufwandswerte" für
solche Auswahlen, welche die zugehörigen Anstrengungen reflektieren,
d. h., welche die Wahrscheinlichkeit des gleichzeitigen Auftretens
für solche
Ausgangssprachen-Zielsprachen-Wortübersetzungen und für Hauptwort-Abhängigkeitswort-Wortpaare
in jeder der beiden Sprachen anzeigen. Somit kann der Gesamtübersetzungsaufwand
als die Summe der Aufwände
für sämtliche
Wahlvorgänge
definiert werden, welche zu der betreffenden Übersetzung führen. Die Übersetzung
mit dem geringsten Gesamtaufwand wird als der Ausgang der Übersetzungseinrichtung
gewählt,
ist also die Übersetzung.
-
Die Suche nach der Übersetzung
mit dem geringsten Aufwand wird durch die Übersetzungssuchmaschine durchgeführt. Die Übersetzungssuchmaschine
verwendet die Hauptumsetzer zum rekursiven Übersetzen zunächst des
Hauptwortes, dann der Hauptwörter
jeder der abhängigen
Sätze,
und danach ihrer abhängigen
Bestandteile u. s. w. Dieser Vorgang wird hier als rekursive Hauptumsetzung
bezeichnet.
-
Das vorliegende System und die vorliegenden
Verfahren bedürfen
nicht einer unmittelbaren Modellbildung von Wortpositionen, wodurch
der Nachteil des Verfahrens vermieden wird, das von Brown vorgeschlagen ist.
Weiter sind das vorliegende System und die vorliegenden Verfahren
rein lexikal. Als solches bedarf das erfindungsgemäße Verfahren
im Unterschied zu dem Verfahren, welches von Wu vorgeschlagen ist,
keiner syntaktischen Regeln. Vielmehr wird die beste Übersetzung
auf der Basis von Wort-zu-Wort-Zuordnungsstärken in
der Ausgangssprache und in der Zielsprache gewählt. Weiter gestatten die Hauptumsetzer,
die bei der vorliegenden Erfindung verwendet werden, daß die Wörter in
dem Zielsprachensatz beliebig weit weg von ihrer ursprünglichen
Stellung in dem Ausgangssprachensatz stehen, ohne daß eine entsprechende
Erhöhung
in der Zahl von Modellzuständen
auftritt.
-
Kurze Beschreibung
der Zeichnungen
-
Weitere Aspekte der Erfindung werden
aus der folgenden detaillierten Beschreibung bestimmter Ausführungsformen
der Erfindung in Verbindung mit den begleitenden Zeichnungen noch
deutlicher. In diesen stellen dar:
-
1 eine
bevorzugte Ausführungsform
einer Übersetzungseinrichtung
gemäß der vorliegenden
Erfindung;
-
2 ein
Flußdiagramm
eines Verfahrens zur Übersetzung
gemäß der vorliegenden
Erfindung unter Verwendung der Übersetzungseinrichtung
nach 1
-
3 eine
rekursive Umsetzung einer Ausgangssprachenfolge in eine Zielsprachenfolge;
-
4 beispielsweise
mögliche
Hauptumsetzeraktionen für
zwei Hauptumsetzer, welche zur Erzeugung eines Teiles der Umsetzung
gemäß 3 verwendet werden;
-
5 ein
Flußdiagramm,
welches eine Ausführungsform
der Übersetzungssuchmaschine
wiedergibt; und
-
6 ein
Verfahren, durch welches eine Zielsprachenfolge als die Übersetzung
von dem Ausgang der Übersetzungssuchmaschine
ausgewählt
wird.
-
Detaillierte
Beschreibung
-
Die vorliegende Erfindung betrifft
verbesserte Systeme und Verfahren zur automatischen Sprachübersetzung.
Es versteht sich, daß die
vorliegende Erfindung sowohl auf geschriebene als auch auf gesprochene Sprache
anwendbar ist. Als solche kann die vorliegende Erfindung als die Übersetzungskomponente
eines Übersetzungssystems
für gedruckten
Text eines Handschriftübersetzungssystems
oder eines Übersetzungssystems
für gesprochene
Sprache verwendet werden. Darüber
hinaus betrifft die vorliegende Erfindung die natürliche Sprachübersetzung
sowie auch die Übersetzung
anderer Arten von Sprachen, beispielsweise Programmiersprachen und
dergleichen.
-
Zwecks Klarheit der Erläuterung
sind die beispielsweisen Ausführungsformen
der vorliegenden Erfindung in einzelnen funktionellen Blocksymbolen
dargestellt. Die Funktionen dieser Blocksymbole können unter Verwendung
entweder anteilsmäßig benutzter
Hardware oder zugeordneter Hardware verwirklicht werden, einschließlich, jedoch
nicht im beschränkenden
Sinne, von Hardware, welche bestimmte Software durchführt. Erläuternde
Ausführungsformen
können
Digitalsignal-Verarbeitungs-Hardware
(DSP), Festwertspeicher (ROM) zur Speicherung von Software zur Durchführung der
unten diskutierten Operationen, Speicher wahlfreien Zugriffs (RAM)
zur Speicherung von DSP-Ergebnissen und zur Speicherung von Daten,
die durch die Übersetzungseinrichtung
für eine
bestimmte Übersetzung
verwendet werden, und nichtflüchtige
Speichermittel zur Speicherung des vollständigen Datensatzes enthalten,
nämlich
eines vollständigen
Lexikons, Aufwandsparameter und dergleichen, wie sie von der Übersetzungseinrichtung
verwendet werden.
-
Im Zuge der vorliegenden Beschreibung
wird die Erläuterung
der Erfindung in Abstimmung mit entsprechenden Beschreibungen des
Standes der Technik vorgenommen. Beispielsweise werden Operationen an
einem „Ausgangssprachensatz" oder einer „Ausgangssprachenwortfolge" oder einer „Ausgangssprachenredewendung" zur Erzeugung eines „Zielsprachensatzes" oder einer „Zielsprachenwortfolge" oder einer „Zielsprachenredewendung" durchgeführt. Es
versteht sich, daß solche
Ausgangssprachen- und Zielsprachensätze, -wortfolgen oder -redewendungen
als Signale vorliegen können.
Solche Signale werden durch die oben beschriebene Hardware bearbeitet.
Somit sind gemäß dem hier
gewählten
Gebrauch die Ausdrücke „Ausgangssprachensatz", „Ausgangssprachenwortfolge" und dergleichen
mit dem Ausdruck „Eingangssignal" austauschbar. In
gleicher Weise sind die Ausdrücke „Zielsprachensatz", „Zielsprachenredewendung" und dergleichen
gegen den Ausdruck „Ausgangssignal" austauschbar.
-
Definitionsgemäß wird hier der Ausdruck „Hauptwort" typischerweise für das Wort
gebraucht, welches die grundsätzlichste
oder wichtigste Bedeutung einer Redewendung für die Übersetzung trägt. Beispielsweise kann
das Haupt-Tätigkeitswort
eines Satzes als das Hauptwort ausgewählt werden. Es versteht sich
jedoch, daß die
vorliegenden Verfahren nicht irgendeine linguistische Interpretation
des Ausdrucks erfordern. Die abhängigen
Wörter
eines Hauptwortes sind die Hauptwörter von Unter-Redewendungen oder
Nebensätzen
der Redewendung oder des Satzes. Beispielsweise können die
abhängigen
Wörter
eines Verbums, das einen Satz prägt,
das Hauptsubstantiv des Satzsubjektes des Satzes und auch das Hauptsubstantiv
des Satzobjektes des Satzes sein. Gemäß dem hier geübten Gebrauch
können
die Ausdrücke „Wort", „Symbol" und „Zeichen" gegeneinander vertauscht
werden, außer,
wenn dies anders angegeben ist.
-
1 ist
die Darstellung einer bevorzugten Ausführungsform einer Übersetzungseinrichtung
1 nach der vorliegenden Erfindung und 2 ist
ein Flußdiagramm
eines Ausführungsbeispiels
eines Übersetzungsverfahrens
1a unter Verwendung der Übersetzungseinrichtung
1 nach 1. Die Übersetzungseinrichtung
1 enthält
einen fakultativ vorgesehenen Ausgangssprachen-Vorprozessor 5,
eine Übersetzungssuchmaschine 10,
eine Mehrzahl von Hauptumsetzern 13, ein zweisprachiges
Lexikon 15, eine Parametertabelle 17 und einen
Zielsprachen-Wortfolgewähler 20.
-
In dem Schritt 101 wird
ein Ausgangsspracheneingang für
die Übersetzung
bereitgestellt. Wie zuvor beschrieben kann die Ausgangssprache geschriebene
oder gesprochene Sprache sein. In einer bevorzugten Ausführungsform
wird der Ausgangsspracheneingang in eine Mehrzahl von Wortpositionsaufzeichnungen
umgeformt, wie dies im Schritt 105 angedeutet ist. Jede
dieser Wortpositionsaufzeichnungen besteht aus einem Ausgangssprachenwort
w, zwei Positionsanzeigern i und j und einer Aufwandsaufzeichnung
co, also beispielsweise (w, i, j, co). Die Wortpositionsaufzeichnung zeigt an,
daß ein
Wort w von der Position i zur Position j in dem Eingang mit einer
Sicherheit vorhanden ist, welche durch die Aufwandsaufzeichnung
co angezeigt wird, wobei ein niedriger Aufwand
eine höhere
Sicherheit anzeigt.
-
Das Wortpositions-Aufzeichnungsformat
wird verwendet, da es eine kompakte Möglichkeit der Darstellung möglicher
Eingangswortfolgen von einer Zahl von Ausgangssprachen-Vorverarbeitungskomponenten 5 darstellt.
Solche Eingangswortfolgen können
die Gestalt von einfachem Text oder der Ausgang eines Spracherkennungsgerätes oder
der Ausgang von Texttrennungseinrichtungen für Sprachen, wie chinesisch,
haben, welche keine Abstände
zwischen den Wörtern
vorsehen. In dem Falle von einfachem Text ist eine Aufzeichnung
für jedes
Eingangswort vorhanden und die Aufwandsaufzeichnung co ist
für alle
Aufzeichnungen Null. Somit ist die Aufzeichnung für eine Eingangswortfolge "w1,
w2 ... wn" das folgende: (w1, 1, 2, 0), (w2,
1, 2, 0), ... (wn n – 1, n, 0).
-
Für
Vorverarbeitungseinrichtungen 5 mit einem bestimmten Grad
der Ungewißheit über die
Identität der
Eingangswörter
oder ihrer Position, beispielsweise für ein Spracherkennungsgerät oder einen
Segmentierer für
chinesischen Text, sind typischerweise mehr Eingangsaufzeichnungen
vorhanden als für
einfachen Text. In diesem Falle werden die Eingangs-Wortpositionsaufzeichnungen
vorzugsweise als eine Wortgitterdatenstruktur organisiert, welche
eine bekannte Konstruktion zur Speicherung einer Sammlung möglicher
Wortfolgen ist, welche zuläßt, daß sich die
Folgen jeweils Unterfolgen teilen. Im Falle der Spracherkennung
beispielsweise können
die Indizies i und j jeweils Zeitpunkten im Eingangssprachsignal
entsprechen und die Aufwandsaufzeichnung co zeigt
den Grad an, mit welchem das Eingangssprachsignal zwischen i und
j einem akustischen Bezugsmuster für w entspricht. Ein solches
Spracherkennungssystem ist in der Anmeldung Seriennummer 08/331,874,
eingereicht am 10. April 1996 beschrieben, welche auf den Zessionar
der vorliegenden Erfindung übertragen
ist und hier durch Bezugnahme eingefügt sei.
-
Im Falle der Übersetzung gesprochener Sprache
kann der Eingang zu der Übersetzungssuchmaschine 10 entweder
die Mehrzahl von Wortfolgehypothesen sein, welche durch das akustische
Modell der Spracherkennung erzeugt werden, oder alternativ die „beste" Wortfolge, welche
aus der Mehrzahl von Wortfolgehypothesen durch das Sprachmodell
der Spracherkennung ausgesucht worden ist. Es sei nochmals gesagt, daß dann,
wenn der Eingang eine Mehrzahl von Wortfolgehypothesen ist, diese
vorzugsweise als ein Wortgitter organisiert werden, und dann, wenn
der Eingang eine einzige „beste" Wortfolge ist, diese
in der oben beschriebenen Weise als Wortpositionsaufzeichnungen
organisiert wird.
-
Außerdem muß eine Gruppe von Indizes I
für den
Start des Eingangs und J für
das Ende des Eingangs definiert werden. In oben vorgelegten Beispiel
von einfachem Text gilt I = {0} und J = {n}. Jeder „Weg" durch das Wortgitter
von einem Bestandteil von I zu einem Bestandteil von J entspricht
einer möglichen
Eingangs-Ausgangssprachen-Wortfolge, welche den gesamten Eingang überspannt.
Der Ausgang der Übersetzungseinrichtung
ist eine Zielsprachen-Wortfolge „v1,
v2 ...",
welche die Übersetzung
mit dem geringsten Aufwand für
jede solche Wortfolge ist, welche die gesamte Eingabe überspannt.
-
Eine detaillierte Beschreibung der
verschiedenen Ausgangssprachen-Vorprozessoren 5 sei hier
nicht gegeben; solche Vorprozessoren sind dem Fachmann auf diesem
Gebiete bekannt. Im wesentlichen wandelt der Ausgangssprachen-Vorprozessor 5 die
geschriebene oder gesprochene Sprache für die Übersetzung in ein Format um,
das für
die Verwendung durch die Übersetzungssuchmaschine 10 geeignet
ist.
-
Die Hauptumsetzer 13 sind
Umsetzer endlicher Zustände.
Jeder Hauptumsetzer 13 ist einem Paar von Hauptwörtern zugeordnet,
welche entsprechende Bedeutungen in der Ausgangssprache und der
Zielsprache haben. Beispielsweise kann ein Hauptwort ein englisches
Tätigkeitswort
w sein und das andere Hauptwort kann ein chinesisches Tätigkeitswort
v sein. Für
die Übersetzung
von Englisch in Chinesisch ist es der Zweck eines Hauptumsetzers 13 für w und
v, die abhängigen
Wörter
von w zu seiner linken und seiner rechten in der Ausgangssprache
(„die
linke Ausgangssprachenfolge" und „die rechte
Ausgangssprachenfolge")
zu erkennen oder zu lesen und entsprechende abhängige Wörter zur Linken und zur Rechten
von v in der Zielsprachenfolge, welche erzeugt wird, vorzuschlagen
(„die
linke Zielsprachenfolge" und „die rechte
Zielsprachenfolge"). Beim
Vorschlag, welcher Folge Zielsprachen-Abhängigkeitswörter zuzuschreiben sind, berücksichtigt
der Hauptumsetzer 13 die gewünschte Wortordnung für die Zielsprache.
Die Hauptwörter
jeder der abhängigen Redewendungen
werden entsprechend übersetzt,
und dann deren abhängige
Wörter,
u. s. w., was durch die Übersetzungssuchmaschine
geschieht. Dieser Vorgang wird hier als rekursive Hauptumsetzung
bezeichnet.
-
Die rekursive Hauptumsetzung ist
in 3 dargestellt, wobei
ein Ausgangssprachensatz „w1w2w3w4w5w6w7w8" in einen Zielsprachensatz „v5v6v2v3v4v10v8v9v7" umgesetzt wird.
Die dem obersten Niveau entsprechenden Hauptwörter sind w4 und
v4 und die Paare von entsprechenden abhängigen Wörtern sind
(w3, v3), (w6, v6) und (w7, v7). Im nächsten Niveau
haben w6 und v6,
ein einziges entsprechendes Paar von abhängigen Wörtern (w5,
v5), u. s. w. Es sei bemerkt, daß in dem
in 3 gezeigten Beispiel
die Wörterordnung
des Zielsprachensatzes von derjenigen des Ausgangssprachensatzes
verschieden ist. Dies kann geschehen, da die Wörterordnung sich abhängig von
der Sprache ändern
kann.
-
Der Hauptumsetzer 13 ist
durch eine endliche Gruppe von Zuständen Q und eine Umsetzungsaktionstabelle
gekennzeichnet, welche mögliche
Aktionen beschreibt, welcher der Hauptumsetzer 13 unternehmen kann.
Ein mögliche
Aktion enthält
eine Startaktion; der Hauptumsetzer kann mit einem Zustand q ϵ Q
mit leeren Zielsprachenfolgen starten. Eine zweite mögliche Aktion
ist eine Stopaktion; der Hauptumsetzer kann in einem Zustand q ϵ Q
abstoppen, wobei in diesem Falle beide Zielsprachenfolgen als vollständig angesehen
werden. Eine andere mögliche
Aktion ist ein Übergang.
Ein Übergang
tritt auf, wenn in einem Zustand q der Hauptumsetzer 13 nach
Lesen eines Symbols w' aus
einer der Eingangsfolgen und Schreiben eines Symbols v' in einer der Zielsprachenfolgen
in einen Zustand q' eintreten
kann.
-
Die Positionen, aus denen Symbole
abgelesen werden und Symbole geschrieben werden, sind auch in den Übergängen spezifiziert.
Um einen Übergang
einer Ausgangssprachenfolge in eine Zielsprachenfolge unterschiedlicher
Länge zuzulassen,
läßt man die
Eingangs- und Ausgangssymbole w' bzw.
v' die leere Wortfolge
sein, die mit ϵ bezeichnet ist.
-
Wie zuvor beschrieben sind die Hauptumsetzer 13,
die in der vorliegenden Erfindung verwendet werden, von „Standard"-Umsetzern endlicher
Zustände,
wie sie in der Technik bekannt sind, verschieden. Die letzteren
sind typisch darauf beschränkt,
eine einzelne Eingangsfolge in eine einzige Ausgangsfolge umzusetzen, wobei üblicherweise
eine Lesung der Eingangsfolge und ein Schreiben der Ausgangsfolge
von links nach rechts geschieht. Verglichen mit solchen Umsetzern
ist ein Hauptumsetzer gemäß der vorliegenden
Erfindung mit derselben Anzahl von Zuständen wie ein „Standard"-Umsetzer in der
Lage, einen größeren Grad
von Divergenz zwischen der Ordnung von Wörtern in der Eingangswortfolge
und in der Ausgangswortfolge zu erzeugen. Diese zusätzliche
Flexibilität
bezüglich
der Ordnung resultiert aus der Fähigkeit,
jedes Ausgangssymbol, d. h., Zeichen, Identifikationen, Wörter und
dergleichen nach Bedarf in die linke oder die rechte Ausgangswortfolge
zu schreiben. Ein zusätzlicher
Vorteil der vorliegenden Hauptumsetzer besteht darin, daß sie von einem Hauptwort
einer Redewendung nach außen
arbeiten, was typischerweise in genaueren Übersetzungen resultiert, da
die Verarbeitung mit einem weniger allgemeinen Wort starten kann,
was die Möglichkeiten
der Übersetzung
beschränkt.
-
In einer bevorzugten Ausführungsform
einer Übersetzungseinrichtung
nach der vorliegenden Erfindung sind die Lese- und Schreibpositionen
für Übergänge auf
bestimmte "Richtungen" beschränkt. Entsprechend
den vier Ausgangssprachen-Zielsprachen-Kombinationen
(→,→), (←,→), (→,←), (←,←) der beiden
Ausgangssprachenfolgen und der beiden Zielsprachenfolgen, welche
in 4 gezeigt sind, kann
im einzelnen ein Übergang
ein Schreiben zum rechten Ende der rechten Zielsprachenfolge 50 bezeichnet
mit →,
oder ein Schreiben zum linken Ende der linken Zielsprachenfolge 55 hin,
bezeichnet mit ←,
festlegen. In entsprechender Weise kann ein Übergang ein Lesen des nächsten Symbols
der rechten Ausgangssprachenfolge 40 vom linken Ende dieser
Folge nach rechts, bezeichnet mit →, festlegen, oder ein Lesen
des nächsten
Symbols der linken Ausgangssprachenfolge 45 vom rechten
Ende dieser Folge nach links gehend, bezeichnet mit ←, festlegen.
In dieser bevorzugten Ausführungsform
gibt es also vier Variationen von Übergängen. Es versteht sich, daß bei anderen
Ausführungsformen
andere Variationen von Übergängen vorgesehen
sein können.
Beispielsweise gibt es in einer alternativen Ausführungsform
acht Variationen von Übergängen, wobei
die Hauptumsetzer von den anderen Enden der Folgen aus lesen oder
schreiben.
-
Eintragungen in dem zweisprachigen
Lexikon 15 sind Aufzeichnungen der Form (w, v, M) Solch
eine Eintragung erklärt,
daß das
Ausgangssprachenwort w in das Zielsprachenwort v übersetzt
werden kann, und daß die
abhängigen
Wörter
von dem Wort w in die abhängigen
Wörter
des Wortes v entsprechend dem Hauptumsetzer M umgesetzt werden können. Wenn
eine solche Eintragung von der Übersetzungseinrichtung
1 benutzt wird, dann hat die Eintragung den Hauptumsetzer M "aktiviert".
-
Wie oben bemerkt kann in einer zweisprachigen
Eintragung eines der Wörter
w oder v die leere Folge ε,
anstatt eines normalen Wortes im Vokabular der Sprache, sein. Eintragungen
mit einer leeren Folge werden für Übersetzungen
verwendet, bei denen ein Wort in einer Sprache ohne ein entsprechendes
Wort in der anderen Sprache vorliegt. Beispiele umfassen die Einführung eines
Artikels oder die Übersetzung
eines Ausgangssprachenwortes in zwei Zielsprachenwörter. Im
vorliegend gewählten
Gebrauch können
die Ausdrücke "Wort", "Folge" und "Redewendung", wenn nicht anders
angegeben, "leere
Folge" bedeuten.
In einer bevorzugten Ausführungsform
ist der Hauptumsetzer M einer lexikalen Eintragung mit einer leeren
Folge darauf beschränkt,
daß er
nur einen einzigen Zustand qo und keine Übergänge hat.
-
Wie zuvor beschrieben, erfordert
die Umformung eines Paars von Ausgangssprachenfolgen in ein Paar
von Zielsprachenfolgen eine Reihe von Aktionen durch einen Hauptumsetzer 13.
Diese Aktionen umfassen eine Startaktion, eine Reihe von Null oder
mehr Übergängen und
eine Stoppaktion. Ein Aufwandswert kann jeder dieser Aktionen zugeordnet
werden. Eine Übersetzungseinrichtung
gemäß der vorliegenden
Erfindung erzeugt mögliche Übersetzungen
durch Anwendung des Hauptumsetzers 13 zur Umwandlung der
abhängigen
Wörter
des Hauptwortes des Ausgangssprachensatzes in die abhängigen Wörter des
Hauptwortes des Zielsprachensatzes und durch rekursives Umsetzen
der abhängigen
Wörter
dieser abhängigen
Wörter
unter Verwendung der Übersetzungssuchmaschine 10.
Ein Übersetzungsgesamtaufwand
kann als die Summe der Aufwände
sämtlicher
Aktionen definiert werden, welche von allen Hauptumsetzern unternommen
werden, die bei der Übersetzung
involviert waren. Die Übersetzung
mit dem niedrigsten Gesamtaufwand wird als der Ausgang der Übersetzungseinrichtung,
also die Übersetzung,
gewählt.
Der Aufwand der verschiedenen Aktionen, welche durch die verschiedenen
Hauptumsetzer 13 unternommen werden, sind in der Paramtertabelle 17 enthalten.
-
Vorzugsweise berücksichtigen die Aufwendungen,
welche in der Parametertabelle 17 für einen Hauptumsetzer M festgehalten
sind, die Identität
des Ausgangssprachenwortes w und des Zielsprachenwortes v in der
Eintragung des zweisprachigen Lexikons, welche zu der Aktivierung
von M geführt
hat. Im einzelnen ist der Aufwand einer Startaktion feine Funktion
von M, w, v und dem Startzustand q, d. h., also f(M, w, v, q). Der Aufwand
eines Überganges
g ist eine Funktion von M, w, v, von Zuständen q und q' vor und nach dem Übergang,
des Ausgangssprachenabhängigkeitswortes
w' und des Zielsprachenabhängigkeitswortes
v' und den Lese-
und Schreibrichtungen d1 und d2,
somit also g(M, w, v, q, q',
w', v', d1,
d2). Der Aufwand einer Stoppaktion h ist
eine Funktion von M, w, v und des Stoppzustandes q, somit also h(M,
w, v, q).
-
Die Aufwände in der Parametertabelle 17 enthalten
nicht nur Aufwände
für die
zutreffende Übersetzung
eines Ausgangssprachenwortes in ein entsprechendes Zielsprachenwort,
sondern auch den Aufwand der Zuordnungen zwischen vom Hauptwort
abhängigen
Wörtern
in jeder der beiden Sprachen. Die Stärken dieser Zuordnungen, d.
h., die Wahrscheinlichkeit des gleichzeitigen Auftreffens solcher
Wörter,
kann die Auswahl des Zielsprachensatzes beeinflussen, wobei eine
stärkere
Zuordnung durch einen geringeren Aufwand angezeigt wird.
-
Die 5A und 5B zeigen Beispiele für mögliche Übergänge für den Hauptumsetzer
M1 bzw. M2 zur Erzeugung
eines Teils der Wortfolgenumsetzung, welche in 3 gezeigt ist. Die Zustände sind
als Kreise dargestellt und die Übergänge als
Pfeile mit Angabe der Ausgangssprachenrichtung und Zielsprachenrichtung. Zustände, bei
welchen Stoppaktionen auftreten können, sind als Doppelkreise
eingezeichnet. Die relevanten Parametertabelleneintragungen, welche
für diese
Umsetzung erforderlich sind, sind außerdem unten in Tabelle 1 dargestellt.
Die Aktionen von M1 formen die abhängigen Wortfolgen
für w4 in diejenige für v4 um,
und die Aktionen für
M2 wandeln die abhängigen Ausgangssprachen-Wortfolgen
für w1 in diejenige für v1 um.
-
-
Es sei auf 5A und Tabelle 1 Bezug genommen. Der
Hauptumsetzer M1 mit den Zuständen q1, q2 und q3, wird durch den lexikalen Eintrag (w4, v4, M1)
aktiviert und startet im Zustand q1 mit
dem Aufwand c1. Ein Übergang von q1 nach
q2 mit den Richtungen (←,←) und dem Aufwand c3 liest das Ausgangssprachenwort w3 mit Richtung nach links und schreibt das
Zielsprachenwort v3, ebenfalls mit Richtung
nach links. Ein Übergang von
q2 nach q3 mit Richtungen
(→,←) liest
das Ausgangssprachenwort w6 nach rechts
und schreibt das Zielsprachenwort v6 nach
links. Ein dritter Übergang
vom Zustand q3 zurück zum Zustand q3 mit
Richtungen (→,→) liest
das Ausgangssprachenwort w1 nach rechts
und schreibt das Zielsprachenwort v1 ebenfalls
nach rechts. Der Umsetzer M1 unternimmt
dann eine Stoppaktion im Zustand q3 mit
dem Aufwand c8.
-
Es sei nun auf 5B in Verbindung mit Tabelle 1 Bezug
genommen. Der Hauptumsetzer M2 wird durch
einen Eintrag (w7, v7,
M2) aktiviert und startet im Zustand q4 mit dem Aufwand c2.
M2 unternimmt einen Übergang zu dem Zustand q5 und liest die leere Folge ε und schreibt
das Zielsprachenwort v9 nach links. Der Hauptumsetzer
macht dann einen Übergang
zu dem Zustand q6 und liest das Ausgangssprachenwort
w8 nach rechts und schreibt das Zielsprachenwort
v8 nach links. Der Umsetzer M2 unternimmt
dann eine Stoppaktion im Zustand q6 mit
dem Aufwand c9.
-
Es sein nun zu 2 zurückgekehrt.
Es wird in dem Schritt 110 ein Umsetzungsgitter basierend
auf der Eingabe der Ausgangssprache erzeugt. Das Umsetzungsgitter
wird durch die Übersetzungssuchmaschine 10 erzeugt.
Der Zielsprachenwortfolgewähler 20 wählt "die Übersetzung" von dem Ausgang
der Suchmaschine 10. 6 zeigt
eine Ausführungsform
eines Verfahrens, mit welchem die Übersetzungssuchmaschine 10 das
Umsetzungsgitter konstruiert.
-
Wie im Schritt 200 angedeutet,
werden die Wortpositionsaufzeichnungen oder das Wortgitter, welche durch
den Ausgangssprachen-Vorprozessor 5 erzeugt worden sind,
empfangen. Das Verfahren beginnt mit einem Initialisierungsschritt,
welcher in den einzelnen Schritten 205 bis 220 durchgeführt wird,
welche zusammengefaßt
durch die Bezugszahl 230 bezeichnet sind. Die Initialisierung
findet in der Weise statt, daß eine Gruppe
von Umsetzungsaufzeichnungen (M, w, v, i, j, qo,
v, c2), die aus den Wortpositionsaufzeichnungen
entwickelt wurden, zu einer Reihe zusammengesetzt werden. Die Gruppe
von Umsetzungsaufzeichnungen entspricht den Aktivierungen sämtlicher
Eintragungen des zweisprachigen Lexikons (w, v, M) für das Ausgangssprachenwort
w für jede
eingegebene Wortpositionsaufzeichnung (w, i, j, co).
Das Aktivieren einer Eintragung des zweisprachigen Lexikons, d.
h., das Aktivieren eines Hauptumsetzers M, besteht in dem Aufsuchen
der Eintragung in dem zweisprachigen Lexikon 15, welches
in einem Speicher festgehalten ist. Die Parametertabelle 17 enthält den Aufwand
c1 = f(M, w, v, qo)
zum Starten des Hauptumsetzers M in dem Zustand qo und
c2 = c1 + co. Sämtliche
Hauptumsetzer für jedes
Wort w in dem Wortgitter oder den Wortpositionsaufzeichnungen werden
durch Schleifen aktiviert, die durch Entscheidungsblöcke 215 und 205 eröffnet werden.
-
Gemäß der vorliegenden Erfindung
werden nur diejenigen Hauptumsetzer aktiviert, welche zu den Ausgangssprachenwörtern in
den Eingangs-Wortpositionsaufzeichnungen
oder dem Wort Gitter in Beziehung stehen. Mit anderen Worten ist
es gemäß der vorliegenden
Erfindung nicht notwendig, das gesamte Lexikon in einen Speicher
wahlfreien Zugriffs (RAM) zu laden. Im Gegensatz hierzu erfordern
es typische Übersetzungseinrichtungen
nach dem Stand der Technik, daß ihre
gesamten Sammlungen an grammatikalischen Regeln, Übersetzungsregeln
und dergleichen in einen RAM-Speicher geladen werden. Das vorliegende Übersetzungssystem
und das hier angegebene Übersetzungsverfahren
können
somit unter Verwendung von Rechnern verwirklicht werden, welche
einen begrenzten RAM-Speicher haben.
-
Die verbleibenden Schritte 240 bis 295 bilden
eine Schleife, welche Bestandteile aus der Reihe verbraucht und
neue Umsetzungsaufzeichnungen erzeugt. Der Entscheidungsblock 240 fragt
ab, ob die Folge leer ist. Ist sie das, dann sind alle Eintragungen
niedrigen Aufwandes, welche aus den Ausgangssprachenwörtern entwickelt
werden können,
soweit wie möglich „ausgedehnt", d. h., alle anwendbaren Übergänge sind durch
die Hauptumsetzer ausgeführt
worden. Das Umsetzungsgitter, d. h., die Sammlung von Umsetzungsaufzeichnungen,
welche durch die Übersetzungssuchmaschine 10 entwickelt
worden sind, sind dann in dem Zielsprachen-Wortfolgenwähler 20 nachverarbeitet
worden, um die beste Übersetzung
auszusuchen, wie in dem Schritt 300 angegeben ist.
-
Ist die Reihe oder Folge nicht leer,
dann setzt sich die Verarbeitung mit dem Schritt 245 fort,
in welchem eine Umsetzungsaufzeichnung aus der Reihe entfernt wird.
Gemäß einer
bevorzugten Ausführungsform
des vorliegenden Verfahrens wird der Aufwand c der Umsetzungsaufzeichnung
mit der gegenwärtigen
Aufzeichnung des niedrigsten Aufwandes im Schritt 250 verglichen.
Die Aufzeichnung niedrigsten Aufwandes wird in einer Hash-Tabelle
identifiziert. Die Eintragungen in der Hash- Tabelle umfassen einen Hash-Schlüssel (w,
v, i, j, q, M), und einen Hash-Wert, der ein Zeiger zu der Umsetzungsaufzeichnung
ist. Die Hash-Tabelle hält
den Zeiger zu der Umsetzungsaufzeichnung niedrigsten Aufwandes fest,
welche zwischen i und j unter w in dem Zustand q der Maschine oder
des Hauptumsetzers M gefunden wird. Die Information, welche den Hash-Schlüssel bildet,
wird als „Vollzustand" bezeichnet und c
wird als „Aufwand
des Vollzustandes" bezeichnet.
Wenn der Aufwand c der Umsetzungsaufzeichnung, welche betrachtet
wird („gegenwärtige Aufzeichnung") nicht kleiner als
der Vollzustandsaufwand ist, dann wird die gegenwärtige Aufzeichnung
verworfen oder ausgeschieden. Die Verarbeitung kehrt dann zu dem
Schritt 240 zurück,
um festzustellen, ob eine andere Umsetzungsaufzeichnung verfügbar ist.
Wenn die gegenwärtige
Aufzeichnung einen niedrigeren Aufwandswert hat als die Aufzeichnung
niedrigsten Aufwandes, welche in der Hash-Tabelle identifiziert
wird, dann wird sie in dem Schritt 255 zu dem Umsetzungsgitter
hinzugefügt.
Während
der Schritt 250 in dem hier angegebenen Verfahren nicht
als Schritt erforderlich ist, verbessert er die Wirksamkeit, da
er die Erzeugung von Umsetzungsaufzeichnungen vermeidet, welche
später
ausgeschieden werden.
-
Wenn nach Hinzufügen der Umsetzungsaufzeichnung
zu dem Umsetzungsgitter in dem Schritt 255 die Umsetzungsaufzeichnung
an eine andere Satzkonstruktion angrenzt, dann kann ein Kombinationsvorgang stattfinden.
Der Entscheidungsblock 260 fragt daher nach, ob eine Kombination
mit weiteren Redewendungen oder Satzkonstruktionen stattfinden soll
oder nicht. Ist dies nicht der Fall, dann kehrt die Verarbeitung
zurück zu
dem Entscheidungsblock 240. Wenn weitere Satzteile vorhanden
sind, dann resultiert eine Kombinationsoperation, welche durch die
Schritte durchgeführt
wird, die zusammengenommen durch die Bezugszahl 280 identifiziert
sind, in einer neuen Aufzeichnung für eine ausgedehnte Teilübersetzung.
Die alten Aufzeichnungen bleiben noch in dem Gitter. Kombinationsoperationen
werden hier weiter unten im einzelnen beschrieben.
-
Für
jede neue Umsetzungsaufzeichnung, die aus den Kombinationsoperationen
resultiert, wird in dem Schritt 285 der Aufwand der Aufzeichnung
mit der Vollzustandsaufzeichnung in der Hash-Tabelle verglichen. Wenn
der Aufwand der neuen Aufzeichnung größer als der Vollzustandsaufwand
ist, dann kehrt die Verarbeitung zu dem Schritt 260 zurück, ohne
daß die
neue Aufzeichnung zu der Reihe hinzugefügt wird und damit praktisch
ausgeschieden wird. Wenn der Aufwand der neuen Aufzeichnung kleiner
als der Vollzustandswert ist, dann wird die Eintragung in der Hash-Tabelle
mit dem neuen Aufzeichnungszeiger im Schritt 290 aktualisiert
und die alte Vollzustandsaufzeichnung wird aus dem Umsetzungsgitter
entfernt. Die neue Aufzeichnung niedrigsten Aufwandes wird dann
zu der Reihe in dem Schritt 295 hinzugefügt und die
Verarbeitung schreitet mit dem Schritt 260 fort.
-
Nachdem die Reihe geleert worden
ist, setzt sich die Verarbeitung mit dem Schritt 300 fort,
in welchem der Zielsprachen-Wortfolgenwähler 20 die Wortfolge
mit dem niedrigsten Aufwand auswählt.
Ein Verfahren für eine
solche Auswahl der Wortfolge niedrigsten Aufwandes ist in 7 gezeigt. In einem ersten
Schritt 310 wird eine Liste von sämtlichen Aufzeichnungen des
Gitters (M, w, v, i, j, q, t, c) von einer anfänglichen Eingangsposition i ε I bis zu
einer End-Eingangsposition j ε J
angesammelt. Im Schritt 320 wird der Aufwand der Stopaktion, nämlich h(M,
w, v, q), der in der Parametertabelle 17 festgehalten ist,
zu jeder Aufzeichnung in der Liste hinzugefügt. Schließlich wird im Schritt 330 die
Wortfolge t aus der Aufzeichnung mit dem niedrigsten Gesamtaufwand
als die Übersetzung
ausgewählt.
Wenn es verschiedene solche überspannende
Aufzeichnungen mit demselben niedrigen Aufwand gibt, dann wird eine
dieser Aufzeichnungen auf Zufallsbasis ausgewählt.
-
Wie zuvor beschrieben kann, wenn
die Hinzufügung
einer Umsetzungsaufzeichnung zu dem Gitter sie in Nachbarschaft
zu einer anderen Umsetzungsaufzeichnung bringt, eine Kombinationsaktion
stattfinden, welche in einer erweiterten Teilübersetzung resultiert. Jede
Kombination entspricht einer Übergangsaktion
des Hauptumsetzers für
eine der zwei Umsetzungsaufzeichnungen. Im einzelnen ist die Kombination
ein Übergangsvorgang
für den
Umsetzer, der als Hauptumsetzer in der Kombination wirkt, während die
andere Aufzeichnung in der Kombination als abhängig wirksam ist. Ist sie erfolgreich,
dann resultiert die Kombinationsoperation in einer neuen Aufzeichnung
für eine
erweiterte Teilübersetzung,
wobei die alten Aufzeichnungen in dem Gitter verbleiben.
-
Die vier Kombinationen von Übergangsrichtungen,
welche zuvor beschrieben worden, entsprechen vier Arten von Umsetzungen
oder Kombinationsschritten aufgrund der Wahl einer linken oder rechten
Richtung in der Ausgangssprache und einer linken oder rechten Richtung
in der Zielsprache. Ein Beispiel eines Umsetzungsschrittes wird
für eine
Ausgangssprachenrichtung nach links (←) und eine Zielobjektrichtung
nach rechts (→)
beschrieben. Die anderen drei Arten von Umsetzungsschritten sind
analog, wobei die Ausgangssprachen-Satzaufzeichnungen und die Zielsprachen-Wortfolgeverkettungen
in geeigneter Weise umzukehren sind. Wenn das Umsetzungsgitter benachbarte
Teilübersetzungen
(M1, w1, v1, i, k, q1, t1, c1) und (M2, w2, v2,
k, j, q2, t2, c2) enthält
und die Aktionstabelle für
M2 einen Übergang von q2 nach
q'2,
mit der Ausgangssprachenrichtung ←, der Zielsprachenrichtung →, enthält und die
Parametertabelle 17 einen Aufwand c3 =
g(M2, w2, v2, w1, v1,
q2, q'2, ←, →) für diesen Übergang
mit dem abhängigen
Wort w1 in der Ausgangssprache und dem abhängigen Wort
v1 in der Zielsprache enthält und die
Aktionstabelle für
M1 eine Stopaktion im Zustand q1 enthält, für welche
die Parametertabelle 17 einen Aufwand c4 =
h(M1, w1, v1, q1) enthält, dann
wird eine neue erweiterte Teilübersetzung
(M2, w2, v2, i, j, q'2, t', c5)
erzeugt, worin: c5 = c1 +
c2 + c3 + c4 und t' die
Verkettung (t2, t1)
ist.
-
Mit anderen Worten, der Hauptumsetzer
M2 hat durch Aktivierung durch den Eintrag
des zweisprachigen Lexikons (w2, v2, M2) einen Übergang
erfahren, welcher eine abhängige
Ausgangssprachenwortfolge nach links (mit w1 als
Hauptwort) verbraucht hat und die Zielsprachenwortfolge t2 nach rechts durch eine Wortfolge t1 (mit v1 als Hauptwort)
erweitert hat, worin t1 die Übersetzung
der „verbrauchten" Wortfolge ist.
-
Der oben beschriebene Umsetzungsschritt
ist anzuwenden, außer
wenn das abhängige
Ausgangssprachenwort für
den Übergang,
beispielsweise w1 im obigen Beispiel, die
leere Folge, also ε ist.
Für solche Übergänge ist
nur die alte Aufzeichnung für
das Hauptwort, d. h., (M2, w2,
v2, ε,
k, j, q2, t2, e2) für
das Stattfinden des Übergangs
erforderlich. Die Parametertabelle 17 muß dann den
Aufwand t3 = g(M2,
w2, v2, ε, v1, q2, q'2, ←, →) enthalten
und das Lexikon muß den
Eintrag (ε,
v1, M1) enthalten.
Wie zuvor beschrieben hat dann der Hauptumsetzer M, nur einen einzigen
Zustand q0 und keine Übergänge. Die neue Aufzeichnung,
welche durch den Umsetzungsschritt erzeugt wird, ist (M2,
w2, v2, k, j, q'2,
t', c6),
worin M2, w2, v2, k, j und q'2, dasselbe
sind wie zuvor, c6 = c2 +
c3 + f(M1, ε, v1, q0) + h(M1, ε,
v1 q0), und t' = Verkettung (t2, v1).
-
Umsetzungsschritte, welche leere
Folgen umfassen, können
nicht in einem fehlenden Abschluß des Suchprozesses resultieren,
da die Prüfung
in der Umsetzungsschleife sicherstellt, daß Teilübersetzungen, welche zu der
Reihe hinzugefügt
werden, eine niedrigere Aufwandszahl haben müssen, als vorausgegangene Satzteile
mit demselben vollen Zustand.
-
Bezüglich der Aufwandsparameter
benötigt
die vorliegende Erfindung keine spezielle Interpretation der verschiedenen
Aufwandsparameter für
Umsetzungsaktionen über
die allgemeine Forderung hinaus, daß die niedrigeren Aufwandszahlen
den erwünschteren Übersetzungen
entsprechen. In einer bevorzugten Ausführungsform ist die Aufwandsfunktion
die negative Log-Wahrscheinlichkeit. Die Log-Wahrscheinlichkeitsaufwände können für die vorliegende
Erfindung folgendermaßen
bestimmt werden. Umsetzeraktionen können als Ereignisse in einem
sogenannten generativen Modell betrachtet werden, insbesondere einem
Wahrscheinlichkeitsmodell für
die gleichzeitige Erzeugung einer Ausgangssprachenwortfolge und
einer Zielsprachenwortfolge. Es wird ein Datensatz für Ausgangssprachensätze für eine bestimmte Übersetzungsanwendung
gesammelt. Es wird eine Parametertabelle erstellt, in welcher sämtliche
Aufwände
denselben konstanten Wert haben. Die Übersetzungseinrichtung wird
mit jedem der Ausgangssprachensätze
aus dem gegebenen Satz betrieben, wobei eine Zählung sämtlicher unternommener Umsetzeraktionen
festgehalten wird. Die resultierenden Paare von Ausgangssprachen- und Zielsprachensätzen werden
einer Person, welche beide Sprachen beherrscht, vorgelegt, welche
sie als akzeptable oder nicht akzeptable Übersetzungen klassifiziert. Zählungen,
welche zu nicht akzeptablen Übersetzungen
führen,
werden ausgeschieden und die Wahrscheinlichkeiten werden aus den
verbleibenden Zählungen
unter Verwendung von gängigen
statistischen Methoden abgeschätzt.
Für jede geschätzte Wahrscheinlichkeit
P(e) für
eine Aktion e, wird der Aufwand für e dem Wert –log(P(e))
gleichgesetzt und es wird aus diesen Aufwandswerten eine neue Parametertabelle
konstruiert.
-
Es versteht sich, daß andere
Methoden zum Abschätzen
der Wahrscheinlichkeiten, welche dem Fachmann auf diesem Gebiet
bekannt sind, verwendet werden können,
beispielsweise die Erwartungsmaximierung. Weiter können Aufwandsfunktionen,
welche von der log-Wahrscheinlichkeit verschieden sind, verwendet werden,
beispielsweise das Wahrscheinlichkeitsverhältnis, ohne daß hierauf
eine Beschränkung
vorliegt. Das Wahrscheinlichkeitsverhältnis ist die Zahl von Malen
beim Training, welche eine bestimmte Umsetzeraktion zu der unrichtigen
Wortfolge führt,
zu der Zahl von Malen, daß sie
zu der Auswahl einer richtigen Wortfolge führt.
-
Es versteht sich, daß die hier
beschriebenen Ausführungsbeispiele
zur Illustration der Grundsätze
der Erfindung dienen und daß vielerlei
Modifikationen durch den Fachmann auf diesem Gebiet vorgenommen
werden können
und verwirklicht werden können,
ohne daß der
grundsätzliche
Gedanke der vorliegenden Erfindung verlassen wird.
-
Beispielsweise können in anderen Ausführungsformen
einer Übersetzungseinrichtung
nach der vorliegenden Erfindung Werte, welche von den "Aufwänden" verschieden sind,
für die
Auswahl der besten Übersetzung
verwendet werden. Solche Mittel oder Werte umfassen, ohne daß eine Beschränkung hierauf
zum Ausdruck gebracht werden soll, "Zwänge". Nicht beschränkende Beispiele
von Zwängen
zur Verwendung in der hier angegebenen Übersetzungseinrichtung sind
Vereinheitlichungszwänge
und Auswahlbeschränkungen.
In solchen Übersetzungseinrichtungen
auf Zwänge-Basis
ist die Parametertabelle 17 nicht erforderlich. Bei einigen
Ausführungsformen
ersetzt eine Zwänge-Tabelle
17a die Parametertabelle 17. Es sei bemerkt, daß in solchen Übersetzungseinrichtungen
auf der Basis der Beurteilung von Zwängen, die Übersetzungssuchmaschine 10a
die Ergebnisse von Kombinationen auf einer anderen Basis als der
Aufwandsbasis zuläßt. In anderen
Ausführungsformen
wird die beste Übersetzung
auf Zufallsbasis aus Übersetzungskandidaten
ausgesucht, so daß ein
Zielsprachen-Wortfolgewähler
20a nicht erforderlich ist.
-
In den meisten nicht trivialen Übersetzungsfällen ist
eine Vielzahl von Hauptumsetzern 13 erforderlich. Bei einfacheren
Anwendungen jedoch, beispielsweise bei der Übersetzung bestimmter Ansammlungen
von Rechnerbefehlen, kann für
die Übersetzung
ein einziger Hauptumsetzer 13 verwendet werden.