-
Technisches Gebiet
-
Die
vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung
zum Erzeugen einer zweisprachigen Terminologie. Insbesondere betrifft
die Erfindung maschinelle Übersetzungssysteme,
Terminologieverwaltungssysteme und andere Systeme, die eine mehrsprachige
Terminologie verwenden.
-
Stand der Technik
-
Die
Erkennung einer mehrsprachigen Terminologie kann als ein Prozess
betrachtet werden, bei dem eine Texteinheit U1 (ein Wort oder eine
Folge von Wörtern)
in einem Ausgangstext T1 in Übereinstimmung
mit einer entsprechenden Einheit U2 in einen Zieltext T2 gesetzt
wird, bei dem es sich um die Übersetzung
von T1 handelt, so dass U2 die Übersetzung
von U1 ist. In der Vergangenheit war dieser Prozess ein manueller
Vorgang, der von Terminologen zum Erstellen von Terminologiedatenbanken ausgeführt wurde.
Die Automatisierung eines solchen Prozesses wird allgemein als Ausrichtung (alignment)
bezeichnet.
-
Die
Ausrichtung wird normalerweise durch statistische Verfahren ausgeführt. Der
Artikel von Brown et al. (06/1991) mit dem Titel „Aligning
sentences in parallel corpora",
Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics,
Berkeley, Kalifornien, beschreibt ein Verfahren, bei dem Zuordnungsbewertungen
(association scores) zwischen den Texteinheiten in verschiedenen
Sprachen berechnet werden und anschließend die optimale Kombination
von mehrsprachigen Texteinheiten auf der Grundlage dieser Bewertungen ausgewählt wird.
-
Die
Nachteile solcher Verfahren bestehen darin, dass sie sowohl zu fehlerhaften
Zuordnungen (noise) als auch fehlenden Zuordnungen (silence) führen. Fehlerhafte
Zuordnungen betreffen mehrsprachige Zuordnungen, die zwar gefunden
werden, aber falsch oder unzutreffend sind, beispielsweise (dog,
aboyer), wobei „aboyer" (bellen) in der
Tat mit Hunden zusammenhängt,
jedoch keine Übersetzung des
Wortes „dog" („Hund") ist, während die
fehlende Zuordnung sich auf einige ansonsten zutreffende mehrsprachige
Zuordnungen bezieht, die im Text vorhanden sind, jedoch nicht gefunden
werden.
-
Außerdem kann
die Ausrichtung in Abhängigkeit
der Größe der auszurichtenden
Texteinheiten auf verschiedenen Ebenen des Textes verarbeitet werden,
z.B. kann sie auf der Ebene von Dokumenten, Absätzen, Sätzen, aus mehreren Worten bestehenden
Begriffen oder sogar einzelnen Wörtern
erfolgen.
-
Bekannte
Systeme, die eine Ausrichtung von Wörtern oder aus mehreren Wörtern bestehenden Begriffen
ausführen,
sind im Allgemeinen auf das Vorliegen von Texten angewiesen, die
bereits auf der Satzebene ausgerichtet wurden.
-
Die
GB-Patentanmeldung 2 279 164 beschreibt
ein System zur Verarbeitung einer zweisprachigen Datenbank, in der
ausgerichtete Textkörper (d.h.
Sammlungen von Texten) erzeugt oder von einer externen Quelle empfangen
werden. Jeder Textkörper
umfasst einen Satz von Textteilen, die mit entsprechenden Teilen
des anderen Textkörpers
ausgerichtet sind, beispielsweise so, dass ausgerichtete Teile nominell Übersetzungen
voneinander in zwei natürlichen
Sprachen sind. Eine statistische Datenbank wird kompiliert. Ein
Auswertungsmodul berechnet Korrelationsbewertungen (correlation
scores) für Wortpaare,
von denen jeweils eines aus jedem Textkörper ausgewählt wurde. Liegt ein Paar von
Textteilen vor (einer in jeder Sprache), verknüpft das Auswertungsmodul Wortpaar-Korrelationsbewertungen, um
eine Ausrichtungsbewertung für
die Textteile zu erhalten. Diese Ausrichtungsbewertungen können zum Überprüfen einer Übersetzung
und/oder zum Ändern
der ausgerichteten Textkörper
verwendet werden, um unwahrscheinliche Ausrichtungen zu entfernen.
Die Erfindung verwendet statistische Verfahren, und insbesondere
ermöglichen
Ausführungsformen
die Ableitung einer wahrscheinlichkeitsbasierten Bewertung, um die
Korrelation von zweisprachigen Wortpaaren zu messen.
-
Dieses
Verfahren ist jedoch auf die Ausrichtung von einzelnen Wörtern begrenzt,
ein Wort in der Ausgangssprache und ein Wort in der Zielsprache. Und
es ist mit dem zuvor erwähnten
Problem von fehlerhaften Zuordnungen und fehlenden Zuordnungen in
Bezug auf die Verwendung bestimmter statistischer Bewertungen behaftet.
-
Zur
Ausrichtung auf der Ebene von aus mehreren Wörtern bestehenden Begriffen
wurden verschiedene Verfahren vorgeschlagen. Gaussier et al. beschreibt
in „Some
methods for the extraction of bilingual terminology", Proceedings of
New Methods in Language Processing, Manchester, 1994, verschiedene
Ausrichtungsverfahren auf der Grundlage einer einsprachigen Erkennung
der aus mehreren Wörtern bestehenden
Begriffe (z.B. durch Identifizieren von Wörtern, die mit hoher Wahrscheinlichkeit
miteinander in Verbindung stehen), gefolgt von der Erkennung zweisprachiger
Entsprechungen zwischen diesen aus mehreren Wörtern bestehenden Begriffen
durch statistische Bewertungen. Die Verwendung dieser Verfahren
ist jedoch auf Begriffe begrenzt, die in der Ausgangs- und Zielsprache
aus genau zwei Wörtern zusammengesetzt
sind.
-
Einige
Systeme, in denen die zuvor erwähnte Begrenzung
wegfällt,
verwenden einfache Grammatiken, um aus mehreren Wörtern bestehende
Begriffe in jeder Sprache zu identifizieren. Beispielsweise beschreibt
die Veröffentlichung
von Gaussier et al. (1994) ein System, in dem linguistische Muster
verwendet werden, zum Beispiel „Adjektiv + Substantiv" oder „Substantiv
+ Präposition
+ Substantiv", die
die Struktur nominaler Begriffe im Englischen und im Französischen
kennzeichnen.
-
Im
Artikel von B. Daille et al. mit dem Titel „Towards Automatic Extraction
of Monolingual and Bilingual Terminology", August 1994, Association for Computational
Linguistics, Proceedings of the 15th conference
an computational linguistics, Kyoto, Japan, XP002335379, werden
verschiedene Bewertungsverfahren zum Erhalten einer Liste von zweisprachigen
Begriffen für
einen parallelen zweisprachigen Textkörper verglichen.
-
Beim
Angehen des vorhergehenden Problems ist die Leistungsfähigkeit
solcher Systeme nicht maximal, und es werden fehlerhafte Zuordnungen
erzeugt, da sich nur ein kleiner Teil der so identifizierten Nominalphrasen
als Begriffe erweisen, d.h. Einheiten, die einen Begriff des Sachgebiets
ausdrücken.
Beispielsweise könnte
der Ausdruck „folgende Seite" als ein Begriff
in einer Grammatik aus „Adjektiv +
Substantiv" extrahiert
werden, obwohl klar ist, dass es sich hierbei um ein vorherrschendes
Satzglied in jedem technischen Text handelt.
-
Außerdem kommt
es auch zu fehlenden Zuordnungen, da der Anwendungsbereich der linguistischen
Muster auf eine bestimmte Anzahl von Ausdrücken begrenzt ist und bestimmte
Strukturen ignoriert, die Begriffe liefern können, da es sich entweder um nichtstandardmäßige Wortkombinationen
handelt (beispielsweise „antenne
parabolique de réception" im Französischen,
wobei das Adjektiv „parabolique" die ursprüngliche
Folge „Substantiv
+ Präposition
+ Substantiv", „antenne
de réception", maskiert) oder da
es der Grammatik nicht gelang, bestimmte Wortarten aufgrund der
Mehrdeutigkeit bestimmter Wörter zu
identifizieren (beispielsweise müsste
die Grammatik bei „microphone
gain could be missed" „gain" als Verb anstatt
als Substantiv ansehen).
-
Zu
den angeführten
Problemen jedes Verfahrens gehört
schließlich
auch die Tatsache, dass keines der vorhergehenden Systeme die Extraktion einer
Ausrichtung von einem Begriff mit einem aus mehreren Wörtern bestehenden
Begriff (one-to-many term alignment) ermöglicht, beispielsweise entspricht
der englische Begriff „baseband" Begriff „bande
de base" im Französischen.
-
Dementsprechend
wäre es
wünschenswert, die
Bereitstellung eines neuen Systems zum automatischen Extrahieren
einer mehrsprachigen Terminologie zu ermöglichen, bei dem die zuvor
erwähnten Probleme
wegfallen.
-
Die
Erfindung verbessert bestehende zweisprachige Wort- oder Begriffsextraktionsverfahren und
-systeme, indem verschiedene Begrifflängen berücksichtigt werden und indem
die Genauigkeit der Extraktion verbessert wird.
-
Zusammenfassung der Erfindung
-
Eine
Aufgabe der Erfindung ist die Bereitstellung eines Systems und eines
Verfahrens zum automatischen Erzeugen einer mehrsprachigen Terminologie.
Diese Aufgabe wird durch Verwenden eines im Folgenden ausführlich erläuterten
Terminologieextraktionssystems erfüllt. Die vorliegende Erfindung
ist ein computergestütztes
Terminologieextraktionssystem zum Erzeugen einer zweisprachigen
Terminologie aus einem mit einem Zieltext ausgerichteten Ausgangstext.
Der Ausgangstext umfasst mindestens eine Folge von Quellbegriffen,
wobei ein Begriff aus mindestens einem Wort besteht, und der Zieltext
umfasst mindestens eine Folge von Zielbegriffen. Das System umfasst
ein Begriffsextraktionsmittel (term extractor means), das mit mindestens
einem aus den ausgerichteten Texten entnommenen Paar arbeitet, das
aus einem mit einer Zielfolge ausgerichteten Quellfolge besteht.
Das System ist dadurch gekennzeichnet, dass das Begriffsextraktionsmittel
ein Mittel zum Erstellen eines Netzes umfasst, wobei jeder Knoten
des Netzes mindestens einen Begriff aus dem Paar von ausgerichteten
Quell-/Zielfolgen umfasst, und so dass jeder Quellbegriff in einem
Quellknoten enthalten ist, wohingegen jeder Zielbegriff in einem
Zielknoten enthalten ist. Die Begriffsextraktionseinrichtung umfasst
außerdem
ein Mittel zum Verbinden jedes aus mindestens einem Quellbegriff bestehenden Knotens
mit jedem aus mindestens einem Zielbegriff bestehenden Knoten. Ein
Begriffsstatistikmittel (term statistics means) ist mit dem Begriffsextraktionsmittel
verbunden, um eine Zuordnungsbewertung für jedes Paar von verbundenen Quell-/Zielbegriffen
zu berechnen, und ein Speichermittel ist mit dem Begriffsstatistikmittel
verbunden, um die bewerteten Paare von verbundenen Quell-/Zielbegriffen
zu speichern, die als zutreffende zweisprachige Begriffe angesehen
werden.
-
Zum
Auswählen
von Verbindungen, die möglichen
zweisprachigen Begriffen entsprechen, umfasst das System in einer
bevorzugten Ausführungsform
außerdem
ein Mittel zum Ausführen
eines Flussoptimierungsalgorithmus (flow optimization algorithm),
so dass jede Verbindung zwischen einem Quellknoten und einem Zielknoten
durch eine Kapazität
und einen Fluss gekennzeichnet ist, und so dass dieses Mittel die
Auswahl bevorzugter Verbindungen mit einem maximalen Fluss bei minimalem
Kosten ermöglicht.
-
Bei
einem Text mit einer Vielzahl von Folgen von Quellbegriffen, die
mit Folgen von Zielbegriffen ausgerichtet sind, wird das Verfahren
mit den folgenden Schritten erfolgreich auf alle Paare von Folgen angewandt:
- a) Lesen eines ersten Paares von ausgerichteten Folgen
von Quell- und Zielbegriffen;
- b) Erstellen eines Netzes, in dem jeder Knoten mindestens einen
Begriff aus einem ersten Paar von ausgerichteten Quell-/Zielfolgen
umfasst, so dass jede Kombination von Quellbegriffen in einem Knoten
enthalten ist und jede Kombination von Zielbegriffen in einem Knoten
enthalten ist;
- c) Verbinden jedes aus mindestens einem Quellbegriff bestehenden
Knotens mit jedem aus mindestens einem Zielbegriff bestehenden Knoten;
- d) Berechnen einer Zuordnungsbewertung für jedes Paar von verbundenen
Quell- und Zielknoten;
- e) Auswählen
von mindestens einer Verbindung, so dass die entsprechenden verbundenen Quell-/Zielbegriffe
als zutreffende zweisprachige Begriffe angesehen werden;
- f) Speichern der zutreffenden zweisprachigen Begriffe und der
entsprechenden Zuordnungsbewertungen;
- g) Wiederholen der Schritte a) bis f) für alle Paare von ausgerichteten
Folgen.
-
Nachdem
die letzte Folge verarbeitet wurde, wird eine Ausrichtungsstatistik
für alle
gespeicherten zweisprachigen Begriffe gemäß einer Bewertungsfunktion
(scoring function) berechnet. Die endgültige Auswahl zutreffender
zweisprachiger Begriffe erfolgt gemäß dem Ergebnis dieser Ausrichtungsstatistik.
-
Zur
Verbesserung der endgültigen
Auswahl zutreffender zweisprachiger Begriffspaare kann der gesamte
Prozess in bestimmten Ausführungsformen mehrere
Male über
den gesamten Textkörper
wiederholt werden, wobei die sich aus einer Wiederholung ergebende
endgültige
Auswahl von Begriffspaaren verwendet wird, um die Ausgangsbedingungen
der folgenden Wiederholung zu ändern.
In einer solchen Ausführungsform
wird die Wortausrichtungsstatistik, die in die Berechnung von Begriffszuordnungsbewertungen
eingeht, vor der folgenden Wiederholung aktualisiert. In einer anderen
solchen Ausführungsform werden
die sich aus einer Wiederholung ergebenden zutreffenden Begriffspaare
während
der Netzerstellungsschritte in der folgenden Wiederholung nicht
als Netzknoten verwendet. Bei jeder dieser Ausführungsformen werden die Wiederholungen
ausgeführt,
bis ein Endkriterium erfüllt
ist.
-
Das
beanspruchte System und Verfahren kann in vielen Bereichen verwendet
werden, die von zweisprachigen Wort- oder Begriffslexika profitieren, darunter
die Fremdsprachenlehre, die Arbeit mit mehrsprachiger Terminologie,
die Kompilierung mehrsprachiger Wörterbücher, die personenunterstützte maschinelle Übersetzung
oder die maschinenunterstützte Übersetzung,
um nur einige zu nennen. Die bevorzugte Ausführungsform der vorliegenden
Erfindung betrifft die maschinenunterstützte Übersetzung. Es wird jedoch
verstanden, dass viele andere Bereiche vom beanspruchten System
und Verfahren der vorliegenden Erfindung profitieren.
-
Kurze Beschreibung der Zeichnungen
-
1 ist
eine Darstellung eines Computersystems, das ein maschinenunterstütztes Übersetzungssystem
enthält.
-
2 veranschaulicht
eine ausführlichere Beschreibung
des maschinenunterstützten Übersetzungssystems,
das die Terminologieextraktionskomponente enthält.
-
3 ist
ein Flussdiagramm, das die gesamte Funktionsweise der Terminologieextraktionskomponente
veranschaulicht.
-
4 ist
eine Darstellung des zwischen einem Paar von zweisprachigen Sätzen erstellten
Netzes und der Bögen
zwischen Wörtern
oder Begriffen in diesen Sätzen.
-
5 veranschaulicht
ein bestimmtes Exemplar dieses Netzes für ein zweisprachiges Paar spezifischer
Sätze.
-
6 ist
ein Flussdiagramm, das einen Teil der Arbeitsweise der Extraktionskomponente
darstellt.
-
7 ist
ein Flussdiagramm, das die während
des Flussoptimierungsprozesses ausgeführten Arbeitsgänge darstellt.
-
8a und 8b sind
Flussdiagramme, die zwei Ausführungsformen
des Vorgangs des Wiederholens des gesamten Begriffsauswahlprozesses mehrere
Male über
den gesamten Textkörper
zeigen.
-
9 ist
ein Beispiel von zweisprachigen Begriffspaaren, die in einer beispielhaften
Ausführung
der Erfindung erhalten wurden.
-
Ausführliche Beschreibung der Erfindung
-
Mit
Bezugnahme auf die Zeichnungen und insbesondere auf 1 wird
nun eine Umgebung dargestellt, in der eine bevorzugte Ausführungsform der
vorliegenden Erfindung betrieben wird. Die bevorzugte Ausführungsform
der vorliegenden Erfindung wird auf einer Computerplattform 104 betrieben.
Die Computerplattform 104 enthält bestimmte Hardwareeinheiten 112,
darunter eine oder mehrere Zentraleinheiten (CPU) 116,
einen Arbeitsspeicher (RAM) 114 und eine Ein-/Ausgabe-
(EA-) Schnittstelle 118. Die Computerplattform 104 enthält ein Betriebssystem 108 und
kann einen Mikrobefehlscode 110 enthalten. Ein maschinenunterstütztes Übersetzungssystem 103 kann
ein Teil des Mikrobefehlscodes 110 oder ein über das
Betriebssystem auszuführendes
Anwendungsprogramm sein. Verschiedene periphere Komponenten können mit
der Computerplattform 104 verbunden werden, beispielsweise ein
Endgerät 126,
eine Datenspeichereinheit 130 und eine Druckeinheit 134.
-
Fachleute
werden problemlos verstehen, dass die Erfindung ohne viele Änderungen
in anderen Systemen realisiert werden kann.
-
2 stellt
eine ausführlichere
Beschreibung des maschinenunterstützten Übersetzungssystems 103 dar.
Eine Benutzerschnittstelle 201 kann einen Texteditor zur
Eingabe einer manuellen Übersetzung
eines Ausgangstextes oder zum Editieren einer automatischen Übersetzung
des Textes enthalten. Die Benutzerschnittstelle ist mit einem zweisprachigen
Terminologiedatenbank-Verwaltungssystem 202, einem zweisprachigen
Satzdatenbank-Verwaltungssystem 203, einem zweisprachigen
Satzausrichtungssystem 204, einem zweisprachigen Terminologieextraktionssystem 205 und
einer automatischen Übersetzungsmaschine 206 verbunden.
-
Eine
zweisprachige Terminologiedatenbank 207, die die Quellbegriffe
und deren entsprechende Übersetzung
speichert, ist mit dem zweisprachigen Terminologieextraktionssystem 205 verbunden,
um die Begriffspaare zu empfangen. Es ist jedoch auch eine manuelle
Eingabe durch einen Bediener über das
zweisprachige Terminologiedatenbank-Verwaltungssystem 202 möglich.
-
Eine
zweisprachige Satzdatenbank 208 enthält ausgerichtete Sätze (Quellsatz
und entsprechender Zielsatz), die aus einem oder mehreren Ausgangstexten
entnommen wurden, und ihre entsprechenden Übersetzungen. Sie kann entweder
vom Benutzer durch manuelles Eingeben von Übersetzungen oder durch das
zweisprachige Satzausrichtungssystem 204 oder durch die
automatische Übersetzungsmaschine 206 gespeist
werden.
-
Das
zweisprachige Terminologieextraktionssystem 205 ist mit
der zweisprachigen Satzdatenbank 208 verbunden, um zweisprachige
ausgerichtete Sätze
aus dieser einzugeben. Fachleute verstehen jedoch, dass die Erfindung
nicht auf die Verwendung einer zweisprachigen Satzdatenbank begrenzt
ist, um der Extraktionseinrichtung zweisprachige Paare bereitzustellen,
sondern es können
auch andere Quell- und Zielstrukturen, beispielsweise Gruppen von
Wörtern
beliebiger Länge,
in die Extraktionseinrichtung eingegeben werden.
-
Das
zweisprachige Terminologieextraktionssystem 205 ist außerdem mit
der zweisprachigen Terminologiedatenbank 207 verbunden,
um zweisprachige Wortpaare oder aus mehreren Wörtern bestehende Begriffe auszugeben,
die vom Terminologieextraktionssystem automatisch erzeugt wurden.
-
3 stellt
eine ausführlichere
Beschreibung des zweisprachigen Terminologieextraktionssystems 205 dar.
Die Speichereinheit 312 kann eine oder eine Kombination
von mehr als einer Datenspeichereinheit sein, z.B. Disketten oder
ein Arbeitsspeicher (RAM). Die bevorzugte Ausführungsform der Erfindung verwendet
einen internen Arbeitsspeicher (RAN) des Computers als Speichereinheit 312.
-
Eine
zweisprachige Wortstatistik-Ermittlungseinrichtung (word statistics
determinator) 302 ist mit der Speichereinheit 312 und
einer Begriffsextraktionseinrichtung 304 verbunden. Die
Begriffsextraktionseinrichtung 304 ist mit der Speichereinheit 312 und
mit einer zweisprachigen Begriffsstatistik-Ermittlungseinrichtung (term statistics
determinator) 306 verbunden, wobei die letztere mit der
Speichereinheit 312 verbunden ist.
-
Vor
der ausführlichen
Beschreibung jeder Komponente von 3 und des
Verfahrens zum Betreiben derselben werden zunächst die 4 und 5 beschrieben,
da sie das Netzkonzept der Erfindung veranschaulichen.
-
Die
vorliegende Erfindung beinhaltet als Erstes die Übertragung eines zweisprachigen
Paares von ausgerichteten Sätzen
in das zweisprachige Terminologieextraktionssystem 205.
Die ausgerichteten Sätze
werden sodann zur anschließenden
Verarbeitung als ein Netz von Knoten modelliert.
-
4 ist
eine Teilansicht eines Netzes, das sowohl aus den Knoten des Quellsatzes
als auch des Zielsatzes besteht. Alle den Quellsatz betreffenden Knoten
werden in einem ersten Bereich 402 dargestellt. Ähnlich werden
alle möglichen
den Zielsatz betreffenden Knoten in einem zweiten Bereich 404 dargestellt.
Jedes Wort und jede Wortfolge des Quellsatzes sowie jedes Wort und
jede Wortfolge des Zielsatzes werden von einem einmaligen Knoten
im Netz dargestellt.
-
Zur
Beschreibung des ersten Bereichs 402 wird eine gezeichnete
Darstellung des Quellnetzes als ein Dreieck dargestellt, in dem
die Basis aus so vielen Knoten (S1 bis Sm) wie die Anzahl von Wörtern im
Quellsatz besteht. Jeder Knoten Si der Basis stellt ein einzelnes
Wort des Quellsatzes dar, während
die Spitze des Dreiecks die komplette Wortfolge darstellt (S1SiSm).
Die dazwischen liegenden Knoten stellen jeweils mehrere Wörter dar
und sind für bestimmte
Teildreiecke sowohl Spitzen- als auch Basisknoten. Beispielsweise
ist der in 4 gezeigte Knoten S1S2S3 die
Spitze des Dreiecks, dessen Basis (S1,S2,S3) ist, und des Dreiecks,
dessen Basis (S1S2,S2S3) ist. Außerdem ist der Knoten S1S2S3 auch
ein Basisknoten für
alle aus S1S2S3 erstellten Teildreiecke.
-
In
der unteren Hälfte
von 4 bildet ein zweites Dreieck (404) das
Zielnetz. Ähnlich
besteht die Basis dieses Dreiecks aus den Knoten T1 bis Tn, die
die n Wörter
des Zielsatzes darstellen, während seine
Spitze die Wortfolge (T1TjTn) darstellt, d.h. den kompletten Zielsatz.
-
Nachdem
jeder Quell- und jeder Zielsatz in ein Quellnetz und ein Zielnetz
zerlegt wurde, wird jeder Knoten des Quellnetzes in Entsprechung
zu jedem Knoten des Zielnetzes gesetzt. In der Tat werden Beziehungen
zwischen Knoten durch zweisprachige Bögen erstellt, wie in 4 zu
erkennen ist, wobei der Klarheit halber nur zwei solche Bögen (406, 408)
gezeichnet wurden.
-
Der
Bogen 406 verbindet einen das Quellwort Si darstellenden
Knoten mit einem das Zielwort Tj darstellenden Knoten. Ähnlich verbindet
der Bogen 408 einen die Quellwortfolge (S1S2) darstellenden
Knoten mit einem die Zielwortfolge (T1T2T3) darstellenden Knoten.
-
5 ist
eine Veranschaulichung einer Netzdarstellung mit zwei aus einem
zweisprachigen Textkörper
aus dem Bereich der Datenfernübertragung entnommenen
Sätzen.
Der Quellsatz besteht aus den folgenden elf englischen Quellwörtern:
an
outstanding operational feature used in FSS telecommunication ist
multiple access
-
Der
Zielsatz besteht aus den folgenden vierzehn französischen
Zielwörtern:
l'accès multiple
est une caractéristique
d'exploitation très importante
des télécommunications
du SFS
-
Die
Bögen 502, 504 und 506 betreffen
Wortfolgen im Quell- und Zielsatz, die die Übersetzung voneinander sind.
Beispielsweise verbindet der Bogen 502 die englische Folge:
-
outstanding
operational feature
mit der französischen Folge
caractéristique
d'exploitation très importante
-
Die
in der Erfindung verwendete Modellierung durch ein Netz ermöglicht jede
Verbindung zwischen einer beliebigen Folge von aufeinanderfolgenden
Quellwörtern
mit einer beliebigen Folge von aufeinanderfolgenden Zielwörtern. Um
ein Hochleistungssystem zu erreichen, ist es jedoch möglich, einige
als ungültig
erachtete Verbindungen zu ignorieren.
-
Die
Auswahl jener Bögen,
die gültigen
Verbindungen entsprechen, beruht auf einem Prinzip, das auf dem
Gebiet der Optimierung bekannt ist und das darin besteht, einen
Fluss mit minimalen Kosten in einem Netz zu suchen. Die bevorzugte
Ausführungsform
der vorliegenden Erfindung verwendet den so genannten Prozess mit „maximalem
Fluss/minimalen Kosten" („maximum
flow/minimal cost” process),
wie an späterer
Stelle beschrieben wird. Es wird jedoch verstanden, dass zu diesem
Zweck auch andere Netzflussprozesse verwendet werden könnten, beispielsweise
der Prozess mit „maximalem Fluss".
-
Mit
erneuter Bezugnahme auf
3 berechnet die zweisprachige
Wortstatistik-Ermittlungseinrichtung
302 statistische Bewertungen
zwischen einzelnen Quellwörtern
und Zielwörtern
in ausgerichteten Sätzen.
In der Literatur stehen für
einen solchen Zweck verschiedene Verfahren zur Verfügung, die alle
in der Summierung der Zählwerte
von in ausgerichteten Sätzen
vorkommenden Wortpaaren und in der Berechnung von Korrelationsbewertungen
für diese
Wortpaare bestehen, wie beispielsweise in der
GB-Patentanmeldung 2 279 164 erläutert wird.
Die zweisprachige Wortstatistik wird in der im Folgenden beschriebenen
Begriffsextraktionseinrichtung
304 verwendet und kann in
einem sich wiederholenden Prozess aktualisiert werden, wie in der
Beschreibung von
8a an späterer Stelle beschrieben wird.
-
Die
in der Begriffsextraktionseinrichtung 304 ausgeführten Arbeitsgänge werden
nun mit Bezugnahme auf 6 im Einzelnen beschrieben.
Im Schritt 602 wird ein Paar von ausgerichteten Sätzen aus
dem zweisprachigen Textkörper 208 eingegeben.
Der Begriff „ausgerichtete
Sätze" bezieht sich auf
einen Quellsatz und den entsprechenden übersetzten Zielsatz. Das Verfahren
zum Ausrichten des Ausgangstextes mit dem Zieltext ist unabhängig vom beanspruchten
Verfahren der Erfindung, und alle bekannten Ausrichtungsverfahren
können
verwendet werden.
-
Das
Paar von ausgerichteten Sätzen
wird sodann im Schritt 604 zum Erstellen eines Quellnetzes und
eines Zielnetzes von Knoten auf die zuvor in Bezug auf 4 beschriebene
Weise verwendet.
-
Zwischen
jedem Knoten des Quellsatzes und jedem Knoten des Zielsatzes werden
sodann zweisprachige Bögen
eingerichtet. Die Anzahl und der Typ der Bögen könnten jedoch veränderlich
sein und als Parameter definiert werden. Beispielsweise ist es möglich zu
definieren, dass kein Bogen von jenen Quellknoten erstellt wird,
die Artikel oder Präpositionen
oder andere Typen von Quellknoten darstellen, die als leere Wörter betrachtet
werden können. Andere
Konfigurationen für
die Erstellung der Bögen können ausgewählt werden.
Falls eine Wortfolge wie „parabolic
antenna", die einem
bekannten, bereits in der Datenbank 207 gespeicherten Ausdruck
entspricht, Teil eines verarbeiteten Quellsatzes ist, erstellt das
System in einer bestimmten Ausführungsform
einen Bogen vom entsprechenden Quellknoten „parabolic antenna", wohingegen jeder
einzelne Quellknoten („parabolic" und „antenna") ignoriert wird.
-
In
einer bevorzugten Ausführungsform
der vorliegenden Erfindung wird die so genannte Grammatik vom Typ „Nominalphrase" verwendet, um mögliche Knoten
zu identifizieren, die grammatikalisch zutreffend sind.
-
Mit
erneuter Bezugnahme auf das in 5 gezeigte
Beispiel wird die Nominalphrase „outstanding operational feature" als ein möglicher
Knoten für die
Erstellung eines Bogens identifiziert, wohingegen die einzelnen
Wörter „outstanding", „operational" und „feature" ignoriert werden
und kein von diesen Wörtern
beginnender Bogen eingerichtet wird.
-
Auf
dem Gebiet der Optimierung kann ein Bogen durch eine Kapazität und den
ihr zugeordneten Fluss gekennzeichnet werden. Obwohl es verschiedene
Möglichkeiten
gibt, eine Kapazität
und einen Fluss zu definieren, beispielsweise im Verfahren „maximaler
Fluss/minimale Kosten",
werden die folgenden Definitionen für die Anwendung auf dem Gebiet
der Sprachverarbeitung erhalten:
- • die Kapazität eines
einen Quellknoten mit einem Zielknoten verbindenden Bogens ist das
Maximum zwischen der Größe des Quellknotens
und der Größe des Zielknotens,
wobei die Größe eines
Knotens die Anzahl einzelner Wörter
ist, aus denen der Knoten besteht;
- • der
Wert eines Flusses, der in einem einen Quellknoten mit einem Zielknoten
verbindenden Bogen fließt,
ist als die Summe der statistischen Wortausrichtungsbewertungen
zwischen allen Wörtern
im Quellknoten und allen Wörtern
im Zielknoten definiert.
-
Außerdem setzt
das in der bevorzugten Ausführungsform
verwendete Optimierungsverfahren voraus, dass ein Fluss in einem
Bogen Kosten beinhaltet; für
jeden Bogen sind die entsprechenden Kosten aktuell als das Produkt
aus konstanten Kosten pro Flusseinheit und dem Wert des Flusses
in diesem Bogen definiert.
-
Der
nächste
Schritt 606 besteht in der Optimierung des Netzflusses,
der für
das erste Paar von verarbeiteten zweisprachigen Sätzen erstellt
wurde. Der sich aus dem Optimierungsschritt ergebende optimale Fluss
bezeichnet bestimmte Bereiche als die wahrscheinlichsten Verbindungen
zwischen den Quell- und Zielbegriffen in diesen Sätzen.
-
Zum
Erhalten eines optimalen Flusses für die beiden Sätze, aus
denen entsprechende Kandidaten von zweisprachigen Begriffspaaren
entnommen werden können,
verwendet das vorgeschlagene Verfahren Algorithmen, die Flüsse in Netzwerken
optimieren, beispielsweise den an späterer Stelle mit Bezugnahme
auf 7 beschriebenen Algorithmus.
-
Mit
erneuter Bezugnahme auf 6 und den im Schritt 608 ausgeführten Vorgang
werden die jeweiligen Begriffe, die jenen im Schritt 606 identifizierten
bevorzugten Verbindungen entsprechen, aus den Quell- und Zielsätzen entnommen
und im Speicher 312 gespeichert. Die dem Begriffspaar entsprechende
Zuordnungsbewertung ist nach der Flussoptimierung der endgültige Wert
des Flusses, der in dem diese Begriffe verbindenden Bogen fließt.
-
Der
Schritt 610 stellt sicher, dass der Prozess über den
gesamten in der zweisprachigen Satzdatenbank gespeicherten Satz
von ausgerichteten zweisprachigen Sätzen wiederholt wird. Im Schritt 610 wird
eine Prüfung
ausgeführt,
um festzustellen, ob es ein weiteres zu analysierendes Satzpaar
gibt. Ist dies der Fall, kehrt der Prozess in einer Schleife zurück zum Schritt 602 (Verzweigung
JA), andernfalls wurden alle Paare von Sätzen analysiert, und der Prozess
geht weiter zum Schritt 612 (Verzweigung NEIN).
-
Mit
erneuter Bezugnahme auf 3 hat das System nach der Verarbeitung
aller Paare von zweisprachigen Sätzen
durch die Begriffsextraktionseinrichtung 304 eine Anzahl
von Paaren von Kandidatenbegriffen angesammelt, die entnommen und
im Speicher 312 gespeichert wurden. Die Aufgabe der zweisprachigen
Begriffsstatistik-Ermittlungseinrichtung 306 besteht darin,
eine Statistik für
alle diese Begriffspaare zu berechnen und zu entscheiden, welche
für gültige Begriffe
erachtet werden können.
-
Die
in der zweisprachigen Begriffsstatistik-Ermittlungseinrichtung 306 ausgeführten ausführlichen
Arbeitsgänge
werden nun mit Bezugnahme auf die Schritte 612 und 614 von 6 beschrieben.
-
Einige
der Begriffspaare, die in jeder Wiederholung identifiziert und im
Schritt 608 gespeichert werden, können selbstverständlich in
mehreren Satzpaaren erscheinen. Der Schritt 612 berechnet
eine Statistik zu den Begriffspaaren auf der Grundlage von Parametern,
beispielsweise der Anzahl ihres Vorkommens in den Satzpaaren, und
vergibt für
jedes Begriffspaar eine Bewertung, die die Wertigkeit des Begriffs
misst; auf diese Weise sind zum Beispiel jene Kandidaten mit den
besten Bewertungen mit höherer
Wahrscheinlichkeit zutreffende Begriffe als jene mit geringeren
Bewertungen. In der bevorzugten Ausführungsform der vorliegenden
Erfindung ist diese Bewertung eine Funktion der Anzahl von Vorkommen
des Begriffspaares in ausgerichteten Sätzen und der Anzahl von Vorkommen
der einzelnen Begriffe (Quell- und Zielbegriffe). Insbesondere wird
die bevorzugte Bewertungsfunktion, wie sie von Ted Dunning vorgeschlagen
wird, in der ersten Ausführungsform
realisiert. Eine ausführliche
Erläuterung
dieser zweisprachigen Bewertungsfunktion ist in Dunning (T.), „Accurate
methods for the statistics of surprise and coincidence", Computational Linguistics,
Band 19, Nummer 1, März
1993, nachzulesen und ist hier als Bezug mit inbegriffen.
-
Im
Schritt 614 werden die Kandidatenbegriffspaare entsprechend
der im Schritt 612 berechneten Bewertung geordnet, und
ein Kriterium für
die Entscheidung, welche gültig
sind, wird angewandt. Beispielsweise kann ein Bewertungsschwellenwert festgelegt
werden, und jene Kandidaten, deren Bewertung den Schwellenwert übersteigt,
werden als gültige
Kandidaten gespeichert.
-
Es
wird verstanden, dass verschiedene andere Bewertungs- und Schwellenwertfunktionen
zur Verwendung in den Schritten 612 und 614 geeignet sind.
-
Die
Ergebnisse, die durch die in 6 beschriebenen
Vorgänge
erhalten werden, können durch
mehrmaliges Wiederholen des gesamten Prozesses über den gesamten Textkörper verbessert werden.
Dies wird an späterer
Stelle mit Bezugnahme auf die 8a und 8b beschrieben.
-
7 zeigt
ausführlich
die in der Blockfunktion 606 ausgeführten Vorgänge zum Erreichen einer Netzflussoptimierung.
Obwohl verschiedene Netzflussoptimierungsalgorithmen möglich sind,
nämlich all
jene, die das Problem maximaler Fluss/minimale Kosten lösen, verwendet
eine bevorzugte Ausführungsform
der vorliegenden Erfindung zu diesem Zweck den Algorithmus, der
zuerst in der Veröffentlichung
von Klein beschrieben wurde. Eine ausführliche Erläuterung dieses Algorithmus
ist in M. Klein, „A primal
method for minimal cost flows, with applications to the assignment
and transportation Problems", Management
Science, 14, 1967, zu finden. Lediglich die verschiedenen grundlegenden
Schritte dieses Algorithmus werden hier dargestellt.
-
Im
ersten Schritt 702 wird ein anfänglicher Fluss durch das Netz übertragen.
-
Im
nächsten
Schritt 704 wird ein dem anfänglichen Netz zugeordnetes
paralleles Netz erstellt. Dieses zweite Netz enthält dieselben
Knoten und dieselben Bögen
wie das ursprüngliche
Netz, jedoch wird die Kapazität
jedes Bogens als die verbleibende Differenzkapazität zwischen
dem ursprünglichen Fluss
und der Kapazität
des Bogens berechnet, und die Kosten für einen Fluss in jedem Bogen
sind je nach der Richtung des Bogens entweder die ursprünglichen
Kosten oder deren negativer Wert.
-
Der
Kern des Algorithmus von Klein besteht im Auffinden eines Zyklus
von Bögen
mit negativen Kosten in ihrem zugeordneten Netz, wobei dieser Vorgang
im Schritt 706 ausgeführt
wird. Ein Zyklus von Bögen
ist eine Folge von Bögen,
die verschiedene Knoten verbinden, wobei der letzte Bogen der Folge
am ersten Knoten endet, von dem aus der erste Bogen beginnt.
-
Falls
kein negativer Zyklus gefunden wird (Verzweigung NEIN), was bedeutet,
dass der Fluss bereits optimiert worden ist, wird der Optimierungsprozess
beendet.
-
Falls
ein negativer Zyklus gefunden wird, wird der Gesamtfluss verbessert,
indem der größtmögliche Fluss
in den negativen Zyklus übertragen wird
(Schritt 710).
-
Der
Prozess wird sodann wiederholt, bis kein negativer Zyklus übrig bleibt,
was bedeutet, dass der sich ergebende Fluss optimal ist.
-
Fachleute
werden erkennen, dass die vorliegende Erfindung mit anderen Optimierungsalgorithmen
angewandt werden kann. Der in der vorliegenden Erfindung zitierte
Beispielalgorithmus dient lediglich der Veranschaulichung und soll
weder erschöpfend
sein noch die Erfindung begrenzen.
-
Mit
Bezugnahme auf 6 wurde erwähnt, dass der gesamte in der
Figur beschriebene Prozess mehrere Male über den gesamten Textkörper wiederholt
werden kann, um die endgültige
Auswahl zutreffender zweisprachiger Begriffspaare zu verbessern. Das
Grundprinzip besteht darin, dass die sich aus einer Wiederholung
ergebende endgültige
Auswahl von Begriffspaaren zum Ändern
der Anfangsbedingungen der folgenden Wiederholung verwendet wird.
-
Zwei
Exemplare eines solchen Wiederholungsprozesses werden nun mit Bezugnahme
auf die 8a und 8b beschrieben.
-
Falls
eine enger Zusammenhang zwischen dem englischen Begriff „baseband" und dem französischen
Begriff „bande
de base" gefunden
wird, legt dies intuitiv nahe, dass die zweisprachige Einzelwortstatistik
einen Zusammenhang zwischen „baseband" und „bande" und auch zwischen „baseband" und „base" widerspiegeln muss.
Folglich kann die durch eine erste Wiederholung des gesamten Prozesses
von 6 erhaltene zweisprachige Begriffsausrichtungsstatistik
zur Verbesserung der im Optimierungsschritt 606 verwendeten
Einzelwortausrichtungsstatistik verwendet werden. 8a zeigt,
wie dieser Rückmeldungsvorgang
zur Verbesserung des Prozesses ausgeführt wird. Die Einzelwortstatistik
wird im Schritt 802 berechnet oder aus dem Speicher geladen.
-
Im
nächsten
Schritt 804 werden die vorhergehenden Ergebnisse während des
Netzoptimierungsvorgangs verwendet, der von der zweisprachigen Begriffsextraktionseinrichtung
ausgeführt
wird.
-
Sobald
für den
gesamten Textkörper
eine zweisprachige Begriffsstatistik gesammelt wurde, kann diese
im Schritt 808 zur Verbesserung der Einzelwortstatistik
verwendet werden. Diese verbesserte Wortstatistik ersetzt die ursprüngliche.
-
Der
Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird
(Schritt 806), beispielsweise nach einer bestimmten Anzahl
von Wiederholungen des Prozesses.
-
8b zeigt
einen ähnlichen
sich wiederholenden Prozess, wobei die sich aus einer Wiederholung
ergebenden zutreffenden Begriffspaare in der folgenden Wiederholung
während
der Netzerstellungsschritte nicht als Netzknoten verwendet werden,
was den Bereich möglicher
Netzlösungen
für ein gegebenes
Paar von Sätzen
verringert und daher die Qualität
der Begriffsausrichtungsergebnisse verbessert.
-
Im
Schritt 812 ignoriert der Netzerstellungsschritt (ähnlich wie
der Schritt 604 von 6) jene Knoten
und Verbindungen, die Begriffspaaren entsprechen, die am Ende der
vorhergehenden Wiederholung als zutreffend ausgewählt wurden.
-
Der
Schritt 814 ist gleichwertig mit den Schritten 606 bis 610 von 6 und
führt den
verbleibenden Begriffsextraktionsprozess aus.
-
Der
neue Satz von zutreffenden im Schritt 818 ausgewählten Begriffspaaren
kann in der folgenden Wiederholung ignoriert werden.
-
Der
Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird
(Schritt 816), beispielsweise nachdem eine bestimmte Anzahl
von Begriffspaaren ausgewählt
wurde oder nachdem die Bewertungen der ausgewählten Begriffspaare einen bestimmten
unteren Schwellenwert erreicht haben.
-
Beide
Möglichkeiten
der Prozesswiederholung, wie sie in den 8a und 8b beschrieben wurden,
können
gesondert oder in Verbindung miteinander in einer einzigen Ausführungsform
der Erfindung verwendet werden.
-
Mit
Bezugnahme auf 9 wurde nun mit der vorgeschlagenen
Ausführungsform
der vorliegenden Erfindung ein Experiment mit einem Textkörper ausgeführt, der
aus 1000 englischen, mit ihrer französischen Übersetzung ausgerichteten Sätzen besteht,
wobei sich eine Liste von 400 ausgewählten Begriffspaaren ergibt.
In einer manuellen Auswertung dieser Liste durch Gutachter wurden
nahezu 96 % dieser Kandidatenbegriffspaare für korrekt erachtet.
-
Aus
dieser Liste entnommene Beispielbegriffspaare werden in 9 gezeigt.