DE69837979T2

DE69837979T2 - System zum Extrahieren einer mehrsprachigen Terminologie

Info

Publication number: DE69837979T2
Application number: DE69837979T
Authority: DE
Inventors: Jean-Marc Lange; Eric Gaussier
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1997-06-27
Filing date: 1998-04-07
Publication date: 2008-03-06
Anticipated expiration: 2018-04-08
Also published as: DE69837979D1; US6236958B1

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erzeugen einer zweisprachigen Terminologie. Insbesondere betrifft die Erfindung maschinelle Übersetzungssysteme, Terminologieverwaltungssysteme und andere Systeme, die eine mehrsprachige Terminologie verwenden.
Stand der Technik
Die Erkennung einer mehrsprachigen Terminologie kann als ein Prozess betrachtet werden, bei dem eine Texteinheit U1 (ein Wort oder eine Folge von Wörtern) in einem Ausgangstext T1 in Übereinstimmung mit einer entsprechenden Einheit U2 in einen Zieltext T2 gesetzt wird, bei dem es sich um die Übersetzung von T1 handelt, so dass U2 die Übersetzung von U1 ist. In der Vergangenheit war dieser Prozess ein manueller Vorgang, der von Terminologen zum Erstellen von Terminologiedatenbanken ausgeführt wurde. Die Automatisierung eines solchen Prozesses wird allgemein als Ausrichtung (alignment) bezeichnet.
Die Ausrichtung wird normalerweise durch statistische Verfahren ausgeführt. Der Artikel von Brown et al. (06/1991) mit dem Titel „Aligning sentences in parallel corpora", Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, Kalifornien, beschreibt ein Verfahren, bei dem Zuordnungsbewertungen (association scores) zwischen den Texteinheiten in verschiedenen Sprachen berechnet werden und anschließend die optimale Kombination von mehrsprachigen Texteinheiten auf der Grundlage dieser Bewertungen ausgewählt wird.
Die Nachteile solcher Verfahren bestehen darin, dass sie sowohl zu fehlerhaften Zuordnungen (noise) als auch fehlenden Zuordnungen (silence) führen. Fehlerhafte Zuordnungen betreffen mehrsprachige Zuordnungen, die zwar gefunden werden, aber falsch oder unzutreffend sind, beispielsweise (dog, aboyer), wobei „aboyer" (bellen) in der Tat mit Hunden zusammenhängt, jedoch keine Übersetzung des Wortes „dog" („Hund") ist, während die fehlende Zuordnung sich auf einige ansonsten zutreffende mehrsprachige Zuordnungen bezieht, die im Text vorhanden sind, jedoch nicht gefunden werden.
Außerdem kann die Ausrichtung in Abhängigkeit der Größe der auszurichtenden Texteinheiten auf verschiedenen Ebenen des Textes verarbeitet werden, z.B. kann sie auf der Ebene von Dokumenten, Absätzen, Sätzen, aus mehreren Worten bestehenden Begriffen oder sogar einzelnen Wörtern erfolgen.
Bekannte Systeme, die eine Ausrichtung von Wörtern oder aus mehreren Wörtern bestehenden Begriffen ausführen, sind im Allgemeinen auf das Vorliegen von Texten angewiesen, die bereits auf der Satzebene ausgerichtet wurden.
Die GB-Patentanmeldung 2 279 164 beschreibt ein System zur Verarbeitung einer zweisprachigen Datenbank, in der ausgerichtete Textkörper (d.h. Sammlungen von Texten) erzeugt oder von einer externen Quelle empfangen werden. Jeder Textkörper umfasst einen Satz von Textteilen, die mit entsprechenden Teilen des anderen Textkörpers ausgerichtet sind, beispielsweise so, dass ausgerichtete Teile nominell Übersetzungen voneinander in zwei natürlichen Sprachen sind. Eine statistische Datenbank wird kompiliert. Ein Auswertungsmodul berechnet Korrelationsbewertungen (correlation scores) für Wortpaare, von denen jeweils eines aus jedem Textkörper ausgewählt wurde. Liegt ein Paar von Textteilen vor (einer in jeder Sprache), verknüpft das Auswertungsmodul Wortpaar-Korrelationsbewertungen, um eine Ausrichtungsbewertung für die Textteile zu erhalten. Diese Ausrichtungsbewertungen können zum Überprüfen einer Übersetzung und/oder zum Ändern der ausgerichteten Textkörper verwendet werden, um unwahrscheinliche Ausrichtungen zu entfernen. Die Erfindung verwendet statistische Verfahren, und insbesondere ermöglichen Ausführungsformen die Ableitung einer wahrscheinlichkeitsbasierten Bewertung, um die Korrelation von zweisprachigen Wortpaaren zu messen.
Dieses Verfahren ist jedoch auf die Ausrichtung von einzelnen Wörtern begrenzt, ein Wort in der Ausgangssprache und ein Wort in der Zielsprache. Und es ist mit dem zuvor erwähnten Problem von fehlerhaften Zuordnungen und fehlenden Zuordnungen in Bezug auf die Verwendung bestimmter statistischer Bewertungen behaftet.
Zur Ausrichtung auf der Ebene von aus mehreren Wörtern bestehenden Begriffen wurden verschiedene Verfahren vorgeschlagen. Gaussier et al. beschreibt in „Some methods for the extraction of bilingual terminology", Proceedings of New Methods in Language Processing, Manchester, 1994, verschiedene Ausrichtungsverfahren auf der Grundlage einer einsprachigen Erkennung der aus mehreren Wörtern bestehenden Begriffe (z.B. durch Identifizieren von Wörtern, die mit hoher Wahrscheinlichkeit miteinander in Verbindung stehen), gefolgt von der Erkennung zweisprachiger Entsprechungen zwischen diesen aus mehreren Wörtern bestehenden Begriffen durch statistische Bewertungen. Die Verwendung dieser Verfahren ist jedoch auf Begriffe begrenzt, die in der Ausgangs- und Zielsprache aus genau zwei Wörtern zusammengesetzt sind.
Einige Systeme, in denen die zuvor erwähnte Begrenzung wegfällt, verwenden einfache Grammatiken, um aus mehreren Wörtern bestehende Begriffe in jeder Sprache zu identifizieren. Beispielsweise beschreibt die Veröffentlichung von Gaussier et al. (1994) ein System, in dem linguistische Muster verwendet werden, zum Beispiel „Adjektiv + Substantiv" oder „Substantiv + Präposition + Substantiv", die die Struktur nominaler Begriffe im Englischen und im Französischen kennzeichnen.
Im Artikel von B. Daille et al. mit dem Titel „Towards Automatic Extraction of Monolingual and Bilingual Terminology", August 1994, Association for Computational Linguistics, Proceedings of the 15^th conference an computational linguistics, Kyoto, Japan, XP002335379, werden verschiedene Bewertungsverfahren zum Erhalten einer Liste von zweisprachigen Begriffen für einen parallelen zweisprachigen Textkörper verglichen.
Beim Angehen des vorhergehenden Problems ist die Leistungsfähigkeit solcher Systeme nicht maximal, und es werden fehlerhafte Zuordnungen erzeugt, da sich nur ein kleiner Teil der so identifizierten Nominalphrasen als Begriffe erweisen, d.h. Einheiten, die einen Begriff des Sachgebiets ausdrücken. Beispielsweise könnte der Ausdruck „folgende Seite" als ein Begriff in einer Grammatik aus „Adjektiv + Substantiv" extrahiert werden, obwohl klar ist, dass es sich hierbei um ein vorherrschendes Satzglied in jedem technischen Text handelt.
Außerdem kommt es auch zu fehlenden Zuordnungen, da der Anwendungsbereich der linguistischen Muster auf eine bestimmte Anzahl von Ausdrücken begrenzt ist und bestimmte Strukturen ignoriert, die Begriffe liefern können, da es sich entweder um nichtstandardmäßige Wortkombinationen handelt (beispielsweise „antenne parabolique de réception" im Französischen, wobei das Adjektiv „parabolique" die ursprüngliche Folge „Substantiv + Präposition + Substantiv", „antenne de réception", maskiert) oder da es der Grammatik nicht gelang, bestimmte Wortarten aufgrund der Mehrdeutigkeit bestimmter Wörter zu identifizieren (beispielsweise müsste die Grammatik bei „microphone gain could be missed" „gain" als Verb anstatt als Substantiv ansehen).
Zu den angeführten Problemen jedes Verfahrens gehört schließlich auch die Tatsache, dass keines der vorhergehenden Systeme die Extraktion einer Ausrichtung von einem Begriff mit einem aus mehreren Wörtern bestehenden Begriff (one-to-many term alignment) ermöglicht, beispielsweise entspricht der englische Begriff „baseband" Begriff „bande de base" im Französischen.
Dementsprechend wäre es wünschenswert, die Bereitstellung eines neuen Systems zum automatischen Extrahieren einer mehrsprachigen Terminologie zu ermöglichen, bei dem die zuvor erwähnten Probleme wegfallen.
Die Erfindung verbessert bestehende zweisprachige Wort- oder Begriffsextraktionsverfahren und -systeme, indem verschiedene Begrifflängen berücksichtigt werden und indem die Genauigkeit der Extraktion verbessert wird.
Zusammenfassung der Erfindung
Eine Aufgabe der Erfindung ist die Bereitstellung eines Systems und eines Verfahrens zum automatischen Erzeugen einer mehrsprachigen Terminologie. Diese Aufgabe wird durch Verwenden eines im Folgenden ausführlich erläuterten Terminologieextraktionssystems erfüllt. Die vorliegende Erfindung ist ein computergestütztes Terminologieextraktionssystem zum Erzeugen einer zweisprachigen Terminologie aus einem mit einem Zieltext ausgerichteten Ausgangstext. Der Ausgangstext umfasst mindestens eine Folge von Quellbegriffen, wobei ein Begriff aus mindestens einem Wort besteht, und der Zieltext umfasst mindestens eine Folge von Zielbegriffen. Das System umfasst ein Begriffsextraktionsmittel (term extractor means), das mit mindestens einem aus den ausgerichteten Texten entnommenen Paar arbeitet, das aus einem mit einer Zielfolge ausgerichteten Quellfolge besteht. Das System ist dadurch gekennzeichnet, dass das Begriffsextraktionsmittel ein Mittel zum Erstellen eines Netzes umfasst, wobei jeder Knoten des Netzes mindestens einen Begriff aus dem Paar von ausgerichteten Quell-/Zielfolgen umfasst, und so dass jeder Quellbegriff in einem Quellknoten enthalten ist, wohingegen jeder Zielbegriff in einem Zielknoten enthalten ist. Die Begriffsextraktionseinrichtung umfasst außerdem ein Mittel zum Verbinden jedes aus mindestens einem Quellbegriff bestehenden Knotens mit jedem aus mindestens einem Zielbegriff bestehenden Knoten. Ein Begriffsstatistikmittel (term statistics means) ist mit dem Begriffsextraktionsmittel verbunden, um eine Zuordnungsbewertung für jedes Paar von verbundenen Quell-/Zielbegriffen zu berechnen, und ein Speichermittel ist mit dem Begriffsstatistikmittel verbunden, um die bewerteten Paare von verbundenen Quell-/Zielbegriffen zu speichern, die als zutreffende zweisprachige Begriffe angesehen werden.
Zum Auswählen von Verbindungen, die möglichen zweisprachigen Begriffen entsprechen, umfasst das System in einer bevorzugten Ausführungsform außerdem ein Mittel zum Ausführen eines Flussoptimierungsalgorithmus (flow optimization algorithm), so dass jede Verbindung zwischen einem Quellknoten und einem Zielknoten durch eine Kapazität und einen Fluss gekennzeichnet ist, und so dass dieses Mittel die Auswahl bevorzugter Verbindungen mit einem maximalen Fluss bei minimalem Kosten ermöglicht.
Bei einem Text mit einer Vielzahl von Folgen von Quellbegriffen, die mit Folgen von Zielbegriffen ausgerichtet sind, wird das Verfahren mit den folgenden Schritten erfolgreich auf alle Paare von Folgen angewandt:

a) Lesen eines ersten Paares von ausgerichteten Folgen von Quell- und Zielbegriffen;
b) Erstellen eines Netzes, in dem jeder Knoten mindestens einen Begriff aus einem ersten Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Knoten enthalten ist und jede Kombination von Zielbegriffen in einem Knoten enthalten ist;
c) Verbinden jedes aus mindestens einem Quellbegriff bestehenden Knotens mit jedem aus mindestens einem Zielbegriff bestehenden Knoten;
d) Berechnen einer Zuordnungsbewertung für jedes Paar von verbundenen Quell- und Zielknoten;
e) Auswählen von mindestens einer Verbindung, so dass die entsprechenden verbundenen Quell-/Zielbegriffe als zutreffende zweisprachige Begriffe angesehen werden;
f) Speichern der zutreffenden zweisprachigen Begriffe und der entsprechenden Zuordnungsbewertungen;
g) Wiederholen der Schritte a) bis f) für alle Paare von ausgerichteten Folgen.

Nachdem die letzte Folge verarbeitet wurde, wird eine Ausrichtungsstatistik für alle gespeicherten zweisprachigen Begriffe gemäß einer Bewertungsfunktion (scoring function) berechnet. Die endgültige Auswahl zutreffender zweisprachiger Begriffe erfolgt gemäß dem Ergebnis dieser Ausrichtungsstatistik.
Zur Verbesserung der endgültigen Auswahl zutreffender zweisprachiger Begriffspaare kann der gesamte Prozess in bestimmten Ausführungsformen mehrere Male über den gesamten Textkörper wiederholt werden, wobei die sich aus einer Wiederholung ergebende endgültige Auswahl von Begriffspaaren verwendet wird, um die Ausgangsbedingungen der folgenden Wiederholung zu ändern. In einer solchen Ausführungsform wird die Wortausrichtungsstatistik, die in die Berechnung von Begriffszuordnungsbewertungen eingeht, vor der folgenden Wiederholung aktualisiert. In einer anderen solchen Ausführungsform werden die sich aus einer Wiederholung ergebenden zutreffenden Begriffspaare während der Netzerstellungsschritte in der folgenden Wiederholung nicht als Netzknoten verwendet. Bei jeder dieser Ausführungsformen werden die Wiederholungen ausgeführt, bis ein Endkriterium erfüllt ist.
Das beanspruchte System und Verfahren kann in vielen Bereichen verwendet werden, die von zweisprachigen Wort- oder Begriffslexika profitieren, darunter die Fremdsprachenlehre, die Arbeit mit mehrsprachiger Terminologie, die Kompilierung mehrsprachiger Wörterbücher, die personenunterstützte maschinelle Übersetzung oder die maschinenunterstützte Übersetzung, um nur einige zu nennen. Die bevorzugte Ausführungsform der vorliegenden Erfindung betrifft die maschinenunterstützte Übersetzung. Es wird jedoch verstanden, dass viele andere Bereiche vom beanspruchten System und Verfahren der vorliegenden Erfindung profitieren.
Kurze Beschreibung der Zeichnungen
1 ist eine Darstellung eines Computersystems, das ein maschinenunterstütztes Übersetzungssystem enthält.
2 veranschaulicht eine ausführlichere Beschreibung des maschinenunterstützten Übersetzungssystems, das die Terminologieextraktionskomponente enthält.
3 ist ein Flussdiagramm, das die gesamte Funktionsweise der Terminologieextraktionskomponente veranschaulicht.
4 ist eine Darstellung des zwischen einem Paar von zweisprachigen Sätzen erstellten Netzes und der Bögen zwischen Wörtern oder Begriffen in diesen Sätzen.
5 veranschaulicht ein bestimmtes Exemplar dieses Netzes für ein zweisprachiges Paar spezifischer Sätze.
6 ist ein Flussdiagramm, das einen Teil der Arbeitsweise der Extraktionskomponente darstellt.
7 ist ein Flussdiagramm, das die während des Flussoptimierungsprozesses ausgeführten Arbeitsgänge darstellt.
8a und 8b sind Flussdiagramme, die zwei Ausführungsformen des Vorgangs des Wiederholens des gesamten Begriffsauswahlprozesses mehrere Male über den gesamten Textkörper zeigen.
9 ist ein Beispiel von zweisprachigen Begriffspaaren, die in einer beispielhaften Ausführung der Erfindung erhalten wurden.
Ausführliche Beschreibung der Erfindung
Mit Bezugnahme auf die Zeichnungen und insbesondere auf 1 wird nun eine Umgebung dargestellt, in der eine bevorzugte Ausführungsform der vorliegenden Erfindung betrieben wird. Die bevorzugte Ausführungsform der vorliegenden Erfindung wird auf einer Computerplattform 104 betrieben. Die Computerplattform 104 enthält bestimmte Hardwareeinheiten 112, darunter eine oder mehrere Zentraleinheiten (CPU) 116, einen Arbeitsspeicher (RAM) 114 und eine Ein-/Ausgabe- (EA-) Schnittstelle 118. Die Computerplattform 104 enthält ein Betriebssystem 108 und kann einen Mikrobefehlscode 110 enthalten. Ein maschinenunterstütztes Übersetzungssystem 103 kann ein Teil des Mikrobefehlscodes 110 oder ein über das Betriebssystem auszuführendes Anwendungsprogramm sein. Verschiedene periphere Komponenten können mit der Computerplattform 104 verbunden werden, beispielsweise ein Endgerät 126, eine Datenspeichereinheit 130 und eine Druckeinheit 134.
Fachleute werden problemlos verstehen, dass die Erfindung ohne viele Änderungen in anderen Systemen realisiert werden kann.
2 stellt eine ausführlichere Beschreibung des maschinenunterstützten Übersetzungssystems 103 dar. Eine Benutzerschnittstelle 201 kann einen Texteditor zur Eingabe einer manuellen Übersetzung eines Ausgangstextes oder zum Editieren einer automatischen Übersetzung des Textes enthalten. Die Benutzerschnittstelle ist mit einem zweisprachigen Terminologiedatenbank-Verwaltungssystem 202, einem zweisprachigen Satzdatenbank-Verwaltungssystem 203, einem zweisprachigen Satzausrichtungssystem 204, einem zweisprachigen Terminologieextraktionssystem 205 und einer automatischen Übersetzungsmaschine 206 verbunden.
Eine zweisprachige Terminologiedatenbank 207, die die Quellbegriffe und deren entsprechende Übersetzung speichert, ist mit dem zweisprachigen Terminologieextraktionssystem 205 verbunden, um die Begriffspaare zu empfangen. Es ist jedoch auch eine manuelle Eingabe durch einen Bediener über das zweisprachige Terminologiedatenbank-Verwaltungssystem 202 möglich.
Eine zweisprachige Satzdatenbank 208 enthält ausgerichtete Sätze (Quellsatz und entsprechender Zielsatz), die aus einem oder mehreren Ausgangstexten entnommen wurden, und ihre entsprechenden Übersetzungen. Sie kann entweder vom Benutzer durch manuelles Eingeben von Übersetzungen oder durch das zweisprachige Satzausrichtungssystem 204 oder durch die automatische Übersetzungsmaschine 206 gespeist werden.
Das zweisprachige Terminologieextraktionssystem 205 ist mit der zweisprachigen Satzdatenbank 208 verbunden, um zweisprachige ausgerichtete Sätze aus dieser einzugeben. Fachleute verstehen jedoch, dass die Erfindung nicht auf die Verwendung einer zweisprachigen Satzdatenbank begrenzt ist, um der Extraktionseinrichtung zweisprachige Paare bereitzustellen, sondern es können auch andere Quell- und Zielstrukturen, beispielsweise Gruppen von Wörtern beliebiger Länge, in die Extraktionseinrichtung eingegeben werden.
Das zweisprachige Terminologieextraktionssystem 205 ist außerdem mit der zweisprachigen Terminologiedatenbank 207 verbunden, um zweisprachige Wortpaare oder aus mehreren Wörtern bestehende Begriffe auszugeben, die vom Terminologieextraktionssystem automatisch erzeugt wurden.
3 stellt eine ausführlichere Beschreibung des zweisprachigen Terminologieextraktionssystems 205 dar. Die Speichereinheit 312 kann eine oder eine Kombination von mehr als einer Datenspeichereinheit sein, z.B. Disketten oder ein Arbeitsspeicher (RAM). Die bevorzugte Ausführungsform der Erfindung verwendet einen internen Arbeitsspeicher (RAN) des Computers als Speichereinheit 312.
Eine zweisprachige Wortstatistik-Ermittlungseinrichtung (word statistics determinator) 302 ist mit der Speichereinheit 312 und einer Begriffsextraktionseinrichtung 304 verbunden. Die Begriffsextraktionseinrichtung 304 ist mit der Speichereinheit 312 und mit einer zweisprachigen Begriffsstatistik-Ermittlungseinrichtung (term statistics determinator) 306 verbunden, wobei die letztere mit der Speichereinheit 312 verbunden ist.
Vor der ausführlichen Beschreibung jeder Komponente von 3 und des Verfahrens zum Betreiben derselben werden zunächst die 4 und 5 beschrieben, da sie das Netzkonzept der Erfindung veranschaulichen.
Die vorliegende Erfindung beinhaltet als Erstes die Übertragung eines zweisprachigen Paares von ausgerichteten Sätzen in das zweisprachige Terminologieextraktionssystem 205. Die ausgerichteten Sätze werden sodann zur anschließenden Verarbeitung als ein Netz von Knoten modelliert.
4 ist eine Teilansicht eines Netzes, das sowohl aus den Knoten des Quellsatzes als auch des Zielsatzes besteht. Alle den Quellsatz betreffenden Knoten werden in einem ersten Bereich 402 dargestellt. Ähnlich werden alle möglichen den Zielsatz betreffenden Knoten in einem zweiten Bereich 404 dargestellt. Jedes Wort und jede Wortfolge des Quellsatzes sowie jedes Wort und jede Wortfolge des Zielsatzes werden von einem einmaligen Knoten im Netz dargestellt.
Zur Beschreibung des ersten Bereichs 402 wird eine gezeichnete Darstellung des Quellnetzes als ein Dreieck dargestellt, in dem die Basis aus so vielen Knoten (S1 bis Sm) wie die Anzahl von Wörtern im Quellsatz besteht. Jeder Knoten Si der Basis stellt ein einzelnes Wort des Quellsatzes dar, während die Spitze des Dreiecks die komplette Wortfolge darstellt (S1SiSm). Die dazwischen liegenden Knoten stellen jeweils mehrere Wörter dar und sind für bestimmte Teildreiecke sowohl Spitzen- als auch Basisknoten. Beispielsweise ist der in 4 gezeigte Knoten S1S2S3 die Spitze des Dreiecks, dessen Basis (S1,S2,S3) ist, und des Dreiecks, dessen Basis (S1S2,S2S3) ist. Außerdem ist der Knoten S1S2S3 auch ein Basisknoten für alle aus S1S2S3 erstellten Teildreiecke.
In der unteren Hälfte von 4 bildet ein zweites Dreieck (404) das Zielnetz. Ähnlich besteht die Basis dieses Dreiecks aus den Knoten T1 bis Tn, die die n Wörter des Zielsatzes darstellen, während seine Spitze die Wortfolge (T1TjTn) darstellt, d.h. den kompletten Zielsatz.
Nachdem jeder Quell- und jeder Zielsatz in ein Quellnetz und ein Zielnetz zerlegt wurde, wird jeder Knoten des Quellnetzes in Entsprechung zu jedem Knoten des Zielnetzes gesetzt. In der Tat werden Beziehungen zwischen Knoten durch zweisprachige Bögen erstellt, wie in 4 zu erkennen ist, wobei der Klarheit halber nur zwei solche Bögen (406, 408) gezeichnet wurden.
Der Bogen 406 verbindet einen das Quellwort Si darstellenden Knoten mit einem das Zielwort Tj darstellenden Knoten. Ähnlich verbindet der Bogen 408 einen die Quellwortfolge (S1S2) darstellenden Knoten mit einem die Zielwortfolge (T1T2T3) darstellenden Knoten.
5 ist eine Veranschaulichung einer Netzdarstellung mit zwei aus einem zweisprachigen Textkörper aus dem Bereich der Datenfernübertragung entnommenen Sätzen. Der Quellsatz besteht aus den folgenden elf englischen Quellwörtern:
an outstanding operational feature used in FSS telecommunication ist multiple access
Der Zielsatz besteht aus den folgenden vierzehn französischen Zielwörtern:
l'accès multiple est une caractéristique d'exploitation très importante des télécommunications du SFS
Die Bögen 502, 504 und 506 betreffen Wortfolgen im Quell- und Zielsatz, die die Übersetzung voneinander sind. Beispielsweise verbindet der Bogen 502 die englische Folge:
outstanding operational feature
mit der französischen Folge
caractéristique d'exploitation très importante
Die in der Erfindung verwendete Modellierung durch ein Netz ermöglicht jede Verbindung zwischen einer beliebigen Folge von aufeinanderfolgenden Quellwörtern mit einer beliebigen Folge von aufeinanderfolgenden Zielwörtern. Um ein Hochleistungssystem zu erreichen, ist es jedoch möglich, einige als ungültig erachtete Verbindungen zu ignorieren.
Die Auswahl jener Bögen, die gültigen Verbindungen entsprechen, beruht auf einem Prinzip, das auf dem Gebiet der Optimierung bekannt ist und das darin besteht, einen Fluss mit minimalen Kosten in einem Netz zu suchen. Die bevorzugte Ausführungsform der vorliegenden Erfindung verwendet den so genannten Prozess mit „maximalem Fluss/minimalen Kosten" („maximum flow/minimal cost” process), wie an späterer Stelle beschrieben wird. Es wird jedoch verstanden, dass zu diesem Zweck auch andere Netzflussprozesse verwendet werden könnten, beispielsweise der Prozess mit „maximalem Fluss".
Mit erneuter Bezugnahme auf 3 berechnet die zweisprachige Wortstatistik-Ermittlungseinrichtung 302 statistische Bewertungen zwischen einzelnen Quellwörtern und Zielwörtern in ausgerichteten Sätzen. In der Literatur stehen für einen solchen Zweck verschiedene Verfahren zur Verfügung, die alle in der Summierung der Zählwerte von in ausgerichteten Sätzen vorkommenden Wortpaaren und in der Berechnung von Korrelationsbewertungen für diese Wortpaare bestehen, wie beispielsweise in der GB-Patentanmeldung 2 279 164 erläutert wird. Die zweisprachige Wortstatistik wird in der im Folgenden beschriebenen Begriffsextraktionseinrichtung 304 verwendet und kann in einem sich wiederholenden Prozess aktualisiert werden, wie in der Beschreibung von 8a an späterer Stelle beschrieben wird.
Die in der Begriffsextraktionseinrichtung 304 ausgeführten Arbeitsgänge werden nun mit Bezugnahme auf 6 im Einzelnen beschrieben. Im Schritt 602 wird ein Paar von ausgerichteten Sätzen aus dem zweisprachigen Textkörper 208 eingegeben. Der Begriff „ausgerichtete Sätze" bezieht sich auf einen Quellsatz und den entsprechenden übersetzten Zielsatz. Das Verfahren zum Ausrichten des Ausgangstextes mit dem Zieltext ist unabhängig vom beanspruchten Verfahren der Erfindung, und alle bekannten Ausrichtungsverfahren können verwendet werden.
Das Paar von ausgerichteten Sätzen wird sodann im Schritt 604 zum Erstellen eines Quellnetzes und eines Zielnetzes von Knoten auf die zuvor in Bezug auf 4 beschriebene Weise verwendet.
Zwischen jedem Knoten des Quellsatzes und jedem Knoten des Zielsatzes werden sodann zweisprachige Bögen eingerichtet. Die Anzahl und der Typ der Bögen könnten jedoch veränderlich sein und als Parameter definiert werden. Beispielsweise ist es möglich zu definieren, dass kein Bogen von jenen Quellknoten erstellt wird, die Artikel oder Präpositionen oder andere Typen von Quellknoten darstellen, die als leere Wörter betrachtet werden können. Andere Konfigurationen für die Erstellung der Bögen können ausgewählt werden. Falls eine Wortfolge wie „parabolic antenna", die einem bekannten, bereits in der Datenbank 207 gespeicherten Ausdruck entspricht, Teil eines verarbeiteten Quellsatzes ist, erstellt das System in einer bestimmten Ausführungsform einen Bogen vom entsprechenden Quellknoten „parabolic antenna", wohingegen jeder einzelne Quellknoten („parabolic" und „antenna") ignoriert wird.
In einer bevorzugten Ausführungsform der vorliegenden Erfindung wird die so genannte Grammatik vom Typ „Nominalphrase" verwendet, um mögliche Knoten zu identifizieren, die grammatikalisch zutreffend sind.
Mit erneuter Bezugnahme auf das in 5 gezeigte Beispiel wird die Nominalphrase „outstanding operational feature" als ein möglicher Knoten für die Erstellung eines Bogens identifiziert, wohingegen die einzelnen Wörter „outstanding", „operational" und „feature" ignoriert werden und kein von diesen Wörtern beginnender Bogen eingerichtet wird.
Auf dem Gebiet der Optimierung kann ein Bogen durch eine Kapazität und den ihr zugeordneten Fluss gekennzeichnet werden. Obwohl es verschiedene Möglichkeiten gibt, eine Kapazität und einen Fluss zu definieren, beispielsweise im Verfahren „maximaler Fluss/minimale Kosten", werden die folgenden Definitionen für die Anwendung auf dem Gebiet der Sprachverarbeitung erhalten:

• die Kapazität eines einen Quellknoten mit einem Zielknoten verbindenden Bogens ist das Maximum zwischen der Größe des Quellknotens und der Größe des Zielknotens, wobei die Größe eines Knotens die Anzahl einzelner Wörter ist, aus denen der Knoten besteht;
• der Wert eines Flusses, der in einem einen Quellknoten mit einem Zielknoten verbindenden Bogen fließt, ist als die Summe der statistischen Wortausrichtungsbewertungen zwischen allen Wörtern im Quellknoten und allen Wörtern im Zielknoten definiert.

Außerdem setzt das in der bevorzugten Ausführungsform verwendete Optimierungsverfahren voraus, dass ein Fluss in einem Bogen Kosten beinhaltet; für jeden Bogen sind die entsprechenden Kosten aktuell als das Produkt aus konstanten Kosten pro Flusseinheit und dem Wert des Flusses in diesem Bogen definiert.
Der nächste Schritt 606 besteht in der Optimierung des Netzflusses, der für das erste Paar von verarbeiteten zweisprachigen Sätzen erstellt wurde. Der sich aus dem Optimierungsschritt ergebende optimale Fluss bezeichnet bestimmte Bereiche als die wahrscheinlichsten Verbindungen zwischen den Quell- und Zielbegriffen in diesen Sätzen.
Zum Erhalten eines optimalen Flusses für die beiden Sätze, aus denen entsprechende Kandidaten von zweisprachigen Begriffspaaren entnommen werden können, verwendet das vorgeschlagene Verfahren Algorithmen, die Flüsse in Netzwerken optimieren, beispielsweise den an späterer Stelle mit Bezugnahme auf 7 beschriebenen Algorithmus.
Mit erneuter Bezugnahme auf 6 und den im Schritt 608 ausgeführten Vorgang werden die jeweiligen Begriffe, die jenen im Schritt 606 identifizierten bevorzugten Verbindungen entsprechen, aus den Quell- und Zielsätzen entnommen und im Speicher 312 gespeichert. Die dem Begriffspaar entsprechende Zuordnungsbewertung ist nach der Flussoptimierung der endgültige Wert des Flusses, der in dem diese Begriffe verbindenden Bogen fließt.
Der Schritt 610 stellt sicher, dass der Prozess über den gesamten in der zweisprachigen Satzdatenbank gespeicherten Satz von ausgerichteten zweisprachigen Sätzen wiederholt wird. Im Schritt 610 wird eine Prüfung ausgeführt, um festzustellen, ob es ein weiteres zu analysierendes Satzpaar gibt. Ist dies der Fall, kehrt der Prozess in einer Schleife zurück zum Schritt 602 (Verzweigung JA), andernfalls wurden alle Paare von Sätzen analysiert, und der Prozess geht weiter zum Schritt 612 (Verzweigung NEIN).
Mit erneuter Bezugnahme auf 3 hat das System nach der Verarbeitung aller Paare von zweisprachigen Sätzen durch die Begriffsextraktionseinrichtung 304 eine Anzahl von Paaren von Kandidatenbegriffen angesammelt, die entnommen und im Speicher 312 gespeichert wurden. Die Aufgabe der zweisprachigen Begriffsstatistik-Ermittlungseinrichtung 306 besteht darin, eine Statistik für alle diese Begriffspaare zu berechnen und zu entscheiden, welche für gültige Begriffe erachtet werden können.
Die in der zweisprachigen Begriffsstatistik-Ermittlungseinrichtung 306 ausgeführten ausführlichen Arbeitsgänge werden nun mit Bezugnahme auf die Schritte 612 und 614 von 6 beschrieben.
Einige der Begriffspaare, die in jeder Wiederholung identifiziert und im Schritt 608 gespeichert werden, können selbstverständlich in mehreren Satzpaaren erscheinen. Der Schritt 612 berechnet eine Statistik zu den Begriffspaaren auf der Grundlage von Parametern, beispielsweise der Anzahl ihres Vorkommens in den Satzpaaren, und vergibt für jedes Begriffspaar eine Bewertung, die die Wertigkeit des Begriffs misst; auf diese Weise sind zum Beispiel jene Kandidaten mit den besten Bewertungen mit höherer Wahrscheinlichkeit zutreffende Begriffe als jene mit geringeren Bewertungen. In der bevorzugten Ausführungsform der vorliegenden Erfindung ist diese Bewertung eine Funktion der Anzahl von Vorkommen des Begriffspaares in ausgerichteten Sätzen und der Anzahl von Vorkommen der einzelnen Begriffe (Quell- und Zielbegriffe). Insbesondere wird die bevorzugte Bewertungsfunktion, wie sie von Ted Dunning vorgeschlagen wird, in der ersten Ausführungsform realisiert. Eine ausführliche Erläuterung dieser zweisprachigen Bewertungsfunktion ist in Dunning (T.), „Accurate methods for the statistics of surprise and coincidence", Computational Linguistics, Band 19, Nummer 1, März 1993, nachzulesen und ist hier als Bezug mit inbegriffen.
Im Schritt 614 werden die Kandidatenbegriffspaare entsprechend der im Schritt 612 berechneten Bewertung geordnet, und ein Kriterium für die Entscheidung, welche gültig sind, wird angewandt. Beispielsweise kann ein Bewertungsschwellenwert festgelegt werden, und jene Kandidaten, deren Bewertung den Schwellenwert übersteigt, werden als gültige Kandidaten gespeichert.
Es wird verstanden, dass verschiedene andere Bewertungs- und Schwellenwertfunktionen zur Verwendung in den Schritten 612 und 614 geeignet sind.
Die Ergebnisse, die durch die in 6 beschriebenen Vorgänge erhalten werden, können durch mehrmaliges Wiederholen des gesamten Prozesses über den gesamten Textkörper verbessert werden. Dies wird an späterer Stelle mit Bezugnahme auf die 8a und 8b beschrieben.
7 zeigt ausführlich die in der Blockfunktion 606 ausgeführten Vorgänge zum Erreichen einer Netzflussoptimierung. Obwohl verschiedene Netzflussoptimierungsalgorithmen möglich sind, nämlich all jene, die das Problem maximaler Fluss/minimale Kosten lösen, verwendet eine bevorzugte Ausführungsform der vorliegenden Erfindung zu diesem Zweck den Algorithmus, der zuerst in der Veröffentlichung von Klein beschrieben wurde. Eine ausführliche Erläuterung dieses Algorithmus ist in M. Klein, „A primal method for minimal cost flows, with applications to the assignment and transportation Problems", Management Science, 14, 1967, zu finden. Lediglich die verschiedenen grundlegenden Schritte dieses Algorithmus werden hier dargestellt.
Im ersten Schritt 702 wird ein anfänglicher Fluss durch das Netz übertragen.
Im nächsten Schritt 704 wird ein dem anfänglichen Netz zugeordnetes paralleles Netz erstellt. Dieses zweite Netz enthält dieselben Knoten und dieselben Bögen wie das ursprüngliche Netz, jedoch wird die Kapazität jedes Bogens als die verbleibende Differenzkapazität zwischen dem ursprünglichen Fluss und der Kapazität des Bogens berechnet, und die Kosten für einen Fluss in jedem Bogen sind je nach der Richtung des Bogens entweder die ursprünglichen Kosten oder deren negativer Wert.
Der Kern des Algorithmus von Klein besteht im Auffinden eines Zyklus von Bögen mit negativen Kosten in ihrem zugeordneten Netz, wobei dieser Vorgang im Schritt 706 ausgeführt wird. Ein Zyklus von Bögen ist eine Folge von Bögen, die verschiedene Knoten verbinden, wobei der letzte Bogen der Folge am ersten Knoten endet, von dem aus der erste Bogen beginnt.
Falls kein negativer Zyklus gefunden wird (Verzweigung NEIN), was bedeutet, dass der Fluss bereits optimiert worden ist, wird der Optimierungsprozess beendet.
Falls ein negativer Zyklus gefunden wird, wird der Gesamtfluss verbessert, indem der größtmögliche Fluss in den negativen Zyklus übertragen wird (Schritt 710).
Der Prozess wird sodann wiederholt, bis kein negativer Zyklus übrig bleibt, was bedeutet, dass der sich ergebende Fluss optimal ist.
Fachleute werden erkennen, dass die vorliegende Erfindung mit anderen Optimierungsalgorithmen angewandt werden kann. Der in der vorliegenden Erfindung zitierte Beispielalgorithmus dient lediglich der Veranschaulichung und soll weder erschöpfend sein noch die Erfindung begrenzen.
Mit Bezugnahme auf 6 wurde erwähnt, dass der gesamte in der Figur beschriebene Prozess mehrere Male über den gesamten Textkörper wiederholt werden kann, um die endgültige Auswahl zutreffender zweisprachiger Begriffspaare zu verbessern. Das Grundprinzip besteht darin, dass die sich aus einer Wiederholung ergebende endgültige Auswahl von Begriffspaaren zum Ändern der Anfangsbedingungen der folgenden Wiederholung verwendet wird.
Zwei Exemplare eines solchen Wiederholungsprozesses werden nun mit Bezugnahme auf die 8a und 8b beschrieben.
Falls eine enger Zusammenhang zwischen dem englischen Begriff „baseband" und dem französischen Begriff „bande de base" gefunden wird, legt dies intuitiv nahe, dass die zweisprachige Einzelwortstatistik einen Zusammenhang zwischen „baseband" und „bande" und auch zwischen „baseband" und „base" widerspiegeln muss. Folglich kann die durch eine erste Wiederholung des gesamten Prozesses von 6 erhaltene zweisprachige Begriffsausrichtungsstatistik zur Verbesserung der im Optimierungsschritt 606 verwendeten Einzelwortausrichtungsstatistik verwendet werden. 8a zeigt, wie dieser Rückmeldungsvorgang zur Verbesserung des Prozesses ausgeführt wird. Die Einzelwortstatistik wird im Schritt 802 berechnet oder aus dem Speicher geladen.
Im nächsten Schritt 804 werden die vorhergehenden Ergebnisse während des Netzoptimierungsvorgangs verwendet, der von der zweisprachigen Begriffsextraktionseinrichtung ausgeführt wird.
Sobald für den gesamten Textkörper eine zweisprachige Begriffsstatistik gesammelt wurde, kann diese im Schritt 808 zur Verbesserung der Einzelwortstatistik verwendet werden. Diese verbesserte Wortstatistik ersetzt die ursprüngliche.
Der Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird (Schritt 806), beispielsweise nach einer bestimmten Anzahl von Wiederholungen des Prozesses.
8b zeigt einen ähnlichen sich wiederholenden Prozess, wobei die sich aus einer Wiederholung ergebenden zutreffenden Begriffspaare in der folgenden Wiederholung während der Netzerstellungsschritte nicht als Netzknoten verwendet werden, was den Bereich möglicher Netzlösungen für ein gegebenes Paar von Sätzen verringert und daher die Qualität der Begriffsausrichtungsergebnisse verbessert.
Im Schritt 812 ignoriert der Netzerstellungsschritt (ähnlich wie der Schritt 604 von 6) jene Knoten und Verbindungen, die Begriffspaaren entsprechen, die am Ende der vorhergehenden Wiederholung als zutreffend ausgewählt wurden.
Der Schritt 814 ist gleichwertig mit den Schritten 606 bis 610 von 6 und führt den verbleibenden Begriffsextraktionsprozess aus.
Der neue Satz von zutreffenden im Schritt 818 ausgewählten Begriffspaaren kann in der folgenden Wiederholung ignoriert werden.
Der Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird (Schritt 816), beispielsweise nachdem eine bestimmte Anzahl von Begriffspaaren ausgewählt wurde oder nachdem die Bewertungen der ausgewählten Begriffspaare einen bestimmten unteren Schwellenwert erreicht haben.
Beide Möglichkeiten der Prozesswiederholung, wie sie in den 8a und 8b beschrieben wurden, können gesondert oder in Verbindung miteinander in einer einzigen Ausführungsform der Erfindung verwendet werden.
Mit Bezugnahme auf 9 wurde nun mit der vorgeschlagenen Ausführungsform der vorliegenden Erfindung ein Experiment mit einem Textkörper ausgeführt, der aus 1000 englischen, mit ihrer französischen Übersetzung ausgerichteten Sätzen besteht, wobei sich eine Liste von 400 ausgewählten Begriffspaaren ergibt. In einer manuellen Auswertung dieser Liste durch Gutachter wurden nahezu 96 % dieser Kandidatenbegriffspaare für korrekt erachtet.
Aus dieser Liste entnommene Beispielbegriffspaare werden in 9 gezeigt.

Claims

Computergestütztes Terminologieextraktionssystem (205) zum Erzeugen einer zweisprachigen Terminologie aus einem mit einem Zieltext ausgerichteten Ausgangstext, wobei der Ausgangstext mindestens eine Folge von Quellbegriffen umfasst, der Zieltext mindestens eine Folge von Zielbegriffen umfasst und ein Begriff aus mindestens einem Wort besteht, wobei das System Folgendes umfasst: ein Begriffsextraktionsmittel (304), das mit mindestens einem Paar arbeitet, das aus den ausgerichteten Texten entnommen wurde und aus einer mit einer Zielfolge ausgerichteten Quellfolge besteht; ein mit dem Begriffsextraktionsmittel verbundenes Begriffsstatistikmittel (306) zum Berechnen einer statistischen Zuordnungsbewertung für jedes Paar von Quell- und Zielbegriffen, die im gesamten Satz von ausgerichteten Quell-/Zielfolgen erkannt wurden; ein mit dem Begriffsstatistikmittel verbundenes Speichermittel (312) zum Speichern der bewerteten Paare von Quell-/Zielfolgen, die als zutreffende zweisprachige Begriffe betrachtet werden; dadurch gekennzeichnet, dass das Begriffsextraktionsmittel Folgendes umfasst: ein Mittel zum Erstellen eines Netzes (402, 404), wobei jeder Knoten (Si, Tj) mindestens einen Begriff aus dem mindestens einen Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Quellknoten und jede Kombination von Zielbegriffen in einem Zielknoten enthalten ist; und ein Mittel zum Verbinden jedes Quellknotens (Si) mit jedem Zielknoten (Tj).
System nach Anspruch 1, das außerdem ein Mittel zum Ausführen eines Flussoptimierungsalgorithmus umfasst, so dass jede Verbindung (406, 408) zwischen einem Quellknoten (Si) und einem Zielknoten (Tj) durch eine Kapazität und einen Fluss gekennzeichnet ist.
System nach Anspruch 2, wobei der Flussoptimierungsalgorithmus ein Algorithmus mit maximalem Fluss/minimalen Kosten ist.
System nach den Ansprüchen 1 bis 3, wobei das Verbindungsmittel außerdem ein Mittel zum Auswählen einer Gruppe von Quellknoten umfasst, die gemäß festgelegten Kriterien nicht mit den Zielknoten verbunden werden dürfen, wobei beispielsweise bereits im Speichermittel (312) gespeicherte Quellknoten ignoriert werden.
System nach den Ansprüchen 1 bis 4, das außerdem ein Wortstatistikmittel (302) zum Berechnen von Zuordnungsbewertungen für jedes Paar von Quell- und Zielbegriffen umfasst, wobei die Quellbegriffe aus einem Wort bestehen.
Verfahren zum Erzeugen einer zweisprachigen Terminologie aus einem mindestens eine Folge von Quellbegriffen umfassenden Ausgangstext, der mit einem mindestens eine Folge von Zielbegriffen umfassenden Zieltext ausgerichtet ist, wobei ein Begriff aus mindestens einem Wort besteht, wobei das Verfahren die folgenden Schritte umfasst: a) Lesen eines ersten Paares, das aus einer mit einer Zielfolge ausgerichteten Quellfolge besteht; b) Erstellen eines Netzes (402, 404), wobei jeder Knoten (Si, Tj) mindestens einen Begriff aus dem ersten Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Quellknoten und jede Kombination von Zielbegriffen in einem Zielknoten enthalten ist; c) Verbinden jedes Quellknotens (Si) mit jedem Zielknoten (Tj); d) Berechnen einer Zuordnungsbewertung für jedes Paar von verbundenen Quell- und Zielknoten; e) Auswählen von mindestens einer Verbindung, so dass die entsprechenden verbundenen Quell-/Zielbegriffe als zutreffende zweisprachige Begriffe betrachtet werden; f) Speichern der entsprechenden zweisprachigen Begriffe; g) Wiederholen der Schritte a) bis f) für alle Paare von ausgerichteten Folgen.
Verfahren nach Anspruch 6, das außerdem nach dem Schritt g) die folgenden Schritte umfasst: h) Berechnen einer Ausrichtungsstatistik für die gespeicherten zweisprachigen Begriffe gemäß einer Bewertungsfunktion; i) Auswählen bewerteter zweisprachiger Begriffe als zutreffende Kandidaten.
Verfahren nach Anspruch 7, das nach dem Schritt i) außerdem die folgenden Schritte umfasst: j) Verwenden der statistischen Ergebnisse von Schritt h) für jedes Paar von Quell- und Zielbegriffen zum Verbessern der Einzelwortstatistik für jene Wörter, die die Begriffe enthalten; k) Aktualisieren der im Schritt d) verwendeten Zuordnungsbewertungen gemäß den Ergebnissen von Schritt j); 1) Wiederholen der Schritte a) bis k) mit der aktualisierten Einzelwortstatistik, bis ein Endkriterium erfüllt wird.
Verfahren nach Anspruch 8, das nach dem Schritt i) außerdem den folgenden Schritt umfasst: m) Wiederholen der Schritte a) bis k), bis ein Endkriterium erfüllt wird, wobei im Netzerstellungsschritt b) jene Knoten und Verbindungen nicht berücksichtigt werden, die Begriffen zugeordnet sind, die im Schritt i) der vorhergehenden Wiederholung ausgewählt wurden.
Verfahren nach den Ansprüchen 6 bis 9, wobei der Auswahlschritt e) gemäß einem Netzwerkflussoptimierungsalgorithmus ausgeführt wird.