DE69837979T2 - System zum Extrahieren einer mehrsprachigen Terminologie - Google Patents

System zum Extrahieren einer mehrsprachigen Terminologie Download PDF

Info

Publication number
DE69837979T2
DE69837979T2 DE69837979T DE69837979T DE69837979T2 DE 69837979 T2 DE69837979 T2 DE 69837979T2 DE 69837979 T DE69837979 T DE 69837979T DE 69837979 T DE69837979 T DE 69837979T DE 69837979 T2 DE69837979 T2 DE 69837979T2
Authority
DE
Germany
Prior art keywords
source
terms
bilingual
node
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69837979T
Other languages
English (en)
Other versions
DE69837979D1 (de
Inventor
Jean-Marc Lange
Eric Gaussier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69837979D1 publication Critical patent/DE69837979D1/de
Publication of DE69837979T2 publication Critical patent/DE69837979T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erzeugen einer zweisprachigen Terminologie. Insbesondere betrifft die Erfindung maschinelle Übersetzungssysteme, Terminologieverwaltungssysteme und andere Systeme, die eine mehrsprachige Terminologie verwenden.
  • Stand der Technik
  • Die Erkennung einer mehrsprachigen Terminologie kann als ein Prozess betrachtet werden, bei dem eine Texteinheit U1 (ein Wort oder eine Folge von Wörtern) in einem Ausgangstext T1 in Übereinstimmung mit einer entsprechenden Einheit U2 in einen Zieltext T2 gesetzt wird, bei dem es sich um die Übersetzung von T1 handelt, so dass U2 die Übersetzung von U1 ist. In der Vergangenheit war dieser Prozess ein manueller Vorgang, der von Terminologen zum Erstellen von Terminologiedatenbanken ausgeführt wurde. Die Automatisierung eines solchen Prozesses wird allgemein als Ausrichtung (alignment) bezeichnet.
  • Die Ausrichtung wird normalerweise durch statistische Verfahren ausgeführt. Der Artikel von Brown et al. (06/1991) mit dem Titel „Aligning sentences in parallel corpora", Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, Kalifornien, beschreibt ein Verfahren, bei dem Zuordnungsbewertungen (association scores) zwischen den Texteinheiten in verschiedenen Sprachen berechnet werden und anschließend die optimale Kombination von mehrsprachigen Texteinheiten auf der Grundlage dieser Bewertungen ausgewählt wird.
  • Die Nachteile solcher Verfahren bestehen darin, dass sie sowohl zu fehlerhaften Zuordnungen (noise) als auch fehlenden Zuordnungen (silence) führen. Fehlerhafte Zuordnungen betreffen mehrsprachige Zuordnungen, die zwar gefunden werden, aber falsch oder unzutreffend sind, beispielsweise (dog, aboyer), wobei „aboyer" (bellen) in der Tat mit Hunden zusammenhängt, jedoch keine Übersetzung des Wortes „dog" („Hund") ist, während die fehlende Zuordnung sich auf einige ansonsten zutreffende mehrsprachige Zuordnungen bezieht, die im Text vorhanden sind, jedoch nicht gefunden werden.
  • Außerdem kann die Ausrichtung in Abhängigkeit der Größe der auszurichtenden Texteinheiten auf verschiedenen Ebenen des Textes verarbeitet werden, z.B. kann sie auf der Ebene von Dokumenten, Absätzen, Sätzen, aus mehreren Worten bestehenden Begriffen oder sogar einzelnen Wörtern erfolgen.
  • Bekannte Systeme, die eine Ausrichtung von Wörtern oder aus mehreren Wörtern bestehenden Begriffen ausführen, sind im Allgemeinen auf das Vorliegen von Texten angewiesen, die bereits auf der Satzebene ausgerichtet wurden.
  • Die GB-Patentanmeldung 2 279 164 beschreibt ein System zur Verarbeitung einer zweisprachigen Datenbank, in der ausgerichtete Textkörper (d.h. Sammlungen von Texten) erzeugt oder von einer externen Quelle empfangen werden. Jeder Textkörper umfasst einen Satz von Textteilen, die mit entsprechenden Teilen des anderen Textkörpers ausgerichtet sind, beispielsweise so, dass ausgerichtete Teile nominell Übersetzungen voneinander in zwei natürlichen Sprachen sind. Eine statistische Datenbank wird kompiliert. Ein Auswertungsmodul berechnet Korrelationsbewertungen (correlation scores) für Wortpaare, von denen jeweils eines aus jedem Textkörper ausgewählt wurde. Liegt ein Paar von Textteilen vor (einer in jeder Sprache), verknüpft das Auswertungsmodul Wortpaar-Korrelationsbewertungen, um eine Ausrichtungsbewertung für die Textteile zu erhalten. Diese Ausrichtungsbewertungen können zum Überprüfen einer Übersetzung und/oder zum Ändern der ausgerichteten Textkörper verwendet werden, um unwahrscheinliche Ausrichtungen zu entfernen. Die Erfindung verwendet statistische Verfahren, und insbesondere ermöglichen Ausführungsformen die Ableitung einer wahrscheinlichkeitsbasierten Bewertung, um die Korrelation von zweisprachigen Wortpaaren zu messen.
  • Dieses Verfahren ist jedoch auf die Ausrichtung von einzelnen Wörtern begrenzt, ein Wort in der Ausgangssprache und ein Wort in der Zielsprache. Und es ist mit dem zuvor erwähnten Problem von fehlerhaften Zuordnungen und fehlenden Zuordnungen in Bezug auf die Verwendung bestimmter statistischer Bewertungen behaftet.
  • Zur Ausrichtung auf der Ebene von aus mehreren Wörtern bestehenden Begriffen wurden verschiedene Verfahren vorgeschlagen. Gaussier et al. beschreibt in „Some methods for the extraction of bilingual terminology", Proceedings of New Methods in Language Processing, Manchester, 1994, verschiedene Ausrichtungsverfahren auf der Grundlage einer einsprachigen Erkennung der aus mehreren Wörtern bestehenden Begriffe (z.B. durch Identifizieren von Wörtern, die mit hoher Wahrscheinlichkeit miteinander in Verbindung stehen), gefolgt von der Erkennung zweisprachiger Entsprechungen zwischen diesen aus mehreren Wörtern bestehenden Begriffen durch statistische Bewertungen. Die Verwendung dieser Verfahren ist jedoch auf Begriffe begrenzt, die in der Ausgangs- und Zielsprache aus genau zwei Wörtern zusammengesetzt sind.
  • Einige Systeme, in denen die zuvor erwähnte Begrenzung wegfällt, verwenden einfache Grammatiken, um aus mehreren Wörtern bestehende Begriffe in jeder Sprache zu identifizieren. Beispielsweise beschreibt die Veröffentlichung von Gaussier et al. (1994) ein System, in dem linguistische Muster verwendet werden, zum Beispiel „Adjektiv + Substantiv" oder „Substantiv + Präposition + Substantiv", die die Struktur nominaler Begriffe im Englischen und im Französischen kennzeichnen.
  • Im Artikel von B. Daille et al. mit dem Titel „Towards Automatic Extraction of Monolingual and Bilingual Terminology", August 1994, Association for Computational Linguistics, Proceedings of the 15th conference an computational linguistics, Kyoto, Japan, XP002335379, werden verschiedene Bewertungsverfahren zum Erhalten einer Liste von zweisprachigen Begriffen für einen parallelen zweisprachigen Textkörper verglichen.
  • Beim Angehen des vorhergehenden Problems ist die Leistungsfähigkeit solcher Systeme nicht maximal, und es werden fehlerhafte Zuordnungen erzeugt, da sich nur ein kleiner Teil der so identifizierten Nominalphrasen als Begriffe erweisen, d.h. Einheiten, die einen Begriff des Sachgebiets ausdrücken. Beispielsweise könnte der Ausdruck „folgende Seite" als ein Begriff in einer Grammatik aus „Adjektiv + Substantiv" extrahiert werden, obwohl klar ist, dass es sich hierbei um ein vorherrschendes Satzglied in jedem technischen Text handelt.
  • Außerdem kommt es auch zu fehlenden Zuordnungen, da der Anwendungsbereich der linguistischen Muster auf eine bestimmte Anzahl von Ausdrücken begrenzt ist und bestimmte Strukturen ignoriert, die Begriffe liefern können, da es sich entweder um nichtstandardmäßige Wortkombinationen handelt (beispielsweise „antenne parabolique de réception" im Französischen, wobei das Adjektiv „parabolique" die ursprüngliche Folge „Substantiv + Präposition + Substantiv", „antenne de réception", maskiert) oder da es der Grammatik nicht gelang, bestimmte Wortarten aufgrund der Mehrdeutigkeit bestimmter Wörter zu identifizieren (beispielsweise müsste die Grammatik bei „microphone gain could be missed" „gain" als Verb anstatt als Substantiv ansehen).
  • Zu den angeführten Problemen jedes Verfahrens gehört schließlich auch die Tatsache, dass keines der vorhergehenden Systeme die Extraktion einer Ausrichtung von einem Begriff mit einem aus mehreren Wörtern bestehenden Begriff (one-to-many term alignment) ermöglicht, beispielsweise entspricht der englische Begriff „baseband" Begriff „bande de base" im Französischen.
  • Dementsprechend wäre es wünschenswert, die Bereitstellung eines neuen Systems zum automatischen Extrahieren einer mehrsprachigen Terminologie zu ermöglichen, bei dem die zuvor erwähnten Probleme wegfallen.
  • Die Erfindung verbessert bestehende zweisprachige Wort- oder Begriffsextraktionsverfahren und -systeme, indem verschiedene Begrifflängen berücksichtigt werden und indem die Genauigkeit der Extraktion verbessert wird.
  • Zusammenfassung der Erfindung
  • Eine Aufgabe der Erfindung ist die Bereitstellung eines Systems und eines Verfahrens zum automatischen Erzeugen einer mehrsprachigen Terminologie. Diese Aufgabe wird durch Verwenden eines im Folgenden ausführlich erläuterten Terminologieextraktionssystems erfüllt. Die vorliegende Erfindung ist ein computergestütztes Terminologieextraktionssystem zum Erzeugen einer zweisprachigen Terminologie aus einem mit einem Zieltext ausgerichteten Ausgangstext. Der Ausgangstext umfasst mindestens eine Folge von Quellbegriffen, wobei ein Begriff aus mindestens einem Wort besteht, und der Zieltext umfasst mindestens eine Folge von Zielbegriffen. Das System umfasst ein Begriffsextraktionsmittel (term extractor means), das mit mindestens einem aus den ausgerichteten Texten entnommenen Paar arbeitet, das aus einem mit einer Zielfolge ausgerichteten Quellfolge besteht. Das System ist dadurch gekennzeichnet, dass das Begriffsextraktionsmittel ein Mittel zum Erstellen eines Netzes umfasst, wobei jeder Knoten des Netzes mindestens einen Begriff aus dem Paar von ausgerichteten Quell-/Zielfolgen umfasst, und so dass jeder Quellbegriff in einem Quellknoten enthalten ist, wohingegen jeder Zielbegriff in einem Zielknoten enthalten ist. Die Begriffsextraktionseinrichtung umfasst außerdem ein Mittel zum Verbinden jedes aus mindestens einem Quellbegriff bestehenden Knotens mit jedem aus mindestens einem Zielbegriff bestehenden Knoten. Ein Begriffsstatistikmittel (term statistics means) ist mit dem Begriffsextraktionsmittel verbunden, um eine Zuordnungsbewertung für jedes Paar von verbundenen Quell-/Zielbegriffen zu berechnen, und ein Speichermittel ist mit dem Begriffsstatistikmittel verbunden, um die bewerteten Paare von verbundenen Quell-/Zielbegriffen zu speichern, die als zutreffende zweisprachige Begriffe angesehen werden.
  • Zum Auswählen von Verbindungen, die möglichen zweisprachigen Begriffen entsprechen, umfasst das System in einer bevorzugten Ausführungsform außerdem ein Mittel zum Ausführen eines Flussoptimierungsalgorithmus (flow optimization algorithm), so dass jede Verbindung zwischen einem Quellknoten und einem Zielknoten durch eine Kapazität und einen Fluss gekennzeichnet ist, und so dass dieses Mittel die Auswahl bevorzugter Verbindungen mit einem maximalen Fluss bei minimalem Kosten ermöglicht.
  • Bei einem Text mit einer Vielzahl von Folgen von Quellbegriffen, die mit Folgen von Zielbegriffen ausgerichtet sind, wird das Verfahren mit den folgenden Schritten erfolgreich auf alle Paare von Folgen angewandt:
    • a) Lesen eines ersten Paares von ausgerichteten Folgen von Quell- und Zielbegriffen;
    • b) Erstellen eines Netzes, in dem jeder Knoten mindestens einen Begriff aus einem ersten Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Knoten enthalten ist und jede Kombination von Zielbegriffen in einem Knoten enthalten ist;
    • c) Verbinden jedes aus mindestens einem Quellbegriff bestehenden Knotens mit jedem aus mindestens einem Zielbegriff bestehenden Knoten;
    • d) Berechnen einer Zuordnungsbewertung für jedes Paar von verbundenen Quell- und Zielknoten;
    • e) Auswählen von mindestens einer Verbindung, so dass die entsprechenden verbundenen Quell-/Zielbegriffe als zutreffende zweisprachige Begriffe angesehen werden;
    • f) Speichern der zutreffenden zweisprachigen Begriffe und der entsprechenden Zuordnungsbewertungen;
    • g) Wiederholen der Schritte a) bis f) für alle Paare von ausgerichteten Folgen.
  • Nachdem die letzte Folge verarbeitet wurde, wird eine Ausrichtungsstatistik für alle gespeicherten zweisprachigen Begriffe gemäß einer Bewertungsfunktion (scoring function) berechnet. Die endgültige Auswahl zutreffender zweisprachiger Begriffe erfolgt gemäß dem Ergebnis dieser Ausrichtungsstatistik.
  • Zur Verbesserung der endgültigen Auswahl zutreffender zweisprachiger Begriffspaare kann der gesamte Prozess in bestimmten Ausführungsformen mehrere Male über den gesamten Textkörper wiederholt werden, wobei die sich aus einer Wiederholung ergebende endgültige Auswahl von Begriffspaaren verwendet wird, um die Ausgangsbedingungen der folgenden Wiederholung zu ändern. In einer solchen Ausführungsform wird die Wortausrichtungsstatistik, die in die Berechnung von Begriffszuordnungsbewertungen eingeht, vor der folgenden Wiederholung aktualisiert. In einer anderen solchen Ausführungsform werden die sich aus einer Wiederholung ergebenden zutreffenden Begriffspaare während der Netzerstellungsschritte in der folgenden Wiederholung nicht als Netzknoten verwendet. Bei jeder dieser Ausführungsformen werden die Wiederholungen ausgeführt, bis ein Endkriterium erfüllt ist.
  • Das beanspruchte System und Verfahren kann in vielen Bereichen verwendet werden, die von zweisprachigen Wort- oder Begriffslexika profitieren, darunter die Fremdsprachenlehre, die Arbeit mit mehrsprachiger Terminologie, die Kompilierung mehrsprachiger Wörterbücher, die personenunterstützte maschinelle Übersetzung oder die maschinenunterstützte Übersetzung, um nur einige zu nennen. Die bevorzugte Ausführungsform der vorliegenden Erfindung betrifft die maschinenunterstützte Übersetzung. Es wird jedoch verstanden, dass viele andere Bereiche vom beanspruchten System und Verfahren der vorliegenden Erfindung profitieren.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine Darstellung eines Computersystems, das ein maschinenunterstütztes Übersetzungssystem enthält.
  • 2 veranschaulicht eine ausführlichere Beschreibung des maschinenunterstützten Übersetzungssystems, das die Terminologieextraktionskomponente enthält.
  • 3 ist ein Flussdiagramm, das die gesamte Funktionsweise der Terminologieextraktionskomponente veranschaulicht.
  • 4 ist eine Darstellung des zwischen einem Paar von zweisprachigen Sätzen erstellten Netzes und der Bögen zwischen Wörtern oder Begriffen in diesen Sätzen.
  • 5 veranschaulicht ein bestimmtes Exemplar dieses Netzes für ein zweisprachiges Paar spezifischer Sätze.
  • 6 ist ein Flussdiagramm, das einen Teil der Arbeitsweise der Extraktionskomponente darstellt.
  • 7 ist ein Flussdiagramm, das die während des Flussoptimierungsprozesses ausgeführten Arbeitsgänge darstellt.
  • 8a und 8b sind Flussdiagramme, die zwei Ausführungsformen des Vorgangs des Wiederholens des gesamten Begriffsauswahlprozesses mehrere Male über den gesamten Textkörper zeigen.
  • 9 ist ein Beispiel von zweisprachigen Begriffspaaren, die in einer beispielhaften Ausführung der Erfindung erhalten wurden.
  • Ausführliche Beschreibung der Erfindung
  • Mit Bezugnahme auf die Zeichnungen und insbesondere auf 1 wird nun eine Umgebung dargestellt, in der eine bevorzugte Ausführungsform der vorliegenden Erfindung betrieben wird. Die bevorzugte Ausführungsform der vorliegenden Erfindung wird auf einer Computerplattform 104 betrieben. Die Computerplattform 104 enthält bestimmte Hardwareeinheiten 112, darunter eine oder mehrere Zentraleinheiten (CPU) 116, einen Arbeitsspeicher (RAM) 114 und eine Ein-/Ausgabe- (EA-) Schnittstelle 118. Die Computerplattform 104 enthält ein Betriebssystem 108 und kann einen Mikrobefehlscode 110 enthalten. Ein maschinenunterstütztes Übersetzungssystem 103 kann ein Teil des Mikrobefehlscodes 110 oder ein über das Betriebssystem auszuführendes Anwendungsprogramm sein. Verschiedene periphere Komponenten können mit der Computerplattform 104 verbunden werden, beispielsweise ein Endgerät 126, eine Datenspeichereinheit 130 und eine Druckeinheit 134.
  • Fachleute werden problemlos verstehen, dass die Erfindung ohne viele Änderungen in anderen Systemen realisiert werden kann.
  • 2 stellt eine ausführlichere Beschreibung des maschinenunterstützten Übersetzungssystems 103 dar. Eine Benutzerschnittstelle 201 kann einen Texteditor zur Eingabe einer manuellen Übersetzung eines Ausgangstextes oder zum Editieren einer automatischen Übersetzung des Textes enthalten. Die Benutzerschnittstelle ist mit einem zweisprachigen Terminologiedatenbank-Verwaltungssystem 202, einem zweisprachigen Satzdatenbank-Verwaltungssystem 203, einem zweisprachigen Satzausrichtungssystem 204, einem zweisprachigen Terminologieextraktionssystem 205 und einer automatischen Übersetzungsmaschine 206 verbunden.
  • Eine zweisprachige Terminologiedatenbank 207, die die Quellbegriffe und deren entsprechende Übersetzung speichert, ist mit dem zweisprachigen Terminologieextraktionssystem 205 verbunden, um die Begriffspaare zu empfangen. Es ist jedoch auch eine manuelle Eingabe durch einen Bediener über das zweisprachige Terminologiedatenbank-Verwaltungssystem 202 möglich.
  • Eine zweisprachige Satzdatenbank 208 enthält ausgerichtete Sätze (Quellsatz und entsprechender Zielsatz), die aus einem oder mehreren Ausgangstexten entnommen wurden, und ihre entsprechenden Übersetzungen. Sie kann entweder vom Benutzer durch manuelles Eingeben von Übersetzungen oder durch das zweisprachige Satzausrichtungssystem 204 oder durch die automatische Übersetzungsmaschine 206 gespeist werden.
  • Das zweisprachige Terminologieextraktionssystem 205 ist mit der zweisprachigen Satzdatenbank 208 verbunden, um zweisprachige ausgerichtete Sätze aus dieser einzugeben. Fachleute verstehen jedoch, dass die Erfindung nicht auf die Verwendung einer zweisprachigen Satzdatenbank begrenzt ist, um der Extraktionseinrichtung zweisprachige Paare bereitzustellen, sondern es können auch andere Quell- und Zielstrukturen, beispielsweise Gruppen von Wörtern beliebiger Länge, in die Extraktionseinrichtung eingegeben werden.
  • Das zweisprachige Terminologieextraktionssystem 205 ist außerdem mit der zweisprachigen Terminologiedatenbank 207 verbunden, um zweisprachige Wortpaare oder aus mehreren Wörtern bestehende Begriffe auszugeben, die vom Terminologieextraktionssystem automatisch erzeugt wurden.
  • 3 stellt eine ausführlichere Beschreibung des zweisprachigen Terminologieextraktionssystems 205 dar. Die Speichereinheit 312 kann eine oder eine Kombination von mehr als einer Datenspeichereinheit sein, z.B. Disketten oder ein Arbeitsspeicher (RAM). Die bevorzugte Ausführungsform der Erfindung verwendet einen internen Arbeitsspeicher (RAN) des Computers als Speichereinheit 312.
  • Eine zweisprachige Wortstatistik-Ermittlungseinrichtung (word statistics determinator) 302 ist mit der Speichereinheit 312 und einer Begriffsextraktionseinrichtung 304 verbunden. Die Begriffsextraktionseinrichtung 304 ist mit der Speichereinheit 312 und mit einer zweisprachigen Begriffsstatistik-Ermittlungseinrichtung (term statistics determinator) 306 verbunden, wobei die letztere mit der Speichereinheit 312 verbunden ist.
  • Vor der ausführlichen Beschreibung jeder Komponente von 3 und des Verfahrens zum Betreiben derselben werden zunächst die 4 und 5 beschrieben, da sie das Netzkonzept der Erfindung veranschaulichen.
  • Die vorliegende Erfindung beinhaltet als Erstes die Übertragung eines zweisprachigen Paares von ausgerichteten Sätzen in das zweisprachige Terminologieextraktionssystem 205. Die ausgerichteten Sätze werden sodann zur anschließenden Verarbeitung als ein Netz von Knoten modelliert.
  • 4 ist eine Teilansicht eines Netzes, das sowohl aus den Knoten des Quellsatzes als auch des Zielsatzes besteht. Alle den Quellsatz betreffenden Knoten werden in einem ersten Bereich 402 dargestellt. Ähnlich werden alle möglichen den Zielsatz betreffenden Knoten in einem zweiten Bereich 404 dargestellt. Jedes Wort und jede Wortfolge des Quellsatzes sowie jedes Wort und jede Wortfolge des Zielsatzes werden von einem einmaligen Knoten im Netz dargestellt.
  • Zur Beschreibung des ersten Bereichs 402 wird eine gezeichnete Darstellung des Quellnetzes als ein Dreieck dargestellt, in dem die Basis aus so vielen Knoten (S1 bis Sm) wie die Anzahl von Wörtern im Quellsatz besteht. Jeder Knoten Si der Basis stellt ein einzelnes Wort des Quellsatzes dar, während die Spitze des Dreiecks die komplette Wortfolge darstellt (S1SiSm). Die dazwischen liegenden Knoten stellen jeweils mehrere Wörter dar und sind für bestimmte Teildreiecke sowohl Spitzen- als auch Basisknoten. Beispielsweise ist der in 4 gezeigte Knoten S1S2S3 die Spitze des Dreiecks, dessen Basis (S1,S2,S3) ist, und des Dreiecks, dessen Basis (S1S2,S2S3) ist. Außerdem ist der Knoten S1S2S3 auch ein Basisknoten für alle aus S1S2S3 erstellten Teildreiecke.
  • In der unteren Hälfte von 4 bildet ein zweites Dreieck (404) das Zielnetz. Ähnlich besteht die Basis dieses Dreiecks aus den Knoten T1 bis Tn, die die n Wörter des Zielsatzes darstellen, während seine Spitze die Wortfolge (T1TjTn) darstellt, d.h. den kompletten Zielsatz.
  • Nachdem jeder Quell- und jeder Zielsatz in ein Quellnetz und ein Zielnetz zerlegt wurde, wird jeder Knoten des Quellnetzes in Entsprechung zu jedem Knoten des Zielnetzes gesetzt. In der Tat werden Beziehungen zwischen Knoten durch zweisprachige Bögen erstellt, wie in 4 zu erkennen ist, wobei der Klarheit halber nur zwei solche Bögen (406, 408) gezeichnet wurden.
  • Der Bogen 406 verbindet einen das Quellwort Si darstellenden Knoten mit einem das Zielwort Tj darstellenden Knoten. Ähnlich verbindet der Bogen 408 einen die Quellwortfolge (S1S2) darstellenden Knoten mit einem die Zielwortfolge (T1T2T3) darstellenden Knoten.
  • 5 ist eine Veranschaulichung einer Netzdarstellung mit zwei aus einem zweisprachigen Textkörper aus dem Bereich der Datenfernübertragung entnommenen Sätzen. Der Quellsatz besteht aus den folgenden elf englischen Quellwörtern:
    an outstanding operational feature used in FSS telecommunication ist multiple access
  • Der Zielsatz besteht aus den folgenden vierzehn französischen Zielwörtern:
    l'accès multiple est une caractéristique d'exploitation très importante des télécommunications du SFS
  • Die Bögen 502, 504 und 506 betreffen Wortfolgen im Quell- und Zielsatz, die die Übersetzung voneinander sind. Beispielsweise verbindet der Bogen 502 die englische Folge:

  • outstanding operational feature
    mit der französischen Folge
    caractéristique d'exploitation très importante
  • Die in der Erfindung verwendete Modellierung durch ein Netz ermöglicht jede Verbindung zwischen einer beliebigen Folge von aufeinanderfolgenden Quellwörtern mit einer beliebigen Folge von aufeinanderfolgenden Zielwörtern. Um ein Hochleistungssystem zu erreichen, ist es jedoch möglich, einige als ungültig erachtete Verbindungen zu ignorieren.
  • Die Auswahl jener Bögen, die gültigen Verbindungen entsprechen, beruht auf einem Prinzip, das auf dem Gebiet der Optimierung bekannt ist und das darin besteht, einen Fluss mit minimalen Kosten in einem Netz zu suchen. Die bevorzugte Ausführungsform der vorliegenden Erfindung verwendet den so genannten Prozess mit „maximalem Fluss/minimalen Kosten" („maximum flow/minimal cost” process), wie an späterer Stelle beschrieben wird. Es wird jedoch verstanden, dass zu diesem Zweck auch andere Netzflussprozesse verwendet werden könnten, beispielsweise der Prozess mit „maximalem Fluss".
  • Mit erneuter Bezugnahme auf 3 berechnet die zweisprachige Wortstatistik-Ermittlungseinrichtung 302 statistische Bewertungen zwischen einzelnen Quellwörtern und Zielwörtern in ausgerichteten Sätzen. In der Literatur stehen für einen solchen Zweck verschiedene Verfahren zur Verfügung, die alle in der Summierung der Zählwerte von in ausgerichteten Sätzen vorkommenden Wortpaaren und in der Berechnung von Korrelationsbewertungen für diese Wortpaare bestehen, wie beispielsweise in der GB-Patentanmeldung 2 279 164 erläutert wird. Die zweisprachige Wortstatistik wird in der im Folgenden beschriebenen Begriffsextraktionseinrichtung 304 verwendet und kann in einem sich wiederholenden Prozess aktualisiert werden, wie in der Beschreibung von 8a an späterer Stelle beschrieben wird.
  • Die in der Begriffsextraktionseinrichtung 304 ausgeführten Arbeitsgänge werden nun mit Bezugnahme auf 6 im Einzelnen beschrieben. Im Schritt 602 wird ein Paar von ausgerichteten Sätzen aus dem zweisprachigen Textkörper 208 eingegeben. Der Begriff „ausgerichtete Sätze" bezieht sich auf einen Quellsatz und den entsprechenden übersetzten Zielsatz. Das Verfahren zum Ausrichten des Ausgangstextes mit dem Zieltext ist unabhängig vom beanspruchten Verfahren der Erfindung, und alle bekannten Ausrichtungsverfahren können verwendet werden.
  • Das Paar von ausgerichteten Sätzen wird sodann im Schritt 604 zum Erstellen eines Quellnetzes und eines Zielnetzes von Knoten auf die zuvor in Bezug auf 4 beschriebene Weise verwendet.
  • Zwischen jedem Knoten des Quellsatzes und jedem Knoten des Zielsatzes werden sodann zweisprachige Bögen eingerichtet. Die Anzahl und der Typ der Bögen könnten jedoch veränderlich sein und als Parameter definiert werden. Beispielsweise ist es möglich zu definieren, dass kein Bogen von jenen Quellknoten erstellt wird, die Artikel oder Präpositionen oder andere Typen von Quellknoten darstellen, die als leere Wörter betrachtet werden können. Andere Konfigurationen für die Erstellung der Bögen können ausgewählt werden. Falls eine Wortfolge wie „parabolic antenna", die einem bekannten, bereits in der Datenbank 207 gespeicherten Ausdruck entspricht, Teil eines verarbeiteten Quellsatzes ist, erstellt das System in einer bestimmten Ausführungsform einen Bogen vom entsprechenden Quellknoten „parabolic antenna", wohingegen jeder einzelne Quellknoten („parabolic" und „antenna") ignoriert wird.
  • In einer bevorzugten Ausführungsform der vorliegenden Erfindung wird die so genannte Grammatik vom Typ „Nominalphrase" verwendet, um mögliche Knoten zu identifizieren, die grammatikalisch zutreffend sind.
  • Mit erneuter Bezugnahme auf das in 5 gezeigte Beispiel wird die Nominalphrase „outstanding operational feature" als ein möglicher Knoten für die Erstellung eines Bogens identifiziert, wohingegen die einzelnen Wörter „outstanding", „operational" und „feature" ignoriert werden und kein von diesen Wörtern beginnender Bogen eingerichtet wird.
  • Auf dem Gebiet der Optimierung kann ein Bogen durch eine Kapazität und den ihr zugeordneten Fluss gekennzeichnet werden. Obwohl es verschiedene Möglichkeiten gibt, eine Kapazität und einen Fluss zu definieren, beispielsweise im Verfahren „maximaler Fluss/minimale Kosten", werden die folgenden Definitionen für die Anwendung auf dem Gebiet der Sprachverarbeitung erhalten:
    • • die Kapazität eines einen Quellknoten mit einem Zielknoten verbindenden Bogens ist das Maximum zwischen der Größe des Quellknotens und der Größe des Zielknotens, wobei die Größe eines Knotens die Anzahl einzelner Wörter ist, aus denen der Knoten besteht;
    • • der Wert eines Flusses, der in einem einen Quellknoten mit einem Zielknoten verbindenden Bogen fließt, ist als die Summe der statistischen Wortausrichtungsbewertungen zwischen allen Wörtern im Quellknoten und allen Wörtern im Zielknoten definiert.
  • Außerdem setzt das in der bevorzugten Ausführungsform verwendete Optimierungsverfahren voraus, dass ein Fluss in einem Bogen Kosten beinhaltet; für jeden Bogen sind die entsprechenden Kosten aktuell als das Produkt aus konstanten Kosten pro Flusseinheit und dem Wert des Flusses in diesem Bogen definiert.
  • Der nächste Schritt 606 besteht in der Optimierung des Netzflusses, der für das erste Paar von verarbeiteten zweisprachigen Sätzen erstellt wurde. Der sich aus dem Optimierungsschritt ergebende optimale Fluss bezeichnet bestimmte Bereiche als die wahrscheinlichsten Verbindungen zwischen den Quell- und Zielbegriffen in diesen Sätzen.
  • Zum Erhalten eines optimalen Flusses für die beiden Sätze, aus denen entsprechende Kandidaten von zweisprachigen Begriffspaaren entnommen werden können, verwendet das vorgeschlagene Verfahren Algorithmen, die Flüsse in Netzwerken optimieren, beispielsweise den an späterer Stelle mit Bezugnahme auf 7 beschriebenen Algorithmus.
  • Mit erneuter Bezugnahme auf 6 und den im Schritt 608 ausgeführten Vorgang werden die jeweiligen Begriffe, die jenen im Schritt 606 identifizierten bevorzugten Verbindungen entsprechen, aus den Quell- und Zielsätzen entnommen und im Speicher 312 gespeichert. Die dem Begriffspaar entsprechende Zuordnungsbewertung ist nach der Flussoptimierung der endgültige Wert des Flusses, der in dem diese Begriffe verbindenden Bogen fließt.
  • Der Schritt 610 stellt sicher, dass der Prozess über den gesamten in der zweisprachigen Satzdatenbank gespeicherten Satz von ausgerichteten zweisprachigen Sätzen wiederholt wird. Im Schritt 610 wird eine Prüfung ausgeführt, um festzustellen, ob es ein weiteres zu analysierendes Satzpaar gibt. Ist dies der Fall, kehrt der Prozess in einer Schleife zurück zum Schritt 602 (Verzweigung JA), andernfalls wurden alle Paare von Sätzen analysiert, und der Prozess geht weiter zum Schritt 612 (Verzweigung NEIN).
  • Mit erneuter Bezugnahme auf 3 hat das System nach der Verarbeitung aller Paare von zweisprachigen Sätzen durch die Begriffsextraktionseinrichtung 304 eine Anzahl von Paaren von Kandidatenbegriffen angesammelt, die entnommen und im Speicher 312 gespeichert wurden. Die Aufgabe der zweisprachigen Begriffsstatistik-Ermittlungseinrichtung 306 besteht darin, eine Statistik für alle diese Begriffspaare zu berechnen und zu entscheiden, welche für gültige Begriffe erachtet werden können.
  • Die in der zweisprachigen Begriffsstatistik-Ermittlungseinrichtung 306 ausgeführten ausführlichen Arbeitsgänge werden nun mit Bezugnahme auf die Schritte 612 und 614 von 6 beschrieben.
  • Einige der Begriffspaare, die in jeder Wiederholung identifiziert und im Schritt 608 gespeichert werden, können selbstverständlich in mehreren Satzpaaren erscheinen. Der Schritt 612 berechnet eine Statistik zu den Begriffspaaren auf der Grundlage von Parametern, beispielsweise der Anzahl ihres Vorkommens in den Satzpaaren, und vergibt für jedes Begriffspaar eine Bewertung, die die Wertigkeit des Begriffs misst; auf diese Weise sind zum Beispiel jene Kandidaten mit den besten Bewertungen mit höherer Wahrscheinlichkeit zutreffende Begriffe als jene mit geringeren Bewertungen. In der bevorzugten Ausführungsform der vorliegenden Erfindung ist diese Bewertung eine Funktion der Anzahl von Vorkommen des Begriffspaares in ausgerichteten Sätzen und der Anzahl von Vorkommen der einzelnen Begriffe (Quell- und Zielbegriffe). Insbesondere wird die bevorzugte Bewertungsfunktion, wie sie von Ted Dunning vorgeschlagen wird, in der ersten Ausführungsform realisiert. Eine ausführliche Erläuterung dieser zweisprachigen Bewertungsfunktion ist in Dunning (T.), „Accurate methods for the statistics of surprise and coincidence", Computational Linguistics, Band 19, Nummer 1, März 1993, nachzulesen und ist hier als Bezug mit inbegriffen.
  • Im Schritt 614 werden die Kandidatenbegriffspaare entsprechend der im Schritt 612 berechneten Bewertung geordnet, und ein Kriterium für die Entscheidung, welche gültig sind, wird angewandt. Beispielsweise kann ein Bewertungsschwellenwert festgelegt werden, und jene Kandidaten, deren Bewertung den Schwellenwert übersteigt, werden als gültige Kandidaten gespeichert.
  • Es wird verstanden, dass verschiedene andere Bewertungs- und Schwellenwertfunktionen zur Verwendung in den Schritten 612 und 614 geeignet sind.
  • Die Ergebnisse, die durch die in 6 beschriebenen Vorgänge erhalten werden, können durch mehrmaliges Wiederholen des gesamten Prozesses über den gesamten Textkörper verbessert werden. Dies wird an späterer Stelle mit Bezugnahme auf die 8a und 8b beschrieben.
  • 7 zeigt ausführlich die in der Blockfunktion 606 ausgeführten Vorgänge zum Erreichen einer Netzflussoptimierung. Obwohl verschiedene Netzflussoptimierungsalgorithmen möglich sind, nämlich all jene, die das Problem maximaler Fluss/minimale Kosten lösen, verwendet eine bevorzugte Ausführungsform der vorliegenden Erfindung zu diesem Zweck den Algorithmus, der zuerst in der Veröffentlichung von Klein beschrieben wurde. Eine ausführliche Erläuterung dieses Algorithmus ist in M. Klein, „A primal method for minimal cost flows, with applications to the assignment and transportation Problems", Management Science, 14, 1967, zu finden. Lediglich die verschiedenen grundlegenden Schritte dieses Algorithmus werden hier dargestellt.
  • Im ersten Schritt 702 wird ein anfänglicher Fluss durch das Netz übertragen.
  • Im nächsten Schritt 704 wird ein dem anfänglichen Netz zugeordnetes paralleles Netz erstellt. Dieses zweite Netz enthält dieselben Knoten und dieselben Bögen wie das ursprüngliche Netz, jedoch wird die Kapazität jedes Bogens als die verbleibende Differenzkapazität zwischen dem ursprünglichen Fluss und der Kapazität des Bogens berechnet, und die Kosten für einen Fluss in jedem Bogen sind je nach der Richtung des Bogens entweder die ursprünglichen Kosten oder deren negativer Wert.
  • Der Kern des Algorithmus von Klein besteht im Auffinden eines Zyklus von Bögen mit negativen Kosten in ihrem zugeordneten Netz, wobei dieser Vorgang im Schritt 706 ausgeführt wird. Ein Zyklus von Bögen ist eine Folge von Bögen, die verschiedene Knoten verbinden, wobei der letzte Bogen der Folge am ersten Knoten endet, von dem aus der erste Bogen beginnt.
  • Falls kein negativer Zyklus gefunden wird (Verzweigung NEIN), was bedeutet, dass der Fluss bereits optimiert worden ist, wird der Optimierungsprozess beendet.
  • Falls ein negativer Zyklus gefunden wird, wird der Gesamtfluss verbessert, indem der größtmögliche Fluss in den negativen Zyklus übertragen wird (Schritt 710).
  • Der Prozess wird sodann wiederholt, bis kein negativer Zyklus übrig bleibt, was bedeutet, dass der sich ergebende Fluss optimal ist.
  • Fachleute werden erkennen, dass die vorliegende Erfindung mit anderen Optimierungsalgorithmen angewandt werden kann. Der in der vorliegenden Erfindung zitierte Beispielalgorithmus dient lediglich der Veranschaulichung und soll weder erschöpfend sein noch die Erfindung begrenzen.
  • Mit Bezugnahme auf 6 wurde erwähnt, dass der gesamte in der Figur beschriebene Prozess mehrere Male über den gesamten Textkörper wiederholt werden kann, um die endgültige Auswahl zutreffender zweisprachiger Begriffspaare zu verbessern. Das Grundprinzip besteht darin, dass die sich aus einer Wiederholung ergebende endgültige Auswahl von Begriffspaaren zum Ändern der Anfangsbedingungen der folgenden Wiederholung verwendet wird.
  • Zwei Exemplare eines solchen Wiederholungsprozesses werden nun mit Bezugnahme auf die 8a und 8b beschrieben.
  • Falls eine enger Zusammenhang zwischen dem englischen Begriff „baseband" und dem französischen Begriff „bande de base" gefunden wird, legt dies intuitiv nahe, dass die zweisprachige Einzelwortstatistik einen Zusammenhang zwischen „baseband" und „bande" und auch zwischen „baseband" und „base" widerspiegeln muss. Folglich kann die durch eine erste Wiederholung des gesamten Prozesses von 6 erhaltene zweisprachige Begriffsausrichtungsstatistik zur Verbesserung der im Optimierungsschritt 606 verwendeten Einzelwortausrichtungsstatistik verwendet werden. 8a zeigt, wie dieser Rückmeldungsvorgang zur Verbesserung des Prozesses ausgeführt wird. Die Einzelwortstatistik wird im Schritt 802 berechnet oder aus dem Speicher geladen.
  • Im nächsten Schritt 804 werden die vorhergehenden Ergebnisse während des Netzoptimierungsvorgangs verwendet, der von der zweisprachigen Begriffsextraktionseinrichtung ausgeführt wird.
  • Sobald für den gesamten Textkörper eine zweisprachige Begriffsstatistik gesammelt wurde, kann diese im Schritt 808 zur Verbesserung der Einzelwortstatistik verwendet werden. Diese verbesserte Wortstatistik ersetzt die ursprüngliche.
  • Der Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird (Schritt 806), beispielsweise nach einer bestimmten Anzahl von Wiederholungen des Prozesses.
  • 8b zeigt einen ähnlichen sich wiederholenden Prozess, wobei die sich aus einer Wiederholung ergebenden zutreffenden Begriffspaare in der folgenden Wiederholung während der Netzerstellungsschritte nicht als Netzknoten verwendet werden, was den Bereich möglicher Netzlösungen für ein gegebenes Paar von Sätzen verringert und daher die Qualität der Begriffsausrichtungsergebnisse verbessert.
  • Im Schritt 812 ignoriert der Netzerstellungsschritt (ähnlich wie der Schritt 604 von 6) jene Knoten und Verbindungen, die Begriffspaaren entsprechen, die am Ende der vorhergehenden Wiederholung als zutreffend ausgewählt wurden.
  • Der Schritt 814 ist gleichwertig mit den Schritten 606 bis 610 von 6 und führt den verbleibenden Begriffsextraktionsprozess aus.
  • Der neue Satz von zutreffenden im Schritt 818 ausgewählten Begriffspaaren kann in der folgenden Wiederholung ignoriert werden.
  • Der Prozess wird sodann wiederholt, bis eine bestimmte Bedingung erfüllt wird (Schritt 816), beispielsweise nachdem eine bestimmte Anzahl von Begriffspaaren ausgewählt wurde oder nachdem die Bewertungen der ausgewählten Begriffspaare einen bestimmten unteren Schwellenwert erreicht haben.
  • Beide Möglichkeiten der Prozesswiederholung, wie sie in den 8a und 8b beschrieben wurden, können gesondert oder in Verbindung miteinander in einer einzigen Ausführungsform der Erfindung verwendet werden.
  • Mit Bezugnahme auf 9 wurde nun mit der vorgeschlagenen Ausführungsform der vorliegenden Erfindung ein Experiment mit einem Textkörper ausgeführt, der aus 1000 englischen, mit ihrer französischen Übersetzung ausgerichteten Sätzen besteht, wobei sich eine Liste von 400 ausgewählten Begriffspaaren ergibt. In einer manuellen Auswertung dieser Liste durch Gutachter wurden nahezu 96 % dieser Kandidatenbegriffspaare für korrekt erachtet.
  • Aus dieser Liste entnommene Beispielbegriffspaare werden in 9 gezeigt.

Claims (10)

  1. Computergestütztes Terminologieextraktionssystem (205) zum Erzeugen einer zweisprachigen Terminologie aus einem mit einem Zieltext ausgerichteten Ausgangstext, wobei der Ausgangstext mindestens eine Folge von Quellbegriffen umfasst, der Zieltext mindestens eine Folge von Zielbegriffen umfasst und ein Begriff aus mindestens einem Wort besteht, wobei das System Folgendes umfasst: ein Begriffsextraktionsmittel (304), das mit mindestens einem Paar arbeitet, das aus den ausgerichteten Texten entnommen wurde und aus einer mit einer Zielfolge ausgerichteten Quellfolge besteht; ein mit dem Begriffsextraktionsmittel verbundenes Begriffsstatistikmittel (306) zum Berechnen einer statistischen Zuordnungsbewertung für jedes Paar von Quell- und Zielbegriffen, die im gesamten Satz von ausgerichteten Quell-/Zielfolgen erkannt wurden; ein mit dem Begriffsstatistikmittel verbundenes Speichermittel (312) zum Speichern der bewerteten Paare von Quell-/Zielfolgen, die als zutreffende zweisprachige Begriffe betrachtet werden; dadurch gekennzeichnet, dass das Begriffsextraktionsmittel Folgendes umfasst: ein Mittel zum Erstellen eines Netzes (402, 404), wobei jeder Knoten (Si, Tj) mindestens einen Begriff aus dem mindestens einen Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Quellknoten und jede Kombination von Zielbegriffen in einem Zielknoten enthalten ist; und ein Mittel zum Verbinden jedes Quellknotens (Si) mit jedem Zielknoten (Tj).
  2. System nach Anspruch 1, das außerdem ein Mittel zum Ausführen eines Flussoptimierungsalgorithmus umfasst, so dass jede Verbindung (406, 408) zwischen einem Quellknoten (Si) und einem Zielknoten (Tj) durch eine Kapazität und einen Fluss gekennzeichnet ist.
  3. System nach Anspruch 2, wobei der Flussoptimierungsalgorithmus ein Algorithmus mit maximalem Fluss/minimalen Kosten ist.
  4. System nach den Ansprüchen 1 bis 3, wobei das Verbindungsmittel außerdem ein Mittel zum Auswählen einer Gruppe von Quellknoten umfasst, die gemäß festgelegten Kriterien nicht mit den Zielknoten verbunden werden dürfen, wobei beispielsweise bereits im Speichermittel (312) gespeicherte Quellknoten ignoriert werden.
  5. System nach den Ansprüchen 1 bis 4, das außerdem ein Wortstatistikmittel (302) zum Berechnen von Zuordnungsbewertungen für jedes Paar von Quell- und Zielbegriffen umfasst, wobei die Quellbegriffe aus einem Wort bestehen.
  6. Verfahren zum Erzeugen einer zweisprachigen Terminologie aus einem mindestens eine Folge von Quellbegriffen umfassenden Ausgangstext, der mit einem mindestens eine Folge von Zielbegriffen umfassenden Zieltext ausgerichtet ist, wobei ein Begriff aus mindestens einem Wort besteht, wobei das Verfahren die folgenden Schritte umfasst: a) Lesen eines ersten Paares, das aus einer mit einer Zielfolge ausgerichteten Quellfolge besteht; b) Erstellen eines Netzes (402, 404), wobei jeder Knoten (Si, Tj) mindestens einen Begriff aus dem ersten Paar von ausgerichteten Quell-/Zielfolgen umfasst, so dass jede Kombination von Quellbegriffen in einem Quellknoten und jede Kombination von Zielbegriffen in einem Zielknoten enthalten ist; c) Verbinden jedes Quellknotens (Si) mit jedem Zielknoten (Tj); d) Berechnen einer Zuordnungsbewertung für jedes Paar von verbundenen Quell- und Zielknoten; e) Auswählen von mindestens einer Verbindung, so dass die entsprechenden verbundenen Quell-/Zielbegriffe als zutreffende zweisprachige Begriffe betrachtet werden; f) Speichern der entsprechenden zweisprachigen Begriffe; g) Wiederholen der Schritte a) bis f) für alle Paare von ausgerichteten Folgen.
  7. Verfahren nach Anspruch 6, das außerdem nach dem Schritt g) die folgenden Schritte umfasst: h) Berechnen einer Ausrichtungsstatistik für die gespeicherten zweisprachigen Begriffe gemäß einer Bewertungsfunktion; i) Auswählen bewerteter zweisprachiger Begriffe als zutreffende Kandidaten.
  8. Verfahren nach Anspruch 7, das nach dem Schritt i) außerdem die folgenden Schritte umfasst: j) Verwenden der statistischen Ergebnisse von Schritt h) für jedes Paar von Quell- und Zielbegriffen zum Verbessern der Einzelwortstatistik für jene Wörter, die die Begriffe enthalten; k) Aktualisieren der im Schritt d) verwendeten Zuordnungsbewertungen gemäß den Ergebnissen von Schritt j); 1) Wiederholen der Schritte a) bis k) mit der aktualisierten Einzelwortstatistik, bis ein Endkriterium erfüllt wird.
  9. Verfahren nach Anspruch 8, das nach dem Schritt i) außerdem den folgenden Schritt umfasst: m) Wiederholen der Schritte a) bis k), bis ein Endkriterium erfüllt wird, wobei im Netzerstellungsschritt b) jene Knoten und Verbindungen nicht berücksichtigt werden, die Begriffen zugeordnet sind, die im Schritt i) der vorhergehenden Wiederholung ausgewählt wurden.
  10. Verfahren nach den Ansprüchen 6 bis 9, wobei der Auswahlschritt e) gemäß einem Netzwerkflussoptimierungsalgorithmus ausgeführt wird.
DE69837979T 1997-06-27 1998-04-07 System zum Extrahieren einer mehrsprachigen Terminologie Expired - Lifetime DE69837979T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97480038 1997-06-27
EP97480038 1997-06-27

Publications (2)

Publication Number Publication Date
DE69837979D1 DE69837979D1 (de) 2007-08-09
DE69837979T2 true DE69837979T2 (de) 2008-03-06

Family

ID=8230028

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69837979T Expired - Lifetime DE69837979T2 (de) 1997-06-27 1998-04-07 System zum Extrahieren einer mehrsprachigen Terminologie

Country Status (2)

Country Link
US (1) US6236958B1 (de)
DE (1) DE69837979T2 (de)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434488B1 (en) * 1999-12-03 2002-08-13 International Business Machines Corporation Alignment free methodology for rapid determination of differences between a test data set and known data sets
AU2001261505A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Machine translation techniques
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system
WO2002093417A1 (en) * 2001-05-17 2002-11-21 University Of Southern California Statistical method for building a translation memory
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
IL158749A0 (en) * 2001-06-21 2004-05-12 Eli Abir Cross-idea association database creation
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US20030101046A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
US20030154069A1 (en) * 2002-02-14 2003-08-14 International Business Machines Corporation Computerized system and method for converting selected text between languages
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
DE60332220D1 (de) * 2002-03-27 2010-06-02 Univ Southern California Phrasenbasiertes gemeines wahrscheinlichkeitsmodell zur statistischen maschinellen übersetzung
EP1550033A2 (de) * 2002-09-30 2005-07-06 Ning-Ping Chan Durch zeiger eingeleitete sofort-zweisprachenannotation auf textinformationen in einem elektronischen dokument
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US20040125093A1 (en) * 2002-12-30 2004-07-01 Serge Rutman Micro-controller with integrated light modulator
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US8666983B2 (en) * 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
US7051014B2 (en) * 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
WO2005036303A2 (en) * 2003-09-11 2005-04-21 Eli Abir Knowledge system method and apparatus
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7562008B2 (en) * 2004-06-23 2009-07-14 Ning-Ping Chan Machine translation method and system that decomposes complex sentences into two or more sentences
US20060004730A1 (en) * 2004-07-02 2006-01-05 Ning-Ping Chan Variant standardization engine
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7860873B2 (en) 2004-07-30 2010-12-28 International Business Machines Corporation System and method for automatic terminology discovery
US7363305B2 (en) * 2004-09-02 2008-04-22 Microsoft Corporation Centralized terminology and glossary management
US7617232B2 (en) 2004-09-02 2009-11-10 Microsoft Corporation Centralized terminology and glossary development
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
EP1894125A4 (de) * 2005-06-17 2015-12-02 Nat Res Council Canada Mittel und verfahren zur angepassten sprachenübersetzung
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7478092B2 (en) * 2005-07-21 2009-01-13 International Business Machines Corporation Key term extraction
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US7957953B2 (en) * 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9165039B2 (en) * 2005-11-29 2015-10-20 Kang Jo Mgmt, Limited Liability Company Methods and systems for providing personalized contextual search results
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8175864B1 (en) * 2007-03-30 2012-05-08 Google Inc. Identifying nearest neighbors for machine translation
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB201016385D0 (en) 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
GB201003628D0 (en) 2010-03-04 2010-04-21 Touchtype Ltd System and method for inputting text into electronic devices
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9256597B2 (en) * 2012-01-24 2016-02-09 Ming Li System, method and computer program for correcting machine translation information
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
JP6328409B2 (ja) * 2013-11-28 2018-05-23 シャープ株式会社 翻訳装置
JP5843117B2 (ja) * 2013-12-04 2016-01-13 国立研究開発法人情報通信研究機構 学習装置、翻訳装置、学習方法、翻訳方法、およびプログラム
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
US9836457B2 (en) 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US11526544B2 (en) 2020-05-07 2022-12-13 International Business Machines Corporation System for object identification
US20220108083A1 (en) * 2020-10-07 2022-04-07 Andrzej Zydron Inter-Language Vector Space: Effective assessment of cross-language semantic similarity of words using word-embeddings, transformation matrices and disk based indexes.

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
GB9209346D0 (en) * 1992-04-30 1992-06-17 Sharp Kk Machine translation system
US5608622A (en) * 1992-09-11 1997-03-04 Lucent Technologies Inc. System for analyzing translations
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JP2745370B2 (ja) * 1993-02-23 1998-04-28 日本アイ・ビー・エム株式会社 機械翻訳方法及び機械翻訳装置
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法

Also Published As

Publication number Publication date
DE69837979D1 (de) 2007-08-09
US6236958B1 (en) 2001-05-22

Similar Documents

Publication Publication Date Title
DE69837979T2 (de) System zum Extrahieren einer mehrsprachigen Terminologie
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE3616751A1 (de) Uebersetzungssystem
EP1135767B1 (de) Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
EP1168298B1 (de) Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
DE602004003513T2 (de) Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69820343T2 (de) Linguistisches Suchsystem
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE102008040739A1 (de) Verfahren und System zum Berechnen oder Bestimmen von Vertrauens- bzw. Konfidenzauswertungen für Syntaxbäume auf allen Ebenen
DE112013005742T5 (de) Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69733294T2 (de) Einrichtung und Verfahren zum Zugriff auf eine Datenbank
DE602004003609T2 (de) Lösung der Segmentierungsmehrdeutigkeit bei der Grammatikerstellung
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE102020114046A1 (de) Neuronales Maschinenübersetzungsverfahren, neuronales Maschinenübersetzungssystem, Lernverfahren, Lernsystem und Programm
EP1016077B1 (de) Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
DE102020213176A1 (de) Vorrichtung und Verfahren zum Befüllen eines Knowledge-Graphen, Trainingsverfahren dafür
WO2002042931A2 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
DE102020205394A1 (de) Computerimplementiertes Verfahren und Vorrichtung zum Erstellen eines Knowledge Graph
DE3511920A1 (de) Elektronischer ratgeber

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN