-
Die vorliegende Erfindung betrifft
ein Verfahren und eine Vorrichtung zum Wiedergewinnen von Information.
Die Erfindung betrifft auch ein Speichermedium, das ein Programm
zum Durchführen
eines derartigen Verfahrens enthält.
Diese Techniken können
in Informationsverwaltungssystemen, wie etwa Informationswiedergewinnungssystemen
oder "Suchmaschinen", Informationsfilterungsanwendungen,
die auch als Informations-Routingsysteme bekannt sind, und Informationsextraktionsanwendungen
verwendet werden.
-
D. A. Hull und G. Greffenstette, "Querying across Languages:
a Dictionary-Based Approach to Multilingual Information Retrieval", 19th Annual
International Conference on Research and Development in Information
Retrieval (SIGIR '96),
S. 49–57,
1996, offenbart einen Wörterbuch-basierten
Zugang zu einer kreuz-linguistischen Wiedergewinnung. Um nach Dokumenten
zu suchen, die eine Information über
eine Relevanz bezüglich
eines gewählten
Themas enthalten, wird von dem Sucher eine Abfrage formuliert. Eine
typische Abfrage umfasst einen kurzen Textbegriff, wie etwa einen
Satz, der den zu lokalisierenden Gegenstand anzeigt. Eine Dokumentenansammlung
in der gleichen Sprache kann dann durchsucht werden, indem nach
Entsprechungen zwischen zumindest einem der Wörter der Abfrage und dem vollständigen Text
in jedem Dokument gesucht wird.
-
Um Dokumente in einer von der "Quellen"-Sprache der Abfrage
unterschiedlichen "Ziel"-Sprache zu suchen,
schlägt
der Wörterbuch-basierte
Vorgang die Abfrageausdrücke
in einem bilingualen Wörterbuch nach.
Sämtliche
mögliche Übersetzungen
jedes Quellensprachen-Abfrageausdrucks werden verwendet, um eine
Abfrage in der Zielsprache zu bilden, und der Übereinstimmungsprozess wird
dann in der Zielsprache durchgeführt.
-
Diese Technik lässt es deswegen zu, dass ein
Sucher eine Abfrage in einer Sprache formuliert, die unterschiedlich
von der Sprache der zu suchenden Dokumente ist.
-
In bekannten kreuz-linguistischen
Wiedergewinnungssystemen, die die Abfrageübersetzungstechniken einsetzen
(beispielsweise die
EP
0 838 765 A1 ), werden sämtliche
Ausdrücke
(Wörter
und Kollokationen) der Abfrage in die Zielsprache übersetzt
und entweder sämtliche
mögliche Übersetzungen
jedes Abfrageausdrucks werden verwendet oder eine deterministisch
bevorzugte Übersetzung
jedes Abfrageausdrucks wird verwendet, um die Zielsprachenabfrage
zu bilden. Jedoch weisen beide dieser Zugänge Nachteile auf.
-
Ein Wählen sämtlicher möglicher Übersetzungen der Quellensprachenabfrage-Ausdrücke kann
zur Wiedergewinnung vieler Dokumente führen, die für die Abfrage nicht relevant
sind. Dies liegt daran, dass die Quellensprachenwörter unterschiedliche
Bedeutungen in unterschiedlichen Kontexten aufweisen und, auf Grundlage
dieser, unterschiedliche bevorzugte Übersetzungen aufweisen. Indem
die große
Anzahl von Dokumenten, die in typischen Informationssystemen verfügbar sind,
gegeben ist, kann dies bedeuten, dass es für einen Sucher schwierig ist,
die Dokumente zu identifizieren, die unter der großen Anzahl
irrelevanter Dokumente, die identifiziert werden können, benötigt werden.
-
Eine Verwendung nur der bevorzugten Übersetzung
jedes Abfrageausdrucks löst
das Problem einer großen
Anzahl von Dokumenten. Jedoch sind bekannte Maschinenübersetzungssysteme
von eingeschränkter Genauigkeit
und würden
häufig
eine ungeeignete Übersetzung
als die bevorzugte Übersetzung
wählen.
Somit ist es, wann immer das Übersetzungssystem
die falsche Übersetzung
wählt,
nicht sehr wahrscheinlich, dass das Informationswiedergewinnungssystem
Dokumente identifiziert, die für
den Gegenstand, nach dem gesucht wird, relevant sind.
-
Techniken zum Analysieren eines Quellensprachentextes,
um gemeinsam auftretende Wörter
oder Kollokationen in einem Versuch zu identifizieren, eine kontextuelle
Information zu verwenden, um eine Übersetzungsgenauigkeit zu verbessern,
existieren. Ein derartiger Prozess unterstützt die Wahl sinnvoller Übersetzungen,
weil weniger mögliche Übersetzungen
einer Kollokation als ihrer getrennten Wortbestandteile vorhanden
sind. Beispielsweise weist die Kollokation "Gebrauch machen von" nur wenige Übersetzungen in Zielsprachen
auf, wohingegen die häufig
verwendeten Ausdrücke "machen", "Gebrauch" und "von" zu einer großen Anzahl
von Übersetzungsausdrücken führen.
-
Obwohl ein Verwenden von Kollokationen
bei einem Einschränken
der Anzahl von Zielabsprache-Abfrageausdrücken, die erzeugt werden, hilft,
sind viele bekannte Systeme nur in der Lage, kontinuierliche Kollokationen,
d. h. Wörter,
die nebeneinander gemeinsam auftreten, zu erkennen. In der Praxis
ist eine beträchtliche
Anzahl von Kollokationen in wirklichen Sprachen nicht-kontinuierlich.
Beispielsweise kann die Kollokation "Gebrach machen von" in natürlichen Sprachdokumenten auftreten
als " machen guten
Gebrauch von", indem das
Wort "guten" überbrückt ist, um so eine nicht-kontinuierliche
Kollokation zu sein.
-
Die
EP
0 813 160 und die GB 2 314 183 offenbaren eine multilinguale
Ressource zum Identifizieren und Übersetzen kontinuierlicher
und nicht-kontinuierlicher Kollokationen. Diese multilinguale Ressource
ermöglicht
es, dass eine (geordnete) Mehrzahl von Quellensprachenwörtern (oder
-kollokationen) mit Zielsprachenübersetzungen
bezeichnet werden.
-
Ein weiterer Nachteil bekannter Anordnungen
des oben stehend beschriebenen Typs besteht darin, dass identifizierte
Dokumente dem Sucher in der Zielsprache präsentiert werden. Somit kann,
obwohl ein Sucher, der mit der Zielsprache nicht vertraut ist, Dokumente
von Relevanz oder Interesse in der Zielsprache wiedergewinnen kann,
ein derartiger Sucher dann die Relevanz und den Inhalt der wiedergewonnenen
Dokumente nicht überprüfen, außer er oder
sie ist mit der Zielsprache vertraut. Somit kann, obwohl bekannte
Techniken für
eine kreuzlinguistische Informationsgewinnung verwendet werden können, die
Wirksamkeit einer derartigen Informationsgewinnung nur durch Sucher überprüft werden,
die mit der Zielsprache ausreichend vertraut sind, um derartige
Techniken nicht verwenden zu müssen.
-
Die GB 2 320 773 betrifft eine automatische Übersetzungstechnik,
die prinzipiell zur Verwendung in dem Internet vorgesehen ist. Sie
ist basiert auf einem Suchen nach nützlichen Dokumenten oder Dateien
durch Zeichenketten und ein Wählen
der geeignetsten Übersetzungsumgebung
(wie etwa einer multilingualen Ressource oder einem Maschinenübersetzungssystem)
für lokalisierte
Dokumente auf der Grundlage der Zeichenkette. Jedwede Übersetzung,
die auftritt, wird exklusiv bezüglich
der lokalisierten Dokumente durch die geeignetste Übersetzungsumgebung
für den
Gegenstand, wie er durch die Zeichenkette definiert ist, durchgeführt.
-
Die WO 97/18516 betrifft spezifisch
ein Übersetzen
von Web-Seiten,
während
das ursprüngliche
Erscheinungsbild aufrechterhalten wird. Ein HTML-Dokument wird durch
ein Platzieren von Begriffsschranken um die HTML-Codes vorverarbeitet,
um sie zu erhalten. Der übrige
Text und die Daten außerhalb
dieser Grenzen werden dann in die gewünschte Sprache übersetzt.
Schließlich
werden die Grenzen entfernt, so dass die Seiten ihr ursprüngliches
Format oder Erscheinungsbild behalten, aber sämtlicher relevanter Text in
die gewünschte
Sprache übersetzt
ist. Abfragen werden in herkömmlicher
Weise in den üblichen
Adresscodes formuliert und durchlaufen keine Verarbeitung, sondern
werden nur verwendet, um auf gewünschte
Dokumente zuzugreifen.
-
Die WO 97/08604 offenbart ein Informationswiedergewinnungssystem,
das auf einem Übersetzen
von Abfragen und Dokumenten basiert ist. Jedoch macht diese Technik
Gebrauch von einer sprachenunabhängigen,
konzeptuellen Darstellung jeder Abfrage und jedes Dokuments, das
zum Suchen verfügbar
ist. Somit müssen,
damit das System arbeitet, sämtliche
Dokumente zuerst einer "Übersetzungs"-Prozedur unterworfen werden,
in welcher die konzeptuelle Darstellung des Gegenstands des Dokuments
gebil det wird. Abfragen werden auf ähnliche Weise erarbeitet, und
ein Suchen wird durch ein Anpassen der konzeptuellen Darstellungen
durchgeführt.
-
Gemäß einem ersten Aspekt der Erfindung
ist ein Verfahren zum Wiedergewinnung einer Information von einer
Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer
Abfrage in einer Quellensprache bereitgestellt, umfassend: Konvertieren
der Abfrage in die Zielsprache unter Verwendung einer multilingualen
Ressource; Bilden einer Abfrage in der Zielsprache von der konvertierten
Abfrage und von zusätzlicher
Information, die von der multilingualen Ressource erzeugt wird, über die
Zielsprache, wobei die zusätzliche
Information über
die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit
oder Probabilität anzeigt,
dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt
konvertierter Ausdruck ist; Anwenden der Abfrage in der Zielsprache
auf ein Informationsverwaltungssystem, das eine Mehrzahl von Dokumenten
in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache
identifiziert; Verwenden der zusätzlichen
Information über
die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem
identifiziert sind, gemäß einem
Grad einer Relevanz wieder einzureihen; und Konvertieren zumindest
eines der Dokumente in der Zielsprache, das von dem Informationsverwaltungssystem
identifiziert ist, in die Quellensprache unter Verwendung der multilingualen
Ressource.
-
Eine multilinguale Ressource ist
jedwedes System, das in der Lage ist, einen Ausdruck (ein Wort oder eine
Kollokation) in der Quellensprache in einen oder mehrere äquivalente
Ausdrücke
in der Zielsprache zu konvertieren. Ein Informationsverwaltungssystem
ist jedwedes System, das in der Lage ist, Dokumente
zu identifizieren, die Ausdrücke
enthalten, die auf das System als eine Abfrage angewandt werden.
-
Die Quellen- und Zielsprachen sind
vorzugsweise natürliche
Sprachen.
-
Die multilinguale Ressource kann
ein bilinguales Wörterbuch
umfassen. Die multilinguale Ressource kann jeden Ausdruck der Quellensprachenabfrage
identifizieren und übersetzen.
Die multilinguale Ressource kann Ausdrücke, die Kollokationen sind,
identifizieren und übersetzen,
aber kann nicht die einzelnen Wörter der
Kollokationen übersetzen.
Für jeden
Ausdruck, der mehr als eine Übersetzung
aufweist, kann die multilinguale Ressource mehr als eine der Übersetzungen
liefern.
-
Die Zielsprachenabfrage kann zumindest
manche jedweder Ausdrücke
in der Quellensprachenabfrage einschließen, die von der multilingualen
Ressource nicht in die Zielsprache konvertiert werden können.
-
Der zumindest eine Teil jedes Dokuments
kann einen Titel des Dokuments umfassen. Der zumindest eine Teil
jedes Dokuments kann eine Zusammenfassung oder eine Kurzfassung
des Dokuments umfassen. Der zumindest eine Teil jedes Dokuments
kann einen Satz umfassen, der Ausdrücke enthält, die zu der Abfrage in der
Zielsprache passen.
-
Die zusätzliche Information kann eine
Information einschließen,
die eine Wahrscheinlichkeit oder eine Probabilität anzeigt, dass ein konvertierter
Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck
ist.
-
Gemäß einem zweiten Aspekt der
Erfindung ist eine Vorrichtung zum Wiedergewinnen einer Information
aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung
einer Abfrage in einer Quellensprache bereitgestellt, dadurch gekennzeichnet,
dass die Vorrichtung umfasst: eine multilinguale Ressource zum Konvertieren
der Abfrage in die Zielsprache; eine Einrichtung zum Bilden einer
Abfrage in der Zielsprache von der konvertierten Abfrage und von
einer zusätzlichen
Information, die von der multilingualen Ressource erzeugt wird, über die
Zielsprache, wobei die zusätzliche
Information über
die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit
oder Probabilität
anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache
ein korrekt konvertierter Aus druck ist; eine Einrichtung zum Anwenden
der Abfrage in der Zielsprache auf ein Informationsverwaltungssystem,
das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage
der Abfrage in der Zielsprache identifiziert; und eine Einrichtung
zum Verwenden der zusätzlichen
Information über
die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem
identifiziert sind, gemäß einem
Grad einer Relevanz wieder einzureihen, wobei die multilinguale Ressource
eingerichtet ist, zumindest einen Teil von zumindest einem der Dokumente
in der Zielsprache, das von dem Informationsverwaltungssystem identifiziert
ist, in die Quellensprache zu konvertieren.
-
Die multilinguale Ressource kann
ein bilinguales Wörterbuch
umfassen. Die multilinguale Ressource kann angeordnet sein, jeden
Ausdruck der Quellensprachenabfrage zu identifizieren und zu übersetzen.
Die multilinguale Ressource kann angeordnet sein, um Ausdrücke, die
Kollokationen sind, zu identifizieren und zu übersetzen, aber die einzelnen
Wörter
der Kollokationen nicht zu übersetzen.
Für jeden
Ausdruck, der mehr als eine Übersetzung
aufweist, kann die multilinguale Ressource angeordnet sein, mehr
als eine der Übersetzungen
zu liefern.
-
Die Abfrageerzeugungseinrichtung
kann angeordnet sein, in der Zielsprachenabfrage zumindest einen
jedweder Ausdrücke
in der Quellensprachenabfrage einzuschließen, die durch die multilinguale
Ressource nicht in die Zielsprache konvertiert werden können.
-
Die Vorrichtung kann einen programmierten
Datenprozessor umfassen.
-
Gemäß einem dritten Aspekt der
Erfindung ist ein Speichermedium dargestellt, das ein Programm zum Ausführen des
Verfahrens der Erfindung speichert.
-
Die multilinguale Ressource ist vorzugsweise
von dem Typ, der in der
EP 0
813 160 und der GB 2 314 183 offenbart ist.
-
Es ist somit möglich, eine kreuz-linguistische
Informationswiedergewinnung auf eine derartige Weise durchzuführen, dass
wiedergewonnene Dokumente hinsichtlich einer Relevanz von einem
Sucher überprüft werden
können,
der mit der Zielsprache der Dokumente nicht vertraut ist. Ein Vorteil
eines Verwendens der gleichen multilingualen Ressource zum Bilden
einer Abfrage und zum Konvertieren in die Quellensprache zumindest
eines Teils oder jedes identifizierten Dokuments besteht darin,
dass die Ausdrücke
des konvertierten Dokuments oder eines Teils davon in der Quellensprache
wahrscheinlich gleich oder ähnlich
zu den Ausdrücken
sind, die in der Quellensprachenabfrage verwendet werden. Somit
kann ein Sucher, der mit der Zielsprache nicht vertraut ist, mit
einer höheren
Präzision
bestimmen, ob identifizierte Zielsprachendokumente tatsächlich bezüglich der
Abfrage relevant sind. Die Wirksamkeit einer kreuzlinguistischen
Wiedergewinnung kann deswegen wesentlich verbessert werden, ungeachtet
dessen, ob ein Sucher mit der Zielsprache vertraut ist.
-
Ein Vorteil eines Verwendens einer
nicht-deterministischen multilingualen Ressource, wie etwa jener, die
in der
EP 0 813 160 und
der GB 2 314 183 offenbart ist, besteht darin, dass sie eine bevorzugte Übersetzung
für jeden
Ausdruck erzeugt, aber auch eine Mehrzahl alternativer Übersetzungen
beispielsweise unter Verwendung einer kontextuellen Information
in einem Satz, wo sie verfügbar
ist, erzeugt. Dies beschränkt
die Anzahl alternativer Übersetzungen,
die erzeugt werden, beträchtlich.
Auch können
alternative Übersetzungen gemäß eines
Kriteriums eingereiht werden, das die Wahrscheinlichkeit anzeigt,
dass eine jeweilige Übersetzung
korrekt ist. Somit kann die Anzahl von tatsächlich verwendeten Übersetzungen
in einer Zielsprachen-Abfrageformulierung an die Anforderungen eines
Suchers angepasst werden.
-
Die Erfindung wird weiter im Wege
eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen beschrieben
werden.
-
In den Zeichnungen zeigen:
-
1 ein
schematisches Blockdiagramm einer Vorrichtung zum Wiedergewinnen
einer Information, die eine Ausführungsform
der Erfindung bildet;
-
2 ein
Flussdiagramm, das ein Verfahren zum Wiedergewinnen einer Information
veranschaulicht, das eine Ausführungsform
der Erfindung bildet; und
-
3 ein
detaillierteres Flussdiagramm eines Verfahrens ähnlich zu jenem in 2 veranschaulichten.
-
1 zeigt
eine Vorrichtung zum Wiedergewinnen einer Information unter Verwendung
eines Informationsverwaltungssystems 1, wie etwa einer
Internet-Suchmaschine. Die Vorrichtung ist von dem programmierten
Datenprozessortyp, wie etwa ein Computer, und umfasst eine programmierbaren
Datenprozessor 2, der mit einer Eingangsschnittstelle 3,
wie etwa einer Tastatur und einer Maus und einer Ausgangsschnittstelle 4, wie
etwa einer Anzeige und einem Drucker, versehen ist. Die Eingangsschnittstelle 3 kann
zum Eingeben von Quellensprachenabfragen und zum anderweitigen Steuern
eines Betriebs der Vorrichtung verwendet werden. Die Ausgangsschnittstelle 4 kann
zum Anzeigen der Ergebnisse von Suchabläufen und zum Bereitstellen
einer Information über
einen Betrieb der Vorrichtung verwendet werden.
-
Der Datenprozessor
2 weist
einen "Arbeitsspeicher" in der Form eines
Schreib-/Lesespeichers (RAM)
5 zum verübergehenden Speichern von Daten
während
einer Datenverarbeitung auf. Ein nicht-flüchtiger Schreib-/Lesespeicher
6 ist
zum Speichern von Daten bereitgestellt, die festgehalten werden
müssen,
beispielsweise wenn die Energieversorgung der Vorrichtung abgeschaltet
wird. Ein Programmspeicher
7 in der Form eines Lesespeichers
(ROM) enthält
ein Programm zum Steuern eines Betriebs des Datenprozessors
2. Die
Vorrichtung umfasst weiter ein Dokumentenwörterbuch
8, das die
Ausdrücke
(Wörter
und Kollokationen) der Quellensprachenabfrage mit Zielsprachenübersetzungen
bezeichnet. Das Dokumentenwörterbuch
8 ist vorzugsweise
von dem in der
EP 0 813 160 und
der GB 2 314 183 offenbarten Typ. Obwohl das Dokumentenwörterbuch
8 als
eine unab hängige
Komponente der Vorrichtung veranschaulicht ist, kann sie durch den
Datenprozessor
2 und die Speicher
5 bis
7 verkörpert sein.
-
Der Programmspeicher 7 enthält das zuvor
erwähnte
Programm, das von dem Datenprozessor 2 ausgeführt wird,
und/oder das Dokumentenwörterbuch 8,
das darin eingeschlossen ist, um die verschiedenen hierin beschriebenen
Betriebsweisen auszuführen.
Das Programm kann in jedweder einer Mehrzahl bekannter Computersprachen
geschrieben sein, wie Durchschnittsfachleuten in der Computerprogrammierung
leicht offensichtlich ist. Somit sind weitere Details, die den spezifischen
Code selbst betreffen, aus Gründen
einer kurzen Darstellung weggelassen worden.
-
Das Informationsverwaltungssystem 1 ist
von dem Typ, der maschinenlesbare Dokumente enthält und der angeordnet ist,
auf derartige Dokumente auf der Grundlage von Abfragen zuzugreifen
oder diese zu suchen. Insbesondere empfängt das System 1 Abfragen
von der Vorrichtung und sucht die Dokumente nach Übereinstimmungen
mit den Abfragen. Dokumente, die die Ausdrücke oder logische Kombinationen
der Ausdrücke
jede Abfrage enthalten, werden der Vorrichtung dann verfügbar gemacht,
beispielsweise durch ein Herunterladen in den Speicher 5.
Um eine ausreichende Speicherkapazität bereitzustellen, kann der
Speicher 5 Plattenspeicher des magnetischen oder optischen
Speicherungstyps einschließen.
-
2 veranschaulicht
ein Verfahren zum Wiedergewinnen einer Information, das durch die
in
1 gezeigte Vorrichtung
durchgeführt
werden kann. Eine Quellensprachenabfrage, beispielsweise in Englisch, wird
bei 11 formuliert, indem sie beispielsweise auf einer Tastatur der
Eingabeschnittstelle
3 eingegeben wird. Die Quellensprachenabfrage
wird auf eine multilinguale Ressource
12 angewandt, die
dem Dokumentenwörterbuch
8,
das in
1 gezeigt ist,
entspricht. In dem nachstehend beschriebenen Beispiel konvertiert
die multilinguale Ressource zwischen englischen und holländischen
Ausdrücken
und ist von dem Typ, der in der
EP 0
813 160 und der GB 2 314 183 offenbart ist.
-
Die multilinguale Ressource 12 konvertiert
die Ausdrücke
der Quellensprachenabfrage in Zielsprachen-Abfrageausdrücke, wie
bei 13 angezeigt. Die multilinguale Ressource 12 liefert
eine zusätzliche
Information, die die Wahrscheinlichkeit oder Probabilität anzeigt,
dass jeder der mehreren Zielsprachen-Abfrageausdrücke eines
Quellensprachenabfrageausdrucks der richtige ist.
-
Die Zielsprachen-Abfrageausdrücke und
die zusätzliche
Information werden einer Abfrage-Formulierungseinheit 14 zugeführt, die
die Ausdrücke
in die Zielsprachenabfrage konvertiert. Die Abfrage-Formulierungseinheit 14 verwendet
die zusätzliche
Information, um beispielsweise jeden Zielsprachen-Abfrageausdruck
zu ignorieren, dessen Wahrscheinlichkeit, dass er korrekt ist, geringer
als eine Schwelle it. Die Zielsprachenabfrage 15 ist in
einer Form, die direkt auf ein Informationsverwaltungssystem 16,
wie etwa eine Internet-Suchmaschine, angewandt werden kann.
-
Das Informationsverwaltungssystem 16 führt einen
Anpassungsprozess durch. Insbesondere sucht das System 16 die
Zielsprachendokumente nach Übereinstimmungen
zwischen der Zielsprachenabfrage und dem Text der Dokumente ab.
Wann immer eine Übereinstimmung
gefunden wird, wird das Dokument als ein Zielsprachenergebnis 17 heruntergeladen.
Die Ergebnisse werden dann bei 18 unter Verwendung der
zusätzlichen
Information, die von der multilingualen Ressource 12 bereitgestellt
wird, verarbeitet, beispielsweise um die Ergebnisse wieder einzureihen.
Die Ergebnisse, die zurückgegeben
werden, und die "wahrscheinlichste" Abfrageausdruckübersetzungen
enthalten, können
in einer Reihungsliste von Ergebnissen höher platziert werden als jene,
die einen Zielsprachen-Abfrageausdruck enthalten, der aus einer
weniger wahrscheinlichen Übersetzungsalternative
erzeugt ist. Ein spezifisches Beispiel, das ein derartiges Wiedereinreihen
veranschaulicht, ist nachstehend beschrieben.
-
Die verarbeiteten Zielsprachenergebnisse
in der Form verarbeiteter Zielsprachendokumente
werden dann der multilingualen Ressource 12 zugeführt, die
die Zielsprachenergebnisse in die Quellensprachenergebnisse 19 konvertiert,
die dem Nutzer dann beispielsweise auf einer Anzeige oder als eine
Kopie von einem Drucker in der Ausgangsschnittstelle 4 präsentiert
werden. Die multilinguale Ressource 12 kann eine Wörterbuchübersetzung
der Gesamtheit jedes Zielsprachendokuments bereitstellen oder kann
eine Übersetzung
nur eines Teils davon, wie etwa eines Titels, einer Zusammenfassung
oder einer Kurzfassung bereitstellen.
-
3 veranschaulicht
einen Teil des in 2 gezeigten
Verfahrens detaillierter. Die Verwendung des Verfahrens wird unter
Bezugnahme auf eine spezifische, aber beliebige Quellensprachenabfrage
in Englisch zum Zugreifen auf Dokumente in Holländisch beschrieben werden.
-
Die eingegebene Quellensprachenabfrage
q, die bei 11 gezeigt ist, wird auf die englisch/holländische multilinguale
Ressource angewandt, die von dem Typ ist, der in der
EP 0 813 160 und der GB 2 314 183
offenbart ist. Das Informationsverwaltungssystem
16 ist
in diesem Beispiel eine holländische
World-Wide-Web-Suchmaschine.
Die Quellensprachenabfrage lautet "treatments for athlete's foot".
-
In einem Schritt 21 identifiziert
die multilinguale Ressource die einzelnen Ausdrücke der Abfrage, wobei die
Ausdrücke
Wörter,
nicht-kontinuierliche Kollokationen und kontinuierliche Kollokationen
sein können, und
speichert diese Ausdrücke
in einem Satz s. Die spezifische Abfrage wird in den Satz von Ausdrücken konvertiert:
treatments
for
athlete
foot
athlete's foot.
-
Ein Schritt 22 setzt einen Parameter "Element" auf einen Wert von
1 und eine Parameter N auf die Kardinalität des Satzes S, d. h. einen
Wert gleich der Anzahl von Elementen des Satzes S, die in dem spezifischen
Beispiel 5 beträgt.
Ein Schritt 23 testet, ob "Element" geringer als oder
gleich N ist. Wenn dem so ist, schlägt ein Schritt 24 den Abfrageausdruck
Selement in einer bilingualen Ressource,
wie etwa einem englisch/holländischen
Wörterbuch
oder Lexikon nach und speichert die oder jede Zielsprachenübersetzung
in einem Satz Telement. Ein Schritt 25 setzt
den Parameter "Element" um eins hoch, und
die Schritte 23 bis 25 werden wiederholt, bis sämtliche der Abfrageausdrücke übersetzt
worden sind.
-
Ein Schritt 26 setzt einen Parameter
i auf einen Wert von eins, und ein Schritt 27 testet, ob i geringer als
oder gleich N ist. Wenn dem so ist, sortiert ein Schritt 28 die
Zielsprachenübersetzungen,
die in dem Satz Ti gespeichert sind, gemäß einer
Prioritätsinformation,
die während
des Nachschlagprozesses erhalten wird, der in dem Schritt 24 durchgeführt wird.
-
Wenn der Satz Ti,
nur eine Übersetzung
enthält,
ist keine Verarbeitung notwendig. Jedoch werden, wo der Satz Ti mehr als eine mögliche Übersetzung enthält, die Übersetzungen
in der Reihenfolge der Wahrscheinlichkeit, dass sie korrekt sind,
sortiert.
-
Der Parameter i wird um eins in dem
Schritt 29 hochgesetzt, und die Schritte 27 bis 29 werden wiederholt,
bis sämtliche
der Zielsprachenübersetzungen
der Eingangsquellensprachen-Abfrageausdrücke sortiert
worden sind. Beispielsweise sind in dem Fall der spezifischen Eingangsabfrage
die Ergebnisse wie folgt:
treatments → | {behandelingen} |
for → | {voor} |
athlete → | {atleet} |
foot → | {voet,
basis} |
athlete's foot → | {voetschimmel} |
-
In einem Schritt 30 werden die sortierten
Zielsprachenübersetzungen
in den Sätzen
Ti, wobei 1 ≤ i ≤ N, in eine Zielsprachenabfrage
formuliert. Ein Beispiel einer Zielsprachenabfrage ist wie folgt:
behandelingen
UND voor UND (voetschimmel ODER (atleet UND (voet ODER basis))).
-
Die Abfrage-Formulierungseinheit
erfasst, dass die Quellensprachen-Abfragenausdrücke "treatments" und "for" einzelne
holländische Übersetzungen
aufweisen und in jedwedem Dokument von Relevanz vorhanden sein müssen. Dementsprechend
formuliert die Abfrage-Formulierungseinheit 14 die Abfrage
mit den Übersetzungen
für diese
Ausdrücke,
die durch den Booleschen Logik-UND-Operator
in Beziehung stehen.
-
Die Abfrage-Formulierungseinheit 14 erfasst,
dass verschiedene mögliche Übersetzungen
für die übrigen Ausdrücke in der
Quellensprachenabfrage vorhanden sind. Insbesondere müssten die Übersetzungen für die einzelnen
Wörter "athlete" und "foot" in einem relevanten
Dokument vorhanden sein, aber eine Alternative dazu würde das
Vorhandensein der Übersetzung
für den
Ausdruck "athlete's foot" sein. Weiter erfasst
die Formulierungseinheit, dass zwei mögliche Übersetzungen des Ausdrucks "foot" vorhanden sind,
so dass diese als Alternativen in der Abfrage formuliert werden
sollten. Alternativen stehen durch einen Booleschen Logik-ODER-Operator
in der Abfrage in Beziehung.
-
Die Abfrage wird auf das Zielsprachen-Informationsverwaltungssystem
in einem Schritt 31 angewandet, der die Suchergebnisse in der Form
von Dokumenten in der Zielsprache wiedergewinnt. Beispielsweise gibt
der Schritt 31 die Titel relevanter Dokumente oder Passagen von
derartigen Dokumenten zurück,
in welchen die notwendigen Kombinationen der Ausdrücke in der
Zielsprachenabfrage vorhanden sind. Ein Beispiel des Ergebnisses
einer derartigen Suche ist wie folgt:
- 1. Moderne
behandelingen voor voetschimmel
- 2. Voetschimmel: nieuwe behandelingen voor een oude kwaal
- 3. Behandelingen voor aandoeningen an de atleet op basis van
nieuwe medische vindingen.
-
Ein Schritt 32 verarbeitet dann die
Suchergebnisse auf der Grundlage eines Sortierens und einer Prioritätsinformation, die
in dem Schritt 28 berechnet sind, und ein spezifisches Beispiel
davon ist nachstehend beschrieben.
-
Ein Schritt 33 führt dann der multilingualen
Ressource 12 die Suchergebnisse in der Zielsprache zu, die
Quellensprachendokumente oder Text von diesen Ergebnissen erzeugt.
Somit werden die Zielsprachen-Suchergebnisse, die nachstehend gegeben
sind, von der multilingualen Ressource übersetzt, die das folgende
Ergebnis vorgibt:
- 1. Modern treatments for
athlete's foot
- 2. Athlete's
foot: new treatments for an old problem
- 3. Treatments for injuries of athletes based on new medical
discoveries.
-
Die Reihenfolge der Dokumente gibt
die Prioritätsinformation
wieder, dahingehend, dass das Dokument, das als das relevanteste
angesehen wird, als das erste Dokument dargestellt wird. In dem
spezifischen Beispiel sind die ersten beiden Dokumente in klarer
Weise relevant, da sie die bevorzugten Wörterbuchübersetzungen der Ausdrücke der
Quellensprachenabfrage enthalten. Jedoch werden, indem eine begrenzte
Anzahl von weniger bevorzugten Übersetzungen
verwendet wird, die Möglichkeiten,
ein relevantes Dokument zu verpassen, verringert, wohingegen die
Anzahl lokalisierter irrelevanter Dokumente auch verringert wird.
In dem spezifischen Beispiel ist ein einziges relevantes Dokument
lokalisiert worden.
-
In dem spezifischen Beispiel, das
oben stehend beschrieben ist, war die multilinguale Ressource erforderlich,
um nur eine einzige kontinuierliche Kollokation zusätzlich zu
den einzelnen Wörtern
der Quellensprachenabfrage zu identifizieren. Jedoch ist die multilinguale
Ressource, die in der
EP 0 813
160 und der GB 2 314 183 offenbart ist, auch in der Lage,
nichtkontinuierliche Kollokationen zu identifizieren. Ein spezifisches Beispiel
einer derartigen nicht-kontinuierlichen Kollokation tritt in der
Abfrage auf:
"making
good use of old clothes".
-
In diesem Fall bilden die Wörter "making use of" eine nichtkontinuierliche
Kollokation, die das Wort "good" umspannen. Durch
ein Erfassen derartiger nicht-kontinuierlicher Kollokationen ist
es möglich,
die Präzision
eines Übersetzens
der Abfrage in die Zielsprache zu verbessern.
-
In diesem Fall stellen die Schritte
20 bis 28 die folgenden Sätze
sortierter Zielsprachenübersetzungen der
Quellensprachenabfrage bereit:
make
us of → | {gebruiken,
...} |
good → | {goed,
goedaardig, ...} |
old → | {oud,
antiek, ... } |
clothes → | {kleren,
kledingstukken, ...} |
-
Diese Sätze enthalten Übersetzungen
der einzelnen Wörter "make", "use" und "of" nicht, so dass eine große Anzahl
möglicher
irrelevanter Bedeutungen der Bestandteilausdrücke der Kollokation "make use of" eliminiert werden.
Dies verringert wiederum die Wahrscheinlichkeit, dass irrelevante
Ausdrücke
wegen der Verwendung ungeeigneter Zielsprachenausdrücke in der
Zielsprachenabfrage gefunden werden.
-
Um die Verarbeitung zu veranschaulichen,
die in dem Schritt 32 durchgeführt
wird, wird eine Quellensprachenabfrage "introducing security passes" betrachtet. Die Übersetzungen
in holländischer
Sprache von "passes" und ihrer Probabilitäten, dass
sie korrekt sind, werden wie folgt gegeben:
passes → | pas(sen)
(0,7) |
| kaart(en)
(0, 2) |
| voldoende(s)
(0,1) |
-
Eine Abfrage, die aus diesen Alternativen
(und natürlich
jenen der anderen Ausdrücke)
erzeugt wird, gibt den folgenden Satz von Ergebnissen zurück:
- 1. Het halen van voldoendes op school: zijn
voldoendes echt voldoende?
(in Englisch: "Getting pass marks in school: is a pass
really good enough?")
- 2. Veiligheid op kantoor: passen en beveiligingsbeambten.
(in
Englisch: "Safety
in the office: passes and security guards").
- 3. Een pas opent alle deuren.
(in Englisch: "One pass opens all
doors").
-
Obwohl nicht nur das "passen" die bei weitem wahrscheinlichste
Abfrageausdruckübersetzung
ist, ist ein Dokument, das den am wenigsten wahrscheinlichen enthält, als
höchstes
eingereiht worden. Dies liegt daran, dass es eine Übersetzung
des englischen Ausdrucks "passes" häufiger enthält (es weist
drei Übereinstimmungen
mit der Abfrage anstelle einer auf) und die Suchmaschine dies als
ein Ordnungskriterium verwendet. Indem die verfügbare zusätzliche Information vorgegeben
wird, ist dies nicht das gewünschte
Verhalten. Unter Verwendung der zusätzlichen Information werden
die Ergebnisse auf der Grundlage der Wahrscheinlichkeit der Übersetzungsalternativen
wieder eingereiht. In dem einfachsten Fall kann beispielsweise die
Formel "Anzahl eines
Auftretens der Ausdrücke
in dem Dokument" mal "Wahrscheinlichkeit
des Ausdrucks" angewandt werden.
In dem Beispiel empfängt
das erste Dokument eine neue Punktzahl von nur 0,3 (3 × 0,1),
wohingegen das nächste
eine Punktzahl von 0,7 (1 × 0,7)
jeweils empfängt.
Deswegen ist die neue Einreihung:
- 1. Veiligheid op kantoor:
passen en beveiligingsbeambten.
- 2. Een pas opent alle deuren.
- 3. Het halen van voldoendes in school: zijn voldoendes echt
voldoende?
was eher mit der Information über die Wahrscheinlichkeiten
der Übersetzungsalternativen,
die korrekt sind, übereinstimmt.
-
In der Praxis können viele Beispiele von Quellensprachen-Abfrageausdrücken vorhanden
sein, die von der multilingualen Ressource in die Zielsprachen-Abfrageausdrücke nicht übersetzt
werden können.
Ein üblich
verbreitetes Beispiel ist jenes, wo Abfragen Eigennamen enthalten.
Beispielsweise ist es unwahrscheinlich, dass die multilinguale Ressource
in der Lage sein könnte,
Eigennamen, wie etwa "Dagmar
Dwehus", zu übersetzen.
Jedoch können
derartige Abfrageausdrücke
sehr nützlich
bei einem Wiedergewinnen relevanter Dokumente sein, beispielsweise
wo es gewünscht
ist, nur Dokumente wiederzugewinnen, die einen derartigen Eigennamen
enthalten.
-
Um mit dieser Situation zurechtzukommen,
ist es möglich,
dass Ausdrücke,
für welche
die multilinguale Ressource eine Übersetzung nicht finden kann,
ohne eine Änderung
in die Zielsprachenabfrage übergeben werden.
Derartige Ausdrücke
können
dann in der Zielsprachenabfrage verwendet werden, so dass entweder: nur
Dokumente, die derartige Ausdrücke
enthalten, wiedergewonnen werden; oder Dokumente, die derartige Ausdrücke enthalten,
und Dokumente, die derartige Ausdrücke nicht enthalten, aber andere
Suchkriterien erfüllen,
wiedergewonnen werden.
-
Als eine Alternative können derartige "unübersetzbare" Ausdrücke während der
Formulierung der Zielsprachenabfrage editiert werden. Beispielsweise
können
derartige Ausdrücke
in die Zielsprachenabfrage nur dann übergeben werden, wenn sie als
Eigennamen identifiziert sind. Somit werden Ausdrücke, die
nicht als Eigennamen identifiziert sind, zurückgewiesen und bilden nicht
einen Teil der Zielsprachenabfrage. Diese Technik ist bei einem
Zurückweisen
von Ausdrücken
nützlich,
die unübersetzbar
sind, weil sie in der Quellensprachenabfrage falsch buchstabiert
worden sind.
-
Wenn über eine Strategie zum Formulieren
von Zielsprachenabfragen entschieden wird, kann es notwendig sein,
die tatsächliche
Form der multilingualen Ressource zu betrachten. Bei spielsweise
können
Maschinenübersetzungssysteme
Zielsprachen-Abfrageausdrücke erzeugen,
die sehr selten sind, wohingegen multilinguale Ressourcen üblichere
Ausdrücke
erzeugen können.
Es wird angenommen, dass dies eine Wirkung auf die Gesamtwiedergewinnungsgenauigkeit
haben kann.
-
Beispielsweise kann eine Wirkung
davon sein, dass, weil Informationswiedergewinnungssysteme oft statistischer
Natur sind, es zugelassen sein kann, dass verbreitetere Ausdrücke zu einem
Wiedergewinnungssystem weniger Dokumente beitragen, um so mehr Platz
für andere
Ausdrücke
zu lassen, Dokumente beizutragen. Somit würde es, wenn ein Zielsprachen-Abfrageausdruck
eine nicht korrekte Übersetzung
war, eine weniger negative Wirkung für die wiedergewonnenen Ergebnisse
haben. Im Gegensatz dazu werden Systeme, die eine seltenere Terminologie
verwenden, schwerer für
Fehler in dem Übersetzungsprozess
belangt, da die Seltenheit eines resultierenden Ausdrucks bedeuten
kann, dass ihm eine größere Bedeutung
in dem Wiedergewinnungssystem gegeben wird, und somit potenziell
irrelevantere Dokumente zu dem Ergebnis beitragen kann.
-
Es wird angenommen, dass die Verwendung
der am verbreitetsten eingesetzten Ausdrücke in der Zielsprachenabfrage
helfen kann, eine große
Anzahl von potenziell relevanten Dokumenten wiederzugewinnen. Es
wird angenommen, dass eine derartige Technik nicht zu zu vielen
relevanten Dokumenten, die wiedergewonnen werden, aufgrund der Tatsache
führen
kann, dass der Ausdruck, der verbreitet ist, ein Anhaltspunkt für das Informationswiedergewinnungssystem
ist, dass sein Wert bei einem Unterscheiden relevanter Dokumente
von nicht relevanten wahrscheinlich ziemlich niedrig ist.
-
In Abhängigkeit von der Natur der
multilingualen Ressource kann es ausreichend sein, eine "vorbesetzte Übersetzung" jedes Quellensprachenausdrucks
zu wählen,
um so den äquivalenten
Zielsprachenausdruck zu bilden. Beispielsweise kann, wo die multilinguale
Ressource ein bilinguales Wörterbuch
ist, diese vorbesetzte Übersetzung
die bevorzugte Übersetzung
sein, die von dem Wörterbuch
erhalten wird. Wo eine Information über die Häufigkeit eines Auftretens eines
Ausdrucks erhalten worden ist, beispielsweise durch ein Analysieren
einer großen
Anzahl von Dokumenten, kann der verbreitetste Ausdruck als die vorbesetzte Übersetzung
gewählt
werden.