DE69911842T2

DE69911842T2 - Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium

Info

Publication number: DE69911842T2
Application number: DE69911842T
Authority: DE
Inventors: Victor Sandford on Thames Poznanski; Jan Jaap Gloucester Green Ijdens
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-05-20
Filing date: 1999-05-18
Publication date: 2004-07-22
Anticipated expiration: 2019-05-19
Also published as: US6360196B1; GB9810795D0; GB2337611A; DE69911842D1; EP0959420B1; EP0959420A2; JPH11345249A; EP0959420A3

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Wiedergewinnen von Information. Die Erfindung betrifft auch ein Speichermedium, das ein Programm zum Durchführen eines derartigen Verfahrens enthält. Diese Techniken können in Informationsverwaltungssystemen, wie etwa Informationswiedergewinnungssystemen oder "Suchmaschinen", Informationsfilterungsanwendungen, die auch als Informations-Routingsysteme bekannt sind, und Informationsextraktionsanwendungen verwendet werden.
D. A. Hull und G. Greffenstette, "Querying across Languages: a Dictionary-Based Approach to Multilingual Information Retrieval", 19^th Annual International Conference on Research and Development in Information Retrieval (SIGIR '96), S. 49–57, 1996, offenbart einen Wörterbuch-basierten Zugang zu einer kreuz-linguistischen Wiedergewinnung. Um nach Dokumenten zu suchen, die eine Information über eine Relevanz bezüglich eines gewählten Themas enthalten, wird von dem Sucher eine Abfrage formuliert. Eine typische Abfrage umfasst einen kurzen Textbegriff, wie etwa einen Satz, der den zu lokalisierenden Gegenstand anzeigt. Eine Dokumentenansammlung in der gleichen Sprache kann dann durchsucht werden, indem nach Entsprechungen zwischen zumindest einem der Wörter der Abfrage und dem vollständigen Text in jedem Dokument gesucht wird.
Um Dokumente in einer von der "Quellen"-Sprache der Abfrage unterschiedlichen "Ziel"-Sprache zu suchen, schlägt der Wörterbuch-basierte Vorgang die Abfrageausdrücke in einem bilingualen Wörterbuch nach. Sämtliche mögliche Übersetzungen jedes Quellensprachen-Abfrageausdrucks werden verwendet, um eine Abfrage in der Zielsprache zu bilden, und der Übereinstimmungsprozess wird dann in der Zielsprache durchgeführt.
Diese Technik lässt es deswegen zu, dass ein Sucher eine Abfrage in einer Sprache formuliert, die unterschiedlich von der Sprache der zu suchenden Dokumente ist.
In bekannten kreuz-linguistischen Wiedergewinnungssystemen, die die Abfrageübersetzungstechniken einsetzen (beispielsweise die EP 0 838 765 A1 ), werden sämtliche Ausdrücke (Wörter und Kollokationen) der Abfrage in die Zielsprache übersetzt und entweder sämtliche mögliche Übersetzungen jedes Abfrageausdrucks werden verwendet oder eine deterministisch bevorzugte Übersetzung jedes Abfrageausdrucks wird verwendet, um die Zielsprachenabfrage zu bilden. Jedoch weisen beide dieser Zugänge Nachteile auf.
Ein Wählen sämtlicher möglicher Übersetzungen der Quellensprachenabfrage-Ausdrücke kann zur Wiedergewinnung vieler Dokumente führen, die für die Abfrage nicht relevant sind. Dies liegt daran, dass die Quellensprachenwörter unterschiedliche Bedeutungen in unterschiedlichen Kontexten aufweisen und, auf Grundlage dieser, unterschiedliche bevorzugte Übersetzungen aufweisen. Indem die große Anzahl von Dokumenten, die in typischen Informationssystemen verfügbar sind, gegeben ist, kann dies bedeuten, dass es für einen Sucher schwierig ist, die Dokumente zu identifizieren, die unter der großen Anzahl irrelevanter Dokumente, die identifiziert werden können, benötigt werden.
Eine Verwendung nur der bevorzugten Übersetzung jedes Abfrageausdrucks löst das Problem einer großen Anzahl von Dokumenten. Jedoch sind bekannte Maschinenübersetzungssysteme von eingeschränkter Genauigkeit und würden häufig eine ungeeignete Übersetzung als die bevorzugte Übersetzung wählen. Somit ist es, wann immer das Übersetzungssystem die falsche Übersetzung wählt, nicht sehr wahrscheinlich, dass das Informationswiedergewinnungssystem Dokumente identifiziert, die für den Gegenstand, nach dem gesucht wird, relevant sind.
Techniken zum Analysieren eines Quellensprachentextes, um gemeinsam auftretende Wörter oder Kollokationen in einem Versuch zu identifizieren, eine kontextuelle Information zu verwenden, um eine Übersetzungsgenauigkeit zu verbessern, existieren. Ein derartiger Prozess unterstützt die Wahl sinnvoller Übersetzungen, weil weniger mögliche Übersetzungen einer Kollokation als ihrer getrennten Wortbestandteile vorhanden sind. Beispielsweise weist die Kollokation "Gebrauch machen von" nur wenige Übersetzungen in Zielsprachen auf, wohingegen die häufig verwendeten Ausdrücke "machen", "Gebrauch" und "von" zu einer großen Anzahl von Übersetzungsausdrücken führen.
Obwohl ein Verwenden von Kollokationen bei einem Einschränken der Anzahl von Zielabsprache-Abfrageausdrücken, die erzeugt werden, hilft, sind viele bekannte Systeme nur in der Lage, kontinuierliche Kollokationen, d. h. Wörter, die nebeneinander gemeinsam auftreten, zu erkennen. In der Praxis ist eine beträchtliche Anzahl von Kollokationen in wirklichen Sprachen nicht-kontinuierlich. Beispielsweise kann die Kollokation "Gebrach machen von" in natürlichen Sprachdokumenten auftreten als " machen guten Gebrauch von", indem das Wort "guten" überbrückt ist, um so eine nicht-kontinuierliche Kollokation zu sein.
Die EP 0 813 160 und die GB 2 314 183 offenbaren eine multilinguale Ressource zum Identifizieren und Übersetzen kontinuierlicher und nicht-kontinuierlicher Kollokationen. Diese multilinguale Ressource ermöglicht es, dass eine (geordnete) Mehrzahl von Quellensprachenwörtern (oder -kollokationen) mit Zielsprachenübersetzungen bezeichnet werden.
Ein weiterer Nachteil bekannter Anordnungen des oben stehend beschriebenen Typs besteht darin, dass identifizierte Dokumente dem Sucher in der Zielsprache präsentiert werden. Somit kann, obwohl ein Sucher, der mit der Zielsprache nicht vertraut ist, Dokumente von Relevanz oder Interesse in der Zielsprache wiedergewinnen kann, ein derartiger Sucher dann die Relevanz und den Inhalt der wiedergewonnenen Dokumente nicht überprüfen, außer er oder sie ist mit der Zielsprache vertraut. Somit kann, obwohl bekannte Techniken für eine kreuzlinguistische Informationsgewinnung verwendet werden können, die Wirksamkeit einer derartigen Informationsgewinnung nur durch Sucher überprüft werden, die mit der Zielsprache ausreichend vertraut sind, um derartige Techniken nicht verwenden zu müssen.
Die GB 2 320 773 betrifft eine automatische Übersetzungstechnik, die prinzipiell zur Verwendung in dem Internet vorgesehen ist. Sie ist basiert auf einem Suchen nach nützlichen Dokumenten oder Dateien durch Zeichenketten und ein Wählen der geeignetsten Übersetzungsumgebung (wie etwa einer multilingualen Ressource oder einem Maschinenübersetzungssystem) für lokalisierte Dokumente auf der Grundlage der Zeichenkette. Jedwede Übersetzung, die auftritt, wird exklusiv bezüglich der lokalisierten Dokumente durch die geeignetste Übersetzungsumgebung für den Gegenstand, wie er durch die Zeichenkette definiert ist, durchgeführt.
Die WO 97/18516 betrifft spezifisch ein Übersetzen von Web-Seiten, während das ursprüngliche Erscheinungsbild aufrechterhalten wird. Ein HTML-Dokument wird durch ein Platzieren von Begriffsschranken um die HTML-Codes vorverarbeitet, um sie zu erhalten. Der übrige Text und die Daten außerhalb dieser Grenzen werden dann in die gewünschte Sprache übersetzt. Schließlich werden die Grenzen entfernt, so dass die Seiten ihr ursprüngliches Format oder Erscheinungsbild behalten, aber sämtlicher relevanter Text in die gewünschte Sprache übersetzt ist. Abfragen werden in herkömmlicher Weise in den üblichen Adresscodes formuliert und durchlaufen keine Verarbeitung, sondern werden nur verwendet, um auf gewünschte Dokumente zuzugreifen.
Die WO 97/08604 offenbart ein Informationswiedergewinnungssystem, das auf einem Übersetzen von Abfragen und Dokumenten basiert ist. Jedoch macht diese Technik Gebrauch von einer sprachenunabhängigen, konzeptuellen Darstellung jeder Abfrage und jedes Dokuments, das zum Suchen verfügbar ist. Somit müssen, damit das System arbeitet, sämtliche Dokumente zuerst einer "Übersetzungs"-Prozedur unterworfen werden, in welcher die konzeptuelle Darstellung des Gegenstands des Dokuments gebil det wird. Abfragen werden auf ähnliche Weise erarbeitet, und ein Suchen wird durch ein Anpassen der konzeptuellen Darstellungen durchgeführt.
Gemäß einem ersten Aspekt der Erfindung ist ein Verfahren zum Wiedergewinnung einer Information von einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage in einer Quellensprache bereitgestellt, umfassend: Konvertieren der Abfrage in die Zielsprache unter Verwendung einer multilingualen Ressource; Bilden einer Abfrage in der Zielsprache von der konvertierten Abfrage und von zusätzlicher Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; Anwenden der Abfrage in der Zielsprache auf ein Informationsverwaltungssystem, das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen; und Konvertieren zumindest eines der Dokumente in der Zielsprache, das von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache unter Verwendung der multilingualen Ressource.
Eine multilinguale Ressource ist jedwedes System, das in der Lage ist, einen Ausdruck (ein Wort oder eine Kollokation) in der Quellensprache in einen oder mehrere äquivalente Ausdrücke in der Zielsprache zu konvertieren. Ein Informationsverwaltungssystem ist jedwedes System, das in der Lage ist, Dokum^ente zu identifizieren, die Ausdrücke enthalten, die auf das System als eine Abfrage angewandt werden.
Die Quellen- und Zielsprachen sind vorzugsweise natürliche Sprachen.
Die multilinguale Ressource kann ein bilinguales Wörterbuch umfassen. Die multilinguale Ressource kann jeden Ausdruck der Quellensprachenabfrage identifizieren und übersetzen. Die multilinguale Ressource kann Ausdrücke, die Kollokationen sind, identifizieren und übersetzen, aber kann nicht die einzelnen Wörter der Kollokationen übersetzen. Für jeden Ausdruck, der mehr als eine Übersetzung aufweist, kann die multilinguale Ressource mehr als eine der Übersetzungen liefern.
Die Zielsprachenabfrage kann zumindest manche jedweder Ausdrücke in der Quellensprachenabfrage einschließen, die von der multilingualen Ressource nicht in die Zielsprache konvertiert werden können.
Der zumindest eine Teil jedes Dokuments kann einen Titel des Dokuments umfassen. Der zumindest eine Teil jedes Dokuments kann eine Zusammenfassung oder eine Kurzfassung des Dokuments umfassen. Der zumindest eine Teil jedes Dokuments kann einen Satz umfassen, der Ausdrücke enthält, die zu der Abfrage in der Zielsprache passen.
Die zusätzliche Information kann eine Information einschließen, die eine Wahrscheinlichkeit oder eine Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist.
Gemäß einem zweiten Aspekt der Erfindung ist eine Vorrichtung zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage in einer Quellensprache bereitgestellt, dadurch gekennzeichnet, dass die Vorrichtung umfasst: eine multilinguale Ressource zum Konvertieren der Abfrage in die Zielsprache; eine Einrichtung zum Bilden einer Abfrage in der Zielsprache von der konvertierten Abfrage und von einer zusätzlichen Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Aus druck ist; eine Einrichtung zum Anwenden der Abfrage in der Zielsprache auf ein Informationsverwaltungssystem, das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; und eine Einrichtung zum Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen, wobei die multilinguale Ressource eingerichtet ist, zumindest einen Teil von zumindest einem der Dokumente in der Zielsprache, das von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache zu konvertieren.
Die multilinguale Ressource kann ein bilinguales Wörterbuch umfassen. Die multilinguale Ressource kann angeordnet sein, jeden Ausdruck der Quellensprachenabfrage zu identifizieren und zu übersetzen. Die multilinguale Ressource kann angeordnet sein, um Ausdrücke, die Kollokationen sind, zu identifizieren und zu übersetzen, aber die einzelnen Wörter der Kollokationen nicht zu übersetzen. Für jeden Ausdruck, der mehr als eine Übersetzung aufweist, kann die multilinguale Ressource angeordnet sein, mehr als eine der Übersetzungen zu liefern.
Die Abfrageerzeugungseinrichtung kann angeordnet sein, in der Zielsprachenabfrage zumindest einen jedweder Ausdrücke in der Quellensprachenabfrage einzuschließen, die durch die multilinguale Ressource nicht in die Zielsprache konvertiert werden können.
Die Vorrichtung kann einen programmierten Datenprozessor umfassen.
Gemäß einem dritten Aspekt der Erfindung ist ein Speichermedium dargestellt, das ein Programm zum Ausführen des Verfahrens der Erfindung speichert.
Die multilinguale Ressource ist vorzugsweise von dem Typ, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist.
Es ist somit möglich, eine kreuz-linguistische Informationswiedergewinnung auf eine derartige Weise durchzuführen, dass wiedergewonnene Dokumente hinsichtlich einer Relevanz von einem Sucher überprüft werden können, der mit der Zielsprache der Dokumente nicht vertraut ist. Ein Vorteil eines Verwendens der gleichen multilingualen Ressource zum Bilden einer Abfrage und zum Konvertieren in die Quellensprache zumindest eines Teils oder jedes identifizierten Dokuments besteht darin, dass die Ausdrücke des konvertierten Dokuments oder eines Teils davon in der Quellensprache wahrscheinlich gleich oder ähnlich zu den Ausdrücken sind, die in der Quellensprachenabfrage verwendet werden. Somit kann ein Sucher, der mit der Zielsprache nicht vertraut ist, mit einer höheren Präzision bestimmen, ob identifizierte Zielsprachendokumente tatsächlich bezüglich der Abfrage relevant sind. Die Wirksamkeit einer kreuzlinguistischen Wiedergewinnung kann deswegen wesentlich verbessert werden, ungeachtet dessen, ob ein Sucher mit der Zielsprache vertraut ist.
Ein Vorteil eines Verwendens einer nicht-deterministischen multilingualen Ressource, wie etwa jener, die in der EP 0 813 160 und der GB 2 314 183 offenbart ist, besteht darin, dass sie eine bevorzugte Übersetzung für jeden Ausdruck erzeugt, aber auch eine Mehrzahl alternativer Übersetzungen beispielsweise unter Verwendung einer kontextuellen Information in einem Satz, wo sie verfügbar ist, erzeugt. Dies beschränkt die Anzahl alternativer Übersetzungen, die erzeugt werden, beträchtlich. Auch können alternative Übersetzungen gemäß eines Kriteriums eingereiht werden, das die Wahrscheinlichkeit anzeigt, dass eine jeweilige Übersetzung korrekt ist. Somit kann die Anzahl von tatsächlich verwendeten Übersetzungen in einer Zielsprachen-Abfrageformulierung an die Anforderungen eines Suchers angepasst werden.
Die Erfindung wird weiter im Wege eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen beschrieben werden.
In den Zeichnungen zeigen:
1 ein schematisches Blockdiagramm einer Vorrichtung zum Wiedergewinnen einer Information, die eine Ausführungsform der Erfindung bildet;
2 ein Flussdiagramm, das ein Verfahren zum Wiedergewinnen einer Information veranschaulicht, das eine Ausführungsform der Erfindung bildet; und
3 ein detaillierteres Flussdiagramm eines Verfahrens ähnlich zu jenem in 2 veranschaulichten.
1 zeigt eine Vorrichtung zum Wiedergewinnen einer Information unter Verwendung eines Informationsverwaltungssystems 1, wie etwa einer Internet-Suchmaschine. Die Vorrichtung ist von dem programmierten Datenprozessortyp, wie etwa ein Computer, und umfasst eine programmierbaren Datenprozessor 2, der mit einer Eingangsschnittstelle 3, wie etwa einer Tastatur und einer Maus und einer Ausgangsschnittstelle 4, wie etwa einer Anzeige und einem Drucker, versehen ist. Die Eingangsschnittstelle 3 kann zum Eingeben von Quellensprachenabfragen und zum anderweitigen Steuern eines Betriebs der Vorrichtung verwendet werden. Die Ausgangsschnittstelle 4 kann zum Anzeigen der Ergebnisse von Suchabläufen und zum Bereitstellen einer Information über einen Betrieb der Vorrichtung verwendet werden.
Der Datenprozessor 2 weist einen "Arbeitsspeicher" in der Form eines Schreib-/Lesespeichers (RAM) 5 zum verübergehenden Speichern von Daten während einer Datenverarbeitung auf. Ein nicht-flüchtiger Schreib-/Lesespeicher 6 ist zum Speichern von Daten bereitgestellt, die festgehalten werden müssen, beispielsweise wenn die Energieversorgung der Vorrichtung abgeschaltet wird. Ein Programmspeicher 7 in der Form eines Lesespeichers (ROM) enthält ein Programm zum Steuern eines Betriebs des Datenprozessors 2. Die Vorrichtung umfasst weiter ein Dokumentenwörterbuch 8, das die Ausdrücke (Wörter und Kollokationen) der Quellensprachenabfrage mit Zielsprachenübersetzungen bezeichnet. Das Dokumentenwörterbuch 8 ist vorzugsweise von dem in der EP 0 813 160 und der GB 2 314 183 offenbarten Typ. Obwohl das Dokumentenwörterbuch 8 als eine unab hängige Komponente der Vorrichtung veranschaulicht ist, kann sie durch den Datenprozessor 2 und die Speicher 5 bis 7 verkörpert sein.
Der Programmspeicher 7 enthält das zuvor erwähnte Programm, das von dem Datenprozessor 2 ausgeführt wird, und/oder das Dokumentenwörterbuch 8, das darin eingeschlossen ist, um die verschiedenen hierin beschriebenen Betriebsweisen auszuführen. Das Programm kann in jedweder einer Mehrzahl bekannter Computersprachen geschrieben sein, wie Durchschnittsfachleuten in der Computerprogrammierung leicht offensichtlich ist. Somit sind weitere Details, die den spezifischen Code selbst betreffen, aus Gründen einer kurzen Darstellung weggelassen worden.
Das Informationsverwaltungssystem 1 ist von dem Typ, der maschinenlesbare Dokumente enthält und der angeordnet ist, auf derartige Dokumente auf der Grundlage von Abfragen zuzugreifen oder diese zu suchen. Insbesondere empfängt das System 1 Abfragen von der Vorrichtung und sucht die Dokumente nach Übereinstimmungen mit den Abfragen. Dokumente, die die Ausdrücke oder logische Kombinationen der Ausdrücke jede Abfrage enthalten, werden der Vorrichtung dann verfügbar gemacht, beispielsweise durch ein Herunterladen in den Speicher 5. Um eine ausreichende Speicherkapazität bereitzustellen, kann der Speicher 5 Plattenspeicher des magnetischen oder optischen Speicherungstyps einschließen.
2 veranschaulicht ein Verfahren zum Wiedergewinnen einer Information, das durch die in 1 gezeigte Vorrichtung durchgeführt werden kann. Eine Quellensprachenabfrage, beispielsweise in Englisch, wird bei 11 formuliert, indem sie beispielsweise auf einer Tastatur der Eingabeschnittstelle 3 eingegeben wird. Die Quellensprachenabfrage wird auf eine multilinguale Ressource 12 angewandt, die dem Dokumentenwörterbuch 8, das in 1 gezeigt ist, entspricht. In dem nachstehend beschriebenen Beispiel konvertiert die multilinguale Ressource zwischen englischen und holländischen Ausdrücken und ist von dem Typ, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist.
Die multilinguale Ressource 12 konvertiert die Ausdrücke der Quellensprachenabfrage in Zielsprachen-Abfrageausdrücke, wie bei 13 angezeigt. Die multilinguale Ressource 12 liefert eine zusätzliche Information, die die Wahrscheinlichkeit oder Probabilität anzeigt, dass jeder der mehreren Zielsprachen-Abfrageausdrücke eines Quellensprachenabfrageausdrucks der richtige ist.
Die Zielsprachen-Abfrageausdrücke und die zusätzliche Information werden einer Abfrage-Formulierungseinheit 14 zugeführt, die die Ausdrücke in die Zielsprachenabfrage konvertiert. Die Abfrage-Formulierungseinheit 14 verwendet die zusätzliche Information, um beispielsweise jeden Zielsprachen-Abfrageausdruck zu ignorieren, dessen Wahrscheinlichkeit, dass er korrekt ist, geringer als eine Schwelle it. Die Zielsprachenabfrage 15 ist in einer Form, die direkt auf ein Informationsverwaltungssystem 16, wie etwa eine Internet-Suchmaschine, angewandt werden kann.
Das Informationsverwaltungssystem 16 führt einen Anpassungsprozess durch. Insbesondere sucht das System 16 die Zielsprachendokumente nach Übereinstimmungen zwischen der Zielsprachenabfrage und dem Text der Dokumente ab. Wann immer eine Übereinstimmung gefunden wird, wird das Dokument als ein Zielsprachenergebnis 17 heruntergeladen. Die Ergebnisse werden dann bei 18 unter Verwendung der zusätzlichen Information, die von der multilingualen Ressource 12 bereitgestellt wird, verarbeitet, beispielsweise um die Ergebnisse wieder einzureihen. Die Ergebnisse, die zurückgegeben werden, und die "wahrscheinlichste" Abfrageausdruckübersetzungen enthalten, können in einer Reihungsliste von Ergebnissen höher platziert werden als jene, die einen Zielsprachen-Abfrageausdruck enthalten, der aus einer weniger wahrscheinlichen Übersetzungsalternative erzeugt ist. Ein spezifisches Beispiel, das ein derartiges Wiedereinreihen veranschaulicht, ist nachstehend beschrieben.
Die verarbeiteten Zielsprachenergebnisse in der Form verarbeⁱteter Zielsprachendokumente werden dann der multilingualen Ressource 12 zugeführt, die die Zielsprachenergebnisse in die Quellensprachenergebnisse 19 konvertiert, die dem Nutzer dann beispielsweise auf einer Anzeige oder als eine Kopie von einem Drucker in der Ausgangsschnittstelle 4 präsentiert werden. Die multilinguale Ressource 12 kann eine Wörterbuchübersetzung der Gesamtheit jedes Zielsprachendokuments bereitstellen oder kann eine Übersetzung nur eines Teils davon, wie etwa eines Titels, einer Zusammenfassung oder einer Kurzfassung bereitstellen.
3 veranschaulicht einen Teil des in 2 gezeigten Verfahrens detaillierter. Die Verwendung des Verfahrens wird unter Bezugnahme auf eine spezifische, aber beliebige Quellensprachenabfrage in Englisch zum Zugreifen auf Dokumente in Holländisch beschrieben werden.
Die eingegebene Quellensprachenabfrage q, die bei 11 gezeigt ist, wird auf die englisch/holländische multilinguale Ressource angewandt, die von dem Typ ist, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist. Das Informationsverwaltungssystem 16 ist in diesem Beispiel eine holländische World-Wide-Web-Suchmaschine. Die Quellensprachenabfrage lautet "treatments for athlete's foot".
In einem Schritt 21 identifiziert die multilinguale Ressource die einzelnen Ausdrücke der Abfrage, wobei die Ausdrücke Wörter, nicht-kontinuierliche Kollokationen und kontinuierliche Kollokationen sein können, und speichert diese Ausdrücke in einem Satz s. Die spezifische Abfrage wird in den Satz von Ausdrücken konvertiert:
treatments
for
athlete
foot
athlete's foot.
Ein Schritt 22 setzt einen Parameter "Element" auf einen Wert von 1 und eine Parameter N auf die Kardinalität des Satzes S, d. h. einen Wert gleich der Anzahl von Elementen des Satzes S, die in dem spezifischen Beispiel 5 beträgt. Ein Schritt 23 testet, ob "Element" geringer als oder gleich N ist. Wenn dem so ist, schlägt ein Schritt 24 den Abfrageausdruck S_element in einer bilingualen Ressource, wie etwa einem englisch/holländischen Wörterbuch oder Lexikon nach und speichert die oder jede Zielsprachenübersetzung in einem Satz T_element. Ein Schritt 25 setzt den Parameter "Element" um eins hoch, und die Schritte 23 bis 25 werden wiederholt, bis sämtliche der Abfrageausdrücke übersetzt worden sind.
Ein Schritt 26 setzt einen Parameter i auf einen Wert von eins, und ein Schritt 27 testet, ob i geringer als oder gleich N ist. Wenn dem so ist, sortiert ein Schritt 28 die Zielsprachenübersetzungen, die in dem Satz T_i gespeichert sind, gemäß einer Prioritätsinformation, die während des Nachschlagprozesses erhalten wird, der in dem Schritt 24 durchgeführt wird.
Wenn der Satz T_i, nur eine Übersetzung enthält, ist keine Verarbeitung notwendig. Jedoch werden, wo der Satz T_i mehr als eine mögliche Übersetzung enthält, die Übersetzungen in der Reihenfolge der Wahrscheinlichkeit, dass sie korrekt sind, sortiert.
Der Parameter i wird um eins in dem Schritt 29 hochgesetzt, und die Schritte 27 bis 29 werden wiederholt, bis sämtliche der Zielsprachenübersetzungen der Eingangsquellensprachen-Abfrageausdrücke sortiert worden sind. Beispielsweise sind in dem Fall der spezifischen Eingangsabfrage die Ergebnisse wie folgt:

treatments → {behandelingen}

for → {voor}

athlete → {atleet}

foot → {voet, basis}

athlete's foot → {voetschimmel}
In einem Schritt 30 werden die sortierten Zielsprachenübersetzungen in den Sätzen T_i, wobei 1 ≤ i ≤ N, in eine Zielsprachenabfrage formuliert. Ein Beispiel einer Zielsprachenabfrage ist wie folgt:
behandelingen UND voor UND (voetschimmel ODER (atleet UND (voet ODER basis))).
Die Abfrage-Formulierungseinheit erfasst, dass die Quellensprachen-Abfragenausdrücke "treatments" und "for" einzelne holländische Übersetzungen aufweisen und in jedwedem Dokument von Relevanz vorhanden sein müssen. Dementsprechend formuliert die Abfrage-Formulierungseinheit 14 die Abfrage mit den Übersetzungen für diese Ausdrücke, die durch den Booleschen Logik-UND-Operator in Beziehung stehen.
Die Abfrage-Formulierungseinheit 14 erfasst, dass verschiedene mögliche Übersetzungen für die übrigen Ausdrücke in der Quellensprachenabfrage vorhanden sind. Insbesondere müssten die Übersetzungen für die einzelnen Wörter "athlete" und "foot" in einem relevanten Dokument vorhanden sein, aber eine Alternative dazu würde das Vorhandensein der Übersetzung für den Ausdruck "athlete's foot" sein. Weiter erfasst die Formulierungseinheit, dass zwei mögliche Übersetzungen des Ausdrucks "foot" vorhanden sind, so dass diese als Alternativen in der Abfrage formuliert werden sollten. Alternativen stehen durch einen Booleschen Logik-ODER-Operator in der Abfrage in Beziehung.
Die Abfrage wird auf das Zielsprachen-Informationsverwaltungssystem in einem Schritt 31 angewandet, der die Suchergebnisse in der Form von Dokumenten in der Zielsprache wiedergewinnt. Beispielsweise gibt der Schritt 31 die Titel relevanter Dokumente oder Passagen von derartigen Dokumenten zurück, in welchen die notwendigen Kombinationen der Ausdrücke in der Zielsprachenabfrage vorhanden sind. Ein Beispiel des Ergebnisses einer derartigen Suche ist wie folgt:

1. Moderne behandelingen voor voetschimmel
2. Voetschimmel: nieuwe behandelingen voor een oude kwaal
3. Behandelingen voor aandoeningen an de atleet op basis van nieuwe medische vindingen.

Ein Schritt 32 verarbeitet dann die Suchergebnisse auf der Grundlage eines Sortierens und einer Prioritätsinformation, die in dem Schritt 28 berechnet sind, und ein spezifisches Beispiel davon ist nachstehend beschrieben.
Ein Schritt 33 führt dann der multilingualen Ressource 12 die Suchergebnisse in der Zielsprache zu, die Quellensprachendokumente oder Text von diesen Ergebnissen erzeugt. Somit werden die Zielsprachen-Suchergebnisse, die nachstehend gegeben sind, von der multilingualen Ressource übersetzt, die das folgende Ergebnis vorgibt:

1. Modern treatments for athlete's foot
2. Athlete's foot: new treatments for an old problem
3. Treatments for injuries of athletes based on new medical discoveries.

Die Reihenfolge der Dokumente gibt die Prioritätsinformation wieder, dahingehend, dass das Dokument, das als das relevanteste angesehen wird, als das erste Dokument dargestellt wird. In dem spezifischen Beispiel sind die ersten beiden Dokumente in klarer Weise relevant, da sie die bevorzugten Wörterbuchübersetzungen der Ausdrücke der Quellensprachenabfrage enthalten. Jedoch werden, indem eine begrenzte Anzahl von weniger bevorzugten Übersetzungen verwendet wird, die Möglichkeiten, ein relevantes Dokument zu verpassen, verringert, wohingegen die Anzahl lokalisierter irrelevanter Dokumente auch verringert wird. In dem spezifischen Beispiel ist ein einziges relevantes Dokument lokalisiert worden.
In dem spezifischen Beispiel, das oben stehend beschrieben ist, war die multilinguale Ressource erforderlich, um nur eine einzige kontinuierliche Kollokation zusätzlich zu den einzelnen Wörtern der Quellensprachenabfrage zu identifizieren. Jedoch ist die multilinguale Ressource, die in der EP 0 813 160 und der GB 2 314 183 offenbart ist, auch in der Lage, nichtkontinuierliche Kollokationen zu identifizieren. Ein spezifisches Beispiel einer derartigen nicht-kontinuierlichen Kollokation tritt in der Abfrage auf:
"making good use of old clothes".
In diesem Fall bilden die Wörter "making use of" eine nichtkontinuierliche Kollokation, die das Wort "good" umspannen. Durch ein Erfassen derartiger nicht-kontinuierlicher Kollokationen ist es möglich, die Präzision eines Übersetzens der Abfrage in die Zielsprache zu verbessern.
In diesem Fall stellen die Schritte 20 bis 28 die folgenden Sätze sortierter Zielsprachenübersetzungen der Quellensprachenabfrage bereit:

make us of → {gebruiken, ...}

good → {goed, goedaardig, ...}

old → {oud, antiek, ... }

clothes → {kleren, kledingstukken, ...}
Diese Sätze enthalten Übersetzungen der einzelnen Wörter "make", "use" und "of" nicht, so dass eine große Anzahl möglicher irrelevanter Bedeutungen der Bestandteilausdrücke der Kollokation "make use of" eliminiert werden. Dies verringert wiederum die Wahrscheinlichkeit, dass irrelevante Ausdrücke wegen der Verwendung ungeeigneter Zielsprachenausdrücke in der Zielsprachenabfrage gefunden werden.
Um die Verarbeitung zu veranschaulichen, die in dem Schritt 32 durchgeführt wird, wird eine Quellensprachenabfrage "introducing security passes" betrachtet. Die Übersetzungen in holländischer Sprache von "passes" und ihrer Probabilitäten, dass sie korrekt sind, werden wie folgt gegeben:

passes → pas(sen) (0,7)

kaart(en) (0, 2)

voldoende(s) (0,1)
Eine Abfrage, die aus diesen Alternativen (und natürlich jenen der anderen Ausdrücke) erzeugt wird, gibt den folgenden Satz von Ergebnissen zurück:

1. Het halen van voldoendes op school: zijn voldoendes echt voldoende? (in Englisch: "Getting pass marks in school: is a pass really good enough?")
2. Veiligheid op kantoor: passen en beveiligingsbeambten. (in Englisch: "Safety in the office: passes and security guards").
3. Een pas opent alle deuren. (in Englisch: "One pass opens all doors").

Obwohl nicht nur das "passen" die bei weitem wahrscheinlichste Abfrageausdruckübersetzung ist, ist ein Dokument, das den am wenigsten wahrscheinlichen enthält, als höchstes eingereiht worden. Dies liegt daran, dass es eine Übersetzung des englischen Ausdrucks "passes" häufiger enthält (es weist drei Übereinstimmungen mit der Abfrage anstelle einer auf) und die Suchmaschine dies als ein Ordnungskriterium verwendet. Indem die verfügbare zusätzliche Information vorgegeben wird, ist dies nicht das gewünschte Verhalten. Unter Verwendung der zusätzlichen Information werden die Ergebnisse auf der Grundlage der Wahrscheinlichkeit der Übersetzungsalternativen wieder eingereiht. In dem einfachsten Fall kann beispielsweise die Formel "Anzahl eines Auftretens der Ausdrücke in dem Dokument" mal "Wahrscheinlichkeit des Ausdrucks" angewandt werden. In dem Beispiel empfängt das erste Dokument eine neue Punktzahl von nur 0,3 (3 × 0,1), wohingegen das nächste eine Punktzahl von 0,7 (1 × 0,7) jeweils empfängt. Deswegen ist die neue Einreihung:

1. Veiligheid op kantoor: passen en beveiligingsbeambten.
2. Een pas opent alle deuren.
3. Het halen van voldoendes in school: zijn voldoendes echt voldoende?

In der Praxis können viele Beispiele von Quellensprachen-Abfrageausdrücken vorhanden sein, die von der multilingualen Ressource in die Zielsprachen-Abfrageausdrücke nicht übersetzt werden können. Ein üblich verbreitetes Beispiel ist jenes, wo Abfragen Eigennamen enthalten. Beispielsweise ist es unwahrscheinlich, dass die multilinguale Ressource in der Lage sein könnte, Eigennamen, wie etwa "Dagmar Dwehus", zu übersetzen. Jedoch können derartige Abfrageausdrücke sehr nützlich bei einem Wiedergewinnen relevanter Dokumente sein, beispielsweise wo es gewünscht ist, nur Dokumente wiederzugewinnen, die einen derartigen Eigennamen enthalten.
Um mit dieser Situation zurechtzukommen, ist es möglich, dass Ausdrücke, für welche die multilinguale Ressource eine Übersetzung nicht finden kann, ohne eine Änderung in die Zielsprachenabfrage übergeben werden. Derartige Ausdrücke können dann in der Zielsprachenabfrage verwendet werden, so dass entweder: nur Dokumente, die derartige Ausdrücke enthalten, wiedergewonnen werden; oder Dokumente, die derartige Ausdrücke enthalten, und Dokumente, die derartige Ausdrücke nicht enthalten, aber andere Suchkriterien erfüllen, wiedergewonnen werden.
Als eine Alternative können derartige "unübersetzbare" Ausdrücke während der Formulierung der Zielsprachenabfrage editiert werden. Beispielsweise können derartige Ausdrücke in die Zielsprachenabfrage nur dann übergeben werden, wenn sie als Eigennamen identifiziert sind. Somit werden Ausdrücke, die nicht als Eigennamen identifiziert sind, zurückgewiesen und bilden nicht einen Teil der Zielsprachenabfrage. Diese Technik ist bei einem Zurückweisen von Ausdrücken nützlich, die unübersetzbar sind, weil sie in der Quellensprachenabfrage falsch buchstabiert worden sind.
Wenn über eine Strategie zum Formulieren von Zielsprachenabfragen entschieden wird, kann es notwendig sein, die tatsächliche Form der multilingualen Ressource zu betrachten. Bei spielsweise können Maschinenübersetzungssysteme Zielsprachen-Abfrageausdrücke erzeugen, die sehr selten sind, wohingegen multilinguale Ressourcen üblichere Ausdrücke erzeugen können. Es wird angenommen, dass dies eine Wirkung auf die Gesamtwiedergewinnungsgenauigkeit haben kann.
Beispielsweise kann eine Wirkung davon sein, dass, weil Informationswiedergewinnungssysteme oft statistischer Natur sind, es zugelassen sein kann, dass verbreitetere Ausdrücke zu einem Wiedergewinnungssystem weniger Dokumente beitragen, um so mehr Platz für andere Ausdrücke zu lassen, Dokumente beizutragen. Somit würde es, wenn ein Zielsprachen-Abfrageausdruck eine nicht korrekte Übersetzung war, eine weniger negative Wirkung für die wiedergewonnenen Ergebnisse haben. Im Gegensatz dazu werden Systeme, die eine seltenere Terminologie verwenden, schwerer für Fehler in dem Übersetzungsprozess belangt, da die Seltenheit eines resultierenden Ausdrucks bedeuten kann, dass ihm eine größere Bedeutung in dem Wiedergewinnungssystem gegeben wird, und somit potenziell irrelevantere Dokumente zu dem Ergebnis beitragen kann.
Es wird angenommen, dass die Verwendung der am verbreitetsten eingesetzten Ausdrücke in der Zielsprachenabfrage helfen kann, eine große Anzahl von potenziell relevanten Dokumenten wiederzugewinnen. Es wird angenommen, dass eine derartige Technik nicht zu zu vielen relevanten Dokumenten, die wiedergewonnen werden, aufgrund der Tatsache führen kann, dass der Ausdruck, der verbreitet ist, ein Anhaltspunkt für das Informationswiedergewinnungssystem ist, dass sein Wert bei einem Unterscheiden relevanter Dokumente von nicht relevanten wahrscheinlich ziemlich niedrig ist.
In Abhängigkeit von der Natur der multilingualen Ressource kann es ausreichend sein, eine "vorbesetzte Übersetzung" jedes Quellensprachenausdrucks zu wählen, um so den äquivalenten Zielsprachenausdruck zu bilden. Beispielsweise kann, wo die multilinguale Ressource ein bilinguales Wörterbuch ist, diese vorbesetzte Übersetzung die bevorzugte Übersetzung sein, die von dem Wörterbuch erhalten wird. Wo eine Information über die Häufigkeit eines Auftretens eines Ausdrucks erhalten worden ist, beispielsweise durch ein Analysieren einer großen Anzahl von Dokumenten, kann der verbreitetste Ausdruck als die vorbesetzte Übersetzung gewählt werden.

Claims

Verfahren zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage (11) in einer Quellensprache, umfassend: Konvertieren (24) der Abfrage (11) in die Zielsprache unter Verwendung einer multilingualen Ressource (8, 12); Bilden (28) einer Abfrage (15) in der Zielsprache aus der konvertierten Abfrage und aus zusätzlicher Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; Anwenden (31) der Abfrage (15) in der Zielsprache auf ein Informationsverwaltungssystem (1, 16), das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; Verwenden (33) der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen; und Konvertieren (33) zumindest eines der Dokumente in der Zielsprache, die von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache unter Verwendung der multilingualen Ressource (8, 12).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Quellen- und Zielsprachen natürliche Sprachen sind.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) ein bilinguales Wörterbuch umfasst.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) jeden Ausdruck der Quellensprachenabfrage (11) identifiziert und übersetzt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) Ausdrücke identifiziert und übersetzt, die Kollokationen sind, aber die einzelnen Wörter der Kollokationen nicht übersetzt.
Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) für jeden Ausdruck, der mehr als eine Übersetzung aufweist, mehr als eine der Übersetzungen liefert.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Zielsprachenabfrage (15) zumindest einige jedweder Ausdrücke in der Quellensprachenabfrage (11) einschließt, die von der multilingualen Ressource (8, 12) nicht in die Zielsprache konvertiert werden können.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren eines Titels des Dokuments umfasst.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren einer Zusammenfassung oder einer Kurzfassung des Dokuments umfasst.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren eines Satzes umfasst, der Ausdrücke enthält, die zu der Abfrage (15) in der Zielsprache passen.
Vorrichtung zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage (11) in einer Quellensprache, dadurch gekennzeichnet, dass die Vorrichtung umfasst: eine multilinguale Ressource (8, 12) zum Konvertieren der Abfrage (11) in die Zielsprache; eine Einrichtung zum Bilden einer Abfrage (15) in der Zielsprache aus der konvertierten Abfrage und aus einer zusätzlichen Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; eine Einrichtung zum Anwenden der Abfrage (15) in der Zielsprache auf ein Informationsverwaltungssystem (16), das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; und eine Einrichtung zum Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen, wobei die multilinguale Ressource (8, 12) eingerichtet ist, zumindest einen Teil aus zumindest einem der Dokumente in der Zielsprache, die von dem Informationsverwaltungssystem (16) identifiziert ist, in die Quellensprache zu konvertieren.
Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass die Quellen- und Zielsprachen natürliche Sprachen sind.
Vorrichtung nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) ein bilinguales Wörterbuch umfasst.
Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) eingerichtet ist, jeden Ausdruck der Quellensprachenabfrage (11) zu identifizieren und zu übersetzen.
Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) eingerichtet ist, Ausdrücke zu identifizieren und zu übersetzen, die Kollokationen sind, aber die einzelnen Wörter der Kollokationen nicht zu übersetzen.
Vorrichtung nach Anspruch 14 oder 15, dadurch gekennzeichnet, dass für jeden Ausdruck, der mehr als eine Übersetzung aufweist, die multilinguale Ressource (8, 12) eingerichtet ist, mehr als eine der Übersetzungen zu liefern.
Vorrichtung nach einem der Ansprüche 11 bis 16, dadurch gekennzeichnet, dass die Abfrage-Bildungseinrichtung eingerichtet ist, in der Zielsprachenabfrage (15) zumindest einige jedweder Ausdrücke in der Quellensprachenabfrage (11) einzuschließen, die von der multilingualen Ressource (8, 12) nicht in die Zielsprache konvertiert werden können.
Vorrichtung nach einem der Ansprüche 11 bis 17, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, einen Titel des Dokuments zu konvertieren.
Vorrichtung nach einem der Ansprüche 11 bis 18, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, eine Zusammenfassung oder eine Kurzfassung des Dokuments zu konvertieren.
Vorrichtung nach einem der Ansprüche 11 bis 19, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, einen Satz zu konvertieren, der Ausdrücke enthält, die zu der Abfrage (15) in der Zielsprache passen.
Vorrichtung nach einem der Ansprüche 11 bis 20, dadurch gekennzeichnet, dass die Vorrichtung einen programmierten Datenprozessor (2, 7) umfasst.
Speichermedium (7), das ein Programm zum Ausführen des Verfahrens des Anspruchs 1 speichert.