DE69911842T2 - Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium - Google Patents

Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium Download PDF

Info

Publication number
DE69911842T2
DE69911842T2 DE69911842T DE69911842T DE69911842T2 DE 69911842 T2 DE69911842 T2 DE 69911842T2 DE 69911842 T DE69911842 T DE 69911842T DE 69911842 T DE69911842 T DE 69911842T DE 69911842 T2 DE69911842 T2 DE 69911842T2
Authority
DE
Germany
Prior art keywords
query
target language
language
multilingual resource
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69911842T
Other languages
English (en)
Other versions
DE69911842D1 (de
Inventor
Victor Sandford on Thames Poznanski
Jan Jaap Gloucester Green Ijdens
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE69911842D1 publication Critical patent/DE69911842D1/de
Application granted granted Critical
Publication of DE69911842T2 publication Critical patent/DE69911842T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Wiedergewinnen von Information. Die Erfindung betrifft auch ein Speichermedium, das ein Programm zum Durchführen eines derartigen Verfahrens enthält. Diese Techniken können in Informationsverwaltungssystemen, wie etwa Informationswiedergewinnungssystemen oder "Suchmaschinen", Informationsfilterungsanwendungen, die auch als Informations-Routingsysteme bekannt sind, und Informationsextraktionsanwendungen verwendet werden.
  • D. A. Hull und G. Greffenstette, "Querying across Languages: a Dictionary-Based Approach to Multilingual Information Retrieval", 19th Annual International Conference on Research and Development in Information Retrieval (SIGIR '96), S. 49–57, 1996, offenbart einen Wörterbuch-basierten Zugang zu einer kreuz-linguistischen Wiedergewinnung. Um nach Dokumenten zu suchen, die eine Information über eine Relevanz bezüglich eines gewählten Themas enthalten, wird von dem Sucher eine Abfrage formuliert. Eine typische Abfrage umfasst einen kurzen Textbegriff, wie etwa einen Satz, der den zu lokalisierenden Gegenstand anzeigt. Eine Dokumentenansammlung in der gleichen Sprache kann dann durchsucht werden, indem nach Entsprechungen zwischen zumindest einem der Wörter der Abfrage und dem vollständigen Text in jedem Dokument gesucht wird.
  • Um Dokumente in einer von der "Quellen"-Sprache der Abfrage unterschiedlichen "Ziel"-Sprache zu suchen, schlägt der Wörterbuch-basierte Vorgang die Abfrageausdrücke in einem bilingualen Wörterbuch nach. Sämtliche mögliche Übersetzungen jedes Quellensprachen-Abfrageausdrucks werden verwendet, um eine Abfrage in der Zielsprache zu bilden, und der Übereinstimmungsprozess wird dann in der Zielsprache durchgeführt.
  • Diese Technik lässt es deswegen zu, dass ein Sucher eine Abfrage in einer Sprache formuliert, die unterschiedlich von der Sprache der zu suchenden Dokumente ist.
  • In bekannten kreuz-linguistischen Wiedergewinnungssystemen, die die Abfrageübersetzungstechniken einsetzen (beispielsweise die EP 0 838 765 A1 ), werden sämtliche Ausdrücke (Wörter und Kollokationen) der Abfrage in die Zielsprache übersetzt und entweder sämtliche mögliche Übersetzungen jedes Abfrageausdrucks werden verwendet oder eine deterministisch bevorzugte Übersetzung jedes Abfrageausdrucks wird verwendet, um die Zielsprachenabfrage zu bilden. Jedoch weisen beide dieser Zugänge Nachteile auf.
  • Ein Wählen sämtlicher möglicher Übersetzungen der Quellensprachenabfrage-Ausdrücke kann zur Wiedergewinnung vieler Dokumente führen, die für die Abfrage nicht relevant sind. Dies liegt daran, dass die Quellensprachenwörter unterschiedliche Bedeutungen in unterschiedlichen Kontexten aufweisen und, auf Grundlage dieser, unterschiedliche bevorzugte Übersetzungen aufweisen. Indem die große Anzahl von Dokumenten, die in typischen Informationssystemen verfügbar sind, gegeben ist, kann dies bedeuten, dass es für einen Sucher schwierig ist, die Dokumente zu identifizieren, die unter der großen Anzahl irrelevanter Dokumente, die identifiziert werden können, benötigt werden.
  • Eine Verwendung nur der bevorzugten Übersetzung jedes Abfrageausdrucks löst das Problem einer großen Anzahl von Dokumenten. Jedoch sind bekannte Maschinenübersetzungssysteme von eingeschränkter Genauigkeit und würden häufig eine ungeeignete Übersetzung als die bevorzugte Übersetzung wählen. Somit ist es, wann immer das Übersetzungssystem die falsche Übersetzung wählt, nicht sehr wahrscheinlich, dass das Informationswiedergewinnungssystem Dokumente identifiziert, die für den Gegenstand, nach dem gesucht wird, relevant sind.
  • Techniken zum Analysieren eines Quellensprachentextes, um gemeinsam auftretende Wörter oder Kollokationen in einem Versuch zu identifizieren, eine kontextuelle Information zu verwenden, um eine Übersetzungsgenauigkeit zu verbessern, existieren. Ein derartiger Prozess unterstützt die Wahl sinnvoller Übersetzungen, weil weniger mögliche Übersetzungen einer Kollokation als ihrer getrennten Wortbestandteile vorhanden sind. Beispielsweise weist die Kollokation "Gebrauch machen von" nur wenige Übersetzungen in Zielsprachen auf, wohingegen die häufig verwendeten Ausdrücke "machen", "Gebrauch" und "von" zu einer großen Anzahl von Übersetzungsausdrücken führen.
  • Obwohl ein Verwenden von Kollokationen bei einem Einschränken der Anzahl von Zielabsprache-Abfrageausdrücken, die erzeugt werden, hilft, sind viele bekannte Systeme nur in der Lage, kontinuierliche Kollokationen, d. h. Wörter, die nebeneinander gemeinsam auftreten, zu erkennen. In der Praxis ist eine beträchtliche Anzahl von Kollokationen in wirklichen Sprachen nicht-kontinuierlich. Beispielsweise kann die Kollokation "Gebrach machen von" in natürlichen Sprachdokumenten auftreten als " machen guten Gebrauch von", indem das Wort "guten" überbrückt ist, um so eine nicht-kontinuierliche Kollokation zu sein.
  • Die EP 0 813 160 und die GB 2 314 183 offenbaren eine multilinguale Ressource zum Identifizieren und Übersetzen kontinuierlicher und nicht-kontinuierlicher Kollokationen. Diese multilinguale Ressource ermöglicht es, dass eine (geordnete) Mehrzahl von Quellensprachenwörtern (oder -kollokationen) mit Zielsprachenübersetzungen bezeichnet werden.
  • Ein weiterer Nachteil bekannter Anordnungen des oben stehend beschriebenen Typs besteht darin, dass identifizierte Dokumente dem Sucher in der Zielsprache präsentiert werden. Somit kann, obwohl ein Sucher, der mit der Zielsprache nicht vertraut ist, Dokumente von Relevanz oder Interesse in der Zielsprache wiedergewinnen kann, ein derartiger Sucher dann die Relevanz und den Inhalt der wiedergewonnenen Dokumente nicht überprüfen, außer er oder sie ist mit der Zielsprache vertraut. Somit kann, obwohl bekannte Techniken für eine kreuzlinguistische Informationsgewinnung verwendet werden können, die Wirksamkeit einer derartigen Informationsgewinnung nur durch Sucher überprüft werden, die mit der Zielsprache ausreichend vertraut sind, um derartige Techniken nicht verwenden zu müssen.
  • Die GB 2 320 773 betrifft eine automatische Übersetzungstechnik, die prinzipiell zur Verwendung in dem Internet vorgesehen ist. Sie ist basiert auf einem Suchen nach nützlichen Dokumenten oder Dateien durch Zeichenketten und ein Wählen der geeignetsten Übersetzungsumgebung (wie etwa einer multilingualen Ressource oder einem Maschinenübersetzungssystem) für lokalisierte Dokumente auf der Grundlage der Zeichenkette. Jedwede Übersetzung, die auftritt, wird exklusiv bezüglich der lokalisierten Dokumente durch die geeignetste Übersetzungsumgebung für den Gegenstand, wie er durch die Zeichenkette definiert ist, durchgeführt.
  • Die WO 97/18516 betrifft spezifisch ein Übersetzen von Web-Seiten, während das ursprüngliche Erscheinungsbild aufrechterhalten wird. Ein HTML-Dokument wird durch ein Platzieren von Begriffsschranken um die HTML-Codes vorverarbeitet, um sie zu erhalten. Der übrige Text und die Daten außerhalb dieser Grenzen werden dann in die gewünschte Sprache übersetzt. Schließlich werden die Grenzen entfernt, so dass die Seiten ihr ursprüngliches Format oder Erscheinungsbild behalten, aber sämtlicher relevanter Text in die gewünschte Sprache übersetzt ist. Abfragen werden in herkömmlicher Weise in den üblichen Adresscodes formuliert und durchlaufen keine Verarbeitung, sondern werden nur verwendet, um auf gewünschte Dokumente zuzugreifen.
  • Die WO 97/08604 offenbart ein Informationswiedergewinnungssystem, das auf einem Übersetzen von Abfragen und Dokumenten basiert ist. Jedoch macht diese Technik Gebrauch von einer sprachenunabhängigen, konzeptuellen Darstellung jeder Abfrage und jedes Dokuments, das zum Suchen verfügbar ist. Somit müssen, damit das System arbeitet, sämtliche Dokumente zuerst einer "Übersetzungs"-Prozedur unterworfen werden, in welcher die konzeptuelle Darstellung des Gegenstands des Dokuments gebil det wird. Abfragen werden auf ähnliche Weise erarbeitet, und ein Suchen wird durch ein Anpassen der konzeptuellen Darstellungen durchgeführt.
  • Gemäß einem ersten Aspekt der Erfindung ist ein Verfahren zum Wiedergewinnung einer Information von einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage in einer Quellensprache bereitgestellt, umfassend: Konvertieren der Abfrage in die Zielsprache unter Verwendung einer multilingualen Ressource; Bilden einer Abfrage in der Zielsprache von der konvertierten Abfrage und von zusätzlicher Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; Anwenden der Abfrage in der Zielsprache auf ein Informationsverwaltungssystem, das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen; und Konvertieren zumindest eines der Dokumente in der Zielsprache, das von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache unter Verwendung der multilingualen Ressource.
  • Eine multilinguale Ressource ist jedwedes System, das in der Lage ist, einen Ausdruck (ein Wort oder eine Kollokation) in der Quellensprache in einen oder mehrere äquivalente Ausdrücke in der Zielsprache zu konvertieren. Ein Informationsverwaltungssystem ist jedwedes System, das in der Lage ist, Dokumente zu identifizieren, die Ausdrücke enthalten, die auf das System als eine Abfrage angewandt werden.
  • Die Quellen- und Zielsprachen sind vorzugsweise natürliche Sprachen.
  • Die multilinguale Ressource kann ein bilinguales Wörterbuch umfassen. Die multilinguale Ressource kann jeden Ausdruck der Quellensprachenabfrage identifizieren und übersetzen. Die multilinguale Ressource kann Ausdrücke, die Kollokationen sind, identifizieren und übersetzen, aber kann nicht die einzelnen Wörter der Kollokationen übersetzen. Für jeden Ausdruck, der mehr als eine Übersetzung aufweist, kann die multilinguale Ressource mehr als eine der Übersetzungen liefern.
  • Die Zielsprachenabfrage kann zumindest manche jedweder Ausdrücke in der Quellensprachenabfrage einschließen, die von der multilingualen Ressource nicht in die Zielsprache konvertiert werden können.
  • Der zumindest eine Teil jedes Dokuments kann einen Titel des Dokuments umfassen. Der zumindest eine Teil jedes Dokuments kann eine Zusammenfassung oder eine Kurzfassung des Dokuments umfassen. Der zumindest eine Teil jedes Dokuments kann einen Satz umfassen, der Ausdrücke enthält, die zu der Abfrage in der Zielsprache passen.
  • Die zusätzliche Information kann eine Information einschließen, die eine Wahrscheinlichkeit oder eine Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist.
  • Gemäß einem zweiten Aspekt der Erfindung ist eine Vorrichtung zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage in einer Quellensprache bereitgestellt, dadurch gekennzeichnet, dass die Vorrichtung umfasst: eine multilinguale Ressource zum Konvertieren der Abfrage in die Zielsprache; eine Einrichtung zum Bilden einer Abfrage in der Zielsprache von der konvertierten Abfrage und von einer zusätzlichen Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Aus druck ist; eine Einrichtung zum Anwenden der Abfrage in der Zielsprache auf ein Informationsverwaltungssystem, das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; und eine Einrichtung zum Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen, wobei die multilinguale Ressource eingerichtet ist, zumindest einen Teil von zumindest einem der Dokumente in der Zielsprache, das von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache zu konvertieren.
  • Die multilinguale Ressource kann ein bilinguales Wörterbuch umfassen. Die multilinguale Ressource kann angeordnet sein, jeden Ausdruck der Quellensprachenabfrage zu identifizieren und zu übersetzen. Die multilinguale Ressource kann angeordnet sein, um Ausdrücke, die Kollokationen sind, zu identifizieren und zu übersetzen, aber die einzelnen Wörter der Kollokationen nicht zu übersetzen. Für jeden Ausdruck, der mehr als eine Übersetzung aufweist, kann die multilinguale Ressource angeordnet sein, mehr als eine der Übersetzungen zu liefern.
  • Die Abfrageerzeugungseinrichtung kann angeordnet sein, in der Zielsprachenabfrage zumindest einen jedweder Ausdrücke in der Quellensprachenabfrage einzuschließen, die durch die multilinguale Ressource nicht in die Zielsprache konvertiert werden können.
  • Die Vorrichtung kann einen programmierten Datenprozessor umfassen.
  • Gemäß einem dritten Aspekt der Erfindung ist ein Speichermedium dargestellt, das ein Programm zum Ausführen des Verfahrens der Erfindung speichert.
  • Die multilinguale Ressource ist vorzugsweise von dem Typ, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist.
  • Es ist somit möglich, eine kreuz-linguistische Informationswiedergewinnung auf eine derartige Weise durchzuführen, dass wiedergewonnene Dokumente hinsichtlich einer Relevanz von einem Sucher überprüft werden können, der mit der Zielsprache der Dokumente nicht vertraut ist. Ein Vorteil eines Verwendens der gleichen multilingualen Ressource zum Bilden einer Abfrage und zum Konvertieren in die Quellensprache zumindest eines Teils oder jedes identifizierten Dokuments besteht darin, dass die Ausdrücke des konvertierten Dokuments oder eines Teils davon in der Quellensprache wahrscheinlich gleich oder ähnlich zu den Ausdrücken sind, die in der Quellensprachenabfrage verwendet werden. Somit kann ein Sucher, der mit der Zielsprache nicht vertraut ist, mit einer höheren Präzision bestimmen, ob identifizierte Zielsprachendokumente tatsächlich bezüglich der Abfrage relevant sind. Die Wirksamkeit einer kreuzlinguistischen Wiedergewinnung kann deswegen wesentlich verbessert werden, ungeachtet dessen, ob ein Sucher mit der Zielsprache vertraut ist.
  • Ein Vorteil eines Verwendens einer nicht-deterministischen multilingualen Ressource, wie etwa jener, die in der EP 0 813 160 und der GB 2 314 183 offenbart ist, besteht darin, dass sie eine bevorzugte Übersetzung für jeden Ausdruck erzeugt, aber auch eine Mehrzahl alternativer Übersetzungen beispielsweise unter Verwendung einer kontextuellen Information in einem Satz, wo sie verfügbar ist, erzeugt. Dies beschränkt die Anzahl alternativer Übersetzungen, die erzeugt werden, beträchtlich. Auch können alternative Übersetzungen gemäß eines Kriteriums eingereiht werden, das die Wahrscheinlichkeit anzeigt, dass eine jeweilige Übersetzung korrekt ist. Somit kann die Anzahl von tatsächlich verwendeten Übersetzungen in einer Zielsprachen-Abfrageformulierung an die Anforderungen eines Suchers angepasst werden.
  • Die Erfindung wird weiter im Wege eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen beschrieben werden.
  • In den Zeichnungen zeigen:
  • 1 ein schematisches Blockdiagramm einer Vorrichtung zum Wiedergewinnen einer Information, die eine Ausführungsform der Erfindung bildet;
  • 2 ein Flussdiagramm, das ein Verfahren zum Wiedergewinnen einer Information veranschaulicht, das eine Ausführungsform der Erfindung bildet; und
  • 3 ein detaillierteres Flussdiagramm eines Verfahrens ähnlich zu jenem in 2 veranschaulichten.
  • 1 zeigt eine Vorrichtung zum Wiedergewinnen einer Information unter Verwendung eines Informationsverwaltungssystems 1, wie etwa einer Internet-Suchmaschine. Die Vorrichtung ist von dem programmierten Datenprozessortyp, wie etwa ein Computer, und umfasst eine programmierbaren Datenprozessor 2, der mit einer Eingangsschnittstelle 3, wie etwa einer Tastatur und einer Maus und einer Ausgangsschnittstelle 4, wie etwa einer Anzeige und einem Drucker, versehen ist. Die Eingangsschnittstelle 3 kann zum Eingeben von Quellensprachenabfragen und zum anderweitigen Steuern eines Betriebs der Vorrichtung verwendet werden. Die Ausgangsschnittstelle 4 kann zum Anzeigen der Ergebnisse von Suchabläufen und zum Bereitstellen einer Information über einen Betrieb der Vorrichtung verwendet werden.
  • Der Datenprozessor 2 weist einen "Arbeitsspeicher" in der Form eines Schreib-/Lesespeichers (RAM) 5 zum verübergehenden Speichern von Daten während einer Datenverarbeitung auf. Ein nicht-flüchtiger Schreib-/Lesespeicher 6 ist zum Speichern von Daten bereitgestellt, die festgehalten werden müssen, beispielsweise wenn die Energieversorgung der Vorrichtung abgeschaltet wird. Ein Programmspeicher 7 in der Form eines Lesespeichers (ROM) enthält ein Programm zum Steuern eines Betriebs des Datenprozessors 2. Die Vorrichtung umfasst weiter ein Dokumentenwörterbuch 8, das die Ausdrücke (Wörter und Kollokationen) der Quellensprachenabfrage mit Zielsprachenübersetzungen bezeichnet. Das Dokumentenwörterbuch 8 ist vorzugsweise von dem in der EP 0 813 160 und der GB 2 314 183 offenbarten Typ. Obwohl das Dokumentenwörterbuch 8 als eine unab hängige Komponente der Vorrichtung veranschaulicht ist, kann sie durch den Datenprozessor 2 und die Speicher 5 bis 7 verkörpert sein.
  • Der Programmspeicher 7 enthält das zuvor erwähnte Programm, das von dem Datenprozessor 2 ausgeführt wird, und/oder das Dokumentenwörterbuch 8, das darin eingeschlossen ist, um die verschiedenen hierin beschriebenen Betriebsweisen auszuführen. Das Programm kann in jedweder einer Mehrzahl bekannter Computersprachen geschrieben sein, wie Durchschnittsfachleuten in der Computerprogrammierung leicht offensichtlich ist. Somit sind weitere Details, die den spezifischen Code selbst betreffen, aus Gründen einer kurzen Darstellung weggelassen worden.
  • Das Informationsverwaltungssystem 1 ist von dem Typ, der maschinenlesbare Dokumente enthält und der angeordnet ist, auf derartige Dokumente auf der Grundlage von Abfragen zuzugreifen oder diese zu suchen. Insbesondere empfängt das System 1 Abfragen von der Vorrichtung und sucht die Dokumente nach Übereinstimmungen mit den Abfragen. Dokumente, die die Ausdrücke oder logische Kombinationen der Ausdrücke jede Abfrage enthalten, werden der Vorrichtung dann verfügbar gemacht, beispielsweise durch ein Herunterladen in den Speicher 5. Um eine ausreichende Speicherkapazität bereitzustellen, kann der Speicher 5 Plattenspeicher des magnetischen oder optischen Speicherungstyps einschließen.
  • 2 veranschaulicht ein Verfahren zum Wiedergewinnen einer Information, das durch die in 1 gezeigte Vorrichtung durchgeführt werden kann. Eine Quellensprachenabfrage, beispielsweise in Englisch, wird bei 11 formuliert, indem sie beispielsweise auf einer Tastatur der Eingabeschnittstelle 3 eingegeben wird. Die Quellensprachenabfrage wird auf eine multilinguale Ressource 12 angewandt, die dem Dokumentenwörterbuch 8, das in 1 gezeigt ist, entspricht. In dem nachstehend beschriebenen Beispiel konvertiert die multilinguale Ressource zwischen englischen und holländischen Ausdrücken und ist von dem Typ, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist.
  • Die multilinguale Ressource 12 konvertiert die Ausdrücke der Quellensprachenabfrage in Zielsprachen-Abfrageausdrücke, wie bei 13 angezeigt. Die multilinguale Ressource 12 liefert eine zusätzliche Information, die die Wahrscheinlichkeit oder Probabilität anzeigt, dass jeder der mehreren Zielsprachen-Abfrageausdrücke eines Quellensprachenabfrageausdrucks der richtige ist.
  • Die Zielsprachen-Abfrageausdrücke und die zusätzliche Information werden einer Abfrage-Formulierungseinheit 14 zugeführt, die die Ausdrücke in die Zielsprachenabfrage konvertiert. Die Abfrage-Formulierungseinheit 14 verwendet die zusätzliche Information, um beispielsweise jeden Zielsprachen-Abfrageausdruck zu ignorieren, dessen Wahrscheinlichkeit, dass er korrekt ist, geringer als eine Schwelle it. Die Zielsprachenabfrage 15 ist in einer Form, die direkt auf ein Informationsverwaltungssystem 16, wie etwa eine Internet-Suchmaschine, angewandt werden kann.
  • Das Informationsverwaltungssystem 16 führt einen Anpassungsprozess durch. Insbesondere sucht das System 16 die Zielsprachendokumente nach Übereinstimmungen zwischen der Zielsprachenabfrage und dem Text der Dokumente ab. Wann immer eine Übereinstimmung gefunden wird, wird das Dokument als ein Zielsprachenergebnis 17 heruntergeladen. Die Ergebnisse werden dann bei 18 unter Verwendung der zusätzlichen Information, die von der multilingualen Ressource 12 bereitgestellt wird, verarbeitet, beispielsweise um die Ergebnisse wieder einzureihen. Die Ergebnisse, die zurückgegeben werden, und die "wahrscheinlichste" Abfrageausdruckübersetzungen enthalten, können in einer Reihungsliste von Ergebnissen höher platziert werden als jene, die einen Zielsprachen-Abfrageausdruck enthalten, der aus einer weniger wahrscheinlichen Übersetzungsalternative erzeugt ist. Ein spezifisches Beispiel, das ein derartiges Wiedereinreihen veranschaulicht, ist nachstehend beschrieben.
  • Die verarbeiteten Zielsprachenergebnisse in der Form verarbeiteter Zielsprachendokumente werden dann der multilingualen Ressource 12 zugeführt, die die Zielsprachenergebnisse in die Quellensprachenergebnisse 19 konvertiert, die dem Nutzer dann beispielsweise auf einer Anzeige oder als eine Kopie von einem Drucker in der Ausgangsschnittstelle 4 präsentiert werden. Die multilinguale Ressource 12 kann eine Wörterbuchübersetzung der Gesamtheit jedes Zielsprachendokuments bereitstellen oder kann eine Übersetzung nur eines Teils davon, wie etwa eines Titels, einer Zusammenfassung oder einer Kurzfassung bereitstellen.
  • 3 veranschaulicht einen Teil des in 2 gezeigten Verfahrens detaillierter. Die Verwendung des Verfahrens wird unter Bezugnahme auf eine spezifische, aber beliebige Quellensprachenabfrage in Englisch zum Zugreifen auf Dokumente in Holländisch beschrieben werden.
  • Die eingegebene Quellensprachenabfrage q, die bei 11 gezeigt ist, wird auf die englisch/holländische multilinguale Ressource angewandt, die von dem Typ ist, der in der EP 0 813 160 und der GB 2 314 183 offenbart ist. Das Informationsverwaltungssystem 16 ist in diesem Beispiel eine holländische World-Wide-Web-Suchmaschine. Die Quellensprachenabfrage lautet "treatments for athlete's foot".
  • In einem Schritt 21 identifiziert die multilinguale Ressource die einzelnen Ausdrücke der Abfrage, wobei die Ausdrücke Wörter, nicht-kontinuierliche Kollokationen und kontinuierliche Kollokationen sein können, und speichert diese Ausdrücke in einem Satz s. Die spezifische Abfrage wird in den Satz von Ausdrücken konvertiert:
    treatments
    for
    athlete
    foot
    athlete's foot.
  • Ein Schritt 22 setzt einen Parameter "Element" auf einen Wert von 1 und eine Parameter N auf die Kardinalität des Satzes S, d. h. einen Wert gleich der Anzahl von Elementen des Satzes S, die in dem spezifischen Beispiel 5 beträgt. Ein Schritt 23 testet, ob "Element" geringer als oder gleich N ist. Wenn dem so ist, schlägt ein Schritt 24 den Abfrageausdruck Selement in einer bilingualen Ressource, wie etwa einem englisch/holländischen Wörterbuch oder Lexikon nach und speichert die oder jede Zielsprachenübersetzung in einem Satz Telement. Ein Schritt 25 setzt den Parameter "Element" um eins hoch, und die Schritte 23 bis 25 werden wiederholt, bis sämtliche der Abfrageausdrücke übersetzt worden sind.
  • Ein Schritt 26 setzt einen Parameter i auf einen Wert von eins, und ein Schritt 27 testet, ob i geringer als oder gleich N ist. Wenn dem so ist, sortiert ein Schritt 28 die Zielsprachenübersetzungen, die in dem Satz Ti gespeichert sind, gemäß einer Prioritätsinformation, die während des Nachschlagprozesses erhalten wird, der in dem Schritt 24 durchgeführt wird.
  • Wenn der Satz Ti, nur eine Übersetzung enthält, ist keine Verarbeitung notwendig. Jedoch werden, wo der Satz Ti mehr als eine mögliche Übersetzung enthält, die Übersetzungen in der Reihenfolge der Wahrscheinlichkeit, dass sie korrekt sind, sortiert.
  • Der Parameter i wird um eins in dem Schritt 29 hochgesetzt, und die Schritte 27 bis 29 werden wiederholt, bis sämtliche der Zielsprachenübersetzungen der Eingangsquellensprachen-Abfrageausdrücke sortiert worden sind. Beispielsweise sind in dem Fall der spezifischen Eingangsabfrage die Ergebnisse wie folgt:
    treatments → {behandelingen}
    for → {voor}
    athlete → {atleet}
    foot → {voet, basis}
    athlete's foot → {voetschimmel}
  • In einem Schritt 30 werden die sortierten Zielsprachenübersetzungen in den Sätzen Ti, wobei 1 ≤ i ≤ N, in eine Zielsprachenabfrage formuliert. Ein Beispiel einer Zielsprachenabfrage ist wie folgt:
    behandelingen UND voor UND (voetschimmel ODER (atleet UND (voet ODER basis))).
  • Die Abfrage-Formulierungseinheit erfasst, dass die Quellensprachen-Abfragenausdrücke "treatments" und "for" einzelne holländische Übersetzungen aufweisen und in jedwedem Dokument von Relevanz vorhanden sein müssen. Dementsprechend formuliert die Abfrage-Formulierungseinheit 14 die Abfrage mit den Übersetzungen für diese Ausdrücke, die durch den Booleschen Logik-UND-Operator in Beziehung stehen.
  • Die Abfrage-Formulierungseinheit 14 erfasst, dass verschiedene mögliche Übersetzungen für die übrigen Ausdrücke in der Quellensprachenabfrage vorhanden sind. Insbesondere müssten die Übersetzungen für die einzelnen Wörter "athlete" und "foot" in einem relevanten Dokument vorhanden sein, aber eine Alternative dazu würde das Vorhandensein der Übersetzung für den Ausdruck "athlete's foot" sein. Weiter erfasst die Formulierungseinheit, dass zwei mögliche Übersetzungen des Ausdrucks "foot" vorhanden sind, so dass diese als Alternativen in der Abfrage formuliert werden sollten. Alternativen stehen durch einen Booleschen Logik-ODER-Operator in der Abfrage in Beziehung.
  • Die Abfrage wird auf das Zielsprachen-Informationsverwaltungssystem in einem Schritt 31 angewandet, der die Suchergebnisse in der Form von Dokumenten in der Zielsprache wiedergewinnt. Beispielsweise gibt der Schritt 31 die Titel relevanter Dokumente oder Passagen von derartigen Dokumenten zurück, in welchen die notwendigen Kombinationen der Ausdrücke in der Zielsprachenabfrage vorhanden sind. Ein Beispiel des Ergebnisses einer derartigen Suche ist wie folgt:
    • 1. Moderne behandelingen voor voetschimmel
    • 2. Voetschimmel: nieuwe behandelingen voor een oude kwaal
    • 3. Behandelingen voor aandoeningen an de atleet op basis van nieuwe medische vindingen.
  • Ein Schritt 32 verarbeitet dann die Suchergebnisse auf der Grundlage eines Sortierens und einer Prioritätsinformation, die in dem Schritt 28 berechnet sind, und ein spezifisches Beispiel davon ist nachstehend beschrieben.
  • Ein Schritt 33 führt dann der multilingualen Ressource 12 die Suchergebnisse in der Zielsprache zu, die Quellensprachendokumente oder Text von diesen Ergebnissen erzeugt. Somit werden die Zielsprachen-Suchergebnisse, die nachstehend gegeben sind, von der multilingualen Ressource übersetzt, die das folgende Ergebnis vorgibt:
    • 1. Modern treatments for athlete's foot
    • 2. Athlete's foot: new treatments for an old problem
    • 3. Treatments for injuries of athletes based on new medical discoveries.
  • Die Reihenfolge der Dokumente gibt die Prioritätsinformation wieder, dahingehend, dass das Dokument, das als das relevanteste angesehen wird, als das erste Dokument dargestellt wird. In dem spezifischen Beispiel sind die ersten beiden Dokumente in klarer Weise relevant, da sie die bevorzugten Wörterbuchübersetzungen der Ausdrücke der Quellensprachenabfrage enthalten. Jedoch werden, indem eine begrenzte Anzahl von weniger bevorzugten Übersetzungen verwendet wird, die Möglichkeiten, ein relevantes Dokument zu verpassen, verringert, wohingegen die Anzahl lokalisierter irrelevanter Dokumente auch verringert wird. In dem spezifischen Beispiel ist ein einziges relevantes Dokument lokalisiert worden.
  • In dem spezifischen Beispiel, das oben stehend beschrieben ist, war die multilinguale Ressource erforderlich, um nur eine einzige kontinuierliche Kollokation zusätzlich zu den einzelnen Wörtern der Quellensprachenabfrage zu identifizieren. Jedoch ist die multilinguale Ressource, die in der EP 0 813 160 und der GB 2 314 183 offenbart ist, auch in der Lage, nichtkontinuierliche Kollokationen zu identifizieren. Ein spezifisches Beispiel einer derartigen nicht-kontinuierlichen Kollokation tritt in der Abfrage auf:
    "making good use of old clothes".
  • In diesem Fall bilden die Wörter "making use of" eine nichtkontinuierliche Kollokation, die das Wort "good" umspannen. Durch ein Erfassen derartiger nicht-kontinuierlicher Kollokationen ist es möglich, die Präzision eines Übersetzens der Abfrage in die Zielsprache zu verbessern.
  • In diesem Fall stellen die Schritte 20 bis 28 die folgenden Sätze sortierter Zielsprachenübersetzungen der Quellensprachenabfrage bereit:
    make us of → {gebruiken, ...}
    good → {goed, goedaardig, ...}
    old → {oud, antiek, ... }
    clothes → {kleren, kledingstukken, ...}
  • Diese Sätze enthalten Übersetzungen der einzelnen Wörter "make", "use" und "of" nicht, so dass eine große Anzahl möglicher irrelevanter Bedeutungen der Bestandteilausdrücke der Kollokation "make use of" eliminiert werden. Dies verringert wiederum die Wahrscheinlichkeit, dass irrelevante Ausdrücke wegen der Verwendung ungeeigneter Zielsprachenausdrücke in der Zielsprachenabfrage gefunden werden.
  • Um die Verarbeitung zu veranschaulichen, die in dem Schritt 32 durchgeführt wird, wird eine Quellensprachenabfrage "introducing security passes" betrachtet. Die Übersetzungen in holländischer Sprache von "passes" und ihrer Probabilitäten, dass sie korrekt sind, werden wie folgt gegeben:
    passes → pas(sen) (0,7)
    kaart(en) (0, 2)
    voldoende(s) (0,1)
  • Eine Abfrage, die aus diesen Alternativen (und natürlich jenen der anderen Ausdrücke) erzeugt wird, gibt den folgenden Satz von Ergebnissen zurück:
    • 1. Het halen van voldoendes op school: zijn voldoendes echt voldoende? (in Englisch: "Getting pass marks in school: is a pass really good enough?")
    • 2. Veiligheid op kantoor: passen en beveiligingsbeambten. (in Englisch: "Safety in the office: passes and security guards").
    • 3. Een pas opent alle deuren. (in Englisch: "One pass opens all doors").
  • Obwohl nicht nur das "passen" die bei weitem wahrscheinlichste Abfrageausdruckübersetzung ist, ist ein Dokument, das den am wenigsten wahrscheinlichen enthält, als höchstes eingereiht worden. Dies liegt daran, dass es eine Übersetzung des englischen Ausdrucks "passes" häufiger enthält (es weist drei Übereinstimmungen mit der Abfrage anstelle einer auf) und die Suchmaschine dies als ein Ordnungskriterium verwendet. Indem die verfügbare zusätzliche Information vorgegeben wird, ist dies nicht das gewünschte Verhalten. Unter Verwendung der zusätzlichen Information werden die Ergebnisse auf der Grundlage der Wahrscheinlichkeit der Übersetzungsalternativen wieder eingereiht. In dem einfachsten Fall kann beispielsweise die Formel "Anzahl eines Auftretens der Ausdrücke in dem Dokument" mal "Wahrscheinlichkeit des Ausdrucks" angewandt werden. In dem Beispiel empfängt das erste Dokument eine neue Punktzahl von nur 0,3 (3 × 0,1), wohingegen das nächste eine Punktzahl von 0,7 (1 × 0,7) jeweils empfängt. Deswegen ist die neue Einreihung:
    • 1. Veiligheid op kantoor: passen en beveiligingsbeambten.
    • 2. Een pas opent alle deuren.
    • 3. Het halen van voldoendes in school: zijn voldoendes echt voldoende?

    was eher mit der Information über die Wahrscheinlichkeiten der Übersetzungsalternativen, die korrekt sind, übereinstimmt.
  • In der Praxis können viele Beispiele von Quellensprachen-Abfrageausdrücken vorhanden sein, die von der multilingualen Ressource in die Zielsprachen-Abfrageausdrücke nicht übersetzt werden können. Ein üblich verbreitetes Beispiel ist jenes, wo Abfragen Eigennamen enthalten. Beispielsweise ist es unwahrscheinlich, dass die multilinguale Ressource in der Lage sein könnte, Eigennamen, wie etwa "Dagmar Dwehus", zu übersetzen. Jedoch können derartige Abfrageausdrücke sehr nützlich bei einem Wiedergewinnen relevanter Dokumente sein, beispielsweise wo es gewünscht ist, nur Dokumente wiederzugewinnen, die einen derartigen Eigennamen enthalten.
  • Um mit dieser Situation zurechtzukommen, ist es möglich, dass Ausdrücke, für welche die multilinguale Ressource eine Übersetzung nicht finden kann, ohne eine Änderung in die Zielsprachenabfrage übergeben werden. Derartige Ausdrücke können dann in der Zielsprachenabfrage verwendet werden, so dass entweder: nur Dokumente, die derartige Ausdrücke enthalten, wiedergewonnen werden; oder Dokumente, die derartige Ausdrücke enthalten, und Dokumente, die derartige Ausdrücke nicht enthalten, aber andere Suchkriterien erfüllen, wiedergewonnen werden.
  • Als eine Alternative können derartige "unübersetzbare" Ausdrücke während der Formulierung der Zielsprachenabfrage editiert werden. Beispielsweise können derartige Ausdrücke in die Zielsprachenabfrage nur dann übergeben werden, wenn sie als Eigennamen identifiziert sind. Somit werden Ausdrücke, die nicht als Eigennamen identifiziert sind, zurückgewiesen und bilden nicht einen Teil der Zielsprachenabfrage. Diese Technik ist bei einem Zurückweisen von Ausdrücken nützlich, die unübersetzbar sind, weil sie in der Quellensprachenabfrage falsch buchstabiert worden sind.
  • Wenn über eine Strategie zum Formulieren von Zielsprachenabfragen entschieden wird, kann es notwendig sein, die tatsächliche Form der multilingualen Ressource zu betrachten. Bei spielsweise können Maschinenübersetzungssysteme Zielsprachen-Abfrageausdrücke erzeugen, die sehr selten sind, wohingegen multilinguale Ressourcen üblichere Ausdrücke erzeugen können. Es wird angenommen, dass dies eine Wirkung auf die Gesamtwiedergewinnungsgenauigkeit haben kann.
  • Beispielsweise kann eine Wirkung davon sein, dass, weil Informationswiedergewinnungssysteme oft statistischer Natur sind, es zugelassen sein kann, dass verbreitetere Ausdrücke zu einem Wiedergewinnungssystem weniger Dokumente beitragen, um so mehr Platz für andere Ausdrücke zu lassen, Dokumente beizutragen. Somit würde es, wenn ein Zielsprachen-Abfrageausdruck eine nicht korrekte Übersetzung war, eine weniger negative Wirkung für die wiedergewonnenen Ergebnisse haben. Im Gegensatz dazu werden Systeme, die eine seltenere Terminologie verwenden, schwerer für Fehler in dem Übersetzungsprozess belangt, da die Seltenheit eines resultierenden Ausdrucks bedeuten kann, dass ihm eine größere Bedeutung in dem Wiedergewinnungssystem gegeben wird, und somit potenziell irrelevantere Dokumente zu dem Ergebnis beitragen kann.
  • Es wird angenommen, dass die Verwendung der am verbreitetsten eingesetzten Ausdrücke in der Zielsprachenabfrage helfen kann, eine große Anzahl von potenziell relevanten Dokumenten wiederzugewinnen. Es wird angenommen, dass eine derartige Technik nicht zu zu vielen relevanten Dokumenten, die wiedergewonnen werden, aufgrund der Tatsache führen kann, dass der Ausdruck, der verbreitet ist, ein Anhaltspunkt für das Informationswiedergewinnungssystem ist, dass sein Wert bei einem Unterscheiden relevanter Dokumente von nicht relevanten wahrscheinlich ziemlich niedrig ist.
  • In Abhängigkeit von der Natur der multilingualen Ressource kann es ausreichend sein, eine "vorbesetzte Übersetzung" jedes Quellensprachenausdrucks zu wählen, um so den äquivalenten Zielsprachenausdruck zu bilden. Beispielsweise kann, wo die multilinguale Ressource ein bilinguales Wörterbuch ist, diese vorbesetzte Übersetzung die bevorzugte Übersetzung sein, die von dem Wörterbuch erhalten wird. Wo eine Information über die Häufigkeit eines Auftretens eines Ausdrucks erhalten worden ist, beispielsweise durch ein Analysieren einer großen Anzahl von Dokumenten, kann der verbreitetste Ausdruck als die vorbesetzte Übersetzung gewählt werden.

Claims (22)

  1. Verfahren zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage (11) in einer Quellensprache, umfassend: Konvertieren (24) der Abfrage (11) in die Zielsprache unter Verwendung einer multilingualen Ressource (8, 12); Bilden (28) einer Abfrage (15) in der Zielsprache aus der konvertierten Abfrage und aus zusätzlicher Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; Anwenden (31) der Abfrage (15) in der Zielsprache auf ein Informationsverwaltungssystem (1, 16), das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; Verwenden (33) der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen; und Konvertieren (33) zumindest eines der Dokumente in der Zielsprache, die von dem Informationsverwaltungssystem identifiziert ist, in die Quellensprache unter Verwendung der multilingualen Ressource (8, 12).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Quellen- und Zielsprachen natürliche Sprachen sind.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) ein bilinguales Wörterbuch umfasst.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) jeden Ausdruck der Quellensprachenabfrage (11) identifiziert und übersetzt.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) Ausdrücke identifiziert und übersetzt, die Kollokationen sind, aber die einzelnen Wörter der Kollokationen nicht übersetzt.
  6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) für jeden Ausdruck, der mehr als eine Übersetzung aufweist, mehr als eine der Übersetzungen liefert.
  7. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Zielsprachenabfrage (15) zumindest einige jedweder Ausdrücke in der Quellensprachenabfrage (11) einschließt, die von der multilingualen Ressource (8, 12) nicht in die Zielsprache konvertiert werden können.
  8. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren eines Titels des Dokuments umfasst.
  9. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren einer Zusammenfassung oder einer Kurzfassung des Dokuments umfasst.
  10. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass ein Konvertieren des zumindest einen Teils jedes Dokuments ein Konvertieren eines Satzes umfasst, der Ausdrücke enthält, die zu der Abfrage (15) in der Zielsprache passen.
  11. Vorrichtung zum Wiedergewinnen einer Information aus einer Mehrzahl von Dokumenten in einer Zielsprache unter Verwendung einer Abfrage (11) in einer Quellensprache, dadurch gekennzeichnet, dass die Vorrichtung umfasst: eine multilinguale Ressource (8, 12) zum Konvertieren der Abfrage (11) in die Zielsprache; eine Einrichtung zum Bilden einer Abfrage (15) in der Zielsprache aus der konvertierten Abfrage und aus einer zusätzlichen Information, die von der multilingualen Ressource erzeugt wird, über die Zielsprache, wobei die zusätzliche Information über die Zielsprache eine Information einschließt, die eine Wahrscheinlichkeit oder Probabilität anzeigt, dass ein konvertierter Abfrageausdruck in der Zielsprache ein korrekt konvertierter Ausdruck ist; eine Einrichtung zum Anwenden der Abfrage (15) in der Zielsprache auf ein Informationsverwaltungssystem (16), das eine Mehrzahl von Dokumenten in der Zielsprache auf der Grundlage der Abfrage in der Zielsprache identifiziert; und eine Einrichtung zum Verwenden der zusätzlichen Information über die Zielsprache, um die Mehrzahl von Dokumenten, die von dem Informationsverwaltungssystem identifiziert sind, gemäß einem Grad einer Relevanz wieder einzureihen, wobei die multilinguale Ressource (8, 12) eingerichtet ist, zumindest einen Teil aus zumindest einem der Dokumente in der Zielsprache, die von dem Informationsverwaltungssystem (16) identifiziert ist, in die Quellensprache zu konvertieren.
  12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, dass die Quellen- und Zielsprachen natürliche Sprachen sind.
  13. Vorrichtung nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) ein bilinguales Wörterbuch umfasst.
  14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) eingerichtet ist, jeden Ausdruck der Quellensprachenabfrage (11) zu identifizieren und zu übersetzen.
  15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, dass die multilinguale Ressource (8, 12) eingerichtet ist, Ausdrücke zu identifizieren und zu übersetzen, die Kollokationen sind, aber die einzelnen Wörter der Kollokationen nicht zu übersetzen.
  16. Vorrichtung nach Anspruch 14 oder 15, dadurch gekennzeichnet, dass für jeden Ausdruck, der mehr als eine Übersetzung aufweist, die multilinguale Ressource (8, 12) eingerichtet ist, mehr als eine der Übersetzungen zu liefern.
  17. Vorrichtung nach einem der Ansprüche 11 bis 16, dadurch gekennzeichnet, dass die Abfrage-Bildungseinrichtung eingerichtet ist, in der Zielsprachenabfrage (15) zumindest einige jedweder Ausdrücke in der Quellensprachenabfrage (11) einzuschließen, die von der multilingualen Ressource (8, 12) nicht in die Zielsprache konvertiert werden können.
  18. Vorrichtung nach einem der Ansprüche 11 bis 17, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, einen Titel des Dokuments zu konvertieren.
  19. Vorrichtung nach einem der Ansprüche 11 bis 18, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, eine Zusammenfassung oder eine Kurzfassung des Dokuments zu konvertieren.
  20. Vorrichtung nach einem der Ansprüche 11 bis 19, dadurch gekennzeichnet, dass die multilinguale Ressource, die eingerichtet ist, zumindest einen Teil jedes Dokuments zu konvertieren, eingerichtet ist, einen Satz zu konvertieren, der Ausdrücke enthält, die zu der Abfrage (15) in der Zielsprache passen.
  21. Vorrichtung nach einem der Ansprüche 11 bis 20, dadurch gekennzeichnet, dass die Vorrichtung einen programmierten Datenprozessor (2, 7) umfasst.
  22. Speichermedium (7), das ein Programm zum Ausführen des Verfahrens des Anspruchs 1 speichert.
DE69911842T 1998-05-20 1999-05-18 Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium Expired - Lifetime DE69911842T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9810795 1998-05-20
GB9810795A GB2337611A (en) 1998-05-20 1998-05-20 Multilingual document retrieval system

Publications (2)

Publication Number Publication Date
DE69911842D1 DE69911842D1 (de) 2003-11-13
DE69911842T2 true DE69911842T2 (de) 2004-07-22

Family

ID=10832360

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69911842T Expired - Lifetime DE69911842T2 (de) 1998-05-20 1999-05-18 Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium

Country Status (5)

Country Link
US (1) US6360196B1 (de)
EP (1) EP0959420B1 (de)
JP (1) JPH11345249A (de)
DE (1) DE69911842T2 (de)
GB (1) GB2337611A (de)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US7533013B2 (en) * 2000-05-11 2009-05-12 University Of Southern California Machine translation techniques
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US20020099533A1 (en) * 2001-01-23 2002-07-25 Evan Jaqua Data processing system for searching and communication
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7634397B2 (en) * 2002-06-27 2009-12-15 Siebel Systems, Inc. Single server instance, multi-lingual applications based on loosely coupled metadata and presentation layers
US7092938B2 (en) * 2002-08-28 2006-08-15 International Business Machines Corporation Universal search management over one or more networks
JP4121382B2 (ja) * 2003-01-07 2008-07-23 株式会社リコー 情報提供装置、情報表示装置、情報提供システム、及び情報提供方法
JP3987533B2 (ja) * 2003-03-14 2007-10-10 富士通株式会社 翻訳支援装置
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8135575B1 (en) * 2003-08-21 2012-03-13 Google Inc. Cross-lingual indexing and information retrieval
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
CN1624691A (zh) * 2003-12-04 2005-06-08 蒋孝通 网络资源搜索方法
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US8392453B2 (en) * 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US20060095365A1 (en) * 2004-06-29 2006-05-04 Damaka, Inc. System and method for conducting an auction in a peer-to peer network
US8009586B2 (en) * 2004-06-29 2011-08-30 Damaka, Inc. System and method for data transfer in a peer-to peer hybrid communication network
US7933260B2 (en) * 2004-06-29 2011-04-26 Damaka, Inc. System and method for routing and communicating in a heterogeneous network environment
US7778187B2 (en) * 2004-06-29 2010-08-17 Damaka, Inc. System and method for dynamic stability in a peer-to-peer hybrid communications network
US7623476B2 (en) * 2004-06-29 2009-11-24 Damaka, Inc. System and method for conferencing in a peer-to-peer hybrid communications network
US7623516B2 (en) * 2004-06-29 2009-11-24 Damaka, Inc. System and method for deterministic routing in a peer-to-peer hybrid communications network
US7656870B2 (en) * 2004-06-29 2010-02-02 Damaka, Inc. System and method for peer-to-peer hybrid communications
US20060206310A1 (en) * 2004-06-29 2006-09-14 Damaka, Inc. System and method for natural language processing in a peer-to-peer hybrid communications network
US7570636B2 (en) 2004-06-29 2009-08-04 Damaka, Inc. System and method for traversing a NAT device for peer-to-peer hybrid communications
US8050272B2 (en) 2004-06-29 2011-11-01 Damaka, Inc. System and method for concurrent sessions in a peer-to-peer hybrid communications network
US20070078720A1 (en) * 2004-06-29 2007-04-05 Damaka, Inc. System and method for advertising in a peer-to-peer hybrid communications network
US8437307B2 (en) 2007-09-03 2013-05-07 Damaka, Inc. Device and method for maintaining a communication session during a network transition
WO2006042321A2 (en) * 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
EP2013778A1 (de) * 2006-04-19 2009-01-14 Raython Company Mehrsprachige datenabfragen
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
JPWO2008018287A1 (ja) * 2006-08-07 2009-12-24 シャープ株式会社 検索装置及び検索データベース生成装置
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8788258B1 (en) * 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8117194B2 (en) * 2007-05-07 2012-02-14 Microsoft Corporation Method and system for performing multilingual document searches
US8799307B2 (en) * 2007-05-16 2014-08-05 Google Inc. Cross-language information retrieval
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
WO2009043016A2 (en) 2007-09-28 2009-04-02 Damaka, Inc. System and method for transitioning a communication session between networks that are not commonly controlled
US8380859B2 (en) 2007-11-28 2013-02-19 Damaka, Inc. System and method for endpoint handoff in a hybrid peer-to-peer networking environment
US9201870B2 (en) * 2008-01-25 2015-12-01 First Data Corporation Method and system for providing translated dynamic web page content
US8620936B2 (en) * 2008-05-05 2013-12-31 The Boeing Company System and method for a data dictionary
US20090281833A1 (en) * 2008-05-09 2009-11-12 Tele Video Md, Inc. System and method for secure multi-party medical conferencing
US8326785B2 (en) * 2008-09-30 2012-12-04 Microsoft Corporation Joint ranking model for multilingual web search
US20100114887A1 (en) * 2008-10-17 2010-05-06 Google Inc. Textual Disambiguation Using Social Connections
US20100106704A1 (en) * 2008-10-29 2010-04-29 Yahoo! Inc. Cross-lingual query classification
EP2244194A1 (de) 2009-04-24 2010-10-27 Jose Luis Moises Gonzalez Verfahren und Vorrichtung zum Abrufen von Informationen unter Verwendung linguistischer Prädiktoren
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
CA2781321C (en) * 2009-11-20 2017-07-11 Google Inc. Cross-language search options
US8892646B2 (en) 2010-08-25 2014-11-18 Damaka, Inc. System and method for shared session appearance in a hybrid peer-to-peer environment
US8725895B2 (en) 2010-02-15 2014-05-13 Damaka, Inc. NAT traversal by concurrently probing multiple candidates
US8874785B2 (en) * 2010-02-15 2014-10-28 Damaka, Inc. System and method for signaling and data tunneling in a peer-to-peer environment
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8689307B2 (en) * 2010-03-19 2014-04-01 Damaka, Inc. System and method for providing a virtual peer-to-peer environment
US9043488B2 (en) * 2010-03-29 2015-05-26 Damaka, Inc. System and method for session sweeping between devices
US9191416B2 (en) 2010-04-16 2015-11-17 Damaka, Inc. System and method for providing enterprise voice call continuity
US8352563B2 (en) 2010-04-29 2013-01-08 Damaka, Inc. System and method for peer-to-peer media routing using a third party instant messaging system for signaling
US8446900B2 (en) 2010-06-18 2013-05-21 Damaka, Inc. System and method for transferring a call between endpoints in a hybrid peer-to-peer network
US8611540B2 (en) 2010-06-23 2013-12-17 Damaka, Inc. System and method for secure messaging in a hybrid peer-to-peer network
US8468010B2 (en) 2010-09-24 2013-06-18 Damaka, Inc. System and method for language translation in a hybrid peer-to-peer environment
US8743781B2 (en) 2010-10-11 2014-06-03 Damaka, Inc. System and method for a reverse invitation in a hybrid peer-to-peer environment
US8862595B1 (en) 2010-11-23 2014-10-14 Google Inc. Language selection for information retrieval
US8407314B2 (en) 2011-04-04 2013-03-26 Damaka, Inc. System and method for sharing unsupported document types between communication devices
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694587B2 (en) 2011-05-17 2014-04-08 Damaka, Inc. System and method for transferring a call bridge between communication devices
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8478890B2 (en) 2011-07-15 2013-07-02 Damaka, Inc. System and method for reliable virtual bi-directional data stream communications with single socket point-to-multipoint capability
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9027032B2 (en) 2013-07-16 2015-05-05 Damaka, Inc. System and method for providing additional functionality to existing software in an integrated manner
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9357016B2 (en) 2013-10-18 2016-05-31 Damaka, Inc. System and method for virtual parallel resource management
CA2956617A1 (en) 2014-08-05 2016-02-11 Damaka, Inc. System and method for providing unified communications and collaboration (ucc) connectivity between incompatible systems
US10452786B2 (en) * 2014-12-29 2019-10-22 Paypal, Inc. Use of statistical flow data for machine translations between different languages
US10091025B2 (en) 2016-03-31 2018-10-02 Damaka, Inc. System and method for enabling use of a single user identifier across incompatible networks for UCC functionality
WO2021184249A1 (en) * 2020-03-18 2021-09-23 Citrix Systems, Inc. Machine translation of digital content
US11902343B1 (en) 2021-04-19 2024-02-13 Damaka, Inc. System and method for highly scalable browser-based audio/video conferencing
US11770584B1 (en) 2021-05-23 2023-09-26 Damaka, Inc. System and method for optimizing video communications based on device capabilities

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0421180A (ja) * 1990-05-16 1992-01-24 Matsushita Graphic Commun Syst Inc 文書検索装置
JP3176059B2 (ja) * 1990-11-15 2001-06-11 キヤノン株式会社 翻訳装置
JP3418876B2 (ja) * 1993-02-27 2003-06-23 オムロン株式会社 データ・ベース検索装置および方法
JP3279002B2 (ja) * 1993-09-07 2002-04-30 富士ゼロックス株式会社 情報管理装置
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6993471B1 (en) * 1995-11-13 2006-01-31 America Online, Inc. Integrated multilingual browser
GB2314183A (en) * 1996-06-14 1997-12-17 Sharp Kk Accessing a database
JP3121548B2 (ja) * 1996-10-15 2001-01-09 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 機械翻訳方法及び装置
US5956740A (en) * 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법

Also Published As

Publication number Publication date
US6360196B1 (en) 2002-03-19
GB9810795D0 (en) 1998-07-15
GB2337611A (en) 1999-11-24
DE69911842D1 (de) 2003-11-13
EP0959420B1 (de) 2003-10-08
EP0959420A2 (de) 1999-11-24
JPH11345249A (ja) 1999-12-14
EP0959420A3 (de) 2002-05-15

Similar Documents

Publication Publication Date Title
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69934371T2 (de) Apparat und Verfahren zum Verarbeiten einer natürlichen Sprache
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
DE69820343T2 (de) Linguistisches Suchsystem
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
EP1311989B1 (de) Verfahren zur automatischen recherche
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE3032664A1 (de) Elektronisches sprachuebersetzungsgeraet.
DE102005032744A1 (de) Indexextraktion von Dokumenten
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE102005032046A1 (de) Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
DE102005032733A1 (de) Indexextraktion von Dokumenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition