DE69834386T2 - Textverarbeitungsverfahren und rückholsystem und verfahren - Google Patents

Textverarbeitungsverfahren und rückholsystem und verfahren Download PDF

Info

Publication number
DE69834386T2
DE69834386T2 DE69834386T DE69834386T DE69834386T2 DE 69834386 T2 DE69834386 T2 DE 69834386T2 DE 69834386 T DE69834386 T DE 69834386T DE 69834386 T DE69834386 T DE 69834386T DE 69834386 T2 DE69834386 T2 DE 69834386T2
Authority
DE
Germany
Prior art keywords
text
phrases
pieces
lexicon
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69834386T
Other languages
English (en)
Other versions
DE69834386D1 (de
Inventor
Claude Vogel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LUCIDMEDIA NETWORKS, INC., RESTON, VA., US
Original Assignee
Entrieva Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Entrieva Inc filed Critical Entrieva Inc
Publication of DE69834386D1 publication Critical patent/DE69834386D1/de
Application granted granted Critical
Publication of DE69834386T2 publication Critical patent/DE69834386T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Description

  • Hintergrund der Erfindung
  • Die Erfindung betrifft allgemein ein System und Verfahren zur Verarbeitung und Wiedergewinnung von Text und insbesondere ein System und Verfahren zur Verarbeitung von großen Mengen Text und zur Erzeugung von Sichtanzeigen des Textes, die von einem Benutzer schnell durchsucht werden können.
  • Eine drastische Zunahme der Speicherkapazität und Abnahme der Kosten von Computer-Festplattenlaufwerken, und Zunahmen der Übertragungsgeschwindigkeit von Computerkommunikation und der Verarbeitungsgeschwindigkeit von Computern und die Ausbreitung von Computerkommunikationsnetzen wie z.B. einem schwarzen Brett oder dem Internet, haben alle zu der umfassenden Speicherung und Wiedergewinnung von Textdateninformationen unter Verwendung von Computerdatenbanken beigetragen. Durch diese Datenbanken haben die Leute jetzt auch Zugang zu den großen Mengen Textdaten. Die Technik erleichtert zwar Speicherung von und Zugang zu den Textdaten, es gibt aber neue Probleme, die durch die großen Mengen Textdaten erzeugt wurden, die jetzt verfügbar sind.
  • Insbesondere benötigt eine Person, die auf Textdaten in einer Computerdatenbank zuzugreifen versucht, die eine große Menge Daten enthält, ein System zum Analysieren der Daten, um die gewünschten Informationen schnell und effizient wiederzugewinnen, ohne unzugehörige Informationen wiederzugewinnen. Viele typische Textsuch- und -wiedergewinnungssysteme sind "Top-Down"-Systeme, bei denen der Benutzer eine Suchanfrage formuliert, aber keinen Zugang zu den tatsächlichen Textdaten hat, so dass der Benutzer die richtige Anfrage zum Erhalt der gewünschten Daten erraten muss. Ein konventionelles "Top-Down"-System zur Wiedergewinnung von Textdaten ist ein Schlüsselwort-Suchsystem. Im Schlüsselwort-Suchsystem entwickelt ein Benutzer eine Suchanfrage, als Frage bekannt, unter Verwendung eines oder mehrerer Schlüsselworte, und danach wird unter Verwendung der Schlüsselworte eine Durchsuchung der Datenbank durchgeführt. Wenn der Benutzer die genauen Schlüsselworte kennt, die die gewünschten Daten wiedergewinnen werden, kann die Schlüsselwortsuche nutzbare Ergebnisse liefern. Doch die meisten Benutzer kennen nicht das genaue Schlüsselwort oder die Kombination von Schlüsselworten, das bzw. die die gewünsch ten Daten hervorbringen wird. Und selbst wenn spezifisch gerichtete Schlüsselworte möglicherweise die gewünschten Daten wiedergewinnen, gewinnen sie möglicherweise auch eine große Menge unzugehöriger Daten wieder, die das Schlüsselwort oder die Schlüsselworte zufällig enthalten. Der Benutzer muss dann sämtliche unzugehörigen Daten sichten, um die gewünschten Daten zu finden, was ein zeitraubender Prozess sein kann. Und wenn die in einer Computerdatenbank durchsuchbare Datenmenge zunimmt, wird der Sichtungsprozess noch zeitraubender.
  • Das konventionelle schlüsselwortbasierte Datenwiedergewinnungssystem hat außerdem ein weiteres Problem, das mit den immanenten Eigenschaften der menschlichen Sprache verknüpft ist. Insbesondere kann es sein, dass ein vom Benutzer gewähltes Schlüsselwort nicht zu den Worten im Text passt oder aus ein paar Gründen unzugehörige Informationen wiedergewinnt. Erstens wählen verschiedene Leute wahrscheinlich verschiedene Schlüsselworte, um denselben Gegenstand zu beschreiben, da die Wahl der Schlüsselworte von den Bedürfnissen, der Erfahrung oder der Sprache der Person abhängt. Zum Beispiel kann es sein, dass eine Person einen bestimmten Gegenstand eine "Bank" nennt, während eine andere Person denselben Gegenstand eine "Bausparkasse" nennt. Daher würde eine Schlüsselwortsuche nach "Bank" durch einen erfahreneren Benutzer einen Artikel über eine Bausparkasse möglicherweise nicht wiedergewinnen, obwohl der Artikel möglicherweise ein relevantes Stück Daten ist. Zweitens kann dasselbe Wort mehr als eine bestimmte Bedeutung haben. Insbesondere kann dasselbe Wort, wenn in verschiedenem Kontext benutzt oder wenn von verschiedenen Leuten benutzt, eine andere Bedeutung haben. Zum Beispiel kann es sein, dass das Schlüsselwort "Bank" Text über eine Sitzbank oder eine Sparkasse wiedergewinnt, wenn nur Artikel über eine Sparkasse gewünscht sind. Daher kann ein Textstück, das alle relevanten Schlüsselworte enthält, dennoch völlig irrelevant sein.
  • Das schlüsselwortbasierte Textanalyse- und Wiedergewinnungssystem, wie oben beschrieben, ist ein Top-Down-Textwiedergewinnungssystem. In einem Top-Down-Textwiedergewinnungssystem wird vorausgesetzt, dass der Benutzer, der die Schlüsselwortsuche durchführt, die Informationen kennt, nach denen er sucht, und dies erlaubt es dem Benutzer, die Datenbank abzufragen, um die gewünschten Informationen ausfindig zu machen. In einem Top-Down-System hat der Benutzer jedoch keinen Zugriff auf die tatsächlichen Textdaten und kann die Worte im Text nicht mustern, um Auswahlen der passenden Schlüsselworte zur Wiedergewinnung der gewünschten Textdaten zu treffen. Andere Top-Down-Textwiedergewinnungssysteme versuchen, einige der Unzulänglichkeiten des Schlüsselwort-Textwiedergewinnungssystems zu korrigieren, indem sie wendungsbasierte Suchen durchführen. Diese gewinnen zwar weniger wahrscheinlich ganz irrelevante Textstücke, sie können aber eine größere Wahrscheinlichkeit aufweisen, den gewünschten Text zu verpassen, da es sein kann, dass die exakte Wendung im gewünschten Text nicht vorhanden ist.
  • All diese Textwiedergewinnungssysteme sind Top-Down-Textwiedergewinnungssysteme, bei denen man Schlüsselworte verwendet, um Textdatenstücke wiederzugewinnen, und es gibt keinen Ansatz, einen inhaltsbasierten Index der Textdaten zu verwenden. Keines dieser Systeme verwendet eine Bottom-Up-Methode, bei der der Benutzer eine strukturierte Version der tatsächlichen Textdaten sieht. Die strukturierte Version der Textdaten kann aus den Textdaten extrahierte Worte und Wendungen enthalten, die eine Anzeige des Inhalts und/oder des Kontextes der Textdaten liefern, so dass der Benutzer eine inhalts- und kontextbasierte Ansicht der verfügbaren Textdaten bekommen und eine Durchsuchung der Textdaten auf Basis der inhaltbasierten Wendungen oder Worte durchführen kann. Die strukturierten inhaltsbasierten Wendungen erlauben es einem Benutzer, leicht durch eine große Datenmenge zu navigieren, da die inhaltsbasierten Wendungen einen leichten Weg bereitstellen, eine große Zahl von Wendungen schnell durchzusehen.
  • Es besteht daher Bedarf nach einem verbesserten Textwiedergewinnungssystem und Textwiedergewinnungsverfahren, welche diese und andere Probleme von bekannten Systemen und Verfahren vermeiden, und die vorliegende Erfindung ist auf dieses Ziel gerichtet.
  • Recent trends in hierarchic document clustering: A critical review [Willett], information processing & management, Elsevier, Band 24, Nr. 5, 1998, Seiten 577–597, Barking, GB, ISSN: 0306-4573, offenbart neue Forschungen über die Verwendung von hierarchischen agglomerativen Gruppenbildungsverfahren für Dokumentwiedergewinnung. Dies umfasst die Offenbarung der Aufstellung einer Liste von Indexausdrücken für ein Dokument und Gruppierung von Ausdrücken aus Dokumenten.
  • Kurze Darstellung der Erfindung
  • Die vorliegende Erfindung ist in den unabhängigen Ansprüchen angegeben. Die abhängigen Ansprüche geben Ausführungsformen der Erfindung an.
  • Die Erfindung stellt in einer Ausführungsform ein Textanalyse- und -wiedergewinnungssystem bereit, das eine Bottom-Up-Methode verwendet, bei der der ganze Text unter Verwendung eines effizienten Kartierungsprozesses verarbeitet wird, um den Benutzer mit einer grafischen inhaltsbasierten Straßenkarte des Textes zu versehen, so dass der Benutzer Wendungen der tatsächlichen Textdaten sehen kann, um die gewünschten Daten zu bestimmen. Das System kann auch die inhaltsbasierten Karten mustern, um Informationen über Änderungen in den Textdaten zu erzeugen. Insbesondere extrahiert die Erfindung während des Kartierungsprozesses Worte oder Wendungen aus den Textdaten, die als Wortgruppe miteinander gruppiert werden können, und diese Wortgruppen können miteinander kombiniert werden, um die inhaltsbasierten grafischen Karten auszubilden. Die Karten, die grafisch angezeigt werden, erlauben es dem Benutzer, ohne eine Schlüsselwortsuche schnell durch die tatsächlichen Textdaten zu navigieren und die relevanten Informationen ausfindig zu machen. Der Musterungsprozess kann mit der Zeit eine Vielzahl von Karten und Wortgruppen semiotisch verarbeiten, um Szenarien zu erzeugen, die Änderungen in den Karten und Gruppen anzeigen. Bei dieser Bottom-Up-Methode muss ein Benutzer nicht die in den Textdaten benutzten Schlüsselworte erraten, da der Benutzer die tatsächlichen Worte und Wendungen in den Textdaten sieht.
  • Zur Erzeugung der inhaltsbasierten Straßenkarte kann jedes Textdatenstück zerlegt werden und können Worte oder Wendungen in den Textdaten extrahiert werden. Bei den meisten typischen informatorischen Textdaten kann der Inhalt der Textdaten am leichtesten bestimmt werden durch Prüfen von Gruppen von mehr als einem Wort (d. h. den Wendungen), die in den Textdaten enthalten sind. Eine Wendung kann zwei Worte oder so viel wie sechs Worte enthalten. Diese Wendungen liefern die meisten Informationen über den Inhalt eines Textdatenstücks und erlauben es einem Benutzer zu bestimmen, ob das Textdatenstück relevant ist. Die Erfindung nutzt Wendungen bei der Verarbeitung jedes Textdatenstücks, um jedes Textdatenstück zusammenzufassen, ohne irgendwelchen Inhalt zu verlieren.
  • Die Erfindung stellt in einer Ausführungsform auch ein System und Verfahren bereit, welches dem Benutzer eine Übersichtkarte anzeigen kann, welche es dem Benutzer erlaubt, Verknüpfungen mit anderen Karten auszuwählen, die spezifischere Textdateninformationen enthalten. Daher ist das System insofern skalierbar, als verschiedene Karten erzeugt werden können, wobei jede Karte einen verschiedenen Grad an Spezifizität hat und benutzt werden kann, um verschiedene Teilsätze der Textdaten wiederzugeben. Ein Benutzer kann dann mit vielen verschiedenen Graden an Spezifizität nach Textdaten suchen, je nach den gewünschten Daten. Das System kann es dem Benutzer auch erlauben, Extrakte der Textdaten anzuzeigen, die die vom Benutzer ausgewählten Wortgruppen aufweisen, so dass der Benutzer schnell bestimmen kann, ob das Textdatenstück relevant ist.
  • In Übereinstimmung mit einer Ausführungsform der Erfindung werden ein System und Verfahren zur Verarbeitung und Wiedergewinnung von Textdaten bereitgestellt, bei denen eine Vielzahl von Textstücken auf Basis des Inhalts verarbeitet werden, um einen Index für jedes Textstück zu erzeugen, wobei der Index eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben. Die Wendungen werden miteinander gruppiert, um auf Basis eines Grades an Zusammenhang der Wendungen Gruppen zu erzeugen, und es wird eine hierarchische Struktur erzeugt, wobei die hierarchische Struktur eine Vielzahl von Karten aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten, wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen aufweist, die Knoten verbinden, die miteinander in Beziehung stehen. Die Karte wird einem Benutzer angezeigt, ein Benutzer wählt eine bestimmte Gruppe auf der Karte aus, und auf Basis der vom Benutzer ausgewählten Gruppe wird ein Textabschnitt aus den Textstücken extrahiert.
  • In Übereinstimmung mit einer Ausführungsform der Erfindung werden ein inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem und -verfahren bereitgestellt, welche umfassen: Verarbeiten einer Vielzahl von Textstücken auf Basis des Inhalts, um einen Index für jedes Textstück zu erzeugen, wobei der Index eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben, Gruppieren von Wendungen miteinander, um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen zu erzeugen, und Erzeugen einer hierarchischen Struktur, wobei die hierarchische Struktur eine Vielzahl von Karten aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten, wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen aufweist, die Knoten verbinden, die miteinander in Beziehung stehen. Aus der Vielzahl von Textstücken kann eine semiotische Datenstruktur erzeugt werden, wobei die semiotische Datenstruktur eine Liste von Wendungen, die den Inhalt der Textstücke anzeigen, und eine Kennung aufweist, die mit einer jeden Wendung in der semiotischen Datenstruktur verbunden ist, um das Wort nach seinem Inhalt zu klassifizieren, und auf Basis der semiotischen Datenstruktur können eine Vielzahl von Karten miteinander verglichen werden, um ein Szenario zu erzeugen, welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems;
  • 2 ist eine grafische Ansicht eines gesamten kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung;
  • 3 ist eine grafische Ansicht eines Teils des kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems von 2;
  • 4 zeigt ein Computer-Client/Server-System, das ein Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung verwenden kann;
  • 5 ist eine grafische Ansicht eines Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung;
  • 6A ist ein Flussdiagramm eines Gesamtverfahrens zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung;
  • 6B ist ein Flussdiagramm eines Verfahrens zur Erzeugung von Szenarien in Übereinstimmung mit der Erfindung;
  • 7 zeigt eine Karte, die aus dem Vergleich eines Textstücks und einer semiotischen Datenstruktur in Übereinstimmung mit der Erfindung erzeugt wird;
  • 8 ist ein Flussdiagramm eines Verfahrens zur Verarbeitung von Textdaten in Übereinstimmung mit der Erfindung, welches ein Teil des in 6A gezeigten Gesamtverfahrens ist;
  • 9 ist ein Flussdiagramm eines Verfahrens zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung;
  • 10 ist ein Flussdiagramm eines Verfahrens zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung;
  • 11 ist ein Flussdiagramm eines Verfahrens zur Erzeugung einer Gruppe und einer Karte in Übereinstimmung mit der Erfindung;
  • 12 ist eine grafische Ansicht eines Beispiels für eine aus zwei Muster-Textstücken erzeugten Karte;
  • 13 ist ein Flussdiagramm eines Verfahrens zur Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung, welches ein Teil des in 6A gezeigten Gesamtverfahrens ist;
  • 14 ist eine Skizze einer Metakarte und mehrerer Subkarten in Übereinstimmung mit der Erfindung;
  • 15 ist eine Skizze eines Beispiels für eine Metakarte für ein Muster-Textdatenstück;
  • 16 ist eine Skizze eines Beispiels für eine Subkarte für das Muster-Textdatenstück von 15;
  • 17 ist eine Skizze, die einen Benutzer zeigt, der verschiedene Gruppen aus der in 16 gezeigten Subkarte auswählt; und
  • 18 ist eine Skizze, die die auf Basis der in 17 gezeigten Benutzerauswahl aus dem Muster-Textdatenstück extrahierten Textzusammenfassungen zeigt.
  • Detaillierte Beschreibung einer bevorzugten Ausführungsform
  • Die Erfindung ist besonders auf ein System zur Verarbeitung und Wiedergewinnung von Textdaten in einer Client/Server-Netzumgebung anwendbar. In diesem Kontext wird die Erfindung beschrieben. Man erkennt jedoch, dass das System und Verfahren in Übereinstimmung mit der Erfindung größere Brauchbarkeit hat.
  • 1 ist eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems 30. Das Top-Down-System kann eine Textdatenbank 32 aufweisen, die eine Vielzahl von Textdatenstücken enthält. Ein Benutzer, der Daten aus der Textdatenbank wiederzugewinnen versucht, muss über die gewünschten Informationen nachdenken und die Frage erraten, die helfen könnte, die Informationen aus der Datenbank zu erhalten. Insbesondere kann der Benutzer eine Schlüsselwortfrage 36 erzeugen, die ein oder mehr Schlüsselworte enthält, möglicherweise durch logische Operatoren verbunden, die einfach eine "beste" Vermutung einer Frage sein kann, die die gewünschten Informationen charakterisiert. Die Schlüsselwortfrage wird dann zu der Datenbank gesendet, und auf Basis der Frage sendet die Datenbank eine Antwort 38 zurück, die Textdaten enthält, die das Schlüsselwort enthalten, einschließlich sowohl relevanten Textdaten als auch irrelevanten Textdaten. Da das System es dem Benutzer nicht erlaubt, vor Erzeugung der Schlüsselwortfrage die tatsächlichen Textdaten in der Datenbank im Voraus zu sehen, ist die Erfolgsquote der Suche möglicherweise gering. Außerdem enthalten die von der Datenbank zurückgesendeten Textdaten möglicherweise viele irrelevante Textdatenstücke, als Dokumente bekannt, die vom Benutzer herausgefiltert werden müssen. Das System ist daher sehr ineffizient und zeitraubend. Es wird nun ein Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung beschrieben, welches diese Schwierigkeiten vermeidet.
  • 2 ist ein grafischer Überblick über ein kontext- und inhaltsbasiertes Bottom-Up- Textverarbeitungs- und -wiedergewinnungssystem 24 in Übereinstimmung mit der Erfindung. Das System kann ein Kartierungs-Subsystem 25, das unter Bezugnahme auf 3 und 6A beschrieben wird, und ein Musterungs-Subsystem 26 aufweisen, das unter Bezugnahme auf 6B beschrieben wird. Das Kartierungssystem kann es einem Benutzer des Systems erlauben, eine strukturierte Version des tatsächlichen Textes zu betrachten, um Textstücke wiederzugewinnen. Das Musterungs-Subsystem kann die vom Kartierungsabschnitt erzeugte strukturierte Version des tatsächlichen Textes, als Karte bekannt, verwenden und eine Vielzahl von Karten in verschiedenen Zeitpunkten "mustern", um eine "Geschichte" von Änderungen zu erzeugen, die in den Karten stattfinden. Zum Beispiel, wenn die in Verbindung mit einem Aufsichtsrat einer Aktiengesellschaft erwähnten Leute wechseln, kann der Musterungsabschnitt diese Änderung hervorheben. Ein Benutzer des Systems kann den Kartierungsabschnitt oder den Musterungsabschnitt getrennt oder als ein kombiniertes System verwenden.
  • Das Kartierungs-Subsystem 24 kann Text 27 von einer Vielzahl von Orten sammeln. Eine Extrahiereinrichtung 28 kann den Text verarbeiten, um ein Lexikon 29 zu erzeugen. Das Lexikon kann eine Liste von Worten oder Wendungen sein, die im Hinblick auf ihre Fähigkeit ausgewählt worden sind, einem Satz Kontext zu verleihen. Das Lexikon wird unten unter Bezugnahme auf 9 beschrieben. In einem Informationsgruppierungsprozess 30, in dem für jedes Textstück ein Index erzeugt werden kann, kann der Text 27 dann mit dem Lexikon 29 verglichen werden. Der Index kann Worte oder Wendungen enthalten, die in dem Lexikon und dem Text vorhanden sind. Aus diesen Indizes können eine Vielzahl von Karten 3133 erzeugt werden, die die Verbindung von Worten oder Wendungen miteinander grafisch darstellen, wie in 1517 gezeigt und unten beschrieben. Diese Karten können zum Beispiel in einem ersten Zeitpunkt t0, einem zweiten Zeitpunkt t1 und einem dritten Zeitpunkt t2 erzeugt werden. Die Karten können sich in den verschiedenen Zeitpunkten ändern, da zusätzliche Textstücke hinzugefügt worden sind. Dieses Kartierungs-Subsystem kann einem Benutzer die Fähigkeit verleihen, Text schnell aus einer großen Anfangszahl von Textstücken wiederzugewinnen, wie unten beschrieben. Das Kartierungs-Subsystem kann auch in Verbindung mit dem Musterungs-Subsystem verwendet werden, um einem Benutzer verbesserte Suchfähigkeiten zu verleihen.
  • Das Musterungs-Subsystem 26 kann zuerst einen Wörterbuchgenerator 34 verwenden, um ein Wörterbuch 35 aus dem Lexikon zu erzeugen. Das Wörterbuch kann die Liste von Worten oder Wendungen im Lexikon sein, wobei jedes Wort oder jede Wendung eine damit verbundene Kennung aufweisen kann, die die Worte oder Wendungen zum Beispiel als einen Akteur, eine Funktion oder ein Thema klassifiziert, wie unten unter Bezugnahme auf 6B beschrieben. Die Wortgruppen in den Karten 3133 können unter Verwendung des Wörterbuchs 35 semiotisch verarbeitet 36 werden, um ein Szenario 37 zu erzeugen. Das Szenario kann eine Anzeige einer Änderung zwischen den Karten sein, wie zum Beispiel dass eine vorher niemals mit einer Firma in Verbindung gestandene Person in einer Geschichte über diese Firma ausfindig gemacht worden ist. Daher können die Szenarien Änderungen und Trends in den Textdaten verfolgen, die mit der Zeit stattfinden können. Daher kann eine Firma einmal die Woche Karten über eine bestimmte Firma erzeugen und dann Szenarien für die Karten erzeugen, die Änderungen in der Firma verfolgen können, welche zum Beispiel für einen Wettbewerber wertvolle Geschäftsinformationen sein können.
  • Im Betrieb kann eine Firma Informationen über eine bestimmte Industrie wie z.B. Landwirtschaft wünschen und weiterhin an einer Firma "X" in der Landwirtschaftsindustrie interessiert sein. Der Benutzer kann unter Verwendung des Kartierungs-Subsystems die relevanten Worte oder Wendungen über die Firma X ausfindig machen, und das Kartierungs-Subsystem kann eine Karte erzeugen. Das Kartierungs-Subsystem kann automatisch jede Woche eine neue Karte mit demselben Schwerpunkt auf der Firma X erzeugen, um neue Textstücke einzubauen. Das Musterungs-Subsystem kann dann die Karten verarbeiten, um ein Szenario zu erzeugen, das zum Beispiel anzeigt, dass der Direktor der Firma ausscheidet. Wie unten beschrieben, kann jeder andere Benutzer einen anderen Schwerpunkt oder ein anderes Interesse haben, so dass für jeden Benutzer ein anderes relevantes Szenario erzeugt werden kann. Jetzt wird das Kartierungs-Subsystem detaillierter beschrieben.
  • 3 ist eine grafische Ansicht eines Kartierungs-Subsystems 40 eines kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung. Bei dem Kartierungs-Subsystem des Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems können die Textdaten 42 verarbeitet, wie unter Bezugnahme auf 6A unten detaillierter beschrieben, und analysiert werden, um eine strukturierte Version von Textdaten 44 zu erzeugen, die einige der Worte und/oder Wendungen in jedem Textdatenstück umfassen können, wie unten beschrieben. Die strukturierte Version der Textdaten kann Worte oder Wendungen enthalten, die dem Benutzer Kenntnisse über den Inhalt und/oder Kontext jedes Textdatenstücks verleihen, so dass ein Benutzer leicht bestimmen kann, ob ein Textdatenstück relevant ist. Wie oben beschrieben, kann der Inhalt eines Textdatenstücks am leichtesten aus Wendungen bestimmt werden, die aus zwei Worten bis zu ungefähr sechs Worten bestehen, doch können auch einzelne Worte etwas vom Inhalt der Textdaten vermitteln, wie z.B. ein Eigenname wie Präsident Clinton. Die Details der Extraktion von Wendungen aus den Textdatenstücken werden unten unter Bezugnahme auf 9 beschrieben.
  • Um etwas aus dem strukturierten Text auszufiltern, kann ein Benutzer dem System ein breites Filterwort 46 zur Verfügung stellen, das den Typ der Informationen, die der Benutzer sucht, allgemein beschreibt. Das breite Filterwort kann mehrere Worte umfassen, die durch Boolesche Verknüpfungen wie z.B. ODER, UND und dergleichen getrennt sind. Um den Umfang der Textdaten noch mehr einzuschränken, kann ein Benutzer auf Basis des Datums, Ursprungs oder Ortes der Textdaten eingeschränkte Textdaten anfordern. Zum Beispiel kann es sein, dass ein Benutzer nur Textdaten anfordert, die neuer als 1995 sind, oder nur Textdaten von Webseiten anfordert. Der strukturierte Text kann dann auf Basis des Filterwortes des Benutzers gefiltert werden, und die gefilterten strukturierten Daten können auf einer Anzeige 47 grafisch als Verbindungen von Wortgruppen 48 angezeigt werden, als Karten bekannt, wie unten beschrieben, so dass ein Benutzer die strukturierte Version der Textdaten unter Verwendung eines Blätterbefehls 49 durchblättern kann. Während des Durchblätterns kann der Benutzer verschiedene andere Wortgruppen auswählen, wie unten beschrieben, und die mit diesen Wortgruppen verbundenen Textdaten betrachten. Sobald der Benutzer das Durchblättern der Wortgruppen beendet hat und die passende eine oder mehr Wortgruppen ausfindig gemacht hat, die die gewünschten Textdaten charakterisieren, kann der Benutzer diese Wortgruppen auswählen, und das System kann Zusammenfassungen 50 aller Textstücke anzeigen, die die passenden Wortgruppen enthalten. Die Zusammenfassungen können vom Benutzer leicht geprüft werden, um die Relevanz irgendeines bestimmten Textstücks zu bestimmen. Sind die richtigen Daten noch nicht ausfindig gemacht worden, kann der Benutzer die Suche auch von irgendeinem Punkt aus neu starten und fortfahren, Zusammenfassungen zu betrach ten, bis die relevanten Informationen ausfindig gemacht worden sind.
  • Bei diesem Kartierungs-Subsystem des Bottom-Up-Systems in Übereinstimmung mit der Erfindung betrachtet der Benutzer nur die Wortgruppen, die aus dem Text extrahiert worden sind, da diese Worte dem Benutzer Wissen über den Inhalt und/oder Kontext jedes Textdatenstücks vermitteln. Wie unten beschrieben, können Worte in jedem Textdatenstück, die nicht zu einem Verständnis des Inhalts und/oder Kontextes der Textdaten beitragen, als Leerworte bekannt, entfernt werden. Daher sieht der Benutzer nur die relevantesten Wortgruppen und kann die passenden Wortgruppen auswählen, ohne irgendwelche gebildeten Schlüssewortvermutungen treffen zu müssen. Die Details des Textverarbeitungs- und -wiedergewinnungssystems mit einer Bottum-Up-Methode in Übereinstimmung mit der Erfindung werden unten detaillierter beschrieben. Jetzt wird ein Beispiel für ein Client/Server-vernetztes Computersystem beschrieben, das ein System für Textverarbeitung und -wiedergewinnung in Übereinstimmung mit der Erfindung enthalten kann.
  • 4 ist eine schematische Ansicht eines Client/Server-basierten Computersystems 60, das ein Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung enthalten kann. Wie gezeigt, kann das Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung vollständig innerhalb eines Firmen- oder Privatnetzes 62 arbeiten, kann aber auch auf Textdaten von außerhalb des Firmennetzes zugreifen. Der Computer, der die Software und/oder Hardware speichert, die in Übereinstimmung mit der Erfindung Text verarbeitet und wiedergewinnt, kann innerhalb des Firmenetzes angesiedelt sein, kann aber auch an einem öffentlichen Großraumnetz wie z.B. dem Internet angesiedelt sein. Das Firmennetz 62 kann als Intranet bekannt sein und kann vollständig innerhalb einer Firewall 64 angesiedelt sein, die das Firmennetz vor unbefugtem Zugriff von außen schützt. Das Textverarbeitungs- und -wiedergewinnungssystem kann durch die Firewall auf eine sichere Weise Text von außerhalb des Intranet wiedergewinnen. Im Allgemeinen kann ein Client/Server-System einen Servercomputer, der die Datenbank speichert, und ein oder mehr entfernte Computersysteme aufweisen, die ein Stück Client-Software ausführen, die mit dem Servercomputer interagieren kann. Ein Client/Server-Computersystem ist bekannt und wird hier nicht beschrieben.
  • Für das Intranet-Client/Server-System kann ein innerhalb der Firewall 64 angesiedelter Globalserver 66 Software enthalten, die den Text verarbeitet, um Karten zu erzeugen, wie unten beschrieben, und es dem Benutzer erlaubt, den verarbeiteten Text grafisch zu durchblättern und irgendwelche relevanten Textdaten wiederzugewinnen. Die Software kann die Karten außerdem semiotisch verarbeiten, um Szenarien zu erzeugen, die Änderungen in den Karten anzeigen. Der Text, der vom Globalserver verarbeitet wird, kann aus einer oder mehreren Datenbanken extrahiert werden, wie z.B. einer ersten Datenbank 68 und einer zweiten Datenbank 70. Um Textdaten aus dem Globalserver zu durchblättern und wiederzugewinnen und Szenarien zu erzeugen, kann ein am Privat- oder Firmennetz angebauter Computer ein Stück Client-Software 72 wie z.B. eine JAVA-basierte Softwareanwendung aufweisen, die mit dem Globalserver interagiert und es dem Benutzer erlaubt, die Wortgruppen grafisch zu durchblättern und relevante Textdatenstücke wiederzugewinnen, wie in 1518 gezeigt, und außerdem Szenarien zu erzeugen.
  • Die Client-Software 72 kann außerdem auf einen ersten und einen zweiten Arbeitsgruppen-Server 74, 76 zugreifen und erlaubt es dem Benutzer, Wortgruppen zu durchblättern, die sich in Textstücken befinden, die sich in Ordnern auf dem Arbeitsgruppen-Server befinden. Zusätzlich zu dem Verbinden mit dem innerhalb der Firewall 66 befindlichen sicheren Globalserver kann die Client-Software außerdem mit einem zweiten Globalserver 78 verbinden, der sich außerhalb der Firewall befindet, zum Beispiel am Internet. Der zweite Globalserver kann eine Vielzahl von Webseiten von einer oder mehreren Websites 80, 82 sammeln und die Textdaten in den Webseiten in Übereinstimmung mit der Erfindung zu Wortgruppen verarbeiten. Dies erlaubt es dem Benutzer, die mit den Webseiten verbundenen Wortgruppen mit der Client-Software grafisch zu durchblättern und relevante Webseiten wiederzugewinnen. Das Textverarbeitungs- und -wiedergewinnungssystem kann verwendet werden, um E-Mail-Nachrichten, Textdatenbanken, Webseiten und irgendwelche anderen Typen von Textdaten zu verarbeiten. Daher kann das System mannigfache verschiedene Typen von Textdaten verarbeiten.
  • Jeder der verschiedenen Typen von Textdaten, wie z.B. Webseiten, E-Mail, News und Firmeninformationen, hat andere Eigenschaften. Jede Webseite ist ein getrenntes Textstück, es gibt eine enorme Menge Text, die von den Webseiten behandelten Themen können ein breites Gebiet haben, und es gibt keine Sicherheit über die aus dem Web gesammelten Informationen. E-Mails andererseits sind aufgrund Antworten und dergleichen keine getrennten Datenstücke, haben aufgrund individueller Eigenarten verstreute Schwerpunkte und Themen, sind aber chronologisch organisiert. News enthalten tendenziell eine mäßige Zahl von Dokumenten, haben einen festen Schwerpunkt und sind chronologisch organisiert. Firmeninformationen sind typischerweise größere individuelle Dokumente und haben aufgrund der Qualitätskontrolle innerhalb einer Firma eher feste Schwerpunkte. Jeder dieser verschiedenen Typen von Textdaten hat Eigenschaften, die ihn einzigartig machen, aber all diese verschiedenen Typen von Textdaten können unter Verwendung einer Bottom-Up-Methode verarbeitet und durchsucht werden, bei der aus jedem Satz von Texten Gruppen gebildet werden und die grafischen Darstellungen der Gruppen, als Karten bekannt, als eine Schnittstelle zum Leiten eines Benutzers durch die Textdaten benutzt werden können. Szenarien, die Änderungen mit der Zeit in den Karten anzeigen, können ebenfalls aus jedem Typ von Textdaten erzeugt werden.
  • Das Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung kann auch vollständig innerhalb eines eigenständigen Computersystems angesiedelt sein. Zum Beispiel kann eine Firma eine große Datenbank von Textdaten besitzen, aus welchen zum Beispiel die Buchführungsabteilung Textdaten wiedergewinnen möchte. Das System in Übereinstimmung mit der Erfindung kann auch auf anderen Computersystemen betrieben werden. Typischerweise kann das System auf größeren Computersystemen betrieben werden, da die Textverarbeitung- und -wiedergewinnung in Übereinstimmung mit der Erfindung schnell ist und eine große Menge Textdaten leicht handhaben kann. Jetzt wird eine Architektur eines Systems zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung beschrieben.
  • 5 zeigt eine Architektur eines Textverarbeitungs- und -wiedergewinnungssystems 90 in Übereinstimmung mit der Erfindung. Ein Server 91 kann unter Verwendung von auf dem Server laufender Software eine Vielzahl von Textdatenstücken 92 verarbeiten, während ein Stück Client-Software 93, welche es einem Benutzer erlaubt, mit dem Server zu interagieren, es einem Benutzer erlauben kann, auf Basis von einer oder mehreren Auswahlen (Anforderungen) 94 die Textdaten grafisch zu durchblättern. Die innerhalb des Servers und der Client-Software gezeigten Elemente sind Funktions blockdiagramme, und die Funktionen, wie z.B. eine Indexiereinrichtung, können auf dem Server laufende Software sein, die den Prozessor innerhalb des Servers steuert. Die Funktionen können auch durch eine Hardware-Schaltung innerhalb des Servers realisiert werden, die die Funktionen durchführt.
  • Vor der Beschreibung der Details der Funktionseinheiten innerhalb des Systems wird eine Beschreibung des Gesamtbetriebs des Systems beschrieben. Anfänglich können eine Vielzahl von Textdatenstücken von ungleichartigen Orten wie z.B. dem Internet gesammelt werden. Als Nächstes werden diese Textdatenstücke verarbeitet, wie unten beschrieben, um eine Liste von Wendungen und Worten (das Lexikon) zu erzeugen, die den Inhalt der Textdatenstücke vermitteln. Normalerweise sind diese Wendungen und Worte Substantive, da Substantive im Allgemeinen die meisten Informationen über den Inhalt eines Textdatenstücks liefern. Die Verarbeitung der Textdaten kann stattfinden, bevor ein Benutzer versucht, Daten aus dem System wiederzugewinnen. Jedes Textdatenstück kann dann mit diesem Lexikon verglichen werden, um einen Index für jedes Textdatenstück zu erzeugen, das die Worte oder Wendungen enthält, die den Kontext oder Inhalt jedes Textdatenstücks vermitteln. Ein Benutzer kann dem System dann ein Filterwort zur Verfügung stellen, welches der Reihe nach Indizes eliminiert, die das Filterwort nicht enthalten. Als nächstes werden die restlichen Indizes als Gruppen miteinander gruppiert, wie unten beschrieben, so das Wendungen mit einem gewissen Grad an Zusammenhang miteinander gruppiert werden. Diese Gruppen und der Grad an Zusammenhang dieser Gruppen können für einen Benutzer des Systems grafisch als Karten angezeigt werden, und die Karten können eine hierarchische Struktur haben, so dass sich Gruppen mit verschiedenen Graden an Zusammenhang auf verschiedenen Karten befinden. Diese Karten können für den Benutzer angezeigt werden, der die Karten prüfen und sich durch die hierarchische Struktur der Karten bewegen kann, um die relevanten Gruppen ausfindig zu machen. Sobald der Benutzer eine oder mehrere angezeigte Gruppen gewählt hat, kann das System eine Zusammenfassung jedes Textdatenstücks anzeigen, das die ausgewählten Gruppen enthält. Das System reduziert die Textdaten auf die Indizes, erzeugt eine Vielzahl von Karten mit einer hierarchischen Struktur und zeigt die Informationen für den Benutzer zur Prüfung grafisch an, so dass der Benutzer Textdaten aus einer enormen Menge Textdaten wiedergewinnen kann, aber dennoch die tatsächlichen Textdaten betrachten kann. Das System kann außerdem in verschiedenen Zeitpunkten automatisch eine Karte erzeugen und die Kar ten unter Verwendung eines Wörterbuchs miteinander zu vergleichen, um Änderungen in den in den Karten gezeigten Zusammenhängen, als Szenarien bekannt, ausfindig zu machen und anzuzeigen. Jetzt werden die Details des Systems beschrieben.
  • Innerhalb des Servers 91 kann der Text 92 in eine Extrahiereinrichtung 96 eintreten, die den Text verarbeitet, wie unten beschrieben, und auf Basis der Textdaten ein Lexikon 100 erzeugt. Das Lexikon kann in einem Datenbankmanagementsystem (DBMS) 98 gespeichert werden. Ein Lexikon kann eine Liste von einer oder mehreren Wortgruppen sein, die aus dem Text extrahiert worden sind, wie unten unter Bezugnahme auf 9 beschrieben wird. Ein Wörterbuch 102 ist eine kompliziertere Datenstruktur, die mit einem Lexikon beginnt und den Wortgruppen Kennungen hinzufügt, welche jede Wortgruppe nach inhaltsbasierten Konzepten klassifiziert, wie zum Beispiel Akteuren, Funktionen und Themen. Das zur semiotischen Verarbeitung der Karten benutzte Wörterbuch wird unten unter Bezugnahme auf 10 beschrieben. Weder das Lexikon noch das Wörterbuch enthalten Worte oder Wendungen, die nicht zu einem Verständnis des Inhalts oder Kontextes der Textdaten beitragen, wie unten beschrieben.
  • Das Lexikon kann eine Liste von Wendungen sein, die den Inhalt der Textdaten vermitteln. Als ein Beispiel kann eine Webseite ein Tattoo anzeigen, das den folgenden Bildtext aufweist: "Von links nach rechts: Meine neueste Hinzufügung, die purpurnen Rosen – Februar 1995 -'Big John', Tinte und Eisen. Gelbe Rose und Herz. 'Schlange' Südwest Tattoo" und kann in Übereinstimmung mit der Erfindung daraus extrahierte Wendungen aufweisen, die genügend Kontext liefern, um den Inhalt der Textdaten zu bestimmen. Die extrahierten Wendungen können "neueste Hinzufügung", "purpurne Rosen", "Big John", "Gelbe Rose" und "Südwest Tattoo" sein. Diese Wendungen versorgen einen Leser mit genügend Informationen über die Textdaten, um den Inhalt der Webseite zu bestimmen.
  • Bei der Erzeugung des Lexikons sind Zweiwortwendungen, als Bigramme bekannt, wichtig. Bigramme sind wichtig, da sie das immanente Problem mit Sprache lösen können, wie oben beschrieben, dass ein einzelnes Wort mehrere Bedeutungen haben kann, je nach dem Kontext, in dem das Wort benutzt wird. Das oben zitierte Beispiel war, dass "Bank" eine Sparkasse oder eine Sitzbank sein kann und man allein auf Basis des Wortes Bank nicht bestimmen kann, welche. Als ein anderes Beispiel hat das Wort "Internet" einen unscharfen Umfang und kann mehrere verschiedene Kontexte haben, während das Bigramm "Internet Protokoll" es erlaubt, den Inhalt schnell zu bestimmen. Als ein anderes Beispiel kann das Wort "Stück" ein Stück Land oder ein Bühnenstück bedeuten. Die Bigramme "Stück Land" und "aufgeführtes Stück" können die Bedeutung des Wortes "Stück jedoch klären. Es gibt einige Einzelworte, die ebenfalls Inhalt vermitteln können, wie z.B. "Clinton". Das Lexikon wird unten detaillierter beschrieben.
  • Zurück zu 5, vergleicht eine Indexiereinheit 104 die Textdaten 92, die andere oder dieselben wie die zur Erzeugung des Lexikons benutzten Textdaten sein können, mit dem Lexikon 100, wie in 7 gezeigt und unten detaillierter beschrieben, und erzeugt einen Index 106 für jedes Textdatenstück. Der Index kann im DBMS 98 gespeichert werden und kann eine Liste von Wendungen in jedem Textdatenstück sein, die auch im Lexikon enthalten sind. Der Index kann in eine Gruppiereinheit 108 eingespeist werden, die Wendungen innerhalb der Indizes, die einen gewissen Grad an Zusammenhang miteinander haben, gruppieren kann, wie unten beschrieben, und Gruppen 110 erzeugen kann, die ebenfalls im DBMS 98 gespeichert werden können. Eine grafische Darstellung der Gruppen, wie unten beschrieben und in 1517 gezeigt, kann von einer Kartengeneratoreinheit 111 erzeugt werden. Die grafischen Darstellungen der Gruppen 112, als Karten bekannt, können im DBMS gespeichert werden und können zur Client-Software 93 heruntergeladen werden, so dass die Karten durch die Client-Software angezeigt werden. Es kann eine Vielzahl von Karten geben, die in einer hierarchischen Struktur organisiert sind, so dass sich Gruppen mit verschiedenen Graden an Zusammenhang auf verschiedenen Karten befinden. Der Benutzer kann dann die Karten betrachten und auf Basis der Auswahlen (Anforderungen) 94 des Benutzers durch die hierarchische Struktur navigieren, wie oben beschrieben, und kann eine oder mehrere Gruppen auswählen, die relevant erscheinen. Jede Gruppe kann einem oder mehreren Textstücken entsprechen. Der Server 91 kann dann Zusammenfassungen erzeugen, die die Abschnitte dieser Textstücke enthalten, die die ausgewählten Gruppen enthalten, und diese Zusammenfassungen 116 werden auf dem Client-Computer 93 angezeigt. Die Karten 112 können unter Verwendung des Wörterbuchs 102 semiotisch verarbeitet 118 werden, um ein Szenario 120 zu erzeugen. Das Szenario kann auf dem Client-Computer 93 angezeigt werden und kann Änderungen in den in den Karten angezeigten Zusammenhängen über eine Zeitspanne hinweg anzeigen. Unter Bezugnahme auf 6A und 6B wird jetzt ein Gesamtverfahren zur Verarbeitung und Wiedergewinnung von Textdaten beschrieben.
  • 6A ist ein Flussdiagramm, das ein Kartierungsverfahren 130 zur Verarbeitung und Wiedergewinnung von Textdaten unter Verwendung des Systems von 4 in Übereinstimmung mit der Erfindung darstellt. Zuerst können eine Vielzahl von Textdatenstücken von ungleichartigen Orten gesammelt und in der Datenbank gespeichert werden und können dann verarbeitet 132 werden, um ein Lexikon zu erzeugen, wie oben beschrieben. Die Verarbeitung kann Worte, als "Leerworte" bekannt, aus den Textdatenstücken entfernen, die keinerlei Inhalt zu den Textdaten beitragen. Zum Beispiel können Artikel wie z.B. "ein" und "der", Präpositionen und Verben, neben anderen Worten, entfernt werden, weil diese Leerworte die Textdaten mit keinerlei Inhalt versehen. Zum Beispiel sind die Inhaltsworte der Wendung "Präsident Clinton ging diesen Morgen mit Senator Bob Dole laufen" die Worte "Präsident Clinton", "laufen", "Morgen" und "Senator Bob Dole". Die Verarbeitung des Textes wird unter Bezugnahme auf 8 detaillierter beschrieben. Während der Textverarbeitung kann jedes Textdatenstück mit dem Lexikon verglichen werden und wird ein Index für jedes Textdatenstück erzeugt. Daher ist die Ausgabe der Verarbeitung ein Index für jedes Textdatenstück, der eine Liste der Wendungen enthält, die im Textdatenstück und im Lexikon auftauchen. Der Index ist eine Version eines Textdatenstücks, die nur Worte oder Wendungen enthält, die ein Verständnis des Inhalts des Textdatenstücks ermöglichen. Im Schritt 134 können die Indizes gruppiert werden, wobei Wendungen, die häufiger zusammen als getrennt auftauchen, miteinander verbunden werden, wie unten beschrieben. Daher weist jedes Textdatenstück eine oder mehrere damit verbundene Wendungsgruppen auf.
  • Die Verarbeitung kann vorzugsweise zu einem Zeitpunkt stattfinden, bevor irgendein Benutzer irgendwelche Textdaten aus dem System wiederzugewinnen versucht, so dass eine Suche des Benutzers durch den Verarbeitungsschritt nicht verzögert wird, kann aber auch während der Wiedergewinnung stattfinden. Der Rest der Schritte kann in Echtzeit stattfinden, wenn der Benutzer Textdaten wiederzugewinnen versucht. Die erzeugten Gruppen können im Server gespeichert werden und können im Schritt 136 auf Basis eines von einem Benutzer eingegebenen breiten Filterworts, das den Typ von Informationen, an denen der Benutzer interessiert ist, allgemein beschreibt, zu erzeug ten gefilterten Indizes gefiltert werden. Dieses breite Filterwort ist keine Schlüsselwortfrage, sondern ist ein kontextbasierter Filter, angewandt auf die Indizes, um die Datenmenge zu reduzieren, die der Benutzer durchblättern muss. Das breite Filterwort kann die Textdatenmenge auch durch Einschränken der Textdaten auf Basis von zum Beispiel Datum, Ursprung, einschränken. Daher können die Textdaten auf Basis von mehreren verschiedenen Kriterien gefiltert werden. Zum Beispiel, wenn der Benutzer nach Artikeln über Flugzeugfirmenmanager sucht, kann das breite Filterwort "Flugzeug" oder "Luftfahrzeug" sein. Im Schritt 138 benutzt der Server die gefilterten Indizes oder Gruppen von Worten oder Wendungen, wie unten beschrieben, und verbindet die Gruppen miteinander zu einer oder mehreren grafischen Karten, wie in 1517 gezeigt. Diese Textverarbeitungsschritte erlauben es dem Benutzer des Systems, die tatsächlichen Worte und Wortgruppen in den Textdaten zu betrachten und die Wortgruppen zu durchblättern, um die gewünschten Informationen ausfindig zu machen. Diese Textverarbeitungsschritte sind Teil der Bottom-Up-Methode des Systems in Übereinstimmung mit der Erfindung. Es wird nun ein Überblick über das Verfahren zur Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung beschrieben.
  • Die folgenden Schritte beschreiben, wie ein Benutzer Textdaten wiedergewinnt, und erzeugen Szenarien in Übereinstimmung mit der Erfindung. Diese Wiedergewinnungsschritte erlauben es einem Benutzer, die grafisch angezeigten Gruppen schnell zu durchsuchen und die relevanten Textdatenstücke ausfindig zu machen. Zuerst, im Schritt 140, werden die vorher erzeugten Karten durch die Client-Software angezeigt, damit sie der Benutzer betrachten kann. Die Karten, wie unten beschrieben und in 1517 gezeigt, können außerdem Verknüpfungen mit anderen Karten aufweisen, die detailliertere Gruppen aufweisen können. Die Karten können semiotisch verarbeitet 141 werden, um Szenarien zu erzeugen, wie unten unter Bezugnahme auf 6B beschrieben. Im Schritt 142 kann der Benutzer eine oder mehrere Gruppen aus den Karten auswählen, und das System wird im Schritt 143 die Zusammenfassungen der Textstücke in der Datenbank anzeigen, die die eine oder mehreren vom Benutzer ausgewählten Gruppen enthalten. Im Schritt 144 kann der Benutzer wählen, eine andere Suche durchzuführen. In Übereinstimmung mit der Erfindung kann die zusätzliche Suche von irgendeinem Punkt gestartet werden, so dass das Verfahren zum Schritt 136 oder 140 zurückkehren kann, je nachdem, ob der Benutzer die zusätzliche Suche starten möchte. Sind keine zusätzlichen Suchen erforderlich, endet das Verfahren. Die Details der Textverarbeitungsschritte, die ein Teil des in 6A gezeigten Gesamtverfahrens sind, werden nun unter Bezugnahme auf 7 und 8 beschrieben.
  • 6B ist ein Flussdiagramm eines Musterungsverfahrens 145, das Teil des Gesamtverfahrens ist und mit dem Kartierungsverfahren kombiniert werden kann. Im Schritt 146 kann auf Basis des Lexikons ein Wörterbuch erzeugt werden. Die Details des Wörterbuchs werden mit Bezug auf 10 beschrieben, worin Worte und Wendungen im Lexikon damit verbundene Kennungen aufweisen, die anzeigen, ob das Wort oder die Wendung zum Beispiel ein Akteur, eine Funktion oder ein Thema ist. Als Nächstes, im Schritt 147, können die Gruppen auf den ein oder mehr Karten unter Verwendung des Wörterbuchs verarbeitet werden, um im Schritt 148 ein Szenario zu erzeugen. Die Karten können in verschiedenen Zeitpunkten (z.B. einmal pro Woche) erzeugt werden, und die Verarbeitung erkennt Änderungen in den Zusammenhängen der Gruppen auf den Karten, als das Szenario bekannt. Zum Beispiel kann eine Vielzahl von Karten mit Schwerpunkt auf einer Firma X verarbeitet werden, um ein Szenario zu erzeugen, welches anzeigt, dass ein Angestellter in Schlüsselposition die Firma X mit einer Technologie verlassen hat. Dieser Typ von Szenario kann für eine andere Firma wertvoll sein, die mit der Firma X im Wettbewerb steht oder erwägt, die Firma X zu erwerben.
  • Die semiotische Verarbeitung unter Verwendung des Wörterbuchs reduziert die Informationen in den Karten auf ein leicht zu prüfendes Format von drei Grundtypen von Informationen: 1) wer steht im Text (Person); 2) was macht die Person (Funktion); und 3) was ist der Kontext (Thema). Durch Mustern der Karten kann daher bestimmt werden, dass zum Beispiel eine Firma in einer gewöhnlichen Industrie jetzt in eine neue Industrie eingetreten ist.
  • Die semiotische Verarbeitung unter Verwendung des Wörterbuchs konzentriert sich auf die Erstellung von Geschichten (wer, was, Kontext) auf Basis der Karten, so dass ein Benutzer ein Textstück leicht prüfen kann. Zum Beispiel kann ein langer Artikel über eine Person in Verbindung mit zwei getrennten Firmen auf die Person und ihre Beziehungen zu beiden Firmen reduziert werden. Die semiotische Verarbeitung kann auch sich ändernde Beziehungen erkennen. Jetzt wird ein Verfahren zur Erzeugung einer Karte beschrieben.
  • 7 zeigt schematisch ein Verfahren 150 zum Ausbilden einer Karte in Übereinstimmung mit der Erfindung. Ein Lexikon 152 und ein Textstück 154 werden miteinander verglichen. Eine Schnittmenge 155 der Wendungen in den Textdaten und in der semiotischen Datenstruktur kann als ein Index gespeichert werden. Die Indizes für eine Vielzahl der Textdaten können dann gruppiert werden, wie unten beschrieben, und in eine Karte 156 umgewandelt werden. Die Karte kann eine Vielzahl von Knoten 157, die in den Indizes enthaltene Wendungen repräsentieren, und eine Vielzahl von Verknüpfungen 158 aufweisen, die die miteinander gruppierten Knoten miteinander verknüpfen.
  • 8 ist ein Flussdiagramm, das ein Verfahren 160 zur Textverarbeitung in Übereinstimmung mit der Erfindung zeigt, das ein Teil des in 6A gezeigten Gesamtverfahrens ist. Diese Textverarbeitungsschritte können in einem beliebigen Zeitpunkt durchgeführt werden, werden vorzugsweise aber immer dann durchgeführt, wenn Textdaten im Server aktualisiert oder hinzugefügt werden, so dass die Textverarbeitung nicht stattfindet, während der Benutzer Textdaten wiederzugewinnen versucht. In einem ersten Schritt 162 werden eine Vielzahl von Textstücken, die Dokumente, Webseiten, E-Mail-Nachrichten oder News-Einlieferungen oder eine Kombination all dieser sein können, miteinander gesammelt und im System gespeichert. Im Internet-Kontext können diese Textstücke durch eine auf dem Server laufende Textsammel-Softwareanwendung gesammelt werden, als Roboter bekannt, und können von einer Vielzahl von getrennten Orten auf einem Großraumnetz wie z.B. dem Internet stammen. Für das Intranet-System können sich die Textstücke schon in einer Datenbank oder in einem Computer befinden, der alle E-Mail-Nachrichten für die Firma speichert. Sobald die Textstücke gesammelt worden sind, kann im Schritt 164 ein Lexikon aus den gesammelten Textstücken extrahiert werden. Das Lexikon wird unter Bezugnahme auf 9 beschrieben. Die Textverarbeitung filtert alle Textdatenstücke, entfernt Leerworte, die zum Kontext der Textstücke nicht beitragen, wie z.B. Stoppworte wie "ein", "der", "bei", und behält nur Wendungen zurück, die tendenziell den Inhalt des bestimmten Textstückes vermitteln. Im Allgemeinen enthalten diese Wendungen zwei bis sechs Worte. Daher ist die Ausgabe ein Lexikon, das eine Liste von Wendungen sein kann, die als wertvoll angesehen werden zu Zwecken der Reduktion jedes Textstücks auf die wesentlichen Wortgruppen, die den Inhalt des Textstücks vermitteln. Die Erzeugung des Lexikons kann kontinuierlich stattfinden, sogar während gerade Indizes erzeugt werden, so dass, wenn zusätzliche Textstücke gesammelt und analysiert werden, Worte zum Lexikon hinzugefügt und dann indexiert werden können.
  • Wenn das Lexikon gerade erzeugt wird oder nachdem das Lexikon erzeugt worden ist, kann jedes Textstück im Schritt 168 mit dem Lexikon verglichen werden, um im Schritt 169 einen Index zu erzeugen. Der Index kann eine Liste von Wendungen (zwei oder mehr Worte) oder Worte enthalten, die sowohl in dem Textdatenstück als auch dem Lexikon auftauchen. Daher enthält der Index für jedes Textdatenstück die Liste von Worten oder Wendungen, die den Inhalt und/oder den Kontext jedes Textdatenstücks vermitteln. Den Index kann man sich als eine reduzierte Version jedes Textstücks vorstellen, da alle Leerworte entfernt werden und nur die restlichen Kontextworte in jedem Textstücks gespeichert werden. Die Leerworte können in einer Stoppliste, wie unten beschrieben, zusammen mit Satzzeichen enthalten sein. Diese Leerworte fügen dem Text keinen Kontext hinzu und können entfernt werden, indem jedes Textdatenstück mit der Stoppliste verglichen wird und die Stopplistenworte entfernt werden. Sobald jedes Textstück indexiert worden ist können einige der Indizes verwendet werden, wie oben beschrieben, um Gruppen und Karten dieser Gruppen zu erzeugen, so dass ein Benutzer relevante Textstücke in einer großen Menge Textdaten ausfindig machen und daraus wiedergewinnen kann, ohne auf eine Schlüsselwortsuche zurückgreifen zu müssen. Jetzt wird ein Verfahren zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung beschrieben.
  • 9 ist ein Flussdiagramm eines Verfahrens 170 zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung. Wie oben beschrieben, kann das Lexikon eine Liste von Wendungen sein, wobei jede Wendung vorzugsweise aus zwei bis sechs Worten besteht, die einem Textstück die größte Menge Kontext verleihen. Das Lexikon kann auch aus individuellen Worten bestehen. Sobald die Textstücke gesammelt worden sind, kann eine Folge von drei Verarbeitungsschritten durchgeführt werden, um bestimmte vordefinierte Elemente aus den Textdaten zu entfernen. Diese Verarbeitungsschritte können zum Beispiel Extraktion von Eigennamen und Gattungsnamen, Extraktion von wiederholten Segmenten und Syntaxanalyse umfassen, wie in den Schritten 172, 174 und 176 gezeigt. Jeder dieser Verarbeitungsschritte, welche unten beschrieben werden, kann in einem einzelnen Durchgang durch die Textstücke stattfinden, jeder durch ein anderes auf dem Server laufendes Stück Software, die bestimmte Worte oder Gruppen von Worten aus den Textdaten extrahiert, jeder Schritt wird aber getrennt beschrieben. Zum Verständnis dieser Verarbeitungsschritte muss man verstehen, dass das System in Übereinstimmung mit der Erfindung eine Liste von Stoppworten aufweisen kann, die im System gespeichert sind. Die Stoppliste wurde oben unter Bezugnahme auf 6A beschrieben. Vor irgendeinem der unten beschriebenen Verarbeitungsschritte können alle in der Stoppliste enthaltenen Worte aus jedem Textdatenstück entfernt werden.
  • Im Schritt 172 zur Extraktion von Eigennamen und Gattungsnamen werden Eigennamen und Gattungsnamen identifiziert und aus jedem Textstück extrahiert. Zur Extraktion der Eigennamen wird der Text analysiert, und Worte mit groß geschriebenen ersten Buchstaben werden extrahiert, wie z.B. "Bill Clinton". Die extrahierten Worte werden als Eigennamen angenommen und können auf Basis von einfachen empirischen Regeln gefiltert werden, um schlagwortartige Sequenzen zu vermeiden. Um die Eigennamen zu extrahieren, wird der Text analysiert, wobei alle Stopplistenworte, alle Satzzeichen und alle Infinitiv-Verben ignoriert werden. Irgendwelche restlichen Wendungen mit mindestens zwei Worten, welche als Bigramme bekannt sind, werden als Gattungsnamen angenommen und in das Lexikon gesetzt. Als ein Beispiel werden ein kurzer Absatz und die in Übereinstimmung mit der Erfindung daraus extrahierten Gattungsnamen-Wendungen gezeigt. Der Absatz kann sein:
    "Wie in der thematischen Zusammenfassung erwähnt, berücksichtigt Designer keine Platzierung von Dimensionen gegen Merkmale, welche als theoretische Darstellungen angesehen werden könnten. Beispiele umfassen Profil oder Silhouette, Umrisse von Zylindern und anderen gekrümmten Teilen, wo die darstellende Geometrie direkt vom aktuellen Standpunkt abhängt."
  • Ersetzen wir alle zu der Stoppliste gehörenden Worte durch einen Schrägstrich, alle Brüche (wie z.B. Leerzeichen und Satzzeichen) durch einen Bindestrich und alle Infinitiv-Verben durch einen Sprung (">"), können drei Bigramme extrahiert werden, wie unten dargelegt. Nach der Verarbeitung sieht der Absatz aus wie:
    - / / / thematischen Zusammenfassung – erwähnt – > Designer / Platzierung / / / / – / / theoretische Darstellungen > / > – Beispiele > / / / – / / / / / Zylindern / / gekrümmten / – / / darstellende Geometrie / / aktuellen Standpunkt – abhängt – –
  • Wie man sieht, ist der Absatz wesentlich reduziert worden, und es können die folgenden Gattungsname-Bigramme extrahiert werden: "thematischen Zusammenfassung", "theoretische Darstellungen", "darstellende Geometrie" und aktuellen Standpunkt". Außerdem kann "Designer" als Eigenname extrahiert werden. Jetzt wird die Extraktion von wiederholten Segmenten beschrieben.
  • Im Schritt 174 der Extraktion von wiederholten Segmenten können Wendungen oder Sequenzen aus zwei bis sechs Worten in jedem Textstück ausfindig gemacht werden, indem die Stoppliste und irgendwelche anderen Leerworte herausgefiltert werden, wie oben beschrieben. Bei der Extraktion von wiederholten Segmenten werden Segmente von Worten, welche wiederholt werden, erkannt, um ihren idiomatischen Wert zu erfassen, und können extrahiert werden. Typischerweise sind die am häufigsten wiederholten Wortgruppen Zweiwort-Wendungen, als Bigramme bekannt. Irgendwelche wiederholten Wendungen können in das Lexikon aufgenommen werden. Die besten Wendungen zu Zwecken der Erzeugung des Lexikons enthalten gewöhnlich zwei oder drei Worte. Irgendwelche dieser Wendungen oder Sequenzen, die wiederholt werden, werden im Lexikon gespeichert. Es wird nun ein Beispiel für die Extraktion von wiederholten Segmenten beschrieben. In einer großen Zahl von neuen Geschichten gab es 37.976 Segmente, doch waren über 25.000 der wiederholten Segmente Bigramme, welche "in dem" "von den" und "auf dem" umfassten, welche herausgefiltert werden können, da sie Stoppworte enthalten. Die wiederholten Segmente können neben den anderen Bigrammen aber auch die Bigramme "Betriebs-System", "Festplatten-Laufwerk", "CD-Rom-Laufwerk" und "Home-Page" enthalten. Diese Bigramme können in der semiotischen Datenstruktur gespeichert werden, da sie keine Stoppworte enthalten und zum Verständnis eines Textstücks beitragen.
  • Der Syntaxanalyseschritt 176 kann für das Intranet-System verwendet werden, wie oben beschrieben, ist aber normalerweise nicht für den Internet-Kontext zweckmäßig, da das Volumen von Textinformationen im Internet-Kontext zu groß ist, um effiziente, zeitige Syntaxanalyse zu erlauben. Der Syntaxanalysator kann jedes Textstück analysieren und jedes Wort nach seiner Wortart, wie zum Beispiel ein Substantiv, ein Verb, ein Adjektiv oder ein Adverb, kategorisieren. Zur Durchführung dieser Analyse kann das System eine Vielzahl von Schablonen aufweisen, die eine Liste der Wortarten oder Kombination der Wortarten enthalten kann, die dem Lexikon hinzuzufügen sind. Zum Beispiel kann eine Schablone anzeigen, dass alle Verb-Verb-Kombinationen nicht im Lexikon zu speichern sind. In Übereinstimmung mit der Erfindung vermeiden diese Schablonen Verb-Wendungen und konzentrieren sich auf Substantiv-Wendungen. Wie oben beschrieben, fügt eine Verb-Wendung in einem Satz, wie z.B. "könnte gehen" in dem Satz "Bill Clinton könnte nach Asien gehen", einem Satz keinerlei Kontext hinzu. Die Kontextworte in dem Satz sind "Bill Clinton" und "Asien", welche Substantiv-Wendungen sind. Diese Schablonen und die Syntaxanalyse helfen, unerwünschte Wendungen und Worte noch mehr aus den Textstücken herauszufiltern.
  • Wie oben beschrieben, findet die Erzeugung der semiotischen Datenstruktur konstant statt, so dass, wenn zusätzliche Textdatenstücke gesammelt werden, die semiotische Datenstruktur aktualisiert wird, so dass sie irgendwelche Wendungen aus diesen neuen Textdatenstücken enthält. Daher wird die semiotische Datenstruktur konstant aufgebaut und immer dann verbessert, wenn irgendwelche neuen Textdatenstücke ausfindig gemacht werden. Im Laufe der Zeit wird die semiotische Datenstruktur daher klüger beim Entfernen von unerwünschten Wendungen und kann tatsächlich auf einen bestimmten Benutzer trainiert werden. Zum Beispiel kann eine Flugzeugfirma, die die Erfindung installiert hat, anfänglich die semiotische Datenstruktur unter Verwendung von Flugzeugartikeln erzeugen, so dass hauptsächlich flugzeugbezogene Wendungen in der semiotischen Datenstruktur gespeichert werden. Werden dem System andere Dokumente hinzugefügt, werden daher hauptsächlich flugzeugbezogene Wendungen extrahiert. Jetzt wird ein Verfahren zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung beschrieben.
  • 10 ist ein Flussdiagramm, das ein Verfahren 180 zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung zeigt. Das Verfahren zur Erzeugung des Wörterbuchs beginnt im Schritt 182 mit Erzeugung eines Lexikons, wie oben beschrieben, da ein Wörterbuch auf einem Lexikon basiert. Das Wörterbuch ist ein Lexikon, das eher inhaltsbasiert ist, wie unten beschrieben. Das Lexikon kann im Schritt 184 nach verschiedenen inhaltsbasierten Kategorien analysiert werden, und im Schritt 186 können für jede Wendung im Lexikon inhaltsbasierte Kategorien erzeugt werden. Um das Lexikon nach inhaltsbasierten Kategorien zu analysieren, kann jede der Wendungen oder Wortgruppen im Lexikon zum Beispiel nach "ein Akteur", "eine Funktion" oder "ein Thema" kategorisiert werden. Ein Akteur kann eine Person sein, ein Thema kann irgendeine Art von Aktivität oder physischem Objekt sein, und eine Funktion ist irgendetwas, das den Akteur oder das Thema detaillierter beschreibt. Zum Beispiel kann die Wendung "Bill Clinton unterzeichnete eine Abmachung in Bezug auf ein Joint-Venture zwischen Firmen für einen neuen Personal-Computer" auf die folgende Weise kategorisiert werden. "Bill Clinton" ist ein Akteur, "unterzeichnete eine Abmachung" und "Joint-Venture" können Funktionen sein, und "Personal-Computer" kann ein Thema sein. Themen sind schwieriger zu definieren, da es eine große Zahl von verschiedenen Klassen und Teilklassen geben kann, doch kann man eine allgemeine Datenquelle verwendet, wie z.B. den Thesaurus von Roget, um die verschiedenen Themenklassen zu erzeugen, die man verwenden will, um die Wendungen im Lexikon zu klassifizieren. Die Ausgabe des inhaltsbasierten Kategorieanalysators ist ein Wörterbuch, wobei jede Wendung oder Wortgruppe im Lexikon einer oder mehreren inhaltsbasierten Kategoriekennungen zugeordnet ist. Zum Beispiel kann die Wendung "super Wetter" eine primäre Themenkennung (d. h. "Wetter" und eine sekundäre Kennung, die eine Funktion sein kann (d. h. "super"), aufweisen. Daher kann das Wörterbuch das Lexikon benutzen, verfeinert das Lexikon aber dann durch Hinzufügen der inhaltsbasierten Kategorien der Wendungen im Lexikon, wie z.B. ein Akteur, eine Funktion oder ein Thema. Wie oben beschrieben, kann entweder das Lexikon oder das Wörterbuch vom System benutzt werden, um den gesammelten Text zu verarbeiten. Jetzt wird ein Verfahren zur Konstruktion einer Gruppe und Karte in Übereinstimmung mit der Erfindung beschrieben.
  • 11 ist ein Flussdiagramm eines Verfahrens 190 zur Erzeugung einer Gruppe und einer Karte der Gruppe in Übereinstimmung mit der Erfindung. Im Schritt 192 können die Indizes aller Textdatenstücke gesammelt werden, die das vom Benutzer ausgewählte breite Filterwort enthalten. In den Schritten 194198 können die Indizes gruppiert werden, wie unten beschrieben. Die Eingabe in das Gruppierungssystem ist eine Vielzahl von Indizes für jedes Textstück. Die Wendungen, die häufig miteinander in Beziehung stehend gefunden werden, werden gruppiert. Der benutzte Gruppierungsalgorithmus kann einer von einer bekannten Zahl von Gruppierungsalgorithmen sein, wie z.B. der von Dr. Bertrand Michelet geschaffene Algorithmus. Das Grundprinzip des Algorithmus von Dr. Bertrand Michelet ist, das für zwei gegebene Worte die Wahrscheinlichkeit, dass die Worte voneinander getrennt sind, und die Wahrscheinlichkeit, dass die Worte zusammen gefunden werden, beide berechnet werden. Ist die Wahrscheinlichkeit, dass die Worte zusammen gefunden werden, größer als die Wahrscheinlichkeit, dass die Worte voneinander getrennt gefunden werden, werden die Worte miteinander gruppiert.
  • Sobald die Wendungen miteinander gruppiert worden sind, werden die gruppierten Wendungen für sämtliche Textdatenstücke in eine grafische Karte umgewandelt, und Beispiele dafür sind in 12 und 1517 gezeigt. Die Karte enthält grafische Darstellungen der Wortgruppen und außerdem Linien, die einen Zusammenhang der Wortgruppen miteinander anzeigen. Da die Gruppen verschiedene Grade an Zusammenhang aufweisen, kann es eine Vielzahl von Karten geben, in einer hierarchischen Struktur organisiert, so dass sich Gruppen mit demselben Grad an Zusammenhang normalerweise auf derselben Karte befinden. Die Karte kann außerdem ein System zum Verbinden von Karten miteinander aufweisen, wie unten beschrieben. Im Schritt 194 werden durchgezogene Linien, wie in 1517 gezeigt, zwischen Wortgruppen ausgebildet, um einen Zusammenhang zwischen den Wortgruppen anzuzeigen. Im Schritt 196 kann jede Karte außerdem eine Wortgruppe aufweisen, die als Verknüpfung mit anderen Karten wirken kann. Zum Beispiel kann die Wortgruppe eine anklickbare Schaltfläche sein, die den Benutzer zu der Karte bringt, die mit der Verknüpfung verbunden ist, wie in 16 gezeigt. In Übereinstimmung mit der Erfindung kann es daher eine Hierarchie von Karten geben, die in Beziehung stehende, aber verschiedene Wortgruppen abbilden.
  • Wie in 1517 gezeigt können auf Basis der obigen Gruppierung die Zusammenhänge der Wendungen grafisch als eine Karte abgebildet werden. Zwecks Kartierung der Gruppen enthält eine Karte einer ersten, höchsten Ebene, die als Metakarte bekannt sein kann, das Filterwort des Benutzers und einige der nahestehendsten Wendungen. Zum Beispiel kann die Metakarte insgesamt fünfzehn Wendungen zeigen, die miteinander verknüpft sind, um das Wirrwarr auf dem Bildschirm möglichst klein zu machen. Die Zahl der auf jeder Karte gezeigten Gruppen kann reduziert werden, um die Klarheit zu erhöhen. Die Karte erlaubt es einem Benutzer, sich schnell und leicht ein Bild von den Mustern von Worten und Wendungen in den Textstücken zu machen, so dass der Benutzer bestimmen kann, welche die für die Zwecke seiner Suche relevantesten Wendungen sind.
  • 12 zeigt ein einfaches Beispiel für die Kartierung von Worten in zwei verschiedenen Textstücken auf einer einzelnen Karte. Ein komplizierteres Beispiel wird unten unter Bezugnahme auf 1518 beschrieben. Ein erstes Textstück 200 weist Wendungen A und B im Text auf, während ein zweites Textstück 202 Wendungen C und D im Text aufweist. Für die Zwecke dieses Beispiels nehme man an, dass das Lexikon oder Wörterbuch mindestens A, B und C enthält. Aus diesen zwei Textstücken, die sich an getrennten Orten befinden können, kann eine Karte 204 erzeugt werden. Die Karte kann eine erste Verknüpfung 206 zwischen A und B und eine zweite Verknüpfung 208 zwischen A und C aufweisen. Diese Verknüpfungen bilden grafisch ab, dass A und B in Beziehung stehen und A und C in Beziehung stehen, dass aber B und C keine Beziehung zueinander haben. Jetzt wird ein Verfahren zur Wiedergewinnung von Text unter Verwendung einer Karte in Übereinstimmung mit der Erfindung beschrieben.
  • 13 ist ein Flussdiagramm eines Verfahrens 220 zur Wiedergewinnung von Text in Übereinstimmung mit der Erfindung. Das Verfahren ist Teil des in 6A gezeigten Gesamtverfahrens. Im Schritt 222 kann eine Karte höchster Ebene, die als die Metakarte bekannt sein kann, für den Benutzer angezeigt werden. Die Metakarte kann das vom Benutzer des Systems ausgewählte Filterwort und irgendwelche Wortgruppen enthalten, die eng mit dem Filterwort in Beziehung stehen. Ein Beispiel für eine Metakarte ist in 14 gezeigt und wird unten beschrieben. Im Schritt 224 kann ein Benutzer unter Verwendung der oben beschriebenen und wie in 16 gezeigten anklickbaren Schaltflächen wählen, zu einer tieferen Ebene der Karte zu wechseln. Wenn nicht, so kann der Benutzer im Schritt 226 irgendwelche relevanten Gruppen in der Metakarte auswählen, und im Schritt 228 zeigt das System auf Basis der ausgewählten Gruppen Extrakte der Textstücke an, die die ausgewählten Gruppen enthalten, wie in 18 gezeigt.
  • Wenn der Benutzer eine Karte tieferer Ebene auswählen möchte, so wechselt das System im Schritt 230 zu der Karte tieferer Ebene, als Zoomen bekannt. Der Benutzer kann weiterzoomen, bis die passende Karte angezeigt wird. Sodann, im Schritt 232, wählt der Benutzer die relevanten Gruppen aus, und im Schritt 228 werden Extrakte aus den Textstücken, die diese Gruppen enthalten, angezeigt. Im Schritt 234 kann ein Benutzer wählen, zusätzliche Suchen durchzuführen. Sollen mehr Suchen durchgeführt werden, schleift das Verfahren zurück zum Schritt 222 und beginnt erneut. Andernfalls endet das Verfahren.
  • Der Zoomprozess in Übereinstimmung mit der Erfindung kann auf mehreren Ebenen stattfinden. Zum Beispiel kann eine breite Karte das ganze World Wide Web auflisten, während eine Karte tieferer Ebene, zu der gezoomt werden kann, Gruppen enthalten kann, die mit einer bestimmten Website in Beziehung stehen, während eine Karte noch tieferer Ebene Gruppen enthalten kann, die mit einer individuellen Webseite in Beziehung stehen, und die Karte tiefster Ebene kann Gruppen enthalten, die mit einem Absatz auf einer Webseite in Beziehung stehen können. In einem anderen Beispiel kann eine Karte hoher Ebene Gruppen auflisten, die eine hohe Zahl von Malen auftreten, während die Karte tiefster Ebene Gruppen auflisten kann, die einmal auftauchen. Daher kann ein Benutzer die Detailebene wählen, die er prüfen möchte, und schnell von irgendeiner Ebene zu irgendeiner anderen Ebene wechseln. Jetzt wird ein Beispiel für eine Metakarte und mehrere Karten tieferer Ebene beschrieben.
  • 14 ist eine Skizze, die ein Beispiel für eine Metakarte 240 zeigt, die eine erste Gruppe 242, eine zweite Gruppe 244 und eine dritte Gruppe 246 aufweisen kann, die miteinander in Beziehung stehen. Diese Gruppen stehen miteinander in Beziehung, da diese Gruppen in einem Textdatenstück nahe beieinander auftauchen. Jede dieser Gruppen höchster Ebene kann auch zu einer Karte tieferer Ebene gehören. Zum Beispiel gehört die erste Gruppe 242 zu einer Karte B1 248, die auch andere Gruppen enthält, die mit der ersten Gruppe in Beziehung stehen, aber nicht mit den Gruppen in der Metakarte in Beziehung stehen. Ähnlich gehört die zweite Gruppe 244 zu einer Karte B2 250, die auch andere Gruppen enthält, die damit in Beziehung stehen. Ähnlich gehört die dritte Gruppe 246 auch zu einer Karte B3 252, die auch andere Gruppen enthält, die mit der dritten Gruppe 246 in Beziehung stehen, aber nicht mit den auf der Metakarte angezeigten Gruppen in Beziehung stehen. Wenn der Benutzer zu einer Karte tieferer Ebene wechselt, können mehr Details der Gruppen gezeigt werden. Die Metakarte und Karten tieferer Ebenen und die hierarchische Struktur erlauben es einem Benutzer, durch eine größere Datenmenge zu navigieren, da die auf dem Bildschirm angezeigte Datenmenge begrenzt ist. Jetzt wird ein Beispiel für den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung beschrieben.
  • 1518 zeigen ein Beispiel für den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung. In diesem Beispiel wurde ein einzelnes Textdatenstück benutzt, das die Dokumentation für eine populäre E-Mail-Anwendung war. Die Dokumentation wurde unter Verwendung des Systems verarbeitet, wie oben beschrieben, um zuerst eine semiotische Datenstruktur zu erzeugen, die eine Liste von Worten oder Wendungen enthält, die den Inhalt oder Kontext der Dokumentation vermitteln, und danach kann ein Index der Dokumentation erzeugt werden, indem die Dokumentation mit der semiotischen Datenstruktur verglichen wird. Der Index enthält eine Liste von Worten, die sowohl in der semiotischen Datenstruktur als auch in der Dokumentation enthalten sind, und da in diesem Beispiel ein einzelnes Textdatenstück verwendet wurde, sind die semiotische Datenstruktur und der Index identisch. Der Index vermittelt den Inhalt oder Kontext der Dokumentation und kann eine strukturierte Zusammenfassung der Dokumentation sein. Die Worte oder Wendungen des Index können dann auf Basis des Grades an Zusammenhang der Worte oder Wendungen miteinander gruppiert werden, wie oben beschrieben, um Gruppen zu erzeugen. Aus diesen Gruppen kann eine grafische Karte erzeugt werden, wobei die Karte eine Vielzahl von Knoten, die jeweils eine Gruppe enthalten, und eine Vielzahl von Verknüpfungen umfassen kann, die Knoten verbinden, die miteinander in Beziehung stehen. Es wurde eine in 15 gezeigte Metakarte 260 höchster Ebene erzeugt, die einen Knoten 262, der das Filterwort des Benutzers enthält, wie z.B. "Dokument", und eine Vielzahl von anderen Knoten 264, 266 anzeigt, die mit dem Filterwort in Beziehung stehen. Die Metakarte kann außerdem Gruppen enthalten, die sowohl Gruppen in der Metakarte als auch Verknüpfungen mit einer Karte tieferer Ebene sind. Zum Beispiel kann die Gruppe 266 die Wendung "Appledouble" enthalten. Wie in 16 gezeigt, wenn ein Benutzer die Gruppe 266 "Appledouble" anklickt, kann eine Karte 270 tieferer Ebene angezeigt werden, die die Gruppe 266 "Appledouble" enthält. Die Karte tieferer Ebene kann außerdem Gruppen enthalten, die mit der Wendung "Appledouble" in Beziehung stehen, aber nicht mit den in der Metakarte 260 gezeigten Gruppen in Beziehung stehen. Um zu der Metakarte zurückkehren zu können, kann die Karte tieferer Ebene außerdem den Knoten 262 "Dokument" enthalten. Daher sind die Gruppen auf eine hierarchische Weise organisiert, so dass in jedem Zeitpunkt eine begrenzte Menge Gruppen auf dem Bildschirm gezeigt werden. Auf diese Weise kann sich der Benutzer auf eine schnelle Weise durch alle Karten bewegen und die relevanten Gruppen ausfindig machen.
  • Sobald der Benutzer die passende Karte ausfindig gemacht hat, wie in 17 gezeigt, kann der Benutzer eine oder mehrere Gruppen auswählen, die die relevanten Wendungen zu enthalten scheinen. In diesem Beispiel kann der Benutzer die folgenden Gruppen auswählen: 1) Bin-Hex; 2) Format; 3) frühere Version von Eudora; und 4) alter Macintosh-Mailer. Das System verwendet dann diese ausgewählten Gruppen, um Textdatenstücke zu extrahieren, die die ausgewählten Gruppen enthalten. In diesem Beispiel, wie in 18 gezeigt, werden zwei verschiedene Extrakte angezeigt, welche es dem Benutzer zu bestimmen erlauben, ob die Dokumente relevant sind, ohne die gesamten Dokumente betrachten zu müssen. Nach dem Betrachten der Extrakte kann der Benutzer zu einer der Karten in der Hierarchie zurückkehren und fortfahren, andere Gruppen zu durchblättern.
  • Zusammengefasst liefert das System und Verfahren zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung eine effiziente Methode, eine große Menge Textdaten zu durchsuchen, ohne eine Schlüsselwortsuche zu benutzen. Das System erzeugt zuerst ein Lexikon, das irgendwelche Worte entfernen kann, die die Textdaten mit keinerlei Inhalt versehen, und nur Worte oder Wendungen zurückbehält, die von einem Benutzer benutzt werden können, um den Inhalt eines Stücks Textdaten zu bestimmen. Wendungen und Bigramme liefern häufig die nützlichsten Informationen, um den Inhalt eines Textdatenstücks zu bestimmen. Das inhaltsbasierte Lexikon kann mit jedem Textdatenstück verglichen werden, um für jedes Textdatenstück einen Index zu erzeugen, der nur inhaltsbasierte Wendungen enthält, die die Textdaten mit Kontext versehen. Die Indizes können dann gruppiert werden, um Wendungen miteinander zu verbinden, wie oben beschrieben. Auf Basis dieser gruppierten Indizes kann eine Karte erzeugt werden, die die Wortgruppen und die Zusammenhänge der Gruppen miteinander grafisch darstellt. Die Karten können außerdem eine hierarchische Struktur haben, so dass eine reduzierte Zahl von Gruppen für den Benutzer angezeigt werden. Die Karten stellen dem Benutzer eine effiziente, schnelle Methode zum Durchblättern der Textdatenstücke und Auffinden der gewünschten Textdatenstücke mit minimaler Anstrengung zur Verfügung. Eine Vielzahl von Karten in verschiedenen Zeitpunkten können unter Verwendung eines Wörterbuchs verarbeitet werden, um Szenarien zu erzeugen, welche eine Änderung in den in den Karten gezeigten Beziehungen anzeigen können. Diese Änderungen können wertvolle Informationen zum Beispiel über eine Firma oder industrielle Trends liefern. Das System kann eine große Datenmenge effizient verarbeiten und es dem Benutzer dennoch erlauben, die Textdaten schnell zu durchsuchen.
  • Das Vorhergehende wurde zwar unter Bezugnahme auf eine bestimmte Ausführungsform der Erfindung beschrieben, der Fachmann erkennt aber, dass man Änderungen an dieser Ausführungsform vornehmen kann, ohne von den Prinzipien der Erfindung abzuweichen, deren Schutzbereich durch die beigefügten Ansprüche definiert ist.

Claims (34)

  1. Inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem (24, 90), welches Folgendes umfasst: Mittel zum Verarbeiten (104) einer Vielzahl von Textstücken (27, 42, 92) auf Basis des Inhalts, um einen Index (106) für jedes Textstück zu erzeugen, wobei der Index (106) eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben; und Mittel zum Gruppieren von Wendungen miteinander (108), um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen (110) zu erzeugen, gekennzeichnet durch: Mittel zum Erzeugen (91) einer hierarchischen Struktur (44), wobei die hierarchische Struktur eine Vielzahl von Karten (3133, 48, 112) aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen (110) mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten (262, 264, 266, 157), wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen (158) aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
  2. System nach Anspruch 1, bei dem die Verarbeitungsmittel Mittel zum Sammeln einer Vielzahl von Textstücken (27, 42, 92), Mittel zum Extrahieren eines Lexikons (29, 100, 152) aus den gesammelten Textstücken (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und Mittel zum Vergleichen des Lexikons mit jedem Textstück, um einen Index (106) für jedes Textstück zu erzeugen, aufweisen.
  3. System nach Anspruch 2, bei dem die Sammelmittel eine Softwareanwendung (72) zum Sammeln von Textstücken aus dem Internet aufweisen.
  4. System nach Anspruch 2, bei dem die Mittel (28) zum Extrahieren eines Lexikons Mittel zum Entfernen von Leerworten aus den Textstücken, Mittel zum Extrahieren von passenden und allgemeinen Substantiven aus den Textstücken, Mittel zum Extrahieren von Wendungen, die innerhalb eines Textstücks wiederholt werden, und Mittel zum Extrahieren von Substantiv-Wendungen aus den Textstücken (91) aufweisen.
  5. System nach Anspruch 2, bei dem die Mittel zum Extrahieren von Substantiv-Wendungen Mittel zum Vergleichen einer Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone aufweisen, um Wendungen mit Substantiven zu extrahieren (91).
  6. System nach Anspruch 2, das weiterhin Mittel zum Erzeugen einer semiotischen Datenstruktur auf Basis des Lexikons (26), wobei die semiotische Datenstruktur eine mit einem jedem Wort in dem Lexikon verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander auf Basis der semiotischen Datenstruktur, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt, aufweist.
  7. System nach Anspruch 6, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
  8. System nach Anspruch 2, das weiterhin Mittel zum Filtern der Indizes auf Basis von Filterkriterien, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen, und Mittel zum Erzeugen von einer oder mehreren Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken aufweist.
  9. System nach Anspruch 1, das weiterhin Folgendes aufweist: Mittel zum Auswählen einer vorbestimmten Karte (49); Mittel, um die vorbestimmte Karte einem Benutzer anzuzeigen (47); Mittel zum Auswählen einer bestimmten auf der ausgewählten Karte angezeigten Gruppe (49); und Mittel zum Extrahieren eines Textabschnitts aus den Textstücken auf Basis der ausgewählten Gruppe (24, 90).
  10. System nach Anspruch 9, bei dem die Verarbeitungsmittel Mittel zum Sammeln einer Vielzahl von Textstücken (27, 42, 92), Mittel zum Extrahieren eines Lexikons (29, 100, 152) aus den gesammelten Textstücken (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und Mittel zum Vergleichen des Lexikons mit jedem Textstück, um einen Index (106) für jedes Textstück zu erzeugen, aufweisen.
  11. System nach Anspruch 10, bei dem die Sammelmittel eine Softwareanwendung (72) zum Sammeln von Textstücken aus dem Internet aufweisen.
  12. System nach Anspruch 10, bei dem die Mittel (28) zum Extrahieren eines Lexikons Mittel zum Entfernen von Leerworten aus den Textstücken, Mittel zum Extrahieren von passenden und allgemeinen Substantiven aus den Textstücken, Mittel zum Extrahieren von Wendungen, die innerhalb eines Textstücks wiederholt werden, und Mittel zum Extrahieren von Substantiv-Wendungen aus den Textstücken (91) aufweisen.
  13. System nach Anspruch 12, bei dem die Mittel zum Extrahieren von Substantiv Wendungen Mittel zum Vergleichen einer Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone aufweisen, um Wendungen mit Substantiven zu extrahieren.
  14. System nach Anspruch 10, das weiterhin Mittel zum Erzeugen einer semiotischen Datenstruktur auf Basis des Lexikons (26), wobei die semiotische Datenstruktur eine mit einem jedem Wort in dem Lexikon verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander auf Basis der semiotischen Datenstruktur, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt, aufweist.
  15. System nach Anspruch 14, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
  16. System nach Anspruch 10, das weiterhin Mittel zum Filtern der Indizes auf Basis von Filterkriterien, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen (46), und Mittel zum Erzeugen von einer oder mehreren Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken (91) aufweist.
  17. System nach Anspruch 1, das Folgendes aufweist: Mittel zum Erzeugen einer semiotischen Datenstruktur aus der Vielzahl von Textstücken, wobei die semiotische Datenstruktur eine Liste von Wendungen, die den Inhalt der Textstücke anzeigen, und eine mit einer jeden Wendung in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander, um ein Szenario (37, 120) zu erzeugen, welches Szenario Änderungen in dem durch die Karten grafisch dargestellten Zusammenhang anzeigt.
  18. System nach Anspruch 17, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
  19. Verfahren für ein inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem (24, 90), welches Folgendes umfasst: Verarbeiten einer Vielzahl von Textstücken (27, 42, 92) auf Basis des Inhalts, um einen Index (106) für jedes Textstück zu erzeugen, wobei der Index (106) eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben; Gruppieren von Wendungen miteinander, um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen (110) zu erzeugen, gekennzeichnet durch: Erzeugen (91) einer hierarchischen Struktur (44), wobei die hierarchische Struktur eine Vielzahl von Karten (3133, 48, 112) aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen (110) mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten (262, 264, 266, 157), wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen (158) aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
  20. Verfahren nach Anspruch 19, bei dem die Verarbeitung aufweist, eine Vielzahl von Textstücken (27, 42, 92) zu sammeln, aus den gesammelten Textstücken ein Lexikon (29, 100, 152) zu extrahieren (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und das Lexikon mit jedem Textstück zu vergleichen, um einen Index (106) für jedes Textstück zu erzeugen.
  21. Verfahren nach Anspruch 20, bei dem das Sammeln aufweist, eine Softwareanwendung (72) zu verwenden, um Textstücke aus dem Internet zu sammeln.
  22. Verfahren nach Anspruch 20, bei dem das Extrahieren des Lexikons aufweist, Leerworte aus den Textstücken zu entfernen, passende und allgemeine Substantive aus den Textstücken zu extrahieren, Wendungen zu extrahieren, die innerhalb eines Textstücks wiederholt werden, und Substantiv-Wendungen aus den Textstücken zu extrahieren (91).
  23. Verfahren nach Anspruch 22, bei dem das Extrahieren der Substantiv-Wendungen aufweist, eine Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone zu vergleichen, um Wendungen mit Substantiven zu extrahieren.
  24. Verfahren nach Anspruch 20, das weiterhin aufweist, eine semiotische Datenstruktur auf Basis des Lexikons zu erzeugen (26), welche semiotische Datenstruktur eine mit einem jedem Wort in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren jedes Worts nach seinem Inhalt aufweist, und eine Vielzahl von Karten auf Basis der semiotischen Datenstruktur miteinander zu vergleichen, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten gezeigten Zusammenhängen anzeigt.
  25. Verfahren nach Anspruch 24, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
  26. Verfahren nach Anspruch 20, das weiterhin aufweist, die Indizes auf Basis von Filterkriterien zu filtern, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen (46), und eine oder mehrere Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken zu erzeugen (91).
  27. Verfahren nach Anspruch 19, das weiterhin Folgendes aufweist: eine vorbestimmte Karte auszuwählen (49); die vorbestimmte Karte einem Benutzer anzuzeigen (47); eine bestimmte auf der ausgewählten Karte angezeigte Gruppe auszuwählen (49); und einen Textabschnitt aus den Textstücken auf Basis der ausgewählten Gruppe zu extrahieren (24, 90).
  28. Verfahren nach Anspruch 27, bei dem die Verarbeitung aufweist, eine Vielzahl von Textstücken (27, 42, 92) zu sammeln, aus den gesammelten Textstücken ein Lexikon (29, 100, 152) zu extrahieren, wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und das Lexikon mit jedem Textstück zu vergleichen, um einen Index (106) für jedes Textstück zu erzeugen.
  29. Verfahren nach Anspruch 28, bei dem das Sammeln aufweist, eine Softwareanwendung (72) zu verwenden, um Textstücke aus dem Internet zu sammeln.
  30. Verfahren nach Anspruch 28, bei dem das Extrahieren des Lexikons aufweist, Leerworte aus den Textstücken zu entfernen, passende und allgemeine Substantive aus den Textstücken zu extrahieren, Wendungen zu extrahieren, die innerhalb eines Textstücks wiederholt werden, und Substantiv-Wendungen aus den Textstücken zu extrahieren.
  31. Verfahren nach Anspruch 30, bei dem das Extrahieren der Substantiv-Wendungen aufweist, eine Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone zu vergleichen, um Wendungen mit Substantiven zu extrahieren.
  32. Verfahren nach Anspruch 28, das weiterhin aufweist, eine semiotische Datenstruktur auf Basis des Lexikons zu erzeugen, welche semiotische Datenstruktur eine mit einem jedem Wort in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren jedes Worts nach seinem Inhalt aufweist, und eine Vielzahl von Karten auf Basis der semiotischen Datenstruktur miteinander zu vergleichen, um ein Szenario (37, 120) zu erzeugen, welches Szenario Änderungen in den durch die Karten gezeigten Zusammenhängen anzeigt.
  33. Verfahren nach Anspruch 32, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
  34. Verfahren nach Anspruch 28, das weiterhin aufweist, die Indizes auf Basis von Filterkriterien zu filtern, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen, und eine oder mehrere Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken zu erzeugen.
DE69834386T 1997-02-18 1998-02-18 Textverarbeitungsverfahren und rückholsystem und verfahren Expired - Lifetime DE69834386T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/801,970 US5963965A (en) 1997-02-18 1997-02-18 Text processing and retrieval system and method
US801970 1997-02-18
PCT/US1998/002981 WO1998038560A2 (en) 1997-02-18 1998-02-18 System and method for semiotically processing text

Publications (2)

Publication Number Publication Date
DE69834386D1 DE69834386D1 (de) 2006-06-08
DE69834386T2 true DE69834386T2 (de) 2007-04-12

Family

ID=25182484

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69834386T Expired - Lifetime DE69834386T2 (de) 1997-02-18 1998-02-18 Textverarbeitungsverfahren und rückholsystem und verfahren

Country Status (9)

Country Link
US (1) US5963965A (de)
EP (1) EP0960376B1 (de)
JP (1) JP4241934B2 (de)
AT (1) ATE325387T1 (de)
AU (1) AU6327898A (de)
CA (1) CA2281645C (de)
DE (1) DE69834386T2 (de)
HK (1) HK1024076A1 (de)
WO (1) WO1998038560A2 (de)

Families Citing this family (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6910184B1 (en) 1997-07-25 2005-06-21 Ricoh Company, Ltd. Document information management system
US6799174B2 (en) 1997-09-08 2004-09-28 Science Applications International Corporation Retrieving, organizing, and utilizing networked data using databases
US6038668A (en) 1997-09-08 2000-03-14 Science Applications International Corporation System, method, and medium for retrieving, organizing, and utilizing networked data
US6272492B1 (en) * 1997-11-21 2001-08-07 Ibm Corporation Front-end proxy for transparently increasing web server functionality
JP4286345B2 (ja) 1998-05-08 2009-06-24 株式会社リコー 検索支援システム及びコンピュータ読み取り可能な記録媒体
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US7197451B1 (en) * 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
AU1122100A (en) * 1998-10-30 2000-05-22 Justsystem Pittsburgh Research Center, Inc. Method for content-based filtering of messages by analyzing term characteristicswithin a message
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
US6424982B1 (en) * 1999-04-09 2002-07-23 Semio Corporation System and method for parsing a document using one or more break characters
US6665681B1 (en) * 1999-04-09 2003-12-16 Entrieva, Inc. System and method for generating a taxonomy from a plurality of documents
US8327265B1 (en) 1999-04-09 2012-12-04 Lucimedia Networks, Inc. System and method for parsing a document
US7275061B1 (en) 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6400845B1 (en) * 1999-04-23 2002-06-04 Computer Services, Inc. System and method for data extraction from digital images
US6714936B1 (en) 1999-05-25 2004-03-30 Nevin, Iii Rocky Harry W. Method and apparatus for displaying data stored in linked nodes
US7086007B1 (en) 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
US7224790B1 (en) 1999-05-27 2007-05-29 Sbc Technology Resources, Inc. Method to identify and categorize customer's goals and behaviors within a customer service center environment
AU5451800A (en) * 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US6326988B1 (en) * 1999-06-08 2001-12-04 Monkey Media, Inc. Method, apparatus and article of manufacture for displaying content in a multi-dimensional topic space
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
WO2001018702A1 (en) * 1999-09-08 2001-03-15 Andrus James J Global communications network mapping protocol
US6898530B1 (en) 1999-09-30 2005-05-24 Battelle Memorial Institute Method and apparatus for extracting attributes from sequence strings and biopolymer material
US7106329B1 (en) 1999-09-30 2006-09-12 Battelle Memorial Institute Methods and apparatus for displaying disparate types of information using an interactive surface map
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6546387B1 (en) * 1999-11-15 2003-04-08 Transcom Software Inc. Computer network information management system and method using intelligent software agents
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
US6868525B1 (en) 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US6834280B2 (en) * 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries
US6473749B1 (en) * 2000-02-22 2002-10-29 Robert Scott Smith System and method for managing file content
US6564209B1 (en) * 2000-03-08 2003-05-13 Accenture Llp Knowledge management tool for providing abstracts of information
US6778643B1 (en) 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
US7013323B1 (en) * 2000-05-23 2006-03-14 Cyveillance, Inc. System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US6983320B1 (en) * 2000-05-23 2006-01-03 Cyveillance, Inc. System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
DE60119934D1 (de) 2000-05-25 2006-06-29 Manyworlds Inc Netzwerkverwaltungs- und zugriffssystem für unscharfe inhalte
WO2001093485A2 (en) * 2000-05-26 2001-12-06 Ideaspace, Inc. Method and apparatus for organizing information and conducting thematic inquiry
ATE386302T1 (de) * 2000-05-29 2008-03-15 Saora Kabushiki Kaisha System und verfahren zum speichern von navigierten daten
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus
EP1182581B1 (de) * 2000-08-18 2005-01-26 Exalead Suchwerkzeug und Prozess zum Suchen unter Benutzung von Kategorien und Schlüsselwörtern
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US6665661B1 (en) 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
US6940509B1 (en) 2000-09-29 2005-09-06 Battelle Memorial Institute Systems and methods for improving concept landscape visualizations as a data analysis tool
US6718336B1 (en) 2000-09-29 2004-04-06 Battelle Memorial Institute Data import system for data analysis system
US20020146129A1 (en) * 2000-11-09 2002-10-10 Kaplan Ari D. Method and system for secure wireless database management
US7069310B1 (en) 2000-11-10 2006-06-27 Trio Systems, Llc System and method for creating and posting media lists for purposes of subsequent playback
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US20020147775A1 (en) * 2001-04-06 2002-10-10 Suda Aruna Rohra System and method for displaying information provided by a provider
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US7698651B2 (en) * 2001-06-28 2010-04-13 International Business Machines Corporation Heuristic knowledge portal
US7065201B2 (en) * 2001-07-31 2006-06-20 Sbc Technology Resources, Inc. Telephone call processing in an interactive voice response call management system
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
JP2003216650A (ja) * 2002-01-28 2003-07-31 Sony Corp 情報媒介システムのためのグラフィカルユーザインターフェイス
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
JP2003337699A (ja) * 2002-03-13 2003-11-28 Saora Inc 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7120641B2 (en) * 2002-04-05 2006-10-10 Saora Kabushiki Kaisha Apparatus and method for extracting data
US20030195896A1 (en) * 2002-04-15 2003-10-16 Suda Aruna Rohra Method and apparatus for managing imported or exported data
JP3960530B2 (ja) * 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7493253B1 (en) 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7519607B2 (en) * 2002-08-14 2009-04-14 Anderson Iv Robert Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
EP1545302A4 (de) * 2002-10-03 2008-12-17 Joachim Diederich Verfahren und gerät zur untersuchung von psychiatrischen oder körperlichen erkrankungen
US7158957B2 (en) * 2002-11-21 2007-01-02 Honeywell International Inc. Supervised self organizing maps with fuzzy error correction
US7197503B2 (en) 2002-11-26 2007-03-27 Honeywell International Inc. Intelligent retrieval and classification of information from a product manual
GB2395805A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395806A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395807A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US7313527B2 (en) * 2003-01-23 2007-12-25 Intel Corporation Registering an utterance and an associated destination anchor with a speech recognition engine
US6961733B2 (en) * 2003-03-10 2005-11-01 Unisys Corporation System and method for storing and accessing data in an interlocking trees datastore
US7539725B2 (en) * 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7188308B2 (en) * 2003-04-08 2007-03-06 Thomas Weise Interface and method for exploring a collection of data
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US20070022110A1 (en) * 2003-05-19 2007-01-25 Saora Kabushiki Kaisha Method for processing information, apparatus therefor and program therefor
GB2403636A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US20060101018A1 (en) 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US8516004B2 (en) * 2003-09-19 2013-08-20 Unisys Corporation Method for processing K node count fields using an intensity variable
US20090018918A1 (en) 2004-11-04 2009-01-15 Manyworlds Inc. Influence-based Social Network Advertising
US7526458B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive recommendations systems
USRE45770E1 (en) 2003-11-28 2015-10-20 World Assets Consulting Ag, Llc Adaptive recommendation explanations
US8566263B2 (en) 2003-11-28 2013-10-22 World Assets Consulting Ag, Llc Adaptive computer-based personalities
US7606772B2 (en) 2003-11-28 2009-10-20 Manyworlds, Inc. Adaptive social computing methods
US7539652B2 (en) 2003-11-28 2009-05-26 Manyworlds, Inc. Adaptive self-modifying and recombinant systems
US7526459B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive social and process network systems
US8600920B2 (en) 2003-11-28 2013-12-03 World Assets Consulting Ag, Llc Affinity propagation in adaptive network-based systems
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
US7340471B2 (en) * 2004-01-16 2008-03-04 Unisys Corporation Saving and restoring an interlocking trees datastore
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7593923B1 (en) 2004-06-29 2009-09-22 Unisys Corporation Functional operations for accessing and/or building interlocking trees datastores to enable their use with applications software
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
US8051096B1 (en) * 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7213041B2 (en) 2004-10-05 2007-05-01 Unisys Corporation Saving and restoring an interlocking trees datastore
US7716241B1 (en) 2004-10-27 2010-05-11 Unisys Corporation Storing the repository origin of data inputs within a knowledge store
US7908240B1 (en) 2004-10-28 2011-03-15 Unisys Corporation Facilitated use of column and field data for field record universe in a knowledge store
US7676477B1 (en) 2005-10-24 2010-03-09 Unisys Corporation Utilities for deriving values and information from within an interlocking trees data store
US7348980B2 (en) 2004-11-08 2008-03-25 Unisys Corporation Method and apparatus for interface for graphic display of data from a Kstore
US7499932B2 (en) * 2004-11-08 2009-03-03 Unisys Corporation Accessing data in an interlocking trees data structure using an application programming interface
US20070162508A1 (en) * 2004-11-08 2007-07-12 Mazzagatti Jane C Updating information in an interlocking trees datastore
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
US7684974B2 (en) * 2005-03-03 2010-03-23 Infotrend, Inc. Systems for displaying conversions of text equivalents
JP4826120B2 (ja) * 2005-04-01 2011-11-30 株式会社日立製作所 業務仕様作成支援システム及び方法
US7409380B1 (en) 2005-04-07 2008-08-05 Unisys Corporation Facilitated reuse of K locations in a knowledge store
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
JP4772378B2 (ja) * 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
US7389301B1 (en) 2005-06-10 2008-06-17 Unisys Corporation Data aggregation user interface and analytic adapted for a KStore
US8117203B2 (en) * 2005-07-15 2012-02-14 Fetch Technologies, Inc. Method and system for automatically extracting data from web sites
US7747937B2 (en) * 2005-08-16 2010-06-29 Rojer Alan S Web bookmark manager
US20070067348A1 (en) * 2005-09-18 2007-03-22 Andreyev Dmitriy S Repeated Segment Manager
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
US8271542B1 (en) 2006-01-03 2012-09-18 Robert V London Metadata producer
CN101379492B (zh) * 2006-02-01 2010-11-03 松下电器产业株式会社 信息分类装置、信息检索装置以及信息分类方法
US20070214153A1 (en) * 2006-03-10 2007-09-13 Mazzagatti Jane C Method for processing an input particle stream for creating upper levels of KStore
US20070220069A1 (en) * 2006-03-20 2007-09-20 Mazzagatti Jane C Method for processing an input particle stream for creating lower levels of a KStore
US20080275842A1 (en) * 2006-03-20 2008-11-06 Jane Campbell Mazzagatti Method for processing counts when an end node is encountered
US7734571B2 (en) * 2006-03-20 2010-06-08 Unisys Corporation Method for processing sensor data within a particle stream by a KStore
US7689571B1 (en) 2006-03-24 2010-03-30 Unisys Corporation Optimizing the size of an interlocking tree datastore structure for KStore
US8238351B2 (en) * 2006-04-04 2012-08-07 Unisys Corporation Method for determining a most probable K location
US20070260600A1 (en) * 2006-05-08 2007-11-08 Mita Group Information discovery and group association
US7676330B1 (en) 2006-05-16 2010-03-09 Unisys Corporation Method for processing a particle using a sensor structure
US7865513B2 (en) * 2006-06-30 2011-01-04 Rearden Commerce, Inc. Derivation of relationships between data sets using structured tags or schemas
US20080005148A1 (en) * 2006-06-30 2008-01-03 Rearden Commerce, Inc. Automated knowledge base of feed tags
US20080040288A1 (en) * 2006-07-10 2008-02-14 Rearden Commerce, Inc. Method and system for using RSS-Type feeds in an E-Commerce environment
US20080091828A1 (en) * 2006-10-16 2008-04-17 Rearden Commerce, Inc. Method and system for fine and course-grained authorization of personal feed contents
US7752328B2 (en) * 2006-10-16 2010-07-06 Rearden Commerce, Inc. System and method for view of transactions and events with dynamic updates
US7860704B2 (en) * 2006-12-13 2010-12-28 Microsoft Corporation Lexicon-based content correlation and navigation
US7739247B2 (en) * 2006-12-28 2010-06-15 Ebay Inc. Multi-pass data organization and automatic naming
US20080160490A1 (en) * 2006-12-29 2008-07-03 Google Inc. Seeking Answers to Questions
US8131536B2 (en) 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7702614B1 (en) * 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US9135362B2 (en) * 2007-09-28 2015-09-15 Microsoft Technology Licensing, Llc Visualizing changes to content over time
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
WO2009079875A1 (en) * 2007-12-14 2009-07-02 Shanghai Hewlett-Packard Co., Ltd Systems and methods for extracting phrases from text
US20090187401A1 (en) * 2008-01-17 2009-07-23 Thanh Vuong Handheld electronic device and associated method for obtaining new language objects for a temporary dictionary used by a disambiguation routine on the device
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US7644071B1 (en) * 2008-08-26 2010-01-05 International Business Machines Corporation Selective display of target areas in a document
CA2738484C (en) 2008-10-03 2017-09-19 Word Diamonds LLC Graphically representing content relationships on a surface of graphical object
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8423349B1 (en) * 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8706644B1 (en) * 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8706643B1 (en) * 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
WO2010135375A1 (en) * 2009-05-20 2010-11-25 Hotgrinds, Inc. Semiotic square search and/or sentiment analysis system and method
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US8423392B2 (en) 2010-04-01 2013-04-16 Google Inc. Trusted participants of social network providing answers to questions through on-line conversations
US8983960B1 (en) 2011-03-28 2015-03-17 Google Inc. Opportunistic job processing
US9076172B1 (en) * 2011-06-29 2015-07-07 Amazon Technologies, Inc. Generating item suggestions from a profile-based group
US20140108006A1 (en) * 2012-09-07 2014-04-17 Grail, Inc. System and method for analyzing and mapping semiotic relationships to enhance content recommendations
US9372850B1 (en) * 2012-12-19 2016-06-21 Amazon Technologies, Inc. Machined book detection
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
BR112016002229A2 (pt) 2013-08-09 2017-08-01 Behavioral Recognition Sys Inc sistema de reconhecimento de comportamento neurolinguístico cognitivo para fusão de dados de multissensor
US9858260B2 (en) 2014-04-01 2018-01-02 Drumright Group LLP System and method for analyzing items using lexicon analysis and filtering process
US10691893B2 (en) * 2016-02-29 2020-06-23 International Business Machines Corporation Interest highlight and recommendation based on interaction in long text reading
US10467277B2 (en) 2016-03-25 2019-11-05 Raftr, Inc. Computer implemented detection of semiotic similarity between sets of narrative data
US9842100B2 (en) 2016-03-25 2017-12-12 TripleDip, LLC Functional ontology machine-based narrative interpreter
US11093706B2 (en) 2016-03-25 2021-08-17 Raftr, Inc. Protagonist narrative balance computer implemented analysis of narrative data
US10534755B2 (en) * 2016-10-13 2020-01-14 International Business Machines Corporation Word, phrase and sentence deduplication for text repositories
US10606878B2 (en) 2017-04-03 2020-03-31 Relativity Oda Llc Technology for visualizing clusters of electronic documents

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157783A (en) * 1988-02-26 1992-10-20 Wang Laboratories, Inc. Data base system which maintains project query list, desktop list and status of multiple ongoing research projects
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
ATE185631T1 (de) * 1991-08-16 1999-10-15 Cypress Semiconductor Corp Dynamisches hochleistungsspeichersystem
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5517783A (en) * 1994-02-14 1996-05-21 Edgar; Dwight A. Lure container
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US5768580A (en) * 1995-05-31 1998-06-16 Oracle Corporation Methods and apparatus for dynamic classification of discourse

Also Published As

Publication number Publication date
EP0960376A4 (de) 2003-01-08
WO1998038560A2 (en) 1998-09-03
EP0960376B1 (de) 2006-05-03
JP2001513242A (ja) 2001-08-28
US5963965A (en) 1999-10-05
HK1024076A1 (en) 2000-09-29
EP0960376A2 (de) 1999-12-01
JP4241934B2 (ja) 2009-03-18
AU6327898A (en) 1998-09-18
WO1998038560A3 (en) 1999-02-25
CA2281645A1 (en) 1998-09-03
DE69834386D1 (de) 2006-06-08
ATE325387T1 (de) 2006-06-15
CA2281645C (en) 2007-01-09

Similar Documents

Publication Publication Date Title
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
EP1311989B1 (de) Verfahren zur automatischen recherche
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
DE60213409T2 (de) Erstellung von strukturierten daten aus unformatiertem text
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE10333530A1 (de) Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
WO2009030246A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
WO2021032824A1 (de) Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente
EP2193456A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
EP2193455A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP2193457A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1064606B1 (de) Datenverarbeitungssystem und verfahren zum automatischen erstellen von inhaltsangaben von textdokumenten
Nowick et al. A model search engine based on cluster analysis of user search terms
WO2004095313A1 (de) Datenverarbeitungssystem für benutzerfreundliche datenbank-recherchen
DE19842320A1 (de) Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten
DE102006001840B4 (de) Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt
EP1324219A1 (de) Verfahren zum kategoriegestützten Suchen nach Informationsobjekten in den Informationspools und System zum Auffinden solcher Informationsobjekte
EP2287751A1 (de) Recherchensystem und Verfahren zur Informationssuche

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LUCIDMEDIA NETWORKS, INC., RESTON, VA., US