DE69834386T2

DE69834386T2 - Textverarbeitungsverfahren und rückholsystem und verfahren

Info

Publication number: DE69834386T2
Application number: DE69834386T
Authority: DE
Inventors: Claude Vogel
Original assignee: Entrieva Inc
Current assignee: LUCIDMEDIA NETWORKS, INC., RESTON, VA., US
Priority date: 1997-02-18
Filing date: 1998-02-18
Publication date: 2007-04-12
Anticipated expiration: 2018-02-19
Also published as: EP0960376A4; WO1998038560A2; EP0960376B1; JP2001513242A; US5963965A; HK1024076A1; EP0960376A2; JP4241934B2; AU6327898A; WO1998038560A3; CA2281645A1; DE69834386D1; ATE325387T1; CA2281645C

Description

Hintergrund der Erfindung
Die Erfindung betrifft allgemein ein System und Verfahren zur Verarbeitung und Wiedergewinnung von Text und insbesondere ein System und Verfahren zur Verarbeitung von großen Mengen Text und zur Erzeugung von Sichtanzeigen des Textes, die von einem Benutzer schnell durchsucht werden können.
Eine drastische Zunahme der Speicherkapazität und Abnahme der Kosten von Computer-Festplattenlaufwerken, und Zunahmen der Übertragungsgeschwindigkeit von Computerkommunikation und der Verarbeitungsgeschwindigkeit von Computern und die Ausbreitung von Computerkommunikationsnetzen wie z.B. einem schwarzen Brett oder dem Internet, haben alle zu der umfassenden Speicherung und Wiedergewinnung von Textdateninformationen unter Verwendung von Computerdatenbanken beigetragen. Durch diese Datenbanken haben die Leute jetzt auch Zugang zu den großen Mengen Textdaten. Die Technik erleichtert zwar Speicherung von und Zugang zu den Textdaten, es gibt aber neue Probleme, die durch die großen Mengen Textdaten erzeugt wurden, die jetzt verfügbar sind.
Insbesondere benötigt eine Person, die auf Textdaten in einer Computerdatenbank zuzugreifen versucht, die eine große Menge Daten enthält, ein System zum Analysieren der Daten, um die gewünschten Informationen schnell und effizient wiederzugewinnen, ohne unzugehörige Informationen wiederzugewinnen. Viele typische Textsuch- und -wiedergewinnungssysteme sind "Top-Down"-Systeme, bei denen der Benutzer eine Suchanfrage formuliert, aber keinen Zugang zu den tatsächlichen Textdaten hat, so dass der Benutzer die richtige Anfrage zum Erhalt der gewünschten Daten erraten muss. Ein konventionelles "Top-Down"-System zur Wiedergewinnung von Textdaten ist ein Schlüsselwort-Suchsystem. Im Schlüsselwort-Suchsystem entwickelt ein Benutzer eine Suchanfrage, als Frage bekannt, unter Verwendung eines oder mehrerer Schlüsselworte, und danach wird unter Verwendung der Schlüsselworte eine Durchsuchung der Datenbank durchgeführt. Wenn der Benutzer die genauen Schlüsselworte kennt, die die gewünschten Daten wiedergewinnen werden, kann die Schlüsselwortsuche nutzbare Ergebnisse liefern. Doch die meisten Benutzer kennen nicht das genaue Schlüsselwort oder die Kombination von Schlüsselworten, das bzw. die die gewünsch ten Daten hervorbringen wird. Und selbst wenn spezifisch gerichtete Schlüsselworte möglicherweise die gewünschten Daten wiedergewinnen, gewinnen sie möglicherweise auch eine große Menge unzugehöriger Daten wieder, die das Schlüsselwort oder die Schlüsselworte zufällig enthalten. Der Benutzer muss dann sämtliche unzugehörigen Daten sichten, um die gewünschten Daten zu finden, was ein zeitraubender Prozess sein kann. Und wenn die in einer Computerdatenbank durchsuchbare Datenmenge zunimmt, wird der Sichtungsprozess noch zeitraubender.
Das konventionelle schlüsselwortbasierte Datenwiedergewinnungssystem hat außerdem ein weiteres Problem, das mit den immanenten Eigenschaften der menschlichen Sprache verknüpft ist. Insbesondere kann es sein, dass ein vom Benutzer gewähltes Schlüsselwort nicht zu den Worten im Text passt oder aus ein paar Gründen unzugehörige Informationen wiedergewinnt. Erstens wählen verschiedene Leute wahrscheinlich verschiedene Schlüsselworte, um denselben Gegenstand zu beschreiben, da die Wahl der Schlüsselworte von den Bedürfnissen, der Erfahrung oder der Sprache der Person abhängt. Zum Beispiel kann es sein, dass eine Person einen bestimmten Gegenstand eine "Bank" nennt, während eine andere Person denselben Gegenstand eine "Bausparkasse" nennt. Daher würde eine Schlüsselwortsuche nach "Bank" durch einen erfahreneren Benutzer einen Artikel über eine Bausparkasse möglicherweise nicht wiedergewinnen, obwohl der Artikel möglicherweise ein relevantes Stück Daten ist. Zweitens kann dasselbe Wort mehr als eine bestimmte Bedeutung haben. Insbesondere kann dasselbe Wort, wenn in verschiedenem Kontext benutzt oder wenn von verschiedenen Leuten benutzt, eine andere Bedeutung haben. Zum Beispiel kann es sein, dass das Schlüsselwort "Bank" Text über eine Sitzbank oder eine Sparkasse wiedergewinnt, wenn nur Artikel über eine Sparkasse gewünscht sind. Daher kann ein Textstück, das alle relevanten Schlüsselworte enthält, dennoch völlig irrelevant sein.
Das schlüsselwortbasierte Textanalyse- und Wiedergewinnungssystem, wie oben beschrieben, ist ein Top-Down-Textwiedergewinnungssystem. In einem Top-Down-Textwiedergewinnungssystem wird vorausgesetzt, dass der Benutzer, der die Schlüsselwortsuche durchführt, die Informationen kennt, nach denen er sucht, und dies erlaubt es dem Benutzer, die Datenbank abzufragen, um die gewünschten Informationen ausfindig zu machen. In einem Top-Down-System hat der Benutzer jedoch keinen Zugriff auf die tatsächlichen Textdaten und kann die Worte im Text nicht mustern, um Auswahlen der passenden Schlüsselworte zur Wiedergewinnung der gewünschten Textdaten zu treffen. Andere Top-Down-Textwiedergewinnungssysteme versuchen, einige der Unzulänglichkeiten des Schlüsselwort-Textwiedergewinnungssystems zu korrigieren, indem sie wendungsbasierte Suchen durchführen. Diese gewinnen zwar weniger wahrscheinlich ganz irrelevante Textstücke, sie können aber eine größere Wahrscheinlichkeit aufweisen, den gewünschten Text zu verpassen, da es sein kann, dass die exakte Wendung im gewünschten Text nicht vorhanden ist.
All diese Textwiedergewinnungssysteme sind Top-Down-Textwiedergewinnungssysteme, bei denen man Schlüsselworte verwendet, um Textdatenstücke wiederzugewinnen, und es gibt keinen Ansatz, einen inhaltsbasierten Index der Textdaten zu verwenden. Keines dieser Systeme verwendet eine Bottom-Up-Methode, bei der der Benutzer eine strukturierte Version der tatsächlichen Textdaten sieht. Die strukturierte Version der Textdaten kann aus den Textdaten extrahierte Worte und Wendungen enthalten, die eine Anzeige des Inhalts und/oder des Kontextes der Textdaten liefern, so dass der Benutzer eine inhalts- und kontextbasierte Ansicht der verfügbaren Textdaten bekommen und eine Durchsuchung der Textdaten auf Basis der inhaltbasierten Wendungen oder Worte durchführen kann. Die strukturierten inhaltsbasierten Wendungen erlauben es einem Benutzer, leicht durch eine große Datenmenge zu navigieren, da die inhaltsbasierten Wendungen einen leichten Weg bereitstellen, eine große Zahl von Wendungen schnell durchzusehen.
Es besteht daher Bedarf nach einem verbesserten Textwiedergewinnungssystem und Textwiedergewinnungsverfahren, welche diese und andere Probleme von bekannten Systemen und Verfahren vermeiden, und die vorliegende Erfindung ist auf dieses Ziel gerichtet.
Recent trends in hierarchic document clustering: A critical review [Willett], information processing & management, Elsevier, Band 24, Nr. 5, 1998, Seiten 577–597, Barking, GB, ISSN: 0306-4573, offenbart neue Forschungen über die Verwendung von hierarchischen agglomerativen Gruppenbildungsverfahren für Dokumentwiedergewinnung. Dies umfasst die Offenbarung der Aufstellung einer Liste von Indexausdrücken für ein Dokument und Gruppierung von Ausdrücken aus Dokumenten.
Kurze Darstellung der Erfindung
Die vorliegende Erfindung ist in den unabhängigen Ansprüchen angegeben. Die abhängigen Ansprüche geben Ausführungsformen der Erfindung an.
Die Erfindung stellt in einer Ausführungsform ein Textanalyse- und -wiedergewinnungssystem bereit, das eine Bottom-Up-Methode verwendet, bei der der ganze Text unter Verwendung eines effizienten Kartierungsprozesses verarbeitet wird, um den Benutzer mit einer grafischen inhaltsbasierten Straßenkarte des Textes zu versehen, so dass der Benutzer Wendungen der tatsächlichen Textdaten sehen kann, um die gewünschten Daten zu bestimmen. Das System kann auch die inhaltsbasierten Karten mustern, um Informationen über Änderungen in den Textdaten zu erzeugen. Insbesondere extrahiert die Erfindung während des Kartierungsprozesses Worte oder Wendungen aus den Textdaten, die als Wortgruppe miteinander gruppiert werden können, und diese Wortgruppen können miteinander kombiniert werden, um die inhaltsbasierten grafischen Karten auszubilden. Die Karten, die grafisch angezeigt werden, erlauben es dem Benutzer, ohne eine Schlüsselwortsuche schnell durch die tatsächlichen Textdaten zu navigieren und die relevanten Informationen ausfindig zu machen. Der Musterungsprozess kann mit der Zeit eine Vielzahl von Karten und Wortgruppen semiotisch verarbeiten, um Szenarien zu erzeugen, die Änderungen in den Karten und Gruppen anzeigen. Bei dieser Bottom-Up-Methode muss ein Benutzer nicht die in den Textdaten benutzten Schlüsselworte erraten, da der Benutzer die tatsächlichen Worte und Wendungen in den Textdaten sieht.
Zur Erzeugung der inhaltsbasierten Straßenkarte kann jedes Textdatenstück zerlegt werden und können Worte oder Wendungen in den Textdaten extrahiert werden. Bei den meisten typischen informatorischen Textdaten kann der Inhalt der Textdaten am leichtesten bestimmt werden durch Prüfen von Gruppen von mehr als einem Wort (d. h. den Wendungen), die in den Textdaten enthalten sind. Eine Wendung kann zwei Worte oder so viel wie sechs Worte enthalten. Diese Wendungen liefern die meisten Informationen über den Inhalt eines Textdatenstücks und erlauben es einem Benutzer zu bestimmen, ob das Textdatenstück relevant ist. Die Erfindung nutzt Wendungen bei der Verarbeitung jedes Textdatenstücks, um jedes Textdatenstück zusammenzufassen, ohne irgendwelchen Inhalt zu verlieren.
Die Erfindung stellt in einer Ausführungsform auch ein System und Verfahren bereit, welches dem Benutzer eine Übersichtkarte anzeigen kann, welche es dem Benutzer erlaubt, Verknüpfungen mit anderen Karten auszuwählen, die spezifischere Textdateninformationen enthalten. Daher ist das System insofern skalierbar, als verschiedene Karten erzeugt werden können, wobei jede Karte einen verschiedenen Grad an Spezifizität hat und benutzt werden kann, um verschiedene Teilsätze der Textdaten wiederzugeben. Ein Benutzer kann dann mit vielen verschiedenen Graden an Spezifizität nach Textdaten suchen, je nach den gewünschten Daten. Das System kann es dem Benutzer auch erlauben, Extrakte der Textdaten anzuzeigen, die die vom Benutzer ausgewählten Wortgruppen aufweisen, so dass der Benutzer schnell bestimmen kann, ob das Textdatenstück relevant ist.
In Übereinstimmung mit einer Ausführungsform der Erfindung werden ein System und Verfahren zur Verarbeitung und Wiedergewinnung von Textdaten bereitgestellt, bei denen eine Vielzahl von Textstücken auf Basis des Inhalts verarbeitet werden, um einen Index für jedes Textstück zu erzeugen, wobei der Index eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben. Die Wendungen werden miteinander gruppiert, um auf Basis eines Grades an Zusammenhang der Wendungen Gruppen zu erzeugen, und es wird eine hierarchische Struktur erzeugt, wobei die hierarchische Struktur eine Vielzahl von Karten aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten, wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen aufweist, die Knoten verbinden, die miteinander in Beziehung stehen. Die Karte wird einem Benutzer angezeigt, ein Benutzer wählt eine bestimmte Gruppe auf der Karte aus, und auf Basis der vom Benutzer ausgewählten Gruppe wird ein Textabschnitt aus den Textstücken extrahiert.
In Übereinstimmung mit einer Ausführungsform der Erfindung werden ein inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem und -verfahren bereitgestellt, welche umfassen: Verarbeiten einer Vielzahl von Textstücken auf Basis des Inhalts, um einen Index für jedes Textstück zu erzeugen, wobei der Index eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben, Gruppieren von Wendungen miteinander, um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen zu erzeugen, und Erzeugen einer hierarchischen Struktur, wobei die hierarchische Struktur eine Vielzahl von Karten aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten, wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen aufweist, die Knoten verbinden, die miteinander in Beziehung stehen. Aus der Vielzahl von Textstücken kann eine semiotische Datenstruktur erzeugt werden, wobei die semiotische Datenstruktur eine Liste von Wendungen, die den Inhalt der Textstücke anzeigen, und eine Kennung aufweist, die mit einer jeden Wendung in der semiotischen Datenstruktur verbunden ist, um das Wort nach seinem Inhalt zu klassifizieren, und auf Basis der semiotischen Datenstruktur können eine Vielzahl von Karten miteinander verglichen werden, um ein Szenario zu erzeugen, welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt.
Kurze Beschreibung der Zeichnungen
1 ist eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems;
2 ist eine grafische Ansicht eines gesamten kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung;
3 ist eine grafische Ansicht eines Teils des kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems von 2;
4 zeigt ein Computer-Client/Server-System, das ein Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung verwenden kann;
5 ist eine grafische Ansicht eines Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung;
6A ist ein Flussdiagramm eines Gesamtverfahrens zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung;
6B ist ein Flussdiagramm eines Verfahrens zur Erzeugung von Szenarien in Übereinstimmung mit der Erfindung;
7 zeigt eine Karte, die aus dem Vergleich eines Textstücks und einer semiotischen Datenstruktur in Übereinstimmung mit der Erfindung erzeugt wird;
8 ist ein Flussdiagramm eines Verfahrens zur Verarbeitung von Textdaten in Übereinstimmung mit der Erfindung, welches ein Teil des in 6A gezeigten Gesamtverfahrens ist;
9 ist ein Flussdiagramm eines Verfahrens zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung;
10 ist ein Flussdiagramm eines Verfahrens zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung;
11 ist ein Flussdiagramm eines Verfahrens zur Erzeugung einer Gruppe und einer Karte in Übereinstimmung mit der Erfindung;
12 ist eine grafische Ansicht eines Beispiels für eine aus zwei Muster-Textstücken erzeugten Karte;
13 ist ein Flussdiagramm eines Verfahrens zur Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung, welches ein Teil des in 6A gezeigten Gesamtverfahrens ist;
14 ist eine Skizze einer Metakarte und mehrerer Subkarten in Übereinstimmung mit der Erfindung;
15 ist eine Skizze eines Beispiels für eine Metakarte für ein Muster-Textdatenstück;
16 ist eine Skizze eines Beispiels für eine Subkarte für das Muster-Textdatenstück von 15;
17 ist eine Skizze, die einen Benutzer zeigt, der verschiedene Gruppen aus der in 16 gezeigten Subkarte auswählt; und
18 ist eine Skizze, die die auf Basis der in 17 gezeigten Benutzerauswahl aus dem Muster-Textdatenstück extrahierten Textzusammenfassungen zeigt.
Detaillierte Beschreibung einer bevorzugten Ausführungsform
Die Erfindung ist besonders auf ein System zur Verarbeitung und Wiedergewinnung von Textdaten in einer Client/Server-Netzumgebung anwendbar. In diesem Kontext wird die Erfindung beschrieben. Man erkennt jedoch, dass das System und Verfahren in Übereinstimmung mit der Erfindung größere Brauchbarkeit hat.
1 ist eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems 30. Das Top-Down-System kann eine Textdatenbank 32 aufweisen, die eine Vielzahl von Textdatenstücken enthält. Ein Benutzer, der Daten aus der Textdatenbank wiederzugewinnen versucht, muss über die gewünschten Informationen nachdenken und die Frage erraten, die helfen könnte, die Informationen aus der Datenbank zu erhalten. Insbesondere kann der Benutzer eine Schlüsselwortfrage 36 erzeugen, die ein oder mehr Schlüsselworte enthält, möglicherweise durch logische Operatoren verbunden, die einfach eine "beste" Vermutung einer Frage sein kann, die die gewünschten Informationen charakterisiert. Die Schlüsselwortfrage wird dann zu der Datenbank gesendet, und auf Basis der Frage sendet die Datenbank eine Antwort 38 zurück, die Textdaten enthält, die das Schlüsselwort enthalten, einschließlich sowohl relevanten Textdaten als auch irrelevanten Textdaten. Da das System es dem Benutzer nicht erlaubt, vor Erzeugung der Schlüsselwortfrage die tatsächlichen Textdaten in der Datenbank im Voraus zu sehen, ist die Erfolgsquote der Suche möglicherweise gering. Außerdem enthalten die von der Datenbank zurückgesendeten Textdaten möglicherweise viele irrelevante Textdatenstücke, als Dokumente bekannt, die vom Benutzer herausgefiltert werden müssen. Das System ist daher sehr ineffizient und zeitraubend. Es wird nun ein Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung beschrieben, welches diese Schwierigkeiten vermeidet.
2 ist ein grafischer Überblick über ein kontext- und inhaltsbasiertes Bottom-Up- Textverarbeitungs- und -wiedergewinnungssystem 24 in Übereinstimmung mit der Erfindung. Das System kann ein Kartierungs-Subsystem 25, das unter Bezugnahme auf 3 und 6A beschrieben wird, und ein Musterungs-Subsystem 26 aufweisen, das unter Bezugnahme auf 6B beschrieben wird. Das Kartierungssystem kann es einem Benutzer des Systems erlauben, eine strukturierte Version des tatsächlichen Textes zu betrachten, um Textstücke wiederzugewinnen. Das Musterungs-Subsystem kann die vom Kartierungsabschnitt erzeugte strukturierte Version des tatsächlichen Textes, als Karte bekannt, verwenden und eine Vielzahl von Karten in verschiedenen Zeitpunkten "mustern", um eine "Geschichte" von Änderungen zu erzeugen, die in den Karten stattfinden. Zum Beispiel, wenn die in Verbindung mit einem Aufsichtsrat einer Aktiengesellschaft erwähnten Leute wechseln, kann der Musterungsabschnitt diese Änderung hervorheben. Ein Benutzer des Systems kann den Kartierungsabschnitt oder den Musterungsabschnitt getrennt oder als ein kombiniertes System verwenden.
Das Kartierungs-Subsystem 24 kann Text 27 von einer Vielzahl von Orten sammeln. Eine Extrahiereinrichtung 28 kann den Text verarbeiten, um ein Lexikon 29 zu erzeugen. Das Lexikon kann eine Liste von Worten oder Wendungen sein, die im Hinblick auf ihre Fähigkeit ausgewählt worden sind, einem Satz Kontext zu verleihen. Das Lexikon wird unten unter Bezugnahme auf 9 beschrieben. In einem Informationsgruppierungsprozess 30, in dem für jedes Textstück ein Index erzeugt werden kann, kann der Text 27 dann mit dem Lexikon 29 verglichen werden. Der Index kann Worte oder Wendungen enthalten, die in dem Lexikon und dem Text vorhanden sind. Aus diesen Indizes können eine Vielzahl von Karten 31–33 erzeugt werden, die die Verbindung von Worten oder Wendungen miteinander grafisch darstellen, wie in 15–17 gezeigt und unten beschrieben. Diese Karten können zum Beispiel in einem ersten Zeitpunkt t₀, einem zweiten Zeitpunkt t₁ und einem dritten Zeitpunkt t₂ erzeugt werden. Die Karten können sich in den verschiedenen Zeitpunkten ändern, da zusätzliche Textstücke hinzugefügt worden sind. Dieses Kartierungs-Subsystem kann einem Benutzer die Fähigkeit verleihen, Text schnell aus einer großen Anfangszahl von Textstücken wiederzugewinnen, wie unten beschrieben. Das Kartierungs-Subsystem kann auch in Verbindung mit dem Musterungs-Subsystem verwendet werden, um einem Benutzer verbesserte Suchfähigkeiten zu verleihen.
Das Musterungs-Subsystem 26 kann zuerst einen Wörterbuchgenerator 34 verwenden, um ein Wörterbuch 35 aus dem Lexikon zu erzeugen. Das Wörterbuch kann die Liste von Worten oder Wendungen im Lexikon sein, wobei jedes Wort oder jede Wendung eine damit verbundene Kennung aufweisen kann, die die Worte oder Wendungen zum Beispiel als einen Akteur, eine Funktion oder ein Thema klassifiziert, wie unten unter Bezugnahme auf 6B beschrieben. Die Wortgruppen in den Karten 31–33 können unter Verwendung des Wörterbuchs 35 semiotisch verarbeitet 36 werden, um ein Szenario 37 zu erzeugen. Das Szenario kann eine Anzeige einer Änderung zwischen den Karten sein, wie zum Beispiel dass eine vorher niemals mit einer Firma in Verbindung gestandene Person in einer Geschichte über diese Firma ausfindig gemacht worden ist. Daher können die Szenarien Änderungen und Trends in den Textdaten verfolgen, die mit der Zeit stattfinden können. Daher kann eine Firma einmal die Woche Karten über eine bestimmte Firma erzeugen und dann Szenarien für die Karten erzeugen, die Änderungen in der Firma verfolgen können, welche zum Beispiel für einen Wettbewerber wertvolle Geschäftsinformationen sein können.
Im Betrieb kann eine Firma Informationen über eine bestimmte Industrie wie z.B. Landwirtschaft wünschen und weiterhin an einer Firma "X" in der Landwirtschaftsindustrie interessiert sein. Der Benutzer kann unter Verwendung des Kartierungs-Subsystems die relevanten Worte oder Wendungen über die Firma X ausfindig machen, und das Kartierungs-Subsystem kann eine Karte erzeugen. Das Kartierungs-Subsystem kann automatisch jede Woche eine neue Karte mit demselben Schwerpunkt auf der Firma X erzeugen, um neue Textstücke einzubauen. Das Musterungs-Subsystem kann dann die Karten verarbeiten, um ein Szenario zu erzeugen, das zum Beispiel anzeigt, dass der Direktor der Firma ausscheidet. Wie unten beschrieben, kann jeder andere Benutzer einen anderen Schwerpunkt oder ein anderes Interesse haben, so dass für jeden Benutzer ein anderes relevantes Szenario erzeugt werden kann. Jetzt wird das Kartierungs-Subsystem detaillierter beschrieben.
3 ist eine grafische Ansicht eines Kartierungs-Subsystems 40 eines kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems in Übereinstimmung mit der Erfindung. Bei dem Kartierungs-Subsystem des Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems können die Textdaten 42 verarbeitet, wie unter Bezugnahme auf 6A unten detaillierter beschrieben, und analysiert werden, um eine strukturierte Version von Textdaten 44 zu erzeugen, die einige der Worte und/oder Wendungen in jedem Textdatenstück umfassen können, wie unten beschrieben. Die strukturierte Version der Textdaten kann Worte oder Wendungen enthalten, die dem Benutzer Kenntnisse über den Inhalt und/oder Kontext jedes Textdatenstücks verleihen, so dass ein Benutzer leicht bestimmen kann, ob ein Textdatenstück relevant ist. Wie oben beschrieben, kann der Inhalt eines Textdatenstücks am leichtesten aus Wendungen bestimmt werden, die aus zwei Worten bis zu ungefähr sechs Worten bestehen, doch können auch einzelne Worte etwas vom Inhalt der Textdaten vermitteln, wie z.B. ein Eigenname wie Präsident Clinton. Die Details der Extraktion von Wendungen aus den Textdatenstücken werden unten unter Bezugnahme auf 9 beschrieben.
Um etwas aus dem strukturierten Text auszufiltern, kann ein Benutzer dem System ein breites Filterwort 46 zur Verfügung stellen, das den Typ der Informationen, die der Benutzer sucht, allgemein beschreibt. Das breite Filterwort kann mehrere Worte umfassen, die durch Boolesche Verknüpfungen wie z.B. ODER, UND und dergleichen getrennt sind. Um den Umfang der Textdaten noch mehr einzuschränken, kann ein Benutzer auf Basis des Datums, Ursprungs oder Ortes der Textdaten eingeschränkte Textdaten anfordern. Zum Beispiel kann es sein, dass ein Benutzer nur Textdaten anfordert, die neuer als 1995 sind, oder nur Textdaten von Webseiten anfordert. Der strukturierte Text kann dann auf Basis des Filterwortes des Benutzers gefiltert werden, und die gefilterten strukturierten Daten können auf einer Anzeige 47 grafisch als Verbindungen von Wortgruppen 48 angezeigt werden, als Karten bekannt, wie unten beschrieben, so dass ein Benutzer die strukturierte Version der Textdaten unter Verwendung eines Blätterbefehls 49 durchblättern kann. Während des Durchblätterns kann der Benutzer verschiedene andere Wortgruppen auswählen, wie unten beschrieben, und die mit diesen Wortgruppen verbundenen Textdaten betrachten. Sobald der Benutzer das Durchblättern der Wortgruppen beendet hat und die passende eine oder mehr Wortgruppen ausfindig gemacht hat, die die gewünschten Textdaten charakterisieren, kann der Benutzer diese Wortgruppen auswählen, und das System kann Zusammenfassungen 50 aller Textstücke anzeigen, die die passenden Wortgruppen enthalten. Die Zusammenfassungen können vom Benutzer leicht geprüft werden, um die Relevanz irgendeines bestimmten Textstücks zu bestimmen. Sind die richtigen Daten noch nicht ausfindig gemacht worden, kann der Benutzer die Suche auch von irgendeinem Punkt aus neu starten und fortfahren, Zusammenfassungen zu betrach ten, bis die relevanten Informationen ausfindig gemacht worden sind.
Bei diesem Kartierungs-Subsystem des Bottom-Up-Systems in Übereinstimmung mit der Erfindung betrachtet der Benutzer nur die Wortgruppen, die aus dem Text extrahiert worden sind, da diese Worte dem Benutzer Wissen über den Inhalt und/oder Kontext jedes Textdatenstücks vermitteln. Wie unten beschrieben, können Worte in jedem Textdatenstück, die nicht zu einem Verständnis des Inhalts und/oder Kontextes der Textdaten beitragen, als Leerworte bekannt, entfernt werden. Daher sieht der Benutzer nur die relevantesten Wortgruppen und kann die passenden Wortgruppen auswählen, ohne irgendwelche gebildeten Schlüssewortvermutungen treffen zu müssen. Die Details des Textverarbeitungs- und -wiedergewinnungssystems mit einer Bottum-Up-Methode in Übereinstimmung mit der Erfindung werden unten detaillierter beschrieben. Jetzt wird ein Beispiel für ein Client/Server-vernetztes Computersystem beschrieben, das ein System für Textverarbeitung und -wiedergewinnung in Übereinstimmung mit der Erfindung enthalten kann.
4 ist eine schematische Ansicht eines Client/Server-basierten Computersystems 60, das ein Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung enthalten kann. Wie gezeigt, kann das Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung vollständig innerhalb eines Firmen- oder Privatnetzes 62 arbeiten, kann aber auch auf Textdaten von außerhalb des Firmennetzes zugreifen. Der Computer, der die Software und/oder Hardware speichert, die in Übereinstimmung mit der Erfindung Text verarbeitet und wiedergewinnt, kann innerhalb des Firmenetzes angesiedelt sein, kann aber auch an einem öffentlichen Großraumnetz wie z.B. dem Internet angesiedelt sein. Das Firmennetz 62 kann als Intranet bekannt sein und kann vollständig innerhalb einer Firewall 64 angesiedelt sein, die das Firmennetz vor unbefugtem Zugriff von außen schützt. Das Textverarbeitungs- und -wiedergewinnungssystem kann durch die Firewall auf eine sichere Weise Text von außerhalb des Intranet wiedergewinnen. Im Allgemeinen kann ein Client/Server-System einen Servercomputer, der die Datenbank speichert, und ein oder mehr entfernte Computersysteme aufweisen, die ein Stück Client-Software ausführen, die mit dem Servercomputer interagieren kann. Ein Client/Server-Computersystem ist bekannt und wird hier nicht beschrieben.
Für das Intranet-Client/Server-System kann ein innerhalb der Firewall 64 angesiedelter Globalserver 66 Software enthalten, die den Text verarbeitet, um Karten zu erzeugen, wie unten beschrieben, und es dem Benutzer erlaubt, den verarbeiteten Text grafisch zu durchblättern und irgendwelche relevanten Textdaten wiederzugewinnen. Die Software kann die Karten außerdem semiotisch verarbeiten, um Szenarien zu erzeugen, die Änderungen in den Karten anzeigen. Der Text, der vom Globalserver verarbeitet wird, kann aus einer oder mehreren Datenbanken extrahiert werden, wie z.B. einer ersten Datenbank 68 und einer zweiten Datenbank 70. Um Textdaten aus dem Globalserver zu durchblättern und wiederzugewinnen und Szenarien zu erzeugen, kann ein am Privat- oder Firmennetz angebauter Computer ein Stück Client-Software 72 wie z.B. eine JAVA-basierte Softwareanwendung aufweisen, die mit dem Globalserver interagiert und es dem Benutzer erlaubt, die Wortgruppen grafisch zu durchblättern und relevante Textdatenstücke wiederzugewinnen, wie in 15–18 gezeigt, und außerdem Szenarien zu erzeugen.
Die Client-Software 72 kann außerdem auf einen ersten und einen zweiten Arbeitsgruppen-Server 74, 76 zugreifen und erlaubt es dem Benutzer, Wortgruppen zu durchblättern, die sich in Textstücken befinden, die sich in Ordnern auf dem Arbeitsgruppen-Server befinden. Zusätzlich zu dem Verbinden mit dem innerhalb der Firewall 66 befindlichen sicheren Globalserver kann die Client-Software außerdem mit einem zweiten Globalserver 78 verbinden, der sich außerhalb der Firewall befindet, zum Beispiel am Internet. Der zweite Globalserver kann eine Vielzahl von Webseiten von einer oder mehreren Websites 80, 82 sammeln und die Textdaten in den Webseiten in Übereinstimmung mit der Erfindung zu Wortgruppen verarbeiten. Dies erlaubt es dem Benutzer, die mit den Webseiten verbundenen Wortgruppen mit der Client-Software grafisch zu durchblättern und relevante Webseiten wiederzugewinnen. Das Textverarbeitungs- und -wiedergewinnungssystem kann verwendet werden, um E-Mail-Nachrichten, Textdatenbanken, Webseiten und irgendwelche anderen Typen von Textdaten zu verarbeiten. Daher kann das System mannigfache verschiedene Typen von Textdaten verarbeiten.
Jeder der verschiedenen Typen von Textdaten, wie z.B. Webseiten, E-Mail, News und Firmeninformationen, hat andere Eigenschaften. Jede Webseite ist ein getrenntes Textstück, es gibt eine enorme Menge Text, die von den Webseiten behandelten Themen können ein breites Gebiet haben, und es gibt keine Sicherheit über die aus dem Web gesammelten Informationen. E-Mails andererseits sind aufgrund Antworten und dergleichen keine getrennten Datenstücke, haben aufgrund individueller Eigenarten verstreute Schwerpunkte und Themen, sind aber chronologisch organisiert. News enthalten tendenziell eine mäßige Zahl von Dokumenten, haben einen festen Schwerpunkt und sind chronologisch organisiert. Firmeninformationen sind typischerweise größere individuelle Dokumente und haben aufgrund der Qualitätskontrolle innerhalb einer Firma eher feste Schwerpunkte. Jeder dieser verschiedenen Typen von Textdaten hat Eigenschaften, die ihn einzigartig machen, aber all diese verschiedenen Typen von Textdaten können unter Verwendung einer Bottom-Up-Methode verarbeitet und durchsucht werden, bei der aus jedem Satz von Texten Gruppen gebildet werden und die grafischen Darstellungen der Gruppen, als Karten bekannt, als eine Schnittstelle zum Leiten eines Benutzers durch die Textdaten benutzt werden können. Szenarien, die Änderungen mit der Zeit in den Karten anzeigen, können ebenfalls aus jedem Typ von Textdaten erzeugt werden.
Das Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung mit der Erfindung kann auch vollständig innerhalb eines eigenständigen Computersystems angesiedelt sein. Zum Beispiel kann eine Firma eine große Datenbank von Textdaten besitzen, aus welchen zum Beispiel die Buchführungsabteilung Textdaten wiedergewinnen möchte. Das System in Übereinstimmung mit der Erfindung kann auch auf anderen Computersystemen betrieben werden. Typischerweise kann das System auf größeren Computersystemen betrieben werden, da die Textverarbeitung- und -wiedergewinnung in Übereinstimmung mit der Erfindung schnell ist und eine große Menge Textdaten leicht handhaben kann. Jetzt wird eine Architektur eines Systems zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung beschrieben.
5 zeigt eine Architektur eines Textverarbeitungs- und -wiedergewinnungssystems 90 in Übereinstimmung mit der Erfindung. Ein Server 91 kann unter Verwendung von auf dem Server laufender Software eine Vielzahl von Textdatenstücken 92 verarbeiten, während ein Stück Client-Software 93, welche es einem Benutzer erlaubt, mit dem Server zu interagieren, es einem Benutzer erlauben kann, auf Basis von einer oder mehreren Auswahlen (Anforderungen) 94 die Textdaten grafisch zu durchblättern. Die innerhalb des Servers und der Client-Software gezeigten Elemente sind Funktions blockdiagramme, und die Funktionen, wie z.B. eine Indexiereinrichtung, können auf dem Server laufende Software sein, die den Prozessor innerhalb des Servers steuert. Die Funktionen können auch durch eine Hardware-Schaltung innerhalb des Servers realisiert werden, die die Funktionen durchführt.
Vor der Beschreibung der Details der Funktionseinheiten innerhalb des Systems wird eine Beschreibung des Gesamtbetriebs des Systems beschrieben. Anfänglich können eine Vielzahl von Textdatenstücken von ungleichartigen Orten wie z.B. dem Internet gesammelt werden. Als Nächstes werden diese Textdatenstücke verarbeitet, wie unten beschrieben, um eine Liste von Wendungen und Worten (das Lexikon) zu erzeugen, die den Inhalt der Textdatenstücke vermitteln. Normalerweise sind diese Wendungen und Worte Substantive, da Substantive im Allgemeinen die meisten Informationen über den Inhalt eines Textdatenstücks liefern. Die Verarbeitung der Textdaten kann stattfinden, bevor ein Benutzer versucht, Daten aus dem System wiederzugewinnen. Jedes Textdatenstück kann dann mit diesem Lexikon verglichen werden, um einen Index für jedes Textdatenstück zu erzeugen, das die Worte oder Wendungen enthält, die den Kontext oder Inhalt jedes Textdatenstücks vermitteln. Ein Benutzer kann dem System dann ein Filterwort zur Verfügung stellen, welches der Reihe nach Indizes eliminiert, die das Filterwort nicht enthalten. Als nächstes werden die restlichen Indizes als Gruppen miteinander gruppiert, wie unten beschrieben, so das Wendungen mit einem gewissen Grad an Zusammenhang miteinander gruppiert werden. Diese Gruppen und der Grad an Zusammenhang dieser Gruppen können für einen Benutzer des Systems grafisch als Karten angezeigt werden, und die Karten können eine hierarchische Struktur haben, so dass sich Gruppen mit verschiedenen Graden an Zusammenhang auf verschiedenen Karten befinden. Diese Karten können für den Benutzer angezeigt werden, der die Karten prüfen und sich durch die hierarchische Struktur der Karten bewegen kann, um die relevanten Gruppen ausfindig zu machen. Sobald der Benutzer eine oder mehrere angezeigte Gruppen gewählt hat, kann das System eine Zusammenfassung jedes Textdatenstücks anzeigen, das die ausgewählten Gruppen enthält. Das System reduziert die Textdaten auf die Indizes, erzeugt eine Vielzahl von Karten mit einer hierarchischen Struktur und zeigt die Informationen für den Benutzer zur Prüfung grafisch an, so dass der Benutzer Textdaten aus einer enormen Menge Textdaten wiedergewinnen kann, aber dennoch die tatsächlichen Textdaten betrachten kann. Das System kann außerdem in verschiedenen Zeitpunkten automatisch eine Karte erzeugen und die Kar ten unter Verwendung eines Wörterbuchs miteinander zu vergleichen, um Änderungen in den in den Karten gezeigten Zusammenhängen, als Szenarien bekannt, ausfindig zu machen und anzuzeigen. Jetzt werden die Details des Systems beschrieben.
Innerhalb des Servers 91 kann der Text 92 in eine Extrahiereinrichtung 96 eintreten, die den Text verarbeitet, wie unten beschrieben, und auf Basis der Textdaten ein Lexikon 100 erzeugt. Das Lexikon kann in einem Datenbankmanagementsystem (DBMS) 98 gespeichert werden. Ein Lexikon kann eine Liste von einer oder mehreren Wortgruppen sein, die aus dem Text extrahiert worden sind, wie unten unter Bezugnahme auf 9 beschrieben wird. Ein Wörterbuch 102 ist eine kompliziertere Datenstruktur, die mit einem Lexikon beginnt und den Wortgruppen Kennungen hinzufügt, welche jede Wortgruppe nach inhaltsbasierten Konzepten klassifiziert, wie zum Beispiel Akteuren, Funktionen und Themen. Das zur semiotischen Verarbeitung der Karten benutzte Wörterbuch wird unten unter Bezugnahme auf 10 beschrieben. Weder das Lexikon noch das Wörterbuch enthalten Worte oder Wendungen, die nicht zu einem Verständnis des Inhalts oder Kontextes der Textdaten beitragen, wie unten beschrieben.
Das Lexikon kann eine Liste von Wendungen sein, die den Inhalt der Textdaten vermitteln. Als ein Beispiel kann eine Webseite ein Tattoo anzeigen, das den folgenden Bildtext aufweist: "Von links nach rechts: Meine neueste Hinzufügung, die purpurnen Rosen – Februar 1995 -'Big John', Tinte und Eisen. Gelbe Rose und Herz. 'Schlange' Südwest Tattoo" und kann in Übereinstimmung mit der Erfindung daraus extrahierte Wendungen aufweisen, die genügend Kontext liefern, um den Inhalt der Textdaten zu bestimmen. Die extrahierten Wendungen können "neueste Hinzufügung", "purpurne Rosen", "Big John", "Gelbe Rose" und "Südwest Tattoo" sein. Diese Wendungen versorgen einen Leser mit genügend Informationen über die Textdaten, um den Inhalt der Webseite zu bestimmen.
Bei der Erzeugung des Lexikons sind Zweiwortwendungen, als Bigramme bekannt, wichtig. Bigramme sind wichtig, da sie das immanente Problem mit Sprache lösen können, wie oben beschrieben, dass ein einzelnes Wort mehrere Bedeutungen haben kann, je nach dem Kontext, in dem das Wort benutzt wird. Das oben zitierte Beispiel war, dass "Bank" eine Sparkasse oder eine Sitzbank sein kann und man allein auf Basis des Wortes Bank nicht bestimmen kann, welche. Als ein anderes Beispiel hat das Wort "Internet" einen unscharfen Umfang und kann mehrere verschiedene Kontexte haben, während das Bigramm "Internet Protokoll" es erlaubt, den Inhalt schnell zu bestimmen. Als ein anderes Beispiel kann das Wort "Stück" ein Stück Land oder ein Bühnenstück bedeuten. Die Bigramme "Stück Land" und "aufgeführtes Stück" können die Bedeutung des Wortes "Stück jedoch klären. Es gibt einige Einzelworte, die ebenfalls Inhalt vermitteln können, wie z.B. "Clinton". Das Lexikon wird unten detaillierter beschrieben.
Zurück zu 5, vergleicht eine Indexiereinheit 104 die Textdaten 92, die andere oder dieselben wie die zur Erzeugung des Lexikons benutzten Textdaten sein können, mit dem Lexikon 100, wie in 7 gezeigt und unten detaillierter beschrieben, und erzeugt einen Index 106 für jedes Textdatenstück. Der Index kann im DBMS 98 gespeichert werden und kann eine Liste von Wendungen in jedem Textdatenstück sein, die auch im Lexikon enthalten sind. Der Index kann in eine Gruppiereinheit 108 eingespeist werden, die Wendungen innerhalb der Indizes, die einen gewissen Grad an Zusammenhang miteinander haben, gruppieren kann, wie unten beschrieben, und Gruppen 110 erzeugen kann, die ebenfalls im DBMS 98 gespeichert werden können. Eine grafische Darstellung der Gruppen, wie unten beschrieben und in 15–17 gezeigt, kann von einer Kartengeneratoreinheit 111 erzeugt werden. Die grafischen Darstellungen der Gruppen 112, als Karten bekannt, können im DBMS gespeichert werden und können zur Client-Software 93 heruntergeladen werden, so dass die Karten durch die Client-Software angezeigt werden. Es kann eine Vielzahl von Karten geben, die in einer hierarchischen Struktur organisiert sind, so dass sich Gruppen mit verschiedenen Graden an Zusammenhang auf verschiedenen Karten befinden. Der Benutzer kann dann die Karten betrachten und auf Basis der Auswahlen (Anforderungen) 94 des Benutzers durch die hierarchische Struktur navigieren, wie oben beschrieben, und kann eine oder mehrere Gruppen auswählen, die relevant erscheinen. Jede Gruppe kann einem oder mehreren Textstücken entsprechen. Der Server 91 kann dann Zusammenfassungen erzeugen, die die Abschnitte dieser Textstücke enthalten, die die ausgewählten Gruppen enthalten, und diese Zusammenfassungen 116 werden auf dem Client-Computer 93 angezeigt. Die Karten 112 können unter Verwendung des Wörterbuchs 102 semiotisch verarbeitet 118 werden, um ein Szenario 120 zu erzeugen. Das Szenario kann auf dem Client-Computer 93 angezeigt werden und kann Änderungen in den in den Karten angezeigten Zusammenhängen über eine Zeitspanne hinweg anzeigen. Unter Bezugnahme auf 6A und 6B wird jetzt ein Gesamtverfahren zur Verarbeitung und Wiedergewinnung von Textdaten beschrieben.
6A ist ein Flussdiagramm, das ein Kartierungsverfahren 130 zur Verarbeitung und Wiedergewinnung von Textdaten unter Verwendung des Systems von 4 in Übereinstimmung mit der Erfindung darstellt. Zuerst können eine Vielzahl von Textdatenstücken von ungleichartigen Orten gesammelt und in der Datenbank gespeichert werden und können dann verarbeitet 132 werden, um ein Lexikon zu erzeugen, wie oben beschrieben. Die Verarbeitung kann Worte, als "Leerworte" bekannt, aus den Textdatenstücken entfernen, die keinerlei Inhalt zu den Textdaten beitragen. Zum Beispiel können Artikel wie z.B. "ein" und "der", Präpositionen und Verben, neben anderen Worten, entfernt werden, weil diese Leerworte die Textdaten mit keinerlei Inhalt versehen. Zum Beispiel sind die Inhaltsworte der Wendung "Präsident Clinton ging diesen Morgen mit Senator Bob Dole laufen" die Worte "Präsident Clinton", "laufen", "Morgen" und "Senator Bob Dole". Die Verarbeitung des Textes wird unter Bezugnahme auf 8 detaillierter beschrieben. Während der Textverarbeitung kann jedes Textdatenstück mit dem Lexikon verglichen werden und wird ein Index für jedes Textdatenstück erzeugt. Daher ist die Ausgabe der Verarbeitung ein Index für jedes Textdatenstück, der eine Liste der Wendungen enthält, die im Textdatenstück und im Lexikon auftauchen. Der Index ist eine Version eines Textdatenstücks, die nur Worte oder Wendungen enthält, die ein Verständnis des Inhalts des Textdatenstücks ermöglichen. Im Schritt 134 können die Indizes gruppiert werden, wobei Wendungen, die häufiger zusammen als getrennt auftauchen, miteinander verbunden werden, wie unten beschrieben. Daher weist jedes Textdatenstück eine oder mehrere damit verbundene Wendungsgruppen auf.
Die Verarbeitung kann vorzugsweise zu einem Zeitpunkt stattfinden, bevor irgendein Benutzer irgendwelche Textdaten aus dem System wiederzugewinnen versucht, so dass eine Suche des Benutzers durch den Verarbeitungsschritt nicht verzögert wird, kann aber auch während der Wiedergewinnung stattfinden. Der Rest der Schritte kann in Echtzeit stattfinden, wenn der Benutzer Textdaten wiederzugewinnen versucht. Die erzeugten Gruppen können im Server gespeichert werden und können im Schritt 136 auf Basis eines von einem Benutzer eingegebenen breiten Filterworts, das den Typ von Informationen, an denen der Benutzer interessiert ist, allgemein beschreibt, zu erzeug ten gefilterten Indizes gefiltert werden. Dieses breite Filterwort ist keine Schlüsselwortfrage, sondern ist ein kontextbasierter Filter, angewandt auf die Indizes, um die Datenmenge zu reduzieren, die der Benutzer durchblättern muss. Das breite Filterwort kann die Textdatenmenge auch durch Einschränken der Textdaten auf Basis von zum Beispiel Datum, Ursprung, einschränken. Daher können die Textdaten auf Basis von mehreren verschiedenen Kriterien gefiltert werden. Zum Beispiel, wenn der Benutzer nach Artikeln über Flugzeugfirmenmanager sucht, kann das breite Filterwort "Flugzeug" oder "Luftfahrzeug" sein. Im Schritt 138 benutzt der Server die gefilterten Indizes oder Gruppen von Worten oder Wendungen, wie unten beschrieben, und verbindet die Gruppen miteinander zu einer oder mehreren grafischen Karten, wie in 15–17 gezeigt. Diese Textverarbeitungsschritte erlauben es dem Benutzer des Systems, die tatsächlichen Worte und Wortgruppen in den Textdaten zu betrachten und die Wortgruppen zu durchblättern, um die gewünschten Informationen ausfindig zu machen. Diese Textverarbeitungsschritte sind Teil der Bottom-Up-Methode des Systems in Übereinstimmung mit der Erfindung. Es wird nun ein Überblick über das Verfahren zur Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung beschrieben.
Die folgenden Schritte beschreiben, wie ein Benutzer Textdaten wiedergewinnt, und erzeugen Szenarien in Übereinstimmung mit der Erfindung. Diese Wiedergewinnungsschritte erlauben es einem Benutzer, die grafisch angezeigten Gruppen schnell zu durchsuchen und die relevanten Textdatenstücke ausfindig zu machen. Zuerst, im Schritt 140, werden die vorher erzeugten Karten durch die Client-Software angezeigt, damit sie der Benutzer betrachten kann. Die Karten, wie unten beschrieben und in 15–17 gezeigt, können außerdem Verknüpfungen mit anderen Karten aufweisen, die detailliertere Gruppen aufweisen können. Die Karten können semiotisch verarbeitet 141 werden, um Szenarien zu erzeugen, wie unten unter Bezugnahme auf 6B beschrieben. Im Schritt 142 kann der Benutzer eine oder mehrere Gruppen aus den Karten auswählen, und das System wird im Schritt 143 die Zusammenfassungen der Textstücke in der Datenbank anzeigen, die die eine oder mehreren vom Benutzer ausgewählten Gruppen enthalten. Im Schritt 144 kann der Benutzer wählen, eine andere Suche durchzuführen. In Übereinstimmung mit der Erfindung kann die zusätzliche Suche von irgendeinem Punkt gestartet werden, so dass das Verfahren zum Schritt 136 oder 140 zurückkehren kann, je nachdem, ob der Benutzer die zusätzliche Suche starten möchte. Sind keine zusätzlichen Suchen erforderlich, endet das Verfahren. Die Details der Textverarbeitungsschritte, die ein Teil des in 6A gezeigten Gesamtverfahrens sind, werden nun unter Bezugnahme auf 7 und 8 beschrieben.
6B ist ein Flussdiagramm eines Musterungsverfahrens 145, das Teil des Gesamtverfahrens ist und mit dem Kartierungsverfahren kombiniert werden kann. Im Schritt 146 kann auf Basis des Lexikons ein Wörterbuch erzeugt werden. Die Details des Wörterbuchs werden mit Bezug auf 10 beschrieben, worin Worte und Wendungen im Lexikon damit verbundene Kennungen aufweisen, die anzeigen, ob das Wort oder die Wendung zum Beispiel ein Akteur, eine Funktion oder ein Thema ist. Als Nächstes, im Schritt 147, können die Gruppen auf den ein oder mehr Karten unter Verwendung des Wörterbuchs verarbeitet werden, um im Schritt 148 ein Szenario zu erzeugen. Die Karten können in verschiedenen Zeitpunkten (z.B. einmal pro Woche) erzeugt werden, und die Verarbeitung erkennt Änderungen in den Zusammenhängen der Gruppen auf den Karten, als das Szenario bekannt. Zum Beispiel kann eine Vielzahl von Karten mit Schwerpunkt auf einer Firma X verarbeitet werden, um ein Szenario zu erzeugen, welches anzeigt, dass ein Angestellter in Schlüsselposition die Firma X mit einer Technologie verlassen hat. Dieser Typ von Szenario kann für eine andere Firma wertvoll sein, die mit der Firma X im Wettbewerb steht oder erwägt, die Firma X zu erwerben.
Die semiotische Verarbeitung unter Verwendung des Wörterbuchs reduziert die Informationen in den Karten auf ein leicht zu prüfendes Format von drei Grundtypen von Informationen: 1) wer steht im Text (Person); 2) was macht die Person (Funktion); und 3) was ist der Kontext (Thema). Durch Mustern der Karten kann daher bestimmt werden, dass zum Beispiel eine Firma in einer gewöhnlichen Industrie jetzt in eine neue Industrie eingetreten ist.
Die semiotische Verarbeitung unter Verwendung des Wörterbuchs konzentriert sich auf die Erstellung von Geschichten (wer, was, Kontext) auf Basis der Karten, so dass ein Benutzer ein Textstück leicht prüfen kann. Zum Beispiel kann ein langer Artikel über eine Person in Verbindung mit zwei getrennten Firmen auf die Person und ihre Beziehungen zu beiden Firmen reduziert werden. Die semiotische Verarbeitung kann auch sich ändernde Beziehungen erkennen. Jetzt wird ein Verfahren zur Erzeugung einer Karte beschrieben.
7 zeigt schematisch ein Verfahren 150 zum Ausbilden einer Karte in Übereinstimmung mit der Erfindung. Ein Lexikon 152 und ein Textstück 154 werden miteinander verglichen. Eine Schnittmenge 155 der Wendungen in den Textdaten und in der semiotischen Datenstruktur kann als ein Index gespeichert werden. Die Indizes für eine Vielzahl der Textdaten können dann gruppiert werden, wie unten beschrieben, und in eine Karte 156 umgewandelt werden. Die Karte kann eine Vielzahl von Knoten 157, die in den Indizes enthaltene Wendungen repräsentieren, und eine Vielzahl von Verknüpfungen 158 aufweisen, die die miteinander gruppierten Knoten miteinander verknüpfen.
8 ist ein Flussdiagramm, das ein Verfahren 160 zur Textverarbeitung in Übereinstimmung mit der Erfindung zeigt, das ein Teil des in 6A gezeigten Gesamtverfahrens ist. Diese Textverarbeitungsschritte können in einem beliebigen Zeitpunkt durchgeführt werden, werden vorzugsweise aber immer dann durchgeführt, wenn Textdaten im Server aktualisiert oder hinzugefügt werden, so dass die Textverarbeitung nicht stattfindet, während der Benutzer Textdaten wiederzugewinnen versucht. In einem ersten Schritt 162 werden eine Vielzahl von Textstücken, die Dokumente, Webseiten, E-Mail-Nachrichten oder News-Einlieferungen oder eine Kombination all dieser sein können, miteinander gesammelt und im System gespeichert. Im Internet-Kontext können diese Textstücke durch eine auf dem Server laufende Textsammel-Softwareanwendung gesammelt werden, als Roboter bekannt, und können von einer Vielzahl von getrennten Orten auf einem Großraumnetz wie z.B. dem Internet stammen. Für das Intranet-System können sich die Textstücke schon in einer Datenbank oder in einem Computer befinden, der alle E-Mail-Nachrichten für die Firma speichert. Sobald die Textstücke gesammelt worden sind, kann im Schritt 164 ein Lexikon aus den gesammelten Textstücken extrahiert werden. Das Lexikon wird unter Bezugnahme auf 9 beschrieben. Die Textverarbeitung filtert alle Textdatenstücke, entfernt Leerworte, die zum Kontext der Textstücke nicht beitragen, wie z.B. Stoppworte wie "ein", "der", "bei", und behält nur Wendungen zurück, die tendenziell den Inhalt des bestimmten Textstückes vermitteln. Im Allgemeinen enthalten diese Wendungen zwei bis sechs Worte. Daher ist die Ausgabe ein Lexikon, das eine Liste von Wendungen sein kann, die als wertvoll angesehen werden zu Zwecken der Reduktion jedes Textstücks auf die wesentlichen Wortgruppen, die den Inhalt des Textstücks vermitteln. Die Erzeugung des Lexikons kann kontinuierlich stattfinden, sogar während gerade Indizes erzeugt werden, so dass, wenn zusätzliche Textstücke gesammelt und analysiert werden, Worte zum Lexikon hinzugefügt und dann indexiert werden können.
Wenn das Lexikon gerade erzeugt wird oder nachdem das Lexikon erzeugt worden ist, kann jedes Textstück im Schritt 168 mit dem Lexikon verglichen werden, um im Schritt 169 einen Index zu erzeugen. Der Index kann eine Liste von Wendungen (zwei oder mehr Worte) oder Worte enthalten, die sowohl in dem Textdatenstück als auch dem Lexikon auftauchen. Daher enthält der Index für jedes Textdatenstück die Liste von Worten oder Wendungen, die den Inhalt und/oder den Kontext jedes Textdatenstücks vermitteln. Den Index kann man sich als eine reduzierte Version jedes Textstücks vorstellen, da alle Leerworte entfernt werden und nur die restlichen Kontextworte in jedem Textstücks gespeichert werden. Die Leerworte können in einer Stoppliste, wie unten beschrieben, zusammen mit Satzzeichen enthalten sein. Diese Leerworte fügen dem Text keinen Kontext hinzu und können entfernt werden, indem jedes Textdatenstück mit der Stoppliste verglichen wird und die Stopplistenworte entfernt werden. Sobald jedes Textstück indexiert worden ist können einige der Indizes verwendet werden, wie oben beschrieben, um Gruppen und Karten dieser Gruppen zu erzeugen, so dass ein Benutzer relevante Textstücke in einer großen Menge Textdaten ausfindig machen und daraus wiedergewinnen kann, ohne auf eine Schlüsselwortsuche zurückgreifen zu müssen. Jetzt wird ein Verfahren zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung beschrieben.
9 ist ein Flussdiagramm eines Verfahrens 170 zur Erzeugung eines Lexikons in Übereinstimmung mit der Erfindung. Wie oben beschrieben, kann das Lexikon eine Liste von Wendungen sein, wobei jede Wendung vorzugsweise aus zwei bis sechs Worten besteht, die einem Textstück die größte Menge Kontext verleihen. Das Lexikon kann auch aus individuellen Worten bestehen. Sobald die Textstücke gesammelt worden sind, kann eine Folge von drei Verarbeitungsschritten durchgeführt werden, um bestimmte vordefinierte Elemente aus den Textdaten zu entfernen. Diese Verarbeitungsschritte können zum Beispiel Extraktion von Eigennamen und Gattungsnamen, Extraktion von wiederholten Segmenten und Syntaxanalyse umfassen, wie in den Schritten 172, 174 und 176 gezeigt. Jeder dieser Verarbeitungsschritte, welche unten beschrieben werden, kann in einem einzelnen Durchgang durch die Textstücke stattfinden, jeder durch ein anderes auf dem Server laufendes Stück Software, die bestimmte Worte oder Gruppen von Worten aus den Textdaten extrahiert, jeder Schritt wird aber getrennt beschrieben. Zum Verständnis dieser Verarbeitungsschritte muss man verstehen, dass das System in Übereinstimmung mit der Erfindung eine Liste von Stoppworten aufweisen kann, die im System gespeichert sind. Die Stoppliste wurde oben unter Bezugnahme auf 6A beschrieben. Vor irgendeinem der unten beschriebenen Verarbeitungsschritte können alle in der Stoppliste enthaltenen Worte aus jedem Textdatenstück entfernt werden.
Im Schritt 172 zur Extraktion von Eigennamen und Gattungsnamen werden Eigennamen und Gattungsnamen identifiziert und aus jedem Textstück extrahiert. Zur Extraktion der Eigennamen wird der Text analysiert, und Worte mit groß geschriebenen ersten Buchstaben werden extrahiert, wie z.B. "Bill Clinton". Die extrahierten Worte werden als Eigennamen angenommen und können auf Basis von einfachen empirischen Regeln gefiltert werden, um schlagwortartige Sequenzen zu vermeiden. Um die Eigennamen zu extrahieren, wird der Text analysiert, wobei alle Stopplistenworte, alle Satzzeichen und alle Infinitiv-Verben ignoriert werden. Irgendwelche restlichen Wendungen mit mindestens zwei Worten, welche als Bigramme bekannt sind, werden als Gattungsnamen angenommen und in das Lexikon gesetzt. Als ein Beispiel werden ein kurzer Absatz und die in Übereinstimmung mit der Erfindung daraus extrahierten Gattungsnamen-Wendungen gezeigt. Der Absatz kann sein:
"Wie in der thematischen Zusammenfassung erwähnt, berücksichtigt Designer keine Platzierung von Dimensionen gegen Merkmale, welche als theoretische Darstellungen angesehen werden könnten. Beispiele umfassen Profil oder Silhouette, Umrisse von Zylindern und anderen gekrümmten Teilen, wo die darstellende Geometrie direkt vom aktuellen Standpunkt abhängt."
Ersetzen wir alle zu der Stoppliste gehörenden Worte durch einen Schrägstrich, alle Brüche (wie z.B. Leerzeichen und Satzzeichen) durch einen Bindestrich und alle Infinitiv-Verben durch einen Sprung (">"), können drei Bigramme extrahiert werden, wie unten dargelegt. Nach der Verarbeitung sieht der Absatz aus wie:
- / / / thematischen Zusammenfassung – erwähnt – > Designer / Platzierung / / / / – / / theoretische Darstellungen > / > – Beispiele > / / / – / / / / / Zylindern / / gekrümmten / – / / darstellende Geometrie / / aktuellen Standpunkt – abhängt – –
Wie man sieht, ist der Absatz wesentlich reduziert worden, und es können die folgenden Gattungsname-Bigramme extrahiert werden: "thematischen Zusammenfassung", "theoretische Darstellungen", "darstellende Geometrie" und aktuellen Standpunkt". Außerdem kann "Designer" als Eigenname extrahiert werden. Jetzt wird die Extraktion von wiederholten Segmenten beschrieben.
Im Schritt 174 der Extraktion von wiederholten Segmenten können Wendungen oder Sequenzen aus zwei bis sechs Worten in jedem Textstück ausfindig gemacht werden, indem die Stoppliste und irgendwelche anderen Leerworte herausgefiltert werden, wie oben beschrieben. Bei der Extraktion von wiederholten Segmenten werden Segmente von Worten, welche wiederholt werden, erkannt, um ihren idiomatischen Wert zu erfassen, und können extrahiert werden. Typischerweise sind die am häufigsten wiederholten Wortgruppen Zweiwort-Wendungen, als Bigramme bekannt. Irgendwelche wiederholten Wendungen können in das Lexikon aufgenommen werden. Die besten Wendungen zu Zwecken der Erzeugung des Lexikons enthalten gewöhnlich zwei oder drei Worte. Irgendwelche dieser Wendungen oder Sequenzen, die wiederholt werden, werden im Lexikon gespeichert. Es wird nun ein Beispiel für die Extraktion von wiederholten Segmenten beschrieben. In einer großen Zahl von neuen Geschichten gab es 37.976 Segmente, doch waren über 25.000 der wiederholten Segmente Bigramme, welche "in dem" "von den" und "auf dem" umfassten, welche herausgefiltert werden können, da sie Stoppworte enthalten. Die wiederholten Segmente können neben den anderen Bigrammen aber auch die Bigramme "Betriebs-System", "Festplatten-Laufwerk", "CD-Rom-Laufwerk" und "Home-Page" enthalten. Diese Bigramme können in der semiotischen Datenstruktur gespeichert werden, da sie keine Stoppworte enthalten und zum Verständnis eines Textstücks beitragen.
Der Syntaxanalyseschritt 176 kann für das Intranet-System verwendet werden, wie oben beschrieben, ist aber normalerweise nicht für den Internet-Kontext zweckmäßig, da das Volumen von Textinformationen im Internet-Kontext zu groß ist, um effiziente, zeitige Syntaxanalyse zu erlauben. Der Syntaxanalysator kann jedes Textstück analysieren und jedes Wort nach seiner Wortart, wie zum Beispiel ein Substantiv, ein Verb, ein Adjektiv oder ein Adverb, kategorisieren. Zur Durchführung dieser Analyse kann das System eine Vielzahl von Schablonen aufweisen, die eine Liste der Wortarten oder Kombination der Wortarten enthalten kann, die dem Lexikon hinzuzufügen sind. Zum Beispiel kann eine Schablone anzeigen, dass alle Verb-Verb-Kombinationen nicht im Lexikon zu speichern sind. In Übereinstimmung mit der Erfindung vermeiden diese Schablonen Verb-Wendungen und konzentrieren sich auf Substantiv-Wendungen. Wie oben beschrieben, fügt eine Verb-Wendung in einem Satz, wie z.B. "könnte gehen" in dem Satz "Bill Clinton könnte nach Asien gehen", einem Satz keinerlei Kontext hinzu. Die Kontextworte in dem Satz sind "Bill Clinton" und "Asien", welche Substantiv-Wendungen sind. Diese Schablonen und die Syntaxanalyse helfen, unerwünschte Wendungen und Worte noch mehr aus den Textstücken herauszufiltern.
Wie oben beschrieben, findet die Erzeugung der semiotischen Datenstruktur konstant statt, so dass, wenn zusätzliche Textdatenstücke gesammelt werden, die semiotische Datenstruktur aktualisiert wird, so dass sie irgendwelche Wendungen aus diesen neuen Textdatenstücken enthält. Daher wird die semiotische Datenstruktur konstant aufgebaut und immer dann verbessert, wenn irgendwelche neuen Textdatenstücke ausfindig gemacht werden. Im Laufe der Zeit wird die semiotische Datenstruktur daher klüger beim Entfernen von unerwünschten Wendungen und kann tatsächlich auf einen bestimmten Benutzer trainiert werden. Zum Beispiel kann eine Flugzeugfirma, die die Erfindung installiert hat, anfänglich die semiotische Datenstruktur unter Verwendung von Flugzeugartikeln erzeugen, so dass hauptsächlich flugzeugbezogene Wendungen in der semiotischen Datenstruktur gespeichert werden. Werden dem System andere Dokumente hinzugefügt, werden daher hauptsächlich flugzeugbezogene Wendungen extrahiert. Jetzt wird ein Verfahren zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung beschrieben.
10 ist ein Flussdiagramm, das ein Verfahren 180 zur Erzeugung eines Wörterbuchs in Übereinstimmung mit der Erfindung zeigt. Das Verfahren zur Erzeugung des Wörterbuchs beginnt im Schritt 182 mit Erzeugung eines Lexikons, wie oben beschrieben, da ein Wörterbuch auf einem Lexikon basiert. Das Wörterbuch ist ein Lexikon, das eher inhaltsbasiert ist, wie unten beschrieben. Das Lexikon kann im Schritt 184 nach verschiedenen inhaltsbasierten Kategorien analysiert werden, und im Schritt 186 können für jede Wendung im Lexikon inhaltsbasierte Kategorien erzeugt werden. Um das Lexikon nach inhaltsbasierten Kategorien zu analysieren, kann jede der Wendungen oder Wortgruppen im Lexikon zum Beispiel nach "ein Akteur", "eine Funktion" oder "ein Thema" kategorisiert werden. Ein Akteur kann eine Person sein, ein Thema kann irgendeine Art von Aktivität oder physischem Objekt sein, und eine Funktion ist irgendetwas, das den Akteur oder das Thema detaillierter beschreibt. Zum Beispiel kann die Wendung "Bill Clinton unterzeichnete eine Abmachung in Bezug auf ein Joint-Venture zwischen Firmen für einen neuen Personal-Computer" auf die folgende Weise kategorisiert werden. "Bill Clinton" ist ein Akteur, "unterzeichnete eine Abmachung" und "Joint-Venture" können Funktionen sein, und "Personal-Computer" kann ein Thema sein. Themen sind schwieriger zu definieren, da es eine große Zahl von verschiedenen Klassen und Teilklassen geben kann, doch kann man eine allgemeine Datenquelle verwendet, wie z.B. den Thesaurus von Roget, um die verschiedenen Themenklassen zu erzeugen, die man verwenden will, um die Wendungen im Lexikon zu klassifizieren. Die Ausgabe des inhaltsbasierten Kategorieanalysators ist ein Wörterbuch, wobei jede Wendung oder Wortgruppe im Lexikon einer oder mehreren inhaltsbasierten Kategoriekennungen zugeordnet ist. Zum Beispiel kann die Wendung "super Wetter" eine primäre Themenkennung (d. h. "Wetter" und eine sekundäre Kennung, die eine Funktion sein kann (d. h. "super"), aufweisen. Daher kann das Wörterbuch das Lexikon benutzen, verfeinert das Lexikon aber dann durch Hinzufügen der inhaltsbasierten Kategorien der Wendungen im Lexikon, wie z.B. ein Akteur, eine Funktion oder ein Thema. Wie oben beschrieben, kann entweder das Lexikon oder das Wörterbuch vom System benutzt werden, um den gesammelten Text zu verarbeiten. Jetzt wird ein Verfahren zur Konstruktion einer Gruppe und Karte in Übereinstimmung mit der Erfindung beschrieben.
11 ist ein Flussdiagramm eines Verfahrens 190 zur Erzeugung einer Gruppe und einer Karte der Gruppe in Übereinstimmung mit der Erfindung. Im Schritt 192 können die Indizes aller Textdatenstücke gesammelt werden, die das vom Benutzer ausgewählte breite Filterwort enthalten. In den Schritten 194–198 können die Indizes gruppiert werden, wie unten beschrieben. Die Eingabe in das Gruppierungssystem ist eine Vielzahl von Indizes für jedes Textstück. Die Wendungen, die häufig miteinander in Beziehung stehend gefunden werden, werden gruppiert. Der benutzte Gruppierungsalgorithmus kann einer von einer bekannten Zahl von Gruppierungsalgorithmen sein, wie z.B. der von Dr. Bertrand Michelet geschaffene Algorithmus. Das Grundprinzip des Algorithmus von Dr. Bertrand Michelet ist, das für zwei gegebene Worte die Wahrscheinlichkeit, dass die Worte voneinander getrennt sind, und die Wahrscheinlichkeit, dass die Worte zusammen gefunden werden, beide berechnet werden. Ist die Wahrscheinlichkeit, dass die Worte zusammen gefunden werden, größer als die Wahrscheinlichkeit, dass die Worte voneinander getrennt gefunden werden, werden die Worte miteinander gruppiert.
Sobald die Wendungen miteinander gruppiert worden sind, werden die gruppierten Wendungen für sämtliche Textdatenstücke in eine grafische Karte umgewandelt, und Beispiele dafür sind in 12 und 15–17 gezeigt. Die Karte enthält grafische Darstellungen der Wortgruppen und außerdem Linien, die einen Zusammenhang der Wortgruppen miteinander anzeigen. Da die Gruppen verschiedene Grade an Zusammenhang aufweisen, kann es eine Vielzahl von Karten geben, in einer hierarchischen Struktur organisiert, so dass sich Gruppen mit demselben Grad an Zusammenhang normalerweise auf derselben Karte befinden. Die Karte kann außerdem ein System zum Verbinden von Karten miteinander aufweisen, wie unten beschrieben. Im Schritt 194 werden durchgezogene Linien, wie in 15–17 gezeigt, zwischen Wortgruppen ausgebildet, um einen Zusammenhang zwischen den Wortgruppen anzuzeigen. Im Schritt 196 kann jede Karte außerdem eine Wortgruppe aufweisen, die als Verknüpfung mit anderen Karten wirken kann. Zum Beispiel kann die Wortgruppe eine anklickbare Schaltfläche sein, die den Benutzer zu der Karte bringt, die mit der Verknüpfung verbunden ist, wie in 16 gezeigt. In Übereinstimmung mit der Erfindung kann es daher eine Hierarchie von Karten geben, die in Beziehung stehende, aber verschiedene Wortgruppen abbilden.
Wie in 15–17 gezeigt können auf Basis der obigen Gruppierung die Zusammenhänge der Wendungen grafisch als eine Karte abgebildet werden. Zwecks Kartierung der Gruppen enthält eine Karte einer ersten, höchsten Ebene, die als Metakarte bekannt sein kann, das Filterwort des Benutzers und einige der nahestehendsten Wendungen. Zum Beispiel kann die Metakarte insgesamt fünfzehn Wendungen zeigen, die miteinander verknüpft sind, um das Wirrwarr auf dem Bildschirm möglichst klein zu machen. Die Zahl der auf jeder Karte gezeigten Gruppen kann reduziert werden, um die Klarheit zu erhöhen. Die Karte erlaubt es einem Benutzer, sich schnell und leicht ein Bild von den Mustern von Worten und Wendungen in den Textstücken zu machen, so dass der Benutzer bestimmen kann, welche die für die Zwecke seiner Suche relevantesten Wendungen sind.
12 zeigt ein einfaches Beispiel für die Kartierung von Worten in zwei verschiedenen Textstücken auf einer einzelnen Karte. Ein komplizierteres Beispiel wird unten unter Bezugnahme auf 15–18 beschrieben. Ein erstes Textstück 200 weist Wendungen A und B im Text auf, während ein zweites Textstück 202 Wendungen C und D im Text aufweist. Für die Zwecke dieses Beispiels nehme man an, dass das Lexikon oder Wörterbuch mindestens A, B und C enthält. Aus diesen zwei Textstücken, die sich an getrennten Orten befinden können, kann eine Karte 204 erzeugt werden. Die Karte kann eine erste Verknüpfung 206 zwischen A und B und eine zweite Verknüpfung 208 zwischen A und C aufweisen. Diese Verknüpfungen bilden grafisch ab, dass A und B in Beziehung stehen und A und C in Beziehung stehen, dass aber B und C keine Beziehung zueinander haben. Jetzt wird ein Verfahren zur Wiedergewinnung von Text unter Verwendung einer Karte in Übereinstimmung mit der Erfindung beschrieben.
13 ist ein Flussdiagramm eines Verfahrens 220 zur Wiedergewinnung von Text in Übereinstimmung mit der Erfindung. Das Verfahren ist Teil des in 6A gezeigten Gesamtverfahrens. Im Schritt 222 kann eine Karte höchster Ebene, die als die Metakarte bekannt sein kann, für den Benutzer angezeigt werden. Die Metakarte kann das vom Benutzer des Systems ausgewählte Filterwort und irgendwelche Wortgruppen enthalten, die eng mit dem Filterwort in Beziehung stehen. Ein Beispiel für eine Metakarte ist in 14 gezeigt und wird unten beschrieben. Im Schritt 224 kann ein Benutzer unter Verwendung der oben beschriebenen und wie in 16 gezeigten anklickbaren Schaltflächen wählen, zu einer tieferen Ebene der Karte zu wechseln. Wenn nicht, so kann der Benutzer im Schritt 226 irgendwelche relevanten Gruppen in der Metakarte auswählen, und im Schritt 228 zeigt das System auf Basis der ausgewählten Gruppen Extrakte der Textstücke an, die die ausgewählten Gruppen enthalten, wie in 18 gezeigt.
Wenn der Benutzer eine Karte tieferer Ebene auswählen möchte, so wechselt das System im Schritt 230 zu der Karte tieferer Ebene, als Zoomen bekannt. Der Benutzer kann weiterzoomen, bis die passende Karte angezeigt wird. Sodann, im Schritt 232, wählt der Benutzer die relevanten Gruppen aus, und im Schritt 228 werden Extrakte aus den Textstücken, die diese Gruppen enthalten, angezeigt. Im Schritt 234 kann ein Benutzer wählen, zusätzliche Suchen durchzuführen. Sollen mehr Suchen durchgeführt werden, schleift das Verfahren zurück zum Schritt 222 und beginnt erneut. Andernfalls endet das Verfahren.
Der Zoomprozess in Übereinstimmung mit der Erfindung kann auf mehreren Ebenen stattfinden. Zum Beispiel kann eine breite Karte das ganze World Wide Web auflisten, während eine Karte tieferer Ebene, zu der gezoomt werden kann, Gruppen enthalten kann, die mit einer bestimmten Website in Beziehung stehen, während eine Karte noch tieferer Ebene Gruppen enthalten kann, die mit einer individuellen Webseite in Beziehung stehen, und die Karte tiefster Ebene kann Gruppen enthalten, die mit einem Absatz auf einer Webseite in Beziehung stehen können. In einem anderen Beispiel kann eine Karte hoher Ebene Gruppen auflisten, die eine hohe Zahl von Malen auftreten, während die Karte tiefster Ebene Gruppen auflisten kann, die einmal auftauchen. Daher kann ein Benutzer die Detailebene wählen, die er prüfen möchte, und schnell von irgendeiner Ebene zu irgendeiner anderen Ebene wechseln. Jetzt wird ein Beispiel für eine Metakarte und mehrere Karten tieferer Ebene beschrieben.
14 ist eine Skizze, die ein Beispiel für eine Metakarte 240 zeigt, die eine erste Gruppe 242, eine zweite Gruppe 244 und eine dritte Gruppe 246 aufweisen kann, die miteinander in Beziehung stehen. Diese Gruppen stehen miteinander in Beziehung, da diese Gruppen in einem Textdatenstück nahe beieinander auftauchen. Jede dieser Gruppen höchster Ebene kann auch zu einer Karte tieferer Ebene gehören. Zum Beispiel gehört die erste Gruppe 242 zu einer Karte B1 248, die auch andere Gruppen enthält, die mit der ersten Gruppe in Beziehung stehen, aber nicht mit den Gruppen in der Metakarte in Beziehung stehen. Ähnlich gehört die zweite Gruppe 244 zu einer Karte B2 250, die auch andere Gruppen enthält, die damit in Beziehung stehen. Ähnlich gehört die dritte Gruppe 246 auch zu einer Karte B3 252, die auch andere Gruppen enthält, die mit der dritten Gruppe 246 in Beziehung stehen, aber nicht mit den auf der Metakarte angezeigten Gruppen in Beziehung stehen. Wenn der Benutzer zu einer Karte tieferer Ebene wechselt, können mehr Details der Gruppen gezeigt werden. Die Metakarte und Karten tieferer Ebenen und die hierarchische Struktur erlauben es einem Benutzer, durch eine größere Datenmenge zu navigieren, da die auf dem Bildschirm angezeigte Datenmenge begrenzt ist. Jetzt wird ein Beispiel für den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung beschrieben.
15–18 zeigen ein Beispiel für den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung. In diesem Beispiel wurde ein einzelnes Textdatenstück benutzt, das die Dokumentation für eine populäre E-Mail-Anwendung war. Die Dokumentation wurde unter Verwendung des Systems verarbeitet, wie oben beschrieben, um zuerst eine semiotische Datenstruktur zu erzeugen, die eine Liste von Worten oder Wendungen enthält, die den Inhalt oder Kontext der Dokumentation vermitteln, und danach kann ein Index der Dokumentation erzeugt werden, indem die Dokumentation mit der semiotischen Datenstruktur verglichen wird. Der Index enthält eine Liste von Worten, die sowohl in der semiotischen Datenstruktur als auch in der Dokumentation enthalten sind, und da in diesem Beispiel ein einzelnes Textdatenstück verwendet wurde, sind die semiotische Datenstruktur und der Index identisch. Der Index vermittelt den Inhalt oder Kontext der Dokumentation und kann eine strukturierte Zusammenfassung der Dokumentation sein. Die Worte oder Wendungen des Index können dann auf Basis des Grades an Zusammenhang der Worte oder Wendungen miteinander gruppiert werden, wie oben beschrieben, um Gruppen zu erzeugen. Aus diesen Gruppen kann eine grafische Karte erzeugt werden, wobei die Karte eine Vielzahl von Knoten, die jeweils eine Gruppe enthalten, und eine Vielzahl von Verknüpfungen umfassen kann, die Knoten verbinden, die miteinander in Beziehung stehen. Es wurde eine in 15 gezeigte Metakarte 260 höchster Ebene erzeugt, die einen Knoten 262, der das Filterwort des Benutzers enthält, wie z.B. "Dokument", und eine Vielzahl von anderen Knoten 264, 266 anzeigt, die mit dem Filterwort in Beziehung stehen. Die Metakarte kann außerdem Gruppen enthalten, die sowohl Gruppen in der Metakarte als auch Verknüpfungen mit einer Karte tieferer Ebene sind. Zum Beispiel kann die Gruppe 266 die Wendung "Appledouble" enthalten. Wie in 16 gezeigt, wenn ein Benutzer die Gruppe 266 "Appledouble" anklickt, kann eine Karte 270 tieferer Ebene angezeigt werden, die die Gruppe 266 "Appledouble" enthält. Die Karte tieferer Ebene kann außerdem Gruppen enthalten, die mit der Wendung "Appledouble" in Beziehung stehen, aber nicht mit den in der Metakarte 260 gezeigten Gruppen in Beziehung stehen. Um zu der Metakarte zurückkehren zu können, kann die Karte tieferer Ebene außerdem den Knoten 262 "Dokument" enthalten. Daher sind die Gruppen auf eine hierarchische Weise organisiert, so dass in jedem Zeitpunkt eine begrenzte Menge Gruppen auf dem Bildschirm gezeigt werden. Auf diese Weise kann sich der Benutzer auf eine schnelle Weise durch alle Karten bewegen und die relevanten Gruppen ausfindig machen.
Sobald der Benutzer die passende Karte ausfindig gemacht hat, wie in 17 gezeigt, kann der Benutzer eine oder mehrere Gruppen auswählen, die die relevanten Wendungen zu enthalten scheinen. In diesem Beispiel kann der Benutzer die folgenden Gruppen auswählen: 1) Bin-Hex; 2) Format; 3) frühere Version von Eudora; und 4) alter Macintosh-Mailer. Das System verwendet dann diese ausgewählten Gruppen, um Textdatenstücke zu extrahieren, die die ausgewählten Gruppen enthalten. In diesem Beispiel, wie in 18 gezeigt, werden zwei verschiedene Extrakte angezeigt, welche es dem Benutzer zu bestimmen erlauben, ob die Dokumente relevant sind, ohne die gesamten Dokumente betrachten zu müssen. Nach dem Betrachten der Extrakte kann der Benutzer zu einer der Karten in der Hierarchie zurückkehren und fortfahren, andere Gruppen zu durchblättern.
Zusammengefasst liefert das System und Verfahren zur Verarbeitung und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung eine effiziente Methode, eine große Menge Textdaten zu durchsuchen, ohne eine Schlüsselwortsuche zu benutzen. Das System erzeugt zuerst ein Lexikon, das irgendwelche Worte entfernen kann, die die Textdaten mit keinerlei Inhalt versehen, und nur Worte oder Wendungen zurückbehält, die von einem Benutzer benutzt werden können, um den Inhalt eines Stücks Textdaten zu bestimmen. Wendungen und Bigramme liefern häufig die nützlichsten Informationen, um den Inhalt eines Textdatenstücks zu bestimmen. Das inhaltsbasierte Lexikon kann mit jedem Textdatenstück verglichen werden, um für jedes Textdatenstück einen Index zu erzeugen, der nur inhaltsbasierte Wendungen enthält, die die Textdaten mit Kontext versehen. Die Indizes können dann gruppiert werden, um Wendungen miteinander zu verbinden, wie oben beschrieben. Auf Basis dieser gruppierten Indizes kann eine Karte erzeugt werden, die die Wortgruppen und die Zusammenhänge der Gruppen miteinander grafisch darstellt. Die Karten können außerdem eine hierarchische Struktur haben, so dass eine reduzierte Zahl von Gruppen für den Benutzer angezeigt werden. Die Karten stellen dem Benutzer eine effiziente, schnelle Methode zum Durchblättern der Textdatenstücke und Auffinden der gewünschten Textdatenstücke mit minimaler Anstrengung zur Verfügung. Eine Vielzahl von Karten in verschiedenen Zeitpunkten können unter Verwendung eines Wörterbuchs verarbeitet werden, um Szenarien zu erzeugen, welche eine Änderung in den in den Karten gezeigten Beziehungen anzeigen können. Diese Änderungen können wertvolle Informationen zum Beispiel über eine Firma oder industrielle Trends liefern. Das System kann eine große Datenmenge effizient verarbeiten und es dem Benutzer dennoch erlauben, die Textdaten schnell zu durchsuchen.
Das Vorhergehende wurde zwar unter Bezugnahme auf eine bestimmte Ausführungsform der Erfindung beschrieben, der Fachmann erkennt aber, dass man Änderungen an dieser Ausführungsform vornehmen kann, ohne von den Prinzipien der Erfindung abzuweichen, deren Schutzbereich durch die beigefügten Ansprüche definiert ist.

Claims

Inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem (24, 90), welches Folgendes umfasst: Mittel zum Verarbeiten (104) einer Vielzahl von Textstücken (27, 42, 92) auf Basis des Inhalts, um einen Index (106) für jedes Textstück zu erzeugen, wobei der Index (106) eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben; und Mittel zum Gruppieren von Wendungen miteinander (108), um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen (110) zu erzeugen, gekennzeichnet durch: Mittel zum Erzeugen (91) einer hierarchischen Struktur (44), wobei die hierarchische Struktur eine Vielzahl von Karten (31–33, 48, 112) aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen (110) mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten (262, 264, 266, 157), wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen (158) aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
System nach Anspruch 1, bei dem die Verarbeitungsmittel Mittel zum Sammeln einer Vielzahl von Textstücken (27, 42, 92), Mittel zum Extrahieren eines Lexikons (29, 100, 152) aus den gesammelten Textstücken (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und Mittel zum Vergleichen des Lexikons mit jedem Textstück, um einen Index (106) für jedes Textstück zu erzeugen, aufweisen.
System nach Anspruch 2, bei dem die Sammelmittel eine Softwareanwendung (72) zum Sammeln von Textstücken aus dem Internet aufweisen.
System nach Anspruch 2, bei dem die Mittel (28) zum Extrahieren eines Lexikons Mittel zum Entfernen von Leerworten aus den Textstücken, Mittel zum Extrahieren von passenden und allgemeinen Substantiven aus den Textstücken, Mittel zum Extrahieren von Wendungen, die innerhalb eines Textstücks wiederholt werden, und Mittel zum Extrahieren von Substantiv-Wendungen aus den Textstücken (91) aufweisen.
System nach Anspruch 2, bei dem die Mittel zum Extrahieren von Substantiv-Wendungen Mittel zum Vergleichen einer Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone aufweisen, um Wendungen mit Substantiven zu extrahieren (91).
System nach Anspruch 2, das weiterhin Mittel zum Erzeugen einer semiotischen Datenstruktur auf Basis des Lexikons (26), wobei die semiotische Datenstruktur eine mit einem jedem Wort in dem Lexikon verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander auf Basis der semiotischen Datenstruktur, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt, aufweist.
System nach Anspruch 6, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
System nach Anspruch 2, das weiterhin Mittel zum Filtern der Indizes auf Basis von Filterkriterien, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen, und Mittel zum Erzeugen von einer oder mehreren Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken aufweist.
System nach Anspruch 1, das weiterhin Folgendes aufweist: Mittel zum Auswählen einer vorbestimmten Karte (49); Mittel, um die vorbestimmte Karte einem Benutzer anzuzeigen (47); Mittel zum Auswählen einer bestimmten auf der ausgewählten Karte angezeigten Gruppe (49); und Mittel zum Extrahieren eines Textabschnitts aus den Textstücken auf Basis der ausgewählten Gruppe (24, 90).
System nach Anspruch 9, bei dem die Verarbeitungsmittel Mittel zum Sammeln einer Vielzahl von Textstücken (27, 42, 92), Mittel zum Extrahieren eines Lexikons (29, 100, 152) aus den gesammelten Textstücken (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und Mittel zum Vergleichen des Lexikons mit jedem Textstück, um einen Index (106) für jedes Textstück zu erzeugen, aufweisen.
System nach Anspruch 10, bei dem die Sammelmittel eine Softwareanwendung (72) zum Sammeln von Textstücken aus dem Internet aufweisen.
System nach Anspruch 10, bei dem die Mittel (28) zum Extrahieren eines Lexikons Mittel zum Entfernen von Leerworten aus den Textstücken, Mittel zum Extrahieren von passenden und allgemeinen Substantiven aus den Textstücken, Mittel zum Extrahieren von Wendungen, die innerhalb eines Textstücks wiederholt werden, und Mittel zum Extrahieren von Substantiv-Wendungen aus den Textstücken (91) aufweisen.
System nach Anspruch 12, bei dem die Mittel zum Extrahieren von Substantiv Wendungen Mittel zum Vergleichen einer Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone aufweisen, um Wendungen mit Substantiven zu extrahieren.
System nach Anspruch 10, das weiterhin Mittel zum Erzeugen einer semiotischen Datenstruktur auf Basis des Lexikons (26), wobei die semiotische Datenstruktur eine mit einem jedem Wort in dem Lexikon verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander auf Basis der semiotischen Datenstruktur, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt, aufweist.
System nach Anspruch 14, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
System nach Anspruch 10, das weiterhin Mittel zum Filtern der Indizes auf Basis von Filterkriterien, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen (46), und Mittel zum Erzeugen von einer oder mehreren Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken (91) aufweist.
System nach Anspruch 1, das Folgendes aufweist: Mittel zum Erzeugen einer semiotischen Datenstruktur aus der Vielzahl von Textstücken, wobei die semiotische Datenstruktur eine Liste von Wendungen, die den Inhalt der Textstücke anzeigen, und eine mit einer jeden Wendung in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren des Worts nach seinem Inhalt aufweist, und Mittel zum Vergleichen einer Vielzahl von Karten miteinander, um ein Szenario (37, 120) zu erzeugen, welches Szenario Änderungen in dem durch die Karten grafisch dargestellten Zusammenhang anzeigt.
System nach Anspruch 17, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
Verfahren für ein inhaltsbasiertes Textverarbeitungs- und -wiedergewinnungssystem (24, 90), welches Folgendes umfasst: Verarbeiten einer Vielzahl von Textstücken (27, 42, 92) auf Basis des Inhalts, um einen Index (106) für jedes Textstück zu erzeugen, wobei der Index (106) eine Liste von Wendungen aufweist, die den Inhalt des Textstücks wiedergeben; Gruppieren von Wendungen miteinander, um auf Basis eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen Gruppen (110) zu erzeugen, gekennzeichnet durch: Erzeugen (91) einer hierarchischen Struktur (44), wobei die hierarchische Struktur eine Vielzahl von Karten (31–33, 48, 112) aufweist, wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die Gruppen (110) mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und eine Vielzahl von Knoten (262, 264, 266, 157), wobei jeder Knoten eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen (158) aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
Verfahren nach Anspruch 19, bei dem die Verarbeitung aufweist, eine Vielzahl von Textstücken (27, 42, 92) zu sammeln, aus den gesammelten Textstücken ein Lexikon (29, 100, 152) zu extrahieren (28), wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und das Lexikon mit jedem Textstück zu vergleichen, um einen Index (106) für jedes Textstück zu erzeugen.
Verfahren nach Anspruch 20, bei dem das Sammeln aufweist, eine Softwareanwendung (72) zu verwenden, um Textstücke aus dem Internet zu sammeln.
Verfahren nach Anspruch 20, bei dem das Extrahieren des Lexikons aufweist, Leerworte aus den Textstücken zu entfernen, passende und allgemeine Substantive aus den Textstücken zu extrahieren, Wendungen zu extrahieren, die innerhalb eines Textstücks wiederholt werden, und Substantiv-Wendungen aus den Textstücken zu extrahieren (91).
Verfahren nach Anspruch 22, bei dem das Extrahieren der Substantiv-Wendungen aufweist, eine Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone zu vergleichen, um Wendungen mit Substantiven zu extrahieren.
Verfahren nach Anspruch 20, das weiterhin aufweist, eine semiotische Datenstruktur auf Basis des Lexikons zu erzeugen (26), welche semiotische Datenstruktur eine mit einem jedem Wort in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren jedes Worts nach seinem Inhalt aufweist, und eine Vielzahl von Karten auf Basis der semiotischen Datenstruktur miteinander zu vergleichen, um ein Szenario zu erzeugen (26, 118), welches Szenario Änderungen in den durch die Karten gezeigten Zusammenhängen anzeigt.
Verfahren nach Anspruch 24, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
Verfahren nach Anspruch 20, das weiterhin aufweist, die Indizes auf Basis von Filterkriterien zu filtern, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen (46), und eine oder mehrere Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken zu erzeugen (91).
Verfahren nach Anspruch 19, das weiterhin Folgendes aufweist: eine vorbestimmte Karte auszuwählen (49); die vorbestimmte Karte einem Benutzer anzuzeigen (47); eine bestimmte auf der ausgewählten Karte angezeigte Gruppe auszuwählen (49); und einen Textabschnitt aus den Textstücken auf Basis der ausgewählten Gruppe zu extrahieren (24, 90).
Verfahren nach Anspruch 27, bei dem die Verarbeitung aufweist, eine Vielzahl von Textstücken (27, 42, 92) zu sammeln, aus den gesammelten Textstücken ein Lexikon (29, 100, 152) zu extrahieren, wobei das Lexikon eine Liste von Wendungen aufweist, die den Inhalt der Textstücke anzeigen, und das Lexikon mit jedem Textstück zu vergleichen, um einen Index (106) für jedes Textstück zu erzeugen.
Verfahren nach Anspruch 28, bei dem das Sammeln aufweist, eine Softwareanwendung (72) zu verwenden, um Textstücke aus dem Internet zu sammeln.
Verfahren nach Anspruch 28, bei dem das Extrahieren des Lexikons aufweist, Leerworte aus den Textstücken zu entfernen, passende und allgemeine Substantive aus den Textstücken zu extrahieren, Wendungen zu extrahieren, die innerhalb eines Textstücks wiederholt werden, und Substantiv-Wendungen aus den Textstücken zu extrahieren.
Verfahren nach Anspruch 30, bei dem das Extrahieren der Substantiv-Wendungen aufweist, eine Vielzahl von Wendungen innerhalb der Textstücke mit einer Schablone zu vergleichen, um Wendungen mit Substantiven zu extrahieren.
Verfahren nach Anspruch 28, das weiterhin aufweist, eine semiotische Datenstruktur auf Basis des Lexikons zu erzeugen, welche semiotische Datenstruktur eine mit einem jedem Wort in der semiotischen Datenstruktur verknüpfte Kennung zum Klassifizieren jedes Worts nach seinem Inhalt aufweist, und eine Vielzahl von Karten auf Basis der semiotischen Datenstruktur miteinander zu vergleichen, um ein Szenario (37, 120) zu erzeugen, welches Szenario Änderungen in den durch die Karten gezeigten Zusammenhängen anzeigt.
Verfahren nach Anspruch 32, bei dem die Kennung aus einer Kennung, die eine Person anzeigt, einer Kennung, die eine Funktion anzeigt, und einer Kennung, die ein Thema anzeigt, ausgewählt wird.
Verfahren nach Anspruch 28, das weiterhin aufweist, die Indizes auf Basis von Filterkriterien zu filtern, die ein Benutzer auswählt, um eine vorbestimmte Zahl von Textstücken auszuwählen, und eine oder mehrere Wortgruppen aus den Indizes der vorbestimmten Zahl von Textstücken zu erzeugen.