-
Hintergrund
der Erfindung
-
Die
Erfindung betrifft allgemein ein System und Verfahren zur Verarbeitung
und Wiedergewinnung von Text und insbesondere ein System und Verfahren
zur Verarbeitung von großen
Mengen Text und zur Erzeugung von Sichtanzeigen des Textes, die von
einem Benutzer schnell durchsucht werden können.
-
Eine
drastische Zunahme der Speicherkapazität und Abnahme der Kosten von
Computer-Festplattenlaufwerken, und Zunahmen der Übertragungsgeschwindigkeit
von Computerkommunikation und der Verarbeitungsgeschwindigkeit von
Computern und die Ausbreitung von Computerkommunikationsnetzen wie
z.B. einem schwarzen Brett oder dem Internet, haben alle zu der
umfassenden Speicherung und Wiedergewinnung von Textdateninformationen unter
Verwendung von Computerdatenbanken beigetragen. Durch diese Datenbanken
haben die Leute jetzt auch Zugang zu den großen Mengen Textdaten. Die Technik
erleichtert zwar Speicherung von und Zugang zu den Textdaten, es
gibt aber neue Probleme, die durch die großen Mengen Textdaten erzeugt
wurden, die jetzt verfügbar
sind.
-
Insbesondere
benötigt
eine Person, die auf Textdaten in einer Computerdatenbank zuzugreifen versucht,
die eine große
Menge Daten enthält,
ein System zum Analysieren der Daten, um die gewünschten Informationen schnell
und effizient wiederzugewinnen, ohne unzugehörige Informationen wiederzugewinnen.
Viele typische Textsuch- und -wiedergewinnungssysteme sind "Top-Down"-Systeme, bei denen
der Benutzer eine Suchanfrage formuliert, aber keinen Zugang zu
den tatsächlichen
Textdaten hat, so dass der Benutzer die richtige Anfrage zum Erhalt
der gewünschten
Daten erraten muss. Ein konventionelles "Top-Down"-System zur Wiedergewinnung von Textdaten
ist ein Schlüsselwort-Suchsystem.
Im Schlüsselwort-Suchsystem
entwickelt ein Benutzer eine Suchanfrage, als Frage bekannt, unter Verwendung
eines oder mehrerer Schlüsselworte, und
danach wird unter Verwendung der Schlüsselworte eine Durchsuchung
der Datenbank durchgeführt.
Wenn der Benutzer die genauen Schlüsselworte kennt, die die gewünschten
Daten wiedergewinnen werden, kann die Schlüsselwortsuche nutzbare Ergebnisse
liefern. Doch die meisten Benutzer kennen nicht das genaue Schlüsselwort
oder die Kombination von Schlüsselworten,
das bzw. die die gewünsch ten
Daten hervorbringen wird. Und selbst wenn spezifisch gerichtete
Schlüsselworte
möglicherweise
die gewünschten
Daten wiedergewinnen, gewinnen sie möglicherweise auch eine große Menge
unzugehöriger
Daten wieder, die das Schlüsselwort
oder die Schlüsselworte
zufällig
enthalten. Der Benutzer muss dann sämtliche unzugehörigen Daten sichten,
um die gewünschten
Daten zu finden, was ein zeitraubender Prozess sein kann. Und wenn
die in einer Computerdatenbank durchsuchbare Datenmenge zunimmt,
wird der Sichtungsprozess noch zeitraubender.
-
Das
konventionelle schlüsselwortbasierte Datenwiedergewinnungssystem
hat außerdem
ein weiteres Problem, das mit den immanenten Eigenschaften der menschlichen
Sprache verknüpft
ist. Insbesondere kann es sein, dass ein vom Benutzer gewähltes Schlüsselwort
nicht zu den Worten im Text passt oder aus ein paar Gründen unzugehörige Informationen
wiedergewinnt. Erstens wählen
verschiedene Leute wahrscheinlich verschiedene Schlüsselworte,
um denselben Gegenstand zu beschreiben, da die Wahl der Schlüsselworte
von den Bedürfnissen,
der Erfahrung oder der Sprache der Person abhängt. Zum Beispiel kann es sein,
dass eine Person einen bestimmten Gegenstand eine "Bank" nennt, während eine
andere Person denselben Gegenstand eine "Bausparkasse" nennt. Daher würde eine Schlüsselwortsuche
nach "Bank" durch einen erfahreneren
Benutzer einen Artikel über
eine Bausparkasse möglicherweise
nicht wiedergewinnen, obwohl der Artikel möglicherweise ein relevantes
Stück Daten
ist. Zweitens kann dasselbe Wort mehr als eine bestimmte Bedeutung
haben. Insbesondere kann dasselbe Wort, wenn in verschiedenem Kontext
benutzt oder wenn von verschiedenen Leuten benutzt, eine andere
Bedeutung haben. Zum Beispiel kann es sein, dass das Schlüsselwort "Bank" Text über eine Sitzbank
oder eine Sparkasse wiedergewinnt, wenn nur Artikel über eine
Sparkasse gewünscht
sind. Daher kann ein Textstück,
das alle relevanten Schlüsselworte
enthält,
dennoch völlig
irrelevant sein.
-
Das
schlüsselwortbasierte
Textanalyse- und Wiedergewinnungssystem, wie oben beschrieben, ist ein
Top-Down-Textwiedergewinnungssystem. In einem Top-Down-Textwiedergewinnungssystem
wird vorausgesetzt, dass der Benutzer, der die Schlüsselwortsuche
durchführt,
die Informationen kennt, nach denen er sucht, und dies erlaubt es
dem Benutzer, die Datenbank abzufragen, um die gewünschten
Informationen ausfindig zu machen. In einem Top-Down-System hat
der Benutzer jedoch keinen Zugriff auf die tatsächlichen Textdaten und kann
die Worte im Text nicht mustern, um Auswahlen der passenden Schlüsselworte
zur Wiedergewinnung der gewünschten
Textdaten zu treffen. Andere Top-Down-Textwiedergewinnungssysteme
versuchen, einige der Unzulänglichkeiten
des Schlüsselwort-Textwiedergewinnungssystems
zu korrigieren, indem sie wendungsbasierte Suchen durchführen. Diese
gewinnen zwar weniger wahrscheinlich ganz irrelevante Textstücke, sie
können
aber eine größere Wahrscheinlichkeit
aufweisen, den gewünschten Text
zu verpassen, da es sein kann, dass die exakte Wendung im gewünschten
Text nicht vorhanden ist.
-
All
diese Textwiedergewinnungssysteme sind Top-Down-Textwiedergewinnungssysteme,
bei denen man Schlüsselworte
verwendet, um Textdatenstücke
wiederzugewinnen, und es gibt keinen Ansatz, einen inhaltsbasierten
Index der Textdaten zu verwenden. Keines dieser Systeme verwendet
eine Bottom-Up-Methode, bei der der Benutzer eine strukturierte
Version der tatsächlichen
Textdaten sieht. Die strukturierte Version der Textdaten kann aus
den Textdaten extrahierte Worte und Wendungen enthalten, die eine
Anzeige des Inhalts und/oder des Kontextes der Textdaten liefern,
so dass der Benutzer eine inhalts- und kontextbasierte Ansicht der
verfügbaren
Textdaten bekommen und eine Durchsuchung der Textdaten auf Basis
der inhaltbasierten Wendungen oder Worte durchführen kann. Die strukturierten inhaltsbasierten
Wendungen erlauben es einem Benutzer, leicht durch eine große Datenmenge
zu navigieren, da die inhaltsbasierten Wendungen einen leichten
Weg bereitstellen, eine große
Zahl von Wendungen schnell durchzusehen.
-
Es
besteht daher Bedarf nach einem verbesserten Textwiedergewinnungssystem
und Textwiedergewinnungsverfahren, welche diese und andere Probleme
von bekannten Systemen und Verfahren vermeiden, und die vorliegende
Erfindung ist auf dieses Ziel gerichtet.
-
Recent
trends in hierarchic document clustering: A critical review [Willett],
information processing & management,
Elsevier, Band 24, Nr. 5, 1998, Seiten 577–597, Barking, GB, ISSN: 0306-4573,
offenbart neue Forschungen über
die Verwendung von hierarchischen agglomerativen Gruppenbildungsverfahren
für Dokumentwiedergewinnung.
Dies umfasst die Offenbarung der Aufstellung einer Liste von Indexausdrücken für ein Dokument
und Gruppierung von Ausdrücken
aus Dokumenten.
-
Kurze Darstellung
der Erfindung
-
Die
vorliegende Erfindung ist in den unabhängigen Ansprüchen angegeben.
Die abhängigen Ansprüche geben
Ausführungsformen
der Erfindung an.
-
Die
Erfindung stellt in einer Ausführungsform ein
Textanalyse- und -wiedergewinnungssystem bereit, das eine Bottom-Up-Methode
verwendet, bei der der ganze Text unter Verwendung eines effizienten Kartierungsprozesses
verarbeitet wird, um den Benutzer mit einer grafischen inhaltsbasierten
Straßenkarte
des Textes zu versehen, so dass der Benutzer Wendungen der tatsächlichen
Textdaten sehen kann, um die gewünschten
Daten zu bestimmen. Das System kann auch die inhaltsbasierten Karten
mustern, um Informationen über Änderungen
in den Textdaten zu erzeugen. Insbesondere extrahiert die Erfindung während des
Kartierungsprozesses Worte oder Wendungen aus den Textdaten, die
als Wortgruppe miteinander gruppiert werden können, und diese Wortgruppen
können
miteinander kombiniert werden, um die inhaltsbasierten grafischen
Karten auszubilden. Die Karten, die grafisch angezeigt werden, erlauben es
dem Benutzer, ohne eine Schlüsselwortsuche schnell
durch die tatsächlichen
Textdaten zu navigieren und die relevanten Informationen ausfindig
zu machen. Der Musterungsprozess kann mit der Zeit eine Vielzahl
von Karten und Wortgruppen semiotisch verarbeiten, um Szenarien
zu erzeugen, die Änderungen
in den Karten und Gruppen anzeigen. Bei dieser Bottom-Up-Methode
muss ein Benutzer nicht die in den Textdaten benutzten Schlüsselworte
erraten, da der Benutzer die tatsächlichen Worte und Wendungen
in den Textdaten sieht.
-
Zur
Erzeugung der inhaltsbasierten Straßenkarte kann jedes Textdatenstück zerlegt
werden und können
Worte oder Wendungen in den Textdaten extrahiert werden. Bei den
meisten typischen informatorischen Textdaten kann der Inhalt der
Textdaten am leichtesten bestimmt werden durch Prüfen von
Gruppen von mehr als einem Wort (d. h. den Wendungen), die in den
Textdaten enthalten sind. Eine Wendung kann zwei Worte oder so viel
wie sechs Worte enthalten. Diese Wendungen liefern die meisten Informationen über den
Inhalt eines Textdatenstücks
und erlauben es einem Benutzer zu bestimmen, ob das Textdatenstück relevant
ist. Die Erfindung nutzt Wendungen bei der Verarbeitung jedes Textdatenstücks, um
jedes Textdatenstück
zusammenzufassen, ohne irgendwelchen Inhalt zu verlieren.
-
Die
Erfindung stellt in einer Ausführungsform auch
ein System und Verfahren bereit, welches dem Benutzer eine Übersichtkarte
anzeigen kann, welche es dem Benutzer erlaubt, Verknüpfungen
mit anderen Karten auszuwählen,
die spezifischere Textdateninformationen enthalten. Daher ist das
System insofern skalierbar, als verschiedene Karten erzeugt werden
können,
wobei jede Karte einen verschiedenen Grad an Spezifizität hat und
benutzt werden kann, um verschiedene Teilsätze der Textdaten wiederzugeben.
Ein Benutzer kann dann mit vielen verschiedenen Graden an Spezifizität nach Textdaten suchen,
je nach den gewünschten
Daten. Das System kann es dem Benutzer auch erlauben, Extrakte der
Textdaten anzuzeigen, die die vom Benutzer ausgewählten Wortgruppen
aufweisen, so dass der Benutzer schnell bestimmen kann, ob das Textdatenstück relevant
ist.
-
In Übereinstimmung
mit einer Ausführungsform
der Erfindung werden ein System und Verfahren zur Verarbeitung und
Wiedergewinnung von Textdaten bereitgestellt, bei denen eine Vielzahl
von Textstücken
auf Basis des Inhalts verarbeitet werden, um einen Index für jedes
Textstück
zu erzeugen, wobei der Index eine Liste von Wendungen aufweist,
die den Inhalt des Textstücks
wiedergeben. Die Wendungen werden miteinander gruppiert, um auf
Basis eines Grades an Zusammenhang der Wendungen Gruppen zu erzeugen,
und es wird eine hierarchische Struktur erzeugt, wobei die hierarchische
Struktur eine Vielzahl von Karten aufweist, wobei jede Karte einem
vorbestimmten Grad an Zusammenhang entspricht, wobei die Karte die
Gruppen mit dem vorbestimmten Grad an Zusammenhang grafisch darstellt und
eine Vielzahl von Knoten, wobei jeder Knoten eine Gruppe wiedergibt,
und eine Vielzahl von Verknüpfungen
aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
Die Karte wird einem Benutzer angezeigt, ein Benutzer wählt eine
bestimmte Gruppe auf der Karte aus, und auf Basis der vom Benutzer
ausgewählten
Gruppe wird ein Textabschnitt aus den Textstücken extrahiert.
-
In Übereinstimmung
mit einer Ausführungsform
der Erfindung werden ein inhaltsbasiertes Textverarbeitungs- und
-wiedergewinnungssystem und -verfahren bereitgestellt, welche umfassen:
Verarbeiten einer Vielzahl von Textstücken auf Basis des Inhalts,
um einen Index für
jedes Textstück
zu erzeugen, wobei der Index eine Liste von Wendungen aufweist,
die den Inhalt des Textstücks
wiedergeben, Gruppieren von Wendungen miteinander, um auf Basis
eines vorbestimmten Grades an Zusammenhang zwischen den Wendungen
Gruppen zu erzeugen, und Erzeugen einer hierarchischen Struktur,
wobei die hierarchische Struktur eine Vielzahl von Karten aufweist,
wobei jede Karte einem vorbestimmten Grad an Zusammenhang entspricht,
wobei die Karte die Gruppen mit dem vorbestimmten Grad an Zusammenhang
grafisch darstellt und eine Vielzahl von Knoten, wobei jeder Knoten
eine Gruppe wiedergibt, und eine Vielzahl von Verknüpfungen
aufweist, die Knoten verbinden, die miteinander in Beziehung stehen.
Aus der Vielzahl von Textstücken
kann eine semiotische Datenstruktur erzeugt werden, wobei die semiotische
Datenstruktur eine Liste von Wendungen, die den Inhalt der Textstücke anzeigen,
und eine Kennung aufweist, die mit einer jeden Wendung in der semiotischen
Datenstruktur verbunden ist, um das Wort nach seinem Inhalt zu klassifizieren,
und auf Basis der semiotischen Datenstruktur können eine Vielzahl von Karten
miteinander verglichen werden, um ein Szenario zu erzeugen, welches
Szenario Änderungen
in den durch die Karten grafisch dargestellten Zusammenhängen anzeigt.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems;
-
2 ist
eine grafische Ansicht eines gesamten kontext- und inhaltsbasierten
Bottom-Up-Textverarbeitungs-
und -wiedergewinnungssystems in Übereinstimmung
mit der Erfindung;
-
3 ist
eine grafische Ansicht eines Teils des kontext- und inhaltsbasierten
Bottom-Up-Textverarbeitungs-
und -wiedergewinnungssystems von 2;
-
4 zeigt
ein Computer-Client/Server-System, das ein Textverarbeitungs- und
-wiedergewinnungssystem in Übereinstimmung
mit der Erfindung verwenden kann;
-
5 ist
eine grafische Ansicht eines Textverarbeitungs- und -wiedergewinnungssystems
in Übereinstimmung
mit der Erfindung;
-
6A ist
ein Flussdiagramm eines Gesamtverfahrens zur Verarbeitung und Wiedergewinnung
von Textdaten in Übereinstimmung
mit der Erfindung;
-
6B ist
ein Flussdiagramm eines Verfahrens zur Erzeugung von Szenarien in Übereinstimmung
mit der Erfindung;
-
7 zeigt
eine Karte, die aus dem Vergleich eines Textstücks und einer semiotischen
Datenstruktur in Übereinstimmung
mit der Erfindung erzeugt wird;
-
8 ist
ein Flussdiagramm eines Verfahrens zur Verarbeitung von Textdaten
in Übereinstimmung
mit der Erfindung, welches ein Teil des in 6A gezeigten
Gesamtverfahrens ist;
-
9 ist
ein Flussdiagramm eines Verfahrens zur Erzeugung eines Lexikons
in Übereinstimmung
mit der Erfindung;
-
10 ist
ein Flussdiagramm eines Verfahrens zur Erzeugung eines Wörterbuchs
in Übereinstimmung
mit der Erfindung;
-
11 ist
ein Flussdiagramm eines Verfahrens zur Erzeugung einer Gruppe und
einer Karte in Übereinstimmung
mit der Erfindung;
-
12 ist
eine grafische Ansicht eines Beispiels für eine aus zwei Muster-Textstücken erzeugten
Karte;
-
13 ist
ein Flussdiagramm eines Verfahrens zur Wiedergewinnung von Textdaten
in Übereinstimmung
mit der Erfindung, welches ein Teil des in 6A gezeigten
Gesamtverfahrens ist;
-
14 ist
eine Skizze einer Metakarte und mehrerer Subkarten in Übereinstimmung
mit der Erfindung;
-
15 ist
eine Skizze eines Beispiels für eine
Metakarte für
ein Muster-Textdatenstück;
-
16 ist
eine Skizze eines Beispiels für eine
Subkarte für
das Muster-Textdatenstück
von 15;
-
17 ist
eine Skizze, die einen Benutzer zeigt, der verschiedene Gruppen
aus der in 16 gezeigten Subkarte auswählt; und
-
18 ist
eine Skizze, die die auf Basis der in 17 gezeigten
Benutzerauswahl aus dem Muster-Textdatenstück extrahierten Textzusammenfassungen
zeigt.
-
Detaillierte
Beschreibung einer bevorzugten Ausführungsform
-
Die
Erfindung ist besonders auf ein System zur Verarbeitung und Wiedergewinnung
von Textdaten in einer Client/Server-Netzumgebung anwendbar. In
diesem Kontext wird die Erfindung beschrieben. Man erkennt jedoch,
dass das System und Verfahren in Übereinstimmung mit der Erfindung
größere Brauchbarkeit
hat.
-
1 ist
eine grafische Ansicht eines konventionellen Top-Down-Textwiedergewinnungssystems 30.
Das Top-Down-System kann eine Textdatenbank 32 aufweisen,
die eine Vielzahl von Textdatenstücken enthält. Ein Benutzer, der Daten
aus der Textdatenbank wiederzugewinnen versucht, muss über die
gewünschten
Informationen nachdenken und die Frage erraten, die helfen könnte, die
Informationen aus der Datenbank zu erhalten. Insbesondere kann der
Benutzer eine Schlüsselwortfrage 36 erzeugen,
die ein oder mehr Schlüsselworte
enthält,
möglicherweise
durch logische Operatoren verbunden, die einfach eine "beste" Vermutung einer
Frage sein kann, die die gewünschten
Informationen charakterisiert. Die Schlüsselwortfrage wird dann zu
der Datenbank gesendet, und auf Basis der Frage sendet die Datenbank
eine Antwort 38 zurück,
die Textdaten enthält,
die das Schlüsselwort
enthalten, einschließlich
sowohl relevanten Textdaten als auch irrelevanten Textdaten. Da
das System es dem Benutzer nicht erlaubt, vor Erzeugung der Schlüsselwortfrage
die tatsächlichen
Textdaten in der Datenbank im Voraus zu sehen, ist die Erfolgsquote
der Suche möglicherweise
gering. Außerdem
enthalten die von der Datenbank zurückgesendeten Textdaten möglicherweise viele
irrelevante Textdatenstücke,
als Dokumente bekannt, die vom Benutzer herausgefiltert werden müssen. Das
System ist daher sehr ineffizient und zeitraubend. Es wird nun ein
Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung
mit der Erfindung beschrieben, welches diese Schwierigkeiten vermeidet.
-
2 ist
ein grafischer Überblick über ein kontext-
und inhaltsbasiertes Bottom-Up- Textverarbeitungs-
und -wiedergewinnungssystem 24 in Übereinstimmung mit der Erfindung.
Das System kann ein Kartierungs-Subsystem 25, das unter
Bezugnahme auf 3 und 6A beschrieben
wird, und ein Musterungs-Subsystem 26 aufweisen, das unter
Bezugnahme auf 6B beschrieben wird. Das Kartierungssystem
kann es einem Benutzer des Systems erlauben, eine strukturierte
Version des tatsächlichen Textes
zu betrachten, um Textstücke
wiederzugewinnen. Das Musterungs-Subsystem kann die vom Kartierungsabschnitt
erzeugte strukturierte Version des tatsächlichen Textes, als Karte
bekannt, verwenden und eine Vielzahl von Karten in verschiedenen
Zeitpunkten "mustern", um eine "Geschichte" von Änderungen
zu erzeugen, die in den Karten stattfinden. Zum Beispiel, wenn die
in Verbindung mit einem Aufsichtsrat einer Aktiengesellschaft erwähnten Leute wechseln,
kann der Musterungsabschnitt diese Änderung hervorheben. Ein Benutzer
des Systems kann den Kartierungsabschnitt oder den Musterungsabschnitt
getrennt oder als ein kombiniertes System verwenden.
-
Das
Kartierungs-Subsystem 24 kann Text 27 von einer
Vielzahl von Orten sammeln. Eine Extrahiereinrichtung 28 kann
den Text verarbeiten, um ein Lexikon 29 zu erzeugen. Das
Lexikon kann eine Liste von Worten oder Wendungen sein, die im Hinblick
auf ihre Fähigkeit
ausgewählt
worden sind, einem Satz Kontext zu verleihen. Das Lexikon wird unten
unter Bezugnahme auf 9 beschrieben. In einem Informationsgruppierungsprozess 30,
in dem für
jedes Textstück
ein Index erzeugt werden kann, kann der Text 27 dann mit
dem Lexikon 29 verglichen werden. Der Index kann Worte
oder Wendungen enthalten, die in dem Lexikon und dem Text vorhanden
sind. Aus diesen Indizes können
eine Vielzahl von Karten 31–33 erzeugt werden,
die die Verbindung von Worten oder Wendungen miteinander grafisch
darstellen, wie in 15–17 gezeigt
und unten beschrieben. Diese Karten können zum Beispiel in einem
ersten Zeitpunkt t0, einem zweiten Zeitpunkt
t1 und einem dritten Zeitpunkt t2 erzeugt werden. Die Karten können sich
in den verschiedenen Zeitpunkten ändern, da zusätzliche
Textstücke
hinzugefügt
worden sind. Dieses Kartierungs-Subsystem kann einem Benutzer die
Fähigkeit
verleihen, Text schnell aus einer großen Anfangszahl von Textstücken wiederzugewinnen,
wie unten beschrieben. Das Kartierungs-Subsystem kann auch in Verbindung
mit dem Musterungs-Subsystem verwendet werden, um einem Benutzer
verbesserte Suchfähigkeiten
zu verleihen.
-
Das
Musterungs-Subsystem 26 kann zuerst einen Wörterbuchgenerator 34 verwenden, um
ein Wörterbuch 35 aus
dem Lexikon zu erzeugen. Das Wörterbuch
kann die Liste von Worten oder Wendungen im Lexikon sein, wobei
jedes Wort oder jede Wendung eine damit verbundene Kennung aufweisen
kann, die die Worte oder Wendungen zum Beispiel als einen Akteur,
eine Funktion oder ein Thema klassifiziert, wie unten unter Bezugnahme
auf 6B beschrieben. Die Wortgruppen in den Karten 31–33 können unter
Verwendung des Wörterbuchs 35 semiotisch
verarbeitet 36 werden, um ein Szenario 37 zu erzeugen.
Das Szenario kann eine Anzeige einer Änderung zwischen den Karten
sein, wie zum Beispiel dass eine vorher niemals mit einer Firma
in Verbindung gestandene Person in einer Geschichte über diese
Firma ausfindig gemacht worden ist. Daher können die Szenarien Änderungen
und Trends in den Textdaten verfolgen, die mit der Zeit stattfinden können. Daher
kann eine Firma einmal die Woche Karten über eine bestimmte Firma erzeugen
und dann Szenarien für
die Karten erzeugen, die Änderungen
in der Firma verfolgen können,
welche zum Beispiel für
einen Wettbewerber wertvolle Geschäftsinformationen sein können.
-
Im
Betrieb kann eine Firma Informationen über eine bestimmte Industrie
wie z.B. Landwirtschaft wünschen
und weiterhin an einer Firma "X" in der Landwirtschaftsindustrie
interessiert sein. Der Benutzer kann unter Verwendung des Kartierungs-Subsystems die relevanten
Worte oder Wendungen über
die Firma X ausfindig machen, und das Kartierungs-Subsystem kann
eine Karte erzeugen. Das Kartierungs-Subsystem kann automatisch jede Woche
eine neue Karte mit demselben Schwerpunkt auf der Firma X erzeugen,
um neue Textstücke
einzubauen. Das Musterungs-Subsystem
kann dann die Karten verarbeiten, um ein Szenario zu erzeugen, das
zum Beispiel anzeigt, dass der Direktor der Firma ausscheidet. Wie
unten beschrieben, kann jeder andere Benutzer einen anderen Schwerpunkt
oder ein anderes Interesse haben, so dass für jeden Benutzer ein anderes
relevantes Szenario erzeugt werden kann. Jetzt wird das Kartierungs-Subsystem
detaillierter beschrieben.
-
3 ist
eine grafische Ansicht eines Kartierungs-Subsystems 40 eines
kontext- und inhaltsbasierten Bottom-Up-Textverarbeitungs- und -wiedergewinnungssystems
in Übereinstimmung
mit der Erfindung. Bei dem Kartierungs-Subsystem des Bottom-Up-Textverarbeitungs-
und -wiedergewinnungssystems können
die Textdaten 42 verarbeitet, wie unter Bezugnahme auf 6A unten
detaillierter beschrieben, und analysiert werden, um eine strukturierte
Version von Textdaten 44 zu erzeugen, die einige der Worte
und/oder Wendungen in jedem Textdatenstück umfassen können, wie
unten beschrieben. Die strukturierte Version der Textdaten kann
Worte oder Wendungen enthalten, die dem Benutzer Kenntnisse über den
Inhalt und/oder Kontext jedes Textdatenstücks verleihen, so dass ein
Benutzer leicht bestimmen kann, ob ein Textdatenstück relevant
ist. Wie oben beschrieben, kann der Inhalt eines Textdatenstücks am leichtesten
aus Wendungen bestimmt werden, die aus zwei Worten bis zu ungefähr sechs Worten
bestehen, doch können
auch einzelne Worte etwas vom Inhalt der Textdaten vermitteln, wie
z.B. ein Eigenname wie Präsident
Clinton. Die Details der Extraktion von Wendungen aus den Textdatenstücken werden
unten unter Bezugnahme auf 9 beschrieben.
-
Um
etwas aus dem strukturierten Text auszufiltern, kann ein Benutzer
dem System ein breites Filterwort 46 zur Verfügung stellen,
das den Typ der Informationen, die der Benutzer sucht, allgemein
beschreibt. Das breite Filterwort kann mehrere Worte umfassen, die
durch Boolesche Verknüpfungen
wie z.B. ODER, UND und dergleichen getrennt sind. Um den Umfang
der Textdaten noch mehr einzuschränken, kann ein Benutzer auf
Basis des Datums, Ursprungs oder Ortes der Textdaten eingeschränkte Textdaten
anfordern. Zum Beispiel kann es sein, dass ein Benutzer nur Textdaten
anfordert, die neuer als 1995 sind, oder nur Textdaten von Webseiten
anfordert. Der strukturierte Text kann dann auf Basis des Filterwortes
des Benutzers gefiltert werden, und die gefilterten strukturierten
Daten können
auf einer Anzeige 47 grafisch als Verbindungen von Wortgruppen 48 angezeigt
werden, als Karten bekannt, wie unten beschrieben, so dass ein Benutzer
die strukturierte Version der Textdaten unter Verwendung eines Blätterbefehls 49 durchblättern kann.
Während
des Durchblätterns
kann der Benutzer verschiedene andere Wortgruppen auswählen, wie
unten beschrieben, und die mit diesen Wortgruppen verbundenen Textdaten
betrachten. Sobald der Benutzer das Durchblättern der Wortgruppen beendet
hat und die passende eine oder mehr Wortgruppen ausfindig gemacht
hat, die die gewünschten
Textdaten charakterisieren, kann der Benutzer diese Wortgruppen
auswählen,
und das System kann Zusammenfassungen 50 aller Textstücke anzeigen,
die die passenden Wortgruppen enthalten. Die Zusammenfassungen können vom
Benutzer leicht geprüft
werden, um die Relevanz irgendeines bestimmten Textstücks zu bestimmen.
Sind die richtigen Daten noch nicht ausfindig gemacht worden, kann
der Benutzer die Suche auch von irgendeinem Punkt aus neu starten
und fortfahren, Zusammenfassungen zu betrach ten, bis die relevanten
Informationen ausfindig gemacht worden sind.
-
Bei
diesem Kartierungs-Subsystem des Bottom-Up-Systems in Übereinstimmung
mit der Erfindung betrachtet der Benutzer nur die Wortgruppen, die
aus dem Text extrahiert worden sind, da diese Worte dem Benutzer
Wissen über
den Inhalt und/oder Kontext jedes Textdatenstücks vermitteln. Wie unten beschrieben,
können
Worte in jedem Textdatenstück,
die nicht zu einem Verständnis
des Inhalts und/oder Kontextes der Textdaten beitragen, als Leerworte
bekannt, entfernt werden. Daher sieht der Benutzer nur die relevantesten
Wortgruppen und kann die passenden Wortgruppen auswählen, ohne irgendwelche
gebildeten Schlüssewortvermutungen treffen
zu müssen.
Die Details des Textverarbeitungs- und -wiedergewinnungssystems
mit einer Bottum-Up-Methode in Übereinstimmung
mit der Erfindung werden unten detaillierter beschrieben. Jetzt wird
ein Beispiel für
ein Client/Server-vernetztes Computersystem beschrieben, das ein
System für Textverarbeitung
und -wiedergewinnung in Übereinstimmung
mit der Erfindung enthalten kann.
-
4 ist
eine schematische Ansicht eines Client/Server-basierten Computersystems 60,
das ein Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung
mit der Erfindung enthalten kann. Wie gezeigt, kann das Textverarbeitungs-
und -wiedergewinnungssystem in Übereinstimmung
mit der Erfindung vollständig
innerhalb eines Firmen- oder Privatnetzes 62 arbeiten,
kann aber auch auf Textdaten von außerhalb des Firmennetzes zugreifen.
Der Computer, der die Software und/oder Hardware speichert, die
in Übereinstimmung
mit der Erfindung Text verarbeitet und wiedergewinnt, kann innerhalb
des Firmenetzes angesiedelt sein, kann aber auch an einem öffentlichen
Großraumnetz
wie z.B. dem Internet angesiedelt sein. Das Firmennetz 62 kann
als Intranet bekannt sein und kann vollständig innerhalb einer Firewall 64 angesiedelt
sein, die das Firmennetz vor unbefugtem Zugriff von außen schützt. Das
Textverarbeitungs- und -wiedergewinnungssystem kann durch die Firewall
auf eine sichere Weise Text von außerhalb des Intranet wiedergewinnen.
Im Allgemeinen kann ein Client/Server-System einen Servercomputer,
der die Datenbank speichert, und ein oder mehr entfernte Computersysteme aufweisen,
die ein Stück
Client-Software ausführen, die
mit dem Servercomputer interagieren kann. Ein Client/Server-Computersystem
ist bekannt und wird hier nicht beschrieben.
-
Für das Intranet-Client/Server-System
kann ein innerhalb der Firewall 64 angesiedelter Globalserver 66 Software
enthalten, die den Text verarbeitet, um Karten zu erzeugen, wie
unten beschrieben, und es dem Benutzer erlaubt, den verarbeiteten
Text grafisch zu durchblättern
und irgendwelche relevanten Textdaten wiederzugewinnen. Die Software
kann die Karten außerdem
semiotisch verarbeiten, um Szenarien zu erzeugen, die Änderungen
in den Karten anzeigen. Der Text, der vom Globalserver verarbeitet
wird, kann aus einer oder mehreren Datenbanken extrahiert werden,
wie z.B. einer ersten Datenbank 68 und einer zweiten Datenbank 70.
Um Textdaten aus dem Globalserver zu durchblättern und wiederzugewinnen
und Szenarien zu erzeugen, kann ein am Privat- oder Firmennetz angebauter
Computer ein Stück
Client-Software 72 wie z.B. eine JAVA-basierte Softwareanwendung
aufweisen, die mit dem Globalserver interagiert und es dem Benutzer erlaubt,
die Wortgruppen grafisch zu durchblättern und relevante Textdatenstücke wiederzugewinnen, wie
in 15–18 gezeigt,
und außerdem
Szenarien zu erzeugen.
-
Die
Client-Software 72 kann außerdem auf einen ersten und
einen zweiten Arbeitsgruppen-Server 74, 76 zugreifen
und erlaubt es dem Benutzer, Wortgruppen zu durchblättern, die
sich in Textstücken
befinden, die sich in Ordnern auf dem Arbeitsgruppen-Server befinden.
Zusätzlich
zu dem Verbinden mit dem innerhalb der Firewall 66 befindlichen
sicheren Globalserver kann die Client-Software außerdem mit
einem zweiten Globalserver 78 verbinden, der sich außerhalb
der Firewall befindet, zum Beispiel am Internet. Der zweite Globalserver
kann eine Vielzahl von Webseiten von einer oder mehreren Websites 80, 82 sammeln
und die Textdaten in den Webseiten in Übereinstimmung mit der Erfindung
zu Wortgruppen verarbeiten. Dies erlaubt es dem Benutzer, die mit
den Webseiten verbundenen Wortgruppen mit der Client-Software grafisch
zu durchblättern
und relevante Webseiten wiederzugewinnen. Das Textverarbeitungs- und -wiedergewinnungssystem
kann verwendet werden, um E-Mail-Nachrichten, Textdatenbanken, Webseiten
und irgendwelche anderen Typen von Textdaten zu verarbeiten. Daher kann
das System mannigfache verschiedene Typen von Textdaten verarbeiten.
-
Jeder
der verschiedenen Typen von Textdaten, wie z.B. Webseiten, E-Mail,
News und Firmeninformationen, hat andere Eigenschaften. Jede Webseite
ist ein getrenntes Textstück,
es gibt eine enorme Menge Text, die von den Webseiten behandelten Themen können ein
breites Gebiet haben, und es gibt keine Sicherheit über die
aus dem Web gesammelten Informationen. E-Mails andererseits sind
aufgrund Antworten und dergleichen keine getrennten Datenstücke, haben
aufgrund individueller Eigenarten verstreute Schwerpunkte und Themen,
sind aber chronologisch organisiert. News enthalten tendenziell
eine mäßige Zahl
von Dokumenten, haben einen festen Schwerpunkt und sind chronologisch
organisiert. Firmeninformationen sind typischerweise größere individuelle
Dokumente und haben aufgrund der Qualitätskontrolle innerhalb einer
Firma eher feste Schwerpunkte. Jeder dieser verschiedenen Typen von
Textdaten hat Eigenschaften, die ihn einzigartig machen, aber all
diese verschiedenen Typen von Textdaten können unter Verwendung einer
Bottom-Up-Methode verarbeitet und durchsucht werden, bei der aus
jedem Satz von Texten Gruppen gebildet werden und die grafischen
Darstellungen der Gruppen, als Karten bekannt, als eine Schnittstelle
zum Leiten eines Benutzers durch die Textdaten benutzt werden können. Szenarien,
die Änderungen
mit der Zeit in den Karten anzeigen, können ebenfalls aus jedem Typ
von Textdaten erzeugt werden.
-
Das
Textverarbeitungs- und -wiedergewinnungssystem in Übereinstimmung
mit der Erfindung kann auch vollständig innerhalb eines eigenständigen Computersystems
angesiedelt sein. Zum Beispiel kann eine Firma eine große Datenbank
von Textdaten besitzen, aus welchen zum Beispiel die Buchführungsabteilung
Textdaten wiedergewinnen möchte.
Das System in Übereinstimmung
mit der Erfindung kann auch auf anderen Computersystemen betrieben
werden. Typischerweise kann das System auf größeren Computersystemen betrieben
werden, da die Textverarbeitung- und -wiedergewinnung in Übereinstimmung
mit der Erfindung schnell ist und eine große Menge Textdaten leicht handhaben
kann. Jetzt wird eine Architektur eines Systems zur Verarbeitung
und Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung
beschrieben.
-
5 zeigt
eine Architektur eines Textverarbeitungs- und -wiedergewinnungssystems 90 in Übereinstimmung
mit der Erfindung. Ein Server 91 kann unter Verwendung
von auf dem Server laufender Software eine Vielzahl von Textdatenstücken 92 verarbeiten,
während
ein Stück
Client-Software 93, welche es einem Benutzer erlaubt, mit
dem Server zu interagieren, es einem Benutzer erlauben kann, auf Basis
von einer oder mehreren Auswahlen (Anforderungen) 94 die
Textdaten grafisch zu durchblättern. Die
innerhalb des Servers und der Client-Software gezeigten Elemente
sind Funktions blockdiagramme, und die Funktionen, wie z.B. eine
Indexiereinrichtung, können
auf dem Server laufende Software sein, die den Prozessor innerhalb
des Servers steuert. Die Funktionen können auch durch eine Hardware-Schaltung
innerhalb des Servers realisiert werden, die die Funktionen durchführt.
-
Vor
der Beschreibung der Details der Funktionseinheiten innerhalb des
Systems wird eine Beschreibung des Gesamtbetriebs des Systems beschrieben.
Anfänglich
können
eine Vielzahl von Textdatenstücken
von ungleichartigen Orten wie z.B. dem Internet gesammelt werden.
Als Nächstes
werden diese Textdatenstücke
verarbeitet, wie unten beschrieben, um eine Liste von Wendungen
und Worten (das Lexikon) zu erzeugen, die den Inhalt der Textdatenstücke vermitteln.
Normalerweise sind diese Wendungen und Worte Substantive, da Substantive
im Allgemeinen die meisten Informationen über den Inhalt eines Textdatenstücks liefern.
Die Verarbeitung der Textdaten kann stattfinden, bevor ein Benutzer
versucht, Daten aus dem System wiederzugewinnen. Jedes Textdatenstück kann
dann mit diesem Lexikon verglichen werden, um einen Index für jedes Textdatenstück zu erzeugen,
das die Worte oder Wendungen enthält, die den Kontext oder Inhalt
jedes Textdatenstücks
vermitteln. Ein Benutzer kann dem System dann ein Filterwort zur
Verfügung
stellen, welches der Reihe nach Indizes eliminiert, die das Filterwort
nicht enthalten. Als nächstes
werden die restlichen Indizes als Gruppen miteinander gruppiert,
wie unten beschrieben, so das Wendungen mit einem gewissen Grad
an Zusammenhang miteinander gruppiert werden. Diese Gruppen und
der Grad an Zusammenhang dieser Gruppen können für einen Benutzer des Systems
grafisch als Karten angezeigt werden, und die Karten können eine
hierarchische Struktur haben, so dass sich Gruppen mit verschiedenen
Graden an Zusammenhang auf verschiedenen Karten befinden. Diese
Karten können
für den Benutzer
angezeigt werden, der die Karten prüfen und sich durch die hierarchische
Struktur der Karten bewegen kann, um die relevanten Gruppen ausfindig zu
machen. Sobald der Benutzer eine oder mehrere angezeigte Gruppen
gewählt
hat, kann das System eine Zusammenfassung jedes Textdatenstücks anzeigen,
das die ausgewählten
Gruppen enthält.
Das System reduziert die Textdaten auf die Indizes, erzeugt eine
Vielzahl von Karten mit einer hierarchischen Struktur und zeigt
die Informationen für
den Benutzer zur Prüfung
grafisch an, so dass der Benutzer Textdaten aus einer enormen Menge
Textdaten wiedergewinnen kann, aber dennoch die tatsächlichen
Textdaten betrachten kann. Das System kann außerdem in verschiedenen Zeitpunkten
automatisch eine Karte erzeugen und die Kar ten unter Verwendung
eines Wörterbuchs
miteinander zu vergleichen, um Änderungen
in den in den Karten gezeigten Zusammenhängen, als Szenarien bekannt,
ausfindig zu machen und anzuzeigen. Jetzt werden die Details des
Systems beschrieben.
-
Innerhalb
des Servers 91 kann der Text 92 in eine Extrahiereinrichtung 96 eintreten,
die den Text verarbeitet, wie unten beschrieben, und auf Basis der Textdaten
ein Lexikon 100 erzeugt. Das Lexikon kann in einem Datenbankmanagementsystem
(DBMS) 98 gespeichert werden. Ein Lexikon kann eine Liste
von einer oder mehreren Wortgruppen sein, die aus dem Text extrahiert
worden sind, wie unten unter Bezugnahme auf 9 beschrieben
wird. Ein Wörterbuch 102 ist
eine kompliziertere Datenstruktur, die mit einem Lexikon beginnt
und den Wortgruppen Kennungen hinzufügt, welche jede Wortgruppe
nach inhaltsbasierten Konzepten klassifiziert, wie zum Beispiel Akteuren,
Funktionen und Themen. Das zur semiotischen Verarbeitung der Karten
benutzte Wörterbuch wird
unten unter Bezugnahme auf 10 beschrieben.
Weder das Lexikon noch das Wörterbuch
enthalten Worte oder Wendungen, die nicht zu einem Verständnis des
Inhalts oder Kontextes der Textdaten beitragen, wie unten beschrieben.
-
Das
Lexikon kann eine Liste von Wendungen sein, die den Inhalt der Textdaten
vermitteln. Als ein Beispiel kann eine Webseite ein Tattoo anzeigen,
das den folgenden Bildtext aufweist: "Von links nach rechts: Meine neueste
Hinzufügung,
die purpurnen Rosen – Februar
1995 -'Big John', Tinte und Eisen. Gelbe
Rose und Herz. 'Schlange' Südwest Tattoo" und kann in Übereinstimmung
mit der Erfindung daraus extrahierte Wendungen aufweisen, die genügend Kontext
liefern, um den Inhalt der Textdaten zu bestimmen. Die extrahierten
Wendungen können "neueste Hinzufügung", "purpurne Rosen", "Big John", "Gelbe Rose" und "Südwest Tattoo" sein. Diese Wendungen
versorgen einen Leser mit genügend Informationen über die
Textdaten, um den Inhalt der Webseite zu bestimmen.
-
Bei
der Erzeugung des Lexikons sind Zweiwortwendungen, als Bigramme
bekannt, wichtig. Bigramme sind wichtig, da sie das immanente Problem mit
Sprache lösen
können,
wie oben beschrieben, dass ein einzelnes Wort mehrere Bedeutungen
haben kann, je nach dem Kontext, in dem das Wort benutzt wird. Das
oben zitierte Beispiel war, dass "Bank" eine
Sparkasse oder eine Sitzbank sein kann und man allein auf Basis
des Wortes Bank nicht bestimmen kann, welche. Als ein anderes Beispiel
hat das Wort "Internet" einen unscharfen
Umfang und kann mehrere verschiedene Kontexte haben, während das
Bigramm "Internet
Protokoll" es erlaubt,
den Inhalt schnell zu bestimmen. Als ein anderes Beispiel kann das
Wort "Stück" ein Stück Land
oder ein Bühnenstück bedeuten.
Die Bigramme "Stück Land" und "aufgeführtes Stück" können die
Bedeutung des Wortes "Stück jedoch
klären.
Es gibt einige Einzelworte, die ebenfalls Inhalt vermitteln können, wie
z.B. "Clinton". Das Lexikon wird
unten detaillierter beschrieben.
-
Zurück zu 5,
vergleicht eine Indexiereinheit 104 die Textdaten 92,
die andere oder dieselben wie die zur Erzeugung des Lexikons benutzten
Textdaten sein können,
mit dem Lexikon 100, wie in 7 gezeigt
und unten detaillierter beschrieben, und erzeugt einen Index 106 für jedes
Textdatenstück.
Der Index kann im DBMS 98 gespeichert werden und kann eine
Liste von Wendungen in jedem Textdatenstück sein, die auch im Lexikon
enthalten sind. Der Index kann in eine Gruppiereinheit 108 eingespeist
werden, die Wendungen innerhalb der Indizes, die einen gewissen
Grad an Zusammenhang miteinander haben, gruppieren kann, wie unten
beschrieben, und Gruppen 110 erzeugen kann, die ebenfalls
im DBMS 98 gespeichert werden können. Eine grafische Darstellung
der Gruppen, wie unten beschrieben und in 15–17 gezeigt,
kann von einer Kartengeneratoreinheit 111 erzeugt werden.
Die grafischen Darstellungen der Gruppen 112, als Karten
bekannt, können
im DBMS gespeichert werden und können
zur Client-Software 93 heruntergeladen werden, so dass
die Karten durch die Client-Software
angezeigt werden. Es kann eine Vielzahl von Karten geben, die in
einer hierarchischen Struktur organisiert sind, so dass sich Gruppen
mit verschiedenen Graden an Zusammenhang auf verschiedenen Karten
befinden. Der Benutzer kann dann die Karten betrachten und auf Basis
der Auswahlen (Anforderungen) 94 des Benutzers durch die hierarchische
Struktur navigieren, wie oben beschrieben, und kann eine oder mehrere
Gruppen auswählen,
die relevant erscheinen. Jede Gruppe kann einem oder mehreren Textstücken entsprechen.
Der Server 91 kann dann Zusammenfassungen erzeugen, die
die Abschnitte dieser Textstücke
enthalten, die die ausgewählten
Gruppen enthalten, und diese Zusammenfassungen 116 werden
auf dem Client-Computer 93 angezeigt. Die Karten 112 können unter
Verwendung des Wörterbuchs 102 semiotisch verarbeitet 118 werden,
um ein Szenario 120 zu erzeugen. Das Szenario kann auf
dem Client-Computer 93 angezeigt werden und kann Änderungen
in den in den Karten angezeigten Zusammenhängen über eine Zeitspanne hinweg anzeigen.
Unter Bezugnahme auf 6A und 6B wird
jetzt ein Gesamtverfahren zur Verarbeitung und Wiedergewinnung von
Textdaten beschrieben.
-
6A ist
ein Flussdiagramm, das ein Kartierungsverfahren 130 zur
Verarbeitung und Wiedergewinnung von Textdaten unter Verwendung
des Systems von 4 in Übereinstimmung mit der Erfindung
darstellt. Zuerst können
eine Vielzahl von Textdatenstücken
von ungleichartigen Orten gesammelt und in der Datenbank gespeichert
werden und können
dann verarbeitet 132 werden, um ein Lexikon zu erzeugen,
wie oben beschrieben. Die Verarbeitung kann Worte, als "Leerworte" bekannt, aus den Textdatenstücken entfernen,
die keinerlei Inhalt zu den Textdaten beitragen. Zum Beispiel können Artikel
wie z.B. "ein" und "der", Präpositionen
und Verben, neben anderen Worten, entfernt werden, weil diese Leerworte
die Textdaten mit keinerlei Inhalt versehen. Zum Beispiel sind die
Inhaltsworte der Wendung "Präsident Clinton
ging diesen Morgen mit Senator Bob Dole laufen" die Worte "Präsident
Clinton", "laufen", "Morgen" und "Senator Bob Dole". Die Verarbeitung
des Textes wird unter Bezugnahme auf 8 detaillierter
beschrieben. Während
der Textverarbeitung kann jedes Textdatenstück mit dem Lexikon verglichen
werden und wird ein Index für
jedes Textdatenstück
erzeugt. Daher ist die Ausgabe der Verarbeitung ein Index für jedes
Textdatenstück,
der eine Liste der Wendungen enthält, die im Textdatenstück und im
Lexikon auftauchen. Der Index ist eine Version eines Textdatenstücks, die
nur Worte oder Wendungen enthält,
die ein Verständnis
des Inhalts des Textdatenstücks
ermöglichen.
Im Schritt 134 können
die Indizes gruppiert werden, wobei Wendungen, die häufiger zusammen
als getrennt auftauchen, miteinander verbunden werden, wie unten
beschrieben. Daher weist jedes Textdatenstück eine oder mehrere damit
verbundene Wendungsgruppen auf.
-
Die
Verarbeitung kann vorzugsweise zu einem Zeitpunkt stattfinden, bevor
irgendein Benutzer irgendwelche Textdaten aus dem System wiederzugewinnen
versucht, so dass eine Suche des Benutzers durch den Verarbeitungsschritt
nicht verzögert wird,
kann aber auch während
der Wiedergewinnung stattfinden. Der Rest der Schritte kann in Echtzeit stattfinden,
wenn der Benutzer Textdaten wiederzugewinnen versucht. Die erzeugten
Gruppen können im
Server gespeichert werden und können
im Schritt 136 auf Basis eines von einem Benutzer eingegebenen
breiten Filterworts, das den Typ von Informationen, an denen der
Benutzer interessiert ist, allgemein beschreibt, zu erzeug ten gefilterten
Indizes gefiltert werden. Dieses breite Filterwort ist keine Schlüsselwortfrage,
sondern ist ein kontextbasierter Filter, angewandt auf die Indizes,
um die Datenmenge zu reduzieren, die der Benutzer durchblättern muss.
Das breite Filterwort kann die Textdatenmenge auch durch Einschränken der
Textdaten auf Basis von zum Beispiel Datum, Ursprung, einschränken. Daher
können
die Textdaten auf Basis von mehreren verschiedenen Kriterien gefiltert
werden. Zum Beispiel, wenn der Benutzer nach Artikeln über Flugzeugfirmenmanager
sucht, kann das breite Filterwort "Flugzeug" oder "Luftfahrzeug" sein. Im Schritt 138 benutzt
der Server die gefilterten Indizes oder Gruppen von Worten oder
Wendungen, wie unten beschrieben, und verbindet die Gruppen miteinander
zu einer oder mehreren grafischen Karten, wie in 15–17 gezeigt.
Diese Textverarbeitungsschritte erlauben es dem Benutzer des Systems,
die tatsächlichen
Worte und Wortgruppen in den Textdaten zu betrachten und die Wortgruppen
zu durchblättern,
um die gewünschten
Informationen ausfindig zu machen. Diese Textverarbeitungsschritte
sind Teil der Bottom-Up-Methode des Systems in Übereinstimmung mit der Erfindung.
Es wird nun ein Überblick über das
Verfahren zur Wiedergewinnung von Textdaten in Übereinstimmung mit der Erfindung
beschrieben.
-
Die
folgenden Schritte beschreiben, wie ein Benutzer Textdaten wiedergewinnt,
und erzeugen Szenarien in Übereinstimmung
mit der Erfindung. Diese Wiedergewinnungsschritte erlauben es einem Benutzer,
die grafisch angezeigten Gruppen schnell zu durchsuchen und die
relevanten Textdatenstücke ausfindig
zu machen. Zuerst, im Schritt 140, werden die vorher erzeugten
Karten durch die Client-Software angezeigt, damit sie der Benutzer
betrachten kann. Die Karten, wie unten beschrieben und in 15–17 gezeigt,
können
außerdem
Verknüpfungen
mit anderen Karten aufweisen, die detailliertere Gruppen aufweisen
können.
Die Karten können semiotisch
verarbeitet 141 werden, um Szenarien zu erzeugen, wie unten
unter Bezugnahme auf 6B beschrieben. Im Schritt 142 kann
der Benutzer eine oder mehrere Gruppen aus den Karten auswählen, und
das System wird im Schritt 143 die Zusammenfassungen der
Textstücke
in der Datenbank anzeigen, die die eine oder mehreren vom Benutzer
ausgewählten
Gruppen enthalten. Im Schritt 144 kann der Benutzer wählen, eine
andere Suche durchzuführen.
In Übereinstimmung
mit der Erfindung kann die zusätzliche
Suche von irgendeinem Punkt gestartet werden, so dass das Verfahren
zum Schritt 136 oder 140 zurückkehren kann, je nachdem,
ob der Benutzer die zusätzliche
Suche starten möchte.
Sind keine zusätzlichen
Suchen erforderlich, endet das Verfahren. Die Details der Textverarbeitungsschritte, die
ein Teil des in 6A gezeigten Gesamtverfahrens
sind, werden nun unter Bezugnahme auf 7 und 8 beschrieben.
-
6B ist
ein Flussdiagramm eines Musterungsverfahrens 145, das Teil
des Gesamtverfahrens ist und mit dem Kartierungsverfahren kombiniert
werden kann. Im Schritt 146 kann auf Basis des Lexikons ein
Wörterbuch
erzeugt werden. Die Details des Wörterbuchs werden mit Bezug
auf 10 beschrieben, worin Worte und Wendungen im Lexikon
damit verbundene Kennungen aufweisen, die anzeigen, ob das Wort
oder die Wendung zum Beispiel ein Akteur, eine Funktion oder ein
Thema ist. Als Nächstes,
im Schritt 147, können
die Gruppen auf den ein oder mehr Karten unter Verwendung des Wörterbuchs verarbeitet
werden, um im Schritt 148 ein Szenario zu erzeugen. Die
Karten können
in verschiedenen Zeitpunkten (z.B. einmal pro Woche) erzeugt werden, und
die Verarbeitung erkennt Änderungen
in den Zusammenhängen
der Gruppen auf den Karten, als das Szenario bekannt. Zum Beispiel
kann eine Vielzahl von Karten mit Schwerpunkt auf einer Firma X
verarbeitet werden, um ein Szenario zu erzeugen, welches anzeigt,
dass ein Angestellter in Schlüsselposition die
Firma X mit einer Technologie verlassen hat. Dieser Typ von Szenario
kann für
eine andere Firma wertvoll sein, die mit der Firma X im Wettbewerb
steht oder erwägt,
die Firma X zu erwerben.
-
Die
semiotische Verarbeitung unter Verwendung des Wörterbuchs reduziert die Informationen
in den Karten auf ein leicht zu prüfendes Format von drei Grundtypen
von Informationen: 1) wer steht im Text (Person); 2) was macht die
Person (Funktion); und 3) was ist der Kontext (Thema). Durch Mustern der
Karten kann daher bestimmt werden, dass zum Beispiel eine Firma
in einer gewöhnlichen
Industrie jetzt in eine neue Industrie eingetreten ist.
-
Die
semiotische Verarbeitung unter Verwendung des Wörterbuchs konzentriert sich
auf die Erstellung von Geschichten (wer, was, Kontext) auf Basis
der Karten, so dass ein Benutzer ein Textstück leicht prüfen kann.
Zum Beispiel kann ein langer Artikel über eine Person in Verbindung
mit zwei getrennten Firmen auf die Person und ihre Beziehungen zu beiden
Firmen reduziert werden. Die semiotische Verarbeitung kann auch
sich ändernde
Beziehungen erkennen. Jetzt wird ein Verfahren zur Erzeugung einer
Karte beschrieben.
-
7 zeigt
schematisch ein Verfahren 150 zum Ausbilden einer Karte
in Übereinstimmung
mit der Erfindung. Ein Lexikon 152 und ein Textstück 154 werden
miteinander verglichen. Eine Schnittmenge 155 der Wendungen
in den Textdaten und in der semiotischen Datenstruktur kann als
ein Index gespeichert werden. Die Indizes für eine Vielzahl der Textdaten
können
dann gruppiert werden, wie unten beschrieben, und in eine Karte 156 umgewandelt
werden. Die Karte kann eine Vielzahl von Knoten 157, die
in den Indizes enthaltene Wendungen repräsentieren, und eine Vielzahl
von Verknüpfungen 158 aufweisen,
die die miteinander gruppierten Knoten miteinander verknüpfen.
-
8 ist
ein Flussdiagramm, das ein Verfahren 160 zur Textverarbeitung
in Übereinstimmung
mit der Erfindung zeigt, das ein Teil des in 6A gezeigten
Gesamtverfahrens ist. Diese Textverarbeitungsschritte können in
einem beliebigen Zeitpunkt durchgeführt werden, werden vorzugsweise
aber immer dann durchgeführt,
wenn Textdaten im Server aktualisiert oder hinzugefügt werden,
so dass die Textverarbeitung nicht stattfindet, während der
Benutzer Textdaten wiederzugewinnen versucht. In einem ersten Schritt 162 werden
eine Vielzahl von Textstücken,
die Dokumente, Webseiten, E-Mail-Nachrichten oder News-Einlieferungen
oder eine Kombination all dieser sein können, miteinander gesammelt
und im System gespeichert. Im Internet-Kontext können diese Textstücke durch
eine auf dem Server laufende Textsammel-Softwareanwendung gesammelt
werden, als Roboter bekannt, und können von einer Vielzahl von
getrennten Orten auf einem Großraumnetz
wie z.B. dem Internet stammen. Für
das Intranet-System können
sich die Textstücke
schon in einer Datenbank oder in einem Computer befinden, der alle
E-Mail-Nachrichten für
die Firma speichert. Sobald die Textstücke gesammelt worden sind,
kann im Schritt 164 ein Lexikon aus den gesammelten Textstücken extrahiert
werden. Das Lexikon wird unter Bezugnahme auf 9 beschrieben.
Die Textverarbeitung filtert alle Textdatenstücke, entfernt Leerworte, die
zum Kontext der Textstücke nicht
beitragen, wie z.B. Stoppworte wie "ein", "der", "bei", und behält nur Wendungen
zurück,
die tendenziell den Inhalt des bestimmten Textstückes vermitteln. Im Allgemeinen
enthalten diese Wendungen zwei bis sechs Worte. Daher ist die Ausgabe
ein Lexikon, das eine Liste von Wendungen sein kann, die als wertvoll
angesehen werden zu Zwecken der Reduktion jedes Textstücks auf
die wesentlichen Wortgruppen, die den Inhalt des Textstücks vermitteln.
Die Erzeugung des Lexikons kann kontinuierlich stattfinden, sogar
während
gerade Indizes erzeugt werden, so dass, wenn zusätzliche Textstücke gesammelt und
analysiert werden, Worte zum Lexikon hinzugefügt und dann indexiert werden
können.
-
Wenn
das Lexikon gerade erzeugt wird oder nachdem das Lexikon erzeugt
worden ist, kann jedes Textstück
im Schritt 168 mit dem Lexikon verglichen werden, um im
Schritt 169 einen Index zu erzeugen. Der Index kann eine
Liste von Wendungen (zwei oder mehr Worte) oder Worte enthalten,
die sowohl in dem Textdatenstück
als auch dem Lexikon auftauchen. Daher enthält der Index für jedes
Textdatenstück
die Liste von Worten oder Wendungen, die den Inhalt und/oder den
Kontext jedes Textdatenstücks
vermitteln. Den Index kann man sich als eine reduzierte Version
jedes Textstücks
vorstellen, da alle Leerworte entfernt werden und nur die restlichen
Kontextworte in jedem Textstücks
gespeichert werden. Die Leerworte können in einer Stoppliste, wie
unten beschrieben, zusammen mit Satzzeichen enthalten sein. Diese
Leerworte fügen
dem Text keinen Kontext hinzu und können entfernt werden, indem
jedes Textdatenstück
mit der Stoppliste verglichen wird und die Stopplistenworte entfernt
werden. Sobald jedes Textstück
indexiert worden ist können
einige der Indizes verwendet werden, wie oben beschrieben, um Gruppen
und Karten dieser Gruppen zu erzeugen, so dass ein Benutzer relevante
Textstücke
in einer großen Menge
Textdaten ausfindig machen und daraus wiedergewinnen kann, ohne
auf eine Schlüsselwortsuche
zurückgreifen
zu müssen.
Jetzt wird ein Verfahren zur Erzeugung eines Lexikons in Übereinstimmung
mit der Erfindung beschrieben.
-
9 ist
ein Flussdiagramm eines Verfahrens 170 zur Erzeugung eines
Lexikons in Übereinstimmung
mit der Erfindung. Wie oben beschrieben, kann das Lexikon eine Liste
von Wendungen sein, wobei jede Wendung vorzugsweise aus zwei bis sechs
Worten besteht, die einem Textstück
die größte Menge
Kontext verleihen. Das Lexikon kann auch aus individuellen Worten
bestehen. Sobald die Textstücke
gesammelt worden sind, kann eine Folge von drei Verarbeitungsschritten
durchgeführt
werden, um bestimmte vordefinierte Elemente aus den Textdaten zu
entfernen. Diese Verarbeitungsschritte können zum Beispiel Extraktion
von Eigennamen und Gattungsnamen, Extraktion von wiederholten Segmenten
und Syntaxanalyse umfassen, wie in den Schritten 172, 174 und 176 gezeigt.
Jeder dieser Verarbeitungsschritte, welche unten beschrieben werden, kann
in einem einzelnen Durchgang durch die Textstücke stattfinden, jeder durch
ein anderes auf dem Server laufendes Stück Software, die bestimmte Worte
oder Gruppen von Worten aus den Textdaten extrahiert, jeder Schritt wird
aber getrennt beschrieben. Zum Verständnis dieser Verarbeitungsschritte muss
man verstehen, dass das System in Übereinstimmung mit der Erfindung
eine Liste von Stoppworten aufweisen kann, die im System gespeichert
sind. Die Stoppliste wurde oben unter Bezugnahme auf 6A beschrieben.
Vor irgendeinem der unten beschriebenen Verarbeitungsschritte können alle
in der Stoppliste enthaltenen Worte aus jedem Textdatenstück entfernt
werden.
-
Im
Schritt 172 zur Extraktion von Eigennamen und Gattungsnamen
werden Eigennamen und Gattungsnamen identifiziert und aus jedem
Textstück extrahiert.
Zur Extraktion der Eigennamen wird der Text analysiert, und Worte
mit groß geschriebenen ersten
Buchstaben werden extrahiert, wie z.B. "Bill Clinton". Die extrahierten Worte werden als
Eigennamen angenommen und können
auf Basis von einfachen empirischen Regeln gefiltert werden, um schlagwortartige
Sequenzen zu vermeiden. Um die Eigennamen zu extrahieren, wird der
Text analysiert, wobei alle Stopplistenworte, alle Satzzeichen und alle
Infinitiv-Verben ignoriert werden. Irgendwelche restlichen Wendungen
mit mindestens zwei Worten, welche als Bigramme bekannt sind, werden
als Gattungsnamen angenommen und in das Lexikon gesetzt. Als ein
Beispiel werden ein kurzer Absatz und die in Übereinstimmung mit der Erfindung
daraus extrahierten Gattungsnamen-Wendungen gezeigt. Der Absatz
kann sein:
"Wie
in der thematischen Zusammenfassung erwähnt, berücksichtigt Designer keine Platzierung
von Dimensionen gegen Merkmale, welche als theoretische Darstellungen
angesehen werden könnten.
Beispiele umfassen Profil oder Silhouette, Umrisse von Zylindern
und anderen gekrümmten
Teilen, wo die darstellende Geometrie direkt vom aktuellen Standpunkt
abhängt."
-
Ersetzen
wir alle zu der Stoppliste gehörenden
Worte durch einen Schrägstrich,
alle Brüche
(wie z.B. Leerzeichen und Satzzeichen) durch einen Bindestrich und
alle Infinitiv-Verben durch einen Sprung (">"), können drei
Bigramme extrahiert werden, wie unten dargelegt. Nach der Verarbeitung
sieht der Absatz aus wie:
- / / / thematischen Zusammenfassung – erwähnt – > Designer / Platzierung
/ / / / – /
/ theoretische Darstellungen > / > – Beispiele > / / / – / / /
/ / Zylindern / / gekrümmten
/ – /
/ darstellende Geometrie / / aktuellen Standpunkt – abhängt – –
-
Wie
man sieht, ist der Absatz wesentlich reduziert worden, und es können die
folgenden Gattungsname-Bigramme extrahiert werden: "thematischen Zusammenfassung", "theoretische Darstellungen", "darstellende Geometrie" und aktuellen Standpunkt". Außerdem kann "Designer" als Eigenname extrahiert
werden. Jetzt wird die Extraktion von wiederholten Segmenten beschrieben.
-
Im
Schritt 174 der Extraktion von wiederholten Segmenten können Wendungen
oder Sequenzen aus zwei bis sechs Worten in jedem Textstück ausfindig
gemacht werden, indem die Stoppliste und irgendwelche anderen Leerworte
herausgefiltert werden, wie oben beschrieben. Bei der Extraktion
von wiederholten Segmenten werden Segmente von Worten, welche wiederholt
werden, erkannt, um ihren idiomatischen Wert zu erfassen, und können extrahiert
werden. Typischerweise sind die am häufigsten wiederholten Wortgruppen
Zweiwort-Wendungen, als Bigramme bekannt. Irgendwelche wiederholten Wendungen
können
in das Lexikon aufgenommen werden. Die besten Wendungen zu Zwecken
der Erzeugung des Lexikons enthalten gewöhnlich zwei oder drei Worte.
Irgendwelche dieser Wendungen oder Sequenzen, die wiederholt werden,
werden im Lexikon gespeichert. Es wird nun ein Beispiel für die Extraktion
von wiederholten Segmenten beschrieben. In einer großen Zahl
von neuen Geschichten gab es 37.976 Segmente, doch waren über 25.000 der
wiederholten Segmente Bigramme, welche "in dem" "von
den" und "auf dem" umfassten, welche
herausgefiltert werden können,
da sie Stoppworte enthalten. Die wiederholten Segmente können neben den
anderen Bigrammen aber auch die Bigramme "Betriebs-System", "Festplatten-Laufwerk", "CD-Rom-Laufwerk" und "Home-Page" enthalten. Diese
Bigramme können
in der semiotischen Datenstruktur gespeichert werden, da sie keine
Stoppworte enthalten und zum Verständnis eines Textstücks beitragen.
-
Der
Syntaxanalyseschritt 176 kann für das Intranet-System verwendet
werden, wie oben beschrieben, ist aber normalerweise nicht für den Internet-Kontext
zweckmäßig, da
das Volumen von Textinformationen im Internet-Kontext zu groß ist, um
effiziente, zeitige Syntaxanalyse zu erlauben. Der Syntaxanalysator
kann jedes Textstück
analysieren und jedes Wort nach seiner Wortart, wie zum Beispiel
ein Substantiv, ein Verb, ein Adjektiv oder ein Adverb, kategorisieren.
Zur Durchführung
dieser Analyse kann das System eine Vielzahl von Schablonen aufweisen, die
eine Liste der Wortarten oder Kombination der Wortarten enthalten
kann, die dem Lexikon hinzuzufügen
sind. Zum Beispiel kann eine Schablone anzeigen, dass alle Verb-Verb-Kombinationen
nicht im Lexikon zu speichern sind. In Übereinstimmung mit der Erfindung
vermeiden diese Schablonen Verb-Wendungen und konzentrieren sich
auf Substantiv-Wendungen. Wie oben beschrieben, fügt eine
Verb-Wendung in einem Satz, wie z.B. "könnte
gehen" in dem Satz "Bill Clinton könnte nach
Asien gehen", einem Satz
keinerlei Kontext hinzu. Die Kontextworte in dem Satz sind "Bill Clinton" und "Asien", welche Substantiv-Wendungen sind. Diese
Schablonen und die Syntaxanalyse helfen, unerwünschte Wendungen und Worte
noch mehr aus den Textstücken
herauszufiltern.
-
Wie
oben beschrieben, findet die Erzeugung der semiotischen Datenstruktur
konstant statt, so dass, wenn zusätzliche Textdatenstücke gesammelt werden,
die semiotische Datenstruktur aktualisiert wird, so dass sie irgendwelche
Wendungen aus diesen neuen Textdatenstücken enthält. Daher wird die semiotische
Datenstruktur konstant aufgebaut und immer dann verbessert, wenn
irgendwelche neuen Textdatenstücke
ausfindig gemacht werden. Im Laufe der Zeit wird die semiotische
Datenstruktur daher klüger
beim Entfernen von unerwünschten
Wendungen und kann tatsächlich
auf einen bestimmten Benutzer trainiert werden. Zum Beispiel kann
eine Flugzeugfirma, die die Erfindung installiert hat, anfänglich die
semiotische Datenstruktur unter Verwendung von Flugzeugartikeln
erzeugen, so dass hauptsächlich flugzeugbezogene
Wendungen in der semiotischen Datenstruktur gespeichert werden.
Werden dem System andere Dokumente hinzugefügt, werden daher hauptsächlich flugzeugbezogene
Wendungen extrahiert. Jetzt wird ein Verfahren zur Erzeugung eines Wörterbuchs
in Übereinstimmung
mit der Erfindung beschrieben.
-
10 ist
ein Flussdiagramm, das ein Verfahren 180 zur Erzeugung
eines Wörterbuchs
in Übereinstimmung
mit der Erfindung zeigt. Das Verfahren zur Erzeugung des Wörterbuchs
beginnt im Schritt 182 mit Erzeugung eines Lexikons, wie
oben beschrieben, da ein Wörterbuch
auf einem Lexikon basiert. Das Wörterbuch
ist ein Lexikon, das eher inhaltsbasiert ist, wie unten beschrieben.
Das Lexikon kann im Schritt 184 nach verschiedenen inhaltsbasierten
Kategorien analysiert werden, und im Schritt 186 können für jede Wendung
im Lexikon inhaltsbasierte Kategorien erzeugt werden. Um das Lexikon nach
inhaltsbasierten Kategorien zu analysieren, kann jede der Wendungen
oder Wortgruppen im Lexikon zum Beispiel nach "ein Akteur", "eine
Funktion" oder "ein Thema" kategorisiert werden.
Ein Akteur kann eine Person sein, ein Thema kann irgendeine Art
von Aktivität
oder physischem Objekt sein, und eine Funktion ist irgendetwas,
das den Akteur oder das Thema detaillierter beschreibt. Zum Beispiel kann
die Wendung "Bill
Clinton unterzeichnete eine Abmachung in Bezug auf ein Joint-Venture
zwischen Firmen für
einen neuen Personal-Computer" auf
die folgende Weise kategorisiert werden. "Bill Clinton" ist ein Akteur, "unterzeichnete eine Abmachung" und "Joint-Venture" können Funktionen
sein, und "Personal-Computer" kann ein Thema sein.
Themen sind schwieriger zu definieren, da es eine große Zahl
von verschiedenen Klassen und Teilklassen geben kann, doch kann
man eine allgemeine Datenquelle verwendet, wie z.B. den Thesaurus
von Roget, um die verschiedenen Themenklassen zu erzeugen, die man verwenden
will, um die Wendungen im Lexikon zu klassifizieren. Die Ausgabe
des inhaltsbasierten Kategorieanalysators ist ein Wörterbuch,
wobei jede Wendung oder Wortgruppe im Lexikon einer oder mehreren
inhaltsbasierten Kategoriekennungen zugeordnet ist. Zum Beispiel
kann die Wendung "super Wetter" eine primäre Themenkennung
(d. h. "Wetter" und eine sekundäre Kennung,
die eine Funktion sein kann (d. h. "super"), aufweisen. Daher kann das Wörterbuch
das Lexikon benutzen, verfeinert das Lexikon aber dann durch Hinzufügen der
inhaltsbasierten Kategorien der Wendungen im Lexikon, wie z.B. ein Akteur,
eine Funktion oder ein Thema. Wie oben beschrieben, kann entweder
das Lexikon oder das Wörterbuch
vom System benutzt werden, um den gesammelten Text zu verarbeiten.
Jetzt wird ein Verfahren zur Konstruktion einer Gruppe und Karte
in Übereinstimmung
mit der Erfindung beschrieben.
-
11 ist
ein Flussdiagramm eines Verfahrens 190 zur Erzeugung einer
Gruppe und einer Karte der Gruppe in Übereinstimmung mit der Erfindung. Im
Schritt 192 können
die Indizes aller Textdatenstücke
gesammelt werden, die das vom Benutzer ausgewählte breite Filterwort enthalten.
In den Schritten 194–198 können die
Indizes gruppiert werden, wie unten beschrieben. Die Eingabe in
das Gruppierungssystem ist eine Vielzahl von Indizes für jedes Textstück. Die
Wendungen, die häufig
miteinander in Beziehung stehend gefunden werden, werden gruppiert.
Der benutzte Gruppierungsalgorithmus kann einer von einer bekannten
Zahl von Gruppierungsalgorithmen sein, wie z.B. der von Dr. Bertrand
Michelet geschaffene Algorithmus. Das Grundprinzip des Algorithmus
von Dr. Bertrand Michelet ist, das für zwei gegebene Worte die Wahrscheinlichkeit,
dass die Worte voneinander getrennt sind, und die Wahrscheinlichkeit,
dass die Worte zusammen gefunden werden, beide berechnet werden.
Ist die Wahrscheinlichkeit, dass die Worte zusammen gefunden werden,
größer als
die Wahrscheinlichkeit, dass die Worte voneinander getrennt gefunden
werden, werden die Worte miteinander gruppiert.
-
Sobald
die Wendungen miteinander gruppiert worden sind, werden die gruppierten
Wendungen für
sämtliche
Textdatenstücke
in eine grafische Karte umgewandelt, und Beispiele dafür sind in 12 und 15–17 gezeigt.
Die Karte enthält
grafische Darstellungen der Wortgruppen und außerdem Linien, die einen Zusammenhang
der Wortgruppen miteinander anzeigen. Da die Gruppen verschiedene
Grade an Zusammenhang aufweisen, kann es eine Vielzahl von Karten
geben, in einer hierarchischen Struktur organisiert, so dass sich
Gruppen mit demselben Grad an Zusammenhang normalerweise auf derselben
Karte befinden. Die Karte kann außerdem ein System zum Verbinden
von Karten miteinander aufweisen, wie unten beschrieben. Im Schritt 194 werden
durchgezogene Linien, wie in 15–17 gezeigt,
zwischen Wortgruppen ausgebildet, um einen Zusammenhang zwischen
den Wortgruppen anzuzeigen. Im Schritt 196 kann jede Karte
außerdem
eine Wortgruppe aufweisen, die als Verknüpfung mit anderen Karten wirken
kann. Zum Beispiel kann die Wortgruppe eine anklickbare Schaltfläche sein,
die den Benutzer zu der Karte bringt, die mit der Verknüpfung verbunden
ist, wie in 16 gezeigt. In Übereinstimmung
mit der Erfindung kann es daher eine Hierarchie von Karten geben,
die in Beziehung stehende, aber verschiedene Wortgruppen abbilden.
-
Wie
in 15–17 gezeigt
können
auf Basis der obigen Gruppierung die Zusammenhänge der Wendungen grafisch
als eine Karte abgebildet werden. Zwecks Kartierung der Gruppen
enthält
eine Karte einer ersten, höchsten
Ebene, die als Metakarte bekannt sein kann, das Filterwort des Benutzers und
einige der nahestehendsten Wendungen. Zum Beispiel kann die Metakarte
insgesamt fünfzehn Wendungen
zeigen, die miteinander verknüpft
sind, um das Wirrwarr auf dem Bildschirm möglichst klein zu machen. Die
Zahl der auf jeder Karte gezeigten Gruppen kann reduziert werden,
um die Klarheit zu erhöhen.
Die Karte erlaubt es einem Benutzer, sich schnell und leicht ein
Bild von den Mustern von Worten und Wendungen in den Textstücken zu
machen, so dass der Benutzer bestimmen kann, welche die für die Zwecke
seiner Suche relevantesten Wendungen sind.
-
12 zeigt
ein einfaches Beispiel für
die Kartierung von Worten in zwei verschiedenen Textstücken auf
einer einzelnen Karte. Ein komplizierteres Beispiel wird unten unter
Bezugnahme auf 15–18 beschrieben.
Ein erstes Textstück 200 weist
Wendungen A und B im Text auf, während ein
zweites Textstück 202 Wendungen
C und D im Text aufweist. Für
die Zwecke dieses Beispiels nehme man an, dass das Lexikon oder
Wörterbuch
mindestens A, B und C enthält.
Aus diesen zwei Textstücken,
die sich an getrennten Orten befinden können, kann eine Karte 204 erzeugt
werden. Die Karte kann eine erste Verknüpfung 206 zwischen
A und B und eine zweite Verknüpfung 208 zwischen
A und C aufweisen. Diese Verknüpfungen
bilden grafisch ab, dass A und B in Beziehung stehen und A und C
in Beziehung stehen, dass aber B und C keine Beziehung zueinander
haben. Jetzt wird ein Verfahren zur Wiedergewinnung von Text unter
Verwendung einer Karte in Übereinstimmung
mit der Erfindung beschrieben.
-
13 ist
ein Flussdiagramm eines Verfahrens 220 zur Wiedergewinnung
von Text in Übereinstimmung
mit der Erfindung. Das Verfahren ist Teil des in 6A gezeigten
Gesamtverfahrens. Im Schritt 222 kann eine Karte höchster Ebene,
die als die Metakarte bekannt sein kann, für den Benutzer angezeigt werden.
Die Metakarte kann das vom Benutzer des Systems ausgewählte Filterwort
und irgendwelche Wortgruppen enthalten, die eng mit dem Filterwort
in Beziehung stehen. Ein Beispiel für eine Metakarte ist in 14 gezeigt
und wird unten beschrieben. Im Schritt 224 kann ein Benutzer
unter Verwendung der oben beschriebenen und wie in 16 gezeigten
anklickbaren Schaltflächen
wählen,
zu einer tieferen Ebene der Karte zu wechseln. Wenn nicht, so kann
der Benutzer im Schritt 226 irgendwelche relevanten Gruppen
in der Metakarte auswählen,
und im Schritt 228 zeigt das System auf Basis der ausgewählten Gruppen
Extrakte der Textstücke
an, die die ausgewählten
Gruppen enthalten, wie in 18 gezeigt.
-
Wenn
der Benutzer eine Karte tieferer Ebene auswählen möchte, so wechselt das System
im Schritt 230 zu der Karte tieferer Ebene, als Zoomen bekannt.
Der Benutzer kann weiterzoomen, bis die passende Karte angezeigt
wird. Sodann, im Schritt 232, wählt der Benutzer die relevanten
Gruppen aus, und im Schritt 228 werden Extrakte aus den
Textstücken,
die diese Gruppen enthalten, angezeigt. Im Schritt 234 kann
ein Benutzer wählen,
zusätzliche Suchen
durchzuführen.
Sollen mehr Suchen durchgeführt werden,
schleift das Verfahren zurück
zum Schritt 222 und beginnt erneut. Andernfalls endet das Verfahren.
-
Der
Zoomprozess in Übereinstimmung
mit der Erfindung kann auf mehreren Ebenen stattfinden. Zum Beispiel
kann eine breite Karte das ganze World Wide Web auflisten, während eine
Karte tieferer Ebene, zu der gezoomt werden kann, Gruppen enthalten kann,
die mit einer bestimmten Website in Beziehung stehen, während eine
Karte noch tieferer Ebene Gruppen enthalten kann, die mit einer
individuellen Webseite in Beziehung stehen, und die Karte tiefster Ebene
kann Gruppen enthalten, die mit einem Absatz auf einer Webseite
in Beziehung stehen können.
In einem anderen Beispiel kann eine Karte hoher Ebene Gruppen auflisten,
die eine hohe Zahl von Malen auftreten, während die Karte tiefster Ebene
Gruppen auflisten kann, die einmal auftauchen. Daher kann ein Benutzer
die Detailebene wählen,
die er prüfen möchte, und
schnell von irgendeiner Ebene zu irgendeiner anderen Ebene wechseln.
Jetzt wird ein Beispiel für
eine Metakarte und mehrere Karten tieferer Ebene beschrieben.
-
14 ist
eine Skizze, die ein Beispiel für eine
Metakarte 240 zeigt, die eine erste Gruppe 242, eine
zweite Gruppe 244 und eine dritte Gruppe 246 aufweisen
kann, die miteinander in Beziehung stehen. Diese Gruppen stehen
miteinander in Beziehung, da diese Gruppen in einem Textdatenstück nahe
beieinander auftauchen. Jede dieser Gruppen höchster Ebene kann auch zu einer
Karte tieferer Ebene gehören.
Zum Beispiel gehört
die erste Gruppe 242 zu einer Karte B1 248, die
auch andere Gruppen enthält,
die mit der ersten Gruppe in Beziehung stehen, aber nicht mit den
Gruppen in der Metakarte in Beziehung stehen. Ähnlich gehört die zweite Gruppe 244 zu
einer Karte B2 250, die auch andere Gruppen enthält, die
damit in Beziehung stehen. Ähnlich gehört die dritte
Gruppe 246 auch zu einer Karte B3 252, die auch
andere Gruppen enthält,
die mit der dritten Gruppe 246 in Beziehung stehen, aber
nicht mit den auf der Metakarte angezeigten Gruppen in Beziehung
stehen. Wenn der Benutzer zu einer Karte tieferer Ebene wechselt,
können
mehr Details der Gruppen gezeigt werden. Die Metakarte und Karten tieferer
Ebenen und die hierarchische Struktur erlauben es einem Benutzer,
durch eine größere Datenmenge
zu navigieren, da die auf dem Bildschirm angezeigte Datenmenge begrenzt
ist. Jetzt wird ein Beispiel für
den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung
beschrieben.
-
15–18 zeigen
ein Beispiel für
den Betrieb des Textwiedergewinnungssystems in Übereinstimmung mit der Erfindung.
In diesem Beispiel wurde ein einzelnes Textdatenstück benutzt,
das die Dokumentation für
eine populäre
E-Mail-Anwendung war. Die Dokumentation wurde unter Verwendung des
Systems verarbeitet, wie oben beschrieben, um zuerst eine semiotische
Datenstruktur zu erzeugen, die eine Liste von Worten oder Wendungen
enthält, die
den Inhalt oder Kontext der Dokumentation vermitteln, und danach
kann ein Index der Dokumentation erzeugt werden, indem die Dokumentation
mit der semiotischen Datenstruktur verglichen wird. Der Index enthält eine
Liste von Worten, die sowohl in der semiotischen Datenstruktur als
auch in der Dokumentation enthalten sind, und da in diesem Beispiel ein
einzelnes Textdatenstück
verwendet wurde, sind die semiotische Datenstruktur und der Index
identisch. Der Index vermittelt den Inhalt oder Kontext der Dokumentation
und kann eine strukturierte Zusammenfassung der Dokumentation sein.
Die Worte oder Wendungen des Index können dann auf Basis des Grades
an Zusammenhang der Worte oder Wendungen miteinander gruppiert werden,
wie oben beschrieben, um Gruppen zu erzeugen. Aus diesen Gruppen
kann eine grafische Karte erzeugt werden, wobei die Karte eine Vielzahl
von Knoten, die jeweils eine Gruppe enthalten, und eine Vielzahl
von Verknüpfungen
umfassen kann, die Knoten verbinden, die miteinander in Beziehung
stehen. Es wurde eine in 15 gezeigte
Metakarte 260 höchster
Ebene erzeugt, die einen Knoten 262, der das Filterwort
des Benutzers enthält,
wie z.B. "Dokument", und eine Vielzahl
von anderen Knoten 264, 266 anzeigt, die mit dem
Filterwort in Beziehung stehen. Die Metakarte kann außerdem Gruppen
enthalten, die sowohl Gruppen in der Metakarte als auch Verknüpfungen mit
einer Karte tieferer Ebene sind. Zum Beispiel kann die Gruppe 266 die
Wendung "Appledouble" enthalten. Wie in 16 gezeigt,
wenn ein Benutzer die Gruppe 266 "Appledouble" anklickt, kann eine Karte 270 tieferer
Ebene angezeigt werden, die die Gruppe 266 "Appledouble" enthält. Die
Karte tieferer Ebene kann außerdem
Gruppen enthalten, die mit der Wendung "Appledouble" in Beziehung stehen, aber nicht mit
den in der Metakarte 260 gezeigten Gruppen in Beziehung
stehen. Um zu der Metakarte zurückkehren
zu können,
kann die Karte tieferer Ebene außerdem den Knoten 262 "Dokument" enthalten. Daher
sind die Gruppen auf eine hierarchische Weise organisiert, so dass
in jedem Zeitpunkt eine begrenzte Menge Gruppen auf dem Bildschirm
gezeigt werden. Auf diese Weise kann sich der Benutzer auf eine schnelle
Weise durch alle Karten bewegen und die relevanten Gruppen ausfindig
machen.
-
Sobald
der Benutzer die passende Karte ausfindig gemacht hat, wie in 17 gezeigt,
kann der Benutzer eine oder mehrere Gruppen auswählen, die die relevanten Wendungen
zu enthalten scheinen. In diesem Beispiel kann der Benutzer die folgenden
Gruppen auswählen:
1) Bin-Hex; 2) Format; 3) frühere
Version von Eudora; und 4) alter Macintosh-Mailer. Das System verwendet
dann diese ausgewählten
Gruppen, um Textdatenstücke
zu extrahieren, die die ausgewählten
Gruppen enthalten. In diesem Beispiel, wie in 18 gezeigt,
werden zwei verschiedene Extrakte angezeigt, welche es dem Benutzer
zu bestimmen erlauben, ob die Dokumente relevant sind, ohne die
gesamten Dokumente betrachten zu müssen. Nach dem Betrachten der
Extrakte kann der Benutzer zu einer der Karten in der Hierarchie
zurückkehren
und fortfahren, andere Gruppen zu durchblättern.
-
Zusammengefasst
liefert das System und Verfahren zur Verarbeitung und Wiedergewinnung von
Textdaten in Übereinstimmung
mit der Erfindung eine effiziente Methode, eine große Menge
Textdaten zu durchsuchen, ohne eine Schlüsselwortsuche zu benutzen.
Das System erzeugt zuerst ein Lexikon, das irgendwelche Worte entfernen
kann, die die Textdaten mit keinerlei Inhalt versehen, und nur Worte oder
Wendungen zurückbehält, die
von einem Benutzer benutzt werden können, um den Inhalt eines Stücks Textdaten
zu bestimmen. Wendungen und Bigramme liefern häufig die nützlichsten Informationen, um
den Inhalt eines Textdatenstücks
zu bestimmen. Das inhaltsbasierte Lexikon kann mit jedem Textdatenstück verglichen
werden, um für
jedes Textdatenstück
einen Index zu erzeugen, der nur inhaltsbasierte Wendungen enthält, die
die Textdaten mit Kontext versehen. Die Indizes können dann
gruppiert werden, um Wendungen miteinander zu verbinden, wie oben
beschrieben. Auf Basis dieser gruppierten Indizes kann eine Karte
erzeugt werden, die die Wortgruppen und die Zusammenhänge der
Gruppen miteinander grafisch darstellt. Die Karten können außerdem eine
hierarchische Struktur haben, so dass eine reduzierte Zahl von Gruppen
für den
Benutzer angezeigt werden. Die Karten stellen dem Benutzer eine effiziente,
schnelle Methode zum Durchblättern
der Textdatenstücke
und Auffinden der gewünschten Textdatenstücke mit
minimaler Anstrengung zur Verfügung.
Eine Vielzahl von Karten in verschiedenen Zeitpunkten können unter
Verwendung eines Wörterbuchs
verarbeitet werden, um Szenarien zu erzeugen, welche eine Änderung
in den in den Karten gezeigten Beziehungen anzeigen können. Diese Änderungen
können
wertvolle Informationen zum Beispiel über eine Firma oder industrielle
Trends liefern. Das System kann eine große Datenmenge effizient verarbeiten
und es dem Benutzer dennoch erlauben, die Textdaten schnell zu durchsuchen.
-
Das
Vorhergehende wurde zwar unter Bezugnahme auf eine bestimmte Ausführungsform
der Erfindung beschrieben, der Fachmann erkennt aber, dass man Änderungen
an dieser Ausführungsform vornehmen
kann, ohne von den Prinzipien der Erfindung abzuweichen, deren Schutzbereich
durch die beigefügten
Ansprüche
definiert ist.