-
Hintergrund der Erfindung
-
Gebiet der Erfindung
-
Die vorliegende Erfindung betrifft
eine Vorrichtung zum Zusammenfassen eines elektronischen Dokumentes,
das in einer natürlichen
Sprache geschrieben ist, und ist entwickelt worden, um eine Fülle von
herausgesuchten Dokumenten zu selektieren und darauf zuzugreifen
und auf den Verwaltungsprozeß einer
Fülle von
akkumulierten Dokumenten zuzugreifen, diesen umzustrukturieren (wiederholt
zu nutzen) und zu unterstützen.
-
In letzter Zeit sind Dokumente auf
elektronischen Medien gespeichert worden, und auf Computern erfolgt
unter Verwendung von neuen Dokumentkommunikationsmedien wie beispielsweise
dem Internet/Intranet, etc., ein Zugriff auf eine sich explosionsartig
vergrößernde Anzahl
von Dokumenten und deren wiederholte Nutzung. Unter den Umständen geht
die technische Entwicklung mit einer Fülle und einer größeren Auswahl
von technischen Dokumenten einher, wodurch die Anzahl der Nachfragen
nach Akkumulierung und wiederholter Nutzung einer Fülle von
Dokumenten zunimmt.
-
Bei solch einer Fülle von Dokumenten sollte die
Effektivität
von jedem Dokument schnell bestimmt werden, um ein zweckdienliches
Dokument zu selektieren. Um dies zu erreichen, ist es erforderlich,
eine Liste von Dokumenten zusammen mit den Informationen anzuzeigen,
die den Inhalt der Dokumente implizieren. Die Informationen zu dem
Zweck können
ein Titel oder eine Kurzfassung eines Dokumentes sein. Es kann jedoch
sein, daß der
Titel den Inhalt des Dokumentes praktisch nicht repräsentiert
oder daß eine Kurzfassung
fehlt. Wenn auf ein Dokument online zugegriffen wird, ist die Anzahl
von anzuzeigenden Zeichen begrenzt. Deshalb kann es sein, daß eine Kurzfassung
nicht angemessen angezeigt wird, da sie zu viele Zeichen enthält. Somit
wird dringend eine Technik zum automatischen Erzeugen einer angemessenen
Zusammenfassung gewünscht.
-
Wenn Dokumente effektiv und wiederholt verwendet
werden, sollte eine Fülle
von Dokumenten beim Akkumulieren zweckmäßig klassifiziert und angeordnet
werden. Dabei ist ein geeignetes Zusammenfassen erforderlich, um
den Inhalt eines neuen Dokumentes, das zu klassifizieren ist, schnell
zu verstehen, einen Überblick über die
Klassifizierung zu erhalten, so daß der Verwalter des akkumulierten
Dokumentes das Klassifizierungssystem verbessern kann, und einen
Nutzer zu informieren, der mit dem Klassifizierungssystem der jetzigen
Klassifizierung nicht vertraut ist.
-
Das Merkmal der vorliegenden Erfindung
ist das Einstellen eines Zusammenfassungsresultats unter Verwendung
der Dokumentzusammenfassungsvorrichtung in Abhängigkeit vom Interesse ("im Brennpunkt stehender
Begriff") und Wissen
("bekannter Begriff") des Nutzers.
-
Beschreibung der verwandten
Technik
-
Es hat zwei Hauptverfahren zum Erzeugen der
Zusammenfassung eines Dokumentes in der herkömmlichen Dokumentzusammenfassungstechnik gegeben.
Das erste Verfahren ist das Erkennen und Extrahieren eines wichtigen
Abschnittes in einem Dokument (normalerweise der logischen Elemente
eines Dokumentes wie etwa eines Satzes, eines Absatzes, eines Abschnittes,
etc., und im folgenden als Satz bezeichnet) und das Erzeugen einer
Zusammenfassung. Das zweite Verfahren ist das Vorbereiten eines
Informationsmusters, das als Zusammenfassung zu extrahieren ist,
und das Bilden einer Zusammenfassung nach dem Extrahieren von Wörtern oder
Verbänden
in dem Dokument gemäß der Bedingung
des Musters oder nach dem Extrahieren von Sätzen gemäß dem Muster. Da das zweite Verfahren mit
der vorliegenden Erfindung wenig zu tun hat, wird unten das erste
Verfahren beschrieben.
-
Das erste Verfahren wird weiter in
mehrere Unterverfahren unterteilt, und zwar in Abhängigkeit davon,
welcher der Schlüssel
zur Bewertung der Wichtigkeit eines Satzes ist. Ein typisches Verfahren hängt von
Folgendem ab:
- 1. von dem Auftreten und der
Verteilung von Wörtern
in einem Dokument; und
- 2. von der Kohärenzbeziehung
zwischen Sätzen und
der Position, wo der Satz erscheint.
-
(Die Wichtigkeit eines Satzes kann
auch durch das Syntaxmuster eines Satzes bewertet werden, aber dieses
Verfahren wird hier weggelassen, da es die vorliegende Erfindung
kaum betrifft.)
-
Bei dem Verfahren 1, das heißt, bei
dem Verfahren, das von dem Auftreten und der Verteilung von Wörtern in
einem Dokument abhängt,
wird normalerweise zuerst die Wichtigkeit eines Wortes (eines Verbandes)
bestimmt, das in einem Dokument enthalten ist, und dann wird die
Wichtigkeit des Satzes in Abhängigkeit
von der Anzahl von wichtigen Wörtern
bewertet, die in dem Satz enthalten sind. Dann kann ein wichtiger
Satz selektiert werden und wird eine Zusammenfassung erzeugt. Die
Wichtigkeit eines Wortes wird unter Verwendung des Auftretens des
Wortes in einem Dokument berechnet, das unter Berücksichtigung
der Abweichung des Auftretens des Wortes von dem Auftreten des Wortes
in einem gemeinsamen Dokumenten-Set oder der Position gewichtet werden
kann, wo das Wort erscheint (ein Wort, das in einem Titel erscheint,
wird als wichtiges Wort angesehen, etc.). Normalerweise ist ein
im Brennpunkt stehendes Wort (nämlich
ein Wort, auf das sich der Brennpunkt richtet) im Japanischen ein
unabhängiges
Wort (besonders ein Substantiv) und im Englischen ein Inhaltswort.
Ein unabhängiges
Wort und ein Inhaltswort stellen ein Wort dar, das eine wesentliche
Bedeutung hat, wie etwa ein Substantiv, ein Adjektiv, ein Verb,
etc., und das von syntaktischen Wörtern, wie etwa einer Präposition,
einem Hilfsverb, etc., unterschieden werden kann. Die förmliche
Definition eines unabhängigen
Wortes im Japanischen impliziert ein Wort, das einen Teil einer
unabhängigen Sektion
in einem Satz bilden kann. Dies unterscheidet sich ein wenig von
der obigen Beschreibung, aber der Zweck des Begrenzens eines im
Brennpunkt stehenden Wortes auf ein unabhängiges Wort ist oben beschrieben.
-
Zum Beispiel wird in folgendem Dokument das
Verfahren 1 beschrieben.
-
In der japanischen offengelegten
Patentveröffentlichung
(Tokkaihei) Nr. 06-259424 "Document Display
Apparatus, Document Summarization Apparatus, and Digital Copy Apparatus" und dem folgenden
Dokument 1 von demselben Autor wird eine Zusammenfassung erzeugt,
indem ein Abschnitt, der eine Anzahl von Wörtern enthält, die in dem Titel enthalten
sind, als wichtiger Abschnitt bezüglich des Titels extrahiert
wird.
-
Dokument 1: Masayuki Kameda, "Extraction of Important
Keyword and Important Sentence by Pseudo-keyword Correlation Method", offenbart auf dem
zweiten Jahrestreffen der Association for Natural Language Processing,
S. 97–100,
März 1996.
-
In der japanischen offengelegten
Patentveröffentlichung
(Tokkaihei) Nr. 07-36896 "Document Summarization
Method and Apparatus" wird
ein Keim für
eine wichtige Darstellung auf der Basis der Komplexität (Wortlänge, etc.)
der Darstellung (Wort, etc.) in einem Dokument selektiert, und eine
Zusammenfassung wird durch Extrahieren eines Satzes erzeugt, der
eine größere Anzahl
von wichtigen Keimen enthält.
-
In der japanischen offengelegten
Patentveröffentlichung
(Tokkaihei) Nr. 08-297677 "Automatic Method
of Generating Summary of Subject" werden Wörter von
Hauptsubjekten in der Ordnung von der höchsten Auftrittshäufigkeit
eines Wortes in einem Dokument erkannt und wird eine Zusammenfassung erzeugt,
indem ein Satz extrahiert wird, der eine größere Anzahl von wichtigen Subjektwörtern enthält.
-
In der japanischen offengelegten
Patentveröffentlichung
(Tokkaihei) Nr. 06-215049 "Document Summarization
Apparatus" wird
eine Zusammenfassung erzeugt, indem ein Satz von einem Satz oder Absatz
mit einem Merkmalsvektor, der jenem des gesamten Dokumentes ähnlich ist,
nach Anwendung eines Vektorraummodells extrahiert wird, das oft
beim Bestimmen der Relevanz zwischen einem Suchresultat und einem
Fragesatz verwendet wird. Ein Vektorraummodell bezieht sich auf
das Darstellen eines Merkmals eines Dokumentes und eines Fragesatzes
unter Verwendung eines Merkmalsvektors, der die Existenz oder das
Auftreten eines Wortes in dem Dokument und dem Fragesatz angibt, nachdem
jedem Schlüsselwort
oder jedem bedeutungstragenden Element eines Wortes eine Dimension
(Achse) zugeordnet wurde.
-
Bei dem Verfahren 2, das von der
Kohärenzbeziehung
zwischen Sätzen
und der Position des Satzes abhängt,
wird ein wichtiger Satz selektiert, indem die (relative) Wichtigkeit
des Satzes auf der Basis der Konjunktion (auch als Kohärenzbeziehung bezeichnet)
von Sätzen
wie beispielsweise 'und', 'aber', 'dann', etc., und der Position,
wo ein Satz in einem Dokument erscheint, bestimmt wird. Dieses Verfahren
ist zum Beispiel beschrieben in der japanischen offengelegten Patentveröffentlichung
(Tokkaihei) Nr. 07-182373 "Document
Information Retrieval Apparatus and Document Retrieval Result Display Method" und in dem folgenden
Dokument 2 von demselben Anmelder und in dem Dokument 3 von anderen
Anmeldern.
-
Dokument 2: Kazuo Sumita, Tetsuo
Tomono, Kenji Ono und Seiji Miike. "Automatic abstract generation based
on document structure analysis and its evaluation as document retrieval
presentation function".
Transactions of the Institute of Electronics, Information and Communication
Engineers, Bd. J78-D-II, Nr. 3, S. 511–519, März 1995 (auf japanisch).
-
Dokument 3: Kazuhide Yamamoto, Shigeru Masuyama
und Shozo Naito. "GREEN:
An experimental system generating summary of Japanese editorials
by combining multiple discourse characteristics". IPSJ SIG Notes NL-99-3, Information
Processing Society of Japan, Januar 1994 (auf japanisch).
-
Zusätzlich zu der Technik zum Erzeugen
einer Zusammenfassung eines gesamten Dokumentes, wie oben beschrieben,
gibt es eine Technik zum Darstellen eines im Brennpunkt eines Nutzers
stehenden Abschnittes, um die Bestimmung der Effektivität von jedem
Dokument zu unterstützen.
Als wohlbekannte Techniken werden gern ein Verfahren zum Anzeigen
des Umgebungsabschnittes eines herausgesuchten Wortes, das als Schlüsselwort
im Kontext (keyword in context: KWIC) bezeichnet wird, und ein ähnliches
Verfahren zum Anzeigen der Nachbarschaft eines herausgesuchten Wortes
verwendet.
-
Ferner gibt es ein Verfahren zum
Darstellen nur eines spezifischen Abschnittes in Abhängigkeit von
dem Zweck eines Nutzers, wie etwa eines Abschnittes, der den Hintergrund
einer Studie in einer wissenschaftlichen Arbeit beschreibt, des
Leitartikels einer Zeitung, etc. Beispiele für dieses Verfahren sind in
der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr.
07-182373, in dem Dokument 3 und in den Dokumenten 4 und 5 von einem
anderen Anmelder be schrieben. Bei diesen Techniken wird jedoch ein
Abschnitt, dem eine spezielle Funktion in einer logischen Struktur
eines Dokumentes zugeordnet ist, selektiert, indem eine feldspezifische
Dokumentkonfiguration und der Wortlaut als Anhaltspunkt verwendet
werden. Deshalb wird nicht speziell ein im Brennpunkt des Nutzers
stehender Abschnitt (Abschnitt, für den sich der Nutzer interessiert)
selektiert, und der Abschnitt, der mit dem im Brennpunkt des Nutzers
stehenden Abschnitt eng verbunden ist, kann auch nicht dargestellt
werden.
-
Dokument 4: Noriko Kando. "Functional structure
analysis of research articles selected from three specialties: Automatic
category assignment." Library
and Information Science, Nr. 31, S. 25–38, 1993 (auf japanisch).
-
Dokument 5: Noriko Kando. "Functional structure
analysis of the research articles and its applications." Journal of Japan
Society of Library Science, Bd. 40, Nr. 2, S. 49–61, Juni 1994 (auf japanisch).
-
Die Faktoren zum Verringern der Lesbarkeit einer
Zusammenfassung können
redundante Darstellungen, dem Nutzer unbekannte Wörter, ungelöste anaphorische
Ausdrücke
(wie etwa 'es', 'dies', 'jenes'), etc. sein.
-
Von den oben aufgelisteten Faktoren
können redundante
Darstellungen durch das Verfahren zum Löschen von überschüssigen modifizierenden Elementen
durch die Heuristik verringert werden, und zwar basierend auf den
Wortlautcharakteristiken und der Korrelation zwischen modifizierenden
Elementen und modifizierten Elementen, einer Distanz zwischen einem
modifizierenden Element und einem modifizierten Element. Zum Beispiel
präsentiert
das oben beschriebene Dokument 3 eine Heuristik zum Löschen des
ersten modifizierenden Elementes in dem Fall, wenn zwei oder mehr
Elemente ein und dasselbe Substantiv modifizieren, um einen japanischen Zeitungsartikel
zusammenzufassen. Das folgende Dokument 6 von denselben Autoren
präsentiert
eine andere Heuristik zum Löschen
einer Einleitung für
einen nachfolgenden Artikel in einer Reihe von relevanten Artikeln,
falls 70% oder mehr der Substantive in der Einleitung in einer Einleitung
für die
vorhergehenden Artikel auftreten.
-
Dokument 6: Takahiro Funasaka, Kazuhide Yamamoto
und Shigeru Masuyama. "Relevant
newspaper articles summarization by redundancy reduction." IPSJ SIG Notes NL-114-7,
Information Processing Society of Japan, Juli 1996 (auf japanisch).
-
Es ist offensichtlich, daß Definitionen
und Beschreibungen von Wörtern,
falls vorhanden, in einer Zusammenfassung enthalten sein sollten,
um das Problem von unbekannten Wörtern
zu lösen.
-
Für
einen anaphorischen Ausdruck wird dessen Beziehungswort herausgesucht,
und der anaphorische Ausdruck wird durch das Beziehungswort oder
einen Abschnitt ersetzt, der das Beziehungswort enthält, und
wird in eine Zusammenfassung einbezogen, so daß die Zusammenfassung leicht
verständlich
ist. Das Beziehungswort des anaphorischen Ausdrucks kann durch ein
Verfahren identifiziert werden, das als Zentrierverfahren bezeichnet wird.
Bei diesem Verfahren wird eine Liste von Zentren gebildet, die Elemente
(Zentren) eines Satzes umfaßt,
die wahrscheinlich Beziehungswörter
von anaphorischen Ausdrücken
in den nachfolgenden Sätzen
sind. Die Wahrscheinlichkeit der Elemente, ein Beziehungswort zu
sein, wird hauptsächlich durch
dessen syntaktische Rolle in einem Satz berechnet, die etwa ein
Subjekt, ein direktes Objekt, etc., sein kann. Dann löst das Verfahren
einen anaphorischen Ausdruck durch Selektieren des wahrscheinlichsten
Elementes von der Liste mit der Beschränkung der Übereinstimmung von Anzahl,
Geschlecht, etc. Bei einem ähnlichen Verfahren
wird ein Zentrum auch als Brennpunkt bezeichnet. Bei keiner Technik
kann jedoch ein perfektes Resultat erreicht werden. Die Zentrierverfahren
sind in den folgenden Dokumenten beschrieben.
-
Dokument 7: Megumi Kameyama. A property-sharing
constraint in centering. In den Unterlagen der 24. Jahresversammlung
der Association for Computational Linguistics, S. 200–206, 1986.
-
Dokument 8: Susan E. Brennan, Marilyn
W. Friedman und Carl J. Pollard. A centering approach to pronouns.
In den Unterlagen der 25. Jahresversammlung der Association for
Computational Linguistics, S. 155–162, 1987.
-
Gemäß den oben beschriebenen japanischen
offengelegten Patentveröffentlichungen
(Tokkaihei) Nr. 07-182373 und Nr. 07-44566 "Abstract Generation Apparatus" von denselben Anmeldern wird
das Verfahren implementiert, um die Position der Definition eines
unbekannten Wortes und eines Beziehungswortes eines anaphorischen
Ausdrucks zu bewerten, und eine Hypertext-Verbindung wird auf der
Basis des Originalwortes oder eines anaphorischen Ausdrucks festgelegt,
wodurch ein Bedürfnis eines
Nutzers realisiert wird.
-
Um ein effektives Dokument von einer
Fülle von
Dokumenten zu selektieren, ist es wichtig, einen Nutzer darüber zu informieren,
wie der Autor eines Dokumentes ein Thema behandelt, das für die vom Nutzer
gewünschten
Informationen relevant ist. Für einen
Nutzer ist es hilfreich, die Relevanz eines Dokumentes zu bestimmen.
Bei einem Suchsystem werden vom Nutzer gewünschte Informationen oft als Fragesatz
oder Frageausdruck unter Verwendung eines Schlüsselwortes dargestellt. Vom
Nutzer gewünschte
Informationen werden in solchen Formen jedoch nicht vollständig beschrieben.
Ein Dokument, das ein Wort in einem Fragesatz oder einem Frageausdruck
enthält,
liefert nicht unbedingt die vom Nutzer gewünschten Informationen. Wenn
zum Beispiel ein Patentamtsblatt unter Verwendung des Schlüsselwortes 'Übersetzung' durchsucht wird, kann ein Suchresultat
eine große
Anzahl von Patenten über die Übersetzung
von Maschinensprache enthalten, obwohl der Nutzer Informationen über die
Patente erhalten möchte,
die die Übersetzung
von Sätzen
in einer natürlichen
Sprache betreffen. In diesem Fall kann das Darstellen des Wortes 'Übersetzung' in einem Kontext die Selektion eines
Dokumentes korrekt unterstützen.
Zu diesen Zwecken kann das oben beschriebene KWIC verwendet werden,
aber es ist schwierig, den Ablauf einer Logik zu begreifen, da nur
eine physische Nachbarschaft angegeben wird, und eine zweckdienliche
prägnante
Zusammenfassung kann nicht ohne weiteres erstellt werden.
-
Unter diesem Gesichtspunkt wird nur
die Wichtigkeit eines Satzes in einem Dokument berücksichtigt,
wenn durch die herkömmliche
Zusammenfassungstechnik bestimmt wird, ob der Satz in eine Zusammenfassung
aufgenommen wird oder nicht, wie oben beschrieben. Deshalb wird
der Wunsch eines Nutzers nicht beachtet. Als Resultat wird, falls
ein Schlüsselwort
einem unwichtigen Abschnitt eines Dokumentes entspricht, wie etwa
einem Beispiel in einem linguistischen Dokument, ein Nutzer durch eine
automatisch erzeugte Zusammenfassung des herausgesuchten Dokumentes
verwirrt, da sie nicht den Abschnitt enthält, der für den Wunsch des Nutzers relevant
ist.
-
Im folgenden ist ein weiteres Problem
bei dem linguistischen Dokument beschrieben. In einem linguistischen
Dokument wird das förmliche
Wesen einer Sprache diskutiert, und der Inhalt eines in dem Dokument
angegebenen Beispiels muß nichts
mit der linguistischen Diskussion zu tun haben. Zum Beispiel ist
der japanische Satz "Ein
Elefant hat einen langen Rüssel" ein häufig angeführtes linguistisches Bei spiel.
Wenn ein Nutzer nach Informationen über Tiere sucht, kann ein Dokument
herausgesucht werden, das solche Beispiele enthält. Da das Dokument ein linguistisches
Dokument ist, treten wenig Wörter in
bezug auf Tiere auf, wenn die Häufigkeit
der Wörter
in dem Dokument geprüft
wird, und es stellt sich heraus, daß 'Elefant' kein wichtiges Wort ist. Falls eine
automatisch erzeugte Zusammenfassung als Suchresultat auf der Basis
der Häufigkeitsverteilung angezeigt
wird, werden solche Beispiele in der Zusammenfassung kaum enthalten
sein, wodurch ein Nutzer verwirrt wird. Das heißt, wenn ein Schlüsselwort 'Elefant' eingegeben wird,
kann solch ein linguistisches Dokument herausgesucht werden, aber
es ist nicht in der Anzeige (in einer automatisch erzeugten Zusammenfassung)
eines Suchresultats enthalten, und der Nutzer kann nicht verstehen,
warum solch ein Wort herausgesucht werden konnte. Wenn andererseits
nur die Nachbarschaft eines Schlüsselwortes
angezeigt wird, wird nur ein Beispiel angezeigt, und der Nutzer
kann nicht verstehen, worum es in dem Dokument geht, da nur ein
Beispielabschnitt angezeigt wird.
-
Ein anderes Problem bei der herkömmlichen Zusammenfassungstechnik
liegt darin, daß keine Einheiten
zum Erzeugen einer Zusammenfassung in Abhängigkeit von einem Wissensniveau
eines Nutzers aufgenommen werden. Da ein Wissensniveau von jedem
Nutzer abhängt,
sollten die Definitionen und Beschreibungen für eine Zusammenfassung gemäß dem Wissensniveau
hinsichtlich technischer Termini jedes Nutzers erstellt werden.
Sonst kann ein Nutzer mit hohem Wissensniveau eine redundante Zusammenfassung
vorfinden, während
ein Nutzer mit niedrigem Wissensniveau eine schwierige Zusammenfassung
kaum verstehen wird.
-
WO 96/23265A offenbart ein System
zum Durchsuchen von verteilten Datenbanken wie etwa das Internet.
Dieses Dokument befaßt
sich mit einer Zusammenfassungserzeugung, aber das Verfahren, das
zur Zusammenfassungserzeugung verwendet wird, stammt von der herkömmlichen
Technik "ConText". Deshalb offenbart
es keine Technik, bei der sowohl im Brennpunkt des Nutzers als auch
im Brennpunkt des Autors stehende Informationen zum Zusammenfassen
eines Dokumentes verwendet werden.
-
JP-A-07-129605 offenbart eine Dokumentdurchsuchungsvorrichtung,
die eine Zusammenfassung erweitern kann, um auf eine durch einen
Nutzer der Vorrichtung spezifizierte Weise detailliertere Informationen
einzubeziehen. Bei diesem Dokument wird dieselbe Technik verwendet,
die in der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr.
07-182373 offenbart ist, die oben erläutert wurde.
-
BALL T. et al: 'AN INTERNET DIFFERENCE ENGINE AND ITS
APPLICATIONS' DIGEST
OF PAPERS OF COMPCON (COMPUTER SOCIETY CONFERENCE) 1996, TECHNOLOGIES
FOR THE INFORMATION SUPERHIGHWAY SANTA CLARA, 25.–28. FEB.
1996, Nr. CONF. 41, 25. FEBRUAR 1996, INSTITUTE OF ELECTRICAL AND
ELECTRONICS ENGINEERS, Seiten 71–76, XP000628466, offenbart
ein Tool zum Anzeigen von Abschnitten, das speziell mit einer Durchsicht
eines Dokumentes verbunden ist, das typischerweise ein WWW-Dokument ist und
täglich
durchgesehen wird. Dieses Tool hat nichts mit der Technik zum Erzeugen einer
Zusammenfassung des Inhaltes in einem Dokument zu tun.
-
Zusammenfassung
der Erfindung
-
Die vorliegende Erfindung ist auf
das Lösen des
Problems gerichtet, daß ein
im Brennpunkt des Nutzers stehendes Objekt nicht berücksichtigt
wird, wenn eine Zusammenfassung erzeugt wird. Das heißt, die
vorliegende Erfindung ist darauf gerichtet, eine Dokumentzusammenfassungsvorrichtung
und ein Verfahren zum automatischen Erzeugen einer Zusammenfassung
vorzusehen, die für
jeden Nutzer geeignet ist, indem der Inhalt der Zusammenfassung in
Abhängigkeit
von einem im Brennpunkt des Nutzers stehenden Objekt, das heißt, von
einem Objekt, für
das sich der Nutzer interessiert, und, optional, von einem Wissensniveau
des Nutzers eingestellt wird.
-
Gemäß einem Aspekt der Erfindung
ist eine Dokumentzusammenfassungsvorrichtung vorgesehen, zum Zusammenfassen,
für einen
Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist,
zur Unterstützung
bei der Verwaltung von Dokumenten, die in computerlesbarer Form
verfügbar sind,
mit: einem Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten
Abschnitten zum Extrahieren, auf eine Weise, die (a) auf im Brennpunkt
des Interesses des Nutzers stehenden Informationen basiert, die
durch den Nutzer definiert sind und Themen angeben, an denen der
Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des
Autors stehenden Informationen, die durch den Autor des Dokumentes
definiert sind und Themen angeben, die der Autor als wichtige Informationen
in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von
im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes,
dessen Zusammenfassung verlangt wird; und einem Zusammenfassungserzeugungsmittel
zum Erzeugen der Zusammenfassung des Dokumentes auf der Basis der
Abschnitte, die durch das Mittel zur Extraktion von im Brennpunkt
stehenden informationsrelevanten Abschnitten aus dem Dokument extrahiert
wurden, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten
Informationen als auch mit wichtigen Informationen in dem Dokument
erzeugt wird.
-
Mit anderen Worten, die Dokumentzusammenfassungsvorrichtung
gemäß der vorliegenden Erfindung
umfaßt
als Komponenten im Prinzip eine Einheit zur Extraktion von im Brennpunkt
stehenden informationsrelevanten Abschnitten und eine Zusammenfassungserzeugungseinheit.
Gemäß im Brennpunkt
des Interesses des Nutzers stehenden Informationen und im Brennpunkt
des Akzentes des Autors stehenden Informationen extrahiert die Einheit zur
Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten
einen Abschnitt, der diese zwei Typen von Informationen betrifft,
von einem Dokument, das zusammenzufassen ist. Im Brennpunkt des
Interesses des Nutzers stehende Informationen sind Informationen,
die einen Nutzer interessieren, der die Zusammenfassung eines zusammenzufassenden
Dokumentes verwendet. Im Brennpunkt des Akzentes des Autors stehende
Informationen sind Informationen, auf die ein Autor die Aufmerksamkeit
eines Nutzers lenkt.
-
Die Zusammenfassungserzeugungseinheit erzeugt
eine Zusammenfassung eines zusammenzufassenden Dokumentes auf der
Basis eines Extraktionsresultats von der Einheit zur Extraktion
von im Brennpunkt stehenden informationsrelevanten Abschnitten.
-
Die Dokumentzusammenfassungsvorrichtung
gemäß der vorliegenden
Erfindung kann im Prinzip auch so konstruiert sein, um eine Zusammenfassungslesbarkeitsverbesserungseinheit
und eine Zusammenfassungserzeugungseinheit als Komponenten zu enthalten.
Gemäß Informationen,
die dem Nutzer bekannt sind, und Informationen, die durch ein Zugriffsprotokoll
bekannt sind, unterscheidet die Zusammenfassungslesbarkeitsverbesserungseinheit
diese zwei Typen von Informationen von anderen Informationen und
verbessert die Lesbarkeit einer Zusammenfassung, indem ein wichtiger
Abschnitt eines zusammenzufassenden Dokumentes selektiert wird.
Informationen, die dem Nutzer bekannt sind, sind Informationen in
einem zusammenzufassenden Dokument, die ein Nutzer schon kennt.
Informationen, die durch ein Zugriffsprotokoll bekannt sind, sind
Informationen, die auf der Basis eines dem Nutzer zuvor präsentierten
Dokumentes als dem Nutzer bereits bekannte Informationen betrachtet
werden.
-
Die Zusammenfassungserzeugungseinheit erzeugt
eine Zusammenfassung eines zusammenzufassenden Dokumentes unter
Verwendung eines wichtigen Abschnittes des zusammenzufassenden Dokumentes,
der durch die Zusammenfassungslesbarkeitsverbesserungseinheit selektiert
wird.
-
Die Dokumentzusammenfassungsvorrichtung
der vorliegenden Erfindung kann ferner so konstruiert sein, um zusätzlich zu
einer Zusammenfassungserzeugungseinheit eine Zusammenfassungslesbarkeitsverbesserungseinheit
zu enthalten. In diesem Fall selektiert die Zusammenfassungslesbarkeitsverbesserungseinheit
einen wichtigen Abschnitt des zusammenzufassenden Dokumentes, wie
oben beschrieben, entsprechend dem Extraktionsresultat von der Einheit
zur Extraktion von im Brennpunkt stehenden informationsrelevanten
Abschnitten, und die Zusammenfassungserzeugungseinheit erzeugt die Zusammenfassung
des zusammenzufassenden Dokumentes auf der Basis des Selektionsresultats
der Zusammenfassungslesbarkeitsverbesserungseinheit.
-
Gemäß einem anderen Aspekt der
Erfindung ist ein Dokumentzusammenfassungsverfahren vorgesehen,
zum Zusammenfassen, für
einen Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist,
zur Unterstützung
bei der Verwaltung von Dokumenten, die in computerlesbarer Form
verfügbar
sind, das folgende Schritte umfaßt: Extrahieren, auf eine Weise,
die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen
basiert, die durch den Nutzer definiert sind und Themen angeben,
an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt
des Akzentes des Autors stehenden Informationen, die durch den Autor
des Dokumentes definiert sind und Themen angeben, die der Autor
als wichtige Informationen in dem Dokument erachtete, von Abschnit ten
bezüglich
dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem
Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird; und
Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die
extrahiert wurden und die entsprechenden zwei Typen von im Brennpunkt
stehenden Informationen betreffen, wodurch die Zusammenfassung sowohl mit
vom Nutzer gewünschten
Informationen als auch mit wichtigen Informationen in dem Dokument
erzeugt wird.
-
Somit wird bei dem Dokumentzusammenfassungsverfahren
gemäß der vorliegenden
Erfindung ein Abschnitt, der im Brennpunkt stehende Informationen
betrifft, als zentraler Abschnitt einer Zusammenfassung auf der
Basis von zwei Typen von im Brennpunkt stehenden Informationen extrahiert, nämlich basierend
auf den im Brennpunkt des Interesses des Nutzers stehenden Informationen
und den im Brennpunkt des Akzentes des Autors stehenden Informationen.
In diesem Fall bestimmen die Kriterien von im Brennpunkt stehenden
Informationen, daß ein
Abschnitt, der mehr im Brennpunkt stehende Informationen enthält, wichtiger
ist.
-
Durch das Wichten eines der beiden
Typen der oben beschriebenen im Brennpunkt stehenden Informationen
kann eine Zusammenfassung mit beliebigem zweckdienlichen Inhalt
erzeugt werden, und zwar angefangen bei einer Zusammenfassung, die sich
auf die im Brennpunkt des Interesses des Nutzers stehenden Informationen
konzentriert, bis hin zu einer Zusammenfassung, die sich nur auf
ein Dokument konzentriert.
-
Das Dokumentzusammenfassungsverfahren
gemäß der vorliegenden
Erfindung kann anders als das oben beschriebene herkömmliche
Verfahren so konstruiert sein, um eine Zusammenfassung gemäß zwei Typen
von bekannten Informationen zu erzeugen, das heißt, gemäß Informationen, die dem Nutzer
bekannt sind, und Informationen, die durch ein Zugriffspro tokoll
bekannt sind. Dies zeigt, daß die Zusammenfassung
gemäß dem Wissensniveau
eines Nutzers erzeugt wird, um die Lesbarkeit der Zusammenfassung
basierend auf den Nutzerwissenskriterien zu verbessern.
-
Die Nutzerwissenskriterien implizieren
zwei Kriterien: ein Begriffswissenskriterium (oder Standard) und
ein Propositionswissenskriterium. Ein Begriffswissenskriterium ist
zum Beispiel ein Kriterium, daß ein
Wort (typischerweise ein Substantiv), das in einer Zusammenfassung
ausgegeben wird, einem Nutzer bekannt sein sollte. Ein Propositionswissenskriterium
ist zum Beispiel ein Kriterium bezüglich einer Kombination von
Wörtern,
die in einem Dokument gefunden werden, daß eine Proposition (Fakt), die
in Kombinationen von Wörtern
beschrieben ist, in eine Zusammenfassung in der Ordnung wenigstens einer
dem Nutzer bekannten Proposition aufgenommen wird.
-
Bei dem Dokumentzusammenfassungsverfahren
gemäß der vorliegenden
Erfindung kann eine Zusammenfassung auch gemäß Kriterien von im Brennpunkt
stehenden Informationen sowie Nutzerwissenskriterien erzeugt werden.
Somit kann eine Zusammenfassung erzeugt werden, die sowohl die im
Brennpunkt des Interesses des Nutzers stehenden Informationen als
auch den Inhalt enthält,
den der Autor schreiben wollte. Die Zusammenfassung kann ferner
gemäß einem
Wissensniveau eines Nutzers erzeugt werden.
-
Gemäß einem weiteren Aspekt der
Erfindung ist ein computerlesbares Speichermedium vorgesehen, das
ein Programm speichert, das verwendet wird, um einen Computer anzuweisen,
das Zusammenfassen eines Dokumentes, das in computerlesbarer Form
verfügbar
ist, für
einen Nutzer zur Unterstützung
bei der Verwaltung von Dokumenten zusammenzufassen, die in computerlesbarer
Form verfügbar
sind, auszuführen,
und folgende Funktionen umfaßt:
Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses
des Nutzers stehenden Informationen basiert, die durch den Nutzer
definiert sind und Themen angeben, an denen der Nutzer interessiert
ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden
Informationen, die durch den Autor des Dokumentes definiert sind
und Themen angeben, die der Autor als wichtige Informationen in dem
Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von
im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes,
dessen Zusammenfassung verlangt wird; und Erzeugen der Zusammenfassung
des Dokumentes auf der Basis der Abschnitte, die extrahiert wurden
und die entsprechenden zwei Typen von im Brennpunkt stehenden Informationen
betreffen, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten
Informationen als auch mit wichtigen Informationen in dem Dokument
erzeugt wird.
-
Kurze Beschreibung
der Zeichnungen
-
1 zeigt
ein erstes Prinzip, das der Gegenstand der vorliegenden Erfindung
ist;
-
2 zeigt
ein zweites Prinzip, das bei der vorliegenden Erfindung optional
verwendet wird;
-
3 ist
ein Blockdiagramm, das die Konfiguration der Dokumentzusammenfassungsvorrichtung
gemäß der vorliegenden
Erfindung zeigt;
-
4 ist
ein detailliertes Flußdiagramm,
das den Zusammenfassungsprozeß zeigt;
-
5 ist
ein Flußdiagramm,
das den Prozeß zum
Erzeugen einer Liste von im Brennpunkt stehenden Begriffen bei Schritt
S2 von 4 zeigt;
-
6 ist
ein Flußdiagramm,
das den Prozeß zum
Erzeugen einer Liste von bekannten Propositionen und einer Liste
von bekannten Begriffen bei Schritt S4 von 4 zeigt;
-
7 ist
ein Flußdiagramm,
das das Hinzufügen
zu einer Liste von bekannten Begriffen und einer Liste von bekannten
Propositionen bei Schritt S5 von 4 zeigt;
-
8 ist
ein Flußdiagramm,
das den Prozeß des
Dokumentstrukturanalysators bei Schritt S7 von 4 zeigt;
-
9 ist
ein Flußdiagramm,
das den Prozeß der
morphologischen Analyse bei Schritt S8 von 4 zeigt;
-
10 zeigt
einen Kandidaten für
ein Wort auf japanisch;
-
11 zeigt
einen Kandidaten für
ein Wort auf englisch;
-
12 ist
ein Flußdiagramm,
das den Prozeß zum
Formatieren einer Zusammenfassung bei Schritt S11 von 4 zeigt;
-
13 ist
ein Flußdiagramm,
das den Prozeß zum
Analysieren der Struktur einer Abhandlung zeigt;
-
14 zeigt
ein Beispiel für
ein Resultat einer Syntaxabhandlungsanalyse;
-
15 zeigt
ein Beispiel für
eine Darstellung von Anordnungsinformationen unter Verwendung eines
Gehäuserahmens;
-
16 zeigt
ein Beispiel für
eine Darstellung von Propositionsinformationen durch ein Bedeutungsnetz;
-
17 zeigt
ein Beispiel für
die Abhandlungsanalyse eines Prädikatsverbandes;
-
18 ist
ein Flußdiagramm,
das die Abhandlungsanalyse auf der Basis des Begriffswissenskriteriums
und den Prozeß zum
Festlegen einer Strafe zeigt;
-
19 ist
ein detailliertes Flußdiagramm, das
den Satzselektionsprozeß zeigt;
-
20 zeigt
den Prozeß zum
Berechnen der Menge von neuen Informationen;
-
21 ist
ein Flußdiagramm,
das den Prozeß zum
Vergleichen der Menge der ersten neuen Informationen mit der Menge
der zweiten neuen Informationen zeigt, um die Informationen voneinander
zu unterscheiden;
-
22 zeigt
ein Beispiel für
ein Resultat der Zusammenfassung der Kurzfassung eines Patentes;
-
23 zeigt
ein Beispiel für
eine Zusammenfassung, wobei der Effekt des Begriffswissenskriteriums
eines thematischen Verbandes erläutert wird;
-
24 zeigt
ein Resultat der ersten Berechnung der Menge von Informationen zum
Erhalten von 23A;
-
25 zeigt
die Menge von Informationen, nachdem ein Satz 72 bei dem in 24 gezeigten Prozeß selektiert
worden ist;
-
26 zeigt
die Festlegung einer Abhängigkeit,
um ein Resultat des in 23 gezeigten
Prozesses zu erhalten;
-
27 zeigt
ein Resultat der Berechnung der Menge von Informationen unter Berücksichtigung der
in 26 gezeigten Abhängigkeit;
-
28 zeigt
die Menge von Informationen, nachdem ein Satz 11 bei dem in 27 gezeigten Prozeß selektiert
worden ist;
-
29 zeigt
den Algorithmus zum Extrahieren der Übersichtsinformationen als
andere Ausführungsform
eines Satzselektionssystems;
-
30 zeigt
die Entsprechung von Wörtern zwischen
dem in 29 gezeigten
Algorithmus und dem in 19 gezeigten
Flußdiagramm;
und
-
31 zeigt
die Umgebung eines Computers zum Realisieren der Dokumentzusammenfassungsvorrichtung
der vorliegenden Erfindung.
-
Beschreibung der bevorzugten
Ausführungsformen
-
1 und 2 zeigen die Prinzipien
der vorliegenden Erfindung. Das heißt, diese Figuren zeigen das
Prinzip der Dokumentzusammenfassungsvorrichtung zum Zusammenfassen
eines Dokumentes, um die Selektion eines in einer natürlichen
Sprache geschriebenen und elektrisch gespeicherten Dokumentes, das
Editieren, den Zugriff auf selbiges und dessen Verwaltung zu unterstützen.
-
1 zeigt
das erste Prinzip der vorliegenden Erfindung. In 1 extrahiert eine Einheit zur Extraktion
von im Brennpunkt stehenden informationsrelevanten Abschnitten 1 gemäß im Brennpunkt des
Interesses des Nutzers stehenden Informationen (im folgenden einfach
als im Brennpunkt des Nutzers stehende Informationen bezeichnet)
und im Brennpunkt des Akzentes des Autors stehenden Informationen
(im folgenden einfach als im Brennpunkt des Autors stehende Informationen
bezeichnet) einen Abschnitt bezüglich
der Informationen von einem Dokument, das zusammenzufassen ist.
Im Brennpunkt des Nutzers stehende Informationen sind Informationen,
die für
einen Nutzer von Interesse sind, der eine Zusammenfassung des Dokumentes
verwendet. Im Brennpunkt des Autors stehende Informationen sind Informationen,
auf die der Autor die Aufmerksamkeit des Nutzers lenken möchte. Eine
Zusammenfassungserzeugungseinheit 2 erzeugt eine Zusammenfassung
des zusammenzufassenden Dokumentes auf der Basis des Extraktionsresultats
der Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten
Abschnitten 1.
-
2 zeigt
das zweite Prinzip, das bei der vorliegenden Erfindung optional
verwendet wird. In 2 selektiert
eine Zusammenfassungslesbarkeitsverbesserungseinheit 3 gemäß Informationen,
die dem Nutzer bekannt sind, und Informationen, die durch ein Zugriffsprotokoll
bekannt sind, einen wichtigen Abschnitt in dem zusammenzufassenden
Dokument unter Verwendung der zwei Typen von bekannten Informationen
als Informationen, die sich von anderen unterscheiden, um die Lesbarkeit
der Zusammenfassung zu verbessern. Dem Nutzer bekannte Informationen
sind Informationen, die dem Nutzer, der die Zusammenfassung verwendet,
bekannt sind. Die Informationen, die durch ein Zugriffsprotokoll
bekannt sind, sind Informationen, die auf der Basis des zuvor dem
Nutzer präsentierten
Dokumentes als dem Nutzer bekannte Informationen angesehen werden.
Eine Zusammenfassungserzeugungseinheit 4 erzeugt eine Zusammenfassung
des zusammenzufassenden Dokumentes auf der Basis des Selektionsresultats
der Zusammenfassungslesbarkeitsverbesserungseinheit 3.
-
Gemäß der Ausführungsform der vorliegenden
Erfindung wird eine Zusammenfassung basierend auf beiden der in 1 und 2 gezeigten zwei Prinzipien erzeugt.
In 1 wird ein Abschnitt,
der für
im Brennpunkt stehende Informationen relevant ist, als Zentrum der
Zusammenfassung gemäß zwei Typen
von im Brennpunkt stehenden Informationen extrahiert, das heißt, gemäß den im
Brennpunkt des Nutzers stehenden Informationen und den im Brennpunkt
des Autors stehenden Informationen. In dieser Ausführungsform
wird das Zentrum der Zusammenfassung auf der Basis der Kriterien
von im Brennpunkt stehenden Informationen bestimmt, daß ein Abschnitt,
der ein größeres Volumen
von im Brennpunkt stehenden Informationen enthält, wichtiger ist.
-
Eine Zusammenfassung kann sowohl
mit vom Nutzer gewünschten
Informationen als auch mit wichtigen Informationen in dem Dokument
erzeugt werden, das heißt,
mit den Informationen über
den Inhalt, den der Autor schreiben wollte. Durch Wichten eines
der zwei Typen von im Brennpunkt stehenden Informationen kann eine
zweckdienliche Zusammenfassung erzeugt werden, angefangen von einer
Zusammenfassung von im Brennpunkt des Nutzers stehenden Informationen
bis hin zu einer Zusammenfassung von im Brennpunkt des Autors stehenden
Informationen. Anderenfalls können
gleichermaßen basierend
auf diesen zwei Typen von im Brennpunkt stehenden Informationen
die vom Nutzer gewünschten
Informationen und der Inhalt, den der Autor schreiben wollte, angemessen
extrahiert werden, um eine gewünschte
Zusammenfassung zu erzeugen.
-
In 2 wird
eine Zusammenfassung basierend auf zwei Typen von Informationen
erzeugt, das heißt,
auf den Informationen, die einem Nutzer bekannt sind, und den Informationen,
die durch ein Zugriffsprotokoll bekannt sind. Dies zeigt, daß die Zusammenfassung
gemäß dem Wissensniveau
des Nutzers erzeugt wird und daß die
Lesbarkeit der Zusammenfassung verbessert werden kann. Die Wissenskriterien
des Nutzers werden verwendet, um die Lesbarkeit zu verbessern. Die
Wissenskriterien des Nutzers sind zum Beispiel das Begriffswissenskriterium
und das Propositionswissenskriterium.
-
Das Begriffswissenskriterium gibt
an, daß ein Elementarbegriff,
der eine Zusammenfassung bildet, besonders ein Elementarbegriff
bezüglich
eines Themas eines Satzes, bekannt sein sollte. Ein Elementarbegriff
ist ein Begriff, der durch ein Wort repräsentiert wird, das in einer
Zusammenfassung erscheint. Mit anderen Worten, ein Wort (hauptsächlich ein Substantiv),
das in einer Zusammenfassung ausgegeben wird, sollte für den Nutzer
verständlich
sein. Auf der Basis des Kriteriums ergänzt die vorliegende Erfindung
eine Vielzahl von Teilen eines Dokumentes bezüglich eines Wortes, das dem
Nutzer nicht vertraut ist.
-
Das Propositionswissenskriterium
(oder Standard) betrifft eine Kombination aus Wörtern, die in einem Dokument
erscheinen, und gibt an, daß so viele
unbekannte Wortkombinationen (Propositionen) wie möglich in
eine Zusammenfassung aufgenommen werden sollten, falls die Menge
von im Brenn punkt stehenden Informationen und die Größe einer
Zusammenfassung dieselbe ist. Auf der Basis des Kriteriums reduziert
die vorliegende Erfindung redundante Informationen in einer Zusammenfassung
eines Dokumentes auf solch eine Weise, daß nicht zwei oder mehr Sätze selektiert
werden, die ein und derselben Proposition entsprechen. Sie reduziert auch
redundante Informationen in einer Zusammenfassung einer Reihe von
Dokumenten, wie etwa in einer Reihe von Zeitungsartikeln, die über ein
und dasselbe Ereignis berichten, auf solch eine Weise, daß nicht
zwei oder mehr Sätze
bezüglich
ein und desselben Aspektes des Ereignisses selektiert werden.
-
Das Propositionswissenskriterium
weist schwächere
Beschränkungen
als das Begriffswissenskriterium auf. Während beim Begriffswissenskriterium
Sätze unter
der Bedingung selektiert werden sollen, daß sie so wenig unbekannte Begriffe
wie möglich
enthalten, soll beim Propositionswissenskriterium nur ein Satz selektiert
werden, der mehr neue Informationen enthält (d. h., Propositionen, die
der Nutzer nicht kennt), wenn zwei oder mehr Sätze mit einer fast gleichen
Menge von im Brennpunkt stehenden Informationen vorhanden sind.
-
Somit wird in einer Ausführungsform
der vorliegenden Erfindung eine Zusammenfassung auf der Basis der
zwei Arten von Kriterien erzeugt, nämlich auf der Basis des Kriteriums
der im Brennpunkt stehenden Informationen und des Kriteriums des
Wissens des Nutzers.
-
3 ist
ein Blockdiagramm, das die Konfiguration der Dokumentzusammenfassungsvorrichtung
gemäß der vorliegenden
Erfindung zeigt. In 3 umfaßt die Dokumentzusammenfassungsvorrichtung
als Basiskomponenten einen Zusammenfassungsprozeßcontroller 10; einen
Dokumentstrukturanalysator 11; einen morphologischen Analysator 12;
einen Abhandlungs strukturanalysator 13; einen Satzselektor 14;
und einen Zusammenfassungsformatierer 15. Von diesen Komponenten
sind der Abhandlungsstrukturanalysator 13 und der Satzselektor 14 Komponenten,
die für
die vorliegende Erfindung spezifisch sind. In 3 speichert der Speicher der Dokumentzusammenfassungsvorrichtung
eine Nutzervorliebe 16, ein Nutzerwissen 17 und
ein Dokumentzugriffsprotokoll 18 als Nutzerprofilinformationen. Ein
Eingangsdokument (Gruppe) 19 wird in einem anderen Speicher
gespeichert.
-
Die Prozesse, die durch die spezifischsten Komponenten
gemäß der vorliegenden
Erfindung ausgeführt
werden, das heißt,
durch den Abhandlungsstrukturanalysator 13 und den Satzselektor 14, sind
später
in 13 und danach eingehend
beschrieben. Unten sind unter Bezugnahme auf 4 bis 12 die
Prozesse von anderen Komponenten beschrieben.
-
Der Zusammenfassungsprozeßcontroller 10 fungiert
als Schnittstelle zwischen einem Nutzer und der Dokumentzusammenfassungsvorrichtung
und steuert die gesamte Operation der Dokumentzusammenfassungsvorrichtung.
Als Schnittstelle zu einem Nutzer empfängt der Zusammenfassungsprozeßcontroller 10 die
Informationen, die für
den Nutzer im Brennpunkt stehen, das heißt, die im Brennpunkt des Nutzers
stehenden Informationen, und eine Eingabe, wie etwa eine Aufforderung
zum Erzeugen einer Zusammenfassung, aktiviert einen Prozeß zum Zusammenfassen
eines Dokumentes zweckmäßig und
gibt an den Nutzer eine resultierende Zusammenfassung aus. Eine
typische Form von im Brennpunkt des Nutzers stehenden Informationen
ist ein Fragesatz, der von dem Nutzer eingegeben wird, und kann
Schlüsselwörter bezüglich gewünschter
Informationen oder einen Einleitungssatz umfassen, der in einem
Leitfaden für
Bücher
erscheint.
-
Was eine Aufforderung zum Erzeugen
einer Zusammenfassung betrifft, das heißt, Beschränkungsinformationen bezüg lich der
Erzeugung einer Zusammenfassung, werden ein verlangtes Ausgabeelement
und andere Steuerinstruktionen durch den Nutzer spezifiziert. Ein
verlangtes Ausgabeelement ist ein Element, das in einer Zusammenfassung
enthalten sein soll. Andere Steuerinformationen spezifizieren Informationen,
die als im Brennpunkt stehende Informationen und bekannte Informationen
zu verwenden sind, wie die Informationen zu verwenden sind, eine
gewünschte
Länge der
Zusammenfassung und eine Basiseinheit, aus der eine Zusammenfassung
gebildet wird. Die Basiseinheit kann normalerweise ein Satz oder
ein Prädikatsverband
sein.
-
Wenn die Dokumentzusammenfassungsvorrichtung
verwendet wird, um den Vergleich zwischen einer Vielzahl von Dokumenten
zu unterstützen, steuert
der Zusammenfassungsprozeßcontroller 10 die
Operation von jeder Prozeßeinheit
und speichert den Prozeßverlauf.
Zuerst extrahiert er im Brennpunkt des Autors stehende Informationen
von Dokumenten, die durch das Analysieren von deren Struktur und
Inhalt zu vergleichen sind. Dann führt er anschließende Zusammenfassungsprozesse
(den Abhandlungsstrukturanalyseprozeß, den Satzselektionsprozeß und den
Zusammenfassungsformatierungsprozeß) auf der Basis der vereinigten
im Brennpunkt stehenden Informationen aus.
-
4 ist
ein Flußdiagramm,
das den Prozeß zeigt,
der durch den Zusammenfassungsprozeßcontroller 10 ausgeführt wird.
Wenn der Prozeß startet, wie
in 4 gezeigt, kann
eine Prozeßsteuerinstruktion
als Anfrage für
eine Prozeßoption
bei Schritt S1 eingegeben werden. Die Steuerinstruktion kann einen
Fragesatz umfassen, der durch einen Nutzer eingegeben wird, wie
in 3 gezeigt, eine
Bezeichnung eines verlangten Ausgabeelementes und andere Steuerinformationen.
-
Von diesen ist der Fragesatz eine
typische Form der im Brennpunkt des Nutzers stehenden Informationen,
wie oben beschrieben. Andere Steuerinformationen enthalten die Beschränkungsinformationen
bezüglich
der Erzeugung einer Zusammenfassung wie folgt: Extraktionsbedingungen
der im Brennpunkt stehenden und bekannten Informationen, Bestimmungsbedingungen
von wesentlichen Ausgabeelementen, usw.
-
Die Extraktionsbedingungen der im
Brennpunkt stehenden und bekannten Informationen umfassen Bestimmungsbedingungen,
die die Typen von Dokumentelementen angeben, von denen im Brennpunkt
des Autors stehende Informationen extrahiert werden, und Prozeßoptionen,
die spezifizieren, ob Nutzerprofilinformationen (Nutzervorliebe,
Nutzerwissen und Dokumentzugriffsprotokoll) verwendet werden oder
nicht. Die Bestimmungsbedingungen von wesentlichen Ausgabeelementen
spezifizieren die Quelle, von der die im Brennpunkt des Autors stehenden
Informationen extrahiert werden, und umfassen: eine Liste der logischen
Elementtypen von Kapiteln eines Dokumentes, Abschnitten, Überschriften von
Tabellen und Abbildungen, dem Inhaltsverzeichnis, Namen von Posten
von Verzeichnissen von Termini und Propositionen.
-
Der Zusammenfassungsprozeßcontroller 10 extrahiert
im Brennpunkt des Nutzers stehende Informationen bei den Schritten
S2 und S3 auf der Basis einer Eingabe von dem Nutzer und extrahiert
bekannte Informationen bei den Schritten S4 und S5. Der Prozeß zum Extrahieren
der im Brennpunkt des Autors stehenden Informationen wird bei dem
Satzselektionsprozeß durch
einen Satzselektor ausgeführt,
der später
beschrieben ist, das heißt,
bei dem Prozeß,
der bei Schritt S120 von 19 ausgeführt wird.
Bei diesem Prozeß werden
die im Brennpunkt des Autors stehenden Informationen von einem Dokumentelement
extrahiert, das den Bestimmungsbedingungen bezüglich der Quelle entspricht,
von der die im Brennpunkt des Autors stehenden Informationen extrahiert
werden.
-
Bei Schritt S2 wird eine Liste von
im Brennpunkt stehenden Begriffen als im Brennpunkt des Nutzers
stehende Informationen erzeugt. Zum Beispiel wird die Liste von
im Brennpunkt stehenden Begriffen auf der Basis der Nutzervorliebe 16 erzeugt, die
in dem Speicher gespeichert ist. Bei diesem Schritt wird auf Aufforderung
von einem Nutzer eine Liste von im Brennpunkt stehenden Begriffen
auch gemäß der Vorliebe
eines anderen Nutzers 16 extrahiert, die in dem Speicher
hauptsächlich
für einen Gastnutzer
gespeichert ist, der keine eigenen Profilinformationen (Nutzervorliebemerkmal,
Nutzerwissen und Dokumentzugriffsprotokoll) hat. Der Gastnutzer
kann ein Profilinformationsmodell, das seiner Vorliebe und seinem
Wissen am nächsten
kommt, von den durch das System zuvor vorbereiteten Modellen selektieren.
Der Grund dafür,
daß der
Ausdruck 'Liste
von im Brennpunkt stehenden Begriffen' anstelle von 'Liste von im Brennpunkt stehenden Informationen' oder 'Liste von im Brennpunkt
stehenden Wörtern' verwendet wird,
ist später
beschrieben.
-
Bei Schritt S3 wird der morphologische
Analysator 12 aufgerufen, und ein Wort, das in dem durch den
Nutzer eingegebenen Fragesatz erscheint, das heißt, ein im Brennpunkt des Nutzers
stehendes Wort, wird extrahiert und zu der Liste von im Brennpunkt
stehenden Begriffen hinzugefügt.
Eine typische Liste von im Brennpunkt stehenden Begriffen ist, wie
später
beschrieben, eine Liste von Substantiven.
-
Bei den Schritten S4 und S5 werden
bekannte Informationen als Liste von bekannten Begriffen extrahiert,
das heißt,
als eine Liste von Begriffen, die dem Nutzer bekannt sind, und als
Liste von bekannten Propositionen, das heißt, als eine Liste von Propositionen
(Fakten, Attribut von etwas, etc.), die dem Nutzer bekannt sind.
Bei Schritt S4 werden eine Liste von bekannten Begriffen und eine
Liste von bekannten Propositionen gemäß dem Nutzerwissen 17 erzeugt,
das in dem Speicher gespeichert ist. Dieser Prozeß ist später unter
Bezugnahme auf 6 in weiteren
Einzelheiten beschrieben.
-
Bei Schritt S5 werden ein bekannter
Begriff und eine bekannte Proposition von dem Dokumentzugriffsprotokoll 18 extrahiert,
das in dem Speicher gespeichert ist. Dieser Prozeß ist später unter
Bezugnahme auf 7 in
weiteren Einzelheiten beschrieben. Bei den Schritten S4 und S5 können, so
wie bei Schritt S2, andere Nutzerprofilinformationen verwendet werden.
-
Ein bekannter Begriff und eine bekannte
Proposition werden im folgenden näher beschrieben. Ein bekannter
Begriff bezieht sich auf eine Liste von Inhaltswörtern, wobei jedes Wort eine
wesentliche Bedeutung hat. Falls ein Nutzer zum Beispiel weiß, auf welchem
Geschäftsgebiet
Fujitsu tätig
ist, wird dem Nutzer 'Fujitsu' als bekannter Begriff
zugeordnet. Falls das zusammenzufassende Dokument beginnt mit: 'Fujitsu ist ein japanischer
Computerhersteller, und Fujitsu plant, ...', wird der erste Satz in eine Zusammenfassung
aufgenommen, da der Beginn des zweiten Satzes 'Fujitsu' einen anaphorischen Ausdruck impliziert.
Da der Computer jedoch ohne weiteres bestimmen kann, daß 'Fujitsu' ein bekannter Begriff
ist und der erste Satz nur den Namen der Firma (Definition eines
Attributes) vorstellt, wird der erste Satz gemäß der vorliegenden Ausführungsform
nicht extrahiert.
-
Falls solch ein einfaches Verfahren
befolgt wird, kann es jedoch Schwierigkeiten geben, wenn das folgende
Dokument verarbeitet wird.
-
'Fujitsu
ist ursprünglich
ein Hersteller einer Schalteinheit. Jetzt ist es das zweitgrößte Unternehmen
auf dem Gebiet von Großrechnern,
und viele Menschen kennen Fujitsu als Personalcomputerhersteller.
Obwohl eine Anzahl von Leuten über
die Beziehung zwischen NTT und Fujitsu erstaunt sein dürfte: sie
stehen einander nahe.'
-
Wenn ein Nutzer Fujitsu zum Beispiel
nur als Personalcomputerhersteller kennt, sollte der erste Satz
in die Zusammenfassung aufgenommen werden, wenn der dritte Satz
darin enthalten ist. Um dies zu vermeiden, muß spezifiziert werden, was
der Nutzer über
Fujitsu weiß.
Zum Beispiel sollte 'Fujitsu
ist ein japanischer Computerhersteller', 'Fujitsu
stellt Personalcomputer her',
etc., mitgeteilt werden. Ferner kann es sein, daß ein Nutzer weiß, daß 'Fujitsu in der Vergangenheit
Schalteinheiten hergestellt hat', wobei
er aber nicht zu wissen braucht, daß 'Fujitsu Schalteinheiten bis jetzt hergestellt
hat' oder daß 'Fujitsu die Herstellung
von Schalteinheiten beizubehalten plant'. Somit bedeutet dies, daß die Kenntnis
von Propositionen in der vorliegenden Ausführungsform verarbeitet wird.
-
Daher wird gemäß der vorliegenden Ausführungsform
eine Liste von technischen Termini als bekannter Begriff vorgesehen.
Ein technischer Terminus ist ein technischer Begriff, und es kann
ohne weiteres bestimmt werden, daß er bekannt oder unbekannt
ist, solange das Anwendungsgebiet begrenzt ist. Der oben beschriebene
einfache Satz oder ein Ausdruck, der dem Inhalt des einfachen Satzes
entspricht, wird in verschiedenen Formen dargestellt, wie etwa als
Rahmendarstellung als Kenntnis bezüglich einer bekannten Proposition.
-
Da ein bekannter Begriff 'verwendet wird, wenn
bestimmt wird, ob eine komplementäre oder erläuternde Beschreibung erforderlich
ist oder nicht, wird der bekannte Begriff für den Abhandlungsstrukturanalysator 13 vorgesehen.
Das heißt,
wenn ein Abschnitt in eine Zusammenfassung aufgenommen wird, bestimmt
der Abhandlungsstrukturanalysator 13, ob andere Abschnitte,
die den vorhergehenden Abschnitt erläutern, aufgenommen werden sollten oder
nicht. Die Bestimmung hängt
davon ab, ob ein Wort ein bekannter Begriff ist oder nicht.
-
In 4 führt der
Zusammenfassungsprozeßcontroller 10 die
Prozesse bis zur Extraktion der im Brennpunkt des Nutzers stehenden
Informationen und der bekannten Informationen bei den Schritten bis
zu S5 aus, und dann analysiert er bei Schritt S6 und danach ein
Eingangsdokument und erzeugt eine Zusammenfassung. Diese Prozesse
hängen
davon ab, ob ein einzelnes Dokument zusammengefaßt wird oder eine Vielzahl
von Dokumenten kollektiv zusammengefaßt wird. In jedem Fall basiert
der Prozeß auf
dem Zusammenfassen eines einzelnen Dokumentes.
-
Wenn eine Zusammenfassung eines einzelnen
Dokumentes erzeugt wird, wird bei Schritt S7 der Dokumentstrukturanalysator 11 aufgerufen,
werden die Extraktionsbedingungen bezüglich im Brennpunkt des Autors
stehender Informationen. und die Bestimmungsbedingungen bezüglich verlangter
Ausgabedokumentelemente vorgesehen und werden abhängigkeitsdefinierte
Dokumentstrukturinformationen eines Eingangsdokumentes erzeugt.
Dieser Prozeß ist
unter Bezugnahme auf 8 eingehend
erläutert.
-
Dann wird bei Schritt S8 der morphologische Analysator 12 aufgerufen,
und eine Liste von Wörtern wird
erhalten, die in dem Eingangsdokument enthalten sind. Diese Prozesse
sind unter Bezugnahme auf 9 eingehend
beschrieben.
-
Als nächstes werden bei Schritt S9
die bei Schritt S7 erhaltenen Dokumentstrukturinformationen, die
bei Schritt S8 erhaltene Wortliste und die bei den Schritten S4
und S5 in 4 erhaltene
Liste von bekannten Begriffen für
den Abhandlungsstrukturanalysator 13 vorgesehen. Der Abhandlungsstrukturanalysator 13 teilt
ein Eingangsdokument in Extraktionseinheiten (typischerweise Prädikate),
legt die Abhängigkeit
fest, das heißt,
er legt Beschränkungen, die
einem Konzeptwissenskriterium entsprechen, als Abhängigkeit
zwischen den Extraktionseinheiten fest.
-
Bei Schritt S10 werden die Liste
der abhängigkeitsdefinierten
Extraktionseinheiten, die bei Schritt S9 erhalten wurde, die erhaltene
Liste von im Brennpunkt stehenden Begriffen und die Liste von bekannten
Propositionen für
den Satzselektor 14 vorgesehen. Der Satzselektor 14 selektiert
die Extraktionseinheiten, die in eine Zusammenfassung aufzunehmen
sind. Bei Schritt S11 werden die selektierten Extraktionseinheiten
und die Dokumentstrukturinformationen in dem Zusammenfassungsformatierer 15 formatiert.
Der Zusammenfassungsformatierer 15 erzeugt eine Zusammenfassung
für den
Nutzer, die anzuzeigen ist.
-
Wenn eine Vielzahl von Dokumenten
kollektiv zusammengefaßt
wird, werden die Prozesse bei den Schritten S7 und S8 bei Schritt
S14 an jedem Dokument ausgeführt,
das heißt,
es werden Dokumentstrukturinformationen und eine Wortliste erzeugt.
Bei Schritt S15 werden im Brennpunkt des Autors stehende Informationen
(im Brennpunkt des Autors stehende Wörter) von jedem Dokument extrahiert
und vereinigt und zu der Liste von im Brennpunkt stehenden Begriffen
hinzugefügt.
Wenn die im Brennpunkt des Autors stehenden Informationen extrahiert
werden, wird ein Dokumentelement, das bei Schritt S1 als Extraktionsquelle
der im Brennpunkt des Autors stehenden Informationen spezifiziert
wurde, mit den Dokumentstrukturinformationen verglichen, und ein darin
enthaltenes Substantiv wird zum Beispiel als im Brennpunkt stehender
Begriff selektiert. Bei Schritt S16 wird eine Liste von Extraktionseinheiten
bei Schritt S9 erzeugt, wird eine Extraktionseinheit bei Schritt
S10 selektiert und wird eine Zusammenfassung bei Schritt S11 erzeugt.
Dann wird eine Zusammenfassung von jedem Dokument erzeugt.
-
Nach dem Erzeugen der Zusammenfassung bei
Schritt S11 oder S16 trägt
der Zusammenfassungsprozeßcontroller 10 in
das Dokumentzugriffsprotokoll 18 eine Extraktionseinheitsliste
ein, die in dem Abschnitt enthalten ist, der dem Nutzer bei Schritt
S12 oder S17 als Zusammenfassung präsentiert wird, wonach die erzeugte
Zusammenfassung dann bei Schritt S13 dem Nutzer präsentiert
wird, womit der Prozeß vollendet
ist.
-
Nun wird ein wichtiger Prozeß, der in 4 gezeigt ist, unter Bezugnahme
auf 5 bis 12 beschrieben. 5 ist ein Flußdiagramm,
das den Prozeß bei
Schritt S2 von 4 zeigt,
das heißt,
den Prozeß zum
Erzeugen einer Liste von im Brennpunkt stehenden Begriffen.
-
Wenn der Prozeß startet, wie in 5 gezeigt, wird eine Liste
von im Brennpunkt stehenden Begriffen als Initialisierung bei Schritt
S21 gelöscht und
wird ein im Brennpunkt stehender Begriff von der Nutzervorliebe 16,
die in dem Speicher akkumuliert wurde, bei Schritt S22 extrahiert
und zu der Liste von im Brennpunkt stehenden Begriffen hinzugefügt.
-
Dann wird bei Schritt S23 bestimmt,
ob die Vorliebe 16 eines anderen Nutzers verwendet wird oder
nicht. Falls sie nicht verwendet wird, wird der Prozeß sofort
beendet. Falls sie verwendet wird, wird bei Schritt S24 bestimmt,
ob auf die Vorliebe des anderen Nutzers zugegriffen werden kann
oder nicht. Falls auf sie zugegriffen werden kann, wird ein im Brennpunkt
stehender Begriff von der akkumulierten Vorliebe 16 des
anderen Nutzers bei Schritt S25 extrahiert und zu der Liste von
im Brennpunkt stehenden Begriffen hinzugefügt, wodurch der Prozeß beendet
wird. Falls nicht darauf zugegriffen werden kann, wird dies dem
Nutzer bei Schritt S26 mitgeteilt und endet der Prozeß.
-
6 ist
ein Flußdiagramm,
das den Prozeß bei
Schritt S4 von 4 zeigt,
das heißt,
den Prozeß zum
Erzeugen einer Liste von bekannten Begriffen und einer Liste von
bekannten Propositionen auf der Basis des Nutzerwissens 17.
Wenn der Prozeß startet,
wie in 6 gezeigt, wird
der Inhalt der Liste von bekannten Begriffen als Initialisierung
bei Schritt S31 gelöscht,
und der bekannte Begriff wird bei Schritt S32 von dem Nutzerwissen 17 extrahiert,
das in dem Speicher akkumuliert wurde, und zu der Liste von bekannten
Begriffen hinzugefügt.
-
Dann wird bei Schritt S33 die Liste
von bekannten Propositionen als Initialisierung gelöscht, und
eine bekannte Proposition wird bei Schritt S34 von dem akkumulierten
Nutzerwissen 17 extrahiert und zu der Liste von bekannten
Propositionen hinzugefügt.
-
Bei Schritt S35 wird bestimmt, ob
das Wissen 17 eines anderen Nutzers verwendet wird oder nicht.
Falls es nicht verwendet wird, wird der Prozeß sofort beendet. Falls es
verwendet wird, wird bei Schritt S36 bestimmt, ob auf das Wissen 17 des
anderen Nutzers zugegriffen werden kann oder nicht. Falls darauf
zugegriffen werden kann, wird bei Schritt S37 ein bekannter Begriff
von dem akkumulierten Wissen des anderen Nutzers extrahiert und
zu der Liste von bekannten Begriffen hinzugefügt und wird bei Schritt S38
eine bekannte Proposition extrahiert und zu der Liste von bekannten
Propositionen hinzugefügt,
wodurch der Prozeß beendet
wird. Falls bei Schritt S36 auf das Wissen 17 des anderen
Nutzers nicht zugegriffen werden kann, wird das dem Nutzer bei Schritt
S39 mitgeteilt, wodurch der Prozeß beendet wird.
-
7 ist
ein Flußdiagramm,
das den Prozeß bei
Schritt S5 von 4 zeigt,
das heißt,
den Prozeß zum
Hinzufügen
von dem Dokumentzugriffsprotokoll 18 zu der Liste von bekannten
Begriffen und der Liste von bekannten Propositionen. Die Prozesse
in 6 und 7 sind ähnlich und unterscheiden sich
nur darin, daß die
Prozesses bei den Schritten S31 und S33, die in 6 gezeigt sind, nicht ausgeführt werden, das
heißt,
die Liste von bekannten Begriffen und die Liste von bekannten Propositionen
werden nicht gelöscht,
und daß in 7 der bekannte Begriff
und die bekannte Proposition von dem Dokumentzugriffsprotokoll 18 in
dem Speicher extrahiert werden. Deshalb wird die eingehende Erläuterung
zu den anderen Prozessen von 7 hier
weggelassen.
-
8 ist
ein Flußdiagramm,
das den Prozeß bei
Schritt S7 von 4 zeigt,
das heißt,
den Prozeß zum
Erzeugen von abhängigkeitsdefinierten
Dokumentstrukturinformationen durch den Dokumentstrukturanalysator.
Der Dokumentstrukturanalysator 11 empfängt ein zusammenzufassendes
Dokument, Bestimmungsbedingungen von Dokumentelementen, von denen
die im Brennpunkt des Autors stehenden Informationen extrahiert
werden, und die Bestimmungsbedingungen von verlangten Ausgabeelementen
von dem Zusammenfassungsprozeßcontroller 10.
Dann analysiert der Dokumentstrukturanalysator 11 die Struktur
des Dokumentes, gibt den Inhalt des Dokumentes an den morphologischen
Analysator 12 aus und sieht die abhängigkeitsdefinierten Dokumentstrukturinformationen
für den
Abhandlungsstrukturanalysator 13 vor.
-
Wenn der Prozeß startet, wie in 8 gezeigt, wird eine logische
Komponente eines Dokumentes, wie etwa eine Überschrift, ein Körper des Dokumentes,
etc., von dem Format des Dokumentes, nämlich Auszeichnungsinformationen,
beim Erkennen der logischen Struktur des Eingangsdokumentes bei
Schritt S51 erkannt. Der praktische Prozeß hängt von dem Dokumenttyp ab,
das heißt,
davon, ob ein Dokument ein Klartext ist oder ein strukturiertes
Dokument, das mit SGML oder dergleichen ausgezeichnet ist, und ist
für die
vorliegende Erfindung nicht wesentlich. Deshalb wird die eingehende Erläuterung
zu dem Prozeß hier
weggelassen.
-
Bei Schritt S52 wird das führende Element des
Dokumentes herausgesucht. Bei Schritt S53 wird bestimmt, ob das
Dokumentelement erfolgreich herausgesucht worden ist oder nicht.
Im Falle von JA, wird bei Schritt S54 bestimmt, ob das herausgesuchte
Dokumentelement den Extraktionsbedingungen der im Brennpunkt stehenden
Informationen entspricht oder nicht. Falls es den Extraktionsbedingungen
der im Brennpunkt des Autors stehenden Informationen entspricht,
wird dem Dokumentelement dann bei Schritt S55 eine Markierung von
im Brennpunkt stehenden Informationen zugeordnet, und die Steuerung
geht zu dem Prozeß bei
Schritt S56 über. Falls
bei Schritt S54 den Extraktionsbedingungen nicht entsprochen wird,
geht die Steuerung sofort zu dem Prozeß bei Schritt S56 über.
-
Bei Schritt S56 wird bestimmt, ob
das herausgesuchte Dokumentelement den Extraktionsbedingungen bei
einem wesentlichen Ausgabeelement entspricht oder nicht. Im Falle
von JA, wird dem Dokumentelement eine Markierung einer wesentlichen Ausgabe
bei Schritt S57 zugeordnet. Im Falle von NEIN, wird der Prozeß bei Schritt
S57 nicht ausgeführt.
Dann geht die Steuerung zu dem Prozeß bei Schritt S58 über.
-
Bei Schritt S58 wird bestimmt, ob
das Dokumentelement eine Überschrift,
ein einer Überschrift entsprechendes
Element oder dergleichen ist, einschließlich einer Überschrift
eines Abschnittes oder eines Namens eines Postens von einer Liste.
Im Falle von JA, wird bei Schritt S59 ein Dokumentelement in dem
Körper
entsprechend dem Überschriftenelement
erhalten und wird die Abhängigkeit
von dem Überschriftenelement
festgelegt. Falls das Dokumentelement keine Überschrift ist, wird der Prozeß bei Schritt
S59 dann nicht ausgeführt.
Danach wird bei Schritt S60 das nächste Doku mentelement herausgesucht,
und die Prozesse bei Schritt S53 und danach werden ausgeführt. Wenn
bei Schritt S53 bestimmt wird, daß keine Dokumentelemente herausgesucht
werden können,
endet der Prozeß.
-
Als Resultat der Festlegung der Abhängigkeit
bei Schritt S59 wird eine hier markierte Überschrift für eine Zusammenfassung
extrahiert, falls ihr abhängiges
Element, das heißt,
ein Element in ihrem entsprechenden Körperteil, für eine Zusammenfassung extrahiert
wird.
-
9 ist
ein Flußdiagramm,
das den morphologischen Analyseprozeß zeigt, der durch den morphologischen
Analysator 12 ausgeführt
wird. Der morphologische Analysator 12 empfängt den
Inhalt eines zusammenzufassenden Dokumentes bei Schritt S8, der
in 4 gezeigt ist, erkennt
ein Wort, das in dem Inhalt enthalten ist, und gibt den Inhalt des
Dokumentes an den Abhandlungsstrukturanalysator 13 in Form
einer Wortliste mit Informationen über die Erscheinungsposition
eines Wortes und seinen Sprachteil aus. Wenn die im Brennpunkt des Nutzers
stehenden Informationen als Fragesatz in einer natürlichen
Sprache vorgesehen werden, wird bei Schritt S3 ähnlich eine Wortliste von den
im Brennpunkt des Nutzers stehenden Informationen in einer natürlichen
Sprache erzeugt.
-
Wenn der Prozeß startet, wie in 9 gezeigt, wird der Inhalt
der Wortliste als Initialisierung bei Schritt S62 gelöscht, und
bei Schritt S63 wird der führende
Satz herausgesucht. Bei diesem Prozeß wird ein Satz ab Beginn unter
Verwendung eines Punktes, etc., als Anhaltspunkt herausgesucht.
Bei Schritt S64 wird bestimmt, ob der Satz erfolgreich herausgesucht
worden ist oder nicht. Im Falle von JA, wird bei Schritt S65 ein
Kandidat für
ein Wort, das in dem Satz enthalten ist, unter Verwendung eines
Wörterbuchs
erhalten.
-
10 zeigt
den Kandidaten für
ein japanisches Wort. Da Wörter
im Japanischen nicht deutlich abgegrenzt sind, können alle Wörter, die eine Zeichenkette
in einem Satz bilden, Kandidaten sein.
-
11 zeigt
einen Kandidaten für
ein englisches Wort. Da Wörter
normalerweise durch einen Leerraum abgegrenzt sind, wird bei dem
Prozeß ein Sprachteil
oder jeder Kandidat erhalten.
-
Bei Schritt S66, der in 9 gezeigt ist, wird eine
geeignete Sequenz von Wörtern
unter dem Gesichtspunkt der Verbindung von Sprachteilen selektiert.
Bei Schritt S67 werden Sprachteile und die Erscheinungspositionen
in dem Eingangsdokument entsprechend der selektierten Sequenz von
Wörtern zugeordnet,
und die Wörter
werden zu der Wortliste hinzugefügt.
Bei Schritt S68 wird der nachfolgende Satz herausgesucht, und die
Prozesse bei Schritt S64 und danach werden wiederholt. Bei Schritt
S64 endet der Prozeß,
wenn bestimmt wird, daß keine Sätze herausgesucht
worden sind.
-
Die Informationen über die
bei Schritt S67 zugeordnete Erscheinungsposition in dem Eingangsdokument
verknüpfen
die abhängigkeitsdefinierten Dokumentstrukturinformationen,
die von dem Dokumentstrukturanalysator 11 ausgegeben werden,
mit dem Inhalt der Wortliste und werden durch einen Versetzungswert
dargestellt, wobei die Position des führenden Zeichens eines Wortes
in einem Dokument, das heißt,
der Beginn eines Dokumentes, auf 0 gesetzt wird.
-
Verschiedene praktische Verfahren
bei den Schritten S65 und S66 können
als morphologische Analysierverfahren eingesetzt werden, wie etwa
das Beispiel in dem folgenden Dokument 9, und die eingehende Erläuterung
wird hier weggelassen. Zum Beispiel ist das Verfahren zum Bewerten
der Gültigkeit
einer Sequenz von Wörtern
auf der Basis der Auftrittswahrscheinlichkeit, die unter Verwendung von
Trainingsdaten bewertet wird, in dem oben beschriebenen Dokument
6 und dem folgenden Dokument 9 beschrieben.
-
Dokument 9: Masaaki Nagata. A stochastic Japanese
morphological analyzer using a forward-DP backward-A* N-best search
algorithm. In Proceedings of COLING '94, S. 201–207, 1994.
-
Dokument 10: Eugene Charniak. Hidden Markov
models and two applications. In Statistical Language Learning, Kapitel
3, S. 37–73.
The MIT Press, 1993.
-
Der Abhandlungsstrukturanalysator 13 führt bei
Schritt S9 von 4 den
später
beschriebenen Abhandlungsstrukturanalyseprozeß unter Verwendung von Dokumentstrukturinformationen,
einer Wortliste und einer Liste von bekannten Begriffen aus und
gibt eine abhängigkeitsdefinierte
Extraktionseinheitsliste mit Beschränkungen, die dem Begriffswissensstandard
entspricht, auf dem Satzselektor 14 aus.
-
Der Satzselektor 14 selektiert
eine Einheit, die für
eine Zusammenfassung zu extrahieren ist, von der Extraktionseinheitsliste,
die von dem Abhandlungsstrukturanalysator 13 ausgegeben
wird, gemäß der Liste
von im Brennpunkt stehenden Begriffen und der Liste von bekannten
Propositionen bei Schritt S10 von 4 und
erzeugt eine später
beschriebene Selektionsresultatsliste.
-
Dann werden im Brennpunkt stehende
Informationen wie beispielsweise ein Fragesatz in einer natürlichen
Sprache für
den morphologischen Analysator 12 vorgesehen, und andere
im Brennpunkt stehende Informationen werden ohne den morphologischen
Analysator 12 direkt für
den Satzselektor 14 vorgesehen. Gemäß der vorliegenden Ausführungsform
wird die Menge von im Brennpunkt stehenden Informationen, die die
Wichtigkeit eines Satzes angibt, in Worteinheiten wie z. B. Substantiven
berechnet, wie es später
beschrieben ist. Wenn die im Brennpunkt stehenden Informationen
als Satz gegeben sind, der in einer natürlichen Sprache geschrieben
ist, sollte der Satz in Wörter
geteilt werden. Um dies zu erreichen, wird eine Überschrift, die von einem Fragesatz,
einem Dokument, etc., herausgesucht wird, dem Satzselektor 14 durch
den morphologischen Analysator 12 zugeführt.
-
Andererseits können die im Brennpunkt des Nutzers
stehenden Informationen, die zum Beispiel als Nutzervorliebe 16 akkumuliert
werden, in geeigneter Form in dem Speicher nach dem Ausführen einer
morphologischen Analyse gespeichert werden. In diesem Fall können die
Informationen für
den Satzselektor 14 ohne den morphologischen Analysator 12 direkt
vorgesehen werden. Obwohl bei der vorliegenden Ausführungsform
keine Informationen verwendet werden, die mit einer natürlichen
Sprache nichts zu tun haben, kann das Speicherformat in dem Speicher eine
Bedeutungsnetzdarstellung, die später beschrieben ist, oder eine
Rahmendarstellung sein. Die akkumulierten Informationen sind nicht
auf eine einfache natürliche
Sprache begrenzt.
-
Als im Brennpunkt stehende Informationen, die
durch den Satzselektor 14 verwendet werden, wird typischerweise
eine Liste von Substantiven vorgesehen. Einem stark im Brennpunkt
stehenden Substantiv kann ein Gewicht zugeordnet werden, das dem
Brennpunktniveau entspricht. Ein unabhängiges Wort (Verb, Adjektiv,
etc.), das kein Substantiv ist, kann als im Brennpunkt stehende
Information vorgesehen werden, oder als Set aus Substantiv und Verb. In
der folgenden Erläuterung
ist eine Liste von Substantiven ohne Gewicht als im Brennpunkt stehende Informationen
gegeben. Eine Extraktionseinheit (im Grunde genommen ein grammatikalischer
Satz bei einem englischen Dokument) wird gemäß der Abhängigkeit von Extraktionseinheiten
auf der Basis des Begriffswissenskriteriums selektiert, die bei
dem Prozeß festgelegt
wird, der durch den Abhandlungsstrukturanalysator 13 ausgeführt wird, sowie
auf der Basis von Kriterien von im Brennpunkt stehenden Informationen
und des Propositionswissenskriteriums. Deshalb wird die Selektionsresultatsliste
angewendet auf das Begriffswissenskriterium erzeugt.
-
Der Zusammenfassungsformatierer 15 ordnet
die Extraktionseinheiten, die durch den Satzselektor 14 selektiert
wurden, in der Ordnung an, in der sie in dem Originaldokument erscheinen,
und ordnet die Zusammenfassung durch Hinzufügen einer Markierung, die die
Existenz eines nicht selektierten Satzes angibt, und durch Einfügen einer
Abgrenzung von Absätzen,
in ein lesbares Format um. Falls die Abhängigkeit von den Informationen,
die durch ein Zugriffsprotokoll bekannt sind, festgelegt wird, kann eine
Hypertext-Korrelation festgelegt werden.
-
12 ist
ein Flußdiagramm,
das den Prozeß zeigt,
der durch den Zusammenfassungsformatierer ausgeführt wird. Wenn der Prozeß startet,
wie in 12 gezeigt,
wird der Inhalt eines Ausgabepuffers bei Schritt S70 gelöscht. Der
Ausgabepuffer wird zum Beispiel durch den Zusammenfassungsprozeßcontroller 10 reserviert,
der den Prozeß aufruft,
und an den Zusammenfassungsformatierer 15 übergeben,
wie es bei Schritt S11 bei dem Prozeßablauf des Zusammenfassungsprozeßcontrollers 10,
der in 4 gezeigt ist,
beschrieben ist. Der Zusammenfassungsformatierer 15 kann
solch einen Puffer auch lokal reservieren.
-
Dann werden die Daten bei Schritt
S71 in einer Extraktionseinheitsliste in der Ordnung sortiert, in der
sie in einem Eingangsdokument erscheinen. Bei Schritt S72 wird die
Startposition (0) des Dokumentes für die letzte Ausgabeposition
eingesetzt. Bei Schritt S73 wird eine leere Extraktionseinheit an
dem Ende der Extraktionseinheit als Nachtrag der Extraktionseinheitsliste
hinzugefügt.
Bei Schritt S74 wird die führende
Extraktionseinheit herausgesucht.
-
Bei Schritt S75 wird bestimmt, ob
eine Extraktionseinheit herausgesucht worden ist oder nicht. Da
natürlich
bestimmt wird, daß sie
herausgesucht worden ist, wird bei Schritt S76 ferner bestimmt,
ob die Erscheinungsposition der herausgesuchten Extraktionseinheit
in dem führenden
Eingangsdokument mit der letzten Ausgabeposition übereinstimmt oder
nicht. Da die letzte Ausgabeposition die Startposition des Dokumentes
bei Schritt S72 ist, sollte ein nichtextrahierter Satz zwischen
der Startposition und der herausgesuchten führenden Extraktionseinheit vorhanden
sein, falls bestimmt wird, daß die
Startposition der Extraktionseinheit nicht mit der letzten Ausgabeposition übereinstimmt.
Deshalb wird an den Ausgabepuffer bei Schritt S77 eine Auslassungselementexistenzmarkierung
ausgegeben. Die Auslassungselementexistenzmarkierung entspricht
normalerweise '...'. Da die Markierung
jedoch auch verwendet wird, wenn ein Teil eines Satzes nicht extrahiert worden
ist, bezeichnet sie gewöhnlich
die Existenz eines nichtextrahierten Elementes (Extraktionseinheit).
-
Bei Schritt S78 wird nach der letzten
Ausgabeposition gesucht, das heißt, nach der ersten Absatzgrenze
zwischen der Startposition des Dokumentes und der Position unmittelbar
vor der Erscheinungsposition der Extraktionseinheit. Bei Schritt
S79 wird bestimmt, ob eine Absatzgrenze detektiert worden ist oder
nicht. Falls keine Absatzgrenze detektiert worden ist, wird die
erste Erscheinungsposition der herausgesuchten Extraktionseinheit
für die
letzte Ausgabeposition bei Schritt S80 eingesetzt, und die Prozesse
bei Schritt S76 und danach werden wiederholt.
-
Falls bei Schritt S79 eine Absatzgrenze
detektiert worden ist, wird die Position der detektierten Absatzgrenze
für die
letzte Ausgabeposition bei Schritt S81 eingesetzt, und die Prozesse
bei Schritt S76 und danach werden ausgeführt, nachdem bei Schritt S82
eine Absatzmarkierung an den Ausgabepuffer ausgegeben wurde.
-
Bei diesem Beispiel werden die Prozesse
bei den Schritten S81 und S82 ausgeführt und wird eine Absatzmarkierung
an den Ausgabepuffer ausgegeben, wenn eine Absatzgrenze zwischen
der Startposition des Dokumentes und der Position unmittelbar vor
der Erscheinungsposition der herausgesuchten Extraktionseinheit
detektiert wird. Nachdem die Prozesse bei den Schritten S81 und
S82 an allen Absatzgrenzen zwischen der Startposition des Dokumentes
und der Position unmittelbar vor der Erscheinungsposition der herausgesuchten
Extraktionseinheit ausgeführt
sind, laufen die Schritte S76 bis S82 wie folgt ab: und zwar wird
bei Schritt S79 bestimmt, daß keine
weiteren Absatzgrenzen detektiert wurden, nähert sich bei Schritt S80 die
letzte Ausgabeposition der ersten Erscheinungsposition der herausgesuchten
Extraktionseinheiten, wird bei Schritt S76 bestimmt, daß die letzte
Ausgabeposition mit der Erscheinungsposition der Extraktionseinheit übereinstimmt
und wird bei Schritt S85 die Extraktionseinheit für den Ausgabepuffer
angegeben.
-
Der durch den Zusammenfassungsformatierer 15 ausgeführte Prozeß dient
dem Erzeugen einer formatierten Zusammenfassung als Zeichenkette, und
die Zusammenfassung wird als Zeichenkette zu einer Quelleneinheit
zurückgesendet.
Der Inhalt, der bei Schritt S85 an den Ausgabepuffer ausgegeben wird,
ist nur der Indikator der Extraktionseinheit, nicht die Erscheinungsposition
der Extraktionseinheit.
-
Nachdem die letzte Erscheinungsposition der
bei Schritt S75 herausgesuchten Extraktionseinheiten für die letzte
Ausgabeposition bei Schritt S86 eingesetzt ist, wird bei Schritt
S87 bestimmt, ob die letzte Ausgabeposition eine Absatzgrenze betrifft oder
nicht. Im Falle von JA, wird bei Schritt S88 eine Absatzmarkierung
an den Ausgabepuffer ausgegeben. Im Falle von NEIN, werden keine
Prozesse ausgeführt.
Dann wird bei Schritt S89 die nächste
Extraktionseinheit herausgesucht, und die Prozesse bei Schritt S75
und danach werden wiederholt.
-
Falls bei Schritt S75 bestimmt wird,
daß keine
Extraktionseinheiten herausgesucht werden können, wird bei Schritt S83
eine leere Nachtrag-Extraktionseinheit herausgesucht, und bei Schritt
S84 wird ein Ausgabepuffer zu dem Aufrufenden mit dem Inhalt zurückgesendet,
wodurch der Prozeß beendet wird.
-
Unten ist der Grund für das Hinzufügen einer leeren
Extraktionseinheit an ihrer am Ende des Dokumentes festgelegten
Erscheinungsposition bei Schritt S73 und das Entfernen der Einheit
bei Schritt S83 beschrieben. So können die Absatzgrenzen zwischen der
letzten Extraktionseinheit in der Extraktionseinheitsliste und dem
Ende des Dokumentes ausgegeben werden.
-
Eine Absatzgrenze wird bei Schritt
S82 oder S88 ausgegeben. Falls keine Extraktionseinheit vorhanden
ist, die ihre Erscheinungsposition am Ende des Dokumentes hat, kann
dann die Absatzgrenze zwischen der Position der letzten Extraktionseinheit in
der Extraktionseinheitsliste und dem Ende des Dokumentes nicht ausgegeben
werden, da bei Schritt S75 bestimmt wird, daß keine Extraktionseinheiten herausgesucht
werden können,
und der Prozeß endet.
-
Deshalb werden bei Schritt S73 alle
Absatzgrenzen bis zum Ende des Dokumentes ausgegeben, indem eine
leere Extraktionseinheit mit ihrer am Ende des Dokumentes festgelegten
Erscheinungsposition bei Schritt S73 hinzugefügt wird und die Einheit bei
Schritt S83 entfernt wird. Die Beschreibung der hinzugefügten Extraktionseinheit
ist leer, und für die
Zusammenfassung können
tatsächlich
keine Zeichenketten ausgegeben werden.
-
Die Nutzervorliebe 16 speichert
die Propositionen, an denen Nutzer interessiert sind. Zum Beispiel
werden Erläuterungssätze, die
bei der Selbstvorstellung eines Nutzers verwendet werden, ein Dokument,
an dem ein Nutzer interessiert ist, etc., bei der Nutzervorliebe 16 gespeichert.
Sie kann auch Schlüsselwörter speichern,
die in solch einem Dokument häufig
erscheinen, die Schlüsselwörter und Fragesätze, die
bei der Suche durch einen Nutzer oft verwendet werden, etc.
-
Das Nutzerwissen 17 speichert
Informationen, die Nutzern wohlbekannt sind, als dem Nutzer bekannte
Informationen. Zum Beispiel speichert es eine Liste von technischen
Termini, die durch die Nutzer häufig
verwendet werden.
-
Das Dokumentzugriffsprotokoll 18 akkumuliert
den Verlauf des Zugriffs des Nutzers auf Dokumente und Zusammenfassungen.
-
Das Eingangsdokument (Gruppe) 19 speichert
im Grunde ein zusammenzufassendes Dokument und kann normalerweise
als beliebiger Typ eines elektronischen Dokumentes erzeugt werden. Praktisch
kann die SGML (ISO8879), die die Dokumentstrukturbeschreibungssprache
ist, die bei einer elektronischen Veröffentlichung verwendet wird,
etc., eingesetzt werden. Die im Brennpunkt des Autors stehenden
Informationen, die nach der Erzeugung eines Dokumentes spezifiziert
werden, können durch
einen Autor oder einen Verwalter des Dokumentes, das dem zusammenzufassenden
Dokument entspricht, akkumuliert werden.
-
Die Nutzervorliebe 16, das
heißt,
im Brennpunkt des Nutzers stehende Informationen; das Nutzerwissen 17,
das heißt,
dem Nutzer bekannte Informationen; das Dokumentzugriffsprotokoll 18,
das heißt,
Informationen, die durch ein Zugriffsprotokoll bekannt sind; und
das Eingangsdokument (Gruppe) 19, das heißt, ein
zusammenzufassendes Dokument, sind der Inhalt, der in dem Speicher
gespeichert wird und durch den Zusammenfassungsprozeßcontroller 10 verwaltet
wird und beim Erzeugen einer Zusammenfassung verwendet wird.
-
Unten sind der Abhandlungsstrukturanalysator 13 und
der Satzselektor 14 beschrieben, die charakteristische
Komponenten der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung
sind. 13 ist ein Flußdiagramm,
das die Einzelheiten des Abhandlungsstrukturanalyseprozesses zeigt,
der durch den Abhandlungsstrukturanalysator 13 ausgeführt wird.
-
Der Abhandlungsstrukturanalyseprozeß wird wie
in 13 ausgeführt. Der
Inhalt eines Dokumentes, das durch den morphologischen Analysator 12 in eine
Wortliste konvertiert wurde, wird in Extraktionseinheiten geteilt,
um durch den Satzselektor 14 verarbeitet zu werden, und
eine Extraktionseinheitsliste mit den geteilten Extraktionseinheiten
als Elemente wird erzeugt. Die Selektionsbeschränkungsbedingungen der Extraktionseinheiten,
um die Lesbarkeit einer Zusammenfassung zu verbessern, werden als Abhängigkeit
zwischen den Extraktionseinheiten gemäß der Liste von bekannten Begriffen,
die von dem Zusammenfassungsprozeßcontroller 10 vorgesehen wird,
und den Dokumentstrukturinformationen, die von dem Dokumentstrukturanalysator 11 ausgegeben
werden, vorgesehen. Die Beschränkungen,
um die Lesbarkeit der Zusammenfassung zu verbessern, umfassen die
Beschränkungen,
die auf dem Begriffswissenskriterium basieren, und die Beschränkungen, die
auf der Dokumentstruktur basieren, wobei eine Überschrift ausgegeben wird,
die einem extrahierten Satz entspricht.
-
Da der Prozeß zum Festlegen der Abhängigkeit
(Schritt S96) zwischen den Extraktionseinheiten in einem Satz zwischen
dem Prozeß zum
Teilen eines Satzes in Extraktionseinheiten und dem Prozeß zum Hinzufügen der
Extraktionseinhei ten zu der Liste von Prädikatsverbänden als Liste zum Ausgeben der
geteilten Extraktionseinheiten eingefügt ist, wie in 13 gezeigt, kann der Satzteilungsprozeß nicht einfach
von dem Abhängigkeitsfestlegungsprozeß abgetrennt
werden. Der Teilungsprozeß entspricht dem
Prozeß zum
Heraussuchen des führenden
Satzes bei Schritt S92 und dem Prozeß zum Teilen des Satzes in
Prädikatsverbände, der
von gestrichelten Linien umgeben ist (Schritte S94, S95, S97 bis S100).
Der Abhängigkeitsfestlegungsprozeß entspricht
den Schritten S96 und S100 bis S105.
-
Gemäß der unten beschriebenen Ausführungsform
wird im Japanischen ein Prädikatsverband als
Extraktionseinheit verwendet, während
im Englischen ein grammatikalischer Satz als Extraktionseinheit
verwendet wird. Der Ausdruck 'Prädikatsverband' wird im folgenden
jedoch sowohl für
das Japanische als auch für
das Englische verwendet. (Sowohl im Japanischen als auch im Englischen
kann ein Satz als Extraktionseinheiten verarbeitet werden, wie es
später
beschrieben ist.) Ein Prädikatsverband ist
ein Verband oder eine Wortverbindung, der auf einem Prädikat und
einem abhängigen
Substantiv (einschließlich
eines Subjektes) basiert, und entspricht einem einfachen Satz, der
in einem Satz enthalten ist. Ein Prädikat, wie etwa ein Wort eines
deklinierbaren Sprachteils im Japanischen und ein Verb im Englischen
wird aus einer abhängenden
Struktur herausgesucht. Dann wird ein abhängiges Element, ein Prädikat ausgenommen,
zu dem herausgesuchten Prädikat
hinzugefügt,
um einen Prädikatsverband
zu bilden. Ein Funktionswort, wie etwa eine Konjunktion, eine Präposition,
ein Hilfsverb, etc., wird mit einem unabhängigen Wort (Inhaltswort) unmittelbar
vor oder nach dem Funktionswort gruppiert. Ein Modifikationselement,
wie etwa ein Adjektiv, das ein Substantiv modifiziert, kann mit
einem modifizierten Element gruppiert werden oder kann als unab hängiger Prädikatsverband
ausgedrückt
werden. Ein unabhängiger
Satz sollte jedoch in Abhängigkeit
von der Wortlautcharakteristik eines Modifikationselementes oder
dem Modifikationstyp bestimmt werden.
-
Wenn der Prozeß startet, wie in 13 gezeigt, wird der Inhalt
der Liste von Prädikatsverbänden, die
schließlich
zu erzeugen ist, bei Schritt S91 gelöscht. Bei Schritt S92 wird
der führende
Satz herausgesucht. Bei Schritt S93 wird bestimmt, ob der Satz detektiert
worden ist oder nicht. Ein Satz kann von einem Dokument unter Verwendung
einer Satzende-Markierung wie etwa eines Punktes detektiert werden,
wobei die logische Struktur des Dokumentes berücksichtigt wird, indem zum
Beispiel eine Überschrift
als ein Satz betrachtet wird, etc.
-
Falls bestimmt wird, daß ein Satz
detektiert worden ist, wird bei Schritt S94 die Struktur der Syntaxabhängigkeit
des Satzes analysiert. Es gibt wohlbekannte Verfahren zum Analysieren
der Struktur der syntaktischen Abhängigkeit eines Satzes unter
Verwendung der Abhängigkeitsgrammatik,
der Verbandsstrukturgrammatik, etc. Zum Beispiel bezieht sich das
folgende Dokument 10 auf ein Basisverfahren, wie etwa ein Diagrammverfahren,
bei dem die Struktur eines Dokumentes auf der Basis der kontextfreien
Grammatik effektiv analysiert werden kann.
-
Dokument 10: James Allen. Basic parsing techniques.
In Natural Language Understanding, Kapitel 3, S. 40–78. The
Benjamin/Commings Publishing Company, Inc., 1987.
-
Im folgenden ist die Analyse der
Struktur der syntaktischen Abhängigkeit
unter Bezugnahme auf 11 beschrieben. 14 zeigt ein Beispiel für das Analyseresultat.
In 14 geben Lexika
die Entsprechung zwischen dem Wort und dem Sprachteil an, der bei
der morphologischen Analyse erhalten wird (Sprachteil wird in abgekürzter Form
ausgedrückt). Die 'Umschreibregeln' geben die grammatikalische Regel
an, die beim Analysieren der Abhängigkeitsstruktur
verwendet wird. Bei der Abhängigkeitsstrukturanalyse
werden die Schreibregeln sequentiell angewendet, um einen Parsing-Baum
mit dem S zu erhalten, der durch die Ausgabe als Wurzel angegeben wird.
Das einfachste Verfahren ist das Anwenden der Regel, daß jeder
Abschnitt der Sequenz von Sprachteilen 'SUBSTANTIV VERB ART ADJ SUBSTANTIV' dem rechten Teil
('ART ADJ SUBSTANTIV' bei der Regel 1)
entspricht. Dann wird er als linker Teil eingesetzt. Dieser Prozeß wird wiederholt,
bis der Gesamtwert von S erhalten wird, und der Prozeß endet
(aufsteigendes Verfahren). In einem Satz, der in einer natürlichen
Sprache geschrieben ist, ist es jedoch üblich, daß eine Vielzahl von anwendbaren
Regeln vorhanden ist, und ein einfaches Verfahren ist nicht effektiv.
Deshalb wird in den meisten Fällen
das oben beschriebene Diagrammverfahren, etc. verwendet. Bei diesem
Beispiel ist es unklar, ob die Regel 1 auf den gesamten Abschnitt 'ART ADJ SUBSTANTIV' bezüglich des
Abschnittes 'die
japanische Hauptstadt' oder
die Regel 2 auf das 'SUBSTANTIV' entsprechend dem
letzten Wort 'Hauptstadt' angewendet wird.
Jedoch kann am Ende nur erstere S sein. Bei dem Diagrammverfahren,
etc., kann solch eine redundante Analyse (Regel 2 bei diesem Beispiel) durch
vorheriges Analysieren der Umschreibregeln weggelassen werden.
-
Im folgenden ist der Grund dafür beschrieben,
warum der Prozeß endet,
wenn die Analyse der syntaktischen Abhängigkeitsstruktur schließlich ein Resultat
von S (Satz) ausgibt. Bei der Analyse der Abhängigkeitsstruktur in der Linguistik
ist eine Prozeßeinheit
im allgemeinen ein Satz, da ein Satz die größte Einheit einer Sprache ist,
deren Konfiguration formal beschrieben werden kann. In der vorliegenden Ausführungsform
kann ein Satz ohne weiteres als Einheit erkannt werden, die durch
einen Punkt begrenzt ist, und ein Abhängigkeitsstrukturanalyseprozeß kann für jeden
Satz ausgeführt
werden.
-
Auf der Basis des Analyseresultats
der Struktur der syntaktischen Abhängigkeit wird der bei Schritt
S95 herausgesuchte Satz in Prädikatsverbände (einfache
Sätze)
analysiert.
-
Welches Verfahren als Verfahren zum
Analysieren der Entsprechungsstruktur auch verwendet wird, die Analyse
in Prädikatsverbände ist
ziemlich kostspielig. Ein langer Satz kann jedoch unter Verwendung
von Prädikatsverbänden leicht
zusammengefaßt
werden. Da ein Bedeutungsprozeß auf
höherem
Niveau ausgeführt
wird, ist eine bekannte Proposition in einem Rahmenformat gegeben,
das in 15 gezeigt ist
(ein Rahmen bezeichnet ein Set aus einer Kombination aus einem Attributnamen (Schlitznamen)
und einem Attributwert (Füller)
und ist ein wohlbekanntes Wissensdarstellungsverfahren). Ferner
können
in der Bedeutungsnetzdarstellung bekannte Propositionsinformationen
einfacher mit einer Zusammenfassungseinheit verglichen werden, wie
in 16 gezeigt.
-
In dem in
16 gezeigten Bedeutungsnetz kennzeichnet
eine Unterstreichung ein Symbol, das eine Einheit ist, die eine
Bedeutung hat, und ein nichtunterstrichenes Wort, dem ein Pfeil
folgt, gibt die Beziehung an. In
16 wird
ein Symbol im Japanischen ausgedrückt. Zum Beispiel gestattet
das vorherige Definieren des englischen Wortes 'mitteilen' als Symbol, das dem japanischen Wort '
' entspricht daß das japanische
Wort als Information nicht nur für
das Japanische sondern auch für
das Englische verwendet werden kann.
-
Wie oben beschrieben, sollen ein
Prädikatsverband
und ein Satz als Einheit einer Zusammenfassung selektiv verwendet
werden. Wenn eine Zusammenfassung in Satzeinheiten erzeugt wird,
kann der Analyseprozeß in
Prädikatsverbände, dessen Darstellung
in 13 von gestrichelten
Linien umgeben ist, das heißt,
die Prozesse bei den Schritten S94 bis S102, weggelassen werden.
Diese Prozesse enthalten die Analyse in Prädikatsverbände und die Festlegungen der
Abhängigkeit
zwischen den Prädikatsverbänden.
-
Im folgenden ist der Abhängigkeitsfestlegungsprozeß beschrieben,
der in 13 gezeigt ist. Der
Abhängigkeitsfestlegungsprozeß ist der
Prozeß, der
durch den Abhandlungsstrukturanalysator 13 ausgeführt wird,
das heißt,
die letztere Hälfte
des in 13 gezeigten
Prozesses. Dieser Prozeß wird
für jeden
der Sätze,
die durch den Satzteilungsprozeß herausgesucht
werden, sequentiell ausgeführt.
-
Die Abhängigkeit zwischen Dokumentkomponenten
wird für
den Satz und Verbände
(Nebensätze
und Verbände)
festgelegt, die selbst eine geringe Lesbarkeit aufweisen, aber durch
gemeinsames Aufnehmen eines anderen verbundenen Satzes oder eines
Verbandes in eine Zusammenfassung lesbarer gemacht werden können. Die
Abhängigkeit
wird für die
folgenden Dokumentkomponenten festgelegt.
-
(1) Ein Nebensatz in einem
Satz
-
Die Abhängigkeit eines Nebensatzes
von einem Hauptsatz wird festgelegt, so daß der Hauptsatz immer dann
in eine Zusammenfassung aufgenommen wird, wenn der Nebensatz in
eine Zusammenfassung aufgenommen wird.
-
(2) Ein Satz, der mit
einer Konjunktion beginnt
-
Die Abhängigkeit eines Satzes mit einer
Konjunktion wie etwa 'aber' am Anfang von einem
vorhergehenden Satz wird festgelegt, so daß der vorhergehende Satz immer
dann in eine Zusammenfassung aufgenommen wird, wenn der Satz mit
einer Konjunktion in eine Zusammenfassung aufgenommen wird. Diese
Festlegung ist effektiv, wenn ein technisches Dokument zusammengefaßt wird,
das aus relativ kurzen Sätzen
gebildet ist, besonders ein japanischer wissenschaftlicher Artikel.
-
(3) Ein Satz in einem
Körperteil
mit einer Überschrift
-
Die Abhängigkeit eines Satzes in einem
Kapitel oder dergleichen von der Überschrift des Kapitels wird
festgelegt, so daß die Überschrift
immer dann in eine Zusammenfassung aufgenommen wird, wenn einer
der Sätze
in dem Kapitel in eine Zusammenfassung aufgenommen wird. Diese Festlegung ist
effektiv, wenn ein strukturiertes Dokument zusammengefaßt werden
soll, das technisches oder praktisches Wissen liefert, besonders
um einem Nutzer zu helfen, einige praktische Informationen aus einem Handbuch
oder einer Enzyklopädie
schnell herauszufinden.
-
(4) Ein Satz, dessen Subjekt
nicht wohlbekannt ist
-
Die Abhängigkeit eines Satzes, der
mit einem ungewohnten Wort beginnt, speziell mit einem technischen
Terminus oder einem Eigennamen, wird von dem Satz festgelegt, der
das Wort definiert oder beschreibt, so daß der Satz, der das Wort beschreibt, immer
dann in eine Zusammenfassung aufgenommen wird, wenn der Satz mit
einem ungewohnten Wort in eine Zusammenfassung aufgenommen wird.
-
Der Satz, der ein ungewohntes Wort
beschreibt, kann gefunden werden, indem das erste Auftreten des
Wortes geprüft
wird oder indem ein Auftreten des Wortes mit unbestimmtem Artikel
in der Nähe
des Satzes mit dem ungewohnten Wort durch Rückwärtssuche gesucht wird. Da verschiedene Wortformen
verwendet werden können,
um ein und dieselbe Bedeutung zu haben, sollte auch ein Wort in Form
einer Variante geprüft
werden, besonders in dem Fall, wenn das ungewohnte Wort ein Akronym oder
ein anderer Abkürzungstyp
ist.
-
(5) Satz, der einen anaphorischen
Ausdruck enthält
-
Die Abhängigkeit eines Satzes, der
einen anaphorischen Ausdruck enthält, wie etwa 'es', 'sie', 'jenes' oder 'wie folgt', von dem Satz wird
festgelegt, wo das Beziehungswort des Ausdrucks erscheint, so daß der Satz
mit dem Beziehungswort immer dann in eine Zusammenfassung aufgenommen
wird, wenn der Satz mit einem anaphorischen Ausdruck in eine Zusammenfassung
aufgenommen wird.
-
Anderenfalls ist es eine gute Idee,
einem Satz, der einen anaphorischen Ausdruck enthält, eine
gewisse Strafe für
die Aufnahme in eine Zusammenfassung aufzuerlegen, besonders in
dem Fall, wenn der Satz mit einem anaphorischen Ausdruck ein Adjektivsatz
('SUBSTANTIV sei
ADJEKTIV') oder ein
Substantivsatz ('SUBSTANTIV
SEI SUBSTANTIV')
ist. Denn die meisten Adjektiv- oder Substantivsätze beschreiben gewisse Attribute
oder Bedingungen von ihren Subjekten, und viele von diesen Sätzen mit
anaphorischen Subjekten enthalten nur eine gewisse zusätzliche
Erläuterung
oder das, was unmittelbar nach ihnen beschrieben wird. Die vorliegende
Erfindung ist darauf gerichtet, einem Nutzer zu helfen, notwendige
Informationen aus Zeitungen, Zeitschriften, Handbüchern, etc.,
herauszufinden. Somit sind jene Sätze, die die Struktur einer
Abhandlung angeben, weniger wichtig als solche, die gewisse Ereignisse
oder Wissen beschreiben.
-
Die Lesbarkeit einer Zusammenfassung kann
verbessert werden, indem zusätzliche
Sätze oder
grammatikalische Sätze
in eine Zusammenfassung gemäß der Abhängigkeit
der obigen Dokumentkomponente (1) bis (5) aufgenommen werden. Tatsächlich fallen
jedoch Berechnungskosten an, um die Abhängigkeit zu detektieren. Außerdem ist
es schwierig, die Abhängigkeit
eines Satzes (4), dessen Subjektwort unbekannt ist, oder eines Satzes
(5), der einen anaphorischen Ausdruck enthält, zweckmäßig zu detektieren. Die Lesbarkeit
dieser Sätze
wird weiter gemindert, falls die Abhängigkeit unzweckmäßig festgelegt
wird. Deshalb zeigt die vorliegende Ausführungsform den Ablauf zum Verarbeiten
der Abhängigkeit,
die festgelegt wird für
den Nebensatz (1), den Satz (3) in einem Körperteil mit einer Überschrift und
den Satz (4), dessen Subjektwort nicht wohlbekannt ist, um den Basisablauf
der Verarbeitung der Abhängigkeit
darzustellen. Sie zeigt auch den Ablauf zum Verarbeiten der Strafe,
die dem Satz (5) auferlegt wird, der einen anaphorischen Ausdruck
enthält, in
dem Prozeß des
Satzselektors 14, der später beschrieben ist.
-
Nach dem Teilen des Satzes in Prädikatsverbände (einfache
Sätze)
bei Schritt S95, der in 13 gezeigt
ist, wird die Abhängigkeit
zwischen den Prädikaten
in der syntaktischen Abhängigkeitsstruktur bei
Schritt S96 festgelegt. Bei Schritt S97 wird ein Prädikatsverband,
der von einem anderen Prädikatsverband
unabhängig
ist, als Hauptprädikatsverband festgelegt.
Bei Schritt S98 wird der Hauptprädikatsverband
zu einer Liste von Prädikatsverbänden hinzugefügt. Wenn
ein Prozeß in
Satzeinheiten ausgeführt
wird, wie oben beschrieben, werden die oben beschriebenen Prozesse
weggelassen, und der gesamte Satz wird als Hauptprädikatsverband
angesehen. Der Hauptprädikatsverband
ist ein Verband, von dem ein anderer Verband abhängt, wenn die Abhängigkeit
zwischen Sätzen
bei dem nachfolgenden Prozeß festgelegt
wird. Als Resultat wird ein Hauptprädikatsverband immer dann in
eine Zusammenfassung aufgenommen, wenn einer der Sätze, der
von ihm abhängt,
in eine Zusammenfassung aufgenommen wird.
-
17 zeigt
ein Beispiel für
das Teilen in Prädikatsverbände und
das Festlegen der Abhängigkeit.
In 17A wird die Abhängigkeit
festgelegt, daß der
Prädikatsverband
2 in dem Satz 1 von dem Prädikatsverband
1 abhängt. Ähnlich wird
die Abhängigkeit
festgelegt, daß der
Prädikatsverband
2 in dem Satz 2 von dem Prädikatsverband
1 abhängt.
In jedem Satz ist der Prädikatsverband
1 ein Hauptprädikatsverband.
Die Abhängigkeit
kann für
jegliche Paare von Prädikaten
festgelegt werden, wie in 17 gezeigt,
die syntaktisch miteinander verbunden sind, ungeachtet ihres Verbindungstyps
(d. h., direkt oder indirekt). Das heißt, im Satz 1 ist das Prädikat 'hiita (zugezogen
hat)' in dem Prädikatsverband
2 direkt mit dem Prädikat 'yasunda (hat gefehlt)' in dem Prädikatsverband
1 durch das konjunktionale Hilfswort 'node (da)' verbunden. Andererseits ist im Satz
2 das Prädikat 'okuttekureta (geschickt
hat)' in dem Prädikatsverband
2 indirekt mit dem Prädikat 'legte beiseite' in dem Prädikatsverband
1 durch das Substantiv 'Brief' verbunden. In diesem
Fall wird die Abhängigkeit ähnlich festgelegt.
-
Nachdem der Hauptprädikatsverband
bei Schritt S98, der in 13 gezeigt
ist, zu der Liste von Prädikatsverbänden hinzugefügt ist,
wird bei den Schritten S99 bis S102 ein repräsentativer Verband eines Satzes
bestimmt. Wenn der Prozeß in
Satzeinheiten ausgeführt
wird, sind die Prozesse bei den Schritten S99 bis S102 nicht erforderlich
und wird der gesamte Satz als repräsentativer Verband (und Hauptprädikatsverband)
angesehen.
-
Ein repräsentativer Verband eines Satzes
ist ein Verband, der ein Ursprung der Abhängigkeit ist, die bei Schritt
S104 festgelegt wird, falls der Satz von einem anderen Satz abhängt. Er
wird hauptsächlich ins
Spiel gebracht, um den thematischen Verband (oder den Subjektverband)
von japanischen Sätzen zu
behandeln.
-
Die Basisstruktur eines japanischen
Satzes ist eine Art Themenkommentarstruktur. Er hat einen thematischen
Verband, der im wesentlichen besteht aus einem Substantiv, dem ein
themenbildendes nachgestelltes Glied 'wa' folgt,
und einem Prädikatsteil,
der aus einem Prädikat,
gewissen komplementären
Verbänden
und optionalen Adverbialverbänden gebildet
ist. Aber in einer normalen japanischen Abhandlung haben viele japanische
Sätze selbst
keinen thematischen Verband, und die meisten von ihnen betreffen
den vorhergehenden thematischen Verband eines anderen Satzes. Zum
Beispiel hat der zweite Satz von 'Hanako-wa kaimono-ni dekaketa. Kireina
huku-wo katta.' (auf
deutsch: Hanako ging einkaufen. ϕ kaufte ein wunderschönes Kleid.)
kein Thema, und er bezeichnet den thematischen Verband des ersten
Satzes, d. h., 'Hanako-wa' als Subjekt seines
Prädikates 'katta (kaufte)'. In der Terminologie
der vorliegenden Ausführungsform
hängt der zweite
Satz von dem ersten Satz ab.
-
Wenn angenommen wird, daß 'huku (Kleid)' ein im Brennpunkt
stehendes Wort ist, sollten beide Sätze in eine Zusammenfassung
aufgenommen werden, da der zweite Satz, der das im Brennpunkt stehende
Wort enthält,
in eine Zusammenfassung aufgenommen werden muß. Bei diesem Beispiel ist
der gesamte erste Satz für
einen Nutzer zum Erkennen des zweiten Satzes nicht notwendig. Nur
der thematische Verband des ersten Satzes genügt. Das ist der Grund dafür, daß ein thematischer
Verband von einem Prädikatsverband,
der mit ihm erscheint, getrennt wird. Die vorliegende Ausführungsform
teilt das obige Beispiel in drei Teile wie folgt: 'Hanako-wa' (thematischer Verband
1: repräsentativer
Verband des ersten Satzes), 'kaimono-ni
dekaketa (ging einkaufen)' (Prädikatsverband
1: Hauptprädikatsverband
des ersten Satzes) und 'Kireina
huku-wo katta (kaufte ein wunderschönes Kleid)' (Prädikatsverband 2:
Hauptprädikatsverband
und repräsentativer
Verband des zweiten Satzes) und legt die Abhängigkeit des Prädikatsverbandes
1 von dem thematischen Verband 1 und dem Prädikatsverband 2 von dem thematischen
Verband 1 fest. Somit hängt
der zweite Satz nicht von dem ersten Satz ab, wobei er aber von dem
thematischen Verband des ersten Satzes abhängt. Mit anderen Worten, der
zweite Satz wird, falls erforderlich, mit seinem betreffenden thematischen Verband
in eine Zusammenfassung aufgenommen, und zwar genau durch denselben
Mechanismus, durch den der erste Satz insgesamt in eine Zusammenfassung
aufgenommen wird.
-
Nun wird angenommen, daß das obige
Beispiel in einem Abschnitt mit dem Titel 'Notiz vom 15. Dezember' enthalten ist. In
der vorliegenden Ausführungsform
hängen
beide Sätze
des Beispiels von dem Titel ab. Falls das gegebene im Brennpunkt
stehende Wort 'Hanako' ist, werden in der
vorliegenden Ausführungsform
wenigstens der thematische Verband 1 und der Titel des Abschnittes
in eine Zusammenfassung aufgenommen. Aber sie reichen nicht aus,
da nur 'Notiz vom
15. Dezember' und 'Hanako-wa' keinen Sinn ergeben.
Sie benötigen
einige Prädikate
(Verb). In der vorliegenden Ausführungsform
wird solch eine unsinnige Zusammenfassung vermieden, indem einem
Hauptprädikatsverband
und einem repräsentativen
Verband verschiedene Rollen zuteil werden. In der vorliegenden Ausführungsform wird
wenigstens ein Hauptprädikat
in eine Zusammenfassung aufgenommen, aber kein repräsentativer
Verband für
sich. Das ist der Grund dafür,
daß ein thematischer
Verband ein repräsentativer
Verband sein kann, aber kein Hauptprädikatsverband.
-
Die vorliegende Ausführungsform
bewertet die Wichtigkeit von jeder Liste von Prädikatsverbänden, die mit einem Hauptprädikatsverband
beginnt und eine Vielzahl von Prädikatsverbänden und
thematischen Verbänden
enthält,
von denen der Hauptprädikatsverband
abhängt,
und nimmt eine Vielzahl von Listen von Prädikatsverbänden in eine Zusammenfassung
auf. In diesem Fall bewertet sie die folgenden zwei Listen von Prädikatsverbänden: (1) 'kaimono-ni dekaketa
(ging einkaufen)', 'Hanako-wa' und 'Notiz vom 15. Dezember'; (2) 'Kireina huku-wo katta (kaufte
ein wunderschönes
Kleid)', 'Hanako-wa' und 'Notiz vom 15. Dezember'. Eine Liste mit 'Hanako-wa' und 'Notiz vom 15. Dezember', die der oben beschriebenen
unsinnigen Zusammenfassung entspricht, wird nicht mehr bewertet,
da sie nicht mit einem Hauptprädikatsverband
beginnt. Im folgenden wird die detaillierte Prozedur dieses Prozesses
beschrieben.
-
Ein repräsentativer Verband bezeichnet
einen thematischen Verband oder einen Prädikatsverband, der in einem
Satz enthalten ist und nicht von anderen Prädikatsverbänden abhängt. Das heißt, falls
ein thematischer Verband in einem Satz isoliert wird, ist der thematische
Verband ein repräsentativer Verband.
Anderenfalls ist ein Hauptprädikatsverband ein
repräsentativer
Verband in einem Satz.
-
Bei Schritt S99 wird bestimmt, ob
ein thematischer Verband in einem Satz existiert oder nicht. Im Falle
von JA, wird der thematische Verband bei Schritt S100 isoliert,
und die Abhängigkeit
zwischen dem thematischen Verband und dem Hauptprädikatsverband
wird festgelegt. Ein thematischer Verband ist ein Substantivverband,
dem der japanische themenbildende Teil (das nachgestellte Glied 'wa') folgt.
-
17B zeigt
die Abhängigkeit
nach dem Isolieren des thematischen Verbandes. In dem Satz 1 ist 'Taro-wa' ein thematischer
Verband. Der Prädikatsverband
2 hängt
von dem Prädikatsverband
1 ab, und der Prädikatsverband
1 hängt
von dem thematischen Verband ab. In dem Satz 2 ist 'Hanako-wa' ein thematischer
Verband. Der Prädikatsverband
2 hängt von
dem Prädikatsverband
1 ab, und der Prädikatsverband
1 hängt
von dem thematischen Verband ab. Somit werden der analysierte Prädikatsverband
und der thematische Verband auf der Basis der Abhängigkeit
durch den Satzselektor 14, der später beschrieben ist, umstrukturiert,
und wenn sie in eine Zusammenfassung inkorporiert werden, werden
sie mit einem Verband gruppiert, von dem sie abhängen. Unter Bezugnahme auf
den in 17B als Beispiel gezeigten
Satz 1 kann folgendes in eine Zusammenfassung inkorporiert werden: 'Tako-wa gakko-wo
yasunda (Taro hat in der Schule gefehlt)' (thematischer Verband + Prädikatsverband
1) oder 'Taro-wa
kaze-wo hiitanode gakko-wo yasunda (Da sich Taro eine Erkältung zugezogen
hat, hat er in der Schule gefehlt)' (thematischer Verband + Prädikatsverband 2
+ Prädikatsverband
1).
-
Nach dem Isolieren des thematischen
Verbandes und dem Festlegen der Abhängigkeit bei Schritt S100 wird
bei Schritt S101 der thematische Verband als repräsentativer
Verband des Satzes definiert, und die Steuerung geht zu dem Prozeß bei Schritt
S103 über.
Falls bei Schritt S99 kein thematischer Verband in dem Satz existiert,
wird bei Schritt S102 der Hauptprädikatsverband als repräsentativer Verband
des Satzes definiert, und die Steuerung geht zu dem Prozeß bei Schritt
S103 über.
-
Bei den Schritten S103 und S104 wird
die Abhängigkeit
zwischen Sätzen,
die bei dem Dokumentstrukturanalyseprozeß festgelegt wurde, in die Beziehung
zwischen Prädikatsverbänden konvertiert.
Dieser Prozeß wird
nur dann ausgeführt,
wenn ein Satz in einem Abschnitt enthalten ist, der einer Überschrift,
etc., untergeordnet ist (abhängiger
Block des Körpers
eines Dokumentes). Bei Schritt S103 wird bestimmt, ob der Satz,
der gerade verarbeitet wird, ein Element in einem abhängigen Block
ist oder nicht. Im Falle von JA, wird die Abhängigkeit zwischen dem repräsentativen
Verband des gerade verarbeiteten Satzes und dem Hauptprädikatsverband entsprechend
dem Abschnitt, von dem ein Block in der Dokumentstruktur abhängt, bei
Schritt S104 festgelegt. Dann geht die Steuerung zu dem Prozeß bei Schritt
S105 über.
Falls bei Schritt S103 bestimmt wird, daß der Satz kein Element in
dem abhängigen Block
ist, wird der Prozeß bei
Schritt S104 weggelassen, und die Steuerung geht zu dem Prozeß bei Schritt
S105 über.
Da hier nur typische Prozesse beschrieben sind, gibt es keine Schritte,
bei denen die Abhängigkeit
festgelegt wird, wenn der gerade verarbeitete Satz von einem Satz
nach dem gerade verarbeiteten Satz abhängt. Falls solch ein Prozeß erforderlich
ist, sollte eine Bedingung zum Spezifizieren eines Satzes, von dem
ein anderer abhängt,
und eines repräsentativen
Verbandes eines Nebensatzes gespeichert werden und die Abhängigkeit
festgelegt werden, wenn ein Satz verarbeitet wird, der der Bedingung
entspricht.
-
Bei dem letzten Schritt, der in 13 gezeigt ist, das heißt, bei
Schritt S105, wird der Prozeß zum Festlegen
der Abhängigkeit
und der Strafe auf der Basis des Begriffswissenskriteriums ausgeführt. Gemäß der vorliegenden
Ausführungsform
werden ein Prozeß zum
Festlegen der Abhängigkeit
eines thematischen Verbandes, der ein ungewohntes Wort enthält, von
dem ersten Satz, in dem das ungewohnte Wort erscheint, und ein Prozeß zum Auferlegen
einer Strafe auf einen Satz, der einen anaphorischen Ausdruck enthält, ausgeführt. Nach
diesem Prozeß kehrt
die Steuerung zu dem Prozeß bei
Schritt S92 zurück,
und der nächste
Satz wird herausgesucht. Falls bei Schritt S93 bestimmt wird, daß ein Satz
herausgesucht worden ist, werden die Prozesse bei Schritt S94 und
danach wiederholt. Falls bei Schritt S93 bestimmt wird, daß keine
Sätze herausgesucht worden
sind, wird der Abhandlungsstrukturanalyseprozeß dann beendet.
-
Der Prozeß zum Festlegen der Abhängigkeit und
der Strafe bei Schritt S105, der auf dem Begriffswissenskriterium
basiert, ist unter Bezugnahme auf 18 in
weiteren Einzelheiten beschrieben. Wenn der Prozeß startet,
wie in dem Flußdiagramm
von 18 gezeigt, wird
bei Schritt S111 bestimmt, ob ein thematischer Verband existiert
oder nicht. Im Falle von JA, wird bei Schritt S112 die Liste von
Prädikatsverbänden ab
Beginn nach einem Verband durchsucht, in dem ein Hauptsubstantiv
zum ersten Mal erscheint. Bei Schritt S113 wird bestimmt, ob solch
ein Verband detektiert worden ist oder nicht. Im Falle von JA, wird
die Abhängig keit
zwischen dem thematischen Verband und dem detektierten Verband,
von dem der thematische Verband abhängt, festgelegt, und der Prozeß endet.
-
Falls bei Schritt S111 kein thematischer
Verband detektiert wird, oder falls bei Schritt S113 in der Liste
von Prädikatsverbänden kein
Verband detektiert wird, der ein Hauptsubstantiv des thematischen Verbandes
enthält,
wird dann bei Schritt S115 bestimmt, ob am Anfang des repräsentativen
Verbandes ein anaphorischer Ausdruck existiert oder nicht. Im Falle
von JA, wird dem repräsentativen
Verband bei Schritt S116 eine Strafe auferlegt. Im Falle von NEIN,
wird der Prozeß bei
Schritt S116 nicht ausgeführt.
Dann endet der Prozeß.
-
Nachdem der in 13 gezeigte Abhandlungsstrukturanalyseprozeß vollendet
worden ist, führt
der Satzselektor 14 den Satzselektionsprozeß aus. Bei
dem Satzselektionsprozeß selektiert
der Satzselektor 14 eine Vielzahl von wichtigen Prädikatsverbänden, die
in eine Zusammenfassung aufzunehmen sind, von der Liste von Prädikatsverbänden, die
durch den Abhandlungsstrukturanalysator 13 erstellt wurde,
und bildet eine Liste mit den selektierten Prädikatsverbänden, die als Selektionsresultatsliste bezeichnet
wird. Das Flußdiagramm
des Prozesses ist in 19 gezeigt.
-
In 19 werden
die im Brennpunkt stehenden Informationen als Liste von im Brennpunkt
stehenden Begriffen verarbeitet. Gemäß der vorliegenden Ausführungsform
umfaßt
die Liste von im Brennpunkt stehenden Begriffen Substantive, die
wichtige Begriffe (d. h., im Brennpunkt des Nutzers oder im Brennpunkt
des Autors stehende Begriffe) zur Zusammenfassung ausdrücken, und
die Menge von im Brennpunkt stehenden Informationen eines Prädikatsverbandes,
die das erste Maß zum
Bestimmen der Wichtigkeit eines Prädikatsverbandes ist, wird berechnet,
indem die Auftritte dieser Substantive darin gezählt werden (wird später beschrieben).
Alternativ ist es möglich,
die Menge von im Brennpunkt stehenden Informationen zu berechnen,
indem die Auftritte nicht nur der Substantive gezählt werden,
die einem Posten einer Liste von im Brennpunkt stehenden Begriffen
exakt entsprechen, sondern auch der Synonyme derselben. Falls zum
Beispiel das Wort 'PC' in der Liste von
im Brennpunkt stehenden Begriffen vorhanden ist, können die
Auftritte von 'Personalcomputer' verwendet werden,
um die Menge von im Brennpunkt stehenden Informationen zu berechnen. (Dies
ist der Grund dafür,
daß die
Liste von Substantiven als Liste von im Brennpunkt stehenden Begriffen,
aber nicht als Liste von im Brennpunkt stehenden Wörtern bezeichnet
wird.)
-
Wenn der Prozeß in 19 beginnt, wird bei Schritt S120 eine
Liste von im Brennpunkt stehenden Begriffen erzeugt, und bei Schritt
S121 wird die Selektionsresultatsliste gelöscht. Die Liste von im Brennpunkt
stehenden Begriffen wird auf der Basis der Liste von Substantiven
erstellt, die durch den Zusammenfassungsprozeßcontroller 10 vorgesehen wird,
indem Substantive in dem im Brennpunkt des Autors stehenden Abschnitt
eines Dokumentes hinzugefügt
werden, die der Dokumentstrukturanalysator 11 gemäß der Extraktionsbedingung
von im Brennpunkt stehenden Informationen benannte.
-
Dann wird bei Schritt S122 bestimmt,
ob die Liste von wesentlichen Ausgabeverbänden leer ist oder nicht. Im
Falle von NEIN, wird bei den Schritten S123 und S124 ein Prozeß zum Hinzufügen von
wesentlichen Ausgabeverbänden
zu einer Selektionsresultatsliste ausgeführt. Ein wesentlicher Ausgabeverband
ist ein Prädikatsverband,
der einem Dokumentelement (Überschrift,
etc.) entspricht, dessen Aufnahme in eine Zusammenfassung durch
den Nutzer durch den Zusammenfassungsprozeßcontroller 10 instruiert
wurde. Praktisch ist er ein Prädikatsverband,
der von einem Dokumentelement erzeugt wird, das der Dokumentstrukturanalysator 11 als
wesentliches Ausgabeelement benannte. Bei Schritt S123 wird der
führende
wesentliche Ausgabeverband herausgesucht (und von der Liste von
wesentlichen Ausgabeverbänden
entfernt), und der herausgesuchte führende Verband wird zu der
Selektionsresultatsliste hinzugefügt. Bei Schritt S124 wird eine
Vielzahl von Propositionen von dem zu der Selektionsresultatsliste
hinzugefügten
Verband extrahiert und zu der Liste von bekannten Propositionen
hinzugefügt,
die anfangs durch den Zusammenfassungsprozeßcontroller erstellt wurde,
und die Steuerung kehrt zu dem Prozeß bei Schritt S122 zurück.
-
An diesem Punkt können die im Brennpunkt stehenden
Begriffe, die in dem wesentlichen Ausgabeverband erschienen sind,
von der Liste von im Brennpunkt stehenden Begriffen entfernt werden.
Es ist jedoch besser, dies nicht zu tun, da ein wesentliches Ausgabeelement
in den meisten Fällen
normalerweise eine Überschrift
oder dergleichen und kein vollständiger
Satz ist oder es ist besser, die im Brennpunkt stehenden Begriffe,
die in dem wesentlichen Ausgabeverband erschienen sind, nur dann
zu entfernen, wenn die Dokumentelemente, von denen der Verband erzeugt
wurde, ein vollständiger
Satz sind.
-
Wenn bei Schritt S122 bestimmt wird,
daß die
Liste von wesentlichen Ausgabeverbänden leer ist, wird bei Schritt
S125 eine Selektionskandidatenliste erzeugt. Die Selektionskandidatenliste
ist eine Liste von allen Prädikatsverbänden, die
keine wesentlichen Ausgabeverbände
in der Liste von Prädikatsverbänden sind,
die durch den Abhandlungsstrukturanalysator 13 erstellt
wurde.
-
Bei Schritt S126 wird die Menge von
im Brennpunkt stehenden Informationen jedes Verbandes in der Selektionskandidatenliste
berechnet. Die Menge von im Brennpunkt stehenden Informationen eines
Prädikatsverbandes
ist die Anzahl von im Brennpunkt stehenden Begriffen (Substantiven),
die in ihm erscheinen. Falls ein Prädikatsverband einen Verband
hat, von dem er abhängt
und der nicht in die Selektionsresultatsliste aufgenommen worden
ist, ist die Menge von im Brennpunkt stehenden Informationen des
abhängigen
Prädikatsverbandes
die Summe der Anzahl von im Brennpunkt stehenden Begriffen, die
in den beiden Verbänden
erscheinen (nämlich
in dem abhängigen
Prädikatsverband
und in dem Verband, von dem er abhängt). Falls eine Vielzahl von Verbänden vorhanden
ist, von denen ein Prädikatsverband
abhängt,
wird die Menge von im Brennpunkt stehenden Informationen von jedem
von ihnen im voraus berechnet, und der Verband, der die größte Menge
von im Brennpunkt stehenden Informationen aufweist, wird verwendet,
um die Menge von im Brennpunkt stehenden Informationen des Prädikatsverbandes
zu berechnen. Wenn im Brennpunkt stehenden Begriffen ein Gewicht
zugeordnet wird, wird die Anzahl mit dem Gewicht multipliziert,
um die Menge der im Brennpunkt stehenden Informationen zu berechnen.
-
Die Menge der im Brennpunkt stehenden
Informationen wird unter Einbeziehung des Verbandes, von dem der
Prädikatsverband
abhängt,
auf der Basis des oben beschriebenen Begriffswissenskriteriums berechnet.
Das heißt,
gemäß dem Begriffswissenskriterium
sollte eine Zusammenfassung, falls ein Eigenname in einem Dokument
wiederholt erscheint, den Abschnitt des ersten Auftretens enthalten,
wenn sie den Abschnitt des zweiten Auftretens enthält. Das heißt, da der
Abhandlungsstrukturanalysator 13 die Abhängigkeit
des zweiten Satzes von dem ersten Satz festlegt, berechnet der Satzselektor 14 die Wichtigkeit
des zweiten Satzes, das heißt,
die Menge von im Brennpunkt stehenden Informationen, zusammen mit
dem ersten Satz. Ein praktisches Beispiel für diesen Prozeß ist später beschrieben.
-
Nach dem Entfernen des Prädikatsverbandes
der Menge von im Brennpunkt stehenden Informationen ϕ von
der Selektionskandidatenliste bei Schritt S127 wird bei Schritt
S128 die Menge von neuen Informationen für alle Prädikatsverbände berechnet, die in der Selektionskandidatenliste
verbleiben. Die Menge von neuen Informationen ist die Menge von
Informationen, die dem Nutzer nicht bekannt sind und die die Proposition
betreffen, die in dem bereits selektierten Prädikatsverband nicht enthalten
ist. Die Berechnung der Menge von neuen Informationen ist unter
Bezugnahme auf ein Beispiel beschrieben, das in 20 gezeigt ist.
-
In 20 wird
ein Set aus einem Prädikat und
einem Substantiv als neue Information bezeichnet, und die Menge
der neuen Informationen wird als Anzahl der Sets berechnet. Der
Körper
des Dokumentes enthält
7 Propositionen. Zwei der Propositionen werden mit der Überschrift
gemeinsam genutzt. Wenn die Überschrift
als wesentliches Ausgabeelement zu der Selektionsresultatsliste
bei Schritt S123 von 19 hinzugefügt wird,
beläuft
sich die Menge von neuen Informationen, die in dem Körper des
Dokumentes enthalten sind, auf 5. Bei diesem Beispiel ist ein etwas
komplizierter Prozeß zum
Erkennen eines Sets aus einem Prädikat
und einem Substantiv erforderlich, aber es kann auch ein einfacheres
Verfahren zum Zählen
der Substantive eingesetzt werden, die keine im Brennpunkt stehenden
Begriffe (im Brennpunkt stehende Wörter) sind.
-
Somit werden beim Berechnen der Menge von
neuen Informationen Propositionsinformationen als Begriffspaar (oder
einfach als Begriff) modelliert, und die Menge von neuen Informationen
kann erhalten werden, indem die Propositionen gezählt werden, die
in dem bereits selektierten Prädikatsverband nicht
enthalten sind. Bei einem anderen Verfahren werden Propositionsinformationen
in einem Format: von 5W1H- Elementen
(when, where, who, what, why, and how; d. h.: wann, wo, wer, was,
warum und wie) modelliert und mit Prädikatsverbänden in der Rahmendarstellung,
die in 15 gezeigt ist,
verglichen, so daß die
Anzahl der Prädikatsverbände, die
nicht mit den bekannten Propositionen übereinstimmen, als Menge von
neuen Informationen definiert ist. Anderenfalls wird die Menge von
neuen Informationen unter Verwendung des oben beschriebenen 5W1H-Modells
als erste Menge von neuen Informationen bezeichnet, und die einfache
Menge von neuen Informationen wird als zweite Menge von neuen Informationen
bezeichnet. Die ersten und die zweiten Mengen von neuen Informationen
können
kombiniert verwendet werden. Beim Berechnen der Menge von neuen
Informationen wird, wie beim Berechnen der Menge von im Brennpunkt
stehenden Informationen, ein Prädikatsverband,
von dem ein anderer abhängt, mit
der größten Menge
von neuen Informationen selektiert, und die Berechnung erfolgt unter
Einbeziehung des Verbandes, von dem ein anderer abhängt. Bei
dem Prädikatsverband,
dem eine Strafe auferlegt wird, wird die Menge der Strafe von der
Menge von neuen Informationen subtrahiert.
-
Im folgenden ist die Strafe in weiteren
Einzelheiten beschrieben. Ein Satz, dem eine Strafe bezüglich eines
anaphorischen Ausdrucks auferlegt wird, kann entweder ein Satz sein,
von dem ein anderer abhängt,
oder ein abhängiger
Satz. Nur die Menge von neuen Informationen sollte einer Subtraktion
unterliegen. Als Beispiel wird die Strafe anhand der zwei folgenden
Sätze erläutert.
-
Erster Satz: Gestern1 traf
ich Herrn Tanaka3 in Shinjuku2 und
erhielt die Informationen4.
-
Zweiter Satz: Gestern1 traf
ich Herrn Tanaka2 und erhielt die Informationen4 über
sein Auto3.
-
Bei diesem Beispiel ist die Anzahl
der numerierten Substantive in den ersten und zweiten Sätzen gleich.
In dem ersten Satz stellen 'die
Informationen' jedoch
einen anaphorischen Ausdruck dar, und der Satz beschreibt nicht
den Inhalt der Informationen. Die Strafe bezüglich des anaphorischen Ausdrucks ist
das Subtrahieren von 0,5 als Anzahl von Substantiven von der Menge
von neuen Informationen in dem ersten Satz, so daß der Priorität nach der
zweite Satz selektiert werden kann.
-
Als einfaches Beispiel wird die Menge
von neuen Informationen als Anzahl von Substantiven gezählt, die
nicht die im Brennpunkt stehenden Begriffe (im Brennpunkt stehenden
Wörter)
sind, die in einem Satz enthalten sind. Falls 'Tanaka' zum Beispiel ein im Brennpunkt stehendes
Wort ist und die Strafe von 0,5 Substantiven den 'Informationen' auferlegt wird,
beträgt
die Menge von neuen Informationen des ersten Satzes 2,5. Deshalb
enthält
der zweite Satz (der die Menge von neuen Informationen von 3,0 hat)
eine größere Menge
von neuen Informationen, und der zweite Satz wird der Priorität nach selektiert,
wie es später
beschrieben ist. Falls die im Brennpunkt stehenden Wörter bei
diesem Beispiel jedoch 'Tanaka' und 'Shinjuku' sind, enthält der erste Satz
eine größere Menge
von im Brennpunkt stehenden Informationen und wird der erste Satz
ungeachtet der Strafe selektiert.
-
Wenn der Prozeß bei Schritt S128 endet, werden
die Prozesse bei den Schritten S131 bis S136 wiederholt, bis bei
Schritt S130 bestimmt wird, daß die
Selektionskandidatenliste leer wird, nachdem der Prädikatsverband
mit der Menge von neuen Informationen von 0 von der Selektionskandidatenliste
bei Schritt S129 entfernt ist.
-
Bei Schritt S131 wird der Prädikatsverband mit
der größten Menge
von im Brennpunkt stehenden Informationen selektiert, und der Prädikatsverband mit
der größten Menge von
neuen Informationen ist als Ausgabeverband definiert. Bei Schritt
S132 wird der Ausgabeverband von der Selektionskandidatenliste entfernt
und zu der Selektionsresultatsliste hinzugefügt. Falls der Prädikatsverband
zu dieser Zeit einen Verband aufweist, von dem ein anderer abhängt, und
der Verband, von dem ein anderer abhängt, noch nicht zu der Selektionsresultatsliste
hinzugefügt
worden ist, wird dann der Verband, von dem ein anderer abhängt, zu
der Selektionsresultatsliste hinzugefügt. Falls andere Prädikatsverbände mit
der gleichen Menge von Informationen existieren, werden die Prädikatsverbände in der
Regel gleichzeitig hinzugefügt.
Ein alternatives Verfahren zum Selektieren nur eines Verbandes auf
der Basis der Erscheinungsposition eines Prädikatsverbandes, indem zum Beispiel
der Prädikatsverband
selektiert wird, der dem Anfang des zusammenzufassenden Dokumentes
am nächsten
ist, kann eingesetzt werden.
-
Somit wird bei dem Satzselektionsprozeß das Propositionswissenskriterium
als Differenz zwischen Mengen von neuen Informationen verarbeitet. Wenn
es Sätze
mit einer gleichen Menge von im Brennpunkt stehenden Informationen
gibt, wird ein Satz mit der größten Menge
von neuen Informationen selektiert. Falls keine Sätze mit
einer gleichen Menge von im Brennpunkt stehenden Informationen vorhanden
sind, kommt das Propositionswissenskriterium nicht zum Einsatz.
-
Dann wird bei Schritt S133, der in 19 gezeigt ist, ein im
Brennpunkt stehender Begriff, der in einem Ausgabeverband enthalten
ist, das heißt,
der Prädikatsverband,
der zu der Selektionsresultatsliste hinzugefügt wurde, von der Liste von
im Brennpunkt stehenden Begriffen entfernt. Auf der Basis des Resultats
wird die Menge von im Brennpunkt stehenden Informationen für alle in
der Selektionskandidatenliste verbleibenden Prädikatsverbände neu berechnet. Bei Schritt
S134 wird der Prädikatsverband
mit der neu berechne ten Menge von im Brennpunkt stehenden Informationen
von 0 von der Selektionskandidatenliste entfernt. Die Neuberechnung
der Menge von im Brennpunkt stehenden Informationen kann wie oben
beschrieben ausgeführt
werden und kann zum Beispiel auch ausgeführt werden, indem die Beziehung
zwischen dem im Brennpunkt stehenden Begriff und dem Prädikatsverband
zuvor gespeichert wird und die Neuberechnung nur an dem Prädikatsverband
ausgeführt
wird, der den im Brennpunkt stehenden Begriff enthält, der
von der Liste entfernt wurde, und an dem Prädikatsverband, der von dem
zu der Selektionsresultatsliste hinzugefügten Prädikatsverband abhängt.
-
Nach dem Prozeß bei Schritt S134 werden die
Propositionsinformationen, die in dem Ausgabeverband enthalten sind,
das heißt,
der Prädikatsverband,
der bei Schritt S135 zu der Selektionsresultatsliste hinzugefügt wurde,
zu der Liste von bekannten Propositionen hinzugefügt, und
die Neuberechnung der Menge von neuen Informationen wird an allen
in der Selektionskandidatenliste verbleibenden Verbänden ausgeführt. Die
Neuberechnung kann wie oben beschrieben ausgeführt werden, und sie kann zum Beispiel
auch ausgeführt
werden, indem die Beziehung zwischen der Proposition und dem Prädikatsverband
gespeichert wird und die Neuberechnung nur an dem Prädikatsverband
ausgeführt
wird, der die zu der Liste von bekannten Propositionen hinzugefügte Proposition
enthält,
an dem Prädikatsverband,
der zu der Selektionsresultatsliste hinzugefügt wurde, und an dem Prädikatsverband,
der von dem Prädikatsverband
abhängt,
der eine veränderte
Menge von im Brennpunkt stehenden Informationen enthält.
-
Nachdem der Prädikatsverband mit der Menge
von neuen Informationen von 0 von der Selektionskandidatenliste
bei Schritt S136, der in 19 gezeigt
ist, entfernt ist, werden die Prozesse bei Schritt S130 wiederholt,
und der Prozeß endet,
wenn bei Schritt S130 bestimmt wird, daß die Selektionskandidatenliste
leer wird.
-
21 ist
ein Flußdiagramm,
das den Vergleich der Menge von neuen Informationen bei Schritt S131
von 19 zeigt, wenn
die Menge von neuen Informationen in die ersten und zweiten Mengen
von neuen Informationen geteilt wird. Wenn die Menge von neuen Informationen
zwischen dem Kandidatenprädikatsverband
A und dem Kandidatenprädikatsverband
B verglichen wird, wie in 19 gezeigt, wird
bei Schritt S138 bestimmt, welcher der zwei Kandidatenprädikatsverbände eine
größere erste Menge
von neuen Informationen hat. Falls der Prädikatsverband A eine größere erste
Menge als der Prädikatsverband
B hat, wird bestimmt, daß der
Prädikatsverband
A eine größere Menge
von neuen Informationen hat. Falls der Prädikatsverband B eine größere erste
Menge als der Prädikatsverband
A hat, wird bestimmt, daß der
Prädikatsverband
B eine größere Menge
von neuen Informationen hat. Falls die erste Menge von neuen Informationen
zwischen den Prädikatsverbänden A und
B gleich ist, werden bei Schritt S139 die zweiten Mengen von neuen
Informationen verglichen, und der Prädikatsverband mit einer größeren Menge
der zweiten neuen Informationen hat eine größere Menge von neuen Informationen.
Wenn die zwei Prädikatsverbände A und
B eine gleiche Menge der zweiten neuen Informationen haben, wird
bestimmt, daß diese
Prädikatsverbände eine
gleiche Menge von neuen Informationen haben.
-
In der obigen Beschreibung wird die
Strafe nur einem anaphorischen Ausdruck auferlegt. Falls Strafen
den Sätzen
(3) und (4) von den Sätzen
(1) bis (5) auferlegt werden, für
die die oben beschriebene Abhängigkeit
festgelegt wird, kann verhindert werden, daß Wörter ausgegeben werden, die
für den Nutzer
unverständlich
sind. In diesem Fall wird der Prozeß wie in dem Fall ausgeführt, wenn
eine Strafe einem anaphorischen Ausdruck auferlegt wird.
-
Es kann auch der andere Faktor der
Länge eines
Kandidatenverbandes verwendet werden, um zu bestimmen, welcher Kandidatenverband
von jenen mit denselben neuen Informationen in eine Zusammenfassung
aufgenommen werden sollte. Das heißt, falls der Priorität nach ein
kürzerer
Prädikatsverband
von Prädikatsverbänden selektiert
wird, die eine gleiche Menge von im Brennpunkt stehenden Informationen
und neuen Informationen haben, kann bis zu einem gewissen Grade
verhindert werden, daß ein
Wort ausgegeben wird, das für
einen Nutzer unverständlich
ist. Anstelle des Vergleichs der Menge von neuen Informationen kann
ferner das Verhältnis (Häufigkeit
von neuen Informationen) der Menge von neuen Informationen zu der
Länge des
selektierten Prädikatsverbandes
zum Einsatz kommen.
-
Mit der Berechnung der Menge von
neuen Informationen kann verhindert werden, daß ein Wort, das für einen
Nutzer unverständlich
ist, ausgegeben und verarbeitet wird. Ein bekannter Begriff wird
im Grunde genommen als Abhängigkeit
verarbeitet, bezieht sich aber auch auf die Berechnung der Menge von
neuen Informationen auf der Basis des Propositionswissenskriteriums.
Dies ist der Grund dafür,
daß das
Begriffswissenskriterium und das Propositionswissenskriterium als
Nutzerwissenskriterien klassifiziert werden.
-
Oben ist das Verfahren zum Zusammenfassen
eines Dokumentes eingehend beschrieben worden. Unten wird das weitere
Merkmal der vorliegenden Erfindung beschrieben. Gemäß der vorliegenden Erfindung
werden, da die im Brennpunkt des Nutzers stehenden Informationen
und die im Brennpunkt des Autors stehenden Informationen als Kriterien
von im Brennpunkt stehenden Informationen betrachtet werden, wie
oben beschrieben, vom Nutzer gewünschte Informationen
und wich tige Informationen in einem Dokument in eine ausgewogene
Zusammenfassung inkorporiert. Ferner kann auf der Basis der Nutzerwissenskriterien
eine einfache und verständliche
Zusammenfassung erzeugt werden, die ein Begriffswissenskriterium
und ein Propositionswissenskriterium umfaßt.
-
Zusätzlich zu dem oben beschriebenen Merkmal
kann die Länge
einer Zusammenfassung in Abhängigkeit
von der Wichtigkeit eines Dokumentes gemäß der vorliegenden Erfindung
automatisch verändert
werden. Gemäß dem herkömmlichen
Algorithmus zum Erzeugen einer Zusammenfassung wird die Anzahl von
Sätzen
oder Zeichen, die in eine Zusammenfassung aufzunehmen ist, oder
das Verhältnis der
Länge der
Zusammenfassung zu dem Originalsatz in vielen Fällen als Parameter vorgesehen.
Gemäß der vorliegenden
Erfindung kann eine Zusammenfassung mit angemessener Länge in Abhängigkeit
von der Menge von im Brennpunkt stehenden Informationen, die in
einem Dokument erscheinen, erzeugt werden, ohne einen besonderen
Parameter zu spezifizieren. Wenn eine Gruppe von Dokumenten mit
verschiedenen Längen
kollektiv zusammengefaßt
wird, ist es schwierig, einen Parameter zum Beispiel von einem Verhältnis einer
Zusammenfassung angemessen festzulegen. Dieses Merkmal ist ein großer Vorzug.
-
Als nächstes können gemäß der vorliegenden Ausführungsform
die Beschränkungen
hinsichtlich der Länge
einer Zusammenfassung ohne weiteres gesteuert werden. Gemäß der vorliegenden
Ausführungsform
wird kein spezieller Prozeß für die Länge einer
Zusammenfassung berücksichtigt.
Wenn der Länge
einer Zusammenfassung jedoch eine Beschränkung auferlegt wird, ist es
möglich,
die Beschränkung
ohne weiteres zu steuern. Wenn zum Beispiel eine kurze Zusammenfassung
gewünscht wird,
sollte der Prozeß bei
Schritt S130 bei dem Satzselektionsprozeß in 19 abgebrochen werden, bevor die Selektionskandidatenliste
leer wird. Dies wird reali siert, indem Sätze von dem wichtigsten Abschnitt
auf der Basis des Satzselektionsprozesses sequentiell selektiert
werden.
-
Wenn eine lange Zusammenfassung gewünscht wird,
kann eine Zusammenfassung mit angemessener Länge erzeugt werden, indem ein
Satzselektionsprozeß gemäß dem in 19 gezeigten Flußdiagramm
ausgeführt
wird und die Prozesse in dem Flußdiagramm von 19 an den nichtselektierten Abschnitten
wiederholt werden. Da der Verband mit der größten Menge von neuen Informationen
von dem Verband mit der größten Menge
von im Brennpunkt stehenden Informationen bei Schritt S131, der
in 19 gezeigt ist,
selektiert wird, wird der Verband mit der zweitgrößten Menge
von neuen Informationen bei dem zweiten Prozeß als Ausgabeverband selektiert.
Das heißt,
auf der Basis des Propositionswissenskriteriums kann eine Zusammenfassung
mit angemessener Länge
erzeugt werden, indem Nutzen aus dem Merkmal der vorliegenden Erfindung
gezogen wird, daß eine
redundante Ausgabe unterdrückt
wird. Anderenfalls kann eine Zusammenfassung erweitert werden, indem
sequentiell ein stärker
verbundener Abschnitt bei einem Verfahren zum Anordnen aller Substantive
in einer Zusammenfassung, die bei dem vorherigen Selektionsprozeß erhalten
wurde, geholt wird, wenn der Selektionsprozeß wiederholt ausgeführt wird.
-
Die vorliegende Ausführungsform
hat das weitere Merkmal zum einfachen Steuern von anderen Beschränkungen
bezüglich
einer Zusammenfassung. Gemäß der vorliegenden
Ausführungsform können Anforderungen
an eine Zusammenfassung auf der Basis der zwei Arten von Kriterien
beschrieben werden, das heißt,
auf den Kriterien von im Brennpunkt stehenden Informationen und
den Nutzerwissenskriterien, wodurch die Operationen der Dokumentzusammenfassungsvorrichtung
in Abhängigkeit
von verschiedenen Wünschen
einfach erweitert werden.
-
Zum Beispiel können in 3 die Informationen, wie etwa die Nutzervorliebe 16 und
das Nutzerwissen 17, die in dem Speicher gespeichert sind,
unter verschiedenen Aspekten umgeordnet werden, in Abhängigkeit
von dem Wunsch des Nutzers, um die Informationen als Beschränkungen
bezüglich
der Erzeugung einer Zusammenfassung zu verwenden. Falls eine Zusammenfassung
erzeugt wird, indem die im Brennpunkt des Autors stehenden Informationen über zwei
Dokumente in Form von im Brennpunkt des Nutzers stehenden Informationen
zur Verwendung beim Zusammenfassen des gegenseitigen Dokumentes
vorgesehen werden, kann dann eine Proposition, die in den zwei Dokumenten
gemeinsam beschrieben ist, oder eine Proposition, die in einem der
Dokumente beschrieben ist, extrahiert werden, welche auch immer
durch den Autor von einem der Dokumente hervorgehoben wird. Falls
die im Brennpunkt des Autors stehenden Informationen von einem der
zwei Dokumente als im Brennpunkt des Nutzers stehende Informationen
verwendet werden, um das andere Dokument zusammenzufassen, und umgekehrt,
werden die Zusammenfassungen der zwei Dokumente im Brennpunkt des
Autors stehende Informationen beider Dokumente enthalten. Deshalb kann
die erhaltene Zusammenfassung als Vergleichsinformation über ein
Dokument verwendet werden. Somit können verschiedene Wünsche erfüllt werden, ohne
die Basiskonfiguration der Zusammenfassungsvorrichtung zu verändern.
-
Im folgenden ist ein praktisches
Beispiel für das
Erzeugen einer Zusammenfassung unter Einsatz des Dokumentzusammenfassungsverfahrens
gemäß der vorliegenden
Erfindung beschrieben. 22 zeigt
das Resultat der Extraktion einer Kurzfassung als Zusammenfassung
von einer Kurzfassung eines Patentamtsblattes, worauf in [Beschreibung
der verwandten Technik] der vorliegenden Beschreibung verwiesen
wurde, unter Verwendung des folgenden Suchausdrucks und der Überschrift
(Titel der Erfindung).
-
("Zusammenfassung" oder "Kurzfassung" oder "Lesen" oder "Zugriff") und Dokument
-
Der Suchausdruck für die letzte
japanische offengelegte Patentveröffentlichung (Tokkaihei) Nr. 07-44566
wird wie folgt beschrieben.
-
(Zusammenfassung oder
Kurzfassung oder Lesen oder Zugriff) und (Satz oder Text)
-
In 22 ist
der Abschnitt, der in der extrahierten Kurzfassung in [ ] eingeschlossen
ist, ein im Brennpunkt stehendes Wort. Ein charakteristisches Wort
stellt im Brennpunkt stehende Informationen in einem zusammenzufassenden
Dokument dar. Das charakteristische Wort ist eine Teilmenge eines
im Brennpunkt stehenden Wortes, unterscheidet sich aber in der Funktion.
Von im Brennpunkt des Nutzers stehenden Wörtern ist ein Wort, das in
einem Dokument erscheint, für
den Nutzer signifikant, obwohl es keines der Schlüsselwörter für das Dokument
ist.
-
Die Bedingungen zum Erzeugen einer
Zusammenfassung, die in 22 gezeigt
ist, sind unten aufgeführt.
- 1. Ein Substantiv, das in einem Suchausdruck
als im Brennpunkt des Nutzers stehende Information erscheint, sollte
verwendet werden.
- 2. Ein Substantiv, das in einer Überschrift (Titel der Erfindung)
als im Brennpunkt des Autors stehende Information erscheint, sollte
verwendet werden.
- 3. Das Begriffswissenskriterium wird nicht verwendet.
- 4. Ein Substantiv, das in einem selektierten
- Zusammenfassungsabschnitt enthalten ist, sollte als bekannte
Propositionsinformation verwendet werden. Das heißt, die
Anzahl von Substantiven, die in dem Kandidatenprädikatsverband enthalten ist,
aber noch nicht in der Zusammenfassung enthalten ist, ist als Menge
von neuen Informationen definiert (die Anzahl von verschiedenen
Substantiven wird als erste Menge von neuen Informationen bezeichnet,
und die Gesamtanzahl der Substantive wird als zweite Menge von neuen
Informationen bezeichnet).
- 5. Eine Überschrift
(Titel der Erfindung) ist ein wesentliches Ausgabeelement.
-
23 zeigt
ein praktisches Beispiel für
das Erzeugen einer Zusammenfassung zum Erläutern des Effektes des Begriffswissenskriteriums.
Es ist ein Beispiel für
das Erzeugen einer Zusammenfassung eines Wirtschaftsberichtes unter
Verwendung der Überschrift
als im Brennpunkt stehende Information. 23A zeigt eine Zusammenfassung, bei
der das Begriffswissenskriterium bezüglich des thematischen Verbandes 'Hancock' nicht verwendet
wird. 23B zeigt eine
Zusammenfassung, bei der das Begriffswissenskriterium bezüglich des
thematischen Verbandes verwendet wird. Der hinzugefügte Abschnitt, der
auf dem Begriffswissenskriterium basiert, ist unterstrichen.
-
Die Bedingungen zum Erzeugen einer
Zusammenfassung, die in 23 gezeigt
ist, sind unten aufgeführt.
- 1. Im Brennpunkt des Nutzers stehende Informationen
sollten nicht spezifiziert werden.
- 2. Ein Substantiv, das in einer Überschrift als im Brennpunkt
des Autors stehende Information erscheint, sollte verwendet werden.
- 3. Das Begriffswissenskriterium wird in 23A nicht verwendet, wird aber bezüglich eines
thematischen Verbandes in 23B verwendet.
- 4. Ein Substantiv, das in einem selektierten Zusammenfassungsabschnitt
enthalten ist, solle als bekannte Propositionsinformation verwendet
werden. Das heißt,
die Anzahl von Substantiven, die in dem Kandidatenprädikatsver band
enthalten ist, aber noch nicht in der Zusammenfassung enthalten
ist, ist als Menge von neuen Informationen definiert (die Anzahl
von verschiedenen Substantiven wird als erste Menge von neuen Informationen
bezeichnet, und die Gesamtanzahl der Substantive wird als zweite
Menge von neuen Informationen bezeichnet).
- 5. Eine Überschrift
ist ein wesentliches Ausgabeelement.
-
Der in 23 gezeigte Zusammenfassungserzeugungsprozeß ist im
folgenden in weiteren Einzelheiten beschrieben. Die zusammenzufassenden Dokumente,
die in 23 gezeigt sind,
werden wie folgt aufgelistet. In diesen Dokumenten werden Sätze, die
unterstrichene Zeichen enthalten, die mit den folgenden Symbolen
markiert sind, als Zusammenfassung in 23 extrahiert.
- – ein Satz,
der auch in 23A extrahiert
wird (♢)
- – ein
Satz, der in 23B neu
hinzugefügt
wird (★)
-
Apple
Computer wird durch Förderung
der Windows-Kompatibilität umorganisiert.
-
♢ G. Amelio hat die Organisation
der Firma durch das Halbieren der Abweichung der Macintosh-Modelle
reformiert. Als Resultat können
die Entwicklungskosten reduziert werden, und die 3000 Mitarbeiter
sind entlassen worden, wodurch Apple Computer umorganisiert wird.
-
★ Amelio
besetzt wichtige Positionen von Apple Computer mit externen Personen
und setzte den 53jährigen
Ellen Hancock als technischen Vorstand ein, das heißt, als
Spitzenmanager in der Forschungs- und Entwicklungsabteilung. Dies
ist die wichtigste Position bei Apple, die der auf diesem Gebiet
hochgeschätzte
D. Nagel innehatte, bis er Apple verließ und als Manager der AT&T's Bell Laboratories begann.
Es ist eine Überraschung,
daß Hancock,
der 28 Jahre lang für
IBM gearbeitet hat, einen effektiven Mitarbeiter ersetzt hat, der
Erfahrungen mit der Entwicklung von neuen Produkten besaß. Es heißt, daß sich Hancock
mit 6.000 Jungingenieuren und Programmierern bei deren Führung abmühen darf,
da er mit dem Management bei dem Firmenriesen IBM vertraut ist.
Während
IBM einen ungefähren
5-Jahres-Managementplan hat, ändert
Apple seine Managementstrategie je nach Bedarf schnell. Deshalb kann
Hancock eine schwierige Zeit beim Anpassen seines Tempos an den
Rhythmus von Apple durchmachen. Hancock verfügt über einen Master-Abschluß in der
Mathematik, begann 1966 als Programmierer für IBM und wurde auf Grund seiner
ausgezeichneten Managementfähigkeiten
befördert
und 1995 mit etwa einem Drittel des Managements von IBM betraut.
Er kam jedoch mit L. Gerstner nicht besonders gut aus, verließ IBM und
wurde von National Semiconductor als COO berufen. Hancock versuchte lange
Zeit, das Management von IBM von dem Kauf der Notebook-Computer
von Lotus Development durch IBM zu überzeugen, aber dies wurde
bis zum Weggang von Hancock von IBM nicht realisiert. Bei National
Semiconductor sollte Hancock Geschäftsführer als Nachfolger von Amelio
nach dessen Weggang zu Apple werden, aber er verließ National
Semiconductor, weil die Direktion B. Halla von LSI Logic dafür einsetzte. ♢ Da
Hancock jedoch mit Software vertraut ist und eine erfolgreiche Umorganisierung von
Apple von dem in der Entwicklung verzögerten Copland abhängt, ist
Hancock die richtige Person am richtigen Ort. Bei Apple korrigierte
er das Management auf dem Entwicklungssektor und minderte Fehler
von Produkten, und von ihm wird Erfolg beim Verkauf an große Firmen
erwartet.
-
Des weiteren ernannte Amelio Marco
Landi von Texas Instruments als Betriebsvorstand, George Scalise
von Fairchild Semiconductor über
Maxtor Corp., Advanced Microdevices, etc. als Verwaltungsvorstand
und Fred D. Anderson von MAI Systems über Automatic Data Processing
Inc. als Finanzvorstand.
-
Da Spindler, der Vorgänger von
Amelio, die Entwicklung aggressiv fördern wollte, verließ eine große Anzahl.
von wichtigen Leitungsmitgliedern der Entwicklungsabteilungen und
Fachgebiete Apple, und die Mehrzahl von ihnen ging zu Microsoft.
Obwohl S. Capps 15 Jahre lang für
Apple gearbeitet hat und eine Anzahl von beliebten Produkten wie
z. B. den Macintosh, etc., herausbrachte, hat er vor 6 Monaten beschlossen,
Apple zu verlassen, und er verhandelte mit einigen Spekulanten über die
Gründung einer
neuen Firma. Es zeigte sich jedoch, daß er zu viele Ideen offerierte,
woraufhin er das Wagnis aufgab, sich Microsoft anschloß, das heißt, dem
Konkurrenten von Apple, und mit der Entwicklung eines Internet-Tools
und einer neuen Computerschnittstelle von Microsoft begann. Microsoft
plant, Pegasus, welches das Betriebssystem für einen Handcomputer wie etwa
Newton ist, bis Ende dieses Jahres herauszubringen, und Capps arbeitet
zur Erleichterung der Operation mit. W. Smith, der Newton mit Capps
entwickelte, ging auch zu Microsoft. Da Gates eine Schnittstelle
mit noch einfacherer Operation wünscht,
verfolgen sie seine Strategie. Windows ist für sie jedoch neu, und bei Windows
95 gibt es fünf verschiedene
Verfahren zum Ausführen
desselben Prozesses. Deshalb ist es schwierig, die gesamte Operation
zu vereinfachen.
-
Amelio scheint eine vernünftige Maßnahme zu
ergreifen, um Apple erfolgreich umzuorganisieren, aber es wird wenigstens
ein volles Jahr dauern, tun ein sichtbares Resultat vorzuweisen.
Der Absatz von Macintosh hat sich jedoch verlangsamt. Die Verkaufszahlen
von Apple in dem im März
1997 endenden Quartal belaufen sich auf $2,8 Mrd., das heißt, eine
Verringerung um 9,7% gegenüber
dem entsprechenden Vorjahreszeitraum. In der Industrie ist geschätzt worden,
daß die
Anzahl von verkauften Macintosh in dem im Juni endenden Quartal
20% niedriger sein wird. Gemäß der Umfrage
unter 1.000 Personalcomputer-Läden
durch das Umfrageunternehmen Computer Intelligence verlangsamten
sich die Verkaufszahlen im April und Mai in den USA viel gravierender
als die Verkaufszahlen von Apple und verzeichneten einen Rückgang um
29% und 27% im April bzw. Mai gegenüber den entsprechenden Monaten
des letzten Jahres. Die Umsatzwerte gingen tun 31% und 33% im April
bzw. Mai gegenüber
den entsprechenden Monaten des letzten Jahres zurück. Dies
wird teilweise auf die Verlangsamung des Absatzes in der gesamten
Personalcomputerindustrie und auf eine große Rückrufanzahl von defekten Macintosh
in diesem Frühjahr
zurückgeführt. Laut
Merisel Inc. verkauft sich Macintosh jedoch nach wie vor gut. In
der gesamten Personalcomputerindustrie erhöhten sich die Umsätze in April
und Mai jeweils um 10%, und die Verkaufszahlen stiegen um 3%. Ein gravierender
Rückgang
war bei dem Verkauf an große
Firmen zu verzeichnen. Nach Überprüfung von 3.000
Firmen, in denen. Macintosh jeweils ein Viertel bis zu einer Hälfte der
Gesamtanzahl der Personalcomputer ausmacht, wurden von 33% der Firmen
im Februar neue Personalcomputer gekauft, wobei im April jedoch
ein Rückgang
um 14% zu verzeichnen war. Compu USA Inc., die größte Personalcomputerwarenhauskette
in den USA, verzeichnete einen Rückgang
von 50% beim Verkauf von Macintosh, aber der Umsatz von Notebook-Computern
kam auf Grund des Rückrufs
einiger Modelle teilweise zum Stillstand. Wenig Hardware oder Software
von Macintosh wird in Einzelhandelsgeschäften verkauft, da Nutzer diese über Versandbestellfirmen
billiger kaufen können.
Die größte Versandbestellfirma
ist Micro Warehouse mit einem Jahresumsatz von $1,8 Mrd., wovon
die Hälfte
von Macintosh-Hardware
und -Software stammt. Diese Firma bietet Nutzern einen ausgezeichneten
Kundendienst. Wenn eine Bestellung bis 22 Uhr telefonisch oder per
Fax eingeht, wird das bestellte Produkt am nächsten Tag zu einer Liefergebühr von $3
ange liefert. Micro Warehouse verzeichnete eine Umsatzerhöhung von
Macintosh von 60% im Januar, aber die gleichen Umsatzzahlen im Vergleich
zu den Verkäufen
in dem entsprechenden Monat des letzten Jahres.
-
Laut Dataquest hat Macintosh den
größten Anteil
am Multimedia-Markt in der Welt und verzeichnete zahlenmäßig 3.950.000
im Jahr 1995 (2.400.000 im Jahr 1994), gefolgt von Packard Bell mit
3.000.000 (2.950.000 im Jahr 1994), Compag mit 2.900.000 (1.200.000
im Jahr 1994), IBM mit 1.600.000 (800.000 im Jahr 1994), NEC mit 1.500.000
(500.000 im Jahr 1994). Apple besitzt den größten Marktanteil von 22,9%,
gefolgt von 19,2% von Packard Bell, 11,9% von Compaq, 8% von IBM, 4,3%
von NEC, 2,7% von Acer, 0,7% von Escom, 0,6% von Fujitsu, 0,6% von
Highscreen und 29,1% von anderen Verkäufern.
-
Im Mai brachte Apple ein neues Betriebssystem
heraus, das auf einem Chip arbeitet, der in eine Digitalkamera und
andere Bildverarbeitungsvorrichtungen eingebaut wird. Es ist Teil
der QuickTime IC-(image-capture)-Technik und wird als Mehrprogramm-Betriebssystem
für den
Motorola-Chip MPC823 verwendet und enthält eine API zur Bildaufnahme.
Heutzutage konstruieren Hersteller von Digitalkameras einzigartige
ASICs und müssen
eine Schnittstelle für
jede Bildverarbeitungssoftware wie etwa Photoshop für Adobe,
EasyPhoto für
Storm Software, etc., individuell entwickeln. Unter Verwendung von
QuickTime IC können
bei den Herstellern von Digitalkameras solche Jobs wegfallen und
kann der Preis für
Digitalkameras reduziert werden. Apple hat diese Technik mit großen Firmen
entwickelt, die Digitalkameras und Bildverarbeitungsvorrichtungen herstellen,
und wird jetzt durch zehn oder mehr Firmen unterstützt. Unter
Einsatz derselben kann ein Bild von einer Digitalkamera direkt in
das Internet gesendet werden, ohne einen Personalcomputer zu verwenden, können Bilder
durch das Skript in einer Kamera zu verschiedenen Zeiten aufgenommen
werden oder kann ein Photoshop-Filter
betrieben werden.
-
Apple verfolgt eine aktive Strategie
für Macintosh-kompatible
Produkte und plant die Auslieferung der Produkte zu Sommerbeginn.
Eine neue Logikkarte von Macintosh, die intern 'Tanzania' genannt wird, ist skalierbar und billig
und soll eine Firma anlocken, die an der Herstellung von Macintoshkompatiblen
Produkten interessiert ist. Motorola hat die Versuchsproduktion
von Tanzania bereits abgeschlossen und demonstrierte die Produktion.
Tanzania wird für
Modelle der Unter- und Mittelklasse verwendet und sieht Optionen
in breitem Umfang vor. Bis zu 200 MHz von PowerPC603e und 604e können verwendet werden,
und es sind 3 bis 5 PCI-Einbauplätze
vorhanden. Ein Nutzer kann zwischen einer PS/2-Tastatur und einem
ADB-Verbinder und zwischen einer verbesserten IDE (integrated Drive
Electronic) und einem internen SCSI-Festplattenlaufwerk wählen. Zusätzlich zu
Verbindern wie etwa LocalTalk GeoPort, SCSI, etc., brachte Apple
zuerst ein ATADI (AT attachment packet interface) CD-ROM-Laufwerk
heraus. Tanzania kann auch in der Version für einen Standard-Personalcomputer
des manuellen Auswurftyps unter Verwendung eines Intel-Chips zusätzlich zu
einem Diskettenlaufwerk des automatischen Auswurftyps bereitgestellt
werden. Zwei DIMM-Einbauplätze
und zwei SIMM-Einbauplätze
sind vorgesehen, und ein RAM von bis zu 160 MByte kann verwendet
werden, aber tatsächlich
wird ein EDO DRAM verwendet. Hersteller von kompatiblen Produkten können Personalcomputer
unter Einsatz von Tanzania zu Beginn nächsten Jahres liefern. Apple
verfolgt die Macintosh-Lizenzstrategie durch Umstellung von einem
ausschließlich
Macintosh-kompatiblen Produkt auf eine PPCP in drei Stufen. Auf
der ersten Stufe beabsichtigte Apple das Vorsehen eines exklusiv Macintosh kompatiblen
Produktes. 1995 und 1996 realisierten DayStar Digital Inc., Power
Computing Corp. und Umax Computer Corp. den Power Macintosh 7500
und 9500. Umax Computer Corp. wird im Januar 1997 als Resultat der
Angliederung der Abteilung für
Macintosh-kompatible Produkte der Radius Inc. an Umax Data Systems
in Taiwan gegründet. Das
erste Macintoshkompatible Produkt, der SuperMacS900, wird seit Anfang
Juni ausgeliefert und ist so beliebt, daß die Produkte knapp werden und
somit der Auftrag in der Größenordnung
von $10 Millionen binnen eines Monats nicht akzeptiert werden kann.
Die zweite Stufe wird ab Sommer dieses Jahres bis Mitte nächsten Jahres
auf der Basis des Power Macintosh 5400 und der Tanzania-Karte realisiert.
Diese beiden basieren auf der Low End Reference Platform (in letzter
Zeit als MacOS Licensing Design oder kurz MLD bezeichnet). Sie sind
mit verschiedenen Standardlogikschaltungen und peripheren Einheiten
anwendbar und nähern
sich einer PPCP (früher
als common hardware reference platform oder kurz CHRP bezeichnet).
Die PPCP wird konstruiert, um auf verschiedene Betriebssysteme wie
etwa das OS/2, Windows 3.1, UNIX, Solaris, etc., zusätzlich zu
Macintosh anwendbar zu sein. Die dritte Stufe wird ausgeführt, um
eine vollständige
Umstellung auf die PPCP ab Mitte 1997 bis 1998 vorzunehmen.
-
Da die Entwicklung von Copland auf
der Basis von Microkernel auf die Mitte nächsten Jahres ausgedehnt wird,
ist Apple von seiner Ankündigung abgerückt, daß das System
7.5.3 die letzte Verbesserung des Systems ist, bis Copland herauskommt,
und neu verkündet,
daß das
Betriebssystem, das intern Harmony genannt wird und so konstruiert
ist, um einen Teil der neuen Funktionen von Copland zu haben, Ende
dieses Jahres herauskommen soll. Harmony weist eine Verbesserung
bei der Unterstützung für das Internet,
bei der Graphiktechnik von OpenDoc, Cyberdog, QuickTime 2.5, QuickDraw
3D, etc., und bei der Schnittstelle auf, die für Copland erwartet wird. Zusätzlich kann
eine Anzahl von Dateien unter Verwendung von etikettierten Ordnern
herausgesucht und verwaltet werden. Lockheed Martin Missiles and
Space hat 9.500 Macintoshes und betrachtet die Unterstützung für das Internet
und OpenDoc bei Vollendung bis nächstes
Jahr als vorteilhaft.
-
Nutzer können Harmony ohne Veränderung der
gegenwärtigen
Software verwenden, aber Copland erfordert eine Veränderung
der Software in der Software-Firma. Copland wird zur Zeit als System
8 bezeichnet.
-
Im Sommer dieses Jahres wird das
System 7.5.3 ausgetestet, werden die Leistungen von Duo23005 und
PowerBook verbessert und kommt ein System heraus, das intern Buster
heißt.
-
Laut der neuesten Umfrage von Computer Intelligence
InfoCorp. antworteten 87% der Nutzer, die im letzten Jahr einen
Macintosh kauften, daß sie das
nächste
Mal wieder Macintosh kaufen würden. Dies
zeugt von dem höchsten
Grad der Nutzerzufriedenheit mit ihren Personalcomputern. Die Umfrage ergibt
für Dell
Computer 74%, für
Hewlett-Packard 72%, für
Acer 68% und für
Gateway 2000 61%. Die Nutzer, die mit Macintosh zufrieden sind,
mögen das Betriebssystem
von Macintosh, während
die Nutzer, die Personalcomputer verwenden, die mit Intel-Chips versehen
sind, ihre Software angesichts der Software-Kompatibilität nicht
gegen Macintosh eintauschen würden,
obwohl ihnen das Betriebssystem von Macintosh besser gefällt.
-
Spindler, der Vorgänger von
Amelio, haßt
Microsoft durch und durch und würde
sich nicht mit Gates treffen. Andererseits hat Amelio Gates besucht und
um seine Mitarbeit gebeten. Als Resultat hegen sie den Plan, den
Standard und das Produkt für
Multimedia gemeinsam zu nutzen. Wenn sie eine Übereinkunft erreicht haben,
kann die Entwicklungsumgebung von QuickTime von Apple auch für NT einschließlich Windows
95, die Unterstützung
für DirectX
API, etc., verwendet werden. ♢ Wenn sie erfolgreich verhandelt
haben, wird Microsoft QuickTime konstruieren, um in den Internet
Explorer inkorporiert zu werden, und Apple wird seine technische
Unterstützung
von Multimedia für
Windows vorantreiben. Apple ist dazu bereit gewesen, QuickTime in
der Windows-Umgebung zu verwenden, und eine Anzahl von API von DirectX
kann mit QuickTime verwendet werden. Bis jetzt hat QuickTime für Windows
nur das Regenerierungsvermögen.
Jedoch werden 60% vom Video über
das Netz unter Verwendung von OpenDoc erzeugt, und 30% vom Video
werden unter Verwendung des MPEG erzeugt. Unter der Bedingung, daß der MPEG
durch QuickTime gelesen werden kann, läßt Microsoft Realität erkennen.
-
Die Beziehung zwischen den zwei Unternehmen
ist in anderen Punkten verbessert worden. In Europa stellt Apple
BackOffice von Microsoft für
die Server von Advanced Workgroup Solutions zum Verkauf bereit.
Falls der Verkauf in Europa erfolgreich läuft, werden sie dasselbe auch
in den USA versuchen. Die Beziehung zwischen ihnen hat sich so verbessert,
daß Microsoft
die Entwicklung der nächsten Version
von Office 97 für
Macintosh verspricht. Unter den Umständen, daß sich die Nachfrage nach Personalcomputern
verlangsamt hat, ist eine Kooperation zwischen Software- und Hardware-Unternehmen
von gegenseitigem Nutzen.
-
Apple erteilt Microsoft die Lizenz,
nicht nur die QuickTime-Internet-Technik sondern auch QuickTime
VR (virtuelle Realität)
zu nutzen. Die Technik von Microsoft für ActiveMovie ist in der Entwicklung ziemlich
verzögert.
Microsoft hat noch nicht einmal ein Entwicklungs-Kit an eine Software-Firma
verteilt und gibt angeblich die Inkorporation von ActiveMovie in
einen Internet Explorer auf. Apple sollte QuickTime jedoch umschreiben,
um die Unterstützung
für die Medientechnik
von Microsoft wie etwa die API von DirectX zu unterstützen. Apple
unterstützt
die Mehrzahl der API von DirectX. In der API steht Direct3D QuickDraw3D
von Apple gegenüber.
Andererseits verhandelt Intel mit Microsoft wegen der Videotechnik über das
Internet und überzeugt
Microsoft, daß die
verbesserte Videotechnik von Intel viel besser als die Videotechnik
von Apple ist. Bei der Technik von Apple sollte keine kleine Datenmenge
vor der Video-Regenerierung heruntergeladen werden. Bei der verbesserten
Technik von Intel kann ein Video durch die Verbesserung der Komprimierungstechnik
sofort regeneriert werden. Gates verkündete, die Zukunft von Internet
und Intranet falsch vorhergesagt zu haben, und unternimmt jegliche
Anstrengung, um die Verzögerung
des Internet Explorers zu kompensieren.
-
(Ende des zusammenzufassenden
Dokumentes)
-
Ein Substantiv, das in der Überschrift
erscheint, wird als im Brennpunkt stehende Information zur Verwendung
beim Erzeugen einer Zusammenfassung des zusammenzufassenden Dokumentes genutzt.
Das heißt, 'Apple Computer', 'Windows', 'Förderung' und 'umorganisieren' sind im Brennpunkt stehende Wörter. Die
Menge von im Brennpunkt stehenden Informationen wird geteilt in
die Menge der ersten im Brennpunkt stehenden Informationen und der
zweiten im Brennpunkt stehenden Informationen. Die Menge der ersten
im Brennpunkt stehenden Informationen bezeichnet die Anzahl von
verschiedenen im Brennpunkt stehenden Wörtern, und die Menge der zweiten
im Brennpunkt stehenden Informationen bezeichnet eine Gesamtanzahl
von im Brennpunkt stehenden Wörtern.
Die Mengen der ersten und zweiten im Brennpunkt stehenden Informationen werden
wie bei dem Vergleich der Menge von neuen Informationen in 21 verarbeitet.
-
Zwecks einer einfachen Erläuterung
wird die Menge von neuen Informationen durch die Anzahl von Substantiven
(Inhaltswort) ausgedrückt,
die keine im Brennpunkt stehenden Wörter sind, wird die Menge der
ersten neuen Informationen durch die Anzahl von verschiedenen Inhaltswörtern von
Substantiven ausgedrückt
und wird die Menge der zweiten neuen Informationen durch eine Gesamtanzahl
von Inhaltswörtern
von Substantiven ausgedrückt.
-
24 zeigt
das Resultat der Berechnung der Menge von im Brennpunkt stehenden
Informationen und der Menge von neuen Informationen. Die Sätze sind
ab Beginn des oben beschriebenen Dokumentes, das zusammenzufassen
ist, numeriert, und die Menge von Informationen des Satzes, dessen Menge
von im Brennpunkt stehenden Informationen und die Menge von neuen
Informationen sind nicht 0. In einem Satz wird ein im Brennpunkt
stehendes Wort durch das Einschließen in fettgedruckten Klammern
[ ] ausgedrückt,
und ein Inhaltswort eines Substantivs, das kein im Brennpunkt stehendes
Wort ist, als neue Information wird durch das Einschließen in dünngedruckten
Klammern [ ] ausgedrückt.
Die Stellen vor dem Dezimalkomma geben die Anzahl von Unterschieden
an, und die Stellen nach dem Dezimalkomma geben die Gesamtanzahl
von Wörtern an.
Zum Beispiel erscheint im Satz 11 [Hancock] zweimal. Dies gibt an,
daß die
Anzahl von Unterschieden in der Menge von neuen Informationen (Menge
der ersten neuen Informationen) 8 beträgt und die Gesamtanzahl von
Wörtern
(Menge der zweiten neuen Informationen) 9 beträgt.
-
Gemäß dem Resultat der Berechnung
in 24 wird bei Schritt
S131 von 19 der Satz
72 selektiert. Bei Schritt S132 wird der Satz 72 von der Selektionskandidatenliste
entfernt und zu der Selektionsresultatsliste hinzugefügt. Bei
Schritt S133 werden die Wörter 'Windows' und 'Umorganisierung' von der Liste von
im Brennpunkt stehenden Wörtern entfernt,
und die Menge der im Brennpunkt stehenden Informationen wird neu
berechnet. 25 zeigt
die Menge von Informationen nach der Neuberechnung. In 25 wird der Satz 1 bei
Schritt S131 von 19 selektiert
und zu der Selektionsresultatsliste bei Schritt S132 hinzugefügt. Bei
Schritt S133 wird 'Apple
Computer' von der
Liste von im Brennpunkt stehenden Wörtern entfernt, und die Menge
von im Brennpunkt stehenden Informationen wird neu berechnet. Bei
diesem Beispiel enthält
von den Sätzen nur
der Satz 1 'Apple
Computer', und die
Informationsmengen von anderen Sätzen
verändern
sich nicht.
-
Dann wird bei Schritt S131 der Satz
11 selektiert. Bei Schritt S133 wird 'Umorganisierung' von der Liste von im Brennpunkt stehenden
Wörtern
entfernt, und die Liste von im Brennpunkt stehenden Wörtern wird
leer. Falls die Menge der im Brennpunkt stehenden Informationen
neu berechnet wird, sind deshalb die Mengen der im Brennpunkt stehenden
Informationen für
Prädikatsverbände, die
in der Selektionskandidatenliste bleiben, alle 0. Bei Schritt S134
wird der Inhalt der Selektionskandidatenliste leer, wodurch der
Satzselektionsprozeß beendet
wird. 23A zeigt das
bei dem Prozeß erhaltene
Resultat.
-
Unten ist der Prozeß zum Erhalten
des in 23B gezeigten
Resultats beschrieben. Zusätzlich
zu dem in 23A gezeigten
Prozeß wird
der folgende Prozeß ausgeführt.
-
Erstens wird, wenn ein unbekannter
Eigenname in einem thematischen Verband erscheint, eine Abhängigkeit,
bei der ein Satz, der den Eigennamen enthält, der in einem zusammenzufassenden
Dokument zuerst erscheint, mit dem Satz als Satz, von dem ein anderer
abhängt,
festgelegt. Im Falle eines Eigennamen kann jedoch ein förmlicher
Name (bei diesem Beispiel 'Ellen
Hancock' und 'G. Amelio') zuerst verwendet
werden, aber ab dem zweiten und folgenden Auftreten wird oft eine
Abkürzung
verwendet (bei diesem Beispiel 'Hancock' und 'Amelio'). Deshalb wird ein
förmlicher
Name der Abkürzung
gleichgesetzt. Zweitens wird, wenn ein hinweisendes Wort (zum Beispiel 'dies') in einem thematischen
Verband erscheint, eine Abhängigkeit
mit dem unmittelbar vorhergehenden Satz als Satz, von dem ein anderer
abhängt,
festgelegt. Drittens wird, wenn ein Satz, von dem ein anderer abhängt, die
Abhängigkeit
bei den ersten und zweiten Prozessen betrifft, eine Abhängigkeit
für die
nachfolgenden Sätze,
von denen andere abhängen,
auf dieselbe Weise festgelegt.
-
Zuerst werden die ersten bis dritten
Prozesse an dem Satz ausgeführt,
der ein im Brennpunkt stehendes Wort enthält, und eine Abhängigkeit
wird festgelegt. 26 zeigt
die Abhängigkeit.
Zum Beispiel wird eine Abhängigkeit
des Satzes 11 von dem Satz 2 in Hinblick auf 'Hancock' als thematischer Verband in dem Satz
11 festgelegt, und eine Abhängigkeit
des Satzes 2 von dem Satz 1 wird bezüglich 'Amelio' in dem Satz 2 festgelegt. 'Apple' und 'Mcrosoft' in den Sätzen 41
bzw. 72 sind Eigennamen. Jedoch sind es berühmte Firmen und werden in der
folgenden Erläuterung
als dem Nutzer bekannte Begriffe angesehen.
-
Die Berechnung der Menge von Informationen
unter Berücksichtigung
solch einer Abhängigkeit wird
unter Verwendung von Satz 11 als Beispiel erläutert. Die Menge von Informationen
in Satz 11 wird unter Einbeziehung der Menge von Informationen der
Sätze 2
und 1 entsprechend der in (c) von 26 gezeigten
Abhängigkeit
berechnet. Bei diesem Beispiel ist 'Apple' gleichbedeutend mit 'Apple Computer'.
-
27 zeigt
das Resultat der Berechnung. Da der Satz 11 'Umorganisierung' enthält und der Satz 1 'Apple Computer' enthält, beträgt die Menge von
im Brennpunkt stehenden Informationen in Satz 11 2 als Menge der
ersten im Brennpunkt stehenden Informationen, die die Anzahl von
verschie denen Wörtern
angibt, und 4 als Menge der zweiten im Brennpunkt stehenden Informationen,
die die Gesamtanzahl von Wörtern
einschließlich 'Apple' angibt. Die Menge
von neuen Informationen beläuft
sich auf 24 bei der Anzahl von verschiedenen Wörtern und auf 27 bei der Gesamtanzahl.
von Wörtern, 'Apple' und Wiederholungen
von 'Hancock', 'Ellen Hancock', 'G. Amelio', 'Amelio' und 'Entwicklung' ausgenommen.
-
Unter Verwendung des Berechnungsresultats
von 27 wird bei Schritt
S131 von 19 der Satz
11 selektiert. Bei Schritt S132 wird er zusammen mit den Sätzen 1 und
2 von der Selektionskandidatenliste entfernt und zu der Selektionsresultatsliste hinzugefügt. So ist
zum Beispiel der Satz, von dem der Satz 3 abhängt, selektiert worden, und
die Menge von Informationen wird nur für den Satz 3 berechnet, wenn
der Satz 3 als nächster
selektiert wird. Dann werden bei Schritt S133 'Apple Computer' und 'Umorganisierung' von der Liste von im Brennpunkt stehenden
Wörtern
entfernt, wird die Menge von im Brennpunkt stehenden Wörtern berechnet
und sind die Mengen von im Brennpunkt stehenden Informationen in
den Sätzen
3 und 21 0. Das Resultat ist in 28 gezeigt.
-
Auf der Basis des Resultats in 28 wird bei Schritt S131
der Satz 72 selektiert und zu der Selektionsresultatsliste hinzugefügt. Bei
Schritt S133 werden 'Windows' und 'Förderung' von der Liste von im Brennpunkt stehenden
Wörtern
entfernt, und die Liste der im Brennpunkt stehenden Wörter wird
leer, wodurch der Satzselektionsprozeß beendet ist. So wird das
in 23B gezeigte Resultat
erhalten.
-
Zuletzt wird nun die zweite Ausführungsform des
Satzselektionssystems gemäß der vorliegenden Erfindung
erläutert. 29 zeigt einen Algorithmus zum
Extrahieren eines Satzes bei diesem Satzselektionssystem. Dieser
Algorithmus betrifft die Erzeugung von Übersichtsinformationen über Artikel
durch das Extrahieren eines Satzes, der ein Schlüsselwort eines Substantivs
enthält,
unter Verwendung eines Schlüsselwortes
eines Substantivs, das in der Überschrift
von Zeitungsartikeln, Berichten, etc., enthalten ist.
-
30 zeigt
die Entsprechung zwischen den Wörtern
in dem Algorithmus in 29 und
den Wörtern
in dem Flußdiagramm
des Satzselektionsprozesses von 19.
In 19 wird die Menge
von im Brennpunkt stehenden Informationen in die Mengen der ersten
und zweiten Informationen wie in den in 24 gezeigten Beschreibungen geteilt.
-
Verglichen mit 22, in der ein Suchausdruck (Fragesatz)
verwendet wird, ist 29 zum Beispiel
dahingehend verschieden, daß nur
eine Überschrift
verwendet wird. Die Unterschiede zwischen einer Überschrift und einem Fragesatz
sind unten beschrieben. Erstens ist eine Überschrift ein wesentliches
Ausgabeelement, und es werden keine ätze extrahiert, die nur die
Wörter
enthalten, die in der Überschrift
erscheinen, das heißt,
keine Sätze mit
der Menge von neuen Informationen von 0. Zweitens ist ein Fragesatz
(Suchausdruck) nur eine Liste von im Brennpunkt stehenden Wörtern, und
ein Satz, der nur die Wörter
enthält,
die in einem Fragesatz erscheinen, kann extrahiert werden. Das heißt, ein
Fragesatz selbst ist in der Selektionsresultatsliste nicht enthalten,
und die Menge von neuen Informationen ist nicht 0.
-
In 30 ist
die Entsprechung zwischen der Menge von neuen Informationen und
der Gesamtanzahl von Substantiven, die mit einem Schlüsselwort der Überschrift
nicht übereinstimmen,
der Idee nach dasselbe wie das Erhalten der Menge von neuen Propositionen
auf der Basis der Anzahl-Sets von im Brennpunkt stehenden Begriffen
(Schlüsselwörter einer Überschrift)
und den Substantiven in einem Satz. Das heißt, der Vergleich bei (3) wird
an Sätzen
ausgeführt,
die eine gleiche Anzahl von im Brennpunkt stehenden Begriffen enthalten
(genaugenommen, von den im Brennpunkt stehenden Begriffen, die in der
Selektionsresultatsliste noch nicht enthalten sind). Deshalb wird
angegeben, daß ein
Set aus einem im Brennpunkt stehenden Begriff, der noch nicht erschienen
ist, und einem Substantiv gezählt
wird, das kein Begriff ist.
-
Da in 29 nur
die Überschrift
als Quelle eines im Brennpunkt stehenden Begriffs verwendet wird,
ist ein Set von im Brennpunkt stehenden Begriffen in der Überschrift
bereits erschienen. In 19 ist
es in der Selektionsresultatsliste als wesentliches Ausgabeelement
bereits enthalten gewesen. Die Anzahl von Sets von Substantiven
bezüglich
anderer im Brennpunkt stehender Begriffe wird als Produkt aus der
Anzahl von Schlüsselwörtern der Überschrift,
die in einem Satz enthalten sind, und der Anzahl von Substantiven
erhalten, die keine Schlüsselwörter der Überschrift
sind. Falls die Anzahlen der Schlüsselwörter der Überschrift dieselben sind,
werden bei (3) nur die Anzahlen der Substantive verglichen, die
keine Überschriftenschlüsselwörter sind,
um die Anzahl von Sets von Substantiven zu vergleichen.
-
Schließlich wird unten ein Blockdiagramm erläutert, das
die Konfiguration der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung
als Computersystem zeigt, das heißt, ein Computerumgebungsdiagramm. 37. zeigt das Computerumgebungsdiagramm.
In 31 umfaßt das System
eine zentrale Verarbeitungseinheit (CPU) 20, einen Hauptspeicher 21,
eine Hilfsspeichereinheit 22, wie etwa eine Magnetplatte,
eine Eingabe-/Ausgabeeinheit 23, eine Kommunikationssteuereinheit 24 und
eine Medienantriebseinheit 26 zum Antreiben eines tragbaren
Speichermediums 25 wie beispielsweise eine Diskette, etc.
-
In dem Hauptspeicher 21 sind
Programme gespeichert, die dem Zusammenfassungsprozeßcontroller 10 entsprechen,
der in 3 gezeigt ist, dem
Dokumentstrukturanalysator 11, dem morphologischen Analysator 12,
dem Abhandlungsstrukturanalysator 13, dem Satzselektor 14 und
dem Zusammenfassungsformatierer 15. Die Hilfsspeichereinheit 22 speichert
die Nutzervorliebe 16, das Nutzerwissen 17, das
Dokumentzugriffsprotokoll 18 und das Eingangsdokument 19.
-
Jedes der Programme zum Realisieren
des zusammenzufassenden Dokumentes gemäß der vorliegenden Erfindung
kann jedes Programm als Inhalt des tragbaren Speichermediums 25 durch
die Medienantriebseinheit 26 in den Hauptspeicher 21 lesen.
Solche Programme können
auch durch die Kommunikationssteuereinheit 24 in den Hauptspeicher 21 gelesen
werden.
-
Verschiedene Effekte können durch
die oben beschriebenen Merkmale unter Verwendung der Dokumentzusammenfassungsvorrichtung
gemäß der vorliegenden
Erfindung herbeigeführt
werden, wie oben beschrieben. Der erste und wesentliche Effekt ist
der, daß die
Signifikanz (Relevanz) eines Dokumentes ohne weiteres bestimmt werden
kann. Das heißt,
gemäß dem Verfahren
der vorliegenden Erfindung können
sowohl im Brennpunkt des Interesses des Nutzers stehende Informationen
als auch im Brennpunkt des Akzentes des Autors stehende Informationen
für eine
Zusammenfassung extrahiert: werden. Deshalb kann lediglich durch
Lesen der Zusammenfassung ohne weiteres bestimmt werden, wie die im
Brennpunkt des Interesses des Nutzers stehenden Informationen in
einem Dokument verarbeitet werden. Das heißt, die Beziehung zwischen
dem Dokument und dem Zweck des Nutzers kann aus der Zusammenfassung
ohne weiteres bestimmt werden.
-
Der zweite und optionale Effekt ist
der, daß die
Lesbarkeit einer Zusammenfassung verbessert werden kann. Ein Wort,
das für
einen Nutzer unbekannt ist, kann mit einer zusätzlichen Erläuterung
auf der Basis des Begriffswissenskriteriums ausgegeben werden, und
eine redundante Ausgabe kann auf der Basis des Propositionswissenskriteriums
unterdrückt werden.
Als Resultat kann eine prägnante
und lesbare Zusammenfassung erzeugt werden. Auf der Basis der im
Brennpunkt des Nutzers stehenden Informationen kann ferner der Zweck
des Nutzers berücksichtigt
werden und können
für den
Nutzer unnötige
Informationen reduziert werden. Dies trägt auch viel dazu bei, für den Nutzer
eine lesbare Zusammenfassung vorzusehen.