DE69822687T2

DE69822687T2 - Vorrichtung und Verfahren zur Zusammenfassung

Info

Publication number: DE69822687T2
Application number: DE69822687T
Authority: DE
Inventors: Yoshio Nakahara-ku Nakao
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-01-17
Filing date: 1998-01-16
Publication date: 2004-09-23
Anticipated expiration: 2018-01-17
Also published as: EP1338983A3; EP0855660A3; DE69822687D1; EP0855660B1; JP3579204B2; JPH10207891A; EP1338983A2; US6205456B1; EP0855660A2

Description

Hintergrund der Erfindung
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Vorrichtung zum Zusammenfassen eines elektronischen Dokumentes, das in einer natürlichen Sprache geschrieben ist, und ist entwickelt worden, um eine Fülle von herausgesuchten Dokumenten zu selektieren und darauf zuzugreifen und auf den Verwaltungsprozeß einer Fülle von akkumulierten Dokumenten zuzugreifen, diesen umzustrukturieren (wiederholt zu nutzen) und zu unterstützen.
In letzter Zeit sind Dokumente auf elektronischen Medien gespeichert worden, und auf Computern erfolgt unter Verwendung von neuen Dokumentkommunikationsmedien wie beispielsweise dem Internet/Intranet, etc., ein Zugriff auf eine sich explosionsartig vergrößernde Anzahl von Dokumenten und deren wiederholte Nutzung. Unter den Umständen geht die technische Entwicklung mit einer Fülle und einer größeren Auswahl von technischen Dokumenten einher, wodurch die Anzahl der Nachfragen nach Akkumulierung und wiederholter Nutzung einer Fülle von Dokumenten zunimmt.
Bei solch einer Fülle von Dokumenten sollte die Effektivität von jedem Dokument schnell bestimmt werden, um ein zweckdienliches Dokument zu selektieren. Um dies zu erreichen, ist es erforderlich, eine Liste von Dokumenten zusammen mit den Informationen anzuzeigen, die den Inhalt der Dokumente implizieren. Die Informationen zu dem Zweck können ein Titel oder eine Kurzfassung eines Dokumentes sein. Es kann jedoch sein, daß der Titel den Inhalt des Dokumentes praktisch nicht repräsentiert oder daß eine Kurzfassung fehlt. Wenn auf ein Dokument online zugegriffen wird, ist die Anzahl von anzuzeigenden Zeichen begrenzt. Deshalb kann es sein, daß eine Kurzfassung nicht angemessen angezeigt wird, da sie zu viele Zeichen enthält. Somit wird dringend eine Technik zum automatischen Erzeugen einer angemessenen Zusammenfassung gewünscht.
Wenn Dokumente effektiv und wiederholt verwendet werden, sollte eine Fülle von Dokumenten beim Akkumulieren zweckmäßig klassifiziert und angeordnet werden. Dabei ist ein geeignetes Zusammenfassen erforderlich, um den Inhalt eines neuen Dokumentes, das zu klassifizieren ist, schnell zu verstehen, einen Überblick über die Klassifizierung zu erhalten, so daß der Verwalter des akkumulierten Dokumentes das Klassifizierungssystem verbessern kann, und einen Nutzer zu informieren, der mit dem Klassifizierungssystem der jetzigen Klassifizierung nicht vertraut ist.
Das Merkmal der vorliegenden Erfindung ist das Einstellen eines Zusammenfassungsresultats unter Verwendung der Dokumentzusammenfassungsvorrichtung in Abhängigkeit vom Interesse ("im Brennpunkt stehender Begriff") und Wissen ("bekannter Begriff") des Nutzers.
Beschreibung der verwandten Technik
Es hat zwei Hauptverfahren zum Erzeugen der Zusammenfassung eines Dokumentes in der herkömmlichen Dokumentzusammenfassungstechnik gegeben. Das erste Verfahren ist das Erkennen und Extrahieren eines wichtigen Abschnittes in einem Dokument (normalerweise der logischen Elemente eines Dokumentes wie etwa eines Satzes, eines Absatzes, eines Abschnittes, etc., und im folgenden als Satz bezeichnet) und das Erzeugen einer Zusammenfassung. Das zweite Verfahren ist das Vorbereiten eines Informationsmusters, das als Zusammenfassung zu extrahieren ist, und das Bilden einer Zusammenfassung nach dem Extrahieren von Wörtern oder Verbänden in dem Dokument gemäß der Bedingung des Musters oder nach dem Extrahieren von Sätzen gemäß dem Muster. Da das zweite Verfahren mit der vorliegenden Erfindung wenig zu tun hat, wird unten das erste Verfahren beschrieben.
Das erste Verfahren wird weiter in mehrere Unterverfahren unterteilt, und zwar in Abhängigkeit davon, welcher der Schlüssel zur Bewertung der Wichtigkeit eines Satzes ist. Ein typisches Verfahren hängt von Folgendem ab:

1. von dem Auftreten und der Verteilung von Wörtern in einem Dokument; und
2. von der Kohärenzbeziehung zwischen Sätzen und der Position, wo der Satz erscheint.

(Die Wichtigkeit eines Satzes kann auch durch das Syntaxmuster eines Satzes bewertet werden, aber dieses Verfahren wird hier weggelassen, da es die vorliegende Erfindung kaum betrifft.)
Bei dem Verfahren 1, das heißt, bei dem Verfahren, das von dem Auftreten und der Verteilung von Wörtern in einem Dokument abhängt, wird normalerweise zuerst die Wichtigkeit eines Wortes (eines Verbandes) bestimmt, das in einem Dokument enthalten ist, und dann wird die Wichtigkeit des Satzes in Abhängigkeit von der Anzahl von wichtigen Wörtern bewertet, die in dem Satz enthalten sind. Dann kann ein wichtiger Satz selektiert werden und wird eine Zusammenfassung erzeugt. Die Wichtigkeit eines Wortes wird unter Verwendung des Auftretens des Wortes in einem Dokument berechnet, das unter Berücksichtigung der Abweichung des Auftretens des Wortes von dem Auftreten des Wortes in einem gemeinsamen Dokumenten-Set oder der Position gewichtet werden kann, wo das Wort erscheint (ein Wort, das in einem Titel erscheint, wird als wichtiges Wort angesehen, etc.). Normalerweise ist ein im Brennpunkt stehendes Wort (nämlich ein Wort, auf das sich der Brennpunkt richtet) im Japanischen ein unabhängiges Wort (besonders ein Substantiv) und im Englischen ein Inhaltswort. Ein unabhängiges Wort und ein Inhaltswort stellen ein Wort dar, das eine wesentliche Bedeutung hat, wie etwa ein Substantiv, ein Adjektiv, ein Verb, etc., und das von syntaktischen Wörtern, wie etwa einer Präposition, einem Hilfsverb, etc., unterschieden werden kann. Die förmliche Definition eines unabhängigen Wortes im Japanischen impliziert ein Wort, das einen Teil einer unabhängigen Sektion in einem Satz bilden kann. Dies unterscheidet sich ein wenig von der obigen Beschreibung, aber der Zweck des Begrenzens eines im Brennpunkt stehenden Wortes auf ein unabhängiges Wort ist oben beschrieben.
Zum Beispiel wird in folgendem Dokument das Verfahren 1 beschrieben.
In der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 06-259424 "Document Display Apparatus, Document Summarization Apparatus, and Digital Copy Apparatus" und dem folgenden Dokument 1 von demselben Autor wird eine Zusammenfassung erzeugt, indem ein Abschnitt, der eine Anzahl von Wörtern enthält, die in dem Titel enthalten sind, als wichtiger Abschnitt bezüglich des Titels extrahiert wird.
Dokument 1: Masayuki Kameda, "Extraction of Important Keyword and Important Sentence by Pseudo-keyword Correlation Method", offenbart auf dem zweiten Jahrestreffen der Association for Natural Language Processing, S. 97–100, März 1996.
In der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 07-36896 "Document Summarization Method and Apparatus" wird ein Keim für eine wichtige Darstellung auf der Basis der Komplexität (Wortlänge, etc.) der Darstellung (Wort, etc.) in einem Dokument selektiert, und eine Zusammenfassung wird durch Extrahieren eines Satzes erzeugt, der eine größere Anzahl von wichtigen Keimen enthält.
In der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 08-297677 "Automatic Method of Generating Summary of Subject" werden Wörter von Hauptsubjekten in der Ordnung von der höchsten Auftrittshäufigkeit eines Wortes in einem Dokument erkannt und wird eine Zusammenfassung erzeugt, indem ein Satz extrahiert wird, der eine größere Anzahl von wichtigen Subjektwörtern enthält.
In der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 06-215049 "Document Summarization Apparatus" wird eine Zusammenfassung erzeugt, indem ein Satz von einem Satz oder Absatz mit einem Merkmalsvektor, der jenem des gesamten Dokumentes ähnlich ist, nach Anwendung eines Vektorraummodells extrahiert wird, das oft beim Bestimmen der Relevanz zwischen einem Suchresultat und einem Fragesatz verwendet wird. Ein Vektorraummodell bezieht sich auf das Darstellen eines Merkmals eines Dokumentes und eines Fragesatzes unter Verwendung eines Merkmalsvektors, der die Existenz oder das Auftreten eines Wortes in dem Dokument und dem Fragesatz angibt, nachdem jedem Schlüsselwort oder jedem bedeutungstragenden Element eines Wortes eine Dimension (Achse) zugeordnet wurde.
Bei dem Verfahren 2, das von der Kohärenzbeziehung zwischen Sätzen und der Position des Satzes abhängt, wird ein wichtiger Satz selektiert, indem die (relative) Wichtigkeit des Satzes auf der Basis der Konjunktion (auch als Kohärenzbeziehung bezeichnet) von Sätzen wie beispielsweise 'und', 'aber', 'dann', etc., und der Position, wo ein Satz in einem Dokument erscheint, bestimmt wird. Dieses Verfahren ist zum Beispiel beschrieben in der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 07-182373 "Document Information Retrieval Apparatus and Document Retrieval Result Display Method" und in dem folgenden Dokument 2 von demselben Anmelder und in dem Dokument 3 von anderen Anmeldern.
Dokument 2: Kazuo Sumita, Tetsuo Tomono, Kenji Ono und Seiji Miike. "Automatic abstract generation based on document structure analysis and its evaluation as document retrieval presentation function". Transactions of the Institute of Electronics, Information and Communication Engineers, Bd. J78-D-II, Nr. 3, S. 511–519, März 1995 (auf japanisch).
Dokument 3: Kazuhide Yamamoto, Shigeru Masuyama und Shozo Naito. "GREEN: An experimental system generating summary of Japanese editorials by combining multiple discourse characteristics". IPSJ SIG Notes NL-99-3, Information Processing Society of Japan, Januar 1994 (auf japanisch).
Zusätzlich zu der Technik zum Erzeugen einer Zusammenfassung eines gesamten Dokumentes, wie oben beschrieben, gibt es eine Technik zum Darstellen eines im Brennpunkt eines Nutzers stehenden Abschnittes, um die Bestimmung der Effektivität von jedem Dokument zu unterstützen. Als wohlbekannte Techniken werden gern ein Verfahren zum Anzeigen des Umgebungsabschnittes eines herausgesuchten Wortes, das als Schlüsselwort im Kontext (keyword in context: KWIC) bezeichnet wird, und ein ähnliches Verfahren zum Anzeigen der Nachbarschaft eines herausgesuchten Wortes verwendet.
Ferner gibt es ein Verfahren zum Darstellen nur eines spezifischen Abschnittes in Abhängigkeit von dem Zweck eines Nutzers, wie etwa eines Abschnittes, der den Hintergrund einer Studie in einer wissenschaftlichen Arbeit beschreibt, des Leitartikels einer Zeitung, etc. Beispiele für dieses Verfahren sind in der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 07-182373, in dem Dokument 3 und in den Dokumenten 4 und 5 von einem anderen Anmelder be schrieben. Bei diesen Techniken wird jedoch ein Abschnitt, dem eine spezielle Funktion in einer logischen Struktur eines Dokumentes zugeordnet ist, selektiert, indem eine feldspezifische Dokumentkonfiguration und der Wortlaut als Anhaltspunkt verwendet werden. Deshalb wird nicht speziell ein im Brennpunkt des Nutzers stehender Abschnitt (Abschnitt, für den sich der Nutzer interessiert) selektiert, und der Abschnitt, der mit dem im Brennpunkt des Nutzers stehenden Abschnitt eng verbunden ist, kann auch nicht dargestellt werden.
Dokument 4: Noriko Kando. "Functional structure analysis of research articles selected from three specialties: Automatic category assignment." Library and Information Science, Nr. 31, S. 25–38, 1993 (auf japanisch).
Dokument 5: Noriko Kando. "Functional structure analysis of the research articles and its applications." Journal of Japan Society of Library Science, Bd. 40, Nr. 2, S. 49–61, Juni 1994 (auf japanisch).
Die Faktoren zum Verringern der Lesbarkeit einer Zusammenfassung können redundante Darstellungen, dem Nutzer unbekannte Wörter, ungelöste anaphorische Ausdrücke (wie etwa 'es', 'dies', 'jenes'), etc. sein.
Von den oben aufgelisteten Faktoren können redundante Darstellungen durch das Verfahren zum Löschen von überschüssigen modifizierenden Elementen durch die Heuristik verringert werden, und zwar basierend auf den Wortlautcharakteristiken und der Korrelation zwischen modifizierenden Elementen und modifizierten Elementen, einer Distanz zwischen einem modifizierenden Element und einem modifizierten Element. Zum Beispiel präsentiert das oben beschriebene Dokument 3 eine Heuristik zum Löschen des ersten modifizierenden Elementes in dem Fall, wenn zwei oder mehr Elemente ein und dasselbe Substantiv modifizieren, um einen japanischen Zeitungsartikel zusammenzufassen. Das folgende Dokument 6 von denselben Autoren präsentiert eine andere Heuristik zum Löschen einer Einleitung für einen nachfolgenden Artikel in einer Reihe von relevanten Artikeln, falls 70% oder mehr der Substantive in der Einleitung in einer Einleitung für die vorhergehenden Artikel auftreten.
Dokument 6: Takahiro Funasaka, Kazuhide Yamamoto und Shigeru Masuyama. "Relevant newspaper articles summarization by redundancy reduction." IPSJ SIG Notes NL-114-7, Information Processing Society of Japan, Juli 1996 (auf japanisch).
Es ist offensichtlich, daß Definitionen und Beschreibungen von Wörtern, falls vorhanden, in einer Zusammenfassung enthalten sein sollten, um das Problem von unbekannten Wörtern zu lösen.
Für einen anaphorischen Ausdruck wird dessen Beziehungswort herausgesucht, und der anaphorische Ausdruck wird durch das Beziehungswort oder einen Abschnitt ersetzt, der das Beziehungswort enthält, und wird in eine Zusammenfassung einbezogen, so daß die Zusammenfassung leicht verständlich ist. Das Beziehungswort des anaphorischen Ausdrucks kann durch ein Verfahren identifiziert werden, das als Zentrierverfahren bezeichnet wird. Bei diesem Verfahren wird eine Liste von Zentren gebildet, die Elemente (Zentren) eines Satzes umfaßt, die wahrscheinlich Beziehungswörter von anaphorischen Ausdrücken in den nachfolgenden Sätzen sind. Die Wahrscheinlichkeit der Elemente, ein Beziehungswort zu sein, wird hauptsächlich durch dessen syntaktische Rolle in einem Satz berechnet, die etwa ein Subjekt, ein direktes Objekt, etc., sein kann. Dann löst das Verfahren einen anaphorischen Ausdruck durch Selektieren des wahrscheinlichsten Elementes von der Liste mit der Beschränkung der Übereinstimmung von Anzahl, Geschlecht, etc. Bei einem ähnlichen Verfahren wird ein Zentrum auch als Brennpunkt bezeichnet. Bei keiner Technik kann jedoch ein perfektes Resultat erreicht werden. Die Zentrierverfahren sind in den folgenden Dokumenten beschrieben.
Dokument 7: Megumi Kameyama. A property-sharing constraint in centering. In den Unterlagen der 24. Jahresversammlung der Association for Computational Linguistics, S. 200–206, 1986.
Dokument 8: Susan E. Brennan, Marilyn W. Friedman und Carl J. Pollard. A centering approach to pronouns. In den Unterlagen der 25. Jahresversammlung der Association for Computational Linguistics, S. 155–162, 1987.
Gemäß den oben beschriebenen japanischen offengelegten Patentveröffentlichungen (Tokkaihei) Nr. 07-182373 und Nr. 07-44566 "Abstract Generation Apparatus" von denselben Anmeldern wird das Verfahren implementiert, um die Position der Definition eines unbekannten Wortes und eines Beziehungswortes eines anaphorischen Ausdrucks zu bewerten, und eine Hypertext-Verbindung wird auf der Basis des Originalwortes oder eines anaphorischen Ausdrucks festgelegt, wodurch ein Bedürfnis eines Nutzers realisiert wird.
Um ein effektives Dokument von einer Fülle von Dokumenten zu selektieren, ist es wichtig, einen Nutzer darüber zu informieren, wie der Autor eines Dokumentes ein Thema behandelt, das für die vom Nutzer gewünschten Informationen relevant ist. Für einen Nutzer ist es hilfreich, die Relevanz eines Dokumentes zu bestimmen. Bei einem Suchsystem werden vom Nutzer gewünschte Informationen oft als Fragesatz oder Frageausdruck unter Verwendung eines Schlüsselwortes dargestellt. Vom Nutzer gewünschte Informationen werden in solchen Formen jedoch nicht vollständig beschrieben. Ein Dokument, das ein Wort in einem Fragesatz oder einem Frageausdruck enthält, liefert nicht unbedingt die vom Nutzer gewünschten Informationen. Wenn zum Beispiel ein Patentamtsblatt unter Verwendung des Schlüsselwortes 'Übersetzung' durchsucht wird, kann ein Suchresultat eine große Anzahl von Patenten über die Übersetzung von Maschinensprache enthalten, obwohl der Nutzer Informationen über die Patente erhalten möchte, die die Übersetzung von Sätzen in einer natürlichen Sprache betreffen. In diesem Fall kann das Darstellen des Wortes 'Übersetzung' in einem Kontext die Selektion eines Dokumentes korrekt unterstützen. Zu diesen Zwecken kann das oben beschriebene KWIC verwendet werden, aber es ist schwierig, den Ablauf einer Logik zu begreifen, da nur eine physische Nachbarschaft angegeben wird, und eine zweckdienliche prägnante Zusammenfassung kann nicht ohne weiteres erstellt werden.
Unter diesem Gesichtspunkt wird nur die Wichtigkeit eines Satzes in einem Dokument berücksichtigt, wenn durch die herkömmliche Zusammenfassungstechnik bestimmt wird, ob der Satz in eine Zusammenfassung aufgenommen wird oder nicht, wie oben beschrieben. Deshalb wird der Wunsch eines Nutzers nicht beachtet. Als Resultat wird, falls ein Schlüsselwort einem unwichtigen Abschnitt eines Dokumentes entspricht, wie etwa einem Beispiel in einem linguistischen Dokument, ein Nutzer durch eine automatisch erzeugte Zusammenfassung des herausgesuchten Dokumentes verwirrt, da sie nicht den Abschnitt enthält, der für den Wunsch des Nutzers relevant ist.
Im folgenden ist ein weiteres Problem bei dem linguistischen Dokument beschrieben. In einem linguistischen Dokument wird das förmliche Wesen einer Sprache diskutiert, und der Inhalt eines in dem Dokument angegebenen Beispiels muß nichts mit der linguistischen Diskussion zu tun haben. Zum Beispiel ist der japanische Satz "Ein Elefant hat einen langen Rüssel" ein häufig angeführtes linguistisches Bei spiel. Wenn ein Nutzer nach Informationen über Tiere sucht, kann ein Dokument herausgesucht werden, das solche Beispiele enthält. Da das Dokument ein linguistisches Dokument ist, treten wenig Wörter in bezug auf Tiere auf, wenn die Häufigkeit der Wörter in dem Dokument geprüft wird, und es stellt sich heraus, daß 'Elefant' kein wichtiges Wort ist. Falls eine automatisch erzeugte Zusammenfassung als Suchresultat auf der Basis der Häufigkeitsverteilung angezeigt wird, werden solche Beispiele in der Zusammenfassung kaum enthalten sein, wodurch ein Nutzer verwirrt wird. Das heißt, wenn ein Schlüsselwort 'Elefant' eingegeben wird, kann solch ein linguistisches Dokument herausgesucht werden, aber es ist nicht in der Anzeige (in einer automatisch erzeugten Zusammenfassung) eines Suchresultats enthalten, und der Nutzer kann nicht verstehen, warum solch ein Wort herausgesucht werden konnte. Wenn andererseits nur die Nachbarschaft eines Schlüsselwortes angezeigt wird, wird nur ein Beispiel angezeigt, und der Nutzer kann nicht verstehen, worum es in dem Dokument geht, da nur ein Beispielabschnitt angezeigt wird.
Ein anderes Problem bei der herkömmlichen Zusammenfassungstechnik liegt darin, daß keine Einheiten zum Erzeugen einer Zusammenfassung in Abhängigkeit von einem Wissensniveau eines Nutzers aufgenommen werden. Da ein Wissensniveau von jedem Nutzer abhängt, sollten die Definitionen und Beschreibungen für eine Zusammenfassung gemäß dem Wissensniveau hinsichtlich technischer Termini jedes Nutzers erstellt werden. Sonst kann ein Nutzer mit hohem Wissensniveau eine redundante Zusammenfassung vorfinden, während ein Nutzer mit niedrigem Wissensniveau eine schwierige Zusammenfassung kaum verstehen wird.
WO 96/23265A offenbart ein System zum Durchsuchen von verteilten Datenbanken wie etwa das Internet. Dieses Dokument befaßt sich mit einer Zusammenfassungserzeugung, aber das Verfahren, das zur Zusammenfassungserzeugung verwendet wird, stammt von der herkömmlichen Technik "ConText". Deshalb offenbart es keine Technik, bei der sowohl im Brennpunkt des Nutzers als auch im Brennpunkt des Autors stehende Informationen zum Zusammenfassen eines Dokumentes verwendet werden.
JP-A-07-129605 offenbart eine Dokumentdurchsuchungsvorrichtung, die eine Zusammenfassung erweitern kann, um auf eine durch einen Nutzer der Vorrichtung spezifizierte Weise detailliertere Informationen einzubeziehen. Bei diesem Dokument wird dieselbe Technik verwendet, die in der japanischen offengelegten Patentveröffentlichung (Tokkaihei) Nr. 07-182373 offenbart ist, die oben erläutert wurde.
BALL T. et al: 'AN INTERNET DIFFERENCE ENGINE AND ITS APPLICATIONS' DIGEST OF PAPERS OF COMPCON (COMPUTER SOCIETY CONFERENCE) 1996, TECHNOLOGIES FOR THE INFORMATION SUPERHIGHWAY SANTA CLARA, 25.–28. FEB. 1996, Nr. CONF. 41, 25. FEBRUAR 1996, INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS, Seiten 71–76, XP000628466, offenbart ein Tool zum Anzeigen von Abschnitten, das speziell mit einer Durchsicht eines Dokumentes verbunden ist, das typischerweise ein WWW-Dokument ist und täglich durchgesehen wird. Dieses Tool hat nichts mit der Technik zum Erzeugen einer Zusammenfassung des Inhaltes in einem Dokument zu tun.
Zusammenfassung der Erfindung
Die vorliegende Erfindung ist auf das Lösen des Problems gerichtet, daß ein im Brennpunkt des Nutzers stehendes Objekt nicht berücksichtigt wird, wenn eine Zusammenfassung erzeugt wird. Das heißt, die vorliegende Erfindung ist darauf gerichtet, eine Dokumentzusammenfassungsvorrichtung und ein Verfahren zum automatischen Erzeugen einer Zusammenfassung vorzusehen, die für jeden Nutzer geeignet ist, indem der Inhalt der Zusammenfassung in Abhängigkeit von einem im Brennpunkt des Nutzers stehenden Objekt, das heißt, von einem Objekt, für das sich der Nutzer interessiert, und, optional, von einem Wissensniveau des Nutzers eingestellt wird.
Gemäß einem Aspekt der Erfindung ist eine Dokumentzusammenfassungsvorrichtung vorgesehen, zum Zusammenfassen, für einen Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist, zur Unterstützung bei der Verwaltung von Dokumenten, die in computerlesbarer Form verfügbar sind, mit: einem Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten zum Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird; und einem Zusammenfassungserzeugungsmittel zum Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die durch das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten aus dem Dokument extrahiert wurden, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Mit anderen Worten, die Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung umfaßt als Komponenten im Prinzip eine Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten und eine Zusammenfassungserzeugungseinheit. Gemäß im Brennpunkt des Interesses des Nutzers stehenden Informationen und im Brennpunkt des Akzentes des Autors stehenden Informationen extrahiert die Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten einen Abschnitt, der diese zwei Typen von Informationen betrifft, von einem Dokument, das zusammenzufassen ist. Im Brennpunkt des Interesses des Nutzers stehende Informationen sind Informationen, die einen Nutzer interessieren, der die Zusammenfassung eines zusammenzufassenden Dokumentes verwendet. Im Brennpunkt des Akzentes des Autors stehende Informationen sind Informationen, auf die ein Autor die Aufmerksamkeit eines Nutzers lenkt.
Die Zusammenfassungserzeugungseinheit erzeugt eine Zusammenfassung eines zusammenzufassenden Dokumentes auf der Basis eines Extraktionsresultats von der Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten.
Die Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung kann im Prinzip auch so konstruiert sein, um eine Zusammenfassungslesbarkeitsverbesserungseinheit und eine Zusammenfassungserzeugungseinheit als Komponenten zu enthalten. Gemäß Informationen, die dem Nutzer bekannt sind, und Informationen, die durch ein Zugriffsprotokoll bekannt sind, unterscheidet die Zusammenfassungslesbarkeitsverbesserungseinheit diese zwei Typen von Informationen von anderen Informationen und verbessert die Lesbarkeit einer Zusammenfassung, indem ein wichtiger Abschnitt eines zusammenzufassenden Dokumentes selektiert wird. Informationen, die dem Nutzer bekannt sind, sind Informationen in einem zusammenzufassenden Dokument, die ein Nutzer schon kennt. Informationen, die durch ein Zugriffsprotokoll bekannt sind, sind Informationen, die auf der Basis eines dem Nutzer zuvor präsentierten Dokumentes als dem Nutzer bereits bekannte Informationen betrachtet werden.
Die Zusammenfassungserzeugungseinheit erzeugt eine Zusammenfassung eines zusammenzufassenden Dokumentes unter Verwendung eines wichtigen Abschnittes des zusammenzufassenden Dokumentes, der durch die Zusammenfassungslesbarkeitsverbesserungseinheit selektiert wird.
Die Dokumentzusammenfassungsvorrichtung der vorliegenden Erfindung kann ferner so konstruiert sein, um zusätzlich zu einer Zusammenfassungserzeugungseinheit eine Zusammenfassungslesbarkeitsverbesserungseinheit zu enthalten. In diesem Fall selektiert die Zusammenfassungslesbarkeitsverbesserungseinheit einen wichtigen Abschnitt des zusammenzufassenden Dokumentes, wie oben beschrieben, entsprechend dem Extraktionsresultat von der Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten, und die Zusammenfassungserzeugungseinheit erzeugt die Zusammenfassung des zusammenzufassenden Dokumentes auf der Basis des Selektionsresultats der Zusammenfassungslesbarkeitsverbesserungseinheit.
Gemäß einem anderen Aspekt der Erfindung ist ein Dokumentzusammenfassungsverfahren vorgesehen, zum Zusammenfassen, für einen Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist, zur Unterstützung bei der Verwaltung von Dokumenten, die in computerlesbarer Form verfügbar sind, das folgende Schritte umfaßt: Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnit ten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird; und Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die extrahiert wurden und die entsprechenden zwei Typen von im Brennpunkt stehenden Informationen betreffen, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Somit wird bei dem Dokumentzusammenfassungsverfahren gemäß der vorliegenden Erfindung ein Abschnitt, der im Brennpunkt stehende Informationen betrifft, als zentraler Abschnitt einer Zusammenfassung auf der Basis von zwei Typen von im Brennpunkt stehenden Informationen extrahiert, nämlich basierend auf den im Brennpunkt des Interesses des Nutzers stehenden Informationen und den im Brennpunkt des Akzentes des Autors stehenden Informationen. In diesem Fall bestimmen die Kriterien von im Brennpunkt stehenden Informationen, daß ein Abschnitt, der mehr im Brennpunkt stehende Informationen enthält, wichtiger ist.
Durch das Wichten eines der beiden Typen der oben beschriebenen im Brennpunkt stehenden Informationen kann eine Zusammenfassung mit beliebigem zweckdienlichen Inhalt erzeugt werden, und zwar angefangen bei einer Zusammenfassung, die sich auf die im Brennpunkt des Interesses des Nutzers stehenden Informationen konzentriert, bis hin zu einer Zusammenfassung, die sich nur auf ein Dokument konzentriert.
Das Dokumentzusammenfassungsverfahren gemäß der vorliegenden Erfindung kann anders als das oben beschriebene herkömmliche Verfahren so konstruiert sein, um eine Zusammenfassung gemäß zwei Typen von bekannten Informationen zu erzeugen, das heißt, gemäß Informationen, die dem Nutzer bekannt sind, und Informationen, die durch ein Zugriffspro tokoll bekannt sind. Dies zeigt, daß die Zusammenfassung gemäß dem Wissensniveau eines Nutzers erzeugt wird, um die Lesbarkeit der Zusammenfassung basierend auf den Nutzerwissenskriterien zu verbessern.
Die Nutzerwissenskriterien implizieren zwei Kriterien: ein Begriffswissenskriterium (oder Standard) und ein Propositionswissenskriterium. Ein Begriffswissenskriterium ist zum Beispiel ein Kriterium, daß ein Wort (typischerweise ein Substantiv), das in einer Zusammenfassung ausgegeben wird, einem Nutzer bekannt sein sollte. Ein Propositionswissenskriterium ist zum Beispiel ein Kriterium bezüglich einer Kombination von Wörtern, die in einem Dokument gefunden werden, daß eine Proposition (Fakt), die in Kombinationen von Wörtern beschrieben ist, in eine Zusammenfassung in der Ordnung wenigstens einer dem Nutzer bekannten Proposition aufgenommen wird.
Bei dem Dokumentzusammenfassungsverfahren gemäß der vorliegenden Erfindung kann eine Zusammenfassung auch gemäß Kriterien von im Brennpunkt stehenden Informationen sowie Nutzerwissenskriterien erzeugt werden. Somit kann eine Zusammenfassung erzeugt werden, die sowohl die im Brennpunkt des Interesses des Nutzers stehenden Informationen als auch den Inhalt enthält, den der Autor schreiben wollte. Die Zusammenfassung kann ferner gemäß einem Wissensniveau eines Nutzers erzeugt werden.
Gemäß einem weiteren Aspekt der Erfindung ist ein computerlesbares Speichermedium vorgesehen, das ein Programm speichert, das verwendet wird, um einen Computer anzuweisen, das Zusammenfassen eines Dokumentes, das in computerlesbarer Form verfügbar ist, für einen Nutzer zur Unterstützung bei der Verwaltung von Dokumenten zusammenzufassen, die in computerlesbarer Form verfügbar sind, auszuführen, und folgende Funktionen umfaßt: Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird; und Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die extrahiert wurden und die entsprechenden zwei Typen von im Brennpunkt stehenden Informationen betreffen, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Kurze Beschreibung der Zeichnungen
1 zeigt ein erstes Prinzip, das der Gegenstand der vorliegenden Erfindung ist;
2 zeigt ein zweites Prinzip, das bei der vorliegenden Erfindung optional verwendet wird;
3 ist ein Blockdiagramm, das die Konfiguration der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung zeigt;
4 ist ein detailliertes Flußdiagramm, das den Zusammenfassungsprozeß zeigt;
5 ist ein Flußdiagramm, das den Prozeß zum Erzeugen einer Liste von im Brennpunkt stehenden Begriffen bei Schritt S2 von 4 zeigt;
6 ist ein Flußdiagramm, das den Prozeß zum Erzeugen einer Liste von bekannten Propositionen und einer Liste von bekannten Begriffen bei Schritt S4 von 4 zeigt;
7 ist ein Flußdiagramm, das das Hinzufügen zu einer Liste von bekannten Begriffen und einer Liste von bekannten Propositionen bei Schritt S5 von 4 zeigt;
8 ist ein Flußdiagramm, das den Prozeß des Dokumentstrukturanalysators bei Schritt S7 von 4 zeigt;
9 ist ein Flußdiagramm, das den Prozeß der morphologischen Analyse bei Schritt S8 von 4 zeigt;
10 zeigt einen Kandidaten für ein Wort auf japanisch;
11 zeigt einen Kandidaten für ein Wort auf englisch;
12 ist ein Flußdiagramm, das den Prozeß zum Formatieren einer Zusammenfassung bei Schritt S11 von 4 zeigt;
13 ist ein Flußdiagramm, das den Prozeß zum Analysieren der Struktur einer Abhandlung zeigt;
14 zeigt ein Beispiel für ein Resultat einer Syntaxabhandlungsanalyse;
15 zeigt ein Beispiel für eine Darstellung von Anordnungsinformationen unter Verwendung eines Gehäuserahmens;
16 zeigt ein Beispiel für eine Darstellung von Propositionsinformationen durch ein Bedeutungsnetz;
17 zeigt ein Beispiel für die Abhandlungsanalyse eines Prädikatsverbandes;
18 ist ein Flußdiagramm, das die Abhandlungsanalyse auf der Basis des Begriffswissenskriteriums und den Prozeß zum Festlegen einer Strafe zeigt;
19 ist ein detailliertes Flußdiagramm, das den Satzselektionsprozeß zeigt;
20 zeigt den Prozeß zum Berechnen der Menge von neuen Informationen;
21 ist ein Flußdiagramm, das den Prozeß zum Vergleichen der Menge der ersten neuen Informationen mit der Menge der zweiten neuen Informationen zeigt, um die Informationen voneinander zu unterscheiden;
22 zeigt ein Beispiel für ein Resultat der Zusammenfassung der Kurzfassung eines Patentes;
23 zeigt ein Beispiel für eine Zusammenfassung, wobei der Effekt des Begriffswissenskriteriums eines thematischen Verbandes erläutert wird;
24 zeigt ein Resultat der ersten Berechnung der Menge von Informationen zum Erhalten von 23A;
25 zeigt die Menge von Informationen, nachdem ein Satz 72 bei dem in 24 gezeigten Prozeß selektiert worden ist;
26 zeigt die Festlegung einer Abhängigkeit, um ein Resultat des in 23 gezeigten Prozesses zu erhalten;
27 zeigt ein Resultat der Berechnung der Menge von Informationen unter Berücksichtigung der in 26 gezeigten Abhängigkeit;
28 zeigt die Menge von Informationen, nachdem ein Satz 11 bei dem in 27 gezeigten Prozeß selektiert worden ist;
29 zeigt den Algorithmus zum Extrahieren der Übersichtsinformationen als andere Ausführungsform eines Satzselektionssystems;
30 zeigt die Entsprechung von Wörtern zwischen dem in 29 gezeigten Algorithmus und dem in 19 gezeigten Flußdiagramm; und
31 zeigt die Umgebung eines Computers zum Realisieren der Dokumentzusammenfassungsvorrichtung der vorliegenden Erfindung.
Beschreibung der bevorzugten Ausführungsformen
1 und 2 zeigen die Prinzipien der vorliegenden Erfindung. Das heißt, diese Figuren zeigen das Prinzip der Dokumentzusammenfassungsvorrichtung zum Zusammenfassen eines Dokumentes, um die Selektion eines in einer natürlichen Sprache geschriebenen und elektrisch gespeicherten Dokumentes, das Editieren, den Zugriff auf selbiges und dessen Verwaltung zu unterstützen.
1 zeigt das erste Prinzip der vorliegenden Erfindung. In 1 extrahiert eine Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten 1 gemäß im Brennpunkt des Interesses des Nutzers stehenden Informationen (im folgenden einfach als im Brennpunkt des Nutzers stehende Informationen bezeichnet) und im Brennpunkt des Akzentes des Autors stehenden Informationen (im folgenden einfach als im Brennpunkt des Autors stehende Informationen bezeichnet) einen Abschnitt bezüglich der Informationen von einem Dokument, das zusammenzufassen ist. Im Brennpunkt des Nutzers stehende Informationen sind Informationen, die für einen Nutzer von Interesse sind, der eine Zusammenfassung des Dokumentes verwendet. Im Brennpunkt des Autors stehende Informationen sind Informationen, auf die der Autor die Aufmerksamkeit des Nutzers lenken möchte. Eine Zusammenfassungserzeugungseinheit 2 erzeugt eine Zusammenfassung des zusammenzufassenden Dokumentes auf der Basis des Extraktionsresultats der Einheit zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten 1.
2 zeigt das zweite Prinzip, das bei der vorliegenden Erfindung optional verwendet wird. In 2 selektiert eine Zusammenfassungslesbarkeitsverbesserungseinheit 3 gemäß Informationen, die dem Nutzer bekannt sind, und Informationen, die durch ein Zugriffsprotokoll bekannt sind, einen wichtigen Abschnitt in dem zusammenzufassenden Dokument unter Verwendung der zwei Typen von bekannten Informationen als Informationen, die sich von anderen unterscheiden, um die Lesbarkeit der Zusammenfassung zu verbessern. Dem Nutzer bekannte Informationen sind Informationen, die dem Nutzer, der die Zusammenfassung verwendet, bekannt sind. Die Informationen, die durch ein Zugriffsprotokoll bekannt sind, sind Informationen, die auf der Basis des zuvor dem Nutzer präsentierten Dokumentes als dem Nutzer bekannte Informationen angesehen werden. Eine Zusammenfassungserzeugungseinheit 4 erzeugt eine Zusammenfassung des zusammenzufassenden Dokumentes auf der Basis des Selektionsresultats der Zusammenfassungslesbarkeitsverbesserungseinheit 3.
Gemäß der Ausführungsform der vorliegenden Erfindung wird eine Zusammenfassung basierend auf beiden der in 1 und 2 gezeigten zwei Prinzipien erzeugt. In 1 wird ein Abschnitt, der für im Brennpunkt stehende Informationen relevant ist, als Zentrum der Zusammenfassung gemäß zwei Typen von im Brennpunkt stehenden Informationen extrahiert, das heißt, gemäß den im Brennpunkt des Nutzers stehenden Informationen und den im Brennpunkt des Autors stehenden Informationen. In dieser Ausführungsform wird das Zentrum der Zusammenfassung auf der Basis der Kriterien von im Brennpunkt stehenden Informationen bestimmt, daß ein Abschnitt, der ein größeres Volumen von im Brennpunkt stehenden Informationen enthält, wichtiger ist.
Eine Zusammenfassung kann sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt werden, das heißt, mit den Informationen über den Inhalt, den der Autor schreiben wollte. Durch Wichten eines der zwei Typen von im Brennpunkt stehenden Informationen kann eine zweckdienliche Zusammenfassung erzeugt werden, angefangen von einer Zusammenfassung von im Brennpunkt des Nutzers stehenden Informationen bis hin zu einer Zusammenfassung von im Brennpunkt des Autors stehenden Informationen. Anderenfalls können gleichermaßen basierend auf diesen zwei Typen von im Brennpunkt stehenden Informationen die vom Nutzer gewünschten Informationen und der Inhalt, den der Autor schreiben wollte, angemessen extrahiert werden, um eine gewünschte Zusammenfassung zu erzeugen.
In 2 wird eine Zusammenfassung basierend auf zwei Typen von Informationen erzeugt, das heißt, auf den Informationen, die einem Nutzer bekannt sind, und den Informationen, die durch ein Zugriffsprotokoll bekannt sind. Dies zeigt, daß die Zusammenfassung gemäß dem Wissensniveau des Nutzers erzeugt wird und daß die Lesbarkeit der Zusammenfassung verbessert werden kann. Die Wissenskriterien des Nutzers werden verwendet, um die Lesbarkeit zu verbessern. Die Wissenskriterien des Nutzers sind zum Beispiel das Begriffswissenskriterium und das Propositionswissenskriterium.
Das Begriffswissenskriterium gibt an, daß ein Elementarbegriff, der eine Zusammenfassung bildet, besonders ein Elementarbegriff bezüglich eines Themas eines Satzes, bekannt sein sollte. Ein Elementarbegriff ist ein Begriff, der durch ein Wort repräsentiert wird, das in einer Zusammenfassung erscheint. Mit anderen Worten, ein Wort (hauptsächlich ein Substantiv), das in einer Zusammenfassung ausgegeben wird, sollte für den Nutzer verständlich sein. Auf der Basis des Kriteriums ergänzt die vorliegende Erfindung eine Vielzahl von Teilen eines Dokumentes bezüglich eines Wortes, das dem Nutzer nicht vertraut ist.
Das Propositionswissenskriterium (oder Standard) betrifft eine Kombination aus Wörtern, die in einem Dokument erscheinen, und gibt an, daß so viele unbekannte Wortkombinationen (Propositionen) wie möglich in eine Zusammenfassung aufgenommen werden sollten, falls die Menge von im Brenn punkt stehenden Informationen und die Größe einer Zusammenfassung dieselbe ist. Auf der Basis des Kriteriums reduziert die vorliegende Erfindung redundante Informationen in einer Zusammenfassung eines Dokumentes auf solch eine Weise, daß nicht zwei oder mehr Sätze selektiert werden, die ein und derselben Proposition entsprechen. Sie reduziert auch redundante Informationen in einer Zusammenfassung einer Reihe von Dokumenten, wie etwa in einer Reihe von Zeitungsartikeln, die über ein und dasselbe Ereignis berichten, auf solch eine Weise, daß nicht zwei oder mehr Sätze bezüglich ein und desselben Aspektes des Ereignisses selektiert werden.
Das Propositionswissenskriterium weist schwächere Beschränkungen als das Begriffswissenskriterium auf. Während beim Begriffswissenskriterium Sätze unter der Bedingung selektiert werden sollen, daß sie so wenig unbekannte Begriffe wie möglich enthalten, soll beim Propositionswissenskriterium nur ein Satz selektiert werden, der mehr neue Informationen enthält (d. h., Propositionen, die der Nutzer nicht kennt), wenn zwei oder mehr Sätze mit einer fast gleichen Menge von im Brennpunkt stehenden Informationen vorhanden sind.
Somit wird in einer Ausführungsform der vorliegenden Erfindung eine Zusammenfassung auf der Basis der zwei Arten von Kriterien erzeugt, nämlich auf der Basis des Kriteriums der im Brennpunkt stehenden Informationen und des Kriteriums des Wissens des Nutzers.
3 ist ein Blockdiagramm, das die Konfiguration der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung zeigt. In 3 umfaßt die Dokumentzusammenfassungsvorrichtung als Basiskomponenten einen Zusammenfassungsprozeßcontroller 10; einen Dokumentstrukturanalysator 11; einen morphologischen Analysator 12; einen Abhandlungs strukturanalysator 13; einen Satzselektor 14; und einen Zusammenfassungsformatierer 15. Von diesen Komponenten sind der Abhandlungsstrukturanalysator 13 und der Satzselektor 14 Komponenten, die für die vorliegende Erfindung spezifisch sind. In 3 speichert der Speicher der Dokumentzusammenfassungsvorrichtung eine Nutzervorliebe 16, ein Nutzerwissen 17 und ein Dokumentzugriffsprotokoll 18 als Nutzerprofilinformationen. Ein Eingangsdokument (Gruppe) 19 wird in einem anderen Speicher gespeichert.
Die Prozesse, die durch die spezifischsten Komponenten gemäß der vorliegenden Erfindung ausgeführt werden, das heißt, durch den Abhandlungsstrukturanalysator 13 und den Satzselektor 14, sind später in 13 und danach eingehend beschrieben. Unten sind unter Bezugnahme auf 4 bis 12 die Prozesse von anderen Komponenten beschrieben.
Der Zusammenfassungsprozeßcontroller 10 fungiert als Schnittstelle zwischen einem Nutzer und der Dokumentzusammenfassungsvorrichtung und steuert die gesamte Operation der Dokumentzusammenfassungsvorrichtung. Als Schnittstelle zu einem Nutzer empfängt der Zusammenfassungsprozeßcontroller 10 die Informationen, die für den Nutzer im Brennpunkt stehen, das heißt, die im Brennpunkt des Nutzers stehenden Informationen, und eine Eingabe, wie etwa eine Aufforderung zum Erzeugen einer Zusammenfassung, aktiviert einen Prozeß zum Zusammenfassen eines Dokumentes zweckmäßig und gibt an den Nutzer eine resultierende Zusammenfassung aus. Eine typische Form von im Brennpunkt des Nutzers stehenden Informationen ist ein Fragesatz, der von dem Nutzer eingegeben wird, und kann Schlüsselwörter bezüglich gewünschter Informationen oder einen Einleitungssatz umfassen, der in einem Leitfaden für Bücher erscheint.
Was eine Aufforderung zum Erzeugen einer Zusammenfassung betrifft, das heißt, Beschränkungsinformationen bezüg lich der Erzeugung einer Zusammenfassung, werden ein verlangtes Ausgabeelement und andere Steuerinstruktionen durch den Nutzer spezifiziert. Ein verlangtes Ausgabeelement ist ein Element, das in einer Zusammenfassung enthalten sein soll. Andere Steuerinformationen spezifizieren Informationen, die als im Brennpunkt stehende Informationen und bekannte Informationen zu verwenden sind, wie die Informationen zu verwenden sind, eine gewünschte Länge der Zusammenfassung und eine Basiseinheit, aus der eine Zusammenfassung gebildet wird. Die Basiseinheit kann normalerweise ein Satz oder ein Prädikatsverband sein.
Wenn die Dokumentzusammenfassungsvorrichtung verwendet wird, um den Vergleich zwischen einer Vielzahl von Dokumenten zu unterstützen, steuert der Zusammenfassungsprozeßcontroller 10 die Operation von jeder Prozeßeinheit und speichert den Prozeßverlauf. Zuerst extrahiert er im Brennpunkt des Autors stehende Informationen von Dokumenten, die durch das Analysieren von deren Struktur und Inhalt zu vergleichen sind. Dann führt er anschließende Zusammenfassungsprozesse (den Abhandlungsstrukturanalyseprozeß, den Satzselektionsprozeß und den Zusammenfassungsformatierungsprozeß) auf der Basis der vereinigten im Brennpunkt stehenden Informationen aus.
4 ist ein Flußdiagramm, das den Prozeß zeigt, der durch den Zusammenfassungsprozeßcontroller 10 ausgeführt wird. Wenn der Prozeß startet, wie in 4 gezeigt, kann eine Prozeßsteuerinstruktion als Anfrage für eine Prozeßoption bei Schritt S1 eingegeben werden. Die Steuerinstruktion kann einen Fragesatz umfassen, der durch einen Nutzer eingegeben wird, wie in 3 gezeigt, eine Bezeichnung eines verlangten Ausgabeelementes und andere Steuerinformationen.
Von diesen ist der Fragesatz eine typische Form der im Brennpunkt des Nutzers stehenden Informationen, wie oben beschrieben. Andere Steuerinformationen enthalten die Beschränkungsinformationen bezüglich der Erzeugung einer Zusammenfassung wie folgt: Extraktionsbedingungen der im Brennpunkt stehenden und bekannten Informationen, Bestimmungsbedingungen von wesentlichen Ausgabeelementen, usw.
Die Extraktionsbedingungen der im Brennpunkt stehenden und bekannten Informationen umfassen Bestimmungsbedingungen, die die Typen von Dokumentelementen angeben, von denen im Brennpunkt des Autors stehende Informationen extrahiert werden, und Prozeßoptionen, die spezifizieren, ob Nutzerprofilinformationen (Nutzervorliebe, Nutzerwissen und Dokumentzugriffsprotokoll) verwendet werden oder nicht. Die Bestimmungsbedingungen von wesentlichen Ausgabeelementen spezifizieren die Quelle, von der die im Brennpunkt des Autors stehenden Informationen extrahiert werden, und umfassen: eine Liste der logischen Elementtypen von Kapiteln eines Dokumentes, Abschnitten, Überschriften von Tabellen und Abbildungen, dem Inhaltsverzeichnis, Namen von Posten von Verzeichnissen von Termini und Propositionen.
Der Zusammenfassungsprozeßcontroller 10 extrahiert im Brennpunkt des Nutzers stehende Informationen bei den Schritten S2 und S3 auf der Basis einer Eingabe von dem Nutzer und extrahiert bekannte Informationen bei den Schritten S4 und S5. Der Prozeß zum Extrahieren der im Brennpunkt des Autors stehenden Informationen wird bei dem Satzselektionsprozeß durch einen Satzselektor ausgeführt, der später beschrieben ist, das heißt, bei dem Prozeß, der bei Schritt S120 von 19 ausgeführt wird. Bei diesem Prozeß werden die im Brennpunkt des Autors stehenden Informationen von einem Dokumentelement extrahiert, das den Bestimmungsbedingungen bezüglich der Quelle entspricht, von der die im Brennpunkt des Autors stehenden Informationen extrahiert werden.
Bei Schritt S2 wird eine Liste von im Brennpunkt stehenden Begriffen als im Brennpunkt des Nutzers stehende Informationen erzeugt. Zum Beispiel wird die Liste von im Brennpunkt stehenden Begriffen auf der Basis der Nutzervorliebe 16 erzeugt, die in dem Speicher gespeichert ist. Bei diesem Schritt wird auf Aufforderung von einem Nutzer eine Liste von im Brennpunkt stehenden Begriffen auch gemäß der Vorliebe eines anderen Nutzers 16 extrahiert, die in dem Speicher hauptsächlich für einen Gastnutzer gespeichert ist, der keine eigenen Profilinformationen (Nutzervorliebemerkmal, Nutzerwissen und Dokumentzugriffsprotokoll) hat. Der Gastnutzer kann ein Profilinformationsmodell, das seiner Vorliebe und seinem Wissen am nächsten kommt, von den durch das System zuvor vorbereiteten Modellen selektieren. Der Grund dafür, daß der Ausdruck 'Liste von im Brennpunkt stehenden Begriffen' anstelle von 'Liste von im Brennpunkt stehenden Informationen' oder 'Liste von im Brennpunkt stehenden Wörtern' verwendet wird, ist später beschrieben.
Bei Schritt S3 wird der morphologische Analysator 12 aufgerufen, und ein Wort, das in dem durch den Nutzer eingegebenen Fragesatz erscheint, das heißt, ein im Brennpunkt des Nutzers stehendes Wort, wird extrahiert und zu der Liste von im Brennpunkt stehenden Begriffen hinzugefügt. Eine typische Liste von im Brennpunkt stehenden Begriffen ist, wie später beschrieben, eine Liste von Substantiven.
Bei den Schritten S4 und S5 werden bekannte Informationen als Liste von bekannten Begriffen extrahiert, das heißt, als eine Liste von Begriffen, die dem Nutzer bekannt sind, und als Liste von bekannten Propositionen, das heißt, als eine Liste von Propositionen (Fakten, Attribut von etwas, etc.), die dem Nutzer bekannt sind. Bei Schritt S4 werden eine Liste von bekannten Begriffen und eine Liste von bekannten Propositionen gemäß dem Nutzerwissen 17 erzeugt, das in dem Speicher gespeichert ist. Dieser Prozeß ist später unter Bezugnahme auf 6 in weiteren Einzelheiten beschrieben.
Bei Schritt S5 werden ein bekannter Begriff und eine bekannte Proposition von dem Dokumentzugriffsprotokoll 18 extrahiert, das in dem Speicher gespeichert ist. Dieser Prozeß ist später unter Bezugnahme auf 7 in weiteren Einzelheiten beschrieben. Bei den Schritten S4 und S5 können, so wie bei Schritt S2, andere Nutzerprofilinformationen verwendet werden.
Ein bekannter Begriff und eine bekannte Proposition werden im folgenden näher beschrieben. Ein bekannter Begriff bezieht sich auf eine Liste von Inhaltswörtern, wobei jedes Wort eine wesentliche Bedeutung hat. Falls ein Nutzer zum Beispiel weiß, auf welchem Geschäftsgebiet Fujitsu tätig ist, wird dem Nutzer 'Fujitsu' als bekannter Begriff zugeordnet. Falls das zusammenzufassende Dokument beginnt mit: 'Fujitsu ist ein japanischer Computerhersteller, und Fujitsu plant, ...', wird der erste Satz in eine Zusammenfassung aufgenommen, da der Beginn des zweiten Satzes 'Fujitsu' einen anaphorischen Ausdruck impliziert. Da der Computer jedoch ohne weiteres bestimmen kann, daß 'Fujitsu' ein bekannter Begriff ist und der erste Satz nur den Namen der Firma (Definition eines Attributes) vorstellt, wird der erste Satz gemäß der vorliegenden Ausführungsform nicht extrahiert.
Falls solch ein einfaches Verfahren befolgt wird, kann es jedoch Schwierigkeiten geben, wenn das folgende Dokument verarbeitet wird.
'Fujitsu ist ursprünglich ein Hersteller einer Schalteinheit. Jetzt ist es das zweitgrößte Unternehmen auf dem Gebiet von Großrechnern, und viele Menschen kennen Fujitsu als Personalcomputerhersteller. Obwohl eine Anzahl von Leuten über die Beziehung zwischen NTT und Fujitsu erstaunt sein dürfte: sie stehen einander nahe.'
Wenn ein Nutzer Fujitsu zum Beispiel nur als Personalcomputerhersteller kennt, sollte der erste Satz in die Zusammenfassung aufgenommen werden, wenn der dritte Satz darin enthalten ist. Um dies zu vermeiden, muß spezifiziert werden, was der Nutzer über Fujitsu weiß. Zum Beispiel sollte 'Fujitsu ist ein japanischer Computerhersteller', 'Fujitsu stellt Personalcomputer her', etc., mitgeteilt werden. Ferner kann es sein, daß ein Nutzer weiß, daß 'Fujitsu in der Vergangenheit Schalteinheiten hergestellt hat', wobei er aber nicht zu wissen braucht, daß 'Fujitsu Schalteinheiten bis jetzt hergestellt hat' oder daß 'Fujitsu die Herstellung von Schalteinheiten beizubehalten plant'. Somit bedeutet dies, daß die Kenntnis von Propositionen in der vorliegenden Ausführungsform verarbeitet wird.
Daher wird gemäß der vorliegenden Ausführungsform eine Liste von technischen Termini als bekannter Begriff vorgesehen. Ein technischer Terminus ist ein technischer Begriff, und es kann ohne weiteres bestimmt werden, daß er bekannt oder unbekannt ist, solange das Anwendungsgebiet begrenzt ist. Der oben beschriebene einfache Satz oder ein Ausdruck, der dem Inhalt des einfachen Satzes entspricht, wird in verschiedenen Formen dargestellt, wie etwa als Rahmendarstellung als Kenntnis bezüglich einer bekannten Proposition.
Da ein bekannter Begriff 'verwendet wird, wenn bestimmt wird, ob eine komplementäre oder erläuternde Beschreibung erforderlich ist oder nicht, wird der bekannte Begriff für den Abhandlungsstrukturanalysator 13 vorgesehen. Das heißt, wenn ein Abschnitt in eine Zusammenfassung aufgenommen wird, bestimmt der Abhandlungsstrukturanalysator 13, ob andere Abschnitte, die den vorhergehenden Abschnitt erläutern, aufgenommen werden sollten oder nicht. Die Bestimmung hängt davon ab, ob ein Wort ein bekannter Begriff ist oder nicht.
In 4 führt der Zusammenfassungsprozeßcontroller 10 die Prozesse bis zur Extraktion der im Brennpunkt des Nutzers stehenden Informationen und der bekannten Informationen bei den Schritten bis zu S5 aus, und dann analysiert er bei Schritt S6 und danach ein Eingangsdokument und erzeugt eine Zusammenfassung. Diese Prozesse hängen davon ab, ob ein einzelnes Dokument zusammengefaßt wird oder eine Vielzahl von Dokumenten kollektiv zusammengefaßt wird. In jedem Fall basiert der Prozeß auf dem Zusammenfassen eines einzelnen Dokumentes.
Wenn eine Zusammenfassung eines einzelnen Dokumentes erzeugt wird, wird bei Schritt S7 der Dokumentstrukturanalysator 11 aufgerufen, werden die Extraktionsbedingungen bezüglich im Brennpunkt des Autors stehender Informationen. und die Bestimmungsbedingungen bezüglich verlangter Ausgabedokumentelemente vorgesehen und werden abhängigkeitsdefinierte Dokumentstrukturinformationen eines Eingangsdokumentes erzeugt. Dieser Prozeß ist unter Bezugnahme auf 8 eingehend erläutert.
Dann wird bei Schritt S8 der morphologische Analysator 12 aufgerufen, und eine Liste von Wörtern wird erhalten, die in dem Eingangsdokument enthalten sind. Diese Prozesse sind unter Bezugnahme auf 9 eingehend beschrieben.
Als nächstes werden bei Schritt S9 die bei Schritt S7 erhaltenen Dokumentstrukturinformationen, die bei Schritt S8 erhaltene Wortliste und die bei den Schritten S4 und S5 in 4 erhaltene Liste von bekannten Begriffen für den Abhandlungsstrukturanalysator 13 vorgesehen. Der Abhandlungsstrukturanalysator 13 teilt ein Eingangsdokument in Extraktionseinheiten (typischerweise Prädikate), legt die Abhängigkeit fest, das heißt, er legt Beschränkungen, die einem Konzeptwissenskriterium entsprechen, als Abhängigkeit zwischen den Extraktionseinheiten fest.
Bei Schritt S10 werden die Liste der abhängigkeitsdefinierten Extraktionseinheiten, die bei Schritt S9 erhalten wurde, die erhaltene Liste von im Brennpunkt stehenden Begriffen und die Liste von bekannten Propositionen für den Satzselektor 14 vorgesehen. Der Satzselektor 14 selektiert die Extraktionseinheiten, die in eine Zusammenfassung aufzunehmen sind. Bei Schritt S11 werden die selektierten Extraktionseinheiten und die Dokumentstrukturinformationen in dem Zusammenfassungsformatierer 15 formatiert. Der Zusammenfassungsformatierer 15 erzeugt eine Zusammenfassung für den Nutzer, die anzuzeigen ist.
Wenn eine Vielzahl von Dokumenten kollektiv zusammengefaßt wird, werden die Prozesse bei den Schritten S7 und S8 bei Schritt S14 an jedem Dokument ausgeführt, das heißt, es werden Dokumentstrukturinformationen und eine Wortliste erzeugt. Bei Schritt S15 werden im Brennpunkt des Autors stehende Informationen (im Brennpunkt des Autors stehende Wörter) von jedem Dokument extrahiert und vereinigt und zu der Liste von im Brennpunkt stehenden Begriffen hinzugefügt. Wenn die im Brennpunkt des Autors stehenden Informationen extrahiert werden, wird ein Dokumentelement, das bei Schritt S1 als Extraktionsquelle der im Brennpunkt des Autors stehenden Informationen spezifiziert wurde, mit den Dokumentstrukturinformationen verglichen, und ein darin enthaltenes Substantiv wird zum Beispiel als im Brennpunkt stehender Begriff selektiert. Bei Schritt S16 wird eine Liste von Extraktionseinheiten bei Schritt S9 erzeugt, wird eine Extraktionseinheit bei Schritt S10 selektiert und wird eine Zusammenfassung bei Schritt S11 erzeugt. Dann wird eine Zusammenfassung von jedem Dokument erzeugt.
Nach dem Erzeugen der Zusammenfassung bei Schritt S11 oder S16 trägt der Zusammenfassungsprozeßcontroller 10 in das Dokumentzugriffsprotokoll 18 eine Extraktionseinheitsliste ein, die in dem Abschnitt enthalten ist, der dem Nutzer bei Schritt S12 oder S17 als Zusammenfassung präsentiert wird, wonach die erzeugte Zusammenfassung dann bei Schritt S13 dem Nutzer präsentiert wird, womit der Prozeß vollendet ist.
Nun wird ein wichtiger Prozeß, der in 4 gezeigt ist, unter Bezugnahme auf 5 bis 12 beschrieben. 5 ist ein Flußdiagramm, das den Prozeß bei Schritt S2 von 4 zeigt, das heißt, den Prozeß zum Erzeugen einer Liste von im Brennpunkt stehenden Begriffen.
Wenn der Prozeß startet, wie in 5 gezeigt, wird eine Liste von im Brennpunkt stehenden Begriffen als Initialisierung bei Schritt S21 gelöscht und wird ein im Brennpunkt stehender Begriff von der Nutzervorliebe 16, die in dem Speicher akkumuliert wurde, bei Schritt S22 extrahiert und zu der Liste von im Brennpunkt stehenden Begriffen hinzugefügt.
Dann wird bei Schritt S23 bestimmt, ob die Vorliebe 16 eines anderen Nutzers verwendet wird oder nicht. Falls sie nicht verwendet wird, wird der Prozeß sofort beendet. Falls sie verwendet wird, wird bei Schritt S24 bestimmt, ob auf die Vorliebe des anderen Nutzers zugegriffen werden kann oder nicht. Falls auf sie zugegriffen werden kann, wird ein im Brennpunkt stehender Begriff von der akkumulierten Vorliebe 16 des anderen Nutzers bei Schritt S25 extrahiert und zu der Liste von im Brennpunkt stehenden Begriffen hinzugefügt, wodurch der Prozeß beendet wird. Falls nicht darauf zugegriffen werden kann, wird dies dem Nutzer bei Schritt S26 mitgeteilt und endet der Prozeß.
6 ist ein Flußdiagramm, das den Prozeß bei Schritt S4 von 4 zeigt, das heißt, den Prozeß zum Erzeugen einer Liste von bekannten Begriffen und einer Liste von bekannten Propositionen auf der Basis des Nutzerwissens 17. Wenn der Prozeß startet, wie in 6 gezeigt, wird der Inhalt der Liste von bekannten Begriffen als Initialisierung bei Schritt S31 gelöscht, und der bekannte Begriff wird bei Schritt S32 von dem Nutzerwissen 17 extrahiert, das in dem Speicher akkumuliert wurde, und zu der Liste von bekannten Begriffen hinzugefügt.
Dann wird bei Schritt S33 die Liste von bekannten Propositionen als Initialisierung gelöscht, und eine bekannte Proposition wird bei Schritt S34 von dem akkumulierten Nutzerwissen 17 extrahiert und zu der Liste von bekannten Propositionen hinzugefügt.
Bei Schritt S35 wird bestimmt, ob das Wissen 17 eines anderen Nutzers verwendet wird oder nicht. Falls es nicht verwendet wird, wird der Prozeß sofort beendet. Falls es verwendet wird, wird bei Schritt S36 bestimmt, ob auf das Wissen 17 des anderen Nutzers zugegriffen werden kann oder nicht. Falls darauf zugegriffen werden kann, wird bei Schritt S37 ein bekannter Begriff von dem akkumulierten Wissen des anderen Nutzers extrahiert und zu der Liste von bekannten Begriffen hinzugefügt und wird bei Schritt S38 eine bekannte Proposition extrahiert und zu der Liste von bekannten Propositionen hinzugefügt, wodurch der Prozeß beendet wird. Falls bei Schritt S36 auf das Wissen 17 des anderen Nutzers nicht zugegriffen werden kann, wird das dem Nutzer bei Schritt S39 mitgeteilt, wodurch der Prozeß beendet wird.
7 ist ein Flußdiagramm, das den Prozeß bei Schritt S5 von 4 zeigt, das heißt, den Prozeß zum Hinzufügen von dem Dokumentzugriffsprotokoll 18 zu der Liste von bekannten Begriffen und der Liste von bekannten Propositionen. Die Prozesse in 6 und 7 sind ähnlich und unterscheiden sich nur darin, daß die Prozesses bei den Schritten S31 und S33, die in 6 gezeigt sind, nicht ausgeführt werden, das heißt, die Liste von bekannten Begriffen und die Liste von bekannten Propositionen werden nicht gelöscht, und daß in 7 der bekannte Begriff und die bekannte Proposition von dem Dokumentzugriffsprotokoll 18 in dem Speicher extrahiert werden. Deshalb wird die eingehende Erläuterung zu den anderen Prozessen von 7 hier weggelassen.
8 ist ein Flußdiagramm, das den Prozeß bei Schritt S7 von 4 zeigt, das heißt, den Prozeß zum Erzeugen von abhängigkeitsdefinierten Dokumentstrukturinformationen durch den Dokumentstrukturanalysator. Der Dokumentstrukturanalysator 11 empfängt ein zusammenzufassendes Dokument, Bestimmungsbedingungen von Dokumentelementen, von denen die im Brennpunkt des Autors stehenden Informationen extrahiert werden, und die Bestimmungsbedingungen von verlangten Ausgabeelementen von dem Zusammenfassungsprozeßcontroller 10. Dann analysiert der Dokumentstrukturanalysator 11 die Struktur des Dokumentes, gibt den Inhalt des Dokumentes an den morphologischen Analysator 12 aus und sieht die abhängigkeitsdefinierten Dokumentstrukturinformationen für den Abhandlungsstrukturanalysator 13 vor.
Wenn der Prozeß startet, wie in 8 gezeigt, wird eine logische Komponente eines Dokumentes, wie etwa eine Überschrift, ein Körper des Dokumentes, etc., von dem Format des Dokumentes, nämlich Auszeichnungsinformationen, beim Erkennen der logischen Struktur des Eingangsdokumentes bei Schritt S51 erkannt. Der praktische Prozeß hängt von dem Dokumenttyp ab, das heißt, davon, ob ein Dokument ein Klartext ist oder ein strukturiertes Dokument, das mit SGML oder dergleichen ausgezeichnet ist, und ist für die vorliegende Erfindung nicht wesentlich. Deshalb wird die eingehende Erläuterung zu dem Prozeß hier weggelassen.
Bei Schritt S52 wird das führende Element des Dokumentes herausgesucht. Bei Schritt S53 wird bestimmt, ob das Dokumentelement erfolgreich herausgesucht worden ist oder nicht. Im Falle von JA, wird bei Schritt S54 bestimmt, ob das herausgesuchte Dokumentelement den Extraktionsbedingungen der im Brennpunkt stehenden Informationen entspricht oder nicht. Falls es den Extraktionsbedingungen der im Brennpunkt des Autors stehenden Informationen entspricht, wird dem Dokumentelement dann bei Schritt S55 eine Markierung von im Brennpunkt stehenden Informationen zugeordnet, und die Steuerung geht zu dem Prozeß bei Schritt S56 über. Falls bei Schritt S54 den Extraktionsbedingungen nicht entsprochen wird, geht die Steuerung sofort zu dem Prozeß bei Schritt S56 über.
Bei Schritt S56 wird bestimmt, ob das herausgesuchte Dokumentelement den Extraktionsbedingungen bei einem wesentlichen Ausgabeelement entspricht oder nicht. Im Falle von JA, wird dem Dokumentelement eine Markierung einer wesentlichen Ausgabe bei Schritt S57 zugeordnet. Im Falle von NEIN, wird der Prozeß bei Schritt S57 nicht ausgeführt. Dann geht die Steuerung zu dem Prozeß bei Schritt S58 über.
Bei Schritt S58 wird bestimmt, ob das Dokumentelement eine Überschrift, ein einer Überschrift entsprechendes Element oder dergleichen ist, einschließlich einer Überschrift eines Abschnittes oder eines Namens eines Postens von einer Liste. Im Falle von JA, wird bei Schritt S59 ein Dokumentelement in dem Körper entsprechend dem Überschriftenelement erhalten und wird die Abhängigkeit von dem Überschriftenelement festgelegt. Falls das Dokumentelement keine Überschrift ist, wird der Prozeß bei Schritt S59 dann nicht ausgeführt. Danach wird bei Schritt S60 das nächste Doku mentelement herausgesucht, und die Prozesse bei Schritt S53 und danach werden ausgeführt. Wenn bei Schritt S53 bestimmt wird, daß keine Dokumentelemente herausgesucht werden können, endet der Prozeß.
Als Resultat der Festlegung der Abhängigkeit bei Schritt S59 wird eine hier markierte Überschrift für eine Zusammenfassung extrahiert, falls ihr abhängiges Element, das heißt, ein Element in ihrem entsprechenden Körperteil, für eine Zusammenfassung extrahiert wird.
9 ist ein Flußdiagramm, das den morphologischen Analyseprozeß zeigt, der durch den morphologischen Analysator 12 ausgeführt wird. Der morphologische Analysator 12 empfängt den Inhalt eines zusammenzufassenden Dokumentes bei Schritt S8, der in 4 gezeigt ist, erkennt ein Wort, das in dem Inhalt enthalten ist, und gibt den Inhalt des Dokumentes an den Abhandlungsstrukturanalysator 13 in Form einer Wortliste mit Informationen über die Erscheinungsposition eines Wortes und seinen Sprachteil aus. Wenn die im Brennpunkt des Nutzers stehenden Informationen als Fragesatz in einer natürlichen Sprache vorgesehen werden, wird bei Schritt S3 ähnlich eine Wortliste von den im Brennpunkt des Nutzers stehenden Informationen in einer natürlichen Sprache erzeugt.
Wenn der Prozeß startet, wie in 9 gezeigt, wird der Inhalt der Wortliste als Initialisierung bei Schritt S62 gelöscht, und bei Schritt S63 wird der führende Satz herausgesucht. Bei diesem Prozeß wird ein Satz ab Beginn unter Verwendung eines Punktes, etc., als Anhaltspunkt herausgesucht. Bei Schritt S64 wird bestimmt, ob der Satz erfolgreich herausgesucht worden ist oder nicht. Im Falle von JA, wird bei Schritt S65 ein Kandidat für ein Wort, das in dem Satz enthalten ist, unter Verwendung eines Wörterbuchs erhalten.
10 zeigt den Kandidaten für ein japanisches Wort. Da Wörter im Japanischen nicht deutlich abgegrenzt sind, können alle Wörter, die eine Zeichenkette in einem Satz bilden, Kandidaten sein.
11 zeigt einen Kandidaten für ein englisches Wort. Da Wörter normalerweise durch einen Leerraum abgegrenzt sind, wird bei dem Prozeß ein Sprachteil oder jeder Kandidat erhalten.
Bei Schritt S66, der in 9 gezeigt ist, wird eine geeignete Sequenz von Wörtern unter dem Gesichtspunkt der Verbindung von Sprachteilen selektiert. Bei Schritt S67 werden Sprachteile und die Erscheinungspositionen in dem Eingangsdokument entsprechend der selektierten Sequenz von Wörtern zugeordnet, und die Wörter werden zu der Wortliste hinzugefügt. Bei Schritt S68 wird der nachfolgende Satz herausgesucht, und die Prozesse bei Schritt S64 und danach werden wiederholt. Bei Schritt S64 endet der Prozeß, wenn bestimmt wird, daß keine Sätze herausgesucht worden sind.
Die Informationen über die bei Schritt S67 zugeordnete Erscheinungsposition in dem Eingangsdokument verknüpfen die abhängigkeitsdefinierten Dokumentstrukturinformationen, die von dem Dokumentstrukturanalysator 11 ausgegeben werden, mit dem Inhalt der Wortliste und werden durch einen Versetzungswert dargestellt, wobei die Position des führenden Zeichens eines Wortes in einem Dokument, das heißt, der Beginn eines Dokumentes, auf 0 gesetzt wird.
Verschiedene praktische Verfahren bei den Schritten S65 und S66 können als morphologische Analysierverfahren eingesetzt werden, wie etwa das Beispiel in dem folgenden Dokument 9, und die eingehende Erläuterung wird hier weggelassen. Zum Beispiel ist das Verfahren zum Bewerten der Gültigkeit einer Sequenz von Wörtern auf der Basis der Auftrittswahrscheinlichkeit, die unter Verwendung von Trainingsdaten bewertet wird, in dem oben beschriebenen Dokument 6 und dem folgenden Dokument 9 beschrieben.
Dokument 9: Masaaki Nagata. A stochastic Japanese morphological analyzer using a forward-DP backward-A* N-best search algorithm. In Proceedings of COLING '94, S. 201–207, 1994.
Dokument 10: Eugene Charniak. Hidden Markov models and two applications. In Statistical Language Learning, Kapitel 3, S. 37–73. The MIT Press, 1993.
Der Abhandlungsstrukturanalysator 13 führt bei Schritt S9 von 4 den später beschriebenen Abhandlungsstrukturanalyseprozeß unter Verwendung von Dokumentstrukturinformationen, einer Wortliste und einer Liste von bekannten Begriffen aus und gibt eine abhängigkeitsdefinierte Extraktionseinheitsliste mit Beschränkungen, die dem Begriffswissensstandard entspricht, auf dem Satzselektor 14 aus.
Der Satzselektor 14 selektiert eine Einheit, die für eine Zusammenfassung zu extrahieren ist, von der Extraktionseinheitsliste, die von dem Abhandlungsstrukturanalysator 13 ausgegeben wird, gemäß der Liste von im Brennpunkt stehenden Begriffen und der Liste von bekannten Propositionen bei Schritt S10 von 4 und erzeugt eine später beschriebene Selektionsresultatsliste.
Dann werden im Brennpunkt stehende Informationen wie beispielsweise ein Fragesatz in einer natürlichen Sprache für den morphologischen Analysator 12 vorgesehen, und andere im Brennpunkt stehende Informationen werden ohne den morphologischen Analysator 12 direkt für den Satzselektor 14 vorgesehen. Gemäß der vorliegenden Ausführungsform wird die Menge von im Brennpunkt stehenden Informationen, die die Wichtigkeit eines Satzes angibt, in Worteinheiten wie z. B. Substantiven berechnet, wie es später beschrieben ist. Wenn die im Brennpunkt stehenden Informationen als Satz gegeben sind, der in einer natürlichen Sprache geschrieben ist, sollte der Satz in Wörter geteilt werden. Um dies zu erreichen, wird eine Überschrift, die von einem Fragesatz, einem Dokument, etc., herausgesucht wird, dem Satzselektor 14 durch den morphologischen Analysator 12 zugeführt.
Andererseits können die im Brennpunkt des Nutzers stehenden Informationen, die zum Beispiel als Nutzervorliebe 16 akkumuliert werden, in geeigneter Form in dem Speicher nach dem Ausführen einer morphologischen Analyse gespeichert werden. In diesem Fall können die Informationen für den Satzselektor 14 ohne den morphologischen Analysator 12 direkt vorgesehen werden. Obwohl bei der vorliegenden Ausführungsform keine Informationen verwendet werden, die mit einer natürlichen Sprache nichts zu tun haben, kann das Speicherformat in dem Speicher eine Bedeutungsnetzdarstellung, die später beschrieben ist, oder eine Rahmendarstellung sein. Die akkumulierten Informationen sind nicht auf eine einfache natürliche Sprache begrenzt.
Als im Brennpunkt stehende Informationen, die durch den Satzselektor 14 verwendet werden, wird typischerweise eine Liste von Substantiven vorgesehen. Einem stark im Brennpunkt stehenden Substantiv kann ein Gewicht zugeordnet werden, das dem Brennpunktniveau entspricht. Ein unabhängiges Wort (Verb, Adjektiv, etc.), das kein Substantiv ist, kann als im Brennpunkt stehende Information vorgesehen werden, oder als Set aus Substantiv und Verb. In der folgenden Erläuterung ist eine Liste von Substantiven ohne Gewicht als im Brennpunkt stehende Informationen gegeben. Eine Extraktionseinheit (im Grunde genommen ein grammatikalischer Satz bei einem englischen Dokument) wird gemäß der Abhängigkeit von Extraktionseinheiten auf der Basis des Begriffswissenskriteriums selektiert, die bei dem Prozeß festgelegt wird, der durch den Abhandlungsstrukturanalysator 13 ausgeführt wird, sowie auf der Basis von Kriterien von im Brennpunkt stehenden Informationen und des Propositionswissenskriteriums. Deshalb wird die Selektionsresultatsliste angewendet auf das Begriffswissenskriterium erzeugt.
Der Zusammenfassungsformatierer 15 ordnet die Extraktionseinheiten, die durch den Satzselektor 14 selektiert wurden, in der Ordnung an, in der sie in dem Originaldokument erscheinen, und ordnet die Zusammenfassung durch Hinzufügen einer Markierung, die die Existenz eines nicht selektierten Satzes angibt, und durch Einfügen einer Abgrenzung von Absätzen, in ein lesbares Format um. Falls die Abhängigkeit von den Informationen, die durch ein Zugriffsprotokoll bekannt sind, festgelegt wird, kann eine Hypertext-Korrelation festgelegt werden.
12 ist ein Flußdiagramm, das den Prozeß zeigt, der durch den Zusammenfassungsformatierer ausgeführt wird. Wenn der Prozeß startet, wie in 12 gezeigt, wird der Inhalt eines Ausgabepuffers bei Schritt S70 gelöscht. Der Ausgabepuffer wird zum Beispiel durch den Zusammenfassungsprozeßcontroller 10 reserviert, der den Prozeß aufruft, und an den Zusammenfassungsformatierer 15 übergeben, wie es bei Schritt S11 bei dem Prozeßablauf des Zusammenfassungsprozeßcontrollers 10, der in 4 gezeigt ist, beschrieben ist. Der Zusammenfassungsformatierer 15 kann solch einen Puffer auch lokal reservieren.
Dann werden die Daten bei Schritt S71 in einer Extraktionseinheitsliste in der Ordnung sortiert, in der sie in einem Eingangsdokument erscheinen. Bei Schritt S72 wird die Startposition (0) des Dokumentes für die letzte Ausgabeposition eingesetzt. Bei Schritt S73 wird eine leere Extraktionseinheit an dem Ende der Extraktionseinheit als Nachtrag der Extraktionseinheitsliste hinzugefügt. Bei Schritt S74 wird die führende Extraktionseinheit herausgesucht.
Bei Schritt S75 wird bestimmt, ob eine Extraktionseinheit herausgesucht worden ist oder nicht. Da natürlich bestimmt wird, daß sie herausgesucht worden ist, wird bei Schritt S76 ferner bestimmt, ob die Erscheinungsposition der herausgesuchten Extraktionseinheit in dem führenden Eingangsdokument mit der letzten Ausgabeposition übereinstimmt oder nicht. Da die letzte Ausgabeposition die Startposition des Dokumentes bei Schritt S72 ist, sollte ein nichtextrahierter Satz zwischen der Startposition und der herausgesuchten führenden Extraktionseinheit vorhanden sein, falls bestimmt wird, daß die Startposition der Extraktionseinheit nicht mit der letzten Ausgabeposition übereinstimmt. Deshalb wird an den Ausgabepuffer bei Schritt S77 eine Auslassungselementexistenzmarkierung ausgegeben. Die Auslassungselementexistenzmarkierung entspricht normalerweise '...'. Da die Markierung jedoch auch verwendet wird, wenn ein Teil eines Satzes nicht extrahiert worden ist, bezeichnet sie gewöhnlich die Existenz eines nichtextrahierten Elementes (Extraktionseinheit).
Bei Schritt S78 wird nach der letzten Ausgabeposition gesucht, das heißt, nach der ersten Absatzgrenze zwischen der Startposition des Dokumentes und der Position unmittelbar vor der Erscheinungsposition der Extraktionseinheit. Bei Schritt S79 wird bestimmt, ob eine Absatzgrenze detektiert worden ist oder nicht. Falls keine Absatzgrenze detektiert worden ist, wird die erste Erscheinungsposition der herausgesuchten Extraktionseinheit für die letzte Ausgabeposition bei Schritt S80 eingesetzt, und die Prozesse bei Schritt S76 und danach werden wiederholt.
Falls bei Schritt S79 eine Absatzgrenze detektiert worden ist, wird die Position der detektierten Absatzgrenze für die letzte Ausgabeposition bei Schritt S81 eingesetzt, und die Prozesse bei Schritt S76 und danach werden ausgeführt, nachdem bei Schritt S82 eine Absatzmarkierung an den Ausgabepuffer ausgegeben wurde.
Bei diesem Beispiel werden die Prozesse bei den Schritten S81 und S82 ausgeführt und wird eine Absatzmarkierung an den Ausgabepuffer ausgegeben, wenn eine Absatzgrenze zwischen der Startposition des Dokumentes und der Position unmittelbar vor der Erscheinungsposition der herausgesuchten Extraktionseinheit detektiert wird. Nachdem die Prozesse bei den Schritten S81 und S82 an allen Absatzgrenzen zwischen der Startposition des Dokumentes und der Position unmittelbar vor der Erscheinungsposition der herausgesuchten Extraktionseinheit ausgeführt sind, laufen die Schritte S76 bis S82 wie folgt ab: und zwar wird bei Schritt S79 bestimmt, daß keine weiteren Absatzgrenzen detektiert wurden, nähert sich bei Schritt S80 die letzte Ausgabeposition der ersten Erscheinungsposition der herausgesuchten Extraktionseinheiten, wird bei Schritt S76 bestimmt, daß die letzte Ausgabeposition mit der Erscheinungsposition der Extraktionseinheit übereinstimmt und wird bei Schritt S85 die Extraktionseinheit für den Ausgabepuffer angegeben.
Der durch den Zusammenfassungsformatierer 15 ausgeführte Prozeß dient dem Erzeugen einer formatierten Zusammenfassung als Zeichenkette, und die Zusammenfassung wird als Zeichenkette zu einer Quelleneinheit zurückgesendet. Der Inhalt, der bei Schritt S85 an den Ausgabepuffer ausgegeben wird, ist nur der Indikator der Extraktionseinheit, nicht die Erscheinungsposition der Extraktionseinheit.
Nachdem die letzte Erscheinungsposition der bei Schritt S75 herausgesuchten Extraktionseinheiten für die letzte Ausgabeposition bei Schritt S86 eingesetzt ist, wird bei Schritt S87 bestimmt, ob die letzte Ausgabeposition eine Absatzgrenze betrifft oder nicht. Im Falle von JA, wird bei Schritt S88 eine Absatzmarkierung an den Ausgabepuffer ausgegeben. Im Falle von NEIN, werden keine Prozesse ausgeführt. Dann wird bei Schritt S89 die nächste Extraktionseinheit herausgesucht, und die Prozesse bei Schritt S75 und danach werden wiederholt.
Falls bei Schritt S75 bestimmt wird, daß keine Extraktionseinheiten herausgesucht werden können, wird bei Schritt S83 eine leere Nachtrag-Extraktionseinheit herausgesucht, und bei Schritt S84 wird ein Ausgabepuffer zu dem Aufrufenden mit dem Inhalt zurückgesendet, wodurch der Prozeß beendet wird.
Unten ist der Grund für das Hinzufügen einer leeren Extraktionseinheit an ihrer am Ende des Dokumentes festgelegten Erscheinungsposition bei Schritt S73 und das Entfernen der Einheit bei Schritt S83 beschrieben. So können die Absatzgrenzen zwischen der letzten Extraktionseinheit in der Extraktionseinheitsliste und dem Ende des Dokumentes ausgegeben werden.
Eine Absatzgrenze wird bei Schritt S82 oder S88 ausgegeben. Falls keine Extraktionseinheit vorhanden ist, die ihre Erscheinungsposition am Ende des Dokumentes hat, kann dann die Absatzgrenze zwischen der Position der letzten Extraktionseinheit in der Extraktionseinheitsliste und dem Ende des Dokumentes nicht ausgegeben werden, da bei Schritt S75 bestimmt wird, daß keine Extraktionseinheiten herausgesucht werden können, und der Prozeß endet.
Deshalb werden bei Schritt S73 alle Absatzgrenzen bis zum Ende des Dokumentes ausgegeben, indem eine leere Extraktionseinheit mit ihrer am Ende des Dokumentes festgelegten Erscheinungsposition bei Schritt S73 hinzugefügt wird und die Einheit bei Schritt S83 entfernt wird. Die Beschreibung der hinzugefügten Extraktionseinheit ist leer, und für die Zusammenfassung können tatsächlich keine Zeichenketten ausgegeben werden.
Die Nutzervorliebe 16 speichert die Propositionen, an denen Nutzer interessiert sind. Zum Beispiel werden Erläuterungssätze, die bei der Selbstvorstellung eines Nutzers verwendet werden, ein Dokument, an dem ein Nutzer interessiert ist, etc., bei der Nutzervorliebe 16 gespeichert. Sie kann auch Schlüsselwörter speichern, die in solch einem Dokument häufig erscheinen, die Schlüsselwörter und Fragesätze, die bei der Suche durch einen Nutzer oft verwendet werden, etc.
Das Nutzerwissen 17 speichert Informationen, die Nutzern wohlbekannt sind, als dem Nutzer bekannte Informationen. Zum Beispiel speichert es eine Liste von technischen Termini, die durch die Nutzer häufig verwendet werden.
Das Dokumentzugriffsprotokoll 18 akkumuliert den Verlauf des Zugriffs des Nutzers auf Dokumente und Zusammenfassungen.
Das Eingangsdokument (Gruppe) 19 speichert im Grunde ein zusammenzufassendes Dokument und kann normalerweise als beliebiger Typ eines elektronischen Dokumentes erzeugt werden. Praktisch kann die SGML (ISO8879), die die Dokumentstrukturbeschreibungssprache ist, die bei einer elektronischen Veröffentlichung verwendet wird, etc., eingesetzt werden. Die im Brennpunkt des Autors stehenden Informationen, die nach der Erzeugung eines Dokumentes spezifiziert werden, können durch einen Autor oder einen Verwalter des Dokumentes, das dem zusammenzufassenden Dokument entspricht, akkumuliert werden.
Die Nutzervorliebe 16, das heißt, im Brennpunkt des Nutzers stehende Informationen; das Nutzerwissen 17, das heißt, dem Nutzer bekannte Informationen; das Dokumentzugriffsprotokoll 18, das heißt, Informationen, die durch ein Zugriffsprotokoll bekannt sind; und das Eingangsdokument (Gruppe) 19, das heißt, ein zusammenzufassendes Dokument, sind der Inhalt, der in dem Speicher gespeichert wird und durch den Zusammenfassungsprozeßcontroller 10 verwaltet wird und beim Erzeugen einer Zusammenfassung verwendet wird.
Unten sind der Abhandlungsstrukturanalysator 13 und der Satzselektor 14 beschrieben, die charakteristische Komponenten der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung sind. 13 ist ein Flußdiagramm, das die Einzelheiten des Abhandlungsstrukturanalyseprozesses zeigt, der durch den Abhandlungsstrukturanalysator 13 ausgeführt wird.
Der Abhandlungsstrukturanalyseprozeß wird wie in 13 ausgeführt. Der Inhalt eines Dokumentes, das durch den morphologischen Analysator 12 in eine Wortliste konvertiert wurde, wird in Extraktionseinheiten geteilt, um durch den Satzselektor 14 verarbeitet zu werden, und eine Extraktionseinheitsliste mit den geteilten Extraktionseinheiten als Elemente wird erzeugt. Die Selektionsbeschränkungsbedingungen der Extraktionseinheiten, um die Lesbarkeit einer Zusammenfassung zu verbessern, werden als Abhängigkeit zwischen den Extraktionseinheiten gemäß der Liste von bekannten Begriffen, die von dem Zusammenfassungsprozeßcontroller 10 vorgesehen wird, und den Dokumentstrukturinformationen, die von dem Dokumentstrukturanalysator 11 ausgegeben werden, vorgesehen. Die Beschränkungen, um die Lesbarkeit der Zusammenfassung zu verbessern, umfassen die Beschränkungen, die auf dem Begriffswissenskriterium basieren, und die Beschränkungen, die auf der Dokumentstruktur basieren, wobei eine Überschrift ausgegeben wird, die einem extrahierten Satz entspricht.
Da der Prozeß zum Festlegen der Abhängigkeit (Schritt S96) zwischen den Extraktionseinheiten in einem Satz zwischen dem Prozeß zum Teilen eines Satzes in Extraktionseinheiten und dem Prozeß zum Hinzufügen der Extraktionseinhei ten zu der Liste von Prädikatsverbänden als Liste zum Ausgeben der geteilten Extraktionseinheiten eingefügt ist, wie in 13 gezeigt, kann der Satzteilungsprozeß nicht einfach von dem Abhängigkeitsfestlegungsprozeß abgetrennt werden. Der Teilungsprozeß entspricht dem Prozeß zum Heraussuchen des führenden Satzes bei Schritt S92 und dem Prozeß zum Teilen des Satzes in Prädikatsverbände, der von gestrichelten Linien umgeben ist (Schritte S94, S95, S97 bis S100). Der Abhängigkeitsfestlegungsprozeß entspricht den Schritten S96 und S100 bis S105.
Gemäß der unten beschriebenen Ausführungsform wird im Japanischen ein Prädikatsverband als Extraktionseinheit verwendet, während im Englischen ein grammatikalischer Satz als Extraktionseinheit verwendet wird. Der Ausdruck 'Prädikatsverband' wird im folgenden jedoch sowohl für das Japanische als auch für das Englische verwendet. (Sowohl im Japanischen als auch im Englischen kann ein Satz als Extraktionseinheiten verarbeitet werden, wie es später beschrieben ist.) Ein Prädikatsverband ist ein Verband oder eine Wortverbindung, der auf einem Prädikat und einem abhängigen Substantiv (einschließlich eines Subjektes) basiert, und entspricht einem einfachen Satz, der in einem Satz enthalten ist. Ein Prädikat, wie etwa ein Wort eines deklinierbaren Sprachteils im Japanischen und ein Verb im Englischen wird aus einer abhängenden Struktur herausgesucht. Dann wird ein abhängiges Element, ein Prädikat ausgenommen, zu dem herausgesuchten Prädikat hinzugefügt, um einen Prädikatsverband zu bilden. Ein Funktionswort, wie etwa eine Konjunktion, eine Präposition, ein Hilfsverb, etc., wird mit einem unabhängigen Wort (Inhaltswort) unmittelbar vor oder nach dem Funktionswort gruppiert. Ein Modifikationselement, wie etwa ein Adjektiv, das ein Substantiv modifiziert, kann mit einem modifizierten Element gruppiert werden oder kann als unab hängiger Prädikatsverband ausgedrückt werden. Ein unabhängiger Satz sollte jedoch in Abhängigkeit von der Wortlautcharakteristik eines Modifikationselementes oder dem Modifikationstyp bestimmt werden.
Wenn der Prozeß startet, wie in 13 gezeigt, wird der Inhalt der Liste von Prädikatsverbänden, die schließlich zu erzeugen ist, bei Schritt S91 gelöscht. Bei Schritt S92 wird der führende Satz herausgesucht. Bei Schritt S93 wird bestimmt, ob der Satz detektiert worden ist oder nicht. Ein Satz kann von einem Dokument unter Verwendung einer Satzende-Markierung wie etwa eines Punktes detektiert werden, wobei die logische Struktur des Dokumentes berücksichtigt wird, indem zum Beispiel eine Überschrift als ein Satz betrachtet wird, etc.
Falls bestimmt wird, daß ein Satz detektiert worden ist, wird bei Schritt S94 die Struktur der Syntaxabhängigkeit des Satzes analysiert. Es gibt wohlbekannte Verfahren zum Analysieren der Struktur der syntaktischen Abhängigkeit eines Satzes unter Verwendung der Abhängigkeitsgrammatik, der Verbandsstrukturgrammatik, etc. Zum Beispiel bezieht sich das folgende Dokument 10 auf ein Basisverfahren, wie etwa ein Diagrammverfahren, bei dem die Struktur eines Dokumentes auf der Basis der kontextfreien Grammatik effektiv analysiert werden kann.
Dokument 10: James Allen. Basic parsing techniques. In Natural Language Understanding, Kapitel 3, S. 40–78. The Benjamin/Commings Publishing Company, Inc., 1987.
Im folgenden ist die Analyse der Struktur der syntaktischen Abhängigkeit unter Bezugnahme auf 11 beschrieben. 14 zeigt ein Beispiel für das Analyseresultat. In 14 geben Lexika die Entsprechung zwischen dem Wort und dem Sprachteil an, der bei der morphologischen Analyse erhalten wird (Sprachteil wird in abgekürzter Form ausgedrückt). Die 'Umschreibregeln' geben die grammatikalische Regel an, die beim Analysieren der Abhängigkeitsstruktur verwendet wird. Bei der Abhängigkeitsstrukturanalyse werden die Schreibregeln sequentiell angewendet, um einen Parsing-Baum mit dem S zu erhalten, der durch die Ausgabe als Wurzel angegeben wird. Das einfachste Verfahren ist das Anwenden der Regel, daß jeder Abschnitt der Sequenz von Sprachteilen 'SUBSTANTIV VERB ART ADJ SUBSTANTIV' dem rechten Teil ('ART ADJ SUBSTANTIV' bei der Regel 1) entspricht. Dann wird er als linker Teil eingesetzt. Dieser Prozeß wird wiederholt, bis der Gesamtwert von S erhalten wird, und der Prozeß endet (aufsteigendes Verfahren). In einem Satz, der in einer natürlichen Sprache geschrieben ist, ist es jedoch üblich, daß eine Vielzahl von anwendbaren Regeln vorhanden ist, und ein einfaches Verfahren ist nicht effektiv. Deshalb wird in den meisten Fällen das oben beschriebene Diagrammverfahren, etc. verwendet. Bei diesem Beispiel ist es unklar, ob die Regel 1 auf den gesamten Abschnitt 'ART ADJ SUBSTANTIV' bezüglich des Abschnittes 'die japanische Hauptstadt' oder die Regel 2 auf das 'SUBSTANTIV' entsprechend dem letzten Wort 'Hauptstadt' angewendet wird. Jedoch kann am Ende nur erstere S sein. Bei dem Diagrammverfahren, etc., kann solch eine redundante Analyse (Regel 2 bei diesem Beispiel) durch vorheriges Analysieren der Umschreibregeln weggelassen werden.
Im folgenden ist der Grund dafür beschrieben, warum der Prozeß endet, wenn die Analyse der syntaktischen Abhängigkeitsstruktur schließlich ein Resultat von S (Satz) ausgibt. Bei der Analyse der Abhängigkeitsstruktur in der Linguistik ist eine Prozeßeinheit im allgemeinen ein Satz, da ein Satz die größte Einheit einer Sprache ist, deren Konfiguration formal beschrieben werden kann. In der vorliegenden Ausführungsform kann ein Satz ohne weiteres als Einheit erkannt werden, die durch einen Punkt begrenzt ist, und ein Abhängigkeitsstrukturanalyseprozeß kann für jeden Satz ausgeführt werden.
Auf der Basis des Analyseresultats der Struktur der syntaktischen Abhängigkeit wird der bei Schritt S95 herausgesuchte Satz in Prädikatsverbände (einfache Sätze) analysiert.
Welches Verfahren als Verfahren zum Analysieren der Entsprechungsstruktur auch verwendet wird, die Analyse in Prädikatsverbände ist ziemlich kostspielig. Ein langer Satz kann jedoch unter Verwendung von Prädikatsverbänden leicht zusammengefaßt werden. Da ein Bedeutungsprozeß auf höherem Niveau ausgeführt wird, ist eine bekannte Proposition in einem Rahmenformat gegeben, das in 15 gezeigt ist (ein Rahmen bezeichnet ein Set aus einer Kombination aus einem Attributnamen (Schlitznamen) und einem Attributwert (Füller) und ist ein wohlbekanntes Wissensdarstellungsverfahren). Ferner können in der Bedeutungsnetzdarstellung bekannte Propositionsinformationen einfacher mit einer Zusammenfassungseinheit verglichen werden, wie in 16 gezeigt.
In dem in 16 gezeigten Bedeutungsnetz kennzeichnet eine Unterstreichung ein Symbol, das eine Einheit ist, die eine Bedeutung hat, und ein nichtunterstrichenes Wort, dem ein Pfeil folgt, gibt die Beziehung an. In 16 wird ein Symbol im Japanischen ausgedrückt. Zum Beispiel gestattet das vorherige Definieren des englischen Wortes 'mitteilen' als Symbol, das dem japanischen Wort '
' entspricht daß das japanische Wort als Information nicht nur für das Japanische sondern auch für das Englische verwendet werden kann.
Wie oben beschrieben, sollen ein Prädikatsverband und ein Satz als Einheit einer Zusammenfassung selektiv verwendet werden. Wenn eine Zusammenfassung in Satzeinheiten erzeugt wird, kann der Analyseprozeß in Prädikatsverbände, dessen Darstellung in 13 von gestrichelten Linien umgeben ist, das heißt, die Prozesse bei den Schritten S94 bis S102, weggelassen werden. Diese Prozesse enthalten die Analyse in Prädikatsverbände und die Festlegungen der Abhängigkeit zwischen den Prädikatsverbänden.
Im folgenden ist der Abhängigkeitsfestlegungsprozeß beschrieben, der in 13 gezeigt ist. Der Abhängigkeitsfestlegungsprozeß ist der Prozeß, der durch den Abhandlungsstrukturanalysator 13 ausgeführt wird, das heißt, die letztere Hälfte des in 13 gezeigten Prozesses. Dieser Prozeß wird für jeden der Sätze, die durch den Satzteilungsprozeß herausgesucht werden, sequentiell ausgeführt.
Die Abhängigkeit zwischen Dokumentkomponenten wird für den Satz und Verbände (Nebensätze und Verbände) festgelegt, die selbst eine geringe Lesbarkeit aufweisen, aber durch gemeinsames Aufnehmen eines anderen verbundenen Satzes oder eines Verbandes in eine Zusammenfassung lesbarer gemacht werden können. Die Abhängigkeit wird für die folgenden Dokumentkomponenten festgelegt.
(1) Ein Nebensatz in einem Satz
Die Abhängigkeit eines Nebensatzes von einem Hauptsatz wird festgelegt, so daß der Hauptsatz immer dann in eine Zusammenfassung aufgenommen wird, wenn der Nebensatz in eine Zusammenfassung aufgenommen wird.
(2) Ein Satz, der mit einer Konjunktion beginnt
Die Abhängigkeit eines Satzes mit einer Konjunktion wie etwa 'aber' am Anfang von einem vorhergehenden Satz wird festgelegt, so daß der vorhergehende Satz immer dann in eine Zusammenfassung aufgenommen wird, wenn der Satz mit einer Konjunktion in eine Zusammenfassung aufgenommen wird. Diese Festlegung ist effektiv, wenn ein technisches Dokument zusammengefaßt wird, das aus relativ kurzen Sätzen gebildet ist, besonders ein japanischer wissenschaftlicher Artikel.
(3) Ein Satz in einem Körperteil mit einer Überschrift
Die Abhängigkeit eines Satzes in einem Kapitel oder dergleichen von der Überschrift des Kapitels wird festgelegt, so daß die Überschrift immer dann in eine Zusammenfassung aufgenommen wird, wenn einer der Sätze in dem Kapitel in eine Zusammenfassung aufgenommen wird. Diese Festlegung ist effektiv, wenn ein strukturiertes Dokument zusammengefaßt werden soll, das technisches oder praktisches Wissen liefert, besonders um einem Nutzer zu helfen, einige praktische Informationen aus einem Handbuch oder einer Enzyklopädie schnell herauszufinden.
(4) Ein Satz, dessen Subjekt nicht wohlbekannt ist
Die Abhängigkeit eines Satzes, der mit einem ungewohnten Wort beginnt, speziell mit einem technischen Terminus oder einem Eigennamen, wird von dem Satz festgelegt, der das Wort definiert oder beschreibt, so daß der Satz, der das Wort beschreibt, immer dann in eine Zusammenfassung aufgenommen wird, wenn der Satz mit einem ungewohnten Wort in eine Zusammenfassung aufgenommen wird.
Der Satz, der ein ungewohntes Wort beschreibt, kann gefunden werden, indem das erste Auftreten des Wortes geprüft wird oder indem ein Auftreten des Wortes mit unbestimmtem Artikel in der Nähe des Satzes mit dem ungewohnten Wort durch Rückwärtssuche gesucht wird. Da verschiedene Wortformen verwendet werden können, um ein und dieselbe Bedeutung zu haben, sollte auch ein Wort in Form einer Variante geprüft werden, besonders in dem Fall, wenn das ungewohnte Wort ein Akronym oder ein anderer Abkürzungstyp ist.
(5) Satz, der einen anaphorischen Ausdruck enthält
Die Abhängigkeit eines Satzes, der einen anaphorischen Ausdruck enthält, wie etwa 'es', 'sie', 'jenes' oder 'wie folgt', von dem Satz wird festgelegt, wo das Beziehungswort des Ausdrucks erscheint, so daß der Satz mit dem Beziehungswort immer dann in eine Zusammenfassung aufgenommen wird, wenn der Satz mit einem anaphorischen Ausdruck in eine Zusammenfassung aufgenommen wird.
Anderenfalls ist es eine gute Idee, einem Satz, der einen anaphorischen Ausdruck enthält, eine gewisse Strafe für die Aufnahme in eine Zusammenfassung aufzuerlegen, besonders in dem Fall, wenn der Satz mit einem anaphorischen Ausdruck ein Adjektivsatz ('SUBSTANTIV sei ADJEKTIV') oder ein Substantivsatz ('SUBSTANTIV SEI SUBSTANTIV') ist. Denn die meisten Adjektiv- oder Substantivsätze beschreiben gewisse Attribute oder Bedingungen von ihren Subjekten, und viele von diesen Sätzen mit anaphorischen Subjekten enthalten nur eine gewisse zusätzliche Erläuterung oder das, was unmittelbar nach ihnen beschrieben wird. Die vorliegende Erfindung ist darauf gerichtet, einem Nutzer zu helfen, notwendige Informationen aus Zeitungen, Zeitschriften, Handbüchern, etc., herauszufinden. Somit sind jene Sätze, die die Struktur einer Abhandlung angeben, weniger wichtig als solche, die gewisse Ereignisse oder Wissen beschreiben.
Die Lesbarkeit einer Zusammenfassung kann verbessert werden, indem zusätzliche Sätze oder grammatikalische Sätze in eine Zusammenfassung gemäß der Abhängigkeit der obigen Dokumentkomponente (1) bis (5) aufgenommen werden. Tatsächlich fallen jedoch Berechnungskosten an, um die Abhängigkeit zu detektieren. Außerdem ist es schwierig, die Abhängigkeit eines Satzes (4), dessen Subjektwort unbekannt ist, oder eines Satzes (5), der einen anaphorischen Ausdruck enthält, zweckmäßig zu detektieren. Die Lesbarkeit dieser Sätze wird weiter gemindert, falls die Abhängigkeit unzweckmäßig festgelegt wird. Deshalb zeigt die vorliegende Ausführungsform den Ablauf zum Verarbeiten der Abhängigkeit, die festgelegt wird für den Nebensatz (1), den Satz (3) in einem Körperteil mit einer Überschrift und den Satz (4), dessen Subjektwort nicht wohlbekannt ist, um den Basisablauf der Verarbeitung der Abhängigkeit darzustellen. Sie zeigt auch den Ablauf zum Verarbeiten der Strafe, die dem Satz (5) auferlegt wird, der einen anaphorischen Ausdruck enthält, in dem Prozeß des Satzselektors 14, der später beschrieben ist.
Nach dem Teilen des Satzes in Prädikatsverbände (einfache Sätze) bei Schritt S95, der in 13 gezeigt ist, wird die Abhängigkeit zwischen den Prädikaten in der syntaktischen Abhängigkeitsstruktur bei Schritt S96 festgelegt. Bei Schritt S97 wird ein Prädikatsverband, der von einem anderen Prädikatsverband unabhängig ist, als Hauptprädikatsverband festgelegt. Bei Schritt S98 wird der Hauptprädikatsverband zu einer Liste von Prädikatsverbänden hinzugefügt. Wenn ein Prozeß in Satzeinheiten ausgeführt wird, wie oben beschrieben, werden die oben beschriebenen Prozesse weggelassen, und der gesamte Satz wird als Hauptprädikatsverband angesehen. Der Hauptprädikatsverband ist ein Verband, von dem ein anderer Verband abhängt, wenn die Abhängigkeit zwischen Sätzen bei dem nachfolgenden Prozeß festgelegt wird. Als Resultat wird ein Hauptprädikatsverband immer dann in eine Zusammenfassung aufgenommen, wenn einer der Sätze, der von ihm abhängt, in eine Zusammenfassung aufgenommen wird.
17 zeigt ein Beispiel für das Teilen in Prädikatsverbände und das Festlegen der Abhängigkeit. In 17A wird die Abhängigkeit festgelegt, daß der Prädikatsverband 2 in dem Satz 1 von dem Prädikatsverband 1 abhängt. Ähnlich wird die Abhängigkeit festgelegt, daß der Prädikatsverband 2 in dem Satz 2 von dem Prädikatsverband 1 abhängt. In jedem Satz ist der Prädikatsverband 1 ein Hauptprädikatsverband. Die Abhängigkeit kann für jegliche Paare von Prädikaten festgelegt werden, wie in 17 gezeigt, die syntaktisch miteinander verbunden sind, ungeachtet ihres Verbindungstyps (d. h., direkt oder indirekt). Das heißt, im Satz 1 ist das Prädikat 'hiita (zugezogen hat)' in dem Prädikatsverband 2 direkt mit dem Prädikat 'yasunda (hat gefehlt)' in dem Prädikatsverband 1 durch das konjunktionale Hilfswort 'node (da)' verbunden. Andererseits ist im Satz 2 das Prädikat 'okuttekureta (geschickt hat)' in dem Prädikatsverband 2 indirekt mit dem Prädikat 'legte beiseite' in dem Prädikatsverband 1 durch das Substantiv 'Brief' verbunden. In diesem Fall wird die Abhängigkeit ähnlich festgelegt.
Nachdem der Hauptprädikatsverband bei Schritt S98, der in 13 gezeigt ist, zu der Liste von Prädikatsverbänden hinzugefügt ist, wird bei den Schritten S99 bis S102 ein repräsentativer Verband eines Satzes bestimmt. Wenn der Prozeß in Satzeinheiten ausgeführt wird, sind die Prozesse bei den Schritten S99 bis S102 nicht erforderlich und wird der gesamte Satz als repräsentativer Verband (und Hauptprädikatsverband) angesehen.
Ein repräsentativer Verband eines Satzes ist ein Verband, der ein Ursprung der Abhängigkeit ist, die bei Schritt S104 festgelegt wird, falls der Satz von einem anderen Satz abhängt. Er wird hauptsächlich ins Spiel gebracht, um den thematischen Verband (oder den Subjektverband) von japanischen Sätzen zu behandeln.
Die Basisstruktur eines japanischen Satzes ist eine Art Themenkommentarstruktur. Er hat einen thematischen Verband, der im wesentlichen besteht aus einem Substantiv, dem ein themenbildendes nachgestelltes Glied 'wa' folgt, und einem Prädikatsteil, der aus einem Prädikat, gewissen komplementären Verbänden und optionalen Adverbialverbänden gebildet ist. Aber in einer normalen japanischen Abhandlung haben viele japanische Sätze selbst keinen thematischen Verband, und die meisten von ihnen betreffen den vorhergehenden thematischen Verband eines anderen Satzes. Zum Beispiel hat der zweite Satz von 'Hanako-wa kaimono-ni dekaketa. Kireina huku-wo katta.' (auf deutsch: Hanako ging einkaufen. ϕ kaufte ein wunderschönes Kleid.) kein Thema, und er bezeichnet den thematischen Verband des ersten Satzes, d. h., 'Hanako-wa' als Subjekt seines Prädikates 'katta (kaufte)'. In der Terminologie der vorliegenden Ausführungsform hängt der zweite Satz von dem ersten Satz ab.
Wenn angenommen wird, daß 'huku (Kleid)' ein im Brennpunkt stehendes Wort ist, sollten beide Sätze in eine Zusammenfassung aufgenommen werden, da der zweite Satz, der das im Brennpunkt stehende Wort enthält, in eine Zusammenfassung aufgenommen werden muß. Bei diesem Beispiel ist der gesamte erste Satz für einen Nutzer zum Erkennen des zweiten Satzes nicht notwendig. Nur der thematische Verband des ersten Satzes genügt. Das ist der Grund dafür, daß ein thematischer Verband von einem Prädikatsverband, der mit ihm erscheint, getrennt wird. Die vorliegende Ausführungsform teilt das obige Beispiel in drei Teile wie folgt: 'Hanako-wa' (thematischer Verband 1: repräsentativer Verband des ersten Satzes), 'kaimono-ni dekaketa (ging einkaufen)' (Prädikatsverband 1: Hauptprädikatsverband des ersten Satzes) und 'Kireina huku-wo katta (kaufte ein wunderschönes Kleid)' (Prädikatsverband 2: Hauptprädikatsverband und repräsentativer Verband des zweiten Satzes) und legt die Abhängigkeit des Prädikatsverbandes 1 von dem thematischen Verband 1 und dem Prädikatsverband 2 von dem thematischen Verband 1 fest. Somit hängt der zweite Satz nicht von dem ersten Satz ab, wobei er aber von dem thematischen Verband des ersten Satzes abhängt. Mit anderen Worten, der zweite Satz wird, falls erforderlich, mit seinem betreffenden thematischen Verband in eine Zusammenfassung aufgenommen, und zwar genau durch denselben Mechanismus, durch den der erste Satz insgesamt in eine Zusammenfassung aufgenommen wird.
Nun wird angenommen, daß das obige Beispiel in einem Abschnitt mit dem Titel 'Notiz vom 15. Dezember' enthalten ist. In der vorliegenden Ausführungsform hängen beide Sätze des Beispiels von dem Titel ab. Falls das gegebene im Brennpunkt stehende Wort 'Hanako' ist, werden in der vorliegenden Ausführungsform wenigstens der thematische Verband 1 und der Titel des Abschnittes in eine Zusammenfassung aufgenommen. Aber sie reichen nicht aus, da nur 'Notiz vom 15. Dezember' und 'Hanako-wa' keinen Sinn ergeben. Sie benötigen einige Prädikate (Verb). In der vorliegenden Ausführungsform wird solch eine unsinnige Zusammenfassung vermieden, indem einem Hauptprädikatsverband und einem repräsentativen Verband verschiedene Rollen zuteil werden. In der vorliegenden Ausführungsform wird wenigstens ein Hauptprädikat in eine Zusammenfassung aufgenommen, aber kein repräsentativer Verband für sich. Das ist der Grund dafür, daß ein thematischer Verband ein repräsentativer Verband sein kann, aber kein Hauptprädikatsverband.
Die vorliegende Ausführungsform bewertet die Wichtigkeit von jeder Liste von Prädikatsverbänden, die mit einem Hauptprädikatsverband beginnt und eine Vielzahl von Prädikatsverbänden und thematischen Verbänden enthält, von denen der Hauptprädikatsverband abhängt, und nimmt eine Vielzahl von Listen von Prädikatsverbänden in eine Zusammenfassung auf. In diesem Fall bewertet sie die folgenden zwei Listen von Prädikatsverbänden: (1) 'kaimono-ni dekaketa (ging einkaufen)', 'Hanako-wa' und 'Notiz vom 15. Dezember'; (2) 'Kireina huku-wo katta (kaufte ein wunderschönes Kleid)', 'Hanako-wa' und 'Notiz vom 15. Dezember'. Eine Liste mit 'Hanako-wa' und 'Notiz vom 15. Dezember', die der oben beschriebenen unsinnigen Zusammenfassung entspricht, wird nicht mehr bewertet, da sie nicht mit einem Hauptprädikatsverband beginnt. Im folgenden wird die detaillierte Prozedur dieses Prozesses beschrieben.
Ein repräsentativer Verband bezeichnet einen thematischen Verband oder einen Prädikatsverband, der in einem Satz enthalten ist und nicht von anderen Prädikatsverbänden abhängt. Das heißt, falls ein thematischer Verband in einem Satz isoliert wird, ist der thematische Verband ein repräsentativer Verband. Anderenfalls ist ein Hauptprädikatsverband ein repräsentativer Verband in einem Satz.
Bei Schritt S99 wird bestimmt, ob ein thematischer Verband in einem Satz existiert oder nicht. Im Falle von JA, wird der thematische Verband bei Schritt S100 isoliert, und die Abhängigkeit zwischen dem thematischen Verband und dem Hauptprädikatsverband wird festgelegt. Ein thematischer Verband ist ein Substantivverband, dem der japanische themenbildende Teil (das nachgestellte Glied 'wa') folgt.
17B zeigt die Abhängigkeit nach dem Isolieren des thematischen Verbandes. In dem Satz 1 ist 'Taro-wa' ein thematischer Verband. Der Prädikatsverband 2 hängt von dem Prädikatsverband 1 ab, und der Prädikatsverband 1 hängt von dem thematischen Verband ab. In dem Satz 2 ist 'Hanako-wa' ein thematischer Verband. Der Prädikatsverband 2 hängt von dem Prädikatsverband 1 ab, und der Prädikatsverband 1 hängt von dem thematischen Verband ab. Somit werden der analysierte Prädikatsverband und der thematische Verband auf der Basis der Abhängigkeit durch den Satzselektor 14, der später beschrieben ist, umstrukturiert, und wenn sie in eine Zusammenfassung inkorporiert werden, werden sie mit einem Verband gruppiert, von dem sie abhängen. Unter Bezugnahme auf den in 17B als Beispiel gezeigten Satz 1 kann folgendes in eine Zusammenfassung inkorporiert werden: 'Tako-wa gakko-wo yasunda (Taro hat in der Schule gefehlt)' (thematischer Verband + Prädikatsverband 1) oder 'Taro-wa kaze-wo hiitanode gakko-wo yasunda (Da sich Taro eine Erkältung zugezogen hat, hat er in der Schule gefehlt)' (thematischer Verband + Prädikatsverband 2 + Prädikatsverband 1).
Nach dem Isolieren des thematischen Verbandes und dem Festlegen der Abhängigkeit bei Schritt S100 wird bei Schritt S101 der thematische Verband als repräsentativer Verband des Satzes definiert, und die Steuerung geht zu dem Prozeß bei Schritt S103 über. Falls bei Schritt S99 kein thematischer Verband in dem Satz existiert, wird bei Schritt S102 der Hauptprädikatsverband als repräsentativer Verband des Satzes definiert, und die Steuerung geht zu dem Prozeß bei Schritt S103 über.
Bei den Schritten S103 und S104 wird die Abhängigkeit zwischen Sätzen, die bei dem Dokumentstrukturanalyseprozeß festgelegt wurde, in die Beziehung zwischen Prädikatsverbänden konvertiert. Dieser Prozeß wird nur dann ausgeführt, wenn ein Satz in einem Abschnitt enthalten ist, der einer Überschrift, etc., untergeordnet ist (abhängiger Block des Körpers eines Dokumentes). Bei Schritt S103 wird bestimmt, ob der Satz, der gerade verarbeitet wird, ein Element in einem abhängigen Block ist oder nicht. Im Falle von JA, wird die Abhängigkeit zwischen dem repräsentativen Verband des gerade verarbeiteten Satzes und dem Hauptprädikatsverband entsprechend dem Abschnitt, von dem ein Block in der Dokumentstruktur abhängt, bei Schritt S104 festgelegt. Dann geht die Steuerung zu dem Prozeß bei Schritt S105 über. Falls bei Schritt S103 bestimmt wird, daß der Satz kein Element in dem abhängigen Block ist, wird der Prozeß bei Schritt S104 weggelassen, und die Steuerung geht zu dem Prozeß bei Schritt S105 über. Da hier nur typische Prozesse beschrieben sind, gibt es keine Schritte, bei denen die Abhängigkeit festgelegt wird, wenn der gerade verarbeitete Satz von einem Satz nach dem gerade verarbeiteten Satz abhängt. Falls solch ein Prozeß erforderlich ist, sollte eine Bedingung zum Spezifizieren eines Satzes, von dem ein anderer abhängt, und eines repräsentativen Verbandes eines Nebensatzes gespeichert werden und die Abhängigkeit festgelegt werden, wenn ein Satz verarbeitet wird, der der Bedingung entspricht.
Bei dem letzten Schritt, der in 13 gezeigt ist, das heißt, bei Schritt S105, wird der Prozeß zum Festlegen der Abhängigkeit und der Strafe auf der Basis des Begriffswissenskriteriums ausgeführt. Gemäß der vorliegenden Ausführungsform werden ein Prozeß zum Festlegen der Abhängigkeit eines thematischen Verbandes, der ein ungewohntes Wort enthält, von dem ersten Satz, in dem das ungewohnte Wort erscheint, und ein Prozeß zum Auferlegen einer Strafe auf einen Satz, der einen anaphorischen Ausdruck enthält, ausgeführt. Nach diesem Prozeß kehrt die Steuerung zu dem Prozeß bei Schritt S92 zurück, und der nächste Satz wird herausgesucht. Falls bei Schritt S93 bestimmt wird, daß ein Satz herausgesucht worden ist, werden die Prozesse bei Schritt S94 und danach wiederholt. Falls bei Schritt S93 bestimmt wird, daß keine Sätze herausgesucht worden sind, wird der Abhandlungsstrukturanalyseprozeß dann beendet.
Der Prozeß zum Festlegen der Abhängigkeit und der Strafe bei Schritt S105, der auf dem Begriffswissenskriterium basiert, ist unter Bezugnahme auf 18 in weiteren Einzelheiten beschrieben. Wenn der Prozeß startet, wie in dem Flußdiagramm von 18 gezeigt, wird bei Schritt S111 bestimmt, ob ein thematischer Verband existiert oder nicht. Im Falle von JA, wird bei Schritt S112 die Liste von Prädikatsverbänden ab Beginn nach einem Verband durchsucht, in dem ein Hauptsubstantiv zum ersten Mal erscheint. Bei Schritt S113 wird bestimmt, ob solch ein Verband detektiert worden ist oder nicht. Im Falle von JA, wird die Abhängig keit zwischen dem thematischen Verband und dem detektierten Verband, von dem der thematische Verband abhängt, festgelegt, und der Prozeß endet.
Falls bei Schritt S111 kein thematischer Verband detektiert wird, oder falls bei Schritt S113 in der Liste von Prädikatsverbänden kein Verband detektiert wird, der ein Hauptsubstantiv des thematischen Verbandes enthält, wird dann bei Schritt S115 bestimmt, ob am Anfang des repräsentativen Verbandes ein anaphorischer Ausdruck existiert oder nicht. Im Falle von JA, wird dem repräsentativen Verband bei Schritt S116 eine Strafe auferlegt. Im Falle von NEIN, wird der Prozeß bei Schritt S116 nicht ausgeführt. Dann endet der Prozeß.
Nachdem der in 13 gezeigte Abhandlungsstrukturanalyseprozeß vollendet worden ist, führt der Satzselektor 14 den Satzselektionsprozeß aus. Bei dem Satzselektionsprozeß selektiert der Satzselektor 14 eine Vielzahl von wichtigen Prädikatsverbänden, die in eine Zusammenfassung aufzunehmen sind, von der Liste von Prädikatsverbänden, die durch den Abhandlungsstrukturanalysator 13 erstellt wurde, und bildet eine Liste mit den selektierten Prädikatsverbänden, die als Selektionsresultatsliste bezeichnet wird. Das Flußdiagramm des Prozesses ist in 19 gezeigt.
In 19 werden die im Brennpunkt stehenden Informationen als Liste von im Brennpunkt stehenden Begriffen verarbeitet. Gemäß der vorliegenden Ausführungsform umfaßt die Liste von im Brennpunkt stehenden Begriffen Substantive, die wichtige Begriffe (d. h., im Brennpunkt des Nutzers oder im Brennpunkt des Autors stehende Begriffe) zur Zusammenfassung ausdrücken, und die Menge von im Brennpunkt stehenden Informationen eines Prädikatsverbandes, die das erste Maß zum Bestimmen der Wichtigkeit eines Prädikatsverbandes ist, wird berechnet, indem die Auftritte dieser Substantive darin gezählt werden (wird später beschrieben). Alternativ ist es möglich, die Menge von im Brennpunkt stehenden Informationen zu berechnen, indem die Auftritte nicht nur der Substantive gezählt werden, die einem Posten einer Liste von im Brennpunkt stehenden Begriffen exakt entsprechen, sondern auch der Synonyme derselben. Falls zum Beispiel das Wort 'PC' in der Liste von im Brennpunkt stehenden Begriffen vorhanden ist, können die Auftritte von 'Personalcomputer' verwendet werden, um die Menge von im Brennpunkt stehenden Informationen zu berechnen. (Dies ist der Grund dafür, daß die Liste von Substantiven als Liste von im Brennpunkt stehenden Begriffen, aber nicht als Liste von im Brennpunkt stehenden Wörtern bezeichnet wird.)
Wenn der Prozeß in 19 beginnt, wird bei Schritt S120 eine Liste von im Brennpunkt stehenden Begriffen erzeugt, und bei Schritt S121 wird die Selektionsresultatsliste gelöscht. Die Liste von im Brennpunkt stehenden Begriffen wird auf der Basis der Liste von Substantiven erstellt, die durch den Zusammenfassungsprozeßcontroller 10 vorgesehen wird, indem Substantive in dem im Brennpunkt des Autors stehenden Abschnitt eines Dokumentes hinzugefügt werden, die der Dokumentstrukturanalysator 11 gemäß der Extraktionsbedingung von im Brennpunkt stehenden Informationen benannte.
Dann wird bei Schritt S122 bestimmt, ob die Liste von wesentlichen Ausgabeverbänden leer ist oder nicht. Im Falle von NEIN, wird bei den Schritten S123 und S124 ein Prozeß zum Hinzufügen von wesentlichen Ausgabeverbänden zu einer Selektionsresultatsliste ausgeführt. Ein wesentlicher Ausgabeverband ist ein Prädikatsverband, der einem Dokumentelement (Überschrift, etc.) entspricht, dessen Aufnahme in eine Zusammenfassung durch den Nutzer durch den Zusammenfassungsprozeßcontroller 10 instruiert wurde. Praktisch ist er ein Prädikatsverband, der von einem Dokumentelement erzeugt wird, das der Dokumentstrukturanalysator 11 als wesentliches Ausgabeelement benannte. Bei Schritt S123 wird der führende wesentliche Ausgabeverband herausgesucht (und von der Liste von wesentlichen Ausgabeverbänden entfernt), und der herausgesuchte führende Verband wird zu der Selektionsresultatsliste hinzugefügt. Bei Schritt S124 wird eine Vielzahl von Propositionen von dem zu der Selektionsresultatsliste hinzugefügten Verband extrahiert und zu der Liste von bekannten Propositionen hinzugefügt, die anfangs durch den Zusammenfassungsprozeßcontroller erstellt wurde, und die Steuerung kehrt zu dem Prozeß bei Schritt S122 zurück.
An diesem Punkt können die im Brennpunkt stehenden Begriffe, die in dem wesentlichen Ausgabeverband erschienen sind, von der Liste von im Brennpunkt stehenden Begriffen entfernt werden. Es ist jedoch besser, dies nicht zu tun, da ein wesentliches Ausgabeelement in den meisten Fällen normalerweise eine Überschrift oder dergleichen und kein vollständiger Satz ist oder es ist besser, die im Brennpunkt stehenden Begriffe, die in dem wesentlichen Ausgabeverband erschienen sind, nur dann zu entfernen, wenn die Dokumentelemente, von denen der Verband erzeugt wurde, ein vollständiger Satz sind.
Wenn bei Schritt S122 bestimmt wird, daß die Liste von wesentlichen Ausgabeverbänden leer ist, wird bei Schritt S125 eine Selektionskandidatenliste erzeugt. Die Selektionskandidatenliste ist eine Liste von allen Prädikatsverbänden, die keine wesentlichen Ausgabeverbände in der Liste von Prädikatsverbänden sind, die durch den Abhandlungsstrukturanalysator 13 erstellt wurde.
Bei Schritt S126 wird die Menge von im Brennpunkt stehenden Informationen jedes Verbandes in der Selektionskandidatenliste berechnet. Die Menge von im Brennpunkt stehenden Informationen eines Prädikatsverbandes ist die Anzahl von im Brennpunkt stehenden Begriffen (Substantiven), die in ihm erscheinen. Falls ein Prädikatsverband einen Verband hat, von dem er abhängt und der nicht in die Selektionsresultatsliste aufgenommen worden ist, ist die Menge von im Brennpunkt stehenden Informationen des abhängigen Prädikatsverbandes die Summe der Anzahl von im Brennpunkt stehenden Begriffen, die in den beiden Verbänden erscheinen (nämlich in dem abhängigen Prädikatsverband und in dem Verband, von dem er abhängt). Falls eine Vielzahl von Verbänden vorhanden ist, von denen ein Prädikatsverband abhängt, wird die Menge von im Brennpunkt stehenden Informationen von jedem von ihnen im voraus berechnet, und der Verband, der die größte Menge von im Brennpunkt stehenden Informationen aufweist, wird verwendet, um die Menge von im Brennpunkt stehenden Informationen des Prädikatsverbandes zu berechnen. Wenn im Brennpunkt stehenden Begriffen ein Gewicht zugeordnet wird, wird die Anzahl mit dem Gewicht multipliziert, um die Menge der im Brennpunkt stehenden Informationen zu berechnen.
Die Menge der im Brennpunkt stehenden Informationen wird unter Einbeziehung des Verbandes, von dem der Prädikatsverband abhängt, auf der Basis des oben beschriebenen Begriffswissenskriteriums berechnet. Das heißt, gemäß dem Begriffswissenskriterium sollte eine Zusammenfassung, falls ein Eigenname in einem Dokument wiederholt erscheint, den Abschnitt des ersten Auftretens enthalten, wenn sie den Abschnitt des zweiten Auftretens enthält. Das heißt, da der Abhandlungsstrukturanalysator 13 die Abhängigkeit des zweiten Satzes von dem ersten Satz festlegt, berechnet der Satzselektor 14 die Wichtigkeit des zweiten Satzes, das heißt, die Menge von im Brennpunkt stehenden Informationen, zusammen mit dem ersten Satz. Ein praktisches Beispiel für diesen Prozeß ist später beschrieben.
Nach dem Entfernen des Prädikatsverbandes der Menge von im Brennpunkt stehenden Informationen ϕ von der Selektionskandidatenliste bei Schritt S127 wird bei Schritt S128 die Menge von neuen Informationen für alle Prädikatsverbände berechnet, die in der Selektionskandidatenliste verbleiben. Die Menge von neuen Informationen ist die Menge von Informationen, die dem Nutzer nicht bekannt sind und die die Proposition betreffen, die in dem bereits selektierten Prädikatsverband nicht enthalten ist. Die Berechnung der Menge von neuen Informationen ist unter Bezugnahme auf ein Beispiel beschrieben, das in 20 gezeigt ist.
In 20 wird ein Set aus einem Prädikat und einem Substantiv als neue Information bezeichnet, und die Menge der neuen Informationen wird als Anzahl der Sets berechnet. Der Körper des Dokumentes enthält 7 Propositionen. Zwei der Propositionen werden mit der Überschrift gemeinsam genutzt. Wenn die Überschrift als wesentliches Ausgabeelement zu der Selektionsresultatsliste bei Schritt S123 von 19 hinzugefügt wird, beläuft sich die Menge von neuen Informationen, die in dem Körper des Dokumentes enthalten sind, auf 5. Bei diesem Beispiel ist ein etwas komplizierter Prozeß zum Erkennen eines Sets aus einem Prädikat und einem Substantiv erforderlich, aber es kann auch ein einfacheres Verfahren zum Zählen der Substantive eingesetzt werden, die keine im Brennpunkt stehenden Begriffe (im Brennpunkt stehende Wörter) sind.
Somit werden beim Berechnen der Menge von neuen Informationen Propositionsinformationen als Begriffspaar (oder einfach als Begriff) modelliert, und die Menge von neuen Informationen kann erhalten werden, indem die Propositionen gezählt werden, die in dem bereits selektierten Prädikatsverband nicht enthalten sind. Bei einem anderen Verfahren werden Propositionsinformationen in einem Format: von 5W1H- Elementen (when, where, who, what, why, and how; d. h.: wann, wo, wer, was, warum und wie) modelliert und mit Prädikatsverbänden in der Rahmendarstellung, die in 15 gezeigt ist, verglichen, so daß die Anzahl der Prädikatsverbände, die nicht mit den bekannten Propositionen übereinstimmen, als Menge von neuen Informationen definiert ist. Anderenfalls wird die Menge von neuen Informationen unter Verwendung des oben beschriebenen 5W1H-Modells als erste Menge von neuen Informationen bezeichnet, und die einfache Menge von neuen Informationen wird als zweite Menge von neuen Informationen bezeichnet. Die ersten und die zweiten Mengen von neuen Informationen können kombiniert verwendet werden. Beim Berechnen der Menge von neuen Informationen wird, wie beim Berechnen der Menge von im Brennpunkt stehenden Informationen, ein Prädikatsverband, von dem ein anderer abhängt, mit der größten Menge von neuen Informationen selektiert, und die Berechnung erfolgt unter Einbeziehung des Verbandes, von dem ein anderer abhängt. Bei dem Prädikatsverband, dem eine Strafe auferlegt wird, wird die Menge der Strafe von der Menge von neuen Informationen subtrahiert.
Im folgenden ist die Strafe in weiteren Einzelheiten beschrieben. Ein Satz, dem eine Strafe bezüglich eines anaphorischen Ausdrucks auferlegt wird, kann entweder ein Satz sein, von dem ein anderer abhängt, oder ein abhängiger Satz. Nur die Menge von neuen Informationen sollte einer Subtraktion unterliegen. Als Beispiel wird die Strafe anhand der zwei folgenden Sätze erläutert.
Erster Satz: Gestern¹ traf ich Herrn Tanaka³ in Shinjuku² und erhielt die Informationen⁴.
Zweiter Satz: Gestern¹ traf ich Herrn Tanaka² und erhielt die Informationen⁴ über sein Auto³.
Bei diesem Beispiel ist die Anzahl der numerierten Substantive in den ersten und zweiten Sätzen gleich. In dem ersten Satz stellen 'die Informationen' jedoch einen anaphorischen Ausdruck dar, und der Satz beschreibt nicht den Inhalt der Informationen. Die Strafe bezüglich des anaphorischen Ausdrucks ist das Subtrahieren von 0,5 als Anzahl von Substantiven von der Menge von neuen Informationen in dem ersten Satz, so daß der Priorität nach der zweite Satz selektiert werden kann.
Als einfaches Beispiel wird die Menge von neuen Informationen als Anzahl von Substantiven gezählt, die nicht die im Brennpunkt stehenden Begriffe (im Brennpunkt stehenden Wörter) sind, die in einem Satz enthalten sind. Falls 'Tanaka' zum Beispiel ein im Brennpunkt stehendes Wort ist und die Strafe von 0,5 Substantiven den 'Informationen' auferlegt wird, beträgt die Menge von neuen Informationen des ersten Satzes 2,5. Deshalb enthält der zweite Satz (der die Menge von neuen Informationen von 3,0 hat) eine größere Menge von neuen Informationen, und der zweite Satz wird der Priorität nach selektiert, wie es später beschrieben ist. Falls die im Brennpunkt stehenden Wörter bei diesem Beispiel jedoch 'Tanaka' und 'Shinjuku' sind, enthält der erste Satz eine größere Menge von im Brennpunkt stehenden Informationen und wird der erste Satz ungeachtet der Strafe selektiert.
Wenn der Prozeß bei Schritt S128 endet, werden die Prozesse bei den Schritten S131 bis S136 wiederholt, bis bei Schritt S130 bestimmt wird, daß die Selektionskandidatenliste leer wird, nachdem der Prädikatsverband mit der Menge von neuen Informationen von 0 von der Selektionskandidatenliste bei Schritt S129 entfernt ist.
Bei Schritt S131 wird der Prädikatsverband mit der größten Menge von im Brennpunkt stehenden Informationen selektiert, und der Prädikatsverband mit der größten Menge von neuen Informationen ist als Ausgabeverband definiert. Bei Schritt S132 wird der Ausgabeverband von der Selektionskandidatenliste entfernt und zu der Selektionsresultatsliste hinzugefügt. Falls der Prädikatsverband zu dieser Zeit einen Verband aufweist, von dem ein anderer abhängt, und der Verband, von dem ein anderer abhängt, noch nicht zu der Selektionsresultatsliste hinzugefügt worden ist, wird dann der Verband, von dem ein anderer abhängt, zu der Selektionsresultatsliste hinzugefügt. Falls andere Prädikatsverbände mit der gleichen Menge von Informationen existieren, werden die Prädikatsverbände in der Regel gleichzeitig hinzugefügt. Ein alternatives Verfahren zum Selektieren nur eines Verbandes auf der Basis der Erscheinungsposition eines Prädikatsverbandes, indem zum Beispiel der Prädikatsverband selektiert wird, der dem Anfang des zusammenzufassenden Dokumentes am nächsten ist, kann eingesetzt werden.
Somit wird bei dem Satzselektionsprozeß das Propositionswissenskriterium als Differenz zwischen Mengen von neuen Informationen verarbeitet. Wenn es Sätze mit einer gleichen Menge von im Brennpunkt stehenden Informationen gibt, wird ein Satz mit der größten Menge von neuen Informationen selektiert. Falls keine Sätze mit einer gleichen Menge von im Brennpunkt stehenden Informationen vorhanden sind, kommt das Propositionswissenskriterium nicht zum Einsatz.
Dann wird bei Schritt S133, der in 19 gezeigt ist, ein im Brennpunkt stehender Begriff, der in einem Ausgabeverband enthalten ist, das heißt, der Prädikatsverband, der zu der Selektionsresultatsliste hinzugefügt wurde, von der Liste von im Brennpunkt stehenden Begriffen entfernt. Auf der Basis des Resultats wird die Menge von im Brennpunkt stehenden Informationen für alle in der Selektionskandidatenliste verbleibenden Prädikatsverbände neu berechnet. Bei Schritt S134 wird der Prädikatsverband mit der neu berechne ten Menge von im Brennpunkt stehenden Informationen von 0 von der Selektionskandidatenliste entfernt. Die Neuberechnung der Menge von im Brennpunkt stehenden Informationen kann wie oben beschrieben ausgeführt werden und kann zum Beispiel auch ausgeführt werden, indem die Beziehung zwischen dem im Brennpunkt stehenden Begriff und dem Prädikatsverband zuvor gespeichert wird und die Neuberechnung nur an dem Prädikatsverband ausgeführt wird, der den im Brennpunkt stehenden Begriff enthält, der von der Liste entfernt wurde, und an dem Prädikatsverband, der von dem zu der Selektionsresultatsliste hinzugefügten Prädikatsverband abhängt.
Nach dem Prozeß bei Schritt S134 werden die Propositionsinformationen, die in dem Ausgabeverband enthalten sind, das heißt, der Prädikatsverband, der bei Schritt S135 zu der Selektionsresultatsliste hinzugefügt wurde, zu der Liste von bekannten Propositionen hinzugefügt, und die Neuberechnung der Menge von neuen Informationen wird an allen in der Selektionskandidatenliste verbleibenden Verbänden ausgeführt. Die Neuberechnung kann wie oben beschrieben ausgeführt werden, und sie kann zum Beispiel auch ausgeführt werden, indem die Beziehung zwischen der Proposition und dem Prädikatsverband gespeichert wird und die Neuberechnung nur an dem Prädikatsverband ausgeführt wird, der die zu der Liste von bekannten Propositionen hinzugefügte Proposition enthält, an dem Prädikatsverband, der zu der Selektionsresultatsliste hinzugefügt wurde, und an dem Prädikatsverband, der von dem Prädikatsverband abhängt, der eine veränderte Menge von im Brennpunkt stehenden Informationen enthält.
Nachdem der Prädikatsverband mit der Menge von neuen Informationen von 0 von der Selektionskandidatenliste bei Schritt S136, der in 19 gezeigt ist, entfernt ist, werden die Prozesse bei Schritt S130 wiederholt, und der Prozeß endet, wenn bei Schritt S130 bestimmt wird, daß die Selektionskandidatenliste leer wird.
21 ist ein Flußdiagramm, das den Vergleich der Menge von neuen Informationen bei Schritt S131 von 19 zeigt, wenn die Menge von neuen Informationen in die ersten und zweiten Mengen von neuen Informationen geteilt wird. Wenn die Menge von neuen Informationen zwischen dem Kandidatenprädikatsverband A und dem Kandidatenprädikatsverband B verglichen wird, wie in 19 gezeigt, wird bei Schritt S138 bestimmt, welcher der zwei Kandidatenprädikatsverbände eine größere erste Menge von neuen Informationen hat. Falls der Prädikatsverband A eine größere erste Menge als der Prädikatsverband B hat, wird bestimmt, daß der Prädikatsverband A eine größere Menge von neuen Informationen hat. Falls der Prädikatsverband B eine größere erste Menge als der Prädikatsverband A hat, wird bestimmt, daß der Prädikatsverband B eine größere Menge von neuen Informationen hat. Falls die erste Menge von neuen Informationen zwischen den Prädikatsverbänden A und B gleich ist, werden bei Schritt S139 die zweiten Mengen von neuen Informationen verglichen, und der Prädikatsverband mit einer größeren Menge der zweiten neuen Informationen hat eine größere Menge von neuen Informationen. Wenn die zwei Prädikatsverbände A und B eine gleiche Menge der zweiten neuen Informationen haben, wird bestimmt, daß diese Prädikatsverbände eine gleiche Menge von neuen Informationen haben.
In der obigen Beschreibung wird die Strafe nur einem anaphorischen Ausdruck auferlegt. Falls Strafen den Sätzen (3) und (4) von den Sätzen (1) bis (5) auferlegt werden, für die die oben beschriebene Abhängigkeit festgelegt wird, kann verhindert werden, daß Wörter ausgegeben werden, die für den Nutzer unverständlich sind. In diesem Fall wird der Prozeß wie in dem Fall ausgeführt, wenn eine Strafe einem anaphorischen Ausdruck auferlegt wird.
Es kann auch der andere Faktor der Länge eines Kandidatenverbandes verwendet werden, um zu bestimmen, welcher Kandidatenverband von jenen mit denselben neuen Informationen in eine Zusammenfassung aufgenommen werden sollte. Das heißt, falls der Priorität nach ein kürzerer Prädikatsverband von Prädikatsverbänden selektiert wird, die eine gleiche Menge von im Brennpunkt stehenden Informationen und neuen Informationen haben, kann bis zu einem gewissen Grade verhindert werden, daß ein Wort ausgegeben wird, das für einen Nutzer unverständlich ist. Anstelle des Vergleichs der Menge von neuen Informationen kann ferner das Verhältnis (Häufigkeit von neuen Informationen) der Menge von neuen Informationen zu der Länge des selektierten Prädikatsverbandes zum Einsatz kommen.
Mit der Berechnung der Menge von neuen Informationen kann verhindert werden, daß ein Wort, das für einen Nutzer unverständlich ist, ausgegeben und verarbeitet wird. Ein bekannter Begriff wird im Grunde genommen als Abhängigkeit verarbeitet, bezieht sich aber auch auf die Berechnung der Menge von neuen Informationen auf der Basis des Propositionswissenskriteriums. Dies ist der Grund dafür, daß das Begriffswissenskriterium und das Propositionswissenskriterium als Nutzerwissenskriterien klassifiziert werden.
Oben ist das Verfahren zum Zusammenfassen eines Dokumentes eingehend beschrieben worden. Unten wird das weitere Merkmal der vorliegenden Erfindung beschrieben. Gemäß der vorliegenden Erfindung werden, da die im Brennpunkt des Nutzers stehenden Informationen und die im Brennpunkt des Autors stehenden Informationen als Kriterien von im Brennpunkt stehenden Informationen betrachtet werden, wie oben beschrieben, vom Nutzer gewünschte Informationen und wich tige Informationen in einem Dokument in eine ausgewogene Zusammenfassung inkorporiert. Ferner kann auf der Basis der Nutzerwissenskriterien eine einfache und verständliche Zusammenfassung erzeugt werden, die ein Begriffswissenskriterium und ein Propositionswissenskriterium umfaßt.
Zusätzlich zu dem oben beschriebenen Merkmal kann die Länge einer Zusammenfassung in Abhängigkeit von der Wichtigkeit eines Dokumentes gemäß der vorliegenden Erfindung automatisch verändert werden. Gemäß dem herkömmlichen Algorithmus zum Erzeugen einer Zusammenfassung wird die Anzahl von Sätzen oder Zeichen, die in eine Zusammenfassung aufzunehmen ist, oder das Verhältnis der Länge der Zusammenfassung zu dem Originalsatz in vielen Fällen als Parameter vorgesehen. Gemäß der vorliegenden Erfindung kann eine Zusammenfassung mit angemessener Länge in Abhängigkeit von der Menge von im Brennpunkt stehenden Informationen, die in einem Dokument erscheinen, erzeugt werden, ohne einen besonderen Parameter zu spezifizieren. Wenn eine Gruppe von Dokumenten mit verschiedenen Längen kollektiv zusammengefaßt wird, ist es schwierig, einen Parameter zum Beispiel von einem Verhältnis einer Zusammenfassung angemessen festzulegen. Dieses Merkmal ist ein großer Vorzug.
Als nächstes können gemäß der vorliegenden Ausführungsform die Beschränkungen hinsichtlich der Länge einer Zusammenfassung ohne weiteres gesteuert werden. Gemäß der vorliegenden Ausführungsform wird kein spezieller Prozeß für die Länge einer Zusammenfassung berücksichtigt. Wenn der Länge einer Zusammenfassung jedoch eine Beschränkung auferlegt wird, ist es möglich, die Beschränkung ohne weiteres zu steuern. Wenn zum Beispiel eine kurze Zusammenfassung gewünscht wird, sollte der Prozeß bei Schritt S130 bei dem Satzselektionsprozeß in 19 abgebrochen werden, bevor die Selektionskandidatenliste leer wird. Dies wird reali siert, indem Sätze von dem wichtigsten Abschnitt auf der Basis des Satzselektionsprozesses sequentiell selektiert werden.
Wenn eine lange Zusammenfassung gewünscht wird, kann eine Zusammenfassung mit angemessener Länge erzeugt werden, indem ein Satzselektionsprozeß gemäß dem in 19 gezeigten Flußdiagramm ausgeführt wird und die Prozesse in dem Flußdiagramm von 19 an den nichtselektierten Abschnitten wiederholt werden. Da der Verband mit der größten Menge von neuen Informationen von dem Verband mit der größten Menge von im Brennpunkt stehenden Informationen bei Schritt S131, der in 19 gezeigt ist, selektiert wird, wird der Verband mit der zweitgrößten Menge von neuen Informationen bei dem zweiten Prozeß als Ausgabeverband selektiert. Das heißt, auf der Basis des Propositionswissenskriteriums kann eine Zusammenfassung mit angemessener Länge erzeugt werden, indem Nutzen aus dem Merkmal der vorliegenden Erfindung gezogen wird, daß eine redundante Ausgabe unterdrückt wird. Anderenfalls kann eine Zusammenfassung erweitert werden, indem sequentiell ein stärker verbundener Abschnitt bei einem Verfahren zum Anordnen aller Substantive in einer Zusammenfassung, die bei dem vorherigen Selektionsprozeß erhalten wurde, geholt wird, wenn der Selektionsprozeß wiederholt ausgeführt wird.
Die vorliegende Ausführungsform hat das weitere Merkmal zum einfachen Steuern von anderen Beschränkungen bezüglich einer Zusammenfassung. Gemäß der vorliegenden Ausführungsform können Anforderungen an eine Zusammenfassung auf der Basis der zwei Arten von Kriterien beschrieben werden, das heißt, auf den Kriterien von im Brennpunkt stehenden Informationen und den Nutzerwissenskriterien, wodurch die Operationen der Dokumentzusammenfassungsvorrichtung in Abhängigkeit von verschiedenen Wünschen einfach erweitert werden.
Zum Beispiel können in 3 die Informationen, wie etwa die Nutzervorliebe 16 und das Nutzerwissen 17, die in dem Speicher gespeichert sind, unter verschiedenen Aspekten umgeordnet werden, in Abhängigkeit von dem Wunsch des Nutzers, um die Informationen als Beschränkungen bezüglich der Erzeugung einer Zusammenfassung zu verwenden. Falls eine Zusammenfassung erzeugt wird, indem die im Brennpunkt des Autors stehenden Informationen über zwei Dokumente in Form von im Brennpunkt des Nutzers stehenden Informationen zur Verwendung beim Zusammenfassen des gegenseitigen Dokumentes vorgesehen werden, kann dann eine Proposition, die in den zwei Dokumenten gemeinsam beschrieben ist, oder eine Proposition, die in einem der Dokumente beschrieben ist, extrahiert werden, welche auch immer durch den Autor von einem der Dokumente hervorgehoben wird. Falls die im Brennpunkt des Autors stehenden Informationen von einem der zwei Dokumente als im Brennpunkt des Nutzers stehende Informationen verwendet werden, um das andere Dokument zusammenzufassen, und umgekehrt, werden die Zusammenfassungen der zwei Dokumente im Brennpunkt des Autors stehende Informationen beider Dokumente enthalten. Deshalb kann die erhaltene Zusammenfassung als Vergleichsinformation über ein Dokument verwendet werden. Somit können verschiedene Wünsche erfüllt werden, ohne die Basiskonfiguration der Zusammenfassungsvorrichtung zu verändern.
Im folgenden ist ein praktisches Beispiel für das Erzeugen einer Zusammenfassung unter Einsatz des Dokumentzusammenfassungsverfahrens gemäß der vorliegenden Erfindung beschrieben. 22 zeigt das Resultat der Extraktion einer Kurzfassung als Zusammenfassung von einer Kurzfassung eines Patentamtsblattes, worauf in [Beschreibung der verwandten Technik] der vorliegenden Beschreibung verwiesen wurde, unter Verwendung des folgenden Suchausdrucks und der Überschrift (Titel der Erfindung).
("Zusammenfassung" oder "Kurzfassung" oder "Lesen" oder "Zugriff") und Dokument
Der Suchausdruck für die letzte japanische offengelegte Patentveröffentlichung (Tokkaihei) Nr. 07-44566 wird wie folgt beschrieben.
(Zusammenfassung oder Kurzfassung oder Lesen oder Zugriff) und (Satz oder Text)
In 22 ist der Abschnitt, der in der extrahierten Kurzfassung in [ ] eingeschlossen ist, ein im Brennpunkt stehendes Wort. Ein charakteristisches Wort stellt im Brennpunkt stehende Informationen in einem zusammenzufassenden Dokument dar. Das charakteristische Wort ist eine Teilmenge eines im Brennpunkt stehenden Wortes, unterscheidet sich aber in der Funktion. Von im Brennpunkt des Nutzers stehenden Wörtern ist ein Wort, das in einem Dokument erscheint, für den Nutzer signifikant, obwohl es keines der Schlüsselwörter für das Dokument ist.
Die Bedingungen zum Erzeugen einer Zusammenfassung, die in 22 gezeigt ist, sind unten aufgeführt.

1. Ein Substantiv, das in einem Suchausdruck als im Brennpunkt des Nutzers stehende Information erscheint, sollte verwendet werden.
2. Ein Substantiv, das in einer Überschrift (Titel der Erfindung) als im Brennpunkt des Autors stehende Information erscheint, sollte verwendet werden.
3. Das Begriffswissenskriterium wird nicht verwendet.
4. Ein Substantiv, das in einem selektierten
Zusammenfassungsabschnitt enthalten ist, sollte als bekannte Propositionsinformation verwendet werden. Das heißt, die Anzahl von Substantiven, die in dem Kandidatenprädikatsverband enthalten ist, aber noch nicht in der Zusammenfassung enthalten ist, ist als Menge von neuen Informationen definiert (die Anzahl von verschiedenen Substantiven wird als erste Menge von neuen Informationen bezeichnet, und die Gesamtanzahl der Substantive wird als zweite Menge von neuen Informationen bezeichnet).
5. Eine Überschrift (Titel der Erfindung) ist ein wesentliches Ausgabeelement.

23 zeigt ein praktisches Beispiel für das Erzeugen einer Zusammenfassung zum Erläutern des Effektes des Begriffswissenskriteriums. Es ist ein Beispiel für das Erzeugen einer Zusammenfassung eines Wirtschaftsberichtes unter Verwendung der Überschrift als im Brennpunkt stehende Information. 23A zeigt eine Zusammenfassung, bei der das Begriffswissenskriterium bezüglich des thematischen Verbandes 'Hancock' nicht verwendet wird. 23B zeigt eine Zusammenfassung, bei der das Begriffswissenskriterium bezüglich des thematischen Verbandes verwendet wird. Der hinzugefügte Abschnitt, der auf dem Begriffswissenskriterium basiert, ist unterstrichen.
Die Bedingungen zum Erzeugen einer Zusammenfassung, die in 23 gezeigt ist, sind unten aufgeführt.

1. Im Brennpunkt des Nutzers stehende Informationen sollten nicht spezifiziert werden.
2. Ein Substantiv, das in einer Überschrift als im Brennpunkt des Autors stehende Information erscheint, sollte verwendet werden.
3. Das Begriffswissenskriterium wird in 23A nicht verwendet, wird aber bezüglich eines thematischen Verbandes in 23B verwendet.
4. Ein Substantiv, das in einem selektierten Zusammenfassungsabschnitt enthalten ist, solle als bekannte Propositionsinformation verwendet werden. Das heißt, die Anzahl von Substantiven, die in dem Kandidatenprädikatsver band enthalten ist, aber noch nicht in der Zusammenfassung enthalten ist, ist als Menge von neuen Informationen definiert (die Anzahl von verschiedenen Substantiven wird als erste Menge von neuen Informationen bezeichnet, und die Gesamtanzahl der Substantive wird als zweite Menge von neuen Informationen bezeichnet).
5. Eine Überschrift ist ein wesentliches Ausgabeelement.

Der in 23 gezeigte Zusammenfassungserzeugungsprozeß ist im folgenden in weiteren Einzelheiten beschrieben. Die zusammenzufassenden Dokumente, die in 23 gezeigt sind, werden wie folgt aufgelistet. In diesen Dokumenten werden Sätze, die unterstrichene Zeichen enthalten, die mit den folgenden Symbolen markiert sind, als Zusammenfassung in 23 extrahiert.

– ein Satz, der auch in 23A extrahiert wird (♢)
– ein Satz, der in 23B neu hinzugefügt wird (★)

Apple Computer wird durch Förderung der Windows-Kompatibilität umorganisiert.
♢ G. Amelio hat die Organisation der Firma durch das Halbieren der Abweichung der Macintosh-Modelle reformiert. Als Resultat können die Entwicklungskosten reduziert werden, und die 3000 Mitarbeiter sind entlassen worden, wodurch Apple Computer umorganisiert wird.
★ Amelio besetzt wichtige Positionen von Apple Computer mit externen Personen und setzte den 53jährigen Ellen Hancock als technischen Vorstand ein, das heißt, als Spitzenmanager in der Forschungs- und Entwicklungsabteilung. Dies ist die wichtigste Position bei Apple, die der auf diesem Gebiet hochgeschätzte D. Nagel innehatte, bis er Apple verließ und als Manager der AT&T's Bell Laboratories begann. Es ist eine Überraschung, daß Hancock, der 28 Jahre lang für IBM gearbeitet hat, einen effektiven Mitarbeiter ersetzt hat, der Erfahrungen mit der Entwicklung von neuen Produkten besaß. Es heißt, daß sich Hancock mit 6.000 Jungingenieuren und Programmierern bei deren Führung abmühen darf, da er mit dem Management bei dem Firmenriesen IBM vertraut ist. Während IBM einen ungefähren 5-Jahres-Managementplan hat, ändert Apple seine Managementstrategie je nach Bedarf schnell. Deshalb kann Hancock eine schwierige Zeit beim Anpassen seines Tempos an den Rhythmus von Apple durchmachen. Hancock verfügt über einen Master-Abschluß in der Mathematik, begann 1966 als Programmierer für IBM und wurde auf Grund seiner ausgezeichneten Managementfähigkeiten befördert und 1995 mit etwa einem Drittel des Managements von IBM betraut. Er kam jedoch mit L. Gerstner nicht besonders gut aus, verließ IBM und wurde von National Semiconductor als COO berufen. Hancock versuchte lange Zeit, das Management von IBM von dem Kauf der Notebook-Computer von Lotus Development durch IBM zu überzeugen, aber dies wurde bis zum Weggang von Hancock von IBM nicht realisiert. Bei National Semiconductor sollte Hancock Geschäftsführer als Nachfolger von Amelio nach dessen Weggang zu Apple werden, aber er verließ National Semiconductor, weil die Direktion B. Halla von LSI Logic dafür einsetzte. ♢ Da Hancock jedoch mit Software vertraut ist und eine erfolgreiche Umorganisierung von Apple von dem in der Entwicklung verzögerten Copland abhängt, ist Hancock die richtige Person am richtigen Ort. Bei Apple korrigierte er das Management auf dem Entwicklungssektor und minderte Fehler von Produkten, und von ihm wird Erfolg beim Verkauf an große Firmen erwartet.
Des weiteren ernannte Amelio Marco Landi von Texas Instruments als Betriebsvorstand, George Scalise von Fairchild Semiconductor über Maxtor Corp., Advanced Microdevices, etc. als Verwaltungsvorstand und Fred D. Anderson von MAI Systems über Automatic Data Processing Inc. als Finanzvorstand.
Da Spindler, der Vorgänger von Amelio, die Entwicklung aggressiv fördern wollte, verließ eine große Anzahl. von wichtigen Leitungsmitgliedern der Entwicklungsabteilungen und Fachgebiete Apple, und die Mehrzahl von ihnen ging zu Microsoft. Obwohl S. Capps 15 Jahre lang für Apple gearbeitet hat und eine Anzahl von beliebten Produkten wie z. B. den Macintosh, etc., herausbrachte, hat er vor 6 Monaten beschlossen, Apple zu verlassen, und er verhandelte mit einigen Spekulanten über die Gründung einer neuen Firma. Es zeigte sich jedoch, daß er zu viele Ideen offerierte, woraufhin er das Wagnis aufgab, sich Microsoft anschloß, das heißt, dem Konkurrenten von Apple, und mit der Entwicklung eines Internet-Tools und einer neuen Computerschnittstelle von Microsoft begann. Microsoft plant, Pegasus, welches das Betriebssystem für einen Handcomputer wie etwa Newton ist, bis Ende dieses Jahres herauszubringen, und Capps arbeitet zur Erleichterung der Operation mit. W. Smith, der Newton mit Capps entwickelte, ging auch zu Microsoft. Da Gates eine Schnittstelle mit noch einfacherer Operation wünscht, verfolgen sie seine Strategie. Windows ist für sie jedoch neu, und bei Windows 95 gibt es fünf verschiedene Verfahren zum Ausführen desselben Prozesses. Deshalb ist es schwierig, die gesamte Operation zu vereinfachen.
Amelio scheint eine vernünftige Maßnahme zu ergreifen, um Apple erfolgreich umzuorganisieren, aber es wird wenigstens ein volles Jahr dauern, tun ein sichtbares Resultat vorzuweisen. Der Absatz von Macintosh hat sich jedoch verlangsamt. Die Verkaufszahlen von Apple in dem im März 1997 endenden Quartal belaufen sich auf $2,8 Mrd., das heißt, eine Verringerung um 9,7% gegenüber dem entsprechenden Vorjahreszeitraum. In der Industrie ist geschätzt worden, daß die Anzahl von verkauften Macintosh in dem im Juni endenden Quartal 20% niedriger sein wird. Gemäß der Umfrage unter 1.000 Personalcomputer-Läden durch das Umfrageunternehmen Computer Intelligence verlangsamten sich die Verkaufszahlen im April und Mai in den USA viel gravierender als die Verkaufszahlen von Apple und verzeichneten einen Rückgang um 29% und 27% im April bzw. Mai gegenüber den entsprechenden Monaten des letzten Jahres. Die Umsatzwerte gingen tun 31% und 33% im April bzw. Mai gegenüber den entsprechenden Monaten des letzten Jahres zurück. Dies wird teilweise auf die Verlangsamung des Absatzes in der gesamten Personalcomputerindustrie und auf eine große Rückrufanzahl von defekten Macintosh in diesem Frühjahr zurückgeführt. Laut Merisel Inc. verkauft sich Macintosh jedoch nach wie vor gut. In der gesamten Personalcomputerindustrie erhöhten sich die Umsätze in April und Mai jeweils um 10%, und die Verkaufszahlen stiegen um 3%. Ein gravierender Rückgang war bei dem Verkauf an große Firmen zu verzeichnen. Nach Überprüfung von 3.000 Firmen, in denen. Macintosh jeweils ein Viertel bis zu einer Hälfte der Gesamtanzahl der Personalcomputer ausmacht, wurden von 33% der Firmen im Februar neue Personalcomputer gekauft, wobei im April jedoch ein Rückgang um 14% zu verzeichnen war. Compu USA Inc., die größte Personalcomputerwarenhauskette in den USA, verzeichnete einen Rückgang von 50% beim Verkauf von Macintosh, aber der Umsatz von Notebook-Computern kam auf Grund des Rückrufs einiger Modelle teilweise zum Stillstand. Wenig Hardware oder Software von Macintosh wird in Einzelhandelsgeschäften verkauft, da Nutzer diese über Versandbestellfirmen billiger kaufen können. Die größte Versandbestellfirma ist Micro Warehouse mit einem Jahresumsatz von $1,8 Mrd., wovon die Hälfte von Macintosh-Hardware und -Software stammt. Diese Firma bietet Nutzern einen ausgezeichneten Kundendienst. Wenn eine Bestellung bis 22 Uhr telefonisch oder per Fax eingeht, wird das bestellte Produkt am nächsten Tag zu einer Liefergebühr von $3 ange liefert. Micro Warehouse verzeichnete eine Umsatzerhöhung von Macintosh von 60% im Januar, aber die gleichen Umsatzzahlen im Vergleich zu den Verkäufen in dem entsprechenden Monat des letzten Jahres.
Laut Dataquest hat Macintosh den größten Anteil am Multimedia-Markt in der Welt und verzeichnete zahlenmäßig 3.950.000 im Jahr 1995 (2.400.000 im Jahr 1994), gefolgt von Packard Bell mit 3.000.000 (2.950.000 im Jahr 1994), Compag mit 2.900.000 (1.200.000 im Jahr 1994), IBM mit 1.600.000 (800.000 im Jahr 1994), NEC mit 1.500.000 (500.000 im Jahr 1994). Apple besitzt den größten Marktanteil von 22,9%, gefolgt von 19,2% von Packard Bell, 11,9% von Compaq, 8% von IBM, 4,3% von NEC, 2,7% von Acer, 0,7% von Escom, 0,6% von Fujitsu, 0,6% von Highscreen und 29,1% von anderen Verkäufern.
Im Mai brachte Apple ein neues Betriebssystem heraus, das auf einem Chip arbeitet, der in eine Digitalkamera und andere Bildverarbeitungsvorrichtungen eingebaut wird. Es ist Teil der QuickTime IC-(image-capture)-Technik und wird als Mehrprogramm-Betriebssystem für den Motorola-Chip MPC823 verwendet und enthält eine API zur Bildaufnahme. Heutzutage konstruieren Hersteller von Digitalkameras einzigartige ASICs und müssen eine Schnittstelle für jede Bildverarbeitungssoftware wie etwa Photoshop für Adobe, EasyPhoto für Storm Software, etc., individuell entwickeln. Unter Verwendung von QuickTime IC können bei den Herstellern von Digitalkameras solche Jobs wegfallen und kann der Preis für Digitalkameras reduziert werden. Apple hat diese Technik mit großen Firmen entwickelt, die Digitalkameras und Bildverarbeitungsvorrichtungen herstellen, und wird jetzt durch zehn oder mehr Firmen unterstützt. Unter Einsatz derselben kann ein Bild von einer Digitalkamera direkt in das Internet gesendet werden, ohne einen Personalcomputer zu verwenden, können Bilder durch das Skript in einer Kamera zu verschiedenen Zeiten aufgenommen werden oder kann ein Photoshop-Filter betrieben werden.
Apple verfolgt eine aktive Strategie für Macintosh-kompatible Produkte und plant die Auslieferung der Produkte zu Sommerbeginn. Eine neue Logikkarte von Macintosh, die intern 'Tanzania' genannt wird, ist skalierbar und billig und soll eine Firma anlocken, die an der Herstellung von Macintoshkompatiblen Produkten interessiert ist. Motorola hat die Versuchsproduktion von Tanzania bereits abgeschlossen und demonstrierte die Produktion. Tanzania wird für Modelle der Unter- und Mittelklasse verwendet und sieht Optionen in breitem Umfang vor. Bis zu 200 MHz von PowerPC603e und 604e können verwendet werden, und es sind 3 bis 5 PCI-Einbauplätze vorhanden. Ein Nutzer kann zwischen einer PS/2-Tastatur und einem ADB-Verbinder und zwischen einer verbesserten IDE (integrated Drive Electronic) und einem internen SCSI-Festplattenlaufwerk wählen. Zusätzlich zu Verbindern wie etwa LocalTalk GeoPort, SCSI, etc., brachte Apple zuerst ein ATADI (AT attachment packet interface) CD-ROM-Laufwerk heraus. Tanzania kann auch in der Version für einen Standard-Personalcomputer des manuellen Auswurftyps unter Verwendung eines Intel-Chips zusätzlich zu einem Diskettenlaufwerk des automatischen Auswurftyps bereitgestellt werden. Zwei DIMM-Einbauplätze und zwei SIMM-Einbauplätze sind vorgesehen, und ein RAM von bis zu 160 MByte kann verwendet werden, aber tatsächlich wird ein EDO DRAM verwendet. Hersteller von kompatiblen Produkten können Personalcomputer unter Einsatz von Tanzania zu Beginn nächsten Jahres liefern. Apple verfolgt die Macintosh-Lizenzstrategie durch Umstellung von einem ausschließlich Macintosh-kompatiblen Produkt auf eine PPCP in drei Stufen. Auf der ersten Stufe beabsichtigte Apple das Vorsehen eines exklusiv Macintosh kompatiblen Produktes. 1995 und 1996 realisierten DayStar Digital Inc., Power Computing Corp. und Umax Computer Corp. den Power Macintosh 7500 und 9500. Umax Computer Corp. wird im Januar 1997 als Resultat der Angliederung der Abteilung für Macintosh-kompatible Produkte der Radius Inc. an Umax Data Systems in Taiwan gegründet. Das erste Macintoshkompatible Produkt, der SuperMacS900, wird seit Anfang Juni ausgeliefert und ist so beliebt, daß die Produkte knapp werden und somit der Auftrag in der Größenordnung von $10 Millionen binnen eines Monats nicht akzeptiert werden kann. Die zweite Stufe wird ab Sommer dieses Jahres bis Mitte nächsten Jahres auf der Basis des Power Macintosh 5400 und der Tanzania-Karte realisiert. Diese beiden basieren auf der Low End Reference Platform (in letzter Zeit als MacOS Licensing Design oder kurz MLD bezeichnet). Sie sind mit verschiedenen Standardlogikschaltungen und peripheren Einheiten anwendbar und nähern sich einer PPCP (früher als common hardware reference platform oder kurz CHRP bezeichnet). Die PPCP wird konstruiert, um auf verschiedene Betriebssysteme wie etwa das OS/2, Windows 3.1, UNIX, Solaris, etc., zusätzlich zu Macintosh anwendbar zu sein. Die dritte Stufe wird ausgeführt, um eine vollständige Umstellung auf die PPCP ab Mitte 1997 bis 1998 vorzunehmen.
Da die Entwicklung von Copland auf der Basis von Microkernel auf die Mitte nächsten Jahres ausgedehnt wird, ist Apple von seiner Ankündigung abgerückt, daß das System 7.5.3 die letzte Verbesserung des Systems ist, bis Copland herauskommt, und neu verkündet, daß das Betriebssystem, das intern Harmony genannt wird und so konstruiert ist, um einen Teil der neuen Funktionen von Copland zu haben, Ende dieses Jahres herauskommen soll. Harmony weist eine Verbesserung bei der Unterstützung für das Internet, bei der Graphiktechnik von OpenDoc, Cyberdog, QuickTime 2.5, QuickDraw 3D, etc., und bei der Schnittstelle auf, die für Copland erwartet wird. Zusätzlich kann eine Anzahl von Dateien unter Verwendung von etikettierten Ordnern herausgesucht und verwaltet werden. Lockheed Martin Missiles and Space hat 9.500 Macintoshes und betrachtet die Unterstützung für das Internet und OpenDoc bei Vollendung bis nächstes Jahr als vorteilhaft.
Nutzer können Harmony ohne Veränderung der gegenwärtigen Software verwenden, aber Copland erfordert eine Veränderung der Software in der Software-Firma. Copland wird zur Zeit als System 8 bezeichnet.
Im Sommer dieses Jahres wird das System 7.5.3 ausgetestet, werden die Leistungen von Duo23005 und PowerBook verbessert und kommt ein System heraus, das intern Buster heißt.
Laut der neuesten Umfrage von Computer Intelligence InfoCorp. antworteten 87% der Nutzer, die im letzten Jahr einen Macintosh kauften, daß sie das nächste Mal wieder Macintosh kaufen würden. Dies zeugt von dem höchsten Grad der Nutzerzufriedenheit mit ihren Personalcomputern. Die Umfrage ergibt für Dell Computer 74%, für Hewlett-Packard 72%, für Acer 68% und für Gateway 2000 61%. Die Nutzer, die mit Macintosh zufrieden sind, mögen das Betriebssystem von Macintosh, während die Nutzer, die Personalcomputer verwenden, die mit Intel-Chips versehen sind, ihre Software angesichts der Software-Kompatibilität nicht gegen Macintosh eintauschen würden, obwohl ihnen das Betriebssystem von Macintosh besser gefällt.
Spindler, der Vorgänger von Amelio, haßt Microsoft durch und durch und würde sich nicht mit Gates treffen. Andererseits hat Amelio Gates besucht und um seine Mitarbeit gebeten. Als Resultat hegen sie den Plan, den Standard und das Produkt für Multimedia gemeinsam zu nutzen. Wenn sie eine Übereinkunft erreicht haben, kann die Entwicklungsumgebung von QuickTime von Apple auch für NT einschließlich Windows 95, die Unterstützung für DirectX API, etc., verwendet werden. ♢ Wenn sie erfolgreich verhandelt haben, wird Microsoft QuickTime konstruieren, um in den Internet Explorer inkorporiert zu werden, und Apple wird seine technische Unterstützung von Multimedia für Windows vorantreiben. Apple ist dazu bereit gewesen, QuickTime in der Windows-Umgebung zu verwenden, und eine Anzahl von API von DirectX kann mit QuickTime verwendet werden. Bis jetzt hat QuickTime für Windows nur das Regenerierungsvermögen. Jedoch werden 60% vom Video über das Netz unter Verwendung von OpenDoc erzeugt, und 30% vom Video werden unter Verwendung des MPEG erzeugt. Unter der Bedingung, daß der MPEG durch QuickTime gelesen werden kann, läßt Microsoft Realität erkennen.
Die Beziehung zwischen den zwei Unternehmen ist in anderen Punkten verbessert worden. In Europa stellt Apple BackOffice von Microsoft für die Server von Advanced Workgroup Solutions zum Verkauf bereit. Falls der Verkauf in Europa erfolgreich läuft, werden sie dasselbe auch in den USA versuchen. Die Beziehung zwischen ihnen hat sich so verbessert, daß Microsoft die Entwicklung der nächsten Version von Office 97 für Macintosh verspricht. Unter den Umständen, daß sich die Nachfrage nach Personalcomputern verlangsamt hat, ist eine Kooperation zwischen Software- und Hardware-Unternehmen von gegenseitigem Nutzen.
Apple erteilt Microsoft die Lizenz, nicht nur die QuickTime-Internet-Technik sondern auch QuickTime VR (virtuelle Realität) zu nutzen. Die Technik von Microsoft für ActiveMovie ist in der Entwicklung ziemlich verzögert. Microsoft hat noch nicht einmal ein Entwicklungs-Kit an eine Software-Firma verteilt und gibt angeblich die Inkorporation von ActiveMovie in einen Internet Explorer auf. Apple sollte QuickTime jedoch umschreiben, um die Unterstützung für die Medientechnik von Microsoft wie etwa die API von DirectX zu unterstützen. Apple unterstützt die Mehrzahl der API von DirectX. In der API steht Direct3D QuickDraw3D von Apple gegenüber. Andererseits verhandelt Intel mit Microsoft wegen der Videotechnik über das Internet und überzeugt Microsoft, daß die verbesserte Videotechnik von Intel viel besser als die Videotechnik von Apple ist. Bei der Technik von Apple sollte keine kleine Datenmenge vor der Video-Regenerierung heruntergeladen werden. Bei der verbesserten Technik von Intel kann ein Video durch die Verbesserung der Komprimierungstechnik sofort regeneriert werden. Gates verkündete, die Zukunft von Internet und Intranet falsch vorhergesagt zu haben, und unternimmt jegliche Anstrengung, um die Verzögerung des Internet Explorers zu kompensieren.
(Ende des zusammenzufassenden Dokumentes)
Ein Substantiv, das in der Überschrift erscheint, wird als im Brennpunkt stehende Information zur Verwendung beim Erzeugen einer Zusammenfassung des zusammenzufassenden Dokumentes genutzt. Das heißt, 'Apple Computer', 'Windows', 'Förderung' und 'umorganisieren' sind im Brennpunkt stehende Wörter. Die Menge von im Brennpunkt stehenden Informationen wird geteilt in die Menge der ersten im Brennpunkt stehenden Informationen und der zweiten im Brennpunkt stehenden Informationen. Die Menge der ersten im Brennpunkt stehenden Informationen bezeichnet die Anzahl von verschiedenen im Brennpunkt stehenden Wörtern, und die Menge der zweiten im Brennpunkt stehenden Informationen bezeichnet eine Gesamtanzahl von im Brennpunkt stehenden Wörtern. Die Mengen der ersten und zweiten im Brennpunkt stehenden Informationen werden wie bei dem Vergleich der Menge von neuen Informationen in 21 verarbeitet.
Zwecks einer einfachen Erläuterung wird die Menge von neuen Informationen durch die Anzahl von Substantiven (Inhaltswort) ausgedrückt, die keine im Brennpunkt stehenden Wörter sind, wird die Menge der ersten neuen Informationen durch die Anzahl von verschiedenen Inhaltswörtern von Substantiven ausgedrückt und wird die Menge der zweiten neuen Informationen durch eine Gesamtanzahl von Inhaltswörtern von Substantiven ausgedrückt.
24 zeigt das Resultat der Berechnung der Menge von im Brennpunkt stehenden Informationen und der Menge von neuen Informationen. Die Sätze sind ab Beginn des oben beschriebenen Dokumentes, das zusammenzufassen ist, numeriert, und die Menge von Informationen des Satzes, dessen Menge von im Brennpunkt stehenden Informationen und die Menge von neuen Informationen sind nicht 0. In einem Satz wird ein im Brennpunkt stehendes Wort durch das Einschließen in fettgedruckten Klammern [ ] ausgedrückt, und ein Inhaltswort eines Substantivs, das kein im Brennpunkt stehendes Wort ist, als neue Information wird durch das Einschließen in dünngedruckten Klammern [ ] ausgedrückt. Die Stellen vor dem Dezimalkomma geben die Anzahl von Unterschieden an, und die Stellen nach dem Dezimalkomma geben die Gesamtanzahl von Wörtern an. Zum Beispiel erscheint im Satz 11 [Hancock] zweimal. Dies gibt an, daß die Anzahl von Unterschieden in der Menge von neuen Informationen (Menge der ersten neuen Informationen) 8 beträgt und die Gesamtanzahl von Wörtern (Menge der zweiten neuen Informationen) 9 beträgt.
Gemäß dem Resultat der Berechnung in 24 wird bei Schritt S131 von 19 der Satz 72 selektiert. Bei Schritt S132 wird der Satz 72 von der Selektionskandidatenliste entfernt und zu der Selektionsresultatsliste hinzugefügt. Bei Schritt S133 werden die Wörter 'Windows' und 'Umorganisierung' von der Liste von im Brennpunkt stehenden Wörtern entfernt, und die Menge der im Brennpunkt stehenden Informationen wird neu berechnet. 25 zeigt die Menge von Informationen nach der Neuberechnung. In 25 wird der Satz 1 bei Schritt S131 von 19 selektiert und zu der Selektionsresultatsliste bei Schritt S132 hinzugefügt. Bei Schritt S133 wird 'Apple Computer' von der Liste von im Brennpunkt stehenden Wörtern entfernt, und die Menge von im Brennpunkt stehenden Informationen wird neu berechnet. Bei diesem Beispiel enthält von den Sätzen nur der Satz 1 'Apple Computer', und die Informationsmengen von anderen Sätzen verändern sich nicht.
Dann wird bei Schritt S131 der Satz 11 selektiert. Bei Schritt S133 wird 'Umorganisierung' von der Liste von im Brennpunkt stehenden Wörtern entfernt, und die Liste von im Brennpunkt stehenden Wörtern wird leer. Falls die Menge der im Brennpunkt stehenden Informationen neu berechnet wird, sind deshalb die Mengen der im Brennpunkt stehenden Informationen für Prädikatsverbände, die in der Selektionskandidatenliste bleiben, alle 0. Bei Schritt S134 wird der Inhalt der Selektionskandidatenliste leer, wodurch der Satzselektionsprozeß beendet wird. 23A zeigt das bei dem Prozeß erhaltene Resultat.
Unten ist der Prozeß zum Erhalten des in 23B gezeigten Resultats beschrieben. Zusätzlich zu dem in 23A gezeigten Prozeß wird der folgende Prozeß ausgeführt.
Erstens wird, wenn ein unbekannter Eigenname in einem thematischen Verband erscheint, eine Abhängigkeit, bei der ein Satz, der den Eigennamen enthält, der in einem zusammenzufassenden Dokument zuerst erscheint, mit dem Satz als Satz, von dem ein anderer abhängt, festgelegt. Im Falle eines Eigennamen kann jedoch ein förmlicher Name (bei diesem Beispiel 'Ellen Hancock' und 'G. Amelio') zuerst verwendet werden, aber ab dem zweiten und folgenden Auftreten wird oft eine Abkürzung verwendet (bei diesem Beispiel 'Hancock' und 'Amelio'). Deshalb wird ein förmlicher Name der Abkürzung gleichgesetzt. Zweitens wird, wenn ein hinweisendes Wort (zum Beispiel 'dies') in einem thematischen Verband erscheint, eine Abhängigkeit mit dem unmittelbar vorhergehenden Satz als Satz, von dem ein anderer abhängt, festgelegt. Drittens wird, wenn ein Satz, von dem ein anderer abhängt, die Abhängigkeit bei den ersten und zweiten Prozessen betrifft, eine Abhängigkeit für die nachfolgenden Sätze, von denen andere abhängen, auf dieselbe Weise festgelegt.
Zuerst werden die ersten bis dritten Prozesse an dem Satz ausgeführt, der ein im Brennpunkt stehendes Wort enthält, und eine Abhängigkeit wird festgelegt. 26 zeigt die Abhängigkeit. Zum Beispiel wird eine Abhängigkeit des Satzes 11 von dem Satz 2 in Hinblick auf 'Hancock' als thematischer Verband in dem Satz 11 festgelegt, und eine Abhängigkeit des Satzes 2 von dem Satz 1 wird bezüglich 'Amelio' in dem Satz 2 festgelegt. 'Apple' und 'Mcrosoft' in den Sätzen 41 bzw. 72 sind Eigennamen. Jedoch sind es berühmte Firmen und werden in der folgenden Erläuterung als dem Nutzer bekannte Begriffe angesehen.
Die Berechnung der Menge von Informationen unter Berücksichtigung solch einer Abhängigkeit wird unter Verwendung von Satz 11 als Beispiel erläutert. Die Menge von Informationen in Satz 11 wird unter Einbeziehung der Menge von Informationen der Sätze 2 und 1 entsprechend der in (c) von 26 gezeigten Abhängigkeit berechnet. Bei diesem Beispiel ist 'Apple' gleichbedeutend mit 'Apple Computer'.
27 zeigt das Resultat der Berechnung. Da der Satz 11 'Umorganisierung' enthält und der Satz 1 'Apple Computer' enthält, beträgt die Menge von im Brennpunkt stehenden Informationen in Satz 11 2 als Menge der ersten im Brennpunkt stehenden Informationen, die die Anzahl von verschie denen Wörtern angibt, und 4 als Menge der zweiten im Brennpunkt stehenden Informationen, die die Gesamtanzahl von Wörtern einschließlich 'Apple' angibt. Die Menge von neuen Informationen beläuft sich auf 24 bei der Anzahl von verschiedenen Wörtern und auf 27 bei der Gesamtanzahl. von Wörtern, 'Apple' und Wiederholungen von 'Hancock', 'Ellen Hancock', 'G. Amelio', 'Amelio' und 'Entwicklung' ausgenommen.
Unter Verwendung des Berechnungsresultats von 27 wird bei Schritt S131 von 19 der Satz 11 selektiert. Bei Schritt S132 wird er zusammen mit den Sätzen 1 und 2 von der Selektionskandidatenliste entfernt und zu der Selektionsresultatsliste hinzugefügt. So ist zum Beispiel der Satz, von dem der Satz 3 abhängt, selektiert worden, und die Menge von Informationen wird nur für den Satz 3 berechnet, wenn der Satz 3 als nächster selektiert wird. Dann werden bei Schritt S133 'Apple Computer' und 'Umorganisierung' von der Liste von im Brennpunkt stehenden Wörtern entfernt, wird die Menge von im Brennpunkt stehenden Wörtern berechnet und sind die Mengen von im Brennpunkt stehenden Informationen in den Sätzen 3 und 21 0. Das Resultat ist in 28 gezeigt.
Auf der Basis des Resultats in 28 wird bei Schritt S131 der Satz 72 selektiert und zu der Selektionsresultatsliste hinzugefügt. Bei Schritt S133 werden 'Windows' und 'Förderung' von der Liste von im Brennpunkt stehenden Wörtern entfernt, und die Liste der im Brennpunkt stehenden Wörter wird leer, wodurch der Satzselektionsprozeß beendet ist. So wird das in 23B gezeigte Resultat erhalten.
Zuletzt wird nun die zweite Ausführungsform des Satzselektionssystems gemäß der vorliegenden Erfindung erläutert. 29 zeigt einen Algorithmus zum Extrahieren eines Satzes bei diesem Satzselektionssystem. Dieser Algorithmus betrifft die Erzeugung von Übersichtsinformationen über Artikel durch das Extrahieren eines Satzes, der ein Schlüsselwort eines Substantivs enthält, unter Verwendung eines Schlüsselwortes eines Substantivs, das in der Überschrift von Zeitungsartikeln, Berichten, etc., enthalten ist.
30 zeigt die Entsprechung zwischen den Wörtern in dem Algorithmus in 29 und den Wörtern in dem Flußdiagramm des Satzselektionsprozesses von 19. In 19 wird die Menge von im Brennpunkt stehenden Informationen in die Mengen der ersten und zweiten Informationen wie in den in 24 gezeigten Beschreibungen geteilt.
Verglichen mit 22, in der ein Suchausdruck (Fragesatz) verwendet wird, ist 29 zum Beispiel dahingehend verschieden, daß nur eine Überschrift verwendet wird. Die Unterschiede zwischen einer Überschrift und einem Fragesatz sind unten beschrieben. Erstens ist eine Überschrift ein wesentliches Ausgabeelement, und es werden keine ätze extrahiert, die nur die Wörter enthalten, die in der Überschrift erscheinen, das heißt, keine Sätze mit der Menge von neuen Informationen von 0. Zweitens ist ein Fragesatz (Suchausdruck) nur eine Liste von im Brennpunkt stehenden Wörtern, und ein Satz, der nur die Wörter enthält, die in einem Fragesatz erscheinen, kann extrahiert werden. Das heißt, ein Fragesatz selbst ist in der Selektionsresultatsliste nicht enthalten, und die Menge von neuen Informationen ist nicht 0.
In 30 ist die Entsprechung zwischen der Menge von neuen Informationen und der Gesamtanzahl von Substantiven, die mit einem Schlüsselwort der Überschrift nicht übereinstimmen, der Idee nach dasselbe wie das Erhalten der Menge von neuen Propositionen auf der Basis der Anzahl-Sets von im Brennpunkt stehenden Begriffen (Schlüsselwörter einer Überschrift) und den Substantiven in einem Satz. Das heißt, der Vergleich bei (3) wird an Sätzen ausgeführt, die eine gleiche Anzahl von im Brennpunkt stehenden Begriffen enthalten (genaugenommen, von den im Brennpunkt stehenden Begriffen, die in der Selektionsresultatsliste noch nicht enthalten sind). Deshalb wird angegeben, daß ein Set aus einem im Brennpunkt stehenden Begriff, der noch nicht erschienen ist, und einem Substantiv gezählt wird, das kein Begriff ist.
Da in 29 nur die Überschrift als Quelle eines im Brennpunkt stehenden Begriffs verwendet wird, ist ein Set von im Brennpunkt stehenden Begriffen in der Überschrift bereits erschienen. In 19 ist es in der Selektionsresultatsliste als wesentliches Ausgabeelement bereits enthalten gewesen. Die Anzahl von Sets von Substantiven bezüglich anderer im Brennpunkt stehender Begriffe wird als Produkt aus der Anzahl von Schlüsselwörtern der Überschrift, die in einem Satz enthalten sind, und der Anzahl von Substantiven erhalten, die keine Schlüsselwörter der Überschrift sind. Falls die Anzahlen der Schlüsselwörter der Überschrift dieselben sind, werden bei (3) nur die Anzahlen der Substantive verglichen, die keine Überschriftenschlüsselwörter sind, um die Anzahl von Sets von Substantiven zu vergleichen.
Schließlich wird unten ein Blockdiagramm erläutert, das die Konfiguration der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung als Computersystem zeigt, das heißt, ein Computerumgebungsdiagramm. 37. zeigt das Computerumgebungsdiagramm. In 31 umfaßt das System eine zentrale Verarbeitungseinheit (CPU) 20, einen Hauptspeicher 21, eine Hilfsspeichereinheit 22, wie etwa eine Magnetplatte, eine Eingabe-/Ausgabeeinheit 23, eine Kommunikationssteuereinheit 24 und eine Medienantriebseinheit 26 zum Antreiben eines tragbaren Speichermediums 25 wie beispielsweise eine Diskette, etc.
In dem Hauptspeicher 21 sind Programme gespeichert, die dem Zusammenfassungsprozeßcontroller 10 entsprechen, der in 3 gezeigt ist, dem Dokumentstrukturanalysator 11, dem morphologischen Analysator 12, dem Abhandlungsstrukturanalysator 13, dem Satzselektor 14 und dem Zusammenfassungsformatierer 15. Die Hilfsspeichereinheit 22 speichert die Nutzervorliebe 16, das Nutzerwissen 17, das Dokumentzugriffsprotokoll 18 und das Eingangsdokument 19.
Jedes der Programme zum Realisieren des zusammenzufassenden Dokumentes gemäß der vorliegenden Erfindung kann jedes Programm als Inhalt des tragbaren Speichermediums 25 durch die Medienantriebseinheit 26 in den Hauptspeicher 21 lesen. Solche Programme können auch durch die Kommunikationssteuereinheit 24 in den Hauptspeicher 21 gelesen werden.
Verschiedene Effekte können durch die oben beschriebenen Merkmale unter Verwendung der Dokumentzusammenfassungsvorrichtung gemäß der vorliegenden Erfindung herbeigeführt werden, wie oben beschrieben. Der erste und wesentliche Effekt ist der, daß die Signifikanz (Relevanz) eines Dokumentes ohne weiteres bestimmt werden kann. Das heißt, gemäß dem Verfahren der vorliegenden Erfindung können sowohl im Brennpunkt des Interesses des Nutzers stehende Informationen als auch im Brennpunkt des Akzentes des Autors stehende Informationen für eine Zusammenfassung extrahiert: werden. Deshalb kann lediglich durch Lesen der Zusammenfassung ohne weiteres bestimmt werden, wie die im Brennpunkt des Interesses des Nutzers stehenden Informationen in einem Dokument verarbeitet werden. Das heißt, die Beziehung zwischen dem Dokument und dem Zweck des Nutzers kann aus der Zusammenfassung ohne weiteres bestimmt werden.
Der zweite und optionale Effekt ist der, daß die Lesbarkeit einer Zusammenfassung verbessert werden kann. Ein Wort, das für einen Nutzer unbekannt ist, kann mit einer zusätzlichen Erläuterung auf der Basis des Begriffswissenskriteriums ausgegeben werden, und eine redundante Ausgabe kann auf der Basis des Propositionswissenskriteriums unterdrückt werden. Als Resultat kann eine prägnante und lesbare Zusammenfassung erzeugt werden. Auf der Basis der im Brennpunkt des Nutzers stehenden Informationen kann ferner der Zweck des Nutzers berücksichtigt werden und können für den Nutzer unnötige Informationen reduziert werden. Dies trägt auch viel dazu bei, für den Nutzer eine lesbare Zusammenfassung vorzusehen.

Claims

Dokumentzusammenfassungsvorrichtung zum Zusammenfassen, für einen Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist, zur Unterstützung bei der Verwaltung von Dokumenten, die in computerlesbarer Form verfügbar sind, mit: einem Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) zum Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird; und einem Zusammenfassungserzeugungsmittel (2, 15) zum Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die durch das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) aus dem Dokument extrahiert wurden, wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, bei der die im Brennpunkt des Interesses des Nutzers stehenden Informationen dem Inhalt eines Fragesatzes gleichen, der durch den Nutzer eingegeben wird, wenn eine Suche nach dem genannten Dokument durchgeführt wird.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, bei der: die im Brennpunkt des Interesses des Nutzers stehenden Informationen und/oder im Brennpunkt des Akzentes des Autors stehenden Informationen eine Wortliste oder eine gewichtete Wortliste umfassen; und das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) die Abschnitte bezüglich der zwei Typen von im Brennpunkt stehenden Informationen auf eine Weise extrahiert, die von einer Auftrittshäufigkeit jedes Wortes in der Wortliste oder gewichteten Wortliste in jedem Abschnitt des Dokumentes abhängt, dessen Zusammenfassung erzeugt wird.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, ferner mit einem Akkumulierungsmittel der Vorliebe des Nutzers (16) zum vorläufigen Akkumulieren von Attributen der Vorliebe des Nutzers, die jeweils ein Interesse des Nutzers darstellen, bei der das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) den durch das Akkumulierungsmittel der Vorliebe des Nutzers (16) akkumulierten Inhalt als im Brennpunkt des Interesses des Nutzers stehende Informationen verwendet.
Dokumentzusammenfassungsvorrichtung nach Anspruch 4, bei der das Akkumulierungsmittel der Vorliebe des Nutzers (16) die Attribute der Vorliebe des Nutzers für jeden von einer Vielzahl von Nutzern akkumuliert, und ferner mit: einem Verwendungsmittel der Vorliebe von anderen Nutzern (S25) zum Vorsehen der im Brennpunkt des Interesses des Nutzers stehenden Informationen, die zusammengestellt werden durch Erfassen, und zwar in solch einem Grade, den ein vorbestimmtes Zugriffssteuersystem zuläßt, der Attribute der Vorliebe von Nutzern, die anderen Nutzern zugeordnet sind, für das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14), um das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) die Abschnitte bezüglich der zwei Typen der im Brennpunkt stehenden Informationen extrahieren zu lassen.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, bei der die im Brennpunkt des Akzentes des Autors stehenden Informationen Daten einer Art umfassen, die normalerweise Teile eines öffentlich verfügbaren Dokumentes ausmachen und durch den Autor des Dokumentes produziert werden, um Bereiche vorzuschlagen, die für das Dokument wesentlich sind, und zwar im besonderen alle beliebigen Teile von Daten, die einen Titel des Dokumentes, Titel von Kapiteln, Absätze, Tabellen und Zeichnungen in dem Dokument, ein Inhaltsverzeichnis des Dokumentes und einen Index des Dokumentes enthalten.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, ferner mit einem Vereinigungsmittel von im Brennpunkt des Akzentes des Autors stehenden Informationen (S15) zum Vereinigen der im Brennpunkt des Akzentes des Autors stehenden Informationen von einer Vielzahl von Dokumenten, deren Zusammenfassungen verlangt werden, bei der das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) aus der Vielzahl der Dokumente Abschnitte bezüglich der zwei Typen von im Brennpunkt stehenden Informationen extrahiert, von denen die im Brennpunkt des Akzentes des Autors stehenden Informationen erhalten werden, indem die im Brennpunkt des Akzentes des Autors stehenden Informationen vereinigt werden; und das Zusammenfassungserzeugungsmittel (2, 15) eine Zusammenfassung der Vielzahl der Dokumente erzeugt.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, ferner mit einem Dokumentspeichermittel (19) zum Speichern der im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch einen Autor des Dokumentes oder einen Dokumentverwalter nach Erzeugung des Dokumentes spezifiziert wurden, zusammen mit dem zugeordneten Dokument, bei der das Mittel zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) die im Brennpunkt des Akzentes des Autors stehenden Informationen verwendet, die in dem Dokumentspeichermittel (19) gespeichert sind.
Dokumentzusammenfassungsvorrichtung nach Anspruch 1, ferner mit einem Zusammenfassungslesbarkeits-Verbesserungsmittel (3, 13, 14), das wichtige Abschnitte des Dokumentes auf eine Weise selektiert, die das Extraktionsresultat des Mittels zur Extraktion von im Brennpunkt stehenden informationsrelevanten Abschnitten (1, 14) verfeinert und Selektionseinschränkungen beachtet, die zum Verbessern der Lesbarkeit der Zusammenfassung des Dokumentes zusammengestellt werden, indem dem Nutzer bekannte Informationselemente, die dem Nutzer bereits bekannt sind, und/oder Informationselemente, die dem Nutzer vermutlich bekannt sind, da Erkenntnisse, um die es bei den Informationselementen geht, in manchen Dokumenten enthalten sind, die dem Nutzer bis zur Zeit der Erzeugung der Zusammenfassung präsentiert worden sind, von anderen Informationselementen unterschieden werden, bei der das Zusammenfassungserzeugungsmittel (2, 15) die Zusammenfassung des Dokumentes auf der Basis der wichtigen Abschnitte erzeugt, die durch das Zusammenfassungslesbarkeits-Verbesserungsmittel (3, 13, 14) selektiert wurden.
Dokumentzusammenfassungsverfahren zum Zusammenfassen, für einen Nutzer, eines Dokumentes, das in computerlesbarer Form verfügbar ist, zur Unterstützung bei der Verwaltung von Dokumenten, die in computerlesbarer Form verfügbar sind, das folgende Schritte umfaßt: Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird (S9); und Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die extrahiert wurden und die entsprechenden zwei Typen von im Brennpunkt stehenden Informationen betreffen (S11), wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Dokumentzusammenfassungsverfahren nach Anspruch 10, ferner mit folgendem Schritt: Selektieren von wichtigen Abschnitten des Dokumentes auf eine Weise, die das Extraktionsresultat verfeinert und Selektionseinschränkungen beachtet, die zum Verbessern der Lesbarkeit der Zusammenfassung des Dokumentes zusammengestellt werden, indem dem Nutzer bekannte Informationselemente, die dem Nutzer bereits bekannte Informationselemente umfassen, und/oder Informationselemente, die dem Nutzer vermutlich bekannt sind, da Erkenntnisse, um die es bei den Informationselementen geht, in manchen Dokumenten enthalten sind, die dem Nutzer bis zur Zeit der Erzeugung der Zusammenfassung präsentiert worden sind, von anderen Informationselementen unterschieden werden (S10), bei dem die Zusammenfassung des Dokumentes auf der Basis der selektierten wichtigen Abschnitte erzeugt wird (S11).
Computerlesbares Speichermedium, das ein Programm speichert, das verwendet wird, um einen Computer anzuweisen, das Zusammenfassen eines Dokumentes, das in computerlesbarer Form verfügbar ist, für einen Nutzer zur Unterstützung bei der Verwaltung von Dokumenten zusammenzufassen, die in computerlesbarer Form verfügbar sind, auszuführen, und folgende Funktionen umfaßt: Extrahieren, auf eine Weise, die (a) auf im Brennpunkt des Interesses des Nutzers stehenden Informationen basiert, die durch den Nutzer definiert sind und Themen angeben, an denen der Nutzer interessiert ist, und (b) auf im Brennpunkt des Akzentes des Autors stehenden Informationen, die durch den Autor des Dokumentes definiert sind und Themen angeben, die der Autor als wichtige Informationen in dem Dokument erachtete, von Abschnitten bezüglich dieser zwei Typen von im Brennpunkt stehenden Informationen aus dem Inhalt des Dokumentes, dessen Zusammenfassung verlangt wird (S9); und Erzeugen der Zusammenfassung des Dokumentes auf der Basis der Abschnitte, die extrahiert wurden und die entsprechenden zwei Typen von im Brennpunkt stehenden Informationen betreffen (S11), wodurch die Zusammenfassung sowohl mit vom Nutzer gewünschten Informationen als auch mit wichtigen Informationen in dem Dokument erzeugt wird.
Computerlesbares Speichermedium nach Anspruch 12, bei dem der Computer angewiesen wird, ferner folgende Funktion auszuführen: Selektieren von wichtigen Abschnitten des Dokumentes auf eine Weise, die das Extraktionsresultat verfeinert und Selektionseinschränkungen beachtet, die zum Verbessern der Lesbarkeit der Zusammenfassung des Dokumentes zusammengestellt werden, um dem Nutzer bekannte Informationselemente, die dem Nutzer bereits bekannte Informationselemente umfassen, und/oder Informationselemente, die dem Nutzer vermutlich bekannt sind, da Erkenntnisse, um die es bei den Informationselementen geht, in manchen Dokumenten enthalten sind, die dem Nutzer bis zur Zeit der Erzeugung der Zusammenfassung präsentiert worden sind, von anderen Informationselementen zu unterscheiden (S10), und Erzeugen der Zusammenfassung des Dokumentes auf der Basis der selektierten wichtigen Abschnitte (S11).