DE69731142T2 - System zum Wiederauffinden von Dokumenten - Google Patents

System zum Wiederauffinden von Dokumenten Download PDF

Info

Publication number
DE69731142T2
DE69731142T2 DE69731142T DE69731142T DE69731142T2 DE 69731142 T2 DE69731142 T2 DE 69731142T2 DE 69731142 T DE69731142 T DE 69731142T DE 69731142 T DE69731142 T DE 69731142T DE 69731142 T2 DE69731142 T2 DE 69731142T2
Authority
DE
Germany
Prior art keywords
word
document
frequency
result
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69731142T
Other languages
English (en)
Other versions
DE69731142D1 (de
Inventor
Mitsuaki Suginami-ku Inaba
Hideki Musashino-shi Yasukawa
Naohiko Noguchi
Yuji Kanno
Mitsuhiro Sato
Masako Tokorozawa-shi Nomoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69731142D1 publication Critical patent/DE69731142D1/de
Application granted granted Critical
Publication of DE69731142T2 publication Critical patent/DE69731142T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

  • Die vorliegende Erfindung bezieht sich auf ein System zum Wiederauffinden von Dokumenten, und genauergesagt, auf ein System zum Wiederauffinden von Dokumenten, das Dokumente sucht, die mit einer Anfrage zum Wiederauffinden übereinstimmen oder ihr entsprechen, die vom Anwender aus einer Vielzahl von Dokumentdaten und Rangfolgen eingegeben werden oder die Dokumente auf der Grundlage des Übereinstimmungsgrades zwischen ihnen einteilt.
  • Das neuerliche Anwachsen des Umfangs der Dokumentdatenbank, das einen ungeheuren Umfang annimmt, erschwert es häufig, das erwünschte Dokument durch Anwenden einer früheren Schlüsselwortsuchtechnik oder einer allgemeinen Wiederauffindtechnik zu suchen, und folglich ist das Reduzieren der Gesamtwiederauffindzeit nicht immer möglich, selbst wenn es möglich ist, ein Wiederauffindergebnis mit hoher Geschwindigkeit bereitzustellen. Ein möglicher Weg, eine Abnahme der Anzahl der sich ergebenden Dokumente zu erreichen, kann sein, die Kandidaten beispielsweise durch Verwendung eines weiteren Schlüsselworts einzuschränken, wobei es sich als Schwierigkeit erwiesen hat, geeignete Schlüsselworte hinzuzufügen, damit die erforderlichen Dokumente nicht verfehlt werden. Aus diesem Grund ist zusätzlich zum Auftreten oder Nichtauftreten der Buchstabenkette (Wort) bei den zu suchenden Dokumenten zu achten, wobei ein beachtliches Verfahren der Rangfolge der gesuchten Dokumente auf der Grundlage der Häufigkeit des Auftretens bekannt wurde, um das gewünschte Dokument mit hocheffizient wiederaufzufinden.
  • 27 zeigt in einem Blockdiagramm eine Anordnung eines früheren Systems zum Wiederauffinden von Dokumenten, das die Wiederauffindergebnisse in eine Reihenfolge bringt. Wie in 27 gezeigt, besteht das System zum Wiederauffinden von Dokumenten aus wiederaufzufindenden Dokumentdaten 1301, einem Wörterbuch 3102, einem Worthäufigkeitsverzeichnis 3103, um die Häufigkeit des Auftretens der Worte im Wörterbuch im Dokument festzuhalten, einem Worthäufigkeitsinformationsextrahiermittel 3104 zum Erreichen der Wortauftretenshäufigkeitsinformation von den Dokumentdaten 3101, einem Wiederauffindanforderungseingabemittel 3105, um eine vom Anwender eingegebene Wiederauffindanforderung zu erhalten, einem Worthäufigkeitsberechnungsmittel 3106 zur Berechnung der Wortauftretenshäufigkeit aus dem Worthäufigkeitsverzeichnis 3103, einem Häufigkeitsergebnisberechnungsmittel zur Berechnung eines Häufigkeitsergebnisses von jedem Dokument auf der Grundlage der Wortauftretenshäufigkeit, einem Dokumentergebnisberechnungsmittel 3108, eine Dokumentergebniserkennung des Übereinstimmungsgrades zwischen jedem Dokument und der Wiederauffindanforderung auf der Grundlage des Häufigkeitsergebnisses, einem Dokumentrangfolgemittel 3109 zum Umordnen der Dokumente in der Reihenfolge der Dokumentergebnisse, und ein Wiederauffindergebnisanzeigemittel 3110 zur Anzeige der sich ergebenden Dokumente, angeordnet in der Reihenfolge des Ergebnisses.
  • 28 zeigt in einem Flußdiagramm einen Wiederauffindvorgang eines Systems zum Wiederauffinden von Dokumenten nach dem derzeitigen Stand der Technik, der die Wiederauffindergebnisse in eine Reihenfolge bringen. Als erstes sieht vor dem Wiederauffinden das Worthäufigkeitsinformationsextrahiermittel 3104 in der Dokumentdaten 3101 nach, um eine Worthäufigkeitsinformation, die der Reihe nach zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der auftretenden Dokumente an das Worthäufigkeitsverzeichnis 3103 ausgegeben wird, wobei ein Worthäufigkeitsverzeichnis im voraus erstellt wird. Bei Schritt 4201 gibt der Anwender, der beabsichtigt, ein Wiederauffinden eines Dokuments auszuführen, die Wiederauffindanforderung über das Wiederauffindanforderungseingabemittel 3105 ein, und bei Schritt 4202 bezieht sich das Worthäufigkeitsberechnungsmittel 3106 auf das Worthäufigkeitsverzeichnis 3103, um eine Häufigkeit des Auftretens TFij des Wortes im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW der Anzahl der Worte im Wörterbuch entspricht), die in der Wiederauffindanforderung enthalten sind, eingegeben übe r das Wiederauffindanforderungseingabemittel 3105 bei einem Dokument Dj (j = 1, 2, ..., ND), und um darüber hinaus die Anzahl der Dokumente NDi, in denen das Wort auftaucht, zu berechnen.
  • Drüber hinaus, berechnet bei Schritt 4203 das Häufigkeitsergebnisberechnungsmittel ein Häufigkeitsergebnis SFj des Dokuments Dj nach einer Gleichung (1) auf der Grundlage der Ausgabe des Häufigkeitsberechnungsmittels 3106. SFj = Σ i(TFij × IDFi) IDFi = 1 – log(NDi/ND) (1)wobei IDFi eine Parameterdarstellung einer Grundlage des Wortes Wi in sämtlichen Dokumenten darstellt.
  • Darüber hinaus erhält bei Schritt 4204 das Dokumentergebnisberechnungsmittel 3108 einen Dokumentergebniserkennung Sj des Übereinstimmungsgrades zwischen dem Dokumentergebniserkennung der Übereinstimmung zwischen dem Dokument Dj und der Wiederauffindanforderung auf der Grundlage des Häufigkeitsergebnisses SFj des Dokuments Dj, ausgegeben vom Häufigkeitsergebnisberechnungsmittel 3107. Bei dem Wiederauffindsystem nach dem Stand der Technik entspricht das Dokumentergebnis Sj dem Häufigkeitsergebnis SFj, wie aus Gleichung (2) hervorgeht: Sj = SFj
  • Darüber hinaus ordnet bei Schritt 4205 das Dokumentrangfolgemittel 3109 die Wiederauffindergebnisse je nach dem Dokumentergebnis um, das beim Dokumentergebnisberechnungsmittel 3108 berechnet wurde, dann gefolgt von Schritt 4206, bei dem das Wiederauffindergebnisanzeigemittel 3110 dem Anwender das Wiederauffindergebnis zeigt.
  • Da jedoch nach der oben angeführten Anordnung nach dm Stand der Technik die Berechnung des Ergebnisses, das für die Rangfolge der Dokumente beim Wiederauffinden in Einheiten des Dokuments unabhängig von seinem Datenfeld gemacht wurde, wird es schwer, die Information wie die Überschrift eines Zeitschriftenartikel oder den Titel einer Erfindung bei einer Patentschrift praktisch anzuwenden.
  • Dokument EP 0 749 603 B1 beschreibt eine Anwenderschnittstelle für ein computerisiertes Volltextdokumentwiederauffindsystem, das eine Anzeige mit einem Wortfenster, bei dem jedes Anfragewort mittels einer unverwechselbaren Darstellung, die einzig mit jedem angezeigten Wort verbunden ist, angezeigt wird. Bei einem nachfolgenden Ergebnisfenster wird jede Dokumentüberschrift oder jeder Titel oder jede Darstellung von einem Indikator begleitet ist, der die gleichen unverwechselbare Darstellung verwendet, um dem Anwender die relativen Beiträge der individuellen Anfrageworte von jedem aufgelisteten Dokument anzuzeigen. Die unverwechselbare Darstellung wird mit einem damit verbundenen gewichteten Erstindikator bei einem Wortfenster zusammengeführt, und beim sich ergebenden Fenster werden die unverwechselbaren Darstellungen ebenfalls mit einem verbundenen gewichteten Zweitindikator zusammengeführt.
  • Aufgabe der vorliegenden Erfindung ist es, ein System zum Wiederauffinden von Dokumenten bereitzustellen, das flexibel eine Wiederauffindanforderung vom Anwender empfängt, und die Wiederauffind- und die Rangfolgevorgänge durchführt, um ein genaues Wiederauffindergebnis mit wenig Ausschuß (unnötigen Daten) erzeugt, und das in der Lage ist, die Wiederauffindzeit als Ganzes auf solch eine Weise zu verkürzen, daß die Wiederauffindergebnis eingeengt werden.
  • Diese Aufgabe wird durch ein System zum Wiederauffinden von Dokumenten nach Patentanspruch 1 erreicht.
  • Vorteilhafte weitere Entwicklungen werden in den Unteransprüchen ausgeführt.
  • Nach einer Betrachtungswiese der Erfindung hat ein System zum Wiederauffinden von Dokumenten, das ein erwünschtes Dokument als Antwort auf eine Wiederauffindanforderung sucht, und die Rangfolge des Wiederauffindergebnisses einstuft, eine Verzeichnisinformation für jede der vielen Datenfelder eines erwünschten Dokuments hat, und ein Datenfeldbewertungseingabemittel enthält, das dem Anwender gestattet, die Bewertung eines Datenfeldes einzuteilen, das die Rangfolge der wiederaufgefundenen Dokumente beeinflußt. Dies erlaubt dem Anwender die Bewertung der Beeinflussung der Reihenfolge des erwünschten Dokument bei jedem Datenfeld einzuteilen, mit dm Ergebnis, daß das Wiederauffinden des von Anwender erwünschten Dokuments mit hoher Genauigkeit ermöglicht wird.
  • Nach einem anderen Gesichtspunkt dieser Erfindung wird ein System zum Wiederauffinden von Dokumenten bereitgestellt, das wiederaufzufindende, erwünschte Dokumente als Antwort auf eine Wiederauffindanforderung sucht, und die wiederaufgefunden Dokumente einstuft, bestehend aus einem Datenfeldworthäufigkeitsverzeichnis zur Speicherung einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument bei jedem Datenfeld; aus einem Worthäufigkeitsinformationsextrahiermittel zum Extrahieren der Worthäufigkeit von jedem der erwünschten Dokumente, die wiederaufgefunden werden sollen, und um sie in den Datenfeldworthäufigkeitsverzeichnis einzutragen; aus einem Wiederauffindanforderungseingabemittel, um dem Anwender die Eingabe der Wiederauffindanforderung zu ermöglichen; aus einem Datenfeldbewertungseingabemittel, um dem Anwender zu ermöglichen, eine Bewertungserkennung eines Einflußgrades des Ergebnisses eines Datenfeldes eines Dokuments bei einem Dokumentergebnis einzugeben; einem Datenfeldworthäufigkeitsberechnungsmittel, um im Datenfeldworthäufigkeitsverzeichnis als Wort im Wörterbuch nachzuschlagen, das in der Wiederauffindanforderung enthalten ist, um eine Häufigkeit des Auftretens des Wortes im Wörterbuch jedes des anfänglichen Dokuments bei jedem Datenfeld zu erhalten; ein Datenfeldhäufigkeitsergebnisberechnungsmittel zur Berechnung einer Häufigkeitsergebniserkennung eines Übereinstimmungsgrades zwischen einem Datenfeld von jedem Dokument und die Wiederauffindanforderung auf der Grundlage des Auftretens der Worthäufigkeit, die beim Datenfeldworthäufigkeitsberechnungsmittel erfaßt wurde; eine Dokumentergebniserkennung eines Übereinstimmungsgrades zwischen jedem der erwünschten Dokumente und der Wiederauffindanforderung auf der Grundlage der Auftreten der Wortauftretenshäufigkeit des Datenfeldes, ausgegeben vom Datenfeldhäufigkeitsergebnisberechnungsmittel, und von der Bewertung, die im Datenfeldbewertungsseingabemittel eingegeben wurde; ein Dokumentrangfolgemittel, um die erwünschten Dokumente umzuordnen, die Wiederauffindergebnisse in der Reihenfolge des Ergebnisses sind, das durch das Dokumentergebnisberechnungsmittel erhalten wurde, und ein Wiederauffindergebnisanzeigemittel zur Anzeige der eingestuften Wiederauffindergebnisse nach der Reihenfolge, die durch das Dokumentrangfolgemittel erhalten wird.
  • Aufgaben und Merkmale der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung der bevorzugten Ausführungsbeispiele anhand der beiliegenden Zeichnung verdeutlicht.
  • 1 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 1, das nicht von den Patentansprüchen abgedeckt ist;
  • 2 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 1;
  • 3 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 2, das nicht durch die Patentansprüche abgedeckt ist;
  • 4 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 2;
  • 5 zeigt in einem Blockdiagram eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem ersten Ausführungsbeispiel der vorliegenden Erfindung;
  • 6 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach einem ersten Ausführungsbeispiel dieser Erfindung;
  • 7 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 3, das nicht durch die Patentansprüche abgedeckt ist;
  • 8 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 3;
  • 9 zeigt ein Blockdiagramm einer Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 4, das nicht durch die Patentansprüche abgedeckt ist;
  • 10 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 4;
  • 11 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 5, das nicht durch die Patentansprüche abgedeckt ist;
  • 12 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 5;
  • 13 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 5;
  • 14 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 5;
  • 15 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 5;
  • 16 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem zweiten Ausführungsbeispiel der vorliegenden Erfindung;
  • 17 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach dem zweiten Ausführungsbeispiel dieser Erfindung;
  • 18 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach dem zweiten Ausführungsbeispiel dieser Erfindung;
  • 19 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach dem zweiten Ausführungsbeispiel dieser Erfindung;
  • 20 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach dem zweiten Ausführungsbeispiel dieser Erfindung;
  • 21 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach einem Beispiel 6, das nicht durch die Patentansprüche abgedeckt ist;
  • 22 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 6;
  • 23 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 6;
  • 24 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 6;
  • 25 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 6;
  • 26 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 6;
  • 27 zeigt in einem Blockdiagramm eine Anordnung eines Systems zum Wiederauffinden von Dokumenten nach dem Stand der Technik;
  • 28 zeigt in einem Flußdiagramm einen Wiederauffindvorgang bei dem System zum Wiederauffinden von Dokumenten nach dem Stand der Technik; und
  • 29 zeigt in einer Darstellung ein Beispiel von Wiederauffindungen vom System zum Wiederauffinden von Dokumenten nach dem Stand der Technik.
  • Die Ausführungsbeispiele und die durch die Patentansprüche nicht abgedeckten Beispiele der vorliegenden Erfindung sind nachstehend anhand der Zeichnung beschrieben.
  • Beispiel 1, nicht mit den Patentansprüchen abgedeckt
  • 1 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 1, das nicht durch die Patentansprüche abgedeckt ist. In 1 enthält das System zum Wiederauffinden von Dokumentdaten 101, die dem Wiederauffinden unterzogen werden, ein Wörterbuch 102, ein Worthäufigkeitsverzeichnis 103, um eine Häufigkeit des Auftretens eines Wortes in einem Wörterbuch in einem erwünschten Dokument abzuspeichern, ein Wortmitauftretensverzeichnis 104, zum Abspeichern Wortmitauftretensinformation, die im erwünschten Dokument erscheint, ein Worthäufigkeitsinformationsextrahiermittel 105 zum Extrahieren der Worthäufigkeitsinformation von den Dokumentdaten 101, und darüber hinaus zum Abspeichern der Information im Worthäufigkeitsverzeichnis 103, ein Wortmitauftretensinformationsextrahiermittel 106, zum Extrahieren der Wortmitauftretensinformation von den Dokumentdaten 101, und um darüber hinaus die Information im Wortmitauftretensverzeichnis 104 abzuspeichern, eine Wiederauffindanforderungseingabemittel 107, über das der Anwender eine Wiederauffindanforderung eingibt, eine Worthäufigkeitsberechnungsmittel 108, um im Worthäufigkeitsverzeichnis 103 nachzuschlagen, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch zu erhalten, das in der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 107 im Dokument, enthalten ist, ein Häufigkeitsergebnisberechnungsmittel 109 zur Berechnung eines Häufigkeitsergebnisses von jedem der Dokumente auf der Grundlage der Worthäufigkeit, das über Worthäufigkeitsberechnungsmittel 108 erhalten wurde, ein Wortmitauftretensinformationsextrahiermittel 110 zum Extrahieren der Wortmitauftretensinformation von der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 107, ein Wortmitauftretensvergleichsprüfungsmittel 111 zur Bezugnahme auf die Inhalte des Wortmitauftretensverzeichnisses 104, um herauszufinden, wie viele Wortmitauftretensbeziehungen, die in der Wiederauffindanforderung enthalten sind, die Ausgaben eines Wortmitauftretensinformationsextrahiermittels 110 erscheinen in jedem Dokument, ein Mitauftretensergebnisberechnungsmittel 112 zur Berechnung der Mitauftretensauswertung jedes Dokuments auf der Grundlage des Grades der Wortmitauftretensbeziehung, die gemeinsam bei der Wiederauffindanforderung und dem Dokument auftritt, und die durch das Wortmitauftretensvergleichsprüfungsmittel 111 erhalten wird, ein Dokumentergebnisberechnungsmittel 113 zur Berechnung eines Dokumentergebnisses auf der Grundlage der Ausgabe des Häufigkeitsergebnisberechnungsmittel 109 und die Ausgabe des Mitauftretensergebnisberechnungsmittels 112, ein Dokumentrangfolgemittel 114 zum Umordnen des Dokuments in der Rangfolge des Ergebnisses, und ein Wiederauffindergebnisanzeigemittel 115 zur Anzeige des sich ergebenden Dokuments, das in der Reihenfolge des Ergebnisses angeordnet wird.
  • 2 zeigt ein Flußdiagramm eines Wiederauffindvorgangs des Systems zum Wiederauffinden von Dokumenten nach Beispiel 1. Vor den Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 105 die Dokumentdaten 101 ab, um die Worthäufigkeitsinformation herauszufinden, die der Reihe nach zusammen mit der Gesamtanzahl der Dokumente und die Anzahl der Dokumente ausgegeben wird, bei denen dieses Wort im Worthäufigkeitsverzeichnis 103 vorhanden ist, während das Wortmitauftretensinformationsextrahiermittel 106 die Dokumentdaten 101 abtastet, um Wortmitauftretensinformation bei jedem der Dokumente zu erhalten, und diese Information an das Wortmitauftretensverzeichnis 104 ausgibt, um ein Verzeichnis zu erstellen. Als ein Verfahren die Wortmitauftretensinformation zu erreichen, gibt es beispielsweise die Möglichkeit, zu entscheiden, daß ein Wortpaar, das in dem gleichen Satz auftritt, in einer Mitauftretensrelation zueinander steht, und um es zu extrahieren oder eine Art Morphemanalyse durchzuführen, um ein Wortpaar abzufragen, das in NP-NP-, Subjekt-Prädikat- oder Objekt-Prädikat-Beziehung zueinander steht.
  • Bei Schritt 201 gibt der Anwender eine Wiederauffindanforderung für das erwünschte Dokument in Form eines Satzes über Verwendung des Wiederauffindanforderungseingabemittels 107 ein. Bei Schritt 202 bezieht sich das Worthäufigkeitsberechnungsmittel 108 auf das Worthäufigkeitsverzeichnis 103, um die Gesamtzahl ND der Dokumente zu erhalten, und darüber hinaus um eine Häufigkeit des Auftretens TFij eines Wortes im Wörterbuch Wi (i = 1, 2, ...; NW, wobei NW der Anzahl der Worte im Wörterbuch entspricht, die im der Wiederauffindanforderung enthalten sind), das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel in ein Dokument Dj (j = 1, 2, ..., ND), und die Anzahl NDi der Dokumente, bei denen dieses Wort auftritt, und sie darüber hinaus an das Häufigkeitsergebnisberechnungsmittel 109 ausgibt.
  • Bei Schritt 203 berechnet das Häufigkeitsergebnisberechnungsmittel 109 eine Häufigkeitsergebniserkennung SFj des Übereinstimmungsgrades zwischen dem Dokument Dj aufgrund der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (1) auf der Grundlage der Gesamtzahl ND der Dokumente, die Anzahl NDi der Dokumente, wobei der Wert Wi erscheint, und der Häufigkeit des Auftretens TFij des Wortes Wi im Dokument Dj, ausgegeben vom Worthäufigkeitsberechnungsmittel 108. Das heißt, das Häufigkeitsergebnis auf der Grundlage dieses Wortes wird zum Häufigkeitsergebnis des Dokuments Dj addiert, um das Häufigkeitsergebnis SFj zu erhalten.
  • Bei Schritt 204 fragt das Wortmitauftretensinformationsextrahiermittel 110 eine Wortmitauftretensrelation Ck (k = 1, 2, ..., NC, wobei NC die Anzahl der in der Wiederauffindanforderung enthaltenen Wortmitauftretensrelationen enthält) von der Wiederauffindanforderung ab, eingegeben über das Wiederauffindanforderungseingabemittel 107, nach dem gleichen Verfahren, das bei der Verzeichniserstellung gewählt wurde. Bei Schritt 205 bezieht sich das Wortmitauftretensrelationsprüfmittel 111 auf das Wortmitauftretensverzeichnis 104, um die Anzahl der Wortmitauftretensrelationen zu berechnen, die im Dokument Dj auftritt, das mit der Wortmitauftretensrelation Ck der Wiederauffindanforderung übereinstimmt, die das Wortmitauftretensinformationsextrahiermittel 110 bereitstellt, und darüber hinaus wird das Berechnungsergebnis an das Mitauftretensergebnisberechnungsmittel 112 ausgegeben.
  • Bei Schritt 206 berechnet das Mitauftretensergebnisberechnungsmittel 112 eine Mitauftretensauswertung SCj des Dokuments Dj auf der Grundlage der Anzahl der Wortmitauftretensrelationen, die mit jedem anderen bei der Wiederauffindanforderung und dem Dokument übereinstimmen. Im Fall des einfachsten Beispiels wird die Anzahl des Mitauftretens unmittelbar als die Mitauftretensauswertung SCj, wie in Gleichung (3) ausgedrückt, verwendet. SCj = NCj (3)
  • Bei Schritt 207 berechnet das Dokumentergebnisberechnungsmittel 113 einen Dokumentergebnisvertreter Sj mit dem Übereinstimmungsgrad zwischen dem Dokument Dj und der Wiederauffindanforderung nach eine Gleichung (4) auf der Grundlage des Häufigkeitsergebnisses, das vom Häufigkeitsergebnisberechnungsmittel 109 ausgegeben wird und dem Mitauftretensergebnis, das vom Mitauftretensergebnisberechnungsmittel 112 ausgegeben wird. Sj = SFj + SCj × constant (4)
  • Bei Schritt 208 ordnet das Dokumentrangfolgemittel 114 die Dokumente in der Rangfolge des abfallenden Dokumentergebnisses Sj von jedem Dokument Dj um, das vom Dokumentergebnisberechnungsmittel 113 ausgegeben wurde, und bei Schritt 209 zeigt das Wiederauffindergebnisanzeigemittel 115 dem Anwender als das Wiederauffindergebnis der sortierten Dokumente an, ausgegeben von der Ausgabe des Dokumentrangfolgemittels 114.
  • Zusätzlich zur Worthäufigkeit, wie oben beschrieben, wird der Einfluß der Rangfolge durch das Nachschlagen der Wortmitauftretensrelation, die in der Wiederauffindanforderung enthalten ist, und durch das erwünschte Dokument bestimmt wird, und daher kann das Dokument, das sich näher an der Wiederauffindabsicht des Anwenders befindet, an einem wesentlicheren Rang beim Wiederauffindergebnis angezeigt werden, und das Wiederauffinden ist mit einem Gütegrad möglich.
  • Beispiel 2, nicht durch die Patentansprüche abgedeckt
  • 3 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 2, das nicht durch die Patentansprüche abgedeckt ist. In 3 besteht das System zum Wiederauffinden aus Dokumentdaten 301, die dem Wiederauffinden unterzogen werden, einem Wörterbuch 302, ein Worthäufigkeitsverzeichnis 303 um eine Häufigkeit des Auftretens eines Wortes in einem Wörterbuch in einem erwünschten Dokument abzuspeichern, einem Worthäufigkeitsinformationsextrahiermittel 304, zum Extrahieren der Worthäufigkeitsinformation von den Dokumentdaten 301, um sie im Worthäufigkeitsverzeichnis 303 abzuspeichern, einem primären Wiederauffindanforderungseingabemittel 305, um dem Anwender zu ermöglichen, eine Wiederauffindanforderung zuzulassen, die der Anwender bevorzugt abhandeln möchte, eine sekundären Wiederauffindanforderungseingabemittel 306, um dem Anwender zu ermöglichen, eine Wiederauffindanforderung mit einer niedrigeren Priorität als die der primären Wiederauffindanforderung zu ermöglichen, einem Worthäufigkeitsberechnungsmittel 307, um im Worthäufigkeitsverzeichnis 303 nachzuschlagen, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch zu erhalten, das in der Wiederauffindanforderung enthalten ist, eingegeben über das primären Wiederauffindanforderungseingabemittel 306 bei jedem Dokument, einem Häufigkeitsergebnisberechnungsmittel 308 zur Berechnung eines Häufigkeitsergebnisses von jedem Dokument auf der Grundlage der Worthäufigkeit, die durch das Worthäufigkeitsberechnungsmittel 307 erhalten wurde, einem Dokumentergebnisberechnungsmittel 309 zur Berechnung eines Dokumentergebnisses von jedem Dokument auf der Grundlage der Ausgabe des Häufigkeitsergebnisberechnungsmittels 308, einem Dokumentrangfolgemittel 310 zum umordnen der Dokumente in der Reihenfolge des Ergebnisses, und eine Wiederauffindergebnisanzeigemittel 311 zur Anzeige der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet sind.
  • 4 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiel 2.
  • Vor allem vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 304 die Dokumentdaten 301 ab, um die Häufigkeit des Auftretens eines Wortes im Wörterbuch des Wörterbuchs 302 bei jedem der Dokumente herauszufinden, mit der Häufigkeit des Auftretens zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente, wo dieses Wort erscheint, das an das Worthäufigkeitsverzeichnis 303 ausgegeben wird, um ein Verzeichnis zu erstellen.
  • Bei Schritt 401 gibt der Anwender eine primären Wiederauffindanforderung ein, eine Wiederauffindanforderung für ein Dokument, das er beabsichtigt zu suchen, durch die Verwendung eines primären Wiederauffindanforderungseingabemittels 305, wohingegen bei Schritt 402 der Anwender eine sekundären Wiederauffindanforderung eingibt, eine Wiederauffindanforderung für ein Dokument mit einer relativ niedrigen Wichtigkeit durch Verwendung des sekundären Wiederauffindanforderungseingabemittels 306.
  • Bei Schritt 403 bezieht sich das Worthäufigkeitsberechnungsmittel 307 auf das Worthäufigkeitsverzeichnis 303, um die Gesamtanzahl ND der Dokumente zu erfassen, und darüber hinaus eine Häufigkeit des Auftretens TFij des Wortes im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW der Anzahl der Worte im Wörterbuch entspricht, die in der Wiederauffindanforderung enthalten sind) zu erreichen, die in der Wiederauffindanforderung enthalten ist, eingegeben über das primären Wiederauffindanforderungseingabemittel 305 und das sekundären Wiederauffindanforderungseingabemittel 306, in ein Dokument Dj (j = 2, 2, ..., ND) und die Anzahl NDi der Dokumente, bei denen dieses Wort erscheint, und sie darüber hinaus an das Häufigkeitsergebnisberechnungsmittel 308 ausgibt. Bei Schritt 404 nimmt das Häufigkeitsberechnungsmittel 307 einen Parameter WTi, abhängig davon, ob das Wort Wi in der primären Wiederauffindanforderung oder in der sekundären Wiederauffindanforderung enthalten ist. Darüber hinaus berechne t bei Schritt 405 das Häufigkeitsergebnisberechnungsmittel 308 einen Häufigkeitsergebnisvertreter SFj des Übereinstimmungsgrades zwischen dem Dokument Dj auf der Grundlage der Worthäufigkeit und der Wiederauffindanforderung nach der folgenden Gleichung (5) auf der Grundlage der Gesamtanzahl ND der Dokumente, der Anzahl NDi der Dokumente, bei denen das Wort Wi auftaucht, der Häufigkeit des Auftretens TFij des Wortes Wi im Dokument Dj und der Gewichtungsparameter WTi des Worts Wi, den das Worthäufigkeitsberechnungsmittel 307 ausgibt. Das heißt, das Häufigkeitsergebnis auf der Grundlage dieses Worts wird zum Häufigkeitsergebnis des Dokuments Dj addiert, um das Häufigkeitsergebnis SFj zu erhalten. SFj = Σ i(TFij × IDFi × WTi) IDFi = 1 – log(NDi/ND), (5)wobei IDFi einen Parametervertreter einer Grundlage des Worts Wi bei sämtlichen Dokumenten bezeichnet.
  • Bei Schritt 406 berechnet das Dokumentergebnisberechnungsmittel 309 ein Dokumentergebniserkennung Sj vom Übereinstimmungsgrad zwischen dem Dokument Dj und der Wiederauffindanforderung nach der oben angeführten Gleichung (2) als eine Funktion des Häufigkeitsergebnisses, ausgegeben vom Häufigkeitsergebnisberechnungsmittel 308. Bei Schritt 407 ordnet das Dokumentrangfolgemittel 310 die Dokumente in der Rangfolge des absteigenden Dokumentergebnisses Sj von jedem Dokument Dj vom Dokumentergebnisberechnungsmittel 309 um, und bei Schritt 407 zeigt das Wiederauffindergebnisanzeigemittel 311 ein Wiederauffindergebnis dem Anwender die sortierten Dokumente an, die von der Ausgabe der Dokumentrangfolgemittel 310 erhalten wurden.
  • Wie oben beschrieben, wird jeder Wiederauffindanforderung, die der Anwender eingibt, eine Priorität erteilt, und daher ist es möglich, flexibel die Wiederauffindungsabsicht des Anwenders auszudrücken, und darüber hinaus, das tatsächliche Wiederauffinden durchzuführen.
  • Erstes Ausführungsbeispiel
  • 5 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem ersten Ausführungsbeispiel der vorliegenden Erfindung. Enthalten sind im System zum Wiederauffinden von Dokumenten von 5 Dokumentdaten 501, die Objekt des Wiederauffindens sind, ein Wörterbuch 502, ein Datenfeldworthäufigkeitsverzeichnis 503 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument bei jedem Datenfeld, ein Worthäufigkeitsinformationsextrahiermittel 504 zum Extrahieren der Worthäufigkeitsinformation von den Dokumentdaten 501 und zum Einbringen dieser Daten in das Datenfeldworthäufigkeitsverzeichnis 503, ein Wiederauffindanforderungseingabemittel 505, um dem Anwender zu ermöglichen eine Wiederauffindanforderung einzugeben, ein Datenfeldbewertungseingabemittel 506, um dem Anwender zu ermöglichen, eine Bewertungserkennung des Grades des Einflusses eines Ergebnisses eines Datenfeldes eines Dokuments bei einem Dokumentergebnis einzugeben, ein Datenfeldworthäufigkeitsberechnungsmittel 507 um das Datenfeldworthäufigkeitsverzeichnis 503 nachzuschlagen, ausgedrückt durch ein Wort im Wörterbuch, das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel 505, um eine Häufigkeit des Auftretens eines Worts bei jedem Dokument zu erhalten, ein Datenfeldhäufigkeitsergebnisberechnungsmittel 508 zur Berechnung eines Häufigkeitsergebnisses bei jedem Datenfeld jedes Dokuments auf der Grundlage der Worthäufigkeit, die vom Datenfeldworthäufigkeitsberechnungsmittel 507 erfaßt wurde, eine Dokumentergebnisberechnungsmittel 509 zur Berechnung eines Dokumentergebnisses von jedem Dokument auf der Grundlage der Ausgabe des Datenfeldhäufigkeitsergebnisberechnungsmittel s 508 und der Eingabe in das Datenfeldbewertungseingabemittel 506, ein Dokumentrangfolgemittel 510, um Dokumente in der Reihenfolge des Ergebnisses umzuordnen, und ein Wiederauffindergebnisanzeigemittel 511 zur Anzeige der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet sind.
  • 6 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach einem ersten Ausführungsbeispiel der Erfindung. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 504 die Dokumentdaten 501 ab, um die Häufigkeit des Auftretens des Wortes im Wörterbuch, das in Wörterbuch 502 bei jedem der Dokumente nachzuschlagen, und um die Daten zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente auszugeben, bei denen dieses Wort im Datenfeldworthäufigkeitsverzeichnis 503 auftaucht, wobei im Voraus ein Verzeichnis erstellt wurde.
  • Bei Schritt 601 gibt der Anwender über das Wiederauffindanforderungseingabemittel 505 eine Wiederauffindanforderungen, die er wünscht. Bei Schritt 602 gibt der Anwender über das Datenfeldbewertungseingabemittel 506 eine Bewertung Rk des Einflusses eines Ergebnisses eines Datenfeldes Fk (k = 1, 2, ..., NF, wobei NF die Gesamtanzahl der Datenfelder bezeichnet) bei der Rangfolge ein.
  • Bei Schritt 603 bezieht sich das Datenfeldworthäufigkeitsberechnungsmittel 507 auf das Datenfeldworthäufigkeitsverzeichnis 503, um die Gesamtanzahl ND der Dokumente zu erhalten und um darüber hinaus eine Häufigkeit des Auftretens TFijk eines Wortes im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW zur Anzahl der Worte im Wörterbuch, enthalten in der Wiederauffindanforderung, gehört) zu erreichen, das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel 505 bei einem Datenfeld Fk eines Dokuments Dj (j = 1, 2, ..., ND) und die Anzahl NDik der Dokumente, wobei dieses Wort im Datenfeld Fk erscheint, und darüber hinaus werden die Worte an das Datenfeldhäufigkeitsergebnisberechnungsmittel 508 ausgegeben.
  • Bei Schritt 604 berechnet das Datenfeldhäufigkeitsergebnisberechnungsmittel 508 einen Häufigkeitsergebnisvertreter SFjk des Übereinstimmungsgrades zwischen dem Datenfeld Fk des Dokuments Dj auf der Grundlage der Worthäufigkeit und der Wiederauffindanforderung nach der folgenden Gleichung (6) auf der Grundlage der Gesamtanzahl ND der Dokumente, der Anzahl NDik der Dokumente, wo das Wort Wi im Datenfeld Fk und in der Auftretenshäufigkeit TFijk des Wortes Wi im Datenfeld des Dokuments Dj, ausgegeben vom Datenfeldworthäufigkeitsberechnungsmittel 507, auftritt. Das heißt, das auf diesem Wort basierende Häufigkeitsergebnis des Datenfeldes Fk des Dokuments Dj wird addiert, um das Häufigkeitsergebnis SFjk zu erhalten. SFjk = Σ i(TFjk × IDFik)i IDFik = 1 – log (NDik/ND). (6)
  • Bei Schritt 605 berechnet das Dokumentergebnisberechnungsmittel 509 eine Dokumentergebniserkennung Sj des Übereinstimmungsgrades zwischen dem Dokument Dj und der Wiederauffindanforderung nach der folgenden Gleichung (7) auf der Grundlage des Häufigkeitsergebnisses von jedem Datenfeld, ausgegeben vom Datenfeldhäufigkeitsergebnisberechnungsmittel 508, und der Bewertung RK des Einflusses des Datenfeldes Fk, das an dem Ergebnisdatenfeldbewertungseingabemittel 506 eingegeben wird. Das heißt, die Berechnung der Addition des Häufigkeitsergebnisses SFjk des Datenfeldes Fk des Dokuments Dj an dem Dokumentergebnis Sj wird als eine Funktion der Datenfeldbewertung Rk vorgenommen. Sj = Σ k(SFjk × Rk). (7)
  • Bei Schritt 606 ordnet das Dokumentrangfolgemittel 510 die Dokumente in der Reihenfolge des absteigenden Dokumentergebnisses Sj von jedem Dokument Dj, ausgegeben vom Dokumentergebnisberechnungsmittel 509 um, und bei Schritt 607 zeigt das Wiederauffindergebnisanzeigemittel 511 dem Anwender als ein Wiederauffindergebnis des sortierten Dokuments an, das von der Ausgabe des Dokumentrangfolgemittel 510 erfolgte.
  • Wie oben beschrieben kann der Anwender die Bewertung der Ergebniszuordnung des Wiederauffinddatenfeldes ändern, und folglich ist es möglich, flexibel die Wiederauffindabsicht des Anwenders auszudrücken, und darüber hinaus das wirksame Wiederauffinden zu erreichen.
  • Beispiel 3, nicht durch die Patentansprüche abgedeckt
  • 7 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 3, das nicht durch die Patentansprüche abgedeckt ist. In 7 besteht das System zum Wiederauffinden von Dokumenten aus: Dokumentdaten 701, die Objekt des Wiederauffindens sind, einem Wörterbuch 702, einem Worthäufigkeitsverzeichnis 703 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument, einem Worthäufigkeitsinformationsextrahiermittel 705 zum Extrahieren von Worthäufigkeitsinformation von den Dokumentdaten 701 und darüber hinaus zum Abspeichern der Information in das Worthäufigkeitsverzeichnis 703, einem Wiederauffindanforderungseingabemittel 707 durch das der Anwender eine Wiederauffindanforderung eingibt, einem Worthäufigkeitsberechnungsmittel 708 zum Nachschlagen im Worthäufigkeitsverzeichnis 703, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch zu berechnen, das sich in der Wiederauffindanforderung befindet, eingegeben über das Wiederauffindanforderungseingabemittel 707 in ein Dokument, einem Häufigkeitsergebnisberechnungsmittel 709 zur Berechnung eines Ergebnisses von jedem Dokument auf der Grundlage der Worthäufigkeit, die im Worthäufigkeitsberechnungsmittel 708 erreicht wurde, einem Auftretenswortanzahlberechnungsmittel 710 zum Nachschlagen im Worthäufigkeitsverzeichnis 703, um herauszufinden, wieviel Worte der Worte, die in der Wiederauffindanforderung enthalten sind, eingegeben über das Wiederauffindanforderungseingabemittel 707, im Dokument erscheinen, einem Auftretenswortanzahlergebnisberechnungsmittel 711, um ein Ergebnis zu erhalten, das zu jedem Dokument auf der Grundlage der Anzahl der auftretenden Wörter addiert wird, die bei dem Auftretenswortanzahlberechnungsmittel 710 erreicht wurde, einem Dokumentergebnisberechnungsmittel 712 zur Berechnung eines Dokumentergebnisses von jedem Dokument auf der Grundlage de Ausgaben des Häufigkeitsergebnisberechnungsmittel 722, einem Dokumentrangfolgemittel 713 zum Umordnen der Dokumente in der Reihenfolge des Ergebnisses und Wiederauffindergebnisanzeigemittel 714 zur Anzeige der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet werden.
  • 8 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Systems zum Wiederauffinden von Dokumenten nach Beispiels 3. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 705 die Dokumentdaten 701 ab, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuchs 702 bei jedem Dokument herauszufinden, und darüber hinaus die Häufigkeit des Auftretens zusammen mit der Gesamtanzahl der Dokumente und die Anzahl der Dokumente, wo dieses Wort beim Worthäufigkeitsverzeichnis 703 erscheint, auszugeben, um ein Verzeichnis zu erstellen.
  • Bei Schritt 801 gibt der Anwender über das Wiederauffindanforderungseingabemittel 707 eine Wiederauffindanforderung für ein Dokument ein, das der Anwender sucht. Es ist zweckmäßig, eine Vielzahl von Worten als Wiederauffindanforderung einzugeben oder einen Satz einzugeben und Worte aus dem Satz über die zusätzliche Verwendung eines Wortextrahiermittels abzuleiten.
  • Bei Schritt 802 bezieht sich das Worthäufigkeitsberechnungsmittel 708 und das Worthäufigkeitsverzeichnis 703, um die Gesamtanzahl N des Dokuments zu erhalten, und um darüber hinaus Häufigkeiten des Auftretens TFij einer Vielzahl von Worten im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW zu der Anzahl von Worten im Wörterbuch W gehört, die in der Wiederauffindanforderung enthalten sind), die in der Wiederauffindanforderung enthalten, eingegeben über das Wiederauffindanforderungseingabemittel 707, in einem Dokument Dj (j = 1, 2, ..., ND) und der Anzahl NDi von Dokumenten, bei dem die Worte Wi erscheinen und darüber hinaus werden sie an das Häufigkeitsergebnisberechnungsmittel 709 ausgegeben.
  • Bei Schritt 803 berechnet das Häufigkeitsergebnisberechnungsmittel 709 eine Häufigkeitsergebniserkennung SFj des Übereinstimmungsgrades zwischen dem des Übereinstimmungsgrades Dj aufgrund der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (1) auf der Grundlage der Gesamtanzahl ND der Dokumente, der Anzahl NDi der Dokumente, in denen das Wort Wi auftritt und der Auftretenshäufigkeit TFij des Wortes Wi im Dokument Dj. Das heißt, das Häufigkeitsergebnis auf der Grundlage dieses Wortes wird zum Häufigkeitsergebnis des Dokument Dj addiert, um das Häufigkeitsergebnis SFj zu erhalten.
  • Bei Schritt 804 vergleicht das Auftretenswortanzahlberechnungsmittel 710 die Information des Wortes im Wörterbuch, das im Dokument Dj erscheint, das schon erhalten wurde, bevor der Schritt 802 mit einer Vielzahl von Worten Wi, die in der Wiederauffindanforderung enthalten sind, eingegeben über das Wiederauffindanforderungseingabemittel 707, mit der Anzahl NAj der im Dokument Dj auftretenden Worte außerhalb der Vielzahl von Worten Wi berechnet werden, und an das Auftretenswortanzahlergebnisberechnungsmittel 711 ausgegeben werden.
  • Bei Schritt 805 berechnet das Auftretenswortanzahlergebnisberechnungsmittel 711 ein Auftretenswortanzahlergebnis SAj auf der Grundlage der Worte, die in der Wiederauffindanforderung enthalten sind, ausgegeben vom Auftretenswortanzahlberechnungsmittel 710, der Anzahl NAj der Worte, die beispielsweise im Dokument Dj auftreten, nach der folgenden Gleichung (8). SAj = NAj – 1. (8)
  • Bei Schritt 806 berechnet das Dokumentergebnisberechnungsmittel 712 eine Ergebniserkennung Sj des Übereinstimmungsgrades zwischen der Wiederauffindanforderung und dem Dokument Dj nach der folgenden Gleichung (9) auf der Grundlage des Häufigkeitsergebnisses SFj, das das Häufigkeitsergebnisberechnungsmittel 709 ausgibt, und des Auftretenswortanzahlergebnisberechnungsmittels SAj, das das Auftretenswortanzahlergebnisberechnungsmittel 711 ausgibt. Sj = SFj + SAj × constant. (9)
  • Die Vorbereitung des Auftretenswortergebnisses SAj kann das Ergebnis des Dokuments weiter erhöhen, einschließlich der Worte, die die Wiederauffindanforderung hat, wodurch die bevorzugte Anzeige hiervon durchführbar ist. Hinzu kommt, daß der Grad der bevorzugten Anzeige auf der Grundlage der Anzahl der Auftretensworte in der Weise variabel wird, daß sich der Wert der Konstanten in Gleichung (9) ändert.
  • Bei Schritt 807 ordnet das Dokumentrangfolgemittel 713 die Dokumente Dj in der Rangfolge des absteigenden Dokumentergebnisses Sj, das vom Dokumentergebnisberechnungsmittel 712 ausgegeben wurde, um. Darüber hinaus zeigt bei Schritt 808 das Wiederauffindergebnisanzeigemittel 714 dem Anwender ein Wiederauffindergebnis des sortierten Dokuments an, das über die Ausgabe des Dokumentrangfolgemittels 713 erhalten wurde.
  • Wie oben beschrieben, ist es im Fall, bei dem die Wiederauffindanforderung eine Vielzahl von Worten enthält, vermeidbar, daß eine Dokument, das nur ein sehr häufiges Wort enthält, beim Wiederauffindergebnis hoch eingestuft wird, das ein wirksames Wiederauffinden ermöglicht.
  • Beispiel 4, nicht von den Patentansprüchen abgedeckt
  • 9 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 4, das nicht durch die Patentansprüche abgedeckt ist. In 9 besteht das System zum Wiederauffinden von Dokumenten aus Dokumentdaten 901, die Objekt des Wiederauffindens sind, einem Wörterbuch 902, einem Worthäufigkeitsverzeichnis 903 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument, einem Wortauftretensstellenverzeichnis 904 zum Abspeichern eines Wortes, das in dem erwünschte Dokument auftritt, einem Worthäufigkeitsinformationsextrahiermittel 905 zum Extrahieren von Worthäufigkeitsinformation von den Dokumentdaten 901 und darüber hinaus zum Abspeichern der Information in das Worthäufigkeitsverzeichnis 903, einem Wortauftretensstelleninformationsextrahiermittel 906 zum Erfassen der Wortstelleninformation von den Dokumentdaten 901, und um sie darüber hinaus im Wortauftretensstellenverzeichnis 904 abzuspeichern, einem Wiederauffindanforderungseingabemittel 907 durch das der Anwender eine Wiederauffindanforderung eingibt, ein Worthäufigkeitsberechnungsmittel 908 zum Nachschlagen im Worthäufigkeitsverzeichnis 903, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch zu berechnen, das sich in der Wiederauffindanforderung befindet, eingegeben über das Wiederauffindanforderungseingabemittel 907 in ein Dokument, einem Häufigkeitsergebnisberechnungsmittel 909 zur Berechnung eines Ergebnisses von jedem Dokument auf der Grundlage der Worthäufigkeit, die im Worthäufigkeitsberechnungsmittel 908 erreicht wurde, einem Auftretenswortanzahlberechnungsmittel 910, um auf das Wortauftretensstellenverzeichnis 904 Bezug zu nehmen, um eine Auftretensstelle eines Wortes zu erhalten, das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel 907 in das Dokument, einem Wortabstandsberechnungsmittel 911 zur Berechnung Grades des Abstands zwischen Worten auf der Grundlage der Ausgabe des Wortauftretensstellenberechnungsmittels 910, einem Abstandsergebnisberechnungsmittel 912, um ein Ergebnis zu erreichen, das zu jedem Dokument auf der Grundlage der Ausgabe des Wortabstandsberechnungsmittels 911 addiert werden soll, einem Dokumentergebnisberechnungsmittel 913 zur Berechnung eine s Ergebnisses von jedem Dokument auf der Grundlage der Ausgaben des Häufigkeitsergebnisberechnungsmittels 909 und des Abstandsergebnisberechnungsmittels 912, einem Dokumentrangfolgemittel 914 zum Umordnen der Dokumente in der Reihenfolge des Ergebnisses und einem Wiederauffindergebnisanzeigemittel 915 zur Anzeige der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet werden.
  • 10 zeigt in einem Flußdiagramm einen Wiederauffindvorgang des Beispiels 4. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 905 die Dokumentdaten 901 ab, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuchs 902 bei jedem Dokument herauszufinden, um sie zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente auszugeben, wobei dieses Wort beim Worthäufigkeitsverzeichnis 903 erscheint, wohingegen das Wortauftretensstelleninformationsextrahiermittel 906 die Auftretensstelle des Wortes im Wörterbuch bei jedem Dokument herausfindet, um es an das Wortauftretensstellenverzeichnis 904 auszugeben, um ein Verzeichnis zu erstellen.
  • Bei Schritt 1001 gibt der Anwender über das Wiederauffindanforderungseingabemittel 907 eine Vielzahl von Worten als eine Wiederauffindanforderung für das erwünschte Dokument ein. Es ist auch zweckmäßig, daß der Anwender einen Satz als eine Wiederauffindanforderung eingibt, und um Worte vom Satz über ein zusätzlich bereitgestelltes Wortextrahiermittel abzuzweigen.
  • Bei Schritt 1002 bezieht sich das Worthäufigkeitsberechnungsmittel 908 auf das Worthäufigkeitsverzeichnis 903, um die Gesamtanzahl ND des Dokuments herauszufinden, und um darüber hinaus eine Häufigkeit des Auftretens TFij eines Worts im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW zur Anzahl von Worten im Wörterbuch gehört, die in der Wiederauffindanforderung enthalten sind) zu kennen, das in der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 907, bei einem Dokument Dj (j = 1, 2, ..., ND) und der Anzahl NDi von Dokumenten enthalten ist, bei dem diese Worte Wi erscheinen und darüber hinaus werden sie an das Häufigkeitsergebnisberechnungsmittel 909 ausgegeben.
  • Bei Schritt 1003 bezieht sich das Wortauftretensstellenberechnungsmittel 910 auf das Wortauftretensstellenverzeichnis 904, um sämtliche Auftretensstellen der Vielzahl von Worten Wi, eingegeben durch das Wiederauffindanforderungseingabemittel 907, bei dem Dokument Dj zu erfassen, um sie an das Wortabstandsberechnungsmittel 911 auszugeben. Bei Schritt 1004 berechnet das Häufigkeitsergebnisberechnungsmittel 909 eine Häufigkeitsergebniserkennung SFj des Übereinstimmungsgrades zwischen dem Dokument Dj auf der Grundlage der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (1) auf der Grundlage der Gesamtanzahl ND der Dokumente, der Anzahl NDi der Dokumente, bei denen die Worte erscheinen, und der Auftretenshäufigkeit TFij der Worte Wi beim Dokument Dj. Das heißt, das Häufigkeitsergebnis auf der Grundlage dieses Wortes wird zum Häufigkeitsergebnis des Dokuments Dj addiert, wodurch das Häufigkeitsergebnis SFj berechnet wird.
  • Bei Schritt 1005 berechnet das Wortabstandsberechnungsmittel 911 einen Abstand DSTjk zwischen zwei Worten, ausgedrückt durch die Kombinationen Pk (k = 1, 2, ..., NP, wobei NP die Anzahl der Kombinationen sämtlicher Auftretensstellen der verschiedenen Worte darstellt) sämtlicher Auftretensstellen der verschiedenen Worte auf der Grundlage der Auftretensstelle jedes Wortes Wi beim Dokument Dj, ausgegeben vom Wortauftretensstellenberechnungsmittel 910, und der Wortlänge, und bei Schritt 1006 wird ein Wortabstand NEjk von DSTjk berechnet. Der Wortabstand kann beispielsweise durch folgende Gleichung (10) vorgegeben werden: NEjk = 1/(DSTjk + 1) (10)
  • Da übrigens der Grad des Wortabstands von allen Kombinationen erhalten wird, erfordert dies hohe Berechnungskosten, wobei es möglich ist, daß ein Schwellenwert d eingestellt wird, wodurch die Berechnung nur für Kombinationen der Auftretensstellen durchgeführt wird, die einen Abstand DSTjk unterhalb des Wertes d haben, oder der Anwender begrenzt die Wortpaare, die der Berechnung des Abstands unterworfen werden.
  • Bei Schritt 1007 berechnet das Abstandsergebnisberechnungsmittel 912 ein Abstandsergebnis SNj von jedem Dokument Dj nach der folgenden Gleichung (11) als eine Funktion des Wortabstands NEjk, der vom Wortabstandsberechnungsmittel 911 ausgegeben wird. Genauer: Der berechnete Wortabstand NEjk wird zum Abstandsergebnis des Dokuments Dj addiert, wobei das Abstandsergebnis SNj erhalten wird. SNj = Σ k(NEjk). (11)
  • Bei Schritt 1008 berechnet das Dokumentergebnisberechnungsmittel 913 ein Ergebnis Sj, das heißt, der Übereinstimmungsgrad zwischen der Wiederauffindanforderung und dem Dokument Dj nach der folgenden Gleichung (12) auf der Grundlage des Häufigkeitsergebnisses SFj, das durch das Häufigkeitsergebnisberechnungsmittel 909 ausgegeben wird, und dem Abstandsergebnis SNj, das vom Abstandsergebnisberechnungsmittel 912 ausgegeben wird. Sj = SFj + SNj × constant. (12)
  • Auf diese Weise kann die Vorbereitung für das Abstandsergebnis SNj das Ergebnis des Dokuments erhöhen, bei dem unterschiedliche Worte, die in der Wiederauffindanforderung enthalten sind, in enger Beziehung zueinander erscheinen, und darüber hinaus wird eine bevorzugte Anzeige ermöglicht. Hinzu kommt, daß die Änderung des Wertes der Konstanten in Gleichung (12) die Variation der bevorzugten Anzeige auf der Grundlage des Wortabstandgrades gestattet.
  • Bei Schritt 1009 ordnet das Dokumentrangfolgemittel 924 die Dokumente in der Rangfolge des absteigenden Dokumentergebnisses von jedem Dokument Dj, ausgegeben vom Dokumentergebnisberechnungsmittel 913, um. Darüber hinaus zeigt bei Schritt 1010 das Wiederauffindergebnisanzeigemittel 915 dem Anwender als das Wiederauffindergebnis die sortierten Dokumente an, die von der Ausgabe der Dokumentrangfolgemittel 914 erhalten wurden.
  • Im Fällen, bei denen es mit der oben beschriebenen Anordnung nicht nützlich ist, die Wiederauffindanforderung einzusetzen, wenn nicht eine Vielzahl von in der Wiederauffindanforderung enthaltenen Worten in enger Beziehung zueinander auftreten, ist falscher Gebrauch, daß nicht erforderliche Dokumente eine höhere Rangfolge voraussetzen, zu vermeiden, um auf diese Weise das wirksame Wiederauffinden auszuführen.
  • Beispiel 5, nicht durch die Patentansprüche abgedeckt
  • 11 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 5, das nicht durch die Patentansprüche abgedeckt ist. In 11 besteht das System zum Wiederauffinden von Dokumenten aus: Dokumentdaten 1401, die Objekt des Wiederauffindens sind, einem Wörterbuch 1402, einem Worthäufigkeitsverzeichnis 1403 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument, einem Wortmitauftretensverzeichnis 1404 zum Abspeichern von Wortmitauftretensinformation, das in dem erwünschte Dokument auftritt, einem Worthäufigkeitsinformationsextrahiermittel 1405 zum Extrahieren von Worthäufigkeitsinformation von den Dokumentdaten 1401 und darüber hinaus zum Abspeichern der Information in das Worthäufigkeitsverzeichnis 1403, einem Wortmitauftretensinformationsextrahiermittel 1406 zum Extrahieren der Wortauftretensinformation von den Dokumentdaten 1401, und um sie darüber hinaus im Wortmitauftretensverzeichnis 1404 abzuspeichern, einem primären Wiederauffindanforderungseingabemittel 1407, um dem Anwender zu ermöglichen, eine Wiederauffindanforderung einzugeben, der der Anwender Bedeutung beimißt, einem sekundären Wiederauffindanforderungseingabemittel 1408, um dem Anwender zu ermöglichen, eine Wiederauffindanforderung einzugeben, der der Anwender im Vergleich zur primären Wiederauffindanforderung weniger Bedeutung beimißt, einem Worthäufigkeitsberechnungsmittel 1909 zum Nachschlagen im Worthäufigkeitsverzeichnis 1403, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch zu erreichen, das sich in der Wiederauffindanforderung befindet, eingegeben über das primäre Wiederauffindanforderungseingabemittel 1407 und das sekundäre Wiederauffindanforderungseingabemittel 1410 in ein Dokument, einem Häufigkeitsergebnisberechnungsmittel 1410 zur Berechnung eines Häufigkeitsergebnisses von jedem Dokument auf der Grundlage der Wortauftretenshäufigkeit, die im Worthäufigkeitsberechnungsmittel 1409 erreicht wurde, einem Wortmitauftretensinformationsextrahiermittel 1411 zur Herleitung der Wortauftretensinformation von der Wiederauffindanforderung, eingegeben über das primäre Wiederauffindanforderungseingabemittel 1407 und das sekundäre Wiederauffindanforderungseingabemittel 1408, einem Wortmitauftretensrelationsprüfmittel 1412, um Bezug auf die Inhalte des Wortmitauftretensverzeichnisses 1404 zu nehmen, um die Anzahl der Wortmitauftretensrelationen zu erhalten, die sich im Wiederauffindanforderung befinden, ausgegeben vom Wortmitauftretensinformationsextrahiermittel 1411, und das bei jedem Dokument erscheint, einem Mitauftretensergebnisberechnungsmittel 1413, um ein Mitauftretensergebnis von jeden Dokument auf der Grundlage der Anzahl der Wortmitauftretensrelationen, die durch das Wortmitauftretensrelationsprüfmittel 1412 erreicht wurden, und die im allgemeinen im Wiederauffindanforderung und im Dokument erscheinen, einem Dokumentergebnisberechnungsmittel 1414 zur Berechnung des entgültigen Ergebnisses auf der Grundlage der Ausgabe des Häufigkeitsergebnisberechnungsmittels 1413 und der Ausgabe des Mitauftretensergebnisberechnungsmittels 1413, ein Dokumentrangfolgemittel 1415 zum Umordnen der Dokumente in die Reihenfolge des Ergebnisses und einem Wiederauffindergebnisanzeigemittel 1416 zum Anzeigen der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet werden.
  • Die 12 bis 15 zeigen Flußdiagramme eines Wiederauffindvorgangs beim System zum Wiederauffinden von Dokumenten nach Beispiel 5. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 1405 die Dokumentdaten 1401 ab, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch, das im Wörterbuch 1402 enthalten ist, bei jedem Dokument nachzuschlagen, und es gibt die Auftretenshäufigkeit zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente aus, bei denen dieses Wort im Worthäufigkeitsverzeichnis 1403 auftaucht, wobei das Wortmitauftretensinformationsextrahiermittel 1406 die Dokumentdaten 1401 abtastet, um die Wortmitauftretensinformation bei jedem Dokument zu erhalten, und es gibt die Information an das Wortmitauftretensverzeichnis 1404 aus, wobei im Voraus ein Verzeichnis erstellt wurde. Ein Verfahren zum Erreichen der Wortmitauftretensinformation ist beispielsweise ein Weg der Entscheidung, daß ein Wortpaar, das im gleichen Satz vorkommt, in einer Mitauftretensrelation zueinander steht und indem sie abgefragt werden oder ein Weg zur Ausführung einer Morphemanalyse, um ein Wortpaar zu extrahieren, das sich in einer NP-NP-, einer Subjekt-Prädikat oder Objekt-Prädikat-Beziehung befindet.
  • Bei Schritt 1501 verwendet der Anwender das primäre Wiederauffindanforderungseingabemittel 1407, um eine primäre Wiederauffindanforderung für ein Dokument einzugeben, das der Anwender suchen möchte, und dem der Anwender Bedeutung beimißt. Hinzu kommt, daß der Anwender bei Schritt 1502 ein sekundäres Wiederauffindanforderungseingabemittel 1408 verwendet, um eine sekundäre Wiederauffindanforderung einzugeben, dem der Anwender im Vergleich zur primären Wiederauffindanforderung weniger Bedeutung beimißt.
  • Bei Schritt 1503 bezieht sich das Worthäufigkeitsberechnungsmittel 1409 auf das Worthäufigkeitsverzeichnis 1403, um die Gesamtanzahl ND der Dokumente zu erhalten und darüber hinaus, um eine Häufigkeit des Auftretens TFij des Wortes im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW der Anzahl der Wortes im Wörterbuch Wi entspricht, die in der Wiederauffindanforderung enthalten sind), das in den Wiederauffindanforderungen enthalten ist, eingegeben über das primäre Wiederauffindanforderungseingabemittel 1407 und das sekundäre Wiederauffindanforderungseingabemittel 1408 bei einem Dokument Dj (j = 1, 2, ..., ND), und die Anzahl NDi der Dokumente, bei denen das Wort auftritt. Bei Schritt 1504 wählt das Worthäufigkeitsberechnungsmittel 1409 einen Gewichtungsparameter WTi auf der Grundlage aus, ob das Wort Wi in der primären Wiederauffindanforderung oder in der sekundären Wiederauffindanforderung enthalten ist und darüber hinaus gibt es den Parameter an das Häufigkeitsergebnisberechnungsmittel 1410 aus.
  • Bei Schritt 1505 berechnet das Häufigkeitsergebnisberechnungsmittel 1410 einen Häufigkeitsergebnisvertreter SFj des Übereinstimmungsgrades zwischen dem Dokuments Dj auf der Grundlage der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (5) auf der Grundlage der Gesamtanzahl ND des Dokuments, der Anzahl NDi der Dokumente, wobei das Wort Wi erscheint, die Auftretenshäufigkeit TFijk des Wortes Wi im Dokuments Dj, und der Gewichtungsparameter WTi für das Wort Wi des Häufigkeitsergebnisberechnungsmittels 1409 wird hierauf angewendet und ausgegeben wird das Häufigkeitsergebnis SFj an das Dokumentergebnisberechnungsmittel 1414 aus. Das heißt, das Häufigkeitsergebnis aufgrund dieses Wortes wird zum Häufigkeitsergebnis des Dokuments Dj addiert.
  • Bei Schritt 1506 extrahiert das Wortmitauftretensinformationsextrahiermittel 1411 eine primäre Mitauftretensrelation Csk (k = 1, 2, ..., NCs, wobei NCs die Anzahl der Wortmitauftretensrelationen bezeichnet, die sich in der primäre Wiederauffindanforderung befindet) von der primäre Wiederauffindanforderung, eingegeben vom primären Wiederauffindanforderungseingabemittel 1407, auf dem gleichen Weg wie bei der Verzeichniserstellung, und sie gibt die extrahierte primäre Mitauftretensrelation Csk an das Wortmitauftretensrelationsprüfmittel 1412 aus.
  • Bei Schritt 1507 bezieht sich das Wortmitauftretensrelationsprüfmittel 1412 auf das Wortmitauftretensverzeichnis 1404, um die Anzahl NCsj der Wortmitauftretensrelationen der Wortmitauftretensrelationen, die im Dokument Dj auftreten, zu berechnen, die mit der primäre Mitauftretensrelation Csk, die vom Wortmitauftretensinformationsextrahiermittel 1411 erhalten wurde, übereinstimmen, und die resultierenden NCsj werden an das Mitauftretensergebnisberechnungsmittel 1413 ausgegeben.
  • Bei Schritt 1508 extrahiert das Wortmitauftretensinformationsextrahiermittel 1411 eine sekundäre Mitauftretensrelation Cfm (m = 1, 2, ..., NCf, wobei NCf die Anzahl der Wortmitauftretensrelation bezeichnet, die in der sekundären Wiederauffindanforderung enthalten sind) von der sekundären Wiederauffindanforderung, eingegeben über das sekundäre Wiederauffindanforderungseingabemittel 1408, nach dem gleichen Verfahren wie die Verzeichniserstellung, und sie gibt die sekundäre Mitauftretensrelation Cfm an das Wortmitauftretensrelationsprüfmittel 1412 aus.
  • Bei Schritt 1509 bezieht sich das Wortmitauftretensrelationsprüfmittel 1412 auf das Wortmitauftretensverzeichnis 1404, um die Anzahl NCfj der Wortmitauftretensrelation der Wortmitauftretensrelationen, die im Dokument Dj auftreten, die mit der sekundären Mitauftretensrelation Cfm übereinstimmt, die vom Wortmitauftretensinformationsextrahiermittel 1411 erhalten wurde, und sie gibt den berechneten Wert NCfj ab das Mitauftretensergebnisberechnungsmittel 1413 aus.
  • Bei Schritt 1510 berechnet das Mitauftretensergebnisberechnungsmittel 1413 ein Mitauftreten SCj des Dokuments Dj nach der folgenden Gleichung (13), und ausgegeben wird das Mitauftreten an das Dokumentergebnisberechnungsmittel 1414. SCj = NCsj × (NCf + 1) + NCfj (13)
  • Bei Schritt 1511 berechnet das Dokumentergebnisberechnungsmittel 1414 eine Differenz SR zwischen den Maximal- und den Minimalwerten des Häufigkeitsergebnisses nach folgender Gleichung (14). SR = Max(SFj) – Min(SFj) (14)
  • Bei Schritt 1512 berechnet das Dokumentergebnisberechnungsmittel 1414 ein Dokumentergebnisvertreter Sj des Übeinstimmungsgrades zwischen dem Dokument Dj und der Wiederauffindanforderung nach der folgenden Gleichung (15) auf der Grundlage des Häufigkeitsergebnisses, ausgegeben vom Häufigkeitsergebnisberechnungsmittel 1410, und dem Mitauftretensergebnis, ausgegeben vom Mitauftretensergebnisberechnungsmittel 1413. Sj = SFj + SCj × SR (15)
  • Bei Schritt 1513 ordnet das Dokumentrangfolgemittel 1415 die Dokumente in der Reihenfolge abnehmender Wert des Dokumentergebnisses Sj von jedem Dokument Dj, ausgegeben vom Dokumentergebnisberechnungsmittel 1414, und bei Schritt 1514 zeigt das Wiederauffindergebnisanzeigemittel 1416 dem Anwender das Wiederauffindergebnis der sortierten Dokumente an, die von der Ausgabe des Dokumentrangfolgemittel 1415 erhalten wurde.
  • Wie oben beschrieben, empfängt dieses System die primäre Wiederauffindanforderung und die sekundäre Wiederauffindanforderung, die sich in der Bedeutung voneinander unterscheiden, und als ein Kriterium für die Entscheidung des Übereinstimmungsgrades der Wiederauffindanforderung und dem Dokument gilt die Priorität in der Reihenfolge primäre Mitauftretensrelation > sekundäre Mitauftretensrelation > primäre Worthäufigkeit > sekundäre Worthäufigkeit, wodurch das Dokument näher zur Wiederauffindabsicht des Anwenders angezeigt wird als ein bedeutsameres Dokument beim wiederauffindergebnis.
  • Zweites Ausführungsbeispiel
  • 16 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem zweiten Ausführungsbeispiel der vorliegenden Erfindung. In 16 besteht das System zum Wiederauffinden von Dokumenten aus: Dokumentdaten 1901, die dem Wiederauffinden unterzogen werden, einem Wörterbuch 1902, einem Datenfeldworthäufigkeitsverzeichnis 1903 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument bei jedem Datenfeld, einem Datenfeldwortmitauftretensverzeichnis 1904 zum Abspeichern von Wortmitauftretensinformation, die in dem erwünschte Dokument bei jedem Datenfeld auftritt, einem Worthäufigkeitsinformationsextrahiermittel 1905 zum Extrahieren von Worthäufigkeitsinformation von den Dokumentdaten 1901, um eine Worthäufigkeitsinformation in das Datenfeldworthäufigkeitsverzeichnis 1903 auszugeben, einem Wortmitauftretensinformationsextrahiermittel 1906 zum Extrahieren der Wortmitauftretensinformation von den Dokumentdaten 1901, um die Wortmitauftretensinformation im Wortmitauftretensverzeichnis 1904 abzuspeichern, einem Wiederauffindanforderungseingabemittel 1907, über das der Anwender eine Wiederauffindanforderung eingibt, einem Datenfeldworthäufigkeitsberechnungsmittel 1908, um im Datenfeldworthäufigkeitsverzeichnis 1903 nachzuschlagen, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch herauszufinden, das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel 1907, bei jedem Datenfeld in ein Dokument, einem Datenfeldhäufigkeitsergebnisberechnungsmittel 1909, um ein Häufigkeitsergebnis bei jedem Datenfeld eines jeden Dokuments auf der Grundlage der Worthäufigkeit zu erhalten, die vom Datenfeldworthäufigkeitsberechnungsmittel 1908 erhalten wurde, einem Wortmitauftretensinformationsextrahiermittel 1910 zum Extrahieren der Wortmitauftretensinformation von der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 1907, einem Datenfeldwortmitauftretensrelationsprüfmittel 1911, um Bezug auf die Inhalte des Datenfeldwortmitauftretensverzeichnisses 1904 zu nehmen, um die Anzahl der Wortmitauftretensrelationen herauszufinden, die in der Wiederauffindanforderung enthalten sind, ausgegeben vom Wortmitauftretensinformationsextrahiermittel 1910, und das bei jedem Dokument auftritt, einem Datenfeldmitauftretensergebnisberechnungsmittel 1912, um ein Mitauftretensergebnis bei jeden Datenfeld jede Dokuments auf der Grundlage der Anzahl der Wortmitauftretensrelationen, die gemeinsam in einem Datenfeld jedes Dokuments auftreten und die Wiederauffindanforderung, die vom Datenfeldwortmitauftretensrelationsprüfmittel 1911 erhalten wird, eine Datenfeldbewertungsmittel 1913, über das der Anwender einen Bewertungsvertreter des Grades des Einflusses eines Ergebnisses von jedem Datenfeld bei der Rangfolge eines Dokuments eingibt, einem Dokumentergebnisberechnungsmittel 1914 zur Berechnung eines entgültigen Ergebnisses für jedes Dokument auf der Grundlage der Ausgabe des Datenfeldhäufigkeitsergebnisberechnungsmittels 1909, der Ausgabe des Datenfeldmitauftretensergebnisberechnungsmittels 1912 und der Ausgabe des Datenfeldbewertungseingabemittel 1913, einem Dokumentrangfolgemittel 1915 zum Umordnen der Dokumente in die Reihenfolge des Ergebnisses und einem Wiederauffindergebnisanzeigemittel 1916 zum Anzeigen der sich ergebenden Dokumente, die in der Reihenfolge des Ergebnisses angeordnet sind.
  • Die 17 bis 20 zeigen Flußdiagramme eines Wiederauffindvorgangs beim System zum Wiederauffinden von Dokumenten nach dem zweiten Ausführungsbeispiel dieser Erfindung. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 1905 die Dokumentdaten 1901 ab, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch, das im Wörterbuch 1902 enthalten ist, bei jedem Datenfeld in jedem Dokument nachzuschlagen, und ausgegeben wird die Auftretenshäufigkeit zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente, bei denen dieses Wort im Datenfeldworthäufigkeitsverzeichnis 1903 auftritt, wohingegen das Wortmitauftretensinformationsextrahiermittel 1906 die Dokumentdaten 1901 abtastet, um die Wortmitauftretensinformation bei jedem Datenfeld in jedem Dokument zu erhalten, und ausgegeben wird die Wortmitauftretensinformation an das Datenfeldwortmitauftretensverzeichnis 1904, wobei auf diese Weise ein Verzeichnis erstellt wird. Ein Verfahren zum Erreichen der Wortmitauftretensinformation ist beispielsweise ein Weg der Entscheidung, daß ein Wortpaar, das im gleichen Satz vorkommt, in einer Mitauftretensrelation zueinander steht und um sie zu extrahieren, oder ein Weg zur Ausführung einer Morphemanalyse, um ein Wortpaar zu extrahieren, das sich in einer NP-NP-, einer Subjekt-Prädikat oder Objekt-Prädikat-Beziehung befindet.
  • Bei Schritt 2001 gibt der Anwender über das Wiederauffindanforderungseingabemittel 1907, eine Wiederauffindanforderung für ein Dokument ein, das der Anwender sucht. Hinzu kommt, daß der Anwender bei Schritt 2002 ein Datenfeldbewertungseingabemittel 1913 verwendet, um eine Einflußbewertung Rm des Einflusses des Ergebnisses eines Datenfeldes Fm (m = 1, 2, ..., NF, wobei NF die Gesamtanzahl der Datenfelder bezeichnet) bei der Rangfolge einzugeben.
  • Bei Schritt 2003 bezieht sich das Datenfeldworthäufigkeitsberechnungsmittel 1908 auf das Datenfeldworthäufigkeitsverzeichnis 1903, um die Gesamtanzahl ND der Dokumente zu finden, und berechnet wird eine Häufigkeit des Auftretens TFijm des Wortes im Wörterbuch Wi (i = 1, 2, ..., NW, wobei NW der Anzahl der Worte im Wörterbuch entspricht, die in der Wiederauffindanforderung enthalten sind), das in den Wiederauffindanforderungen enthalten ist, eingegeben vom Wiederauffindanforderungseingabemittel 1907 im Datenfeld Fm eines Dokuments Dj (j = 1, 2, ..., ND) und darüber hinaus wird die Anzahl NDim der Dokumente berechnet, bei denen dieses Wort im Datenfeld Fm auftritt, und an das Datenfeldhäufigkeitsergebnisberechnungsmittel 1909 ausgegeben wird.
  • Bei Schritt 2004 berechnet das Worthäufigkeitsberechnungsmittel 1909 eine Häufigkeitsergebniserkennung SFjm vom Übereinstimmungsgrad aus zwischen dem Datenfeld Fm des Dokuments Dj auf der Grundlage der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (6) auf der Grundlage der Gesamtanzahl ND des Dokumente, der Anzahl NDim der Dokumente, bei denen das Wort Wi im Datenfeld Fm auftritt, und der Auftretenshäufigkeit TFijm des Wortes Wi im Datenfeld Fm der Dokuments Dj, ausgegeben vom Datenfeldworthäufigkeitsberechnungsmittel 1908, und der Ausgabe ds Häufigkeitsergebnisses SFjm an das Dokumentergebnisberechnungsmittel 1914. In diesem Fall wird das Häufigkeitsergebnis auf der Grundlage der Worthäufigkeit zum Häufigkeitsergebnis des Datenfeldes Fm des Dokuments Dj addiert.
  • Bei Schritt 2005 extrahiert das Wortmitauftretensinformationsextrahiermittel 1910 eine Mitauftretensrelation Ck (k = 1, 2, ..., NC, wobei NC die Anzahl der Wortmitauftretensrelationen darstellt, die in der Wiederauffindanforderung enthalten ist) von der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 1907, nach dem gleichen Verfahren wie bei der Verzeichniserstellung und ausgegeben wird die Mitauftretensrelation Ck an das Datenfeldwortmitauftretensrelationsprüfmittel 1911.
  • Bei Schritt 2006 bezieht sich das Wortmitauftretensrelationsprüfmittel 1911 auf das Wortmitauftretensverzeichnis 1904, um die Anzahl NCjm der Wortmitauftretensrelationen der Wortmitauftretensrelationen zu berechnen, die im Datenfeld Fm des Dokuments Dj auftreten, die mit der primäre Mitauftretensrelation Ck, die vom Wortmitauftretensinformationsextrahiermittel 1411 erhalten wurde, übereinstimmen, und die sich ergebenden NCjm werden an das Mitauftretensergebnisberechnungsmittel 1912 ausgegeben.
  • Bei Schritt 2007 berechnet das Mitauftretensergebnisberechnungsmittel 1912 ein Mitauftretensergebnis SCjm des Datenfeldes Fm des Dokuments Dj nach der folgenden Gleichung (16) und ausgegeben wird das Mitauftretensergebnis SCjm an das Dokumentergebnisberechnungsmittel 1914. SCjm = NCjm (16)
  • Bei Schritt 2008 berechnet das Dokumentergebnisberechnungsmittel 1914 eine Differenz SR zwischen dem Maximal- und dem Minimalwert f des Datenfeldhäufigkeitsergebnisses nach der folgenden Gleichung (17) aus. SR = Max(SFjm) – Min(SFjm) (17)
  • Bei Schritt 2009 berechnet das Dokumentergebnisberechnungsmittel 1914 einen Dokumentergebnisvertreter Sj des Übeinstimmungsgrades zwischen dem Dokument Dj und der Wiederauffindanforderung nach der folgenden Gleichung (18) auf der Grundlage des Datenfeldhäufigkeitsergebnisses SFjm von jedem Datenfeld, ausgegeben vom Datenfeldhäufigkeitsergebnisberechnungsmittel 1909, dem Mitauftretensergebnis SCjm jeden Datenfeldes, ausgegeben vom Mitauftretensergebnisberechnungsmittel 1912 und der Ergebniszuweisungsbewertung Rm, eingegeben über das Datenfeldbewertungseingabemittel 1913. Sj = Σ m((SFjm + SCjm × SR) × Rm) (18)
  • Bei Schritt 2010 ordnet das Dokumentrangfolgemittel 1915 die Dokumente in der Rangfolge abnehmender Werte des Dokumentergebnisses Sj von jedem Dokument Dj um, ausgegeben vom Dokumentergebnisberechnungsmittel 1914, und bei Schritt 2011 zeigt das Wiederauffindergebnisanzeigemittel 1916 dem Anwender das Wiederauffindergebnis der sortierten Dokumente an, die von der Ausgabe des Dokumentrangfolgemittels 1915 erhalten wurde.
  • Wie oben beschrieben, kann der Anwender die Bewertung der Ergebniszuweisung des erwünschten Datenfeldes ändern, und folglich ist es möglich, flexibel die Wiederauffindabsicht des Anwenders auszudrücken und darüber hinaus das wirksame Wiederauffinden zu erreichen.
  • Beispiel 6, nicht von den Patentansprüchen abgedeckt
  • 21 zeigt in einem Blockdiagramm eine Anordnung eines System zum Wiederauffinden von Dokumenten nach einem Beispiel 6, das nicht durch die Patentansprüche abgedeckt ist. In 21 besteht das System zum Wiederauffinden von Dokumenten aus: Dokumentdaten 2401, das dem Wiederauffinden unterliegt, einem Wörterbuch 2402, einem Worthäufigkeitsverzeichnis 2403 zum Abspeichern einer Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem erwünschten Dokument, einem Wortmitauftretensverzeichnis 2404 zum Abspeichern von Wortmitauftretensinformation, die in dem erwünschten Dokument auftritt, einem Worthäufigkeitsinformationsextrahiermittel 2405 zum Extrahieren von Worthäufigkeitsinformation von den Dokumentdaten 2401, um in dem Worthäufigkeitsverzeichnis 2403 abzuspeichern, einem Wortmitauftretensinformationsextrahiermittel 2406 zum Extrahieren der Wortauftretensinformation von den Dokumentdaten 2401, um sie an das Wortmitauftretensverzeichnis 2404 auszugeben, einem Wiederauffindanforderungseingabemittel 2407, über das der Anwender eine Wiederauffindanforderung eingibt, einem Worthäufigkeitsberechnungsmittel 2408, um im Worthäufigkeitsverzeichnis 2403 nachzuschlagen, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch bei einem Dokument, das in der Wiederauffindanforderung enthalten ist, zu berechen, eingegeben über das Wiederauffindanforderungseingabemittel 2407, ein Häufigkeitsergebnisberechnungsmittel 2409, um ein Häufigkeitsergebnis jedes Dokuments auf der Grundlage der Worthäufigkeit zu erhalten, das über das Worthäufigkeitsberechnungsmittel 2408 erhalten wurde, einem Auftretenswortanzahlberechnungsmittel 2410 zum Nachschlagend des Worthäufigkeitsverzeichnisses 2403, um die Anzahl der Worte im Wörterbuch, die in der Wiederauffindanforderung enthalten sind, zu erhalten, eingegeben über das Wiederauffindanforderungseingabemittel 2407, und die in jedem Dokument auftritt, einem Auftretenswortanzahlergebnisberechnungsmittel 2411 zur Berechnung eines Auftretenswortanzahlergebnisses auf der Grundlage der Anzahl des auftretenden Worte, erhalten über das Auftretenswortanzahlberechnungsmittel 2410, einem Wortmitauftretensinformationsextrahiermittel 2412 zur Extrahieren der Wortmitauftretensinformation von der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 2407, einem Wortmitauftretensrelationsprüfmittel 2413, um Bezug auf die Inhalte des Wortmitauftretensverzeichnisses 2404 zu haben, um die Anzahl der Wortmitauftretensrelationen der Wortmitauftretensrelationen der Wiederauffindanforderung zu berechnen, ausgegeben über das Wortmitauftretensinformationsextrahiermittel 2412, das bei jedem Dokument auftritt, einem Mitauftretensergebnisberechnungsmittel 2414, um ein Mitauftretensergebnis jedes Dokuments auf der Grundlage der Anzahl der Wortmitauftretensrelationen zu erhalten, die gemeinsam in der Wiederauffindanforderung und dem Dokument auftreten, das über das Wortmitauftretensrelationsprüfmittel 2413 erhalten wurde, einem Dokumentergebnisberechnungsmittel 2415 zur Berechnung des entgültigen Ergebnisses jedes Dokuments auf der Grundlage der Ausgabe des Häufigkeitsergebnisberechnungsmittels 2409, der Ausgabe des Mitauftretensergebnisberechnungsmittels 2411 und der Ausgabe des Mitauftretensergebnisberechnungsmittels 2415, einem Dokumentrangfolgemittel 2416 zum Umordnen der Dokumente in die Reihenfolge des Ergebnisses und einem Wiederauffindergebnisanzeigemittel 2417 zum Anzeigen der sich ergebenden Dokumente, angeordnet in der Reihenfolge des Ergebnisses.
  • Die 22 bis 26 zeigen Flußdiagramme eines Wiederauffindvorgangs beim System zum Wiederauffinden von Dokumenten nach dem Beispiel 6. Vor dem Wiederauffinden tastet das Worthäufigkeitsinformationsextrahiermittel 2405 die Dokumentdaten 2401 ab, um eine Häufigkeit des Auftretens eines Wortes im Wörterbuch herauszufinden, das im Wörterbuch 2402 in jedem Dokument enthalten ist, und ausgegeben wird die Auftretenshäufigkeit zusammen mit der Gesamtanzahl der Dokumente und der Anzahl der Dokumente, bei denen das Wort im Worthäufigkeitsverzeichnis 2403 auftritt, wohingegen das Wortmitauftretensinformationsextrahiermittel 2406 die Dokumentdaten 2401 abtastet, um die Wortmitauftretensinformation bei jedem Dokument herauszufinden, und ausgegeben wird die Information an das Datenfeldwortmitauftretensverzeichnis 2404, wobei ein Verzeichnis erstellt wird. Als ein Verfahren die Wortmitauftretensinformation zu erreichen, gibt es beispielsweise die Möglichkeit, zu entscheiden, daß ein Wortpaar, das in dem gleichen Satz auftritt, in einer Mitauftretensrelation zueinander steht, und um es zu extrahieren oder eine Art Morphemanalyse durchzuführen, um ein Wortpaar abzufragen, das in NP-NP-, Subjekt-Prädikat- oder Objekt-Prädikat-Beziehung zueinander steht.
  • Bei Schritt 2501 verwendet der Anwender das Wiederauffindanforderungseingabemittel 2407, um eine Wiederauffindanforderung für ein Dokument einzugeben, das der Anwender suchen möchte. Bei Schritt 2502 nimmt das Worthäufigkeitsberechnungsmittel 2408 Bezug auf das Worthäufigkeitsverzeichnis 2403, um die Gesamtanzahl ND der Dokumente zu kennen, und um darüber hinaus eine Häufigkeit des Auftretens TFij eines Wortes im Wörterbuch Wi (1 = 1, 2 ..., NW, wobei NW zur Anzahl der Worte im Wörterbuch, die in der Wiederauffindanforderung enthalten sind, gehört), das in der Wiederauffindanforderung enthalten ist, eingegeben über das Wiederauffindanforderungseingabemittel 2407, in ein Dokument Dj (j = 1, 2,..., ND), und um darüber hinaus eine Anzahl NDi von Dokumenten zu erhalten, bei denen das Wort auftritt, und darüber hinaus werden sie an das Häufigkeitsergebnisberechnungsmittel 2409 ausgegeben.
  • Bei Schritt 2503 berechnet das Häufigkeitsberechnungsmittel 2409 eine Häufigkeitsergebniserkennung SFj des Übereinstimmungsgrades zwischen dem Dokument aufgrund der Worthäufigkeit und der Wiederauffindanforderung nach der oben angeführten Gleichung (1) auf der Grundlage der Gesamtanzahl ND der Dokumente, der Anzahl NDi der Dokumente, bei denen das Wort Wi im Dokument Dj auftritt. In diesem Fall wird das Häufigkeitsergebnis auf der Grundlage der Worthäufigkeit zum Häufigkeitsergebnis des Dokuments Dj addiert.
  • Bei Schritt 2504 bezieht sich das Auftretenswortanzahlberechnungsmittel 2401 auf das Worthäufigkeitsverzeichnis 2403, um die Anzahl NAj der Worte im Wörterbuch Wi, die in der Wiederauffindanforderung enthalten sind, zu berechnen, eingegeben über das Wiederauffindanforderungseingabemittel 2407, das auch beim Dokument Dj auftritt, und ausgegeben wird die Anzahl NAj an das Auftretenswortanzahlergebnisberechnungsmittel 2411.
  • Bei Schritt 2505 berechnet das Auftretenswortanzahlergebnisberechnungsmittel 2411 ein Auftretenswortanzahlergebnis nach der oben angeführten Gleichung (8) auf der Grundlage der Anzahl NAj der Auftretensworte, die das Auftretenswortanzahlberechnungsmittel 2410 vorgibt, und ausgegeben wird das Auftretenswortanzahlergebnis an das Dokumentergebnisberechnungsmittel 2415.
  • Bei Schritt 2506 extrahiert das Wortmitauftretensinformationsextrahiermittel 2412 eine Mitauftretensrelation Ck (k = 1, 2, ..., NC, wobei NC die Anzahl der Wortmitauftretensrelationen darstellt, die in der Wiederauffindanforderung enthalten ist) von der Wiederauffindanforderung, eingegeben über das Wiederauffindanforderungseingabemittel 2407, über die Anwendung eines Verfahrens, das der Verzeichniserstellung ähnelt und ausgegeben wird die Mitauftretensrelation Ck an das Wortmitauftretensrelationsprüfmittel 2413.
  • Bei Schritt 2507 bezieht sich das Wortmitauftretensrelationsprüfmittel 2413 auf das Wortmitauftretensverzeichnis 2404, um das Dokument herauszufinden, bei dem jede Wortmitauftretensrelation Ck, erhalten durch das Wortmitauftretensinformationsextrahiermittel, auftritt und berechnet wird die Anzahl der NCj der Wortmitauftretensrelationen der Wortmitauftretensrelationen Ck, und ausgegeben wird das Ergebnis an das Mitauftretensergebnisberechnungsmittel 2414.
  • Bei Schritt 2508 berechnet das Mitauftretensergebnisberechnungsmittel 2414 ein Mitauftretensergebnis SCj des Dokuments Dj nach der oben angeführten Gleichung (3), und ausgegeben wird das Mitauftretensergebnis SCj an das Dokumentergebnisberechnungsmittel 2415. Bei Schritt 2509 berechnet das Dokumentergebnisberechnungsmittel 2415 eine Differenz SR zwischen den Maximal- und den Minimalwerten des Häufigkeitsergebnisses nach der oben angeführten Gleichung (14).
  • Bei Schritt 2510 berechnet das Dokumentergebnisberechnungsmittel 2415 einen Dokumentergebnisvertreter Sj des Grades der Übeinstimmung zwischen dem Dokument Dj und der Wiederauffindanforderung nach der folgenden Gleichung (19) auf der Grundlage des Häufigkeitsergebnisses SFj, das die Ausgabe für das Datenfeldhäufigkeitsergebnisberechnungsmittel 2409 ist, das Auftretenswortanzahlergebnis SAj, das die Ausgabe für das Auftretenswortanzahlergebnisberechnungsmittel 2411 ist, und das Mitauftretensergebnis SCj, das die Ausgabe für das Mitauftretensergebnisberechnungsmittel 2414 ist Sj = SFj + (SAj + SCj × NW) × SR (19)
  • Bei Schritt 2511 ordnet das Dokumentrangfolgemittel 2416 die Dokumente in der Reihenfolge abnehmender werte des Dokumentergebnisses Sj von jedem Dokument Dj um, ausgegeben vom Dokumentergebnisberechnungsmittel 2415, und bei Schritt 2512 zeigt das Wiederauffindergebnisanzeigemittel 2417 dem Anwender das Wiederauffindergebnis der sortierten Dokumente an, das von der Ausgabe des Dokumentrangfolgemittels 2416 erhalten wurde.
  • Wie oben beschrieben, werden als ein Kriterium zur Entscheidung des Übereinstimmungsgrades zwischen dem Dokument und der Wiederauffindanforderung zusätzlich zur Worthäufigkeit die Mitauftretensrelation und die Anzahl der Auftretensworte herangezogen, wodurch die Priorität in der Reihenfolge Mitauftretensrelation > Auftretenswortanzahl > Worthäufigkeit vorgenommen wird, mit dem Ergebnis, daß das Dokument, das näher an der Wiederauffindabsicht des Anwenders liegt, beim Wiederauffindergebnis mit hoher Rangzahl angezeigt werden kann, wodurch das Wiederauffinden mit großer Genauigkeit und hohem Wirkungsgrad durchgeführt wird.
  • Wie oben beschrieben, hat beim System zum Wiederauffinden von Dokumenten das Verzeichnis die Wortmitauftretensinformation im erwünschten Dokument, und das Wortmitauftretensrelationsprüfmittel wird vorgesehen, zu prüfen, ob die in der Wiederauffindanforderung enthaltene Wortmitauftretensrelation im erwünschten Dokument auftritt oder nicht, und die Verzeichnisinformation, die jedem Datenfeld des erwünschten Dokuments zugeordnet ist, wird aufbereitet, und das Datenfeldbewertungseingabemittel wird bereitgestellt, wodurch der Anwender die Bewertung der Datenfeldbeeinflussung auf die Rangfolge bestimmen kann, und darüber hinaus werden die Vielzahl der Wiederauffindanforderungseingabemittel bereitgestellt, um eine Vielzahl von Wiederauffindanforderungen mit unterschiedlichen Prioritäten einzugeben, und das Auftretenswortanzahlberechnungsmittel wird bereitgestellt, um die Anzahl der Worte einer Vielzahl von Worten der Wiederauffindanforderung, die im erwünschten Dokument enthalten ist, zu berechnen, und das Verzeichnis hat im Wortauftretensstelleninformation im erwünschten Dokument, und das Wortabstandsberechnungsmittel wird bereitgestellt, zu prüfen, ob die Auftretensstelle einer Vielzahl von Worten der Wiederauffindanforderung nebeneinander liegen oder nicht oder ob sie relativ nahe beieinander liegen. Nach ist es möglich die Anfrage des Anwenders flexibel zu empfangen, und das Wiederauffinden und die Rangfolge auszuführen.
  • Darüber hinaus wird ein System zum Wiederauffinden von Dokumenten mit Verzeichnissen ausgestattet, in denen enthalten ist: Die Wortauftretenshäufigkeit und die Wortmitauftretensinformation im erwünschten Dokument bei jedem Datenfeld, das Datenfeldbewertungseingabemittel, mit dessen Hilfe der Anwender die Datenfeldbewertung des Einflusses auf die Rangfolge der erwünschten Dokuments angeben kann, und das Datenfeldwortmitauftretensrelationsprüfmittel, um zu überprüfen, ob die in der Wiederauffindanforderung enthaltene Wortmitauftretensrelation im erwünschten Dokument auftritt oder nicht. Darüber hinaus enthält ein System zum Wiederauffinden von Dokumenten die Verzeichnisse zur Wortauftretenshäufigkeit und zur Wortmitauftretensinformation beim erwünschten Dokument, zum Auftretenswortanzahlberechnungsmittel zur Berechnung wie viele der Vielzahl von den der Wiederauffindanforderung enthaltenen Worte im erwünschten Dokument auftreten, und zum Wortmitauftretensrelationsprüfmittel, um zu überprüfen, ob die in der Wiederauffindanforderung enthaltene Wortmitauftretensrelation im erwünschten Dokument auftritt oder nicht. Diese Anordnungen gestatten die flexible Annehmbarkeit der Wiederauffindanforderung durch den Anwender und die Ausführung des Wiederauffindens und der Rangfolgevorgänge.
  • Auf diese Weise ist es möglich, Wiederauffindergebnisse mit großer Genauigkeit und mit geringer Beanstandung bereitzustellen, und darüber hinaus die Wiederauffindzeit als Ganzes, beispielsweise durch Einengen der sich ergebenden Dokument, zu verkürzen.
  • Es sei. darauf hingewiesen, daß sich das Vorhergehende nur auf bevorzugte Ausführungsbeispiel der vorliegenden Erfindung bezieht, und daß es beabsichtigt ist, sämtliche Änderungen und Modifikationen der Ausführungsbeispiel der Erfindung, die zum Zweck der Offenbarung verwendet wurden, abzudecken, wenn diese Änderungen und Modifikationen innerhalb des Umfassungsbereich der angefügten Patentansprüche vorgenommen werden.
  • Ein System zum Wiederauffinden von Dokumenten zur Suche eines Dokuments, das mit einer vom Anwender eingegeben Wiederauffindanforderung und darüber hinaus mit der Rangfolge des Dokuments nach dem Übereinstimmungsgrad zwischen dem Dokument und der Wiederauffindanforderung übereinstimmt. Bei dem System zum Wiederauffinden von Dokumenten findet ein Worthäufigkeitsberechnungsmittel die Anzahl der Dokument heraus, bei denen ein Wort auftritt, eine Häufigkeit des Auftretens des Wortes in einem Dokument, und das einen Gewichtungsparameter für das Wort erhält, und ein Häufigkeitsergebnisberechnungsmittel ein Häufigkeitsergebnis auf der Grundlage der Ausgabe des Worthäufigkeitsberechnungsmittels erhält. Ein Dokumentergebnisberechnungsmittel berechnet ein Dokumentergebnis auf der Grundlage des Häufigkeitsergebnisses. Die Dokumente werden in der Rangfolge des Dokumentergebnisses eingestuft und dem Anwender angezeigt.

Claims (2)

  1. System (501 bis 511) zum Wiederauffinden von Dokumenten, das Zieldokumente sucht, die als Reaktion auf eine Wiederauffindanforderung und Ränge der wiederaufgefundenen Dokumente aufzufinden sind, wobei das System Indexinformationen für jedes einer Vielzahl von Feldern eines jeden der Zieldokumente beibehält und über ein Feldrateneingabemittel (506) verfügt, um dem Anwender zu ermöglichen, eine Rate eines Feldes zu spezifizieren, die bezüglich des Rangs des Wiederauffindergebnisses beeinflußt ist, so daß der Anwender die Rate der Beeinflussung bezüglich des Ranges vom Wiederauffindergebnis eines jeden Feldes spezifizieren kann, und zwar für jedes der Vielzahl von Feldern der Zieldokumente.
  2. System zum Wiederauffinden von Dokumenten nach Anspruch 1, das des weiteren ausgestattet ist mit: einem Feldworthäufigkeitsindex zum Speichern einer Auftrittshäufigkeit eines Wörterbuchwortes in jedem der Zieldokumente bei jedem Feld für jedes der Vielzahl von Feldern der Zieldokumente; einem Worthäufigkeitsinformationsauslesemittel zum Auslesen einer Worthäufigkeitsinformation aus jedem der wiederaufzufindenden Zieldokumente zum Eingeben dieses in den Feldworthäufigkeitsindex; einem Wiederauffindanforderungseingabemittel, um dem Anwender die Eingabe der Wiederauffindanforderung zu ermöglichen; einem Feldworthäufigkeitsrechenmittel zum Konsultieren des Feldworthäufigkeitsindex in Hinsicht auf ein Wörterbuchwort, das in der Wiederauffindanforderung enthalten ist, um eine Auftrittshäufigkeit des Wörterbuchwortes in jedem der Zieldokumente zu bekommen; einem Feldhäufigkeitsbewertungsrechenmittel zum Berechnen der Häufigkeitsbewertung, die einen Grad der Übereinstimmung zwischen einem Feld eines jeden der Zieldokumente und der Wiederauffindanforderung auf der Grundlage der im Feldworthäufigkeitsrechenmittel aufgenommenen Wortauftrittshäufigkeit aufzeigt; einem Dokumentbewertungsrechenmittel zum Berechnen einer Dokumentbewertung, die einen Grad der Übereinstimmung zwischen einem jeden der Zieldokumente und der Wiederauffindanforderung auf der Grundlage der vom Feldhäufigkeitsbewertungsrechenmittel ausgegebenen Wortauftrittshäufigkeit des Feldes und der dem Feldrateneingabemittel eingegebenen Rate aufzeigt; einem Dokumentranggebungsmittel zum Neuanordnen der Zieldokumente, die vom Dokumentbewertungsrechenmittel gewonnene Wiederauffindergebnisse in der Reihenfolge der Dokumentbewertung sind; und mit einem Wiederauffindergebnisanzeigemittel, das die mit Rang versehenen wiederaufgefundenen Ergebnisse gemäß der Reihenfolge darstellt, die das Dokumentranggebungsmittel erzielt hat.
DE69731142T 1996-05-29 1997-05-28 System zum Wiederauffinden von Dokumenten Expired - Fee Related DE69731142T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP15641896 1996-05-29
JP15641896 1996-05-29
JP8732897 1997-03-24
JP9087328A JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置

Publications (2)

Publication Number Publication Date
DE69731142D1 DE69731142D1 (de) 2004-11-18
DE69731142T2 true DE69731142T2 (de) 2005-10-20

Family

ID=26428613

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69731142T Expired - Fee Related DE69731142T2 (de) 1996-05-29 1997-05-28 System zum Wiederauffinden von Dokumenten

Country Status (6)

Country Link
US (1) US6154737A (de)
EP (1) EP0810535B1 (de)
JP (1) JPH1049549A (de)
KR (1) KR100295354B1 (de)
CN (1) CN1133127C (de)
DE (1) DE69731142T2 (de)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
JP3521176B2 (ja) * 1997-09-26 2004-04-19 株式会社東芝 検索方法および検索装置
GB2333871A (en) * 1998-01-29 1999-08-04 Sharp Kk Ranking of text units
JP2000067081A (ja) * 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP3880235B2 (ja) * 1999-01-29 2007-02-14 キヤノン株式会社 情報検索装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP3505100B2 (ja) * 1999-02-08 2004-03-08 日本電信電話株式会社 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体
US8775396B2 (en) * 1999-04-15 2014-07-08 Intellectual Ventures I Llc Method and system for searching a wide area network
JP3558267B2 (ja) * 1999-05-06 2004-08-25 株式会社エヌ・ティ・ティ・データ 文書検索装置
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6757866B1 (en) 1999-10-29 2004-06-29 Verizon Laboratories Inc. Hyper video: information retrieval using text from multimedia
US6569206B1 (en) * 1999-10-29 2003-05-27 Verizon Laboratories Inc. Facilitation of hypervideo by automatic IR techniques in response to user requests
US6996775B1 (en) * 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6493707B1 (en) 1999-10-29 2002-12-10 Verizon Laboratories Inc. Hypervideo: information retrieval using realtime buffers
US6490580B1 (en) 1999-10-29 2002-12-03 Verizon Laboratories Inc. Hypervideo information retrieval usingmultimedia
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US7747611B1 (en) 2000-05-25 2010-06-29 Microsoft Corporation Systems and methods for enhancing search query results
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6772160B2 (en) 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
GB2364583B (en) * 2000-07-08 2004-09-22 Paul David Mills Database interrogation
US7395222B1 (en) * 2000-09-07 2008-07-01 Sotos John G Method and system for identifying expertise
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
JP2002197104A (ja) * 2000-12-27 2002-07-12 Communication Research Laboratory 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2002269114A (ja) * 2001-03-14 2002-09-20 Kousaku Ookubo 知識データベース及び知識データベースの構築方法
US7010515B2 (en) 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
US8793073B2 (en) 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
JP4594622B2 (ja) * 2002-02-04 2010-12-08 インジェヌイティ システムズ インコーポレイテッド 薬発見法
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
EP1532542A1 (de) * 2002-05-14 2005-05-25 Verity, Inc. VORRICHTUNG UND VERFAHREN ZUR REGIONENABHûNGIGEN DYNAMISCHEN KONFIGURIERBAREN DOKUMENTRELEVANZ EINSTUFUNG
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
EP1576462B1 (de) * 2002-12-26 2008-03-05 Casio Computer Co., Ltd. Elektronisches wörterbuch mit beispielsätzen
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US20050033771A1 (en) * 2003-04-30 2005-02-10 Schmitter Thomas A. Contextual advertising system
US20040225555A1 (en) * 2003-05-09 2004-11-11 Andreas Persidis System and method for generating targeted marketing resources and market performance data
JP4557513B2 (ja) * 2003-07-11 2010-10-06 キヤノン株式会社 情報検索装置、情報検索方法およびプログラム
US20050060290A1 (en) * 2003-09-15 2005-03-17 International Business Machines Corporation Automatic query routing and rank configuration for search queries in an information retrieval system
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
KR20050096541A (ko) * 2004-03-31 2005-10-06 삼성에스디아이 주식회사 돌출부를 갖는 네거티브 홀 구조, 그것의 형성 방법 및그것을 포함하는 fed 캐소드 부
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7565630B1 (en) 2004-06-15 2009-07-21 Google Inc. Customization of search results for search queries received from third party sites
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US8407239B2 (en) * 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US7917480B2 (en) 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US20060106788A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
WO2006051956A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation サーバ装置及び検索方法
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US7333667B2 (en) * 2004-12-23 2008-02-19 Kabushiki Kaisha Toshiba Image encoding apparatus and image encoding method
CN1946075B (zh) * 2005-10-04 2010-10-13 国际商业机器公司 确定消息的用户特定关联性得分的方法和系统
US20070185859A1 (en) * 2005-10-12 2007-08-09 John Flowers Novel systems and methods for performing contextual information retrieval
US20070150477A1 (en) * 2005-12-22 2007-06-28 International Business Machines Corporation Validating a uniform resource locator ('URL') in a document
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20070244866A1 (en) * 2006-04-18 2007-10-18 Mainstream Advertising, Inc. System and method for responding to a search request
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
US20080033819A1 (en) * 2006-07-28 2008-02-07 Ingenuity Systems, Inc. Genomics based targeted advertising
EP2067119A2 (de) 2006-09-08 2009-06-10 Exbiblio B.V. Optische scanner, zum beispiel tragbare optische scanner
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
CN100520767C (zh) * 2007-05-31 2009-07-29 腾讯科技(深圳)有限公司 在网络上判断文章重要性的方法和系统、及滑动窗口
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
US8909654B2 (en) * 2007-11-19 2014-12-09 Nippon Telegraph And Telephone Corporation Information search method, apparatus, program and computer readable recording medium
US7849081B1 (en) * 2007-11-28 2010-12-07 Adobe Systems Incorporated Document analyzer and metadata generation and use
US8316041B1 (en) 2007-11-28 2012-11-20 Adobe Systems Incorporated Generation and processing of numerical identifiers
US8090724B1 (en) 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
US8443008B2 (en) * 2008-04-01 2013-05-14 Nec Corporation Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
KR101052631B1 (ko) 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
ES2396017T3 (es) 2009-04-24 2013-02-18 Agfa Graphics N.V. Método de fabricación de planchas de impresión litográfica
WO2011011777A2 (en) * 2009-07-24 2011-01-27 Discovery Engine Corporation Pre-computed ranking using proximity terms
EP2316645B1 (de) 2009-10-27 2012-05-02 AGFA Graphics NV Neuartige Cyaninfarbstoffe und lithografische Druckerplattenvorläufer mit den Farbstoffen
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2012126180A1 (en) 2011-03-24 2012-09-27 Microsoft Corporation Multi-layer search-engine index
WO2012154164A1 (en) * 2011-05-08 2012-11-15 Hewlett-Packard Development Company, L.P. Indicating documents in a thread reaching a threshold
US8849835B1 (en) * 2011-05-10 2014-09-30 Google Inc. Reconciling data
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
JP5910134B2 (ja) 2012-02-07 2016-04-27 カシオ計算機株式会社 テキスト検索装置及びプログラム
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
CN103853742B (zh) * 2012-11-29 2017-11-24 北大方正集团有限公司 检索装置、终端和检索方法
US20140229476A1 (en) * 2013-02-14 2014-08-14 SailMinders, Inc. System for Information Discovery & Organization
US9355372B2 (en) * 2013-07-03 2016-05-31 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
JP6107513B2 (ja) 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US9292579B2 (en) * 2013-11-01 2016-03-22 Intuit Inc. Method and system for document data extraction template management
US9298780B1 (en) * 2013-11-01 2016-03-29 Intuit Inc. Method and system for managing user contributed data extraction templates using weighted ranking score analysis
CN106815266B (zh) * 2015-12-01 2020-06-16 北京国双科技有限公司 裁判文书检索方法和装置
US9996527B1 (en) * 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
KR101937088B1 (ko) * 2018-03-14 2019-01-09 목포해양대학교 산학협력단 코드화된 표준해사영어를 이용한 해상 무선 통신 방법
CN108897843B (zh) * 2018-06-27 2021-12-24 吉安职业技术学院 一种基于中心法的文本自适应推荐方法
KR20200117500A (ko) 2019-04-04 2020-10-14 주식회사 테이크뷰 문서 검색 방법 및 그 장치
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR102360080B1 (ko) * 2019-10-02 2022-02-09 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR102403168B1 (ko) * 2019-10-02 2022-05-27 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR102085216B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램
CN113744803A (zh) 2020-05-29 2021-12-03 鸿富锦精密电子(天津)有限公司 基因测序进度管理方法、装置、计算机装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH0628408A (ja) * 1992-07-08 1994-02-04 Ricoh Co Ltd 文書ファイリング装置
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
US5701399A (en) * 1993-06-09 1997-12-23 Inference Corporation Integration of case-based search engine into help database
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
JP2596332B2 (ja) * 1993-08-19 1997-04-02 日本電気株式会社 データ組合せ抽出方法およびその装置
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP3016691B2 (ja) * 1994-06-29 2000-03-06 富士通株式会社 データ検索条件設定方法
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5710915A (en) * 1995-12-21 1998-01-20 Electronic Data Systems Corporation Method for accelerating access to a database clustered partitioning
US5826031A (en) * 1996-06-10 1998-10-20 Sun Microsystems, Inc. Method and system for prioritized downloading of embedded web objects
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing

Also Published As

Publication number Publication date
KR100295354B1 (ko) 2001-09-17
US6154737A (en) 2000-11-28
DE69731142D1 (de) 2004-11-18
CN1133127C (zh) 2003-12-31
JPH1049549A (ja) 1998-02-20
EP0810535B1 (de) 2004-10-13
EP0810535A2 (de) 1997-12-03
EP0810535A3 (de) 1999-04-21
CN1172994A (zh) 1998-02-11
KR970076328A (ko) 1997-12-12

Similar Documents

Publication Publication Date Title
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
DE69333422T2 (de) Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
DE69917250T2 (de) Merkmalübertragung über hyperlinks
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE69727421T2 (de) Hypertext-Dokumentwiederauffindungssystem zum Wiederauffinden zusammengehöriger Hypertextdokumente
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE69932344T2 (de) Zugriff zu hierarchischem datenspeicher via sql-eingabe
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE112012003249T5 (de) System, Verfahren und Programm zum Abrufen von Informationen
EP0968478A1 (de) Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
DE102007037646A1 (de) System und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE60007633T2 (de) Inhalt-basierte wiedergabe von seriendaten
DE102008005083A1 (de) Abrufen einer Information eines fallbasierten Schliessens aus Archivaufzeichnungen
DE112010002620T5 (de) Ontologie-nutzung zum ordnen von datensätzen nachrelevanz
DE10018993A1 (de) Datenbank-Verwaltungsvorrichtung und Datenbank-Datensatzabfragevorrichtung
DE10028624A1 (de) Verfahren und Vorrichtung zur Dokumentenbeschaffung
DE10034694A1 (de) Verfahren zum Vergleichen von Suchprofilen
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
DE102006054671A1 (de) Systeme und Verfahren zum Auffinden häufig aufgerufener Unterbäume
DE112017006785B4 (de) Datenanalysator und Datenanalyseverfahren
DE102021203300A1 (de) Computerimplementiertes Verfahren für Schlüsselwortsuche in einem Wissensgraphen
WO2005116867A1 (de) Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8339 Ceased/non-payment of the annual fee