DE19624696A1

DE19624696A1 - Wiederauffinden von Dokumenten über Netzwerke

Info

Publication number: DE19624696A1
Application number: DE19624696A
Authority: DE
Inventors: Steven T Kirsch
Original assignee: Infoseek Corp
Current assignee: Google LLC
Priority date: 1995-05-17
Filing date: 1996-06-20
Publication date: 1998-01-02
Anticipated expiration: 2016-06-21
Also published as: GB2314178A; GB2314178B; US5659732A; DE19624696C2; FR2750519A1; HK1006238A1; FR2750519B1; GB9612261D0

Description

Die Erfindung bezieht sich auf das Dokumentensuchen und -wiederauffinden, speziell über Netzwerke.

Seit mehr als 20 Jahren stellen Informationsdienste den Zugang zu einer Vielzahl von Datenbanken zur Verfügung. Dialog Information Services, zum Beispiel jetzt bekannt als Knight Rider Information, Inc. verbreitet mehrere hundert Datenbanken (Kollektionen bzw. Datensammlungen) für die Suchenden. Einige dieser Datenbanken beinhalten bibliographische Zusammenfassungen, während andere Volltextdatenbanken beinhalten. Ein Suchender ist in der Lage, eine Abfrage an eine oder eine Vielzahl von Datenbanken zu richten. Am Anfang wählt der Suchende einzelne Datenbanken seines Interesses, basierend auf Erfahrungen der Vergangenheit, aus, oder er wählt eine Gruppe von Datenbanken aus, die von dem Informationsverbreiter vorgewählt sind und sich auf bestimmte Stichpunkte beziehen. Ein Suchender mag z. B. den Oberbegriff Patente auswählen, ein Oberbegriff, für den der Informationsdienst eine Anzahl von auf Patente bezogene Datenbanken zusammengefaßt hat. Wenn eine Abfrage auf eine Gruppe von Datenbanken gerichtet wird, findet der Informationsdienst eine Anzahl von Treffern in jeder Datenbank auf. Der Suchende greift dann auf die Datenbanken seines Interesses zu, um die einzelnen Einträge anzuschauen. Dieses System wurde ursprünglich für Bibliothekare und professionelle Wissenschaftler entwickelt, die wissen, wo die gewünschte Information zu suchen ist.

Als Netzwerke wie das Internet für ein größeres Gebiet zugänglich wurden, wurden neue Möglichkeiten zum Suchen nicht nur für professionelle Sucher, sondern auch für laienhafte Benutzer, erschlossen. Neue Arten von Informationsverbreiter kommen auf, die öffentliche wie auch private Datenbanken verwenden, um den Benutzern bibliographische, wissenschaftliche Daten und Dokumente zu Verfügung zu stellen. Wenn nun ein Benutzer Interesse an einem Oberbegriff, wie z. B. Patente, hat, ist es möglich, daß er nicht weiß, welche Quellen für einen Suchvorgang zusammengefaßt werden können oder wo die Quellen zu finden sind. Da die Quellen sich oft ändern, wird ein Suchender wenig Interesse an der Quelle der Antwort im Vergleich mit der Relevanz der Antwort haben. Es wurde von anderen festgestellt, daß verteilte Datensammlungen, die über einen weiten Bereich von Netzwerken zugänglich sind, als eine einzelne Datensammlung aufgefaßt werden können. Jede Untersammlung wird individuell durchsucht und die Berichte werden in einer einzigen Liste kombiniert. Es wurde ebenfalls von anderen festgestellt, daß Dokumente von Suchmaschinen (Suchvorrichtungen) in Übereinstimmung mit einem Algorithmus eingestuft werden können und ihnen eine Gewichtung zugeordnet werden kann, die die Art der Datensammlung mit einbezieht. Maßzahlen für Dokumente können normiert werden, um Maßzahlen zu gewinnen, als wären sie gewonnen, wenn einzelne Dokumentsammlungen zu einer einzigen, vereinheitlichten Sammlung zusammengemischt wären.

Eines der Probleme, die beim Stand der Technik existieren, besteht darin, daß die Maßzahlen für jedes Dokument nicht absolut sind, sondern von der Statistik jeder Sammlung und von den Algorithmen in Verbindung mit den Suchmaschinen abhängen. Ein zweites, vorliegendes Problem besteht ferner darin, daß das Standardverfahren nach dem Stand der Technik zwei Durchläufe erfordert. Beim ersten Durchlauf wird die Statistik von jeder Suchmaschine zusammengefaßt, um eine Gewichtung für jeden Suchbegriff zu berechnen. Beim zweiten Schritt wird die Information aus dem ersten Schritt an jede Suchmaschine zurückgegeben, die dann eine gesonderte Gewichtung und Maßzahl für jeden Treffer oder das identifizierte Dokument zuordnet. Ein drittes, vorliegendes Problem besteht außerdem darin, daß der Stand der Technik es erfordert, daß alle Datensammlungen die gleiche Suchmaschine benutzen.

Eine Aufgabe der Erfindung war es, sich ein Verfahren zum Durchsuchen einer Vielzahl von Sammlungen in einem einzigen Durchlauf auszudenken mit einer Einreihung der Dokumente auf einer konsistenten Basis, so daß das gleiche Dokument so eingeordnet wird, als wenn die Ergebnisse zusammengemischt wären, auch wenn es in zwei verschiedenen Datenbanken erscheint. Es ist nicht erforderlich, daß die gleiche Suchmaschine für alle Datensammlungen benutzt wird.

Die oben genannte Aufgabe wurde mit einem Dokumentensuch- und -wiederauffindverfahren gelöst, das von jedem teilnehmenden Suchmaschinenbetreiber (Server) verlangt, eine Statistik über jeden Suchbegriff in jedem der zurückgegebenen Dokumente zurückzugeben. Eine endgültige Relevanzmaßzahl wird dann auf der Klientenseite und nicht beim Server berechnet. Auf diese Weise werden alle relevanten Maßzahlen beim Klienten in der gleichen Weise unabhängig von Unterschieden in den Suchmaschinen berechnet.

Die Erfindung wird nachstehend anhand der Zeichnung näher erläutert, wobei Fig. 1 ein Blockdiagramm des Systems der vorliegenden Erfindung auf zeigt.

Mit Bezug auf Fig. 1 wird eine Abfrage, dargestellt durch den Abfrageblock 11, durch den Benutzer formuliert und auf ein Endgerät oder Klientensystem gebracht. Die Abfrage wird elektronisch an eine Netzwerkschnittstelle 13 übermittelt. Die Netzwerkschnittstelle 13 ist ein Informationsdienst, der Zugang zu den Quellen 17 mit sich auf den Gegenstand der Abfrage beziehenden Datenbanken hat. Diese bei anderen Diensten (Server) installierten Datenbanken werden simultan über Kommunikationskanäle 15 abgerufen, die großflächige Netzwerkverbindungen zu den Quellen 17 haben können. Das Internet ist ein Modell für ein solches Arrangement von großflächigen Netzwerkverbindungen und fernabfragbarer Quellen. Die Abfrage wird an Suchmaschinen gerichtet, dargestellt durch die Spalten 20, 30 und 40, wobei jede Suchmaschine auf die zugehörige Datenbank in Block 19 zugreift. Jede Suchmaschine hat ihre eigene Betriebscharakteristik, wie z. B. Boolsche Logik, Statistische Wechselwirkung, usw. Jede Datenbank erzeugt einen Bericht mit einer Zahl von Datensätzen, N, in der Datenbank, dargestellt durch Block 21. In dem Bericht ist auch die Anzahl von Malen enthalten, in denen der Suchbegriff in dem Dokument als Antwort auf die Abfrage vorkommt. Diese Größe, N_Term, ist durch Block 23 dargestellt. Drittens erzeugt der Bericht eine Dokumenten-Iden tifikationsnummer für jedes Dokument, das Treffer aufweist, zusammen mit der Zahl der Vorkommnisse für jeden Suchbegriff, wie dies durch Block 25 dargestellt ist. Ausgehend von dieser Information wird durch die Klientensoftware eine Berechnung einer Maßzahl für jedes Dokument unter Verwendung eines eigenen Algorithmus durchgeführt, dargestellt durch Block 27. Zum Beispiel lautet eine Formel für die Berechnung wie folgt:

wobei t_f die Anzahl der Vorkommnisse des Begriffes in dem Dokument und idf = log (N/N_Term) ist und wobei N und N_TERM die Summe der N- und N_TERM-Werte in den Berichten aller Datensammlungen ist. Die berechneten Maßzahlen werden an einen Ausgabepuffer übermittelt, dargestellt durch Block 29, der die oberen M Maßzahlen des Berechnungsblockes 27 durchkämmt, die von der die Abfrage durchführenden Person angefordert wurden. Es muß bemerkt werden, daß nur ein einziger Durchlauf durch die Datenbank gemacht wurde. Die berechneten Maßzahlen werden als absolute Werte aufgefaßt.

Bei einer alternativen Ausführung kann ein optionaler Parameter für den Gebrauch in dem Algorithmus angezeigt werden. Block 26 zeigt, daß die Häufigkeit des am häufigsten wiederkehrenden Begriffes in jedem Dokument zum Zwecke des Gebrauchs in einer höherentwickelten Einstufungsformel durch den Klienten angezeigt wird. Ein anderer optionaler Datenreduzierungsschritt besteht darin, daß jede Suchmaschine eine Maßzahl für die Dokumentenrelevanz entsprechend dem Stand der Technik berechnet. Aus diesen Daten kann die Suchmaschine bis zu den oberen M Treffern in der Datenbank vorauswählen, wobei M die maximale Anzahl von Treffern ist, die vom Benutzer angefordert wird.

Als Beispiel könnte eine Suchabfrage Dokumente mit den Worten "graphical user interface" betreffen. Die nachstehende Tabelle 1 zeigt einen durch eine Suchmaschine erzeugten Bericht, die eine Anzahl von Dokumenten mit dem höchsten Rang ausgewählt hat. Dieser Bericht wird an die Klientensoftware des Benutzers zurückgegeben, wo dann der Benutzer einen Algorithmus anwendet wie in der Formel (1) oben, der die von jeder Suchmaschine zurückgegebenen Begriffs- und die Dokumentenhäufigkeitsdaten verwendet. Dadurch wird eine lokale Berechnung der Dokumentengewichte für jeden Abfragebegriff unter Kombination von N_TERM und N (= Anzahl der Dokumente) von jeder Sammlung zurückgegeben. Somit ist die Begriffsgewichtung genau dieselbe als wenn die Sammlungen nur in einer einzigen Sammlung bestehen würden. Die Maßzahl ist völlig konsistent, auch wenn verschiedene Suchmaschinen an der Suche teilnehmen, und das gleiche Dokument in zwei verschiedenen Datensammlungen erreicht immer eine identische Maßzahl.

Tabelle 1

N = 65 000 ← Gesamtzahl der Dokumente in der Datensammlung

Claims

1. Verfahren zum Durchsuchen einer Vielzahl von Datenbanken, die an einen Klienten über einen oder mehrere Suchdienste (Server 17) verteilt und zugänglich gemacht sind, wobei das Verfahren folgende Schritte umfaßt:

(a) Richten einer Suchabfrage (11) des Klienten an jeden Suchdienst (17) bezogen auf jede Datenbank (19),
(b) Gewinnen von statistischen Daten beim Klienten über jede Datenbank (19) von jedem Suchdienst (17),
(c) Gewinnen von Informationen (20, 30, 40) beim Klienten für jeden Suchdienst (17) über die resultierenden Dokumente von der Anwendung der Suchabfrage (11) auf die Datenbank (19), und
(d) Berechnen (27) einer Maßzahl für jedes Dokument beim Klienten unter Benutzung der Statistik und der Information (20, 30, 40), wobei die berechneten Maßzahlen für alle Datenbanken (19) anwendbar erscheinen, als wären die Datenbanken in einer einzelnen Datenbank zusammengefaßt.

2. Verfahren nach Anspruch 1, bei dem die Statistik über die genannte Datensammlung (Datenbank 19) den Umfang der genannten Datensammlung in der Einheit der Zahl seiner Sätze (N, Schritt 21) umfaßt.

3. Verfahren nach Anspruch 1, bei dem die Information (20, 30, 40) über jedes Dokument die Anzahl umfaßt, in der jeder Suchbegriff in dem Dokument erscheint (Schritt 25).

4. Verfahren nach Anspruch 1, bei dem die Information über jede Datenbank die Anzahl (N_TERM, Schritt 23) der Dokumente umfaßt, die jeden Suchbegriff enthalten.

5. Verfahren zum Durchsuchen einer Vielzahl von Datenbanken (19), die an einen Klienten über einen oder mehrere Suchdienste (17) verteilt und zugänglich gemacht sind, wobei das Verfahren folgende Schritte umfaßt:

(a) Zugreifen auf jede Datenbank (19) durch den Klienten,
(b) Richten einer Suchabfrage von dem Klienten an jeden Suchdienst (Server 17) in Verbindung mit jeder Datenbank (19),
(c) Gewinnen von Statistiken (Berichte 20, 30, 40) über jede Datenbank (19) beim Klienten,
(d) Gewinnen von statistischer Information beim Klienten über die relevanten Dokumente als Antwort auf das Richten der Abfrage (11) an die Datenbank (19), und
(e) Berechnen (27) einer Maßzahl für die relevanten Dokumente beim Klienten unter Benutzung der genannten Statistiken und der genannten Information (20, 30, 40), wobei die berechnete Maßzahl für ein Dokument unabhängig von der bzw. den Datenbanken ist (19), in der sie erscheinen.

6. Verfahren zum Suchen von Textdokumenten aus einer Vielzahl von Datenbanken (19) als Antwort auf eine Suchabfrage (11),

(a) Richten (11) einer Suchabfrage an jede Datenbank (19),
(b) Bestimmen (21) der Anzahl von Sätzen (N) für jede Datenbank (19),
(c) Richten der Suchabfrage und Aufzeichnen der Anzahl von Treffern (25) für jeden Suchbegriff und Identifizieren der Datenbanksätze mit wenigstens einem Treffer in der genannten Anzahl von Treffern für jede der genannten Datenbanken (19), und
(e) Berichten einer relevanten Maßzahl an den Benutzer für jeden Satz in Bezug auf die Suchabfrage (11), berechnet als Ergebnis der Schritte (b), (c) und (d).

7. Verfahren nach Anspruch 6, weiterhin definiert durch das Auswählen einer Anzahl von Datenbanken (19), die mehr als eine Suchmaschine (Suchvorvorrichtung) für die Datenbanken (19) aufweisen, vor dem Richten der gleichen Suchabfrage (11) an alle Datenbanken (19).

8. Verfahren nach Anspruch 7, weiterhin definiert durch das Auswählen einer Anzahl von Datensätzen, die aus der genannten Anzahl von Datenbanken (19) betrachtet werden sollen, wobei die Zahl die höchste Relevanzmaßzahl für die Suchabfrage aufweist.

9. Verfahren nach Anspruch 8, weiterhin definiert durch das Vorauswählen einer Anzahl von Datensätzen vor dem Berechnen einer Relevanzmaßzahl.