Suche Bilder Maps Play YouTube News Gmail Drive Mehr »
Anmelden
Nutzer von Screenreadern: Klicke auf diesen Link, um die Bedienungshilfen zu aktivieren. Dieser Modus bietet die gleichen Grundfunktionen, funktioniert aber besser mit deinem Reader.

Patentsuche

  1. Erweiterte Patentsuche
VeröffentlichungsnummerDE19624696 C2
PublikationstypErteilung
AnmeldenummerDE1996124696
Veröffentlichungsdatum1. Juli 1999
Eingetragen20. Juni 1996
Prioritätsdatum17. Mai 1995
Auch veröffentlicht unterDE19624696A1, US5659732
Veröffentlichungsnummer1996124696, 96124696, DE 19624696 C2, DE 19624696C2, DE-C2-19624696, DE19624696 C2, DE19624696C2, DE1996124696, DE96124696
ErfinderSteven T Kirsch
AntragstellerInfoseek Corp
Zitat exportierenBiBTeX, EndNote, RefMan
Externe Links: DPMA, Espacenet
Verfahren zum Suchen von Datenbankeinträgen in einer Vielzahl von Datenbanken
DE 19624696 C2
Zusammenfassung  auf verfügbar
Ansprüche(9)
1. Verfahren zum Suchen von Datenbankeinträgen in einer Vielzahl von Datenbanken (19), das die Schritte aufweist:
  • a) Richten einer Suchabfrage (11) an jede Datenbank (19),
  • b) Erhalten von statistischen Daten von jeder Datenbank (19), wobei die statistischen Daten die Anzahl der Einträge (N) einschließt;
  • c) Erhalten von Informationen (20, 30, 40) über die Datenbankeinträge, die aus dem Richten der Suchabfrage (11) an die Datenbanken (19) resultieren, wobei die Informationen über die Datenbankeinträge einschließen:
    • 1. die Trefferanzahl (tf), mit der ein Suchbegriff der Suchabfrage (11) in dem Datenbankeintrag vorhanden ist, und
    • 2. eine Identifikationsnummer (DokID) des Datenbankeintrags; und
  • d) Berechnen einer Relevanzmaßzahl bei einem Klienten für jeden Datenbankeintrag unter Verwendung der statistischen Daten des Schritts b) und der Informationen vom Schritt c).
2. Verfahren nach Anspruch 1, bei dem eine oder mehrere der Datenbanken (19) für den Klienten über einen oder mehrere Suchdienste (Server 17) abgefragt wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem die statistischen Daten über die Datenbanken (19) weiterhin die Anzahl der Dokumente (NTERM), die den Suchbegriff enthalten, einschließt.
4. Verfahren nach einem der 1 Ansprüche 1 bis 3, bei dem die Datenbankeinträge Textdokumente, bibliografische Dokumente, wissenschaftliche Dokumente, bibliografische Daten, wissenschaftliche Daten und/oder Datensammlungen umfassen.
5. Verfahren nach einem der Ansprüche 3 oder 4, bei dem die Relevanzmaßzahl für jeden Datenbankeintrag und jeden Begriff wie folgt berechnet wird:
Relevanzmaßzahl = tf . log (N/NTERM)
6. Verfahren nach Anspruch 5, bei dem die Relevanzmaßzahl für jeden Datenbankeintrag und alle Ausdrücke die Summe über alle Relevanzmaßzahlen für jeden Begriff ist.
7. Verfahren nach einem der Ansprüche 1 bis 6, weiterhin definiert durch das Auswählen einer Anzahl von Datenbanken (19), die mehr als eine Suchmaschine (Suchvorvorrichtung) für die Datenbanken (19) aufweisen, vor dem Richten der gleichen Suchabfrage (11) an alle Datenbanken (19).
8. Verfahren nach Anspruch 7, weiterhin definiert durch das Auswählen einer Anzahl von Datensätzen, die aus der genannten Anzahl von Datenbanken (19) betrachtet werden sollen, wobei die Zahl die höchste Relevanzmaßzahl für die Suchabfrage aufweist.
9. Verfahren nach Anspruch 8, weiterhin definiert durch das Vorauswählen einer Anzahl von Datensätzen vor dem Berechnen einer Relevanzmaßzahl.
Beschreibung

Die Erfindung bezieht sich auf ein Verfahren zum Suchen von Datenbankeinträgen in einer Vielzahl von Datenbanken.

Seit mehr als 20 Jahren stellen Informationsdienste den Zugang zu einer Vielzahl von Datenbanken zur Verfügung. Dialog Information Services, zum Beispiel jetzt bekannt als Knight Rider Information, Inc. verbreitet mehrere hundert Datenbanken (Kollektionen bzw. Datensammlungen) für die Suchenden. Die Suche nach bestimmten Informationen wird z. B. von M. Schmidt in "WAIS: Text-Retrieval mit Struktur", iX Multiuser Multitasking Magazin, 4/1996, S. 172 ff. beschrieben. Einige dieser Datenbanken beinhalten bibliographische Zusammenfassungen, während andere Volltextdatenbanken beinhalten. Ein Suchender ist in der Lage, eine Abfrage an eine oder eine Vielzahl von Datenbanken zu richten. Am Anfang wählt der Suchende einzelne Datenbanken seines Interesses, basierend auf Erfahrungen der Vergangenheit, aus, oder er wählt eine Gruppe von Datenbanken aus, die von dem Informationsverbreiter vorgewählt sind und sich auf bestimmte Stichpunkte beziehen. Ein Suchender mag z. B. den Oberbegriff Patente auswählen, ein Oberbegriff, für den der Informationsdienst eine Anzahl von auf Patente bezogene Datenbanken zusammengefaßt hat. Wenn eine Abfrage auf eine Gruppe von Datenbanken gerichtet wird, findet der Informationsdienst eine Anzahl von Treffern in jeder Datenbank auf. Der Suchende greift dann auf die Datenbanken seines Interesses zu, um die einzelnen Einträge anzuschauen. Dieses System wurde ursprünglich für Bibliothekare und professionelle Wissenschaftler entwickelt, die wissen, wo die gewünschte Information zu suchen ist.

Als Netzwerke wie das Internet für ein größeres Gebiet zugänglich wurden, wurden neue Möglichkeiten zum Suchen nicht nur für professionelle Sucher, sondern auch für laienhafte Benutzer, erschlossen, wie dies von Obraczka et al. in "Internet Resource Discovery Services", IEEE Computer, S. 8-22, 1993 beschrieben ist. Neue Arten von Informationsverbreiter kommen auf, die öffentliche wie auch private Datenbanken verwenden, um den Benutzern bibliographische, wissenschaftliche Daten und Dokumente zu Verfügung zu stellen. Wenn nun ein Benutzer Interesse an einem Oberbegriff, wie z. B. Patente, hat, ist es möglich, daß er nicht weiß, welche Quellen für einen Suchvorgang zusammengefaßt werden können oder wo die Quellen zu finden sind. Da die Quellen sich oft ändern, wird ein Suchender wenig Interesse an der Quelle der Antwort im Vergleich mit der Relevanz der Antwort haben. Es wurde von anderen festgestellt daß verteilte Datensammlungen, die über einen weiten Bereich von Netzwerken zugänglich sind, als eine einzelne Datensammlung aufgefaßt werden können. Jede Untersammlung wird individuell durchsucht und die Berichte werden in einer einzigen Liste kombiniert. In US 5,554,352 wurde berichtet, daß Dokumente von Suchmaschinen (Suchvorrichtungen) in Übereinstimmung mit einem Algorithmus eingestuft werden können und ihnen eine Gewichtung zugeordnet werden kann, die die Art der Datensammlung mit einbezieht. Maßzahlen für Dokumente können normiert werden, um Maßzahlen zu gewinnen, als wären sie gewonnen, wenn einzelne Dokumentsammlungen zu einer einzigen, vereinheitlichten Sammlung zusammengemischt wären.

Eines der Probleme, die beim Stand der Technik existieren, besteht darin, daß die Maßzahlen für jedes Dokument nicht absolut sind, sondern von der Statistik jeder Sammlung und von den Algorithmen in Verbindung mit den Suchmaschinen abhängen. Ein zweites, vorliegendes Problem besteht ferner darin, daß das Standardverfahren nach dem Stand der Technik zwei Durchläufe erfordert. Beim ersten Durchlauf wird die Statistik von jeder Suchmaschine zusammengefaßt, um eine Gewichtung für jeden Suchbegriff zu berechnen. Beim zweiten Schritt wird die Information aus dem ersten Schritt an jede Suchmaschine zurückgegeben, die dann eine gesonderte Gewichtung und Maßzahl für jeden Treffer oder das identifizierte Dokument zuordnet. Ein drittes, vorliegendes Problem besteht außerdem darin, daß der Stand der Technik es erfordert, daß alle Datensammlungen die gleiche Suchmaschine benutzen.

Aufgabe der Erfindung ist es, ein Verfahren zum Durchsuchen einer Vielzahl von Datenbanken in einem einzigen Durchlauf zu schaffen mit einer Einreihung der Dokumente auf einer konsistenten Basis, so daß das gleiche Dokument so eingeordnet wird, als wenn die Ergebnisse zusammengemischt wären, auch wenn es in zwei verschiedenen Datenbanken erscheint. Dabei soll es ist nicht erforderlich sein, daß die gleiche Suchmaschine für alle Datensammlungen benutzt wird.

Die oben genannte Aufgabe wird mit dem im Patentanspruch 1 angegebenen Verfahren gelöst. Von jedem teilnehmenden Suchmaschinenbetreiber (Server) wird verlangt, eine Statistik über jeden Suchbegriff in jedem der zurückgegebenen Dokumente zurückzugeben. Eine endgültige Relevanzmaßzahl wird dann auf der Klientenseite und nicht beim Server berechnet. Auf diese Weise werden alle relevanten Maßzahlen beim Klienten in der gleichen Weise unabhängig von Unterschieden in den Suchmaschinen berechnet.

Die Erfindung wird nachstehend anhand der Zeichnung näher erläutert, wobei Fig. 1 ein Blockdiagramm des Systems der vorliegenden Erfindung aufzeigt.

Mit Bezug auf Fig. 1 wird eine Abfrage, dargestellt durch den Abfrageblock 11, durch den Benutzer formuliert und auf ein Endgerät oder Klientensystem gebracht. Die Abfrage wird elektronisch an eine Netzwerkschnittstelle 13 übermittelt. Die Netzwerkschnittstelle 13 ist ein Informationsdienst, der Zugang zu den Quellen 17 mit sich auf den Gegenstand der Abfrage beziehenden Datenbanken hat. Diese bei anderen Diensten (Server) installierten Datenbanken werden simultan über Kommunikationskanäle 15 abgerufen, die großflächige Netzwerkverbindungen zu den Quellen 17 haben können. Das Internet ist ein Modell für ein solches Arrangement von großflächigen Netzwerkverbindungen und fernabfragbarer Quellen. Die Abfrage wird an Suchmaschinen gerichtet, dargestellt durch die Spalten 20, 30 und 40, wobei jede Suchmaschine auf die zugehörige Datenbank in Block 19 zugreift. Jede Suchmaschine hat ihre eigene Betriebscharakteristik, wie z. B. Boolsche Logik, Statistische Wechselwirkung, usw. Jede Datenbank erzeugt einen Bericht mit einer Zahl von Datensätzen, N, in der Datenbank, dargestellt durch Block 21. In dem Bericht ist auch die Anzahl von Malen enthalten, in denen der Suchbegriff in dem Dokument als Antwort auf die Abfrage vorkommt. Diese Größe, NTerm, ist durch Block 23 dargestellt. Drittens erzeugt der Bericht eine Dokumenten- Identifikationsnummer für jedes Dokument, das Treffer aufweist, zusammen mit der Zahl der Vorkommnisse für jeden Suchbegriff, wie dies durch Block 25 dargestellt ist. Ausgehend von dieser Information wird durch die Klientensoftware eine Berechnung einer Maßzahl für jedes Dokument unter Verwendung eines eigenen Algorithmus durchgeführt, dargestellt durch Block 27. Zum Beispiel lautet eine Formel für die Berechnung wie folgt:

wobei tf die Anzahl der Vorkommnisse des Begriffes in dem Dokument und idf = log (N/NTerm) ist und wobei N und NTERM die Summe der N- und NTERM-Werte in den Berichten aller Datensammlungen ist. Die berechneten Maßzahlen werden an einen Ausgabepuffer übermittelt, dargestellt durch Block 29, der die oberen M Maßzahlen des Berechnungsblockes 27 durchkämmt, die von der die Abfrage durchführenden Person angefordert wurden. Es muß bemerkt werden, daß nur ein einziger Durchlauf durch die Datenbank gemacht wurde. Die berechneten Maßzahlen werden als absolute Werte aufgefaßt.

Bei einer alternativen Ausführung kann ein optionaler Parameter für den Gebrauch in dem Algorithmus angezeigt werden. Block 26 zeigt, daß die Häufigkeit des am häufigsten wiederkehrenden Begriffes in jedem Dokument zum Zwecke des Gebrauchs in einer höherentwickelten Einstufungsformel durch den Klienten angezeigt wird. Ein anderer optionaler Datenreduzierungsschritt besteht darin, daß jede Suchmaschine eine Maßzahl für die Dokumentenrelevanz entsprechend dem Stand der Technik berechnet. Aus diesen Daten kann die Suchmaschine bis zu den oberen M Treffern in der Datenbank vorauswählen, wobei M die maximale Anzahl von Treffern ist, die vom Benutzer angefordert wird.

Als Beispiel könnte eine Suchabfrage Dokumente mit den Worten "graphical user interface" betreffen. Die nachstehende Tabelle 1 zeigt einen durch eine Suchmaschine erzeugten Bericht, die eine Anzahl von Dokumenten mit dem höchsten Rang ausgewählt hat. Dieser Bericht wird an die Klientensoftware des Benutzers zurückgegeben, wo dann der Benutzer einen Algorithmus anwendet wie in der Formel (1) oben, der die von jeder Suchmaschine zurückgegebenen Begriffs- und die Dokumentenhäufigkeitsdaten verwendet. Dadurch wird eine lokale Berechnung der Dokumentengewichte für jeden Abfragebegriff unter Kombination von NTERM und N (= Anzahl der Dokumente) von jeder Sammlung zurückgegeben. Somit ist die Begriffsgewichtung genau dieselbe als wenn die Sammlungen nur in einer einzigen Sammlung bestehen würden. Die Maßzahl ist völlig konsistent, auch wenn verschiedene Suchmaschinen an der Suche teilnehmen, und das gleiche Dokument in zwei verschiedenen Datensammlungen erreicht immer eine identische Maßzahl.

Tabelle 1

N = 65.000 ← Gesamtzahl der Dokumente in der Datensammlung

Patentzitate
Zitiertes PatentEingetragen Veröffentlichungsdatum Antragsteller Titel
US5554352 *9. Mai 199510. Sept. 1996Construction Material ResourcesProcessed silica as a natural pozzolan for use as a cementitious component in concrete and concrete products
Nichtpatentzitate
Referenz
1 *OBRACZKA et al.: "Internet Resource Discovery Services", in: IEEE Computer, 1993, S. 8-22
2 *SCHMIDT, Michael: "WAIS: Text-Retrieval mit Struktur", in iX Multinser Multitasking Magazin, 4/1995, S. 172, 174, 176, 178, 180, 182
Klassifizierungen
Internationale KlassifikationG06F17/30
UnternehmensklassifikationY10S707/99935, Y10S707/99934, Y10S707/99939, G06F17/30864
Europäische KlassifikationG06F17/30W1
Juristische Ereignisse
DatumCodeEreignisBeschreibung
2. Jan. 1998OP8Request for examination as to paragraph 44 patent law
1. Juli 1999D2Grant after examination
30. Dez. 19998364No opposition during term of opposition
20. Apr. 20068327Change in the person/name/address of the patent owner
Owner name: GOOGLE INC., MOUNTAIN VIEW, CALIF., US
20. Juni 2016R071Expiry of right