DE10231161A1

DE10231161A1 - Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben

Info

Publication number: DE10231161A1
Application number: DE10231161A
Authority: DE
Inventors: Robert Kincaid; Simon Handley; Aditya Vailaya; Parvathi Chundi
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2001-05-09
Filing date: 2002-07-10
Publication date: 2003-11-20
Also published as: US20020169764A1; US6920448B2

Abstract

Ein System und Verfahren zum Durchführen von domainspezifischen wissensbasierten Metasuchen. Eine Metasuchmaschine zum Zugreifen auf und Suchen von textbasierten Dokumenten unter Verwendung von generischen Suchmaschinen, während sie gleichzeitig in der Lage ist, auf veröffentlichungsbasierte Datenbanken und Sequenzdatenbanken sowie firmeneigene, geschlossene Datenbanken und jegliche Datenbank zuzugreifen, die in der Lage ist, mit einer Webschnittstelle schnittstellenmäßig verbunden zu werden, um Suchergebnisse in einem Textformat zu erzeugen, ist vorgesehen. Ferner ist ein Data-Mining-Modul zum Organisieren von Rohdaten vorgesehen, die durch ein nicht-überwachtes Clustern, ein Ordnen in einer einfachen Relevanzrangfolge und eine Kategorisierung, von denen alle unabhängig voneinander erfolgen, erhalten werden. Das System ist in der Lage, frühere Suchdaten zur Verwendung bei einer Anfrageverfeinerung oder späterem Suchen auf der Basis der gespeicherten Daten zu speichern. Ein Suchergebnisse-Sammelbrowser kann zum Analysieren vorliegender Browsing-Muster des Benutzers vorgesehen sein, um Gewichtungsfaktoren zu entwickeln, die beim Ordnen der Ergebnisse zukünftiger Suchvorgänge verwendet werden sollen.

Description

Beschreibung

Die vorliegende Erfindung bezieht sich allgemein auf Metasuchmaschinen und Data-Mining-Systeme und im einzelnen auf Metasuchmaschinen und Data-Mining-Systeme, die auf domain- spezifische Wissensbanken ausgerichtet sind.
Mit der schnellen Zunahme des Internet und Benutzern des Internet in den letzten fünf Jahren entwickelte sich eine damit zusammenhängende rasche Zunahme der Informationsmenge, die über das Internet verfügbar ist. Während diese Explosion an Informationen, die dem Benutzer zur Verfügung stehen, auf den ersten Blick als ein willkommenes Gut erscheinen mag, bringt sie für den Benutzer mehrere negative Aspekte mit sich, nicht zuletzt die ständig steigenden Schwierigkeiten beim Durchsortieren der riesigen Mengen an verfügbaren Informationen, um diejenigen Informationsquellen zu finden, die für die vorliegende Suche am relevantesten sind.
Benutzern stehen viele Suchmaschinen, beispielsweise Google™ und AltaVista®, zur Verfügung, die leistungsstarke Such-Tools für eine allgemeine Verwendung bereitstellen. Diese Suchmaschinen befähigen einen Benutzer, den riesigen Verwahrungsort von öffentlichen webbasierten Dokumenten, die durch diese Systeme indexiert sind, abzufragen. Das bloße Volumen zur Verfügung stehender Daten führt jedoch bei vielen dieser allgemeinen Suchen zu einem unerwünschten Ergebnis, da die meisten einfachen Suchen große und schwer zu handhabende Volumen von Treffern oder Ergebnissen zurückgeben, von denen viele für das, was der Benutzer sucht, nicht brauchbar oder relevant sind.
Die meisten der zur Verfügung stehenden Suchmaschinen wenden bei dem Versuch, Übereinstimmungen mit Informationen zu finden, die für die durch den Benutzer gelieferten Suchkriterien am relevantesten sind, unterschiedliche Strategien an. Deshalb bringt jede Suchstrategie ihre eigene Voreingenommenheit bezüglich der Relevanz von wiedererlangten Dokumenten ein, und eine Suchmaschine kann für eine beliebige gegebene Suche überragende Ergebnisse liefern, während eine andere Suchmaschine für eine zweite, andere Suche überragende Suchergebnisse liefern kann. Beispielsweise kann eine Suchmaschine die Relevanz eines Dokuments anhand der Anzahl von "Treffern" oder Übereinstimmungen etwaiger der Schlüsselwörter in der durch den Benutzer gelieferten Anfrage für tatsächliche Auftretensfälle dieser Wörter (oder anderer Suchbegriffe) in dem Dokument bestimmen. Jedoch ist die bloße Wiederholung eines relevanten Begriffes keine Garantie, daß das Dokument relevant ist, und oft weist der Inhalt eines auf diese Weise identifizierten Dokuments wenig oder keine Relevanz für das Thema auf, das für den Benutzer von Interesse ist. Dies führt zu einem großen Zeitaufwand, da der Benutzer Dokumente öffnen muß, die als relevant angegeben sind, und sie lesen muß, um zu bestimmen, ob sie tatsächlich relevant sind, was nämlich ein großes Ausmaß an "manuellem Suchen" durch den Benutzer erfordert, um die tatsächlich benötigten Dokumente zu bekommen.
Ferner setzen unterschiedliche Suchmaschinen oft unterschiedliche Prioritäten in bezug darauf, welche Sites indexiert werden sollen, und sammeln daher ungleichartige Ergebnisse bezüglich derselben durch den Benutzer gelieferten Anfrage, bevor sie noch irgendwelche Relevanzzuweisungen durchführen.
Eine andere Art und Weise, zu versuchen, relevante Dokumente wiederzuerlangen, erfolgt durch ein Filtern, wobei eine Schnittstelle bereitgestellt wird, um es dem Benutzer zu ermöglichen, Parameter einzustellen, um bei einem Satz relevanter Begriffe anzugelangen. Auf diese Weise bestimmt der Benutzer manuell, welche Suchergebnisse in einem Satz gelieferter relevanter Suchergebnisse die relevantesten sind. Dieser Lösungsansatz weist das Potential auf, einen Teil der Zeit, die erforderlich ist, um sich suchenderweise durch nicht-relevante Dokumente zu arbeiten, die andernfalls vielleicht durch den zuvor erörterten Lösungsansatz geliefert worden wären, zu eliminieren. Für manuelle Einstellungen wird jedoch immer noch Zeit benötigt. Ferner können die manuellen Einstellungen potentiell relevante Dokumente eliminieren, die andernfalls durch den zuvor beschriebenen Lösungsansatz präsentiert worden wären.
Es stehen Metasuchmaschinen zur Verfügung (beispielsweise metacrawler®, Dogpile®, Search.com usw.), die als ein "Mittelsmann" zwischen dem Benutzer und einer Anzahl von Suchmaschinen des oben beschriebenen Typs fungieren. Auf diese Weise kann ein Benutzer eine einzelne Anfrage einer Metasuchmaschine unterbreiten, und die Metasuchmaschine untersucht die Anfrage daraufhin syntaktisch (d. h. parst sie) und formatiert sie neu. Die neu formatierten Anfragen werden daraufhin an zahlreiche Suchmaschinen wie beispielsweise die oben beschriebenen weitergeleitet, wobei jede einzelne Suchmaschine eine den Protokollen für diese Suchmaschine entsprechend formatierte Anfrage empfängt. Nach einem Wiedererlangen der Ergebnisse von den einzelnen Suchmaschinen präsentiert die Metasuchmaschine dieselben dem Benutzer. Abgesehen von der dem Benutzer bereitgestellten Vereinfachung, die darin besteht, daß er lediglich eine Anfrage formatieren muß, besteht ein Ziel dieses Lösungsansatzes darin, daß durch ein Bilden einer Zusammensetzung aus Ergebnissen relevante Dokumente, die durch eine einzelne verwendete Suchmaschine vielleicht nicht gefunden worden wären, durch eine andere gefunden und wiedererlangt werden.
Obwohl diese Metasuchmaschinen die Anfrageaufgabe durch den Benutzer vereinfachen und somit ziemlich nützlich sind und ein gewisses Maß an Zeitersparnis liefern, tun sie nichts in bezug darauf, zu versuchen, die Ergebnisse zu kategorisieren oder sie auf andere Weise sinnvoll darzustellen, um sie schneller zugänglich zu machen. Folglich bleibt dem Benutzer in der Regel eine sehr große Menge an Rohergebnissen (relativ ungeordnete Dokumente), die zu prüfen sind. Ferner durchsuchen diese Metasuchmaschinen generische Indizes wie beispielsweise Google™ (für ein Metasuchen in Google™ kann eine Genehmigung und/oder Lizenz erforderlich sein) oder AltaVista® und beinhalten keine Sites, die eine spezifische Relevanz für die Wissenschaften aufweisen.
Derzeitige webbasierte Suchmaschinen, die Data-Mining- Fähigkeiten verwenden, umfassen northernlight.com, huskysearch und vivisimo. Diese Systeme verwenden allgemein eine Art nicht-überwachter Gruppierung (Clustering) zu Gruppendokumenten nach ähnlichen Themen. Diese Systeme stellen insofern eine Verbesserung gegenüber den oben beschriebenen generischen Metasuchmaschinen dar, als der Benutzer die in Clustern oder Untergruppen bereitgestellten Suchergebnisse sehen kann und daraufhin potentiell Cluster oder Untergruppen, die einen geringen Relevanzwert zu haben scheinen, eliminieren kann bzw. schneller auf diejenigen Dokumente in Untergruppen zugreifen kann, die hochrelevant zu sein scheinen. Bei keinem dieser Beispiele wurden Data-Mining- Algorithmen jedoch speziell auf die Wissenschaften oder insbesondere auf die Biowissenschaften abgestimmt. Somit wird eine allgemeine wissenschaftliche Terminologie, die bei einer wissenschaftlichen Suche keinen echten Diskriminierungswert aufweist, bei der Verwendung dieser Systemtypen als bedeutend überbewertet, wenn sie es in der Tat gar nicht ist. Obwohl es möglich ist, unter Verwendung der obigen generischen Typen von Suchmaschinen und Data-Mining- Tools für eine wissenschaftliche Suche relevante Informationen wiederzuerlangen, ist es auch wahrscheinlich, daß viele relevante Dokumente nicht gefunden werden, da ein Zugriff auf spezialisierte Sites (im Fall einer biowissenschaftlichen Suche beispielsweise PubMed, SwissProt, Entrez, EMBL usw.) nicht angewiesen ist.
Es wurden bereits Versuche durchgeführt, domain-spezifische Implementierungen von Metasuch-Tools bereitzustellen, die searchlight.cdlib.org, researchville.com, bio-crawler, gateway.nlm.nih.gov und queryserver.com umfassen. Searchlight liefert einige wenige wissenschaftlich orientierte Metasuchen, weist jedoch keine Clustering-Fähigkeit auf. researchville.com liefert eine medizinisch orientierte Implementierung, weist aber ebenfalls keine Clustering-Fähigkeit auf. bio-crawler scheint biologiespezifische Suchen auf japanisch bereitzustellen, jedoch wiederum ohne Clustering- Fähigkeit. gateway.nlm.nih liefert einen Zugriff auf verschiedene Regierungsdatenbanken, einschließlich medizinischer Datenbanken, verfügt aber ebenfalls über keine Clustering-Fähigkeit. queryserver.com liefert gesundheitsorientierte Metasuchen mit einem Clustering von Ergebnissen, ist jedoch ein serverbasiertes Tool und liefert nicht die Fähigkeit, sowohl generische als auch domain-spezifische Suchen zu kombinieren, und eine Kategorisierung wird ebenfalls nicht durchgeführt. Da es serverbasiert ist, wird seine Konfigurierung durch den Server-Administrator bestimmt und verfügt daher nicht über das Potential für eine Endbenutzer-Kundenanpassung.
Es wurden bisher auch verschiedene clientbasierte Lösungen für ein Suchen vorgeschlagen. webferret.com liefert eine einfach zu verwendende Client-Anwendung, die Metasuch- Fähigkeiten bereitstellt, es liefert jedoch keine Data- Mining-Fähigkeiten und ist auf eine feststehende Liste von generischen Suchmaschinen beschränkt. DynaCat und QueryCat (http:/ / www.ics.uci.edu/-pratt/) sind Anwendungen, die ein Client-Tool verwenden, um nach domain-spezifische Informationen innerhalb von MedLine anzufragen. Diese Tools sind keine Metasuchmaschinen und weisen somit nicht die Fähigkeit auf, in mehreren Suchmaschinen anzufragen.
Es wäre wünschenswert, über domain-spezifische Tools zum effizienten Durchführen wissenschaftlicher Metasuchen und zum Organisieren der Ergebnisse solcher Suchen zu verfügen, um dem Benutzer zu ermöglichen, die relevantesten entdeckten Informationen schnell zu identifizieren und auf sie zuzugreifen.
Es ist die Aufgabe der vorliegenden Erfindung, Verfahren, Computersysteme und ein computerlesbares Medium zu schaffen, die ein effizienteres Suchen von Informationen im Internet ermöglichen.
Diese Aufgabe wird durch Verfahren gemäß den Ansprüchen 1, 30 und 31, Computersysteme gemäß den Ansprüchen 33 und 45 sowie durch ein computerlesbares Medium gemäß Anspruch 50 gelöst.
Die vorliegende Erfindung umfaßt ein Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen daraus, wobei das Verfahren ein Bereitstellen einer Metasuchmaschine umfaßt, die in der Lage ist, auf generische, webbasierte Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites zuzugreifen. Die Metasuchmaschine empfängt eine durch einen Benutzer eingegebene Anfrage und greift auf Sites zu, von denen gewünscht wird, daß sie nach relevanten Dokumenten durchsucht werden. Nachdem sie identifiziert wurden, werden die Dokumente als Rohdaten-Suchergebnisse in Form von Textdokumenten von jedem Element eines ausgewählten Satzes von Suchsites abgerufen. Der Benutzer zeigt die Rohdaten auf einer Benutzerschnittstelle für einen unmittelbaren Zugriff an, und die Rohdaten werden ebenfalls gleichzeitig an ein Data-Mining-Modul zur Analyse und Organisation der Suchergebnisse geliefert. Das Data-Mining-Modul bildet Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering-Verfahren und zeigt die Cluster von verwandten Dokumenten auf der Benutzerschnittstelle an.
Das Data-Mining-Modul ist ferner in der Lage, eine einzige Liste aller als Rohdaten wiedererlangten Dokumente unabhängig von dem nicht-überwachten Clustering-Verfahren zu erstellen, nachdem es Dokumente, die nicht über das Web erreichbar sind, eliminiert hat. Das Data-Mining-Modul weist den Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem Dokument erscheinen, einfache Relevanzpunktzahlen zu. Die Dokumente werden daraufhin in einer Reihenfolge, die von den höchsten bis zu den niedrigsten einfachen Relevanzpunktzahlen rangiert, in der einzigen Liste aufgeführt.
Kundenspezifische Stopwortlisten können bereitgestellt werden, die auf einzelne oder Gruppen von generischen webbasierten Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites zugeschnitten sind. Die kundenspezifischen Stopwortlisten können manuell bereitgestellt werden, beispielsweise durch ein Bereitstellen vordefinierter kundenspezifischer Stopwortlisten, oder können automatisch erzeugt werden, wobei die Stopwortlisten in diesem Fall für jede Anfrage ohne jegliche manuelle Intervention direkt anhand der Suchergebnisse erstellt und auf den Kunden zugeschnitten werden können. Das Data-Mining-Modul nimmt Bezug auf die Stopwortlisten, um Stopwörter aus den einer jeweiligen Maschine, Veröffentlichungssite oder Sequenzen-Site, für die die bestimmte Stopwortliste, auf die Bezug genommen wird, maßgeschneidert wurde, zugeordneten Dokumenten herauszuziehen, bevor die Häufigkeit von Begriffen aus der Anfrage, die in jedem bestimmten Dokument erscheinen, bestimmt wird. Die Liste von in jedem Dokument auftretenden Begriffen wird daraufhin verwendet, um eine Annäherungspunktzahl zu berechnen (beispielsweise durch das als Gruppendurchschnittsverknüpfungstechnik unten ausführlicher erläuterte Beispiel), der für ein Gruppieren der Dokumente verwendet werden soll. Kundenspezifische Stopwortlisten können automatisch erzeugt und auf individuelle oder Gruppen von generischen webbasierten Suchmaschinen sowie domain-relevanten Suchmaschinen maßgeschneidert werden, einschließlich Veröffentlichungssites und/oder Sequenzen-Sites, Proteinstruktur-Datenbanken, Übertragungsweginformationsdatenbanken und andere spezifische Datenbanken, aber nicht ausschließlich derselben. Ein solches Merkmal beseitigt die Last, diese Listen, die eventuell geändert werden müssen, wenn sich die generischen webbasierten Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites und andere Sites ändern, z. B. wenn dieselben aktualisiert werden, manuell erstellen/bearbeiten zu müssen.
Das Data-Mining-Modul ist ferner in der Lage, eine einzige Liste aller als Rohdaten wiedererlangten Dokumente unabhängig von dem nicht-überwachten Clustering-Verfahren zu erstellen, nachdem es Dokumente, die nicht über das Web erreichbar sind, eliminiert hat. Das Data-Mining-Modul weist den Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem Dokument erscheinen, einfache Relevanzpunktzahlen zu. Die Dokumente werden daraufhin in einer Reihenfolge, die von den höchsten bis zu den niedrigsten einfachen Relevanzpunktzahlen rangiert, in der einzigen Liste aufgeführt.
Ferner kann das Data-Mining-Modul unabhängig von dem nicht- überwachten Clustering-Verfahren und dem Verfahren der Erstellung der einzigen Liste die Rohdaten verarbeiten, um die Dokumente so zu kategorisieren, daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist. Eine Liste von Wörtern kann für jede der vordefinierten Kategorien vorgesehen sein, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind. Das Data-Mining-Modul vergleicht die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument, um zu bestimmen, ob das Dokument in dieser bestimmten Kategorie klassifiziert wird. Nach Abschluß der Kategorisierung werden die Dokumente ferner der Benutzerschnittstelle in einem kategorisierten Format angezeigt.
Listen von Wörtern, die für jede der vordefinierten Kategorien spezifisch sind, können auch automatisch erzeugt werden, wobei die Wörter in jeder Liste für die jeweilige Kategorie, für die sie verwendet wird, spezifisch sind. Die automatische Erstellung kann unter Verwendung eines Schulungssatzes bzw. Trainingssatzes von Dokumenten durchgeführt werden, wobei jedes eine bekannte Kategorie aufweist. Eine Liste von Wörtern, die unter den vordefinierten Kategorien am meisten unterscheiden, können daraufhin aus dem Trainingssatz bezüglich jeder Kategorie identifiziert werden. Jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort kann auf der Basis einer Funktion identifiziert werden, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für das es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien errechnet wird.
Die Listen von Wörtern für jede der Kategorien können durch ein inkrementales Training unter Verwendung der zuvor ausgewählten Listen von Wörtern, durch ein Kategorisieren neuer und alter Trainingsdokumente unter Verwendung dieser Liste, und durch ein Annehmen einer Benutzerrückmeldung in bezug auf die Kategorisierung dieser Dokumente automatisch ausgewählt werden.
Das nicht-überwachte Clustering-Verfahren verwendet eine Gruppendurchschnittsverknüpfungstechnik, um relative Abstände zwischen Dokumenten zu bestimmen. Ein bestimmtes Beispiel einer Gruppendurchschnittsverknüpfungstechnik, die verwendet werden kann, verwendet den folgenden Algorithmus zum Bestimmen einer Näherungspunktzahl, die relative Entfernungen zwischen Dokumenten definiert:

S_ij = 2 × (1/2 - N(T_i,T_j)/(N(T_i) + N(T_j));

wobei
T_i ein Begriff im Dokument i ist;
T_j ein Begriff im Dokument j ist;
N(T_iT_j) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(T_i) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(T_j) die Anzahl von Begriffen im Dokument j ist.
Man beachte, daß "Begriff" einem Wort in einem Dokument, nachdem die Stopwörter aus dem Dokument entfernt wurden, entspricht.
Die vorliegende Erfindung kann auch Suchen lokal speichern und die Daten in den gespeicherten Suchen verwenden, um eine lokale Suche oder eine Anfrageverfeinerungssuche unter Verwendung der oben beschriebenen Fähigkeiten auszuführen.
Ein Browser, der einen Relevanzrückmeldemechanismus umfaßt, kann ferner bereitgestellt sein, um die wiedererlangten Dokumente zu analysieren, während sie durch einen Benutzer auf der Benutzeroberfläche durchsucht werden (Browsing). Ein Relevanzgewichtungsfaktor kann auf der Basis von Beobachtungen, die sich aus der Analyse ergeben, erstellt werden. Relevanzgewichtungsfaktoren können beispielsweise auf ein bestimmtes Dokument, das durchsucht wurde, eine Site oder eine Suchmaschine, von der ein bestimmtes Dokument, das durchsucht wurde, abgerufen wurde, oder ein Cluster, in dem ein bestimmtes Dokument, das durchsucht wurde, gruppiert ist, anwendbar sein.
Ein Computersystem zum Durchführen der obigen Aufgaben ist ebenfalls vorgesehen, ebenso wie ein computerlesbares Medium zum Tragen einer oder mehrerer Sequenzen von Anweisungen von einem Benutzer eines solchen Computersystems.
Diese und andere Ziele, Vorteile und Merkmale der Erfindung werden für Fachleute nach Lektüre der Einzelheiten des Systems und der Verfahren, die unten ausführlicher beschrieben werden, offensichtlich.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein architektonisches Schema eines Systems gemäß der vorliegenden Erfindung;
Fig. 2 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die die anfänglichen Rohergebnisse einer Suche zeigt, die unter Verwendung eines Systems gemäß der vorliegenden Erfindung durchgeführt wird;
Fig. 3 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die Dokumentensuchergebnisse gemäß einer einfachen Relevanzrangfolge anzeigt;
Fig. 4 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die ein Beispiel eines gemäß der vorliegenden Erfindung gebildeten Clusters anzeigt;
Fig. 5 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die dasselbe in Fig. 4 identifizierte Cluster anzeigt, jedoch in einem Baumhierarchieformat;
Fig. 6 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die Suchdokumente gemäß Kategorien anzeigt;
Fig. 7 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die ein Anfrageverfeinerungsmerkmal gemäß der vorliegenden Erfindung zeigt; und
Fig. 8 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die einen Suchergebnisse- Sammelbrowser (Search Results Collection Browser) gemäß der vorliegenden Erfindung zeigt.
Bevor die vorliegenden Systeme und Verfahren beschrieben werden, muß man verstehen, daß diese Erfindung nicht auf eine bestimmte beschriebene Hardware oder Software begrenzt ist, da eine solche selbstverständlich variieren kann. Es ist ferner zu verstehen, daß die hierin verwendete Terminologie lediglich dem Zweck des Beschreibens bestimmter Ausführungsbeispiele dient und keine Einschränkung darstellen soll, da der Schutzbereich der vorliegenden Erfindung lediglich durch die beigefügten Patentansprüche begrenzt wird.
Dort, wo ein Wertebereich bereitgestellt wird, versteht es sich, daß jeder kleinere Bereich zwischen einem beliebigen angegebenen Wert oder dazwischenliegenden Wert in einem angegebenen Bereich und einem beliebigen anderen angegebenen oder dazwischenliegenden Wert in diesem angegebenen Bereich durch die Erfindung abgedeckt ist. Die Ober- und Untergrenzen dieser kleineren Bereiche können unabhängig in dem Bereich enthalten sein oder von demselben ausgeschlossen sein, und jeder Bereich, bei dem eine der beiden Grenzen, keine der beiden Grenzen oder beide Grenzen in den kleineren Bereichen enthalten sind, ist ebenfalls durch die Erfindung abgedeckt, vorbehaltlich etwaiger spezifisch ausgeschlossener Grenzen in dem angegebenen Bereich. Dort, wo der angegebene Bereich eine oder beide Grenzen beinhaltet, sind Bereiche, die einen oder beide dieser beinhalteten Grenzen ausschließen, ebenfalls in der Erfindung beinhaltet.
Falls nicht anders definiert, weisen alle hierin verwendeten technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf, wie sie üblicherweise durch Fachleute auf dem Fachgebiet, in das diese Erfindung fällt, verstanden wird. Obwohl beliebige Verfahren und Systeme, die den hierin beschriebenen ähnlich oder zu denselben äquivalent sind, bei der Praxis oder Prüfung der vorliegenden Erfindung verwendet werden können, werden nun die bevorzugten Verfahren und Systeme beschrieben. Alle hierin erwähnten Veröffentlichungen sind durch Bezugnahme in dieses Dokument aufgenommen, um die Verfahren bzw. Systeme, in deren Zusammenhang die Veröffentlichungen zitiert werden, zu offenbaren und zu beschreiben.
Es muß angemerkt werden, daß die Singularformen "ein", "eine" und "der", "die", "das", wie sie hierin und in den beigefügten Patentansprüchen verwendet werden, Plural- Bezugnahmen umfassen, wenn nicht der Kontext eindeutig etwas anderes vorgibt. Somit umfaßt beispielsweise eine Bezugnahme auf "ein Cluster" eine Mehrzahl von solchen Clustern, und eine Bezugnahme auf "die Datenbank" umfaßt eine Bezugnahme auf eine oder mehrere Datenbanken und Äquivalente derselben, die Fachleuten bekannt ist bzw. sind, und so weiter.
Die hierin erörterten Veröffentlichungen werden lediglich zum Zwecke ihrer Offenbarung vor dem Einreichdatum der vorliegenden Patentanmeldung bereitgestellt. Ferner können sich die bereitgestellten Veröffentlichungsdaten von den tatsächlichen Veröffentlichungsdaten, welche eventuell unabhängig bestätigt werden müssen, unterscheiden.

DEFINITIONEN

Der Begriff "Treffer" kann sich auf ein Dokument beziehen, das durch eine Suchtechnik durch ein Abstimmen eines Anfragebegriffs mit einem Begriff, der in diesem Dokument existiert, ausgewählt wird. Wenn er sich auf ein einzelnes Dokument bezieht, kann eine Anzahl von "Treffern" alternativ dazu als jede einzelne Übereinstimmung eines Anfragebegriffs in diesem Dokument angesehen werden.
Der Begriff "URL" ist ein Akronym für "Einheitsressourcenlokator (uniform resource locator)", der die "Adresse" oder Position eines Dokuments, einer Website oder anderer Informationen auf dem World Wide Web bezeichnet.
Der Begriff "Benutzer" bezieht sich auf einen Agenten, eine Person, einen Computer oder einen anderen Mechanismus, der bzw. die in der Lage ist, eine Anfrage bereitzustellen und Suchergebnisse zu empfangen.
Der Begriff "Anfrage" bezieht sich auf die Informationen, die an die Metasuchmaschine gesandt werden, um das Thema, an dessen Suche der Benutzer interessiert ist, zu definieren.
Unter Bezugnahme auf Fig. 1 ist ein architektonisches Schema eines Systems zum Durchführen von Suchen und von Data- Mining gemäß der vorliegenden Erfindung gezeigt. Eine Metasuchmaschine (Mehr-Site-Anfragemaschine) 10 ist mit der Fähigkeit ausgestattet, mehrere Suchmaschinen zu verwenden, um geeignete Web-Dokumente zum Verarbeiten zu finden. Suchbegriffe und eine angeforderte Anzahl von Treffern werden durch den Benutzer eingegeben und werden verwendet, um eine Anfrage-URL-Zeichenfolge für jede Suchmaschine aufzubauen. Die jeweiligen URLs werden dann über http aufgerufen, und zurückgegebene Seiten werden verarbeitet, um die einzelnen Suchergebnisse zu extrahieren.
Es kann eine Mehrzahl von Verwahrungsorten durchsucht werden, einschließlich nicht nur standardmäßiger webbasierter Sites, die für Suchmaschinen 12 und 14 (beispielsweise Google™ (für ein Metasuchen auf Google™ kann eine Genehmigung und/oder Lizenz erforderlich sein) und AltaVista®, obwohl viele andere generische Suchmaschinen ebenfalls verwendet werden können) zugänglich sind, sondern auch Veröffentlichungssites, die Sites wie beispielsweise PubMed 16, Gen- Bank 18, OMIM und andere, Sequenz-Datenbanken, Proteinstrukturdatenbanken wie beispielsweise PDB, Übertragungsweginformationsdatenbanken, beispielsweise EMP, und andere datenspezifische Sites, jedoch nicht ausschließlich derselben. Sogar ähnliche Arten von Maschinen, beispielsweise die generischen Suchmaschinen, haben unterschiedliche Prioritäten bezüglich dessen, in welchen Sites sie suchen, und deshalb ist die vorliegende Erfindung in der Lage, zahlreiche Maschinen für nicht nur generische Sites, sondern Veröffentlichungssites und andere domain-spezifische Sites zu verwenden. Beispielsweise durchlaufen ähnliche Maschinen verschiedene Abschnitte des Webs, um die Site zu aktualisieren. Es ist wahrscheinlich, daß sich unterschiedliche Suchmaschinen in unterschiedlichen Zeitlinien dessen befinden, wann sie ihre Indexierung aktualisieren, und dadurch kann durch Verwenden von mehr als einer Maschine für jeden Typ von Sitesuche eine aktuellere Gesamtsuche erreicht werden.
Desgleichen kann auf Sequenzen-Sites und andere datenspezifische Sites zugegriffen werden, einschließlich, aber nicht ausschließlich, auf Sites wie zum Beispiel SwissProt 19, Entrez Nucleotide, Entrez Protein, EMBL und PDB. Willkürliche Datenbanken, einschließlich derjenigen, auf die über das World Wide Web zugegriffen werden kann, und im Privatbesitz befindliche oder andere Datenbanken, die über ein Intranet intern verfügbar sind, sind ebenfalls zugänglich. Diejenigen Datenbanken, die nicht in einem Format vorliegen, das als Webseiten angezeigt werden kann, können schnittstellenmäßig mit einer Webschnittstelle verbunden werden, die es ermöglicht, daß Suchergebnisse einer solchen Datenbank in Form von Webseiten angezeigt werden. Beispielsweise, und im Fall einer eigenen Java-Anwendung, die mit einer relationalen Datenbank kommuniziert, kann eine Webschnittstelle derart aufgebaut sein, daß das vorliegende Suchsystem mit der relationalen Datenbank schnittstellenmäßig verbunden werden und Ergebnisse in Form von Webseiten einholen kann. Man beachte, daß die meisten Bioinformatik- Datenbanken bereits Webschnittstellen verfügbar haben.
Die in dem Beispiel der Fig. 1 angegebenen Sites sind für Molekularbiologie und die Biowissenschaften hochrelevant und verbessern daher die domain-spezifische Relevanz von Suchtreffern im Vergleich zu einer Verwendung von standardmäßigen, öffentlich zur Verfügung stehenden Suchmaschinen dramatisch. Andere inhaltsspezifische Veröffentlichungssites und -datenbanken, die für andere wissenschaftliche Gebiete spezifisch sind, können auf ähnliche Weise für domain-spezifische Suchen aufgebaut sein.
Ein wichtiger Aspekt der Suchmerkmale der vorliegenden Erfindung ist ihre Verwendung von textbasierten Daten als Datennormierungstechnik. Unter Verwendung dieses Lösungsansatzes können jegliche Daten, die zu einer Anfrage reduziert werden können, die ein webbasiertes Textdokument zurückgibt, in das System integriert werden. Somit können Genom- und Proteinsequenzdaten als Teil der Metasuche enthalten sein, sowie traditionellere Veröffentlichungsdokumente. Im Prinzip kann jegliches System, einschließlich eigener, geschlossener Datenbanken, in einen CGI-basierten Webanwendungsserver (CGI = common gateway interface) eingehüllt sein, so daß seine Daten auch in eine Metasuche aufgenommen werden, die gemäß der vorliegenden Erfindung durchgeführt wird.
Eine Liste von für eine Suche zur Verfügung stehenden Sites wird dem Benutzer bei der Benutzerschnittstelle 30 geliefert, vorzugsweise auf eine visuelle/graphische Weise, wie beispielsweise in Fig. 2 gezeigt. Bei diesem Beispiel weisen die Sites, die für ein Suchen zur Verfügung stehen, jeweils ein neben denselben vorgesehenes Kästchen auf, das durch einen Benutzer abgehakt wird (unter Verwendung einer Maus oder Tastatur, um das Kästchen selektiv abzuhaken), um jede bestimmte zu durchsuchende Site auszuwählen. Das Abhaken der Kästchen kann auf dieselbe Weise auch rückgängig gemacht werden, um eine Site abzuwählen. Auf diese Weise kann der Benutzer eine Suche automatisch an seine Kundenwünsche anpassen, indem er lediglich die gewünschten Sites auswählt.
Ferner ist ein "Kontext"-Menü vorgesehen, das Auswahlen von "Voreinstellungen" von Gruppen von Suchmaschinen ermöglicht. Beispielsweise kann der Kontext "Veröffentlichung" Citeseer, PubMed und OMIM auswählen, da diese alle veröffentlichungsorientierte Sites sind und als solche zusammengruppiert werden können. Das Kontext-Menü kann auch konfiguriert sein, um Vorauswahlen, die sich auch auf andere wissenschaftliche Gebiete beziehen, zu gruppieren, beispielsweise kann ein Kontext "Veröffentlichungen Physik" physik-spezifische Veröffentlichungssites umfassen. Desgleichen kann ein Kontext "Sequenz" in dem Kontext-Menü enthalten sein, um eine Auswahl einer Gruppe von Sequenzen- Sites, beispielsweise Entrez Nucleotide, Entrez Protein, EMBL, SwissProt und PDB, zu ermöglichen.
Die Listen von zu durchsuchenden Sites können ohne weiteres erweitert werden, um zusätzliche Sites zu umfassen, da eine offene Architektur vorgesehen ist, um eine Hinzufügung zu und Löschung aus der Liste durch die Verwendung von Einsteckelementen oder eine andere Programmierungsmodifizierung zu ermöglichen. Alternativ dazu kann ein zentralisierter Verwahrungsort beispielsweise in XML-Sprache bereitgestellt sein, der jedesmal, wenn ein Benutzer eine Verbindung mit dem System herstellt, durch das Internet oder ein lokales Intranet abgerufen werden kann, oder es könnten durch dieselben Kanäle periodisch Aktualisierungen zur Verfügung gestellt werden.
Nachdem die Anfrage formuliert wurde, die Suchsites ausgewählt wurden und die Anfrage der Mehr-Site-Anfragemaschine 10 unterbreitet wurde, befragt die Suchmaschine 10 die identifizierten generischen webbasierten Suchmaschinen und andere identifizierte Sites mit den durch den Benutzer gelieferten Anfragebegriffen der Anfrage. Die Ergebnisse aus jeder Maschine/Site 12, 14, 16, 18, 19 werden wiedererlangt und geparst, um die Suchtreffer zur späteren Verwendung in dem Prozeß zu extrahieren. Die Suchtreffer sind Daten, die von den verschiedenen Suchmaschinen zurückgegeben werden, wobei jeder einen URL, einen Titel und üblicherweise einen kurzen Beschreibungstext enthält. Für Daten, die von Sequenzdatensites und anderen domain-spezifischen Sites, die dieses standardmäßige Format für einen Treffer noch nicht liefern, zurückgegeben werden, entwirft die vorliegende Erfindung Gegenstücke zu diesen. Die Suchtreffer werden zu einem HTML-Dokument kombiniert, das die kombinierten Suchergebnisse zeigt. Das Quelldokument, das jedem Suchergebnis entspricht, wird daraufhin ausdrücklich abgerufen, und es wird eine Sammlung von Textdokumenten erstellt, die die Ergebnisse der Gesamtsuche darstellt.
Die Dokumentdaten werden unmittelbar an einer Visualisierungs-/Benutzerschnittstelle 30 angezeigt, und zur selben Zeit beginnt das Data-Mining-Modul 20, die Dokumentdaten zu verarbeiten. Fig. 2 zeigt ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle 30, die die anfänglichen Rohergebnisse einer unter Verwendung eines Systems gemäß der vorliegenden Erfindung durchgeführten Suche anzeigt. Bei diesem Beispiel wurden die folgenden Sites für ein Suchen ausgewählt: HotBot, Google und PubMed. Die Anfrage, die durchgeführt wurde, lautete "menschliches Myoglobin". Fig. 2 zeigt Rohergebnisse, die von der HotBot- Suchmaschine erhalten wurden. Diese Ergebnisse werden als Titel eines Dokuments im HTML-Format aufgeführt, so daß das Dokument eventuell für den Benutzer direkt zugänglich ist, indem der Benutzer mit einer Mausschnittstelle auf den unterstrichenen Titel klickt oder indem er durch eine mit dem System verbundene Tastatur eine Auswahl eingibt. Eine kurze Beschreibung des Dokuments schließt sich an den Titel an, und an die Beschreibung schließt sich die URL-Adresse (Einheitsressourcenlokator-Adresse) des Dokuments an. Die Dokumente werden gemäß jeder Suchmaschine, die verwendet wird, gruppiert und können mit vordefinierten Relevanzrangfolgen, falls vorhanden, gemäß durch diese bestimmte Suchmaschine verwendeten Schemen erscheinen. Das heißt, daß die Ergebnisse in der Reihenfolge aufgeführt sind, in der sie bezüglich jeder bestimmten Suchmaschine erscheinen. In manchen Fällen, wie bei Google, können die Ergebnisse in einer Reihenfolge aufgeführt sein, die einem bestimmten Schema für eine Relevanzrangfolge entspricht. In anderen Fällen, wie für Sequenzdatenbanken, werden die Ergebnisse eventuell lediglich in der Reihenfolge, in der die Treffer identifiziert oder lokalisiert wurden, oder in alphabetischer Reihenfolge präsentiert. Was auch immer der Fall ist, die vorliegende Erfindung versucht nicht, die Reihenfolge, in der die Ergebnisse angezeigt werden, in dieser Phase der Verarbeitung zu interpretieren.
Die Rohergebnisse werden unmittelbar nach einem Wiedererlangen angezeigt, zur selben Zeit wie sie zur weiteren Verarbeitung an das Data-Mining-Modul geliefert werden, so daß der Benutzer zur selben Zeit, wie das Data-Mining- Verarbeiten durchgeführt wird, beginnen kann, die Rohergebnisse zu durchsuchen. Dies liefert dem Benutzer die Gelegenheit, sogar während eine weitere Verarbeitung durchgeführt wird, ein oder mehrere hochrelevante Dokumente manuell zu identifizieren, was dem Benutzer in einem solchen Fall Zeit sparen würde.
Beim Überprüfen der Liste von Rohdaten von HotBot in Fig. 2 kann man sehen, daß sich drei der gezeigten Dokumente auf Kannibalismus im Südwesten der USA des 12. Jahrhunderts von seiten der Anasazi-Indianer beziehen. Obwohl diese Informationen für eine spezifische Suche bezüglich Kannibalismus hochrelevant sein könnten, ist es nicht wahrscheinlich, daß sie für viele wissenschaftliche Suchen, die sich auf technische Einzelheiten in bezug auf menschliches Myoglobin beziehen, relevant sind. Somit ist dies ein gutes Beispiel dafür, wie generische Datenbanken und Suchmaschinen als "hochrelevant" markierte Dokumente zurückgeben können, die in der Tat für eine spezifische wissenschaftliche Anfrage jedoch überhaupt nicht relevant sind.
Ein Verarbeiten durch das Data-Mining-Modul 20 verarbeitet die Rohdaten, um eine einzige Liste von Dokumenten von all den durchsuchten Sites zu erstellen, bei der die Dokumente nach einfachen Relevanz-Punktzahlen in eine Rangordnung gebracht werden. Beim Erstellen dieser Liste ruft das Data- Mining-Modul 20 einzeln URLs für ein Data-Mining ab. Alle Suchergebnisse, die entweder aufgrund von Netzproblemen oder weil die Seite nicht mehr existiert, nicht über das Web erreichbar waren, werden aus der Liste entfernt. Ferner streift das Data-Mining-Modul 20 jede HTML-Textformatierung ab.
Eine einfache Relevanzrangfolge wird daraufhin auf der Basis der Häufigkeit der Suchbegriffe, die in einem bestimmten Dokument gefunden werden, erstellt (z. B. eine Gesamtanzahl von "Treffern" von Suchbegriffen in einem Dokument wird abgestimmt). Auch auf Treffer, die beispielsweise in einem Titel oder an einer anderen wahrscheinlichen, relevanteren Stelle, beispielsweise einer Zusammenfassung, auftreten, kann eine Gewichtungsfunktion angewandt werden. Die Rohrelevanzpunktzahlen werden daraufhin auf eine Skala von 1 bis 100 normiert, und die Dokumente werden nach abnehmenden Relevanzpunktzahlen aufgelistet. In Fig. 3 ist eine Anzeige von Dokumentensuchergebnissen gemäß einer einfachen Relevanzrangfolge auf der Benutzerschnittstelle 30 gezeigt.
Wie oben bemerkt wurde, besteht das erste Verfahren bei dem Data-Mining-Prozeß darin, Dokumente, die "tote" oder ungültige URL-Einträge aufweisen, aus der Liste von Ergebnissen zu entfernen. Zu diesem Zeitpunkt werden auch doppelte Einträge entfernt. Wie man in Fig. 3 sehen kann, wurde ein doppelter Auftretensfall des Dokuments "ABQjournal" zu einem einzigen Auftretensfall auf der Ergebnisliste komprimiert. Die Tatsache, daß dieser Eintrag einen doppelten Auftretensfall aufwies, wird dadurch bewiesen, daß HotBot unter der Spalte "Maschine" zweimal aufgeführt wird. Bei dieser Verarbeitungsstufe wird ferner eine einfache Relevanzpunktzahl für die Anzeige berechnet (unter der Spalte "Punktzahl" in Fig. 3 gezeigt), und die Suchergebnisse werden gemäß ihrer einfachen Relevanzpunktzahl in absteigender Reihenfolge aufgeführt.
Die einfache Relevanzpunktzahl kann wie folgt berechnet werden. Für jedes Dokument wird die Anzahl von Malen, die jeder Suchbegriff gefunden wird, gezählt und tabellarisiert. Falls in bezug auf die Suche nach "menschlichem Myoglobin" in einem bestimmten Dokument dreimal "menschlich" und fünfmal "Myoglobin" vorkommt, erhält dieses Dokument eine anfängliche Punktzahl von acht. Als nächstes wird der Titel des Dokuments, wie er durch den Ergebnis-Parser bzw. Ergebnis-Syntaxanalysator der vorliegenden Erfindung aufgebaut ist (im Gegensatz zu dem offiziellen HTML-Titel) bezüglich derselben Suchbegriffe geparst bzw. syntaktisch analysiert. Jeder Auftretensfall in dem Titel zählt als ein gewichteter Wert (beispielsweise ein Wert von zehn, obwohl eine Gewichtung sicherlich variiert werden kann, so daß sie einen anderen Wert annimmt), da erwartet wird, daß, wenn ein Suchbegriff in dem Titel erscheint, eine höhere Wahrscheinlichkeit besteht, daß das Dokument für die Suche relevant ist. Um bei dem Beispiel zu bleiben: Wenn das beschriebene Dokument einen Auftretensfall von "Myoglobin" enthielte, wäre die Gesamtpunktzahl für das Dokument achtzehn (8 + 10). Die Punktzahlen für jedes Dokument werden daraufhin normiert, so daß die maximale Punktzahl für die Gesamtsuche "100" beträgt und so daß die Punktzahlen zwischen "0" und "100" rangieren. Eine Normierung wird dadurch bewerkstelligt, daß einfach die maximale Punktzahl ermittelt wird und daraufhin jede Punktzahl mal (100/maximale Punktzahl) multipliziert wird.
Die oben bereitgestellte Technik der Relevanzpunktzahlvergabe ist lediglich ein Beispiel eines einfachen Berechnens von Statistiken in bezug auf die identifizierten Dokumente als eine Möglichkeit, eine Relevanz für die von dem Suchenden gewünschten Informationen "vorherzusagen". Bei diesem Prozeß könnten eine Anzahl von verschiedenen statistischen und/oder Gewichtungsschemata verwendet werden, und die vorliegende Erfindung ist nicht auf das bereitgestellte spezifische Beispiel beschränkt. Ferner können viele Metriken verwendet werden, um mehr als eine Möglichkeit bereitzustellen, eine Rangfolge in bezug auf Relevanz zu erstellen, und anschließend kann dem Benutzer die Gelegenheit gegeben werden, die Dokumentergebnisse dadurch zu sortieren, daß er eine Metrik auswählt, die er für die bestimmte Suche am geeignetsten hält. Selbstverständlich muß man sich nicht allein auf die zuerst gewählte Metrik stützen, sondern sie könnte durch ein Auswählen und Sortieren gemäß einer anderen Metrik mit anderen verglichen werden.
Die nächste Phase des Data-Mining-Verfahrens beinhaltet das Clustern von ähnlichen Dokumenten in Gruppen oder Clustern. Eine breitangelegte Suche, die grundverschiedene Sites/Datenbanken, wie sie hierin beschrieben sind, durchsucht, kann Ergebnisse liefern, die ein Benutzer nicht erwarten würde, beispielsweise die hierin identifizierten "Kannibalismus"-Dokumente, wenn der Begriff "menschliches Myoglobin" gesucht wird. In einer solchen Situation ist ein Clustern eine effektive Art und Weise, solche Dokumente in einer Gruppe zu ordnen, so daß man sich ihrer gleichzeitig annehmen kann. Es wird ein einfaches Dokument- Clusterverfahren durchgeführt, während dessen Dokumente auf der Basis eines nicht-überwachten Clusterns gruppiert oder geclustert werden, wobei Dokumente gemäß der Ähnlichkeit des Inhalts ohne jegliche andere Intervention gruppiert werden. Auf einem hohen Niveau wird zunächst ein Ähnlichkeitsmaß definiert, um zu bewerten, wie ähnlich ein Dokumentenpaar ist. Ein Beispiel eines Ähnlichkeitsmaßes ist die Annäherungspunktzahl "S_ij" (nachstehend definiert), obwohl auch andere Algorithmen zur Verwendung als Ähnlichkeitsmaß substituiert werden können.
Es werden auch kundenspezifische Stopwortlisten bereitgestellt, die speziell auf die spezifische Site, die durchsucht wird, zugeschnitten sind. Ein Beispiel dessen würde das Wort "Sequenz" als ein Stopwort für die beim Suchen einer Sequenzdatenbank verwendete kundenspezifische Stopwortliste umfassen, da dieses Wort in einer solchen Datenbank allgegenwärtig ist und einen relativ geringen Diskriminierungswert aufweist, da bereits bekannt ist, daß sich alle oder im wesentlichen alle der in einer solchen Datenbank zu durchsuchenden Dokumente auf Sequenzen beziehen. Andererseits kann das Wort "Sequenz" einen beträchtlichen Diskriminierungswert aufweisen, wenn eine generische Site durchsucht wird, und wäre daher nicht in der kundenspezifischen Stopwortliste enthalten, auf die man sich bezieht, wenn man beispielsweise Google™ durchsucht.
Die vorliegende Erfindung kann automatisch Stopwortlisten, die auf jede Site zugeschnitten sind, erstellen, indem sie site-spezifische Stopwörter identifiziert und diese Wörter in jeweiligen Sites vor einem Clustern der Dokumente aus den Dokumenten entfernt. Eine Technik für eine solche automatische Erstellung beinhaltet eine Aufstellung einer Liste von Wörtern, die für jede Site spezifisch sind, wobei jedes Wort in der Liste ein Wort ist, das in allen bei dieser bestimmten Site gefundenen Dokumenten enthalten ist. Die zugrundeliegende Annahme für die Schlußfolgerung, daß diese Wörter Stopwörter für diese Site sind, besteht darin, daß sie für diese Site keinen Diskriminierungswert aufweisen, da alle von dieser Site wiedererlangten Dokumente diese bestimmten Wörter enthalten. Oft erscheinen diese Wörter in den Überschriften oder Links auf der Seite der Suchmaschine. Da sich diese Wörter ändern können, wenn die Suchmaschinensite modifiziert wird, oder sich sogar für verschiedene auf derselben unmodifizierten Site durchgeführte Suchen ändern können, kann zum Zwecke eines besseren Maßschneiderns von Ergebnissen eine automatische Erstellung der Stopwörter, die für jede Anfrage "während des Betriebs" ("on the fly") erzeugt werden, vorgesehen sein. Diese Stopwörter werden verwendet, um site-spezifische Wörter und Wörter mit einem geringen Diskriminierungswert aus Dokumenten, die von jeder Suchmaschinensite wiedererlangt werden, herauszufiltern. Die Begriffe, die in einem Dokument vorhanden sind (nachdem die Stopwörter entfernt wurden), werden daraufhin verwendet, um die Annäherungspunktzahlen zwischen den Dokumenten zu berechnen.
Nachdem das Ähnlichkeitsmaß definiert wurde, kann eine Anzahl von verschiedenen Techniken verwendet werden, um die Dokumente zu clustern (z. B. partitionsmäßiges Clustern, hierarchisches Clustern usw.). Bei einem Beispiel wird eine als hierarchisches Gruppendurchschnittsverknüpfungs- Clustern bezeichnete Technik verwendet. Gemäß dieser Technik wird jedes Dokument zunächst in ein individuelles Cluster plaziert, so daß die Gesamtanzahl von anfänglichen Clustern gleich der Gesamtanzahl von Dokumenten ist. Daraufhin wird unter Verwendung eines Ähnlichkeitsmaßes (beispielsweise einer Annäherungspunktzahl) auf einer Cluster- Für-Cluster-Basis ein Vergleich durchgeführt, um zu bestimmen, welche Cluster die ähnlichsten sind, wie dies durch die höchste Ähnlichkeit oder Annäherungspunktzahl bestimmt wird. Nachdem zwei Cluster zu einem einzigen Cluster kombiniert wurden (wie bei einem Bilden eines Clusters, das in der ersten Runde des Verfahrens zwei Dokumente aufweist), werden die Ähnlichkeits- oder Annäherungspunktzahlen jedes anderen Clusters bezüglich des neu erzeugten Clusters unter Verwendung der Gruppendurchschnittsähnlichkeitspunktzahl oder Annäherungspunktzahl neu berechnet. Es sei darauf hingewiesen, daß mit jeder neuen "Runde" oder "Stufe" ein neues Cluster aus zwei zuvor existierenden Clustern, die in bezug aufeinander die höchste Ähnlichkeits- oder Annäherungspunktzahl aufweisen, erzeugt wird. Falls beispielsweise ein Cluster "i" mit einem Cluster "j" in der derzeitigen Runde zu einem Cluster "k" kombiniert wird, wird somit während einer Neuberechnung von Annäherungspunktzahlen die Annäherungspunktzahl zwischen dem vorab existierenden Cluster "l" und dem neu gebildeten Cluster "k" durch ein Berechnen des Durchschnitts der Annäherungspunktzahl des Clusters "i" bezüglich des Clusters "l" und des Clusters "j" bezüglich des Clusters "l" bestimmt und durch die Anzahl von Begriffen im Cluster "i" und im Cluster "j" gewichtet. Der Clustering-Prozeß setzt sich Runde für Runde fort, bis ein Stopzustand erreicht ist, der eine vorbestimmte Annäherungspunktzahlgrenze, eine vorbestimmte Anzahl von endgültigen Clustern oder dergleichen sein kann.
Im nachfolgenden wird ein Algorithmus beschrieben, der durch das Data-Mining-Modul für das Clustering-Verfahren gemäß der oben beschriebenen Gruppendurchschnittsverknüpfungstechnik verwendet werden kann. Eine die Entfernung zwischen zwei Dokumenten "i" und "j" darstellende Annäherungspunktzahl S_ij kann wie folgt berechnet werden:

S_ij = 2 × (1/2 - N(T_i,T_j)/(N(T_i) + N(T_j));

wobei
T_i ein Begriff im Dokument i ist;
T_j ein Begriff im Dokument j ist;
N(T_iT_j) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(T_i) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(T_j) die Anzahl von Begriffen im Dokument j ist.
Durch ein Normieren der Punktzahlen, wie oben beschrieben, weisen identische Dokumente (d. h. zwei Dokumente, die alle Begriffe gemeinsam haben) eine Annäherungsentfernung von null (0) auf, während vollständig orthogonale Dokumente (d. h. die keine Begriffe gemeinsam haben) eine Annäherungspunktzahl von eins (1) aufweisen. Das hierarchischen Clustering-Verfahren kann ausgeführt werden, bis alle Dokumente in ein Cluster fallen. Um die Ergebnisse des hierarchischen Clusterns zu betrachten, kann durch den Benutzer ein Stoppunkt eingestellt werden, um den Status der Ergebnisse des hierarchischen Clusterns bei jeder beliebigen Runde oder Stufe im Verlauf des Verarbeitens, d. h. nach dem Beginn des Clustering-Prozesses, jedoch bevor alle Dokumente zu einem einzigen Cluster zusammengefaßt wurden, anzuzeigen. Somit kann ein Stoppunkt für eine vorab eingestellte Anzahl von Clustern eingestellt werden, oder wenn die Annäherungspunktzahlen größer als oder gleich einem gewissen vordefinierten Wert zwischen null und eins werden. Es können Kombinationen von Stoppunkten eingestellt werden, derart, daß eine Anzeige von Clustern immer dann auftritt, wenn der erste Stoppunkt erreicht ist.
Ein Beispiel eines Clusters ist in Fig. 4 auf der Benutzerschnittstelle 30 angezeigt. Bei diesem Beispiel identifiziert Cluster 3 eine Gruppe von ähnlichen Dokumenten, die bei der oben beschriebenen Suche nach "menschlichem Myoglobin" identifiziert wurden und die sich alle auf Funde der Substanz in archäologischen Ausgrabungen beziehen, die darauf hinweisen, daß die Anasazi-Indianer Kannibalismus praktiziert haben könnten. Durch ein Clustern dieser Dokumente um dieses bestimmte Thema herum können alle Dokumente, die sich auf Kannibalismus im Anasazi-Stamm beziehen, zusammen untersucht werden, und können, falls sie nicht besonders relevant sind, auf effiziente Weise von einem weiteren Durchsuchen ausgeschlossen werden. Falls dieses Thema andererseits von Interesse ist, werden alle sich auf das Thema beziehenden Dokumente zum Zweck einer Wiedererlangung und eines Durchsuchens zweckmäßigerweise gruppiert, ohne den Rest der Daten durchsuchen zu müssen.
Fig. 5 zeigt dasselbe in Fig. 4 identifizierte Cluster, aber in Baumhierarchie angezeigt. Die Baumhierarchie- Anzeigeform ermöglicht es dem Benutzer, sich noch eingehender mit Clustern zu befassen, um zu sehen, welche Dokumente innerhalb eines Clusters am engsten in Beziehung stehen. Während die in Fig. 4 gezeigte "Listen"-Ansichtsform von Clustern eine willkürliche Grenze bezüglich dessen, wo das Cluster zu definieren ist, darstellt, indem die Baumstruktur (Fig. 5) der zugrundeliegenden Clusterhierarchie navigiert wird, müssen solche Grenzen nicht durchgeführt werden. Wenn geeignete Daten auf der Benutzerschnittstelle angezeigt werden, kann der Benutzer daraufhin bestimmen, welche Dokumente eine enge Verwandtschaft aufweisen und welche nicht. Der Nachteil der Baumhierarchie besteht darin, daß sie langweiliger zu navigieren sein kann, was die Probleme, die einem Navigieren einer großen Anzahl von Suchergebnissen inhärent sind, in gewisser Weise verschlimmert. Diese Ansichtsform gibt dem Benutzer jedoch eine weitere Option an die Hand und ist manchmal vorteilhafter als die Verwendung des Listen-Formats.
Eine Dokumentenklassifiziererfunktion kann ebenfalls beinhaltet sein, derart, daß das Data-Mining-Modul 20 die Dokumente gemäß vordefinierten Kategorien, beispielsweise "Veröffentlichungen", "Nachrichten", "Produktinformationen", "Sequenzen" und "Vermischtes" usw. klassifiziert. Gemäß diesem Klassifikationsschema konsultiert das Data-Mining- Modul 20 eine Liste von Wörtern für jede Kategorie, wobei die Listen Wörter enthalten, die für die untersuchte Kategorie spezifisch sind. Die Listen von Wörtern, die für jede Kategorie spezifisch sind, können entweder manuell erstellt oder automatisch extrahiert werden, wobei die Wörter in jeder Liste für die jeweilige Kategorie, für die sie verwendet wird, spezifisch sind. Die automatische Erstellung wird unter Verwendung eines Trainingssatzes von Dokumenten, die kategorisiert wurden, durchgeführt, so daß jedes Dokument eine bekannte Kategorie aufweist. Eine Liste von Wörtern, die die am stärksten unterscheidenden unter den vordefinierten Kategorien sind, wird daraufhin aus dem Trainingssatz bezüglich jeder Kategorie identifiziert, und ein automatisiertes Verfahren wählt die Wortlisten automatisch aus dem Trainingssatz aus. Die Wörter, die "am stärksten unterscheiden", sind diejenigen, die dadurch identifiziert werden, daß sie im Vergleich zu wenigen Auftretensfällen in anderen Kategorien in einer Kategorie am häufigsten auftreten. Das Lernen der Wortlisten kann inkremental erfolgen, indem die vorherige Wortliste für eine gegebene Kategorie, die sich hieraus ergebende Kategorisierung und die Benutzerrückmeldung bezüglich der Genauigkeit der Kategorisierung eines Satzes von Dokumenten ausgewählt wird, um jeweils die Liste von unterscheidenden Wörtern für jede Kategorie zu erstellen.
Auf der Basis der Auftrittshäufigkeit jedes Wortes in der Wortliste der spezifizierten Kategorie wird eine Punktzahl für jedes Rohdokument, das zu einer spezifischen Kategorie gehören soll, berechnet. Das Dokument wird in die Kategorie kategorisiert, die die höchste Punktzahl erhält. Falls die Anzahl von einmaligen Wörtern in dem Dokument, die zu jenen passen, die in der Liste für die Kategorie vorhanden sind, die die höchste Punktzahl erhält, weniger als eine Schwelle (kategoriespezifische Schwelle, die durch den Benutzer geliefert sein kann) beträgt, wird das Dokument in die Kategorie Vermischtes klassifiziert. Die Reihenfolge, in der die Kategorisierung erfolgt, ist nicht kritisch. Bei dem oben bereitgestellten Beispiel waren alle auf Kannibalismus bezogene Dokumente "Nachrichten"-Berichte und wurden durch den Kategorisierungsalgorithmus als "Nachrichten" zusammengruppiert.
Fig. 6 zeigt eine Bildschirmanzeige auf der Benutzerschnittstelle 30, die die Suchdokumente gemäß Kategorien auflistet. Obwohl in Fig. 6 nur Dokumente gezeigt sind, die in der Kategorie "Nachrichten" gruppiert sind, wäre der Benutzer in der Lage, ohne weiteres auf die anderen Kategorien von Dokumenten (z. B. "Veröffentlichungen", "Nachrichten", "Produktinformationen", "Sequenzen" und "Vermischtes") zuzugreifen, indem er mit der Seitenrolleiste 32 nach oben oder nach unten rollt bzw. scrollt.
Nachdem die Data-Mining-Verfahren für ein einfaches Erstellen einer Relevanzrangfolge, ein Clustern (Liste und Baum) und eine Kategorisierung wie oben beschrieben durchgeführt wurden, werden die Ergebnisse der sich unterscheidenden und durch diese Data-Mining-Verfahren erstellten organisatorischen Ansichtsformen der Daten auf eine Auswahl der entsprechenden Taste aus der Tastenleiste 34 hin auf der Benutzerschnittstelle 30 angezeigt (siehe Fig. 2 bis 6). Somit ist ein Benutzer in der Lage, zu wählen, daß Suchergebnisse in einem der zur Verfügung stehenden Formate, d. h. einfache Relevanz, geclustert (Listen- oder Baumformat), kategorisiert, präsentiert werden, indem er einfach die Taste für das gewünschte Format wählt, zusätzlich zu der Rohdatenansicht für jede Site, die anfänglich bereitgestellt wird, wie oben beschrieben ist. Die Auswahlen können in einer beliebigen Reihenfolge durchgeführt werden, und der Benutzer kann es sinnvoll finden, mehr als ein Format zu durchsuchen, um eine Identifizierung der relevantesten Informationen zu unterstützen.
Fig. 7 zeigt eine Anzeige auf der Benutzerschnittstelle 30 eines weiteren Merkmals, das bei der vorliegenden Erfindung verwendet werden kann. Ein Anfrageverfeinerungsmerkmal kann bereitgestellt sein, um eine Anfrage innerhalb einer Anfrage effektiv durchzuführen. Falls ein Benutzer beispielsweise zuvor drei oder vier Suchen in bezug auf "menschliches Myoglobin" durchgeführt hat, können die Ergebnisse dieser Suchen jeweils in einer lokalen Datenbank gespeichert werden. Die gespeicherten Suchen können in einem Seitenfenster 36 angezeigt werden, wie in Fig. 7 und 8 gezeigt ist. Die Rohergebnisansicht und die internen Datenstrukturen, die dem gesamten Ergebnissatz entsprechen, werden in der lokalen Datenbank gespeichert. Beim Wiederherstellen der Daten aus der lokalen Datenbank werden die Rangfolge-, Clustering- und Kategorisierungsgruppierungen neu berechnet.
Eine Unteranfrage oder Anfrageverfeinerung kann dann während einer anschließenden verwandten Suche durchgeführt werden, um Ergebnisse aus den gespeicherten Ergebnissen der vorherigen Suchen zu erhalten. Das Data-Mining-Modul 20 kann Ergebnisse aus der Anfrageverfeinerung auf dieselben Weisen, wie sie oben erörtert wurden, verarbeiten. Da die Unteranfrage nur voraussichtlich relevante Informationen sucht und da die Suche lediglich in einer internen Datenbank durchgeführt wird, kann diese Suche potentiell sehr relevante Informationen innerhalb sehr kurzer Zeit ergeben.
Als weiteres Merkmal kann in dem vorliegenden System ein Suchergebnisse-Sammelbrowser enthalten sein, wie in Fig. 7 und 8 gezeigt ist, bei dem ein integrierter Rahmen 38 auf der Benutzerschnittstelle 30 einen zusätzlichen Rahmen (in diesem Fall einen Internet-Explorer-Rahmen) in die Systemanwendung (in diesem Fall eine Java-Anwendung) stellt, um alle stattfindenden Browser-Ereignisse zu betrachten. Der Suchergebnisse-Sammelbrowser umfaßt einen Relevanzrückmeldemechanismus, der das Durchsuchen analysiert, um zu bestimmen, mit welchem Dokument der Benutzer die meiste Zeit verbringt, um zu lernen, wie relevante Dokumente aussehen. Selbstverständlich ist der Begriff "relevante Dokumente" hier durch den Geschmack und die Bedürfnisse des Benutzers definiert, und wenn ein Suchender im Verlauf einiger oder vieler Suchen dazu tendiert, auf einem bestimmten wissenschaftlichen Gebiet zu suchen, beginnt der Relevanzrückmeldemechanismus, wiederkehrende Browsing-Themen und Zeiten, die mit ähnlichen Dokumenten verbracht werden, zuzuordnen. Somit kann durch den Suchergebnisse-Sammelbrowser auf der Basis der historischen Präferenzen des Benutzers ein differenzierterer Gewichtungsalgorithmus entwickelt werden, der als ein Gewichtungsfaktor auf Dokumente angewandt wird, die in einer gegenwärtigen Suche und Data- Mining-Operation in eine Rangfolge gebracht werden.
Der Suchergebnisse-Sammelbrowser lernt durch ein Beobachten von Browsing-Gewohnheiten, wenn das hierin beschriebene Metasuch- und Data-Mining-System verwendet werden. Die Browsing-Informationen und die Informationen bezüglich der verbrachten Zeit werden daraufhin verwendet, um eine anschließende Relevanz für Suchergebnisse vorauszusagen. In dem Suchergebnisse-Sammelbrowser sind Haken bzw. Programmeinstiegsmöglichkeiten vorgesehen, so daß, wenn ein Benutzer ein Dokument zur Untersuchung anklickt oder auf andere Weise auswählt, das Dokument in dem Fenster des Suchergebnisse-Sammelbrowsers erscheint, und die Haken überwachen, wieviel Zeit der Benutzer auf das Betrachten dieses Dokuments verwendet. Die "Haken" werden durch ein Einbetten eines Internet-Explorer-Rahmens in die Anwendung bereitgestellt, die als ein "Vorschaurahmen" 38 zu verwenden ist. Der Internet-Explorer legt Schnittstellen frei, die aufgerufen werden können, um immer dann, wenn der Benutzer bestimmte Aktionen durchführt, beispielsweise eine bestimmte Seite zum Betrachten öffnet, eine Benachrichtigung bereitzustellen. Durch eine solche Benachrichtigung kann die vorliegende Erfindung verfolgen, wie lange eine Seite in dem Vorschaurahmen 38 angezeigt wird und wie stark der Benutzer mit ihr interagiert.
Die vorliegende Erfindung überwacht jegliche Aktion, bei der der Benutzer auf einen Bereich des Vorschaurahmens 38 klickt oder ihn zieht, wobei diese Aktionen zum Beispiel ein Zugreifen auf Scrolleisten, Abrufmenüs, interne Hyperlinks oder sogar ein Klicken auf eine inaktive Stelle der HTML-Seite umfassen. Die Zeitspanne und die Häufigkeit, in bzw. mit der der Benutzer dieses Fenster (beispielsweise durch Klicken oder Ziehen) "berührt", kann daraufhin als Maßzahl seines Interesses an der Seite verwendet werden. Falls der Benutzer auf ein Hyperlink klickt, um eine neue Seite, auf die durch die in der Vorschau betrachtete Seite Bezug genommen wurde, zu starten, wird die neue Seite in einem externen Fenster gestartet, das optional verfolgt werden kann, standardmäßig jedoch nicht verfolgt wird. Je mehr Zeit oder Aktivität auf ein bestimmtes Dokument verwandt wird, desto schwerer ist der Gewichtungsfaktor, der bei einer zukünftigen Suche auf dieses Dokument angewandt wird. Mit der Zeit erhöht sich die Zuverlässigkeit dieses Typs von Gewichtungsfaktor, da er beim Vorhersagen der Dokumenttypen, nach denen der Benutzer in der Regel sucht, genauer wird.
Alternativ oder zusätzlich dazu kann der Suchergebnisse- Sammelbrowser auch Browsing-Gewohnheiten auf einer sitespezifischen Basis überwachen, speichern und analysieren. Falls ein Benutzer beispielsweise 80% der Suchzeit darauf verwendet, auf Dokumente in einer bestimmten Sequenzdatenbank zuzugreifen, kann Dokumenten, die in einer späteren Suche aus dieser bestimmten Datenbank identifiziert werden, mehr Gewicht verliehen werden.
In bezug auf einen weiteren Aspekt, der mit dem Suchergebnisse-Sammelbrowser bereitgestellt werden kann, kann der Suchergebnisse-Sammelbrowser den Inhalt des Dokuments, das der Benutzer ansieht, untersuchen und versuchen, zu bestimmen, ob der Inhalt relevant ist. Beispielsweise kann der Suchergebnisse-Sammelbrowser versuchen, zu bestimmen, ob sich das Gesamtthema oder der Gesamtinhalt des bestimmten Dokuments darauf bezieht, was der Benutzer derzeit sucht, oder ob es bzw. er ähnlich dem Inhalt von Dokumenten ist, die gesucht werden. Ein Entfernungsmaß wie beispielsweise dasjenige, das oben in bezug auf die Clustering-Funktion beschrieben wurde, kann hier ebenfalls verwendet werden. In einer solchen Situation vergleicht der Suchergebnisse- Sammelbrowser das vorliegende Dokument, das der Benutzer durchsucht, mit dem gespeicherten Inhalt aller Dokumente in den früheren Suchen, die aus vergangenen Suchen gespeichert wurden, um zu bestimmen, ob etwaige andere Dokumente mit dem vorliegenden Dokument relevant sein könnten, um ein Cluster zu bilden.

Claims

1. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen und domain-relevante Suchmaschinen (12, 14, 16, 18, 19) zuzugreifen;
Empfangen einer Anfrage, die durch einen Benutzer in die Metasuchmaschine (10) eingegeben wird, und Suchen nach Dokumenten in einem ausgewählten Satz der generischen webbasierten Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19), die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Anzeigen der Rohdaten auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) Cluster von verwandten Dokumenten gemäß einem nicht-überwachten Clustering-Verfahren bildet; und
Anzeigen der Cluster verwandter Dokumente auf der Benutzerschnittstelle (30).

2. Verfahren gemäß Anspruch 1, bei dem das durch das Data-Mining-Modul (20) durchgeführte nicht-überwachte Clustering-Verfahren eine Gruppendurchschnittsverknüpfungstechnik verwendet, um relative Entfernungen zwischen Dokumenten zu bestimmen.

3. Verfahren gemäß Anspruch 2, bei dem die Gruppendurchschnittsverknüpfungstechnik den folgenden Algorithmus zum Bestimmen einer Annäherungspunktzahl, die die relativen Entfernungen zwischen Dokumenten definiert, verwendet:

S_ij = 2 × (1/2 - N (T_i,T_j)/(N(T_i) + N(T_j));

wobei
T_i ein Begriff im Dokument i ist;
T_j ein Begriff im Dokument j ist;
N(T_iT_j) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(T_i) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(T_j) die Anzahl von Begriffen im Dokument j ist.

4. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem das Data-Mining-Modul (20) auf ein Empfangen der Rohdaten hin die Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren verarbeitet und eine einzige Liste aller Dokumente erstellt, nachdem Dokumente, die nicht über das Web erreichbar sind, eliminiert wurden.

5. Verfahren gemäß Anspruch 4, bei dem das Data-Mining- Modul (20) den in der einzigen Liste erstellten Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente erscheinen, einfache Relevanzpunktzahlen zuweist.

6. Verfahren gemäß Anspruch 5, bei dem die Dokumente in der einzigen Liste in einer Reihenfolge aufgeführt sind, die von einer höchsten der einfachen Relevanzpunktzahlen bis zu einer niedrigsten der einfachen Relevanzpunktzahlen reicht.

7. Verfahren gemäß einem der Ansprüche 1 bis 6, das ferner den Schritt des Bereitstellens von kundenspezifischen Stopwortlisten aufweist, die bezüglich der generischen webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) verwendet werden sollen, wobei das Data-Mining-Modul (20) auf die Stopwortlisten Bezug nimmt, um Stopwörter aus Dokumenten herauszuziehen, die einer jeweiligen generischen, webbasierten Maschine oder domain-relevanten Maschine zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen der Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente erscheinen, und einem Berechnen einer Ähnlichkeitspunktzahl zwischen den Ergebnissen.

8. Verfahren gemäß Anspruch 7, bei dem der Schritt des Bereitstellens von kundenspezifisch ausgelegten Stopwortlisten den Schritt des Bereitstellens von vordefinierten kundenspezifisch ausgelegten Stopwortlisten umfaßt.

9. Verfahren gemäß Anspruch 7 oder 8, bei dem der Schritt des Bereitstellens von kundenspezifisch ausgelegten Stopwortlisten den Schritt des automatischen Erstellens von Stopwortlisten, die für jede Anfrage vorbereitet und kundenspezifisch ausgelegt werden, umfaßt.

10. Verfahren gemäß einem der Ansprüche 5 bis 9, das ferner den Schritt des Anzeigens der einzigen Liste auf der Benutzerschnittstelle (30) aufweist.

11. Verfahren gemäß einem der Ansprüche 1 bis 10, bei dem das Data-Mining-Modul (20) auf ein Empfangen der Rohdaten hin die Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren verarbeitet und die Dokumente so kategorisiert, daß jedes Dokument einer einer vorbestimmten Anzahl von Kategorien zugewiesen wird.

12. Verfahren gemäß Anspruch 11, das ferner den Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien umfaßt, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind, und wobei das Data-Mining-Modul (20) die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument vergleicht, um zu bestimmen, ob das Dokument in dieser jeweiligen Kategorie klassifiziert ist.

13. Verfahren gemäß Anspruch 12, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des Bereitstellens vordefinierter Listen umfaßt.

14. Verfahren gemäß Anspruch 12 oder 13, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des automatischen Erzeugens der Wortlisten, die aus einem Satz von Trainingsdokumenten erstellt wurden, umfaßt.

15. Verfahren gemäß Anspruch 14, bei dem jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort auf der Basis einer Funktion identifiziert ist, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für die es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien berechnet wird.

16. Verfahren gemäß einem der Ansprüche 12 bis 15, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des automatischen Erzeugens der Wortlisten, die durch ein inkrementales Training unter Verwendung von zuvor ausgewählten Listen von Wörtern und entsprechenden Kategorien sowie einer Benutzerrückmeldung in bezug auf die Kategorisierung mindestens eines der Dokumente erstellt werden, umfaßt.

17. Verfahren gemäß einem der Ansprüche 11 bis 16, bei dem die Dokumente auf einen Abschluß der Kategorisierung der Dokumente hin in einem kategorisierten Format auf der Benutzerschnittstelle (30) angezeigt werden.

18. Verfahren gemäß einem der Ansprüche 1 bis 17, bei dem die Metasuchmaschine (10) ferner in der Lage ist, auf firmeneigene, geschlossene Datenbanken und beliebige andere Informationsdatenbanken zuzugreifen, die in einen CGI-basierten Webanwendungsserver eingehüllt sein können.

19. Verfahren gemäß einem der Ansprüche 1 bis 18, das ferner folgende Schritte aufweist:
Anzeigen einer Liste der generischen Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19) auf der Benutzerschnittstelle (30), die für ein Suchen zur Verfügung stehen; und
Empfangen einer Auswahl der gesamten oder eines Teils der Liste von dem Benutzer zum Ausrichten der Anfrage auf dieselbe.

20. Verfahren gemäß Anspruch 19, das ferner den Schritt des Bereitstellens eines Kontext-Menüs aufweist, durch das ein Benutzer eine Gruppe von Suchsites oder -maschinen (12, 14, 16, 18, 19) durch Auswählen eines einzelnen Kontexteintrags auswählen kann.

21. Verfahren gemäß Anspruch 20, bei dem das Kontext-Menü mindestens eine der Voreinstellungen, die aus der Gruppe ausgewählt ist, die aus einer Veröffentlichungen-Voreinstellung, die mehr als eine Veröffentlichungen-Site auswählt, aus einer Sequenzen-Voreinstellung, die mehr als eine Sequenzen-Site auswählt, aus einer Voreinstellung generischer, webbasierter Suchmaschinen, die mehr als eine generische, webbasierte Suchmaschine auswählt, aus einer Proteinstrukturdatenbanken- Voreinstellung, die mehr als eine Proteinstrukturdatenbank auswählt, und aus einer Übertragungsweginformationsdatenbank-Voreinstellung, die mehr als eine Übertragungsweginformationsdatenbank auswählt, besteht.

22. Verfahren gemäß einem der Ansprüche 1 bis 21, bei dem die Dokumente aus textbasierten Daten bestehen.

23. Verfahren gemäß einem der Ansprüche 1 bis 22, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 1, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Speichern mindestens entweder der Rohdaten oder der Cluster, die aus dem zusätzlichen Such- und Data- Mining-Verfahren erhalten wurden;
Empfangen einer durch einen Benutzer in die Metasuchmaschine (10) eingegebenen Unteranfrage und Suchen nach Dokumenten aus den Daten, die durch die bezüglich vorheriger Suchen durchgeführten Speicherschritte gespeichert sind; die für die Unteranfrage relevant sind;
Abrufen von Rohdaten-Unteranfrage-Suchergebnissen in Form von Textdokumenten aus den gespeicherten Daten;
Anzeigen der Rohdaten-Unteranfrage-Suchergebnisse auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten-Unteranfrage-Suchergebnisse an das Data-Mining-Modul (20), wobei das Data-Mining- Modul (20) Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering-Verfahren bildet;
Anzeigen der Cluster verwandter Dokumente, die sich aus der Unteranfragesuche ergeben, auf der Benutzerschnittstelle (30).

24. Verfahren gemäß einem der Ansprüche 1 bis 23, das ferner folgende Schritte aufweist:
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.

25. Verfahren gemäß Anspruch 24, bei dem der Relevanzgewichtungsfaktor auf ein bestimmtes Dokument anwendbar ist, das während des Analysierschrittes durchsucht wurde.

26. Verfahren gemäß Anspruch 24 oder 25, bei dem der Relevanzgewichtungsfaktor auf eine Site oder Suchmaschine (12, 14, 16, 18, 19) anwendbar ist, aus der ein bestimmtes Dokument, das während des Analysierschrittes durchsucht wurde, abgerufen wurde.

27. Verfahren gemäß einem der Ansprüche 24 bis 26, bei dem der Relevanzgewichtungsfaktor auf ein Cluster anwendbar ist, in dem ein bestimmtes Dokument, das während des Analysierschritts durchsucht wurde, gruppiert ist.

28. Verfahren gemäß einem der Ansprüche 24 bis 27, bei dem der Relevanzgewichtungsfaktor auf eine Kategorie anwendbar ist, in der ein bestimmtes Dokument, das während des Analysierschritts durchsucht wurde, kategorisiert ist.

29. Verfahren gemäß einem der Ansprüche 1 bis 28, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 1, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der ausgehend von der zusätzlichen Suche angezeigten Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden, wobei der Analysierschritt den Schritt des Vergleichens der Dokumente, die durchsucht werden, mit den gespeicherten Daten umfaßt; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.

30. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites, Proteinstrukturdatenbanken und Übertragungsweginformationsdatenbanken zuzugreifen;
Empfangen einer Anfrage, die durch einen Benutzer in die Metasuchmaschine (10) eingegeben wird, und Suchen nach Dokumenten in einem ausgewählten Satz der generischen, webbasierten Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites, Proteinstrukturdatenbanken und Übertragungsweginformationsdatenbanken, die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Anzeigen der Rohdaten-Suchergebnisse auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) eine einzige Liste aller Dokumente erstellt, nachdem Dokumente, die nicht über das Web erreichbar sind, eliminiert wurden, und den in der einzigen Liste erstellten Dokumenten einfache Relevanzpunktzahlen zuweist; Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering- Verfahren bildet; und die Dokumente so kategorisiert, daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
Anzeigen der Dokumente in einem durch die einzige Liste definierten Format, in einem durch die Cluster definierten Format und in einem durch die Kategorien definierten Format auf der Benutzerschnittstelle (30), so daß ein Benutzer auswählen kann, die Dokumente gemäß dem Listen-Format, dem Cluster-Format oder dem Kategorien-Format zu durchsuchen.

31. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen und domain-relevante Suchmaschinen (12, 14, 16, 18, 19) zuzugreifen;
Empfangen einer durch einen Benutzer in die Metasuchmaschine (10) eingegebenen Anfrage und Suchen nach Dokumenten in einem ausgewählten Satz der generischen, webbasierten Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19), die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering- Verfahren bildet und wobei das Data-Mining-Modul (20) die Dokumente kategorisiert, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
Anzeigen der Dokumente in einem durch die Cluster definierten Format und in einem durch die Kategorien definierten Format auf einer Benutzerschnittstelle (30), so daß ein Benutzer wählen kann, die Dokumente gemäß dem Cluster-Format oder dem Kategorien-Format zu durchsuchen.

32. Verfahren gemäß Anspruch 31, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 31, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der ausgehend von der zusätzlichen Suche angezeigten Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden, wobei der Analysierschritt den Schritt des Vergleichens der Dokumente, die durchsucht werden, mit den gespeicherten Daten umfaßt; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.

33. Computersystem zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen gemäß einer Benutzeranfrage und zum Erhalten organisierter Suchergebnisse daraus, wobei das System folgende Merkmale aufweist:
eine Metasuchmaschine (10), die in der Lage ist, auf eine Mehrzahl von Sites zuzugreifen, einschließlich generischer, webbasierter Suchmaschinen und domain- relevanter Suchmaschinen (12, 14, 16, 18, 19), zum Empfangen von Dokumenten von der Mehrzahl von Sites als Antwort auf die Benutzeranfrage;
eine Einrichtung zum Auswählen bestimmter Suchmaschinen aus einer Mehrzahl generischer, webbasierter Suchmaschinen und domain-relevanter Suchmaschinen (12, 14, 16, 18, 19), die einem Benutzer präsentiert werden;
eine Einrichtung zum Anzeigen der empfangenen Dokumente gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der empfangenen Dokumente von der Mehrzahl von Sites, die durch die ausgewählten bestimmten Suchmaschinen (12, 14, 16, 18, 19) durchsucht wurden, zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den empfangenen Dokumenten in der einzigen Liste und zum Organisieren der Dokumente in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Dokumente zu Clustern gemäß einem nicht-überwachten Clustering-Verfahren;
und eine Einrichtung zum Anzeigen der einzigen Liste und der Cluster gegenüber dem Benutzer.

34. Computersystem gemäß Anspruch 33, bei dem die Einrichtung zum Zuweisen der Relevanzrangfolgen die Relevanzrangfolge auf der Basis einer Auftrittshäufigkeit von Anfragebegriffen in jedem der empfangenen Dokumente zuweist.

35. Computersystem gemäß Anspruch 33 oder 34, das ferner folgendes Merkmal aufweist:
eine Einrichtung zum Bereitstellen von kundenspezifisch ausgelegten Stopwortlisten, die bezüglich der generischen, webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) verwendet werden sollen, wobei die Einrichtung zum Zuweisen von Relevanzrangfolgen auf die Stopwortlisten Bezug nimmt, um Stopwörter aus Dokumenten herauszuziehen, die einer jeweiligen Maschine zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen einer Häufigkeit von Begriffen, die in jedem der Dokumente erscheinen, und wobei die Begriffe verwendet werden, um Ähnlichkeitspunktzahlen zwischen den Dokumenten zu bestimmen.

36. Computersystem gemäß einem der Ansprüche 33 bis 35, bei dem das durch die Einrichtung zum Clustern durchgeführte nicht-überwachte Clustering-Verfahren eine Gruppendurchschnittsverknüpfungstechnik verwendet, um relative Entfernungen zwischen Dokumenten zu bestimmen.

37. Computersystem gemäß Anspruch 36, bei dem die Gruppendurchschnittsverknüpfungstechnik den folgenden Algorithmus zum Bestimmen einer Annäherungspunktzahl, die die relativen Entfernungen zwischen Dokumenten definiert, verwendet:

S_ij = 2 × (1/2 - N(T_i,T_j)/(N(T_i) + N(T_j) +

wobei
T_i ein Begriff im Dokument i ist;
T_j ein Begriff im Dokument j ist;
N(T_iT_j) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(T_i) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(T_j) die Anzahl von Begriffen im Dokument j ist.

38. Computersystem gemäß einem der Ansprüche 33 bis 37, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Kategorisieren der empfangenen Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Kategorien und der denselben zugewiesenen Dokumente gegenüber dem Benutzer.

39. Computersystem gemäß Anspruch 38, das ferner eine Einrichtung zum Speichern einer Liste von Wörtern für jede der Kategorien aufweist, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind und wobei die Einrichtung zum Kategorisieren die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument vergleicht, um zu bestimmen, ob das Dokument in dieser bestimmten Kategorie klassifiziert ist.

40. Computersystem gemäß Anspruch 38 oder 39, das ferner eine Einrichtung zum Bereitstellen einer vordefinierten Liste von Wörtern für jede der Kategorien aufweist.

41. Computersystem gemäß einem der Ansprüche 38 bis 40, das ferner eine Einrichtung zum automatischen Erstellen einer Wortliste für jede der Kategorien aufweist.

42. Computersystem gemäß Anspruch 41, bei dem die Wortlisten aus einem Satz von Trainingsdokumenten erstellt sind.

43. Computersystem gemäß Anspruch 41 oder 42, bei dem jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort auf der Basis einer Funktion identifiziert ist, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für die es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien berechnet wird.

44. Verfahren gemäß einem der Ansprüche 41 bis 43, bei dem die Wortlisten durch ein inkrementales Training unter Verwendung von zuvor ausgewählten Listen von Wörtern und entsprechenden Kategorien sowie einer Benutzerrückmeldung in bezug auf die Kategorisierung mindestens eines der in mindestens einer der Kategorien enthaltenen Dokumente erstellt werden.

45. Computersystem gemäß einem der Ansprüche 33 bis 44, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Speichern der empfangenen Dokumente;
eine Einrichtung zum Durchführen einer durch einen Benutzer eingegebenen Unteranfrage, um nach durch die Einrichtung zum Speichern gespeicherten Dokumenten zu suchen, die für die Unteranfrage relevant sind;
eine Einrichtung zum Abrufen von Rohdaten- Unteranfrage-Suchergebnissen in Form von Textdokumenten aus der Einrichtung zum Speichern;
eine Einrichtung zum Anzeigen der Rohdaten- Unteranfrage-Suchergebnisse gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der Rohdaten- Unteranfrage-Suchergebnisse zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den Rohdaten-Unteranfrage-Suchergebnissen und zum Organisieren der Ergebnisse in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Unteranfragedokumente zu Clustern gemäß einem nicht- überwachten Clustering-Verfahren;
und eine Einrichtung zum Anzeigen der Unteranfragedokumente gegenüber dem Benutzer in der einzigen Liste und in Cluster-Formaten.

46. Computersystem gemäß einem der Ansprüche 33 bis 45, das ferner folgendes Merkmal aufweist:
einen Browser, der einen Relevanzrückmeldemechanismus aufweist, der ausgelegt ist, um die Dokumente zu analysieren, während sie durch einen Benutzer auf einer Benutzerschnittstelle (30) durchsucht werden; und um auf der Basis von sich aus der Analyse ergebenden Beobachtungen einen Relevanzgewichtungsfaktor zu erzeugen.

47. Computersystem zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen gemäß einer Benutzeranfrage und zum Erhalten organisierter Suchergebnisse daraus, wobei das System folgende Merkmale aufweist:
eine Metasuchmaschine (10), die in der Lage ist, auf eine Mehrzahl von Sites zuzugreifen, einschließlich generischer, webbasierter Suchmaschinen und domain- relevanter Suchmaschinen (12, 14, 16, 18, 19), zum Empfangen von Dokumenten von der Mehrzahl von Sites als Antwort auf die Benutzeranfrage;
eine Einrichtung zum Auswählen bestimmter Suchmaschinen aus einer Mehrzahl generischer, webbasierter Suchmaschinen und domain-relevanter Suchmaschinen (12, 14, 16, 18, 19), die einem Benutzer präsentiert werden;
eine Einrichtung zum Clustern der empfangenen Dokumente zu Clustern gemäß einem nicht-überwachten Clustering-Verfahren;
eine Einrichtung zum Kategorisieren der empfangenen Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Cluster, der Kategorien und der denselben zugewiesenen Dokumenten gegenüber dem Benutzer.

48. Computersystem gemäß Anspruch 47, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Anzeigen der empfangenen Dokumente gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der empfangenen Dokumente aus der Mehrzahl von Sites zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den empfangenen Dokumenten in der einzigen Liste und zum Organisieren der Dokumente in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Speichern der empfangenen Dokumente; und
eine Einrichtung zum Durchführen einer durch einen Benutzer eingegebenen Unteranfrage, um nach durch die Einrichtung zum Speichern gespeicherten Dokumenten zu suchen, die für die Unteranfrage relevant sind;
eine Einrichtung zum Abrufen von Rohdaten- Unteranfrage-Suchergebnissen in Form von Textdokumenten aus der Einrichtung zum Speichern;
eine Einrichtung zum Anzeigen der Rohdaten- Unteranfrage-Suchergebnisse gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der Rohdaten- Unteranfrage-Suchergebnisse zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den Rohdaten-Unteranfrage-Suchergebnissen und zum Organisieren der Ergebnisse in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Unteranfragedokumente zu Clustern gemäß einem nicht- überwachten Clustering-Verfahren;
eine Einrichtung zum Kategorisieren der empfangenen Unteranfragedokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Unteranfragedokumente gegenüber dem Benutzer in dem Einzige-Liste-, dem Kategorien- und dem Cluster-Format.

49. Computersystem gemäß Anspruch 47 oder 48, das ferner folgendes Merkmal aufweist:
einen Browser, der einen Relevanzrückmeldemechanismus aufweist und ausgelegt ist, um die Dokumente zu analysieren, während sie durch einen Benutzer auf einer Benutzerschnittstelle (30) durchsucht werden, und um auf der Basis von sich aus der Analyse ergebenden Beobachtungen einen Relevanzgewichtungsfaktor zu erzeugen.

50. Computerlesbares Medium, das eine oder mehrere Sequenzen von Anweisungen von einem Benutzer eines Computersystems zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen, um organisierte Suchergebnisse daraus zu erhalten, trägt, wobei eine Ausführung der einen oder mehreren Sequenzen von Anweisungen durch einen oder mehrere Prozessoren bewirkt, daß der eine oder die mehreren Prozessoren folgende Schritte durchführt beziehungsweise durchführen:
Empfangen einer durch den Benutzer eingegebenen Anfrage und Empfangen von Anweisungen, auf welche Datenbanken zugegriffen werden soll;
Zugreifen auf ausgewählte Sites unter Verwendung von generischen, webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) auf der Basis der von dem Benutzer empfangenen Anweisungen, und Suchen nach Dokumenten auf den ausgewählten Sites, die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten von jeder der ausgewählten Sites;
Anzeigen der Rohdaten auf einer Benutzerschnittstelle (30);
Bilden von Clustern verwandter Dokumente aus den Rohdaten gemäß einem nicht-überwachten Clustering- Verfahren; und
Anzeigen der Cluster verwandter Dokumente auf der Benutzerschnittstelle (30).

51. Computerlesbares Medium gemäß Anspruch 50, bei dem die folgenden weiteren Schritte durchgeführt werden:
Erstellen einer einzigen Liste aller der Dokumente unabhängig von den sich bildenden Clustern nach einem Eliminieren von Dokumenten, die nicht über das Web erreichbar sind; und
Zuweisen von einfachen Relevanzpunktzahlen zu den in der einzigen Liste erstellten Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente auftreten.

52. Computerlesbares Medium gemäß Anspruch 51, bei dem der folgende weitere Schritt durchgeführt wird:
Bereitstellen von kundenspezifisch ausgelegten Stopwortlisten, die bezüglich der generischen, webbasierten Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites verwendet werden sollen, und Bezug nehmen auf die Stopwortlisten, zum Herausziehen von Stopwörtern aus Dokumenten, die einer jeweiligen Maschine, Veröffentlichungssite oder Sequenzen-Site zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen der Häufigkeit von Begriffen, die in jedem der Dokumente erscheinen, und Verwenden der Begriffe, um Ähnlichkeitspunktzahlen zwischen den Dokumenten zum Clustern der Dokumente zu errechnen.

53. Computerlesbares Medium gemäß einem der Ansprüche 50 bis 52, bei dem die folgenden weiteren Schritte durchgeführt werden:
Verarbeiten der Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren und Kategorisieren der Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist.

54. Computerlesbares Medium gemäß einem der Ansprüche 50 bis 53, bei dem die folgenden weiteren Schritte durchgeführt werden:
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus aufweist;
Analysieren der Dokumente, während sie durch den Benutzer durchsucht werden; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.