DE10231161A1 - Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben - Google Patents

Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben

Info

Publication number
DE10231161A1
DE10231161A1 DE10231161A DE10231161A DE10231161A1 DE 10231161 A1 DE10231161 A1 DE 10231161A1 DE 10231161 A DE10231161 A DE 10231161A DE 10231161 A DE10231161 A DE 10231161A DE 10231161 A1 DE10231161 A1 DE 10231161A1
Authority
DE
Germany
Prior art keywords
documents
search
user
list
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10231161A
Other languages
English (en)
Inventor
Robert Kincaid
Simon Handley
Aditya Vailaya
Parvathi Chundi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies Inc
Original Assignee
Agilent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies Inc filed Critical Agilent Technologies Inc
Publication of DE10231161A1 publication Critical patent/DE10231161A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

Ein System und Verfahren zum Durchführen von domainspezifischen wissensbasierten Metasuchen. Eine Metasuchmaschine zum Zugreifen auf und Suchen von textbasierten Dokumenten unter Verwendung von generischen Suchmaschinen, während sie gleichzeitig in der Lage ist, auf veröffentlichungsbasierte Datenbanken und Sequenzdatenbanken sowie firmeneigene, geschlossene Datenbanken und jegliche Datenbank zuzugreifen, die in der Lage ist, mit einer Webschnittstelle schnittstellenmäßig verbunden zu werden, um Suchergebnisse in einem Textformat zu erzeugen, ist vorgesehen. Ferner ist ein Data-Mining-Modul zum Organisieren von Rohdaten vorgesehen, die durch ein nicht-überwachtes Clustern, ein Ordnen in einer einfachen Relevanzrangfolge und eine Kategorisierung, von denen alle unabhängig voneinander erfolgen, erhalten werden. Das System ist in der Lage, frühere Suchdaten zur Verwendung bei einer Anfrageverfeinerung oder späterem Suchen auf der Basis der gespeicherten Daten zu speichern. Ein Suchergebnisse-Sammelbrowser kann zum Analysieren vorliegender Browsing-Muster des Benutzers vorgesehen sein, um Gewichtungsfaktoren zu entwickeln, die beim Ordnen der Ergebnisse zukünftiger Suchvorgänge verwendet werden sollen.

Description

    Beschreibung
  • Die vorliegende Erfindung bezieht sich allgemein auf Metasuchmaschinen und Data-Mining-Systeme und im einzelnen auf Metasuchmaschinen und Data-Mining-Systeme, die auf domain- spezifische Wissensbanken ausgerichtet sind.
  • Mit der schnellen Zunahme des Internet und Benutzern des Internet in den letzten fünf Jahren entwickelte sich eine damit zusammenhängende rasche Zunahme der Informationsmenge, die über das Internet verfügbar ist. Während diese Explosion an Informationen, die dem Benutzer zur Verfügung stehen, auf den ersten Blick als ein willkommenes Gut erscheinen mag, bringt sie für den Benutzer mehrere negative Aspekte mit sich, nicht zuletzt die ständig steigenden Schwierigkeiten beim Durchsortieren der riesigen Mengen an verfügbaren Informationen, um diejenigen Informationsquellen zu finden, die für die vorliegende Suche am relevantesten sind.
  • Benutzern stehen viele Suchmaschinen, beispielsweise Google™ und AltaVista®, zur Verfügung, die leistungsstarke Such-Tools für eine allgemeine Verwendung bereitstellen. Diese Suchmaschinen befähigen einen Benutzer, den riesigen Verwahrungsort von öffentlichen webbasierten Dokumenten, die durch diese Systeme indexiert sind, abzufragen. Das bloße Volumen zur Verfügung stehender Daten führt jedoch bei vielen dieser allgemeinen Suchen zu einem unerwünschten Ergebnis, da die meisten einfachen Suchen große und schwer zu handhabende Volumen von Treffern oder Ergebnissen zurückgeben, von denen viele für das, was der Benutzer sucht, nicht brauchbar oder relevant sind.
  • Die meisten der zur Verfügung stehenden Suchmaschinen wenden bei dem Versuch, Übereinstimmungen mit Informationen zu finden, die für die durch den Benutzer gelieferten Suchkriterien am relevantesten sind, unterschiedliche Strategien an. Deshalb bringt jede Suchstrategie ihre eigene Voreingenommenheit bezüglich der Relevanz von wiedererlangten Dokumenten ein, und eine Suchmaschine kann für eine beliebige gegebene Suche überragende Ergebnisse liefern, während eine andere Suchmaschine für eine zweite, andere Suche überragende Suchergebnisse liefern kann. Beispielsweise kann eine Suchmaschine die Relevanz eines Dokuments anhand der Anzahl von "Treffern" oder Übereinstimmungen etwaiger der Schlüsselwörter in der durch den Benutzer gelieferten Anfrage für tatsächliche Auftretensfälle dieser Wörter (oder anderer Suchbegriffe) in dem Dokument bestimmen. Jedoch ist die bloße Wiederholung eines relevanten Begriffes keine Garantie, daß das Dokument relevant ist, und oft weist der Inhalt eines auf diese Weise identifizierten Dokuments wenig oder keine Relevanz für das Thema auf, das für den Benutzer von Interesse ist. Dies führt zu einem großen Zeitaufwand, da der Benutzer Dokumente öffnen muß, die als relevant angegeben sind, und sie lesen muß, um zu bestimmen, ob sie tatsächlich relevant sind, was nämlich ein großes Ausmaß an "manuellem Suchen" durch den Benutzer erfordert, um die tatsächlich benötigten Dokumente zu bekommen.
  • Ferner setzen unterschiedliche Suchmaschinen oft unterschiedliche Prioritäten in bezug darauf, welche Sites indexiert werden sollen, und sammeln daher ungleichartige Ergebnisse bezüglich derselben durch den Benutzer gelieferten Anfrage, bevor sie noch irgendwelche Relevanzzuweisungen durchführen.
  • Eine andere Art und Weise, zu versuchen, relevante Dokumente wiederzuerlangen, erfolgt durch ein Filtern, wobei eine Schnittstelle bereitgestellt wird, um es dem Benutzer zu ermöglichen, Parameter einzustellen, um bei einem Satz relevanter Begriffe anzugelangen. Auf diese Weise bestimmt der Benutzer manuell, welche Suchergebnisse in einem Satz gelieferter relevanter Suchergebnisse die relevantesten sind. Dieser Lösungsansatz weist das Potential auf, einen Teil der Zeit, die erforderlich ist, um sich suchenderweise durch nicht-relevante Dokumente zu arbeiten, die andernfalls vielleicht durch den zuvor erörterten Lösungsansatz geliefert worden wären, zu eliminieren. Für manuelle Einstellungen wird jedoch immer noch Zeit benötigt. Ferner können die manuellen Einstellungen potentiell relevante Dokumente eliminieren, die andernfalls durch den zuvor beschriebenen Lösungsansatz präsentiert worden wären.
  • Es stehen Metasuchmaschinen zur Verfügung (beispielsweise metacrawler®, Dogpile®, Search.com usw.), die als ein "Mittelsmann" zwischen dem Benutzer und einer Anzahl von Suchmaschinen des oben beschriebenen Typs fungieren. Auf diese Weise kann ein Benutzer eine einzelne Anfrage einer Metasuchmaschine unterbreiten, und die Metasuchmaschine untersucht die Anfrage daraufhin syntaktisch (d. h. parst sie) und formatiert sie neu. Die neu formatierten Anfragen werden daraufhin an zahlreiche Suchmaschinen wie beispielsweise die oben beschriebenen weitergeleitet, wobei jede einzelne Suchmaschine eine den Protokollen für diese Suchmaschine entsprechend formatierte Anfrage empfängt. Nach einem Wiedererlangen der Ergebnisse von den einzelnen Suchmaschinen präsentiert die Metasuchmaschine dieselben dem Benutzer. Abgesehen von der dem Benutzer bereitgestellten Vereinfachung, die darin besteht, daß er lediglich eine Anfrage formatieren muß, besteht ein Ziel dieses Lösungsansatzes darin, daß durch ein Bilden einer Zusammensetzung aus Ergebnissen relevante Dokumente, die durch eine einzelne verwendete Suchmaschine vielleicht nicht gefunden worden wären, durch eine andere gefunden und wiedererlangt werden.
  • Obwohl diese Metasuchmaschinen die Anfrageaufgabe durch den Benutzer vereinfachen und somit ziemlich nützlich sind und ein gewisses Maß an Zeitersparnis liefern, tun sie nichts in bezug darauf, zu versuchen, die Ergebnisse zu kategorisieren oder sie auf andere Weise sinnvoll darzustellen, um sie schneller zugänglich zu machen. Folglich bleibt dem Benutzer in der Regel eine sehr große Menge an Rohergebnissen (relativ ungeordnete Dokumente), die zu prüfen sind. Ferner durchsuchen diese Metasuchmaschinen generische Indizes wie beispielsweise Google™ (für ein Metasuchen in Google™ kann eine Genehmigung und/oder Lizenz erforderlich sein) oder AltaVista® und beinhalten keine Sites, die eine spezifische Relevanz für die Wissenschaften aufweisen.
  • Derzeitige webbasierte Suchmaschinen, die Data-Mining- Fähigkeiten verwenden, umfassen northernlight.com, huskysearch und vivisimo. Diese Systeme verwenden allgemein eine Art nicht-überwachter Gruppierung (Clustering) zu Gruppendokumenten nach ähnlichen Themen. Diese Systeme stellen insofern eine Verbesserung gegenüber den oben beschriebenen generischen Metasuchmaschinen dar, als der Benutzer die in Clustern oder Untergruppen bereitgestellten Suchergebnisse sehen kann und daraufhin potentiell Cluster oder Untergruppen, die einen geringen Relevanzwert zu haben scheinen, eliminieren kann bzw. schneller auf diejenigen Dokumente in Untergruppen zugreifen kann, die hochrelevant zu sein scheinen. Bei keinem dieser Beispiele wurden Data-Mining- Algorithmen jedoch speziell auf die Wissenschaften oder insbesondere auf die Biowissenschaften abgestimmt. Somit wird eine allgemeine wissenschaftliche Terminologie, die bei einer wissenschaftlichen Suche keinen echten Diskriminierungswert aufweist, bei der Verwendung dieser Systemtypen als bedeutend überbewertet, wenn sie es in der Tat gar nicht ist. Obwohl es möglich ist, unter Verwendung der obigen generischen Typen von Suchmaschinen und Data-Mining- Tools für eine wissenschaftliche Suche relevante Informationen wiederzuerlangen, ist es auch wahrscheinlich, daß viele relevante Dokumente nicht gefunden werden, da ein Zugriff auf spezialisierte Sites (im Fall einer biowissenschaftlichen Suche beispielsweise PubMed, SwissProt, Entrez, EMBL usw.) nicht angewiesen ist.
  • Es wurden bereits Versuche durchgeführt, domain-spezifische Implementierungen von Metasuch-Tools bereitzustellen, die searchlight.cdlib.org, researchville.com, bio-crawler, gateway.nlm.nih.gov und queryserver.com umfassen. Searchlight liefert einige wenige wissenschaftlich orientierte Metasuchen, weist jedoch keine Clustering-Fähigkeit auf. researchville.com liefert eine medizinisch orientierte Implementierung, weist aber ebenfalls keine Clustering-Fähigkeit auf. bio-crawler scheint biologiespezifische Suchen auf japanisch bereitzustellen, jedoch wiederum ohne Clustering- Fähigkeit. gateway.nlm.nih liefert einen Zugriff auf verschiedene Regierungsdatenbanken, einschließlich medizinischer Datenbanken, verfügt aber ebenfalls über keine Clustering-Fähigkeit. queryserver.com liefert gesundheitsorientierte Metasuchen mit einem Clustering von Ergebnissen, ist jedoch ein serverbasiertes Tool und liefert nicht die Fähigkeit, sowohl generische als auch domain-spezifische Suchen zu kombinieren, und eine Kategorisierung wird ebenfalls nicht durchgeführt. Da es serverbasiert ist, wird seine Konfigurierung durch den Server-Administrator bestimmt und verfügt daher nicht über das Potential für eine Endbenutzer-Kundenanpassung.
  • Es wurden bisher auch verschiedene clientbasierte Lösungen für ein Suchen vorgeschlagen. webferret.com liefert eine einfach zu verwendende Client-Anwendung, die Metasuch- Fähigkeiten bereitstellt, es liefert jedoch keine Data- Mining-Fähigkeiten und ist auf eine feststehende Liste von generischen Suchmaschinen beschränkt. DynaCat und QueryCat (http:/ / www.ics.uci.edu/-pratt/) sind Anwendungen, die ein Client-Tool verwenden, um nach domain-spezifische Informationen innerhalb von MedLine anzufragen. Diese Tools sind keine Metasuchmaschinen und weisen somit nicht die Fähigkeit auf, in mehreren Suchmaschinen anzufragen.
  • Es wäre wünschenswert, über domain-spezifische Tools zum effizienten Durchführen wissenschaftlicher Metasuchen und zum Organisieren der Ergebnisse solcher Suchen zu verfügen, um dem Benutzer zu ermöglichen, die relevantesten entdeckten Informationen schnell zu identifizieren und auf sie zuzugreifen.
  • Es ist die Aufgabe der vorliegenden Erfindung, Verfahren, Computersysteme und ein computerlesbares Medium zu schaffen, die ein effizienteres Suchen von Informationen im Internet ermöglichen.
  • Diese Aufgabe wird durch Verfahren gemäß den Ansprüchen 1, 30 und 31, Computersysteme gemäß den Ansprüchen 33 und 45 sowie durch ein computerlesbares Medium gemäß Anspruch 50 gelöst.
  • Die vorliegende Erfindung umfaßt ein Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen daraus, wobei das Verfahren ein Bereitstellen einer Metasuchmaschine umfaßt, die in der Lage ist, auf generische, webbasierte Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites zuzugreifen. Die Metasuchmaschine empfängt eine durch einen Benutzer eingegebene Anfrage und greift auf Sites zu, von denen gewünscht wird, daß sie nach relevanten Dokumenten durchsucht werden. Nachdem sie identifiziert wurden, werden die Dokumente als Rohdaten-Suchergebnisse in Form von Textdokumenten von jedem Element eines ausgewählten Satzes von Suchsites abgerufen. Der Benutzer zeigt die Rohdaten auf einer Benutzerschnittstelle für einen unmittelbaren Zugriff an, und die Rohdaten werden ebenfalls gleichzeitig an ein Data-Mining-Modul zur Analyse und Organisation der Suchergebnisse geliefert. Das Data-Mining-Modul bildet Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering-Verfahren und zeigt die Cluster von verwandten Dokumenten auf der Benutzerschnittstelle an.
  • Das Data-Mining-Modul ist ferner in der Lage, eine einzige Liste aller als Rohdaten wiedererlangten Dokumente unabhängig von dem nicht-überwachten Clustering-Verfahren zu erstellen, nachdem es Dokumente, die nicht über das Web erreichbar sind, eliminiert hat. Das Data-Mining-Modul weist den Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem Dokument erscheinen, einfache Relevanzpunktzahlen zu. Die Dokumente werden daraufhin in einer Reihenfolge, die von den höchsten bis zu den niedrigsten einfachen Relevanzpunktzahlen rangiert, in der einzigen Liste aufgeführt.
  • Kundenspezifische Stopwortlisten können bereitgestellt werden, die auf einzelne oder Gruppen von generischen webbasierten Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites zugeschnitten sind. Die kundenspezifischen Stopwortlisten können manuell bereitgestellt werden, beispielsweise durch ein Bereitstellen vordefinierter kundenspezifischer Stopwortlisten, oder können automatisch erzeugt werden, wobei die Stopwortlisten in diesem Fall für jede Anfrage ohne jegliche manuelle Intervention direkt anhand der Suchergebnisse erstellt und auf den Kunden zugeschnitten werden können. Das Data-Mining-Modul nimmt Bezug auf die Stopwortlisten, um Stopwörter aus den einer jeweiligen Maschine, Veröffentlichungssite oder Sequenzen-Site, für die die bestimmte Stopwortliste, auf die Bezug genommen wird, maßgeschneidert wurde, zugeordneten Dokumenten herauszuziehen, bevor die Häufigkeit von Begriffen aus der Anfrage, die in jedem bestimmten Dokument erscheinen, bestimmt wird. Die Liste von in jedem Dokument auftretenden Begriffen wird daraufhin verwendet, um eine Annäherungspunktzahl zu berechnen (beispielsweise durch das als Gruppendurchschnittsverknüpfungstechnik unten ausführlicher erläuterte Beispiel), der für ein Gruppieren der Dokumente verwendet werden soll. Kundenspezifische Stopwortlisten können automatisch erzeugt und auf individuelle oder Gruppen von generischen webbasierten Suchmaschinen sowie domain-relevanten Suchmaschinen maßgeschneidert werden, einschließlich Veröffentlichungssites und/oder Sequenzen-Sites, Proteinstruktur-Datenbanken, Übertragungsweginformationsdatenbanken und andere spezifische Datenbanken, aber nicht ausschließlich derselben. Ein solches Merkmal beseitigt die Last, diese Listen, die eventuell geändert werden müssen, wenn sich die generischen webbasierten Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites und andere Sites ändern, z. B. wenn dieselben aktualisiert werden, manuell erstellen/bearbeiten zu müssen.
  • Das Data-Mining-Modul ist ferner in der Lage, eine einzige Liste aller als Rohdaten wiedererlangten Dokumente unabhängig von dem nicht-überwachten Clustering-Verfahren zu erstellen, nachdem es Dokumente, die nicht über das Web erreichbar sind, eliminiert hat. Das Data-Mining-Modul weist den Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem Dokument erscheinen, einfache Relevanzpunktzahlen zu. Die Dokumente werden daraufhin in einer Reihenfolge, die von den höchsten bis zu den niedrigsten einfachen Relevanzpunktzahlen rangiert, in der einzigen Liste aufgeführt.
  • Ferner kann das Data-Mining-Modul unabhängig von dem nicht- überwachten Clustering-Verfahren und dem Verfahren der Erstellung der einzigen Liste die Rohdaten verarbeiten, um die Dokumente so zu kategorisieren, daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist. Eine Liste von Wörtern kann für jede der vordefinierten Kategorien vorgesehen sein, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind. Das Data-Mining-Modul vergleicht die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument, um zu bestimmen, ob das Dokument in dieser bestimmten Kategorie klassifiziert wird. Nach Abschluß der Kategorisierung werden die Dokumente ferner der Benutzerschnittstelle in einem kategorisierten Format angezeigt.
  • Listen von Wörtern, die für jede der vordefinierten Kategorien spezifisch sind, können auch automatisch erzeugt werden, wobei die Wörter in jeder Liste für die jeweilige Kategorie, für die sie verwendet wird, spezifisch sind. Die automatische Erstellung kann unter Verwendung eines Schulungssatzes bzw. Trainingssatzes von Dokumenten durchgeführt werden, wobei jedes eine bekannte Kategorie aufweist. Eine Liste von Wörtern, die unter den vordefinierten Kategorien am meisten unterscheiden, können daraufhin aus dem Trainingssatz bezüglich jeder Kategorie identifiziert werden. Jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort kann auf der Basis einer Funktion identifiziert werden, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für das es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien errechnet wird.
  • Die Listen von Wörtern für jede der Kategorien können durch ein inkrementales Training unter Verwendung der zuvor ausgewählten Listen von Wörtern, durch ein Kategorisieren neuer und alter Trainingsdokumente unter Verwendung dieser Liste, und durch ein Annehmen einer Benutzerrückmeldung in bezug auf die Kategorisierung dieser Dokumente automatisch ausgewählt werden.
  • Das nicht-überwachte Clustering-Verfahren verwendet eine Gruppendurchschnittsverknüpfungstechnik, um relative Abstände zwischen Dokumenten zu bestimmen. Ein bestimmtes Beispiel einer Gruppendurchschnittsverknüpfungstechnik, die verwendet werden kann, verwendet den folgenden Algorithmus zum Bestimmen einer Näherungspunktzahl, die relative Entfernungen zwischen Dokumenten definiert:

    Sij = 2 × (1/2 - N(Ti,Tj)/(N(Ti) + N(Tj));

    wobei
    Ti ein Begriff im Dokument i ist;
    Tj ein Begriff im Dokument j ist;
    N(TiTj) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
    N(Ti) die Anzahl von im Dokument i gefundenen Begriffen ist; und
    N(Tj) die Anzahl von Begriffen im Dokument j ist.
  • Man beachte, daß "Begriff" einem Wort in einem Dokument, nachdem die Stopwörter aus dem Dokument entfernt wurden, entspricht.
  • Die vorliegende Erfindung kann auch Suchen lokal speichern und die Daten in den gespeicherten Suchen verwenden, um eine lokale Suche oder eine Anfrageverfeinerungssuche unter Verwendung der oben beschriebenen Fähigkeiten auszuführen.
  • Ein Browser, der einen Relevanzrückmeldemechanismus umfaßt, kann ferner bereitgestellt sein, um die wiedererlangten Dokumente zu analysieren, während sie durch einen Benutzer auf der Benutzeroberfläche durchsucht werden (Browsing). Ein Relevanzgewichtungsfaktor kann auf der Basis von Beobachtungen, die sich aus der Analyse ergeben, erstellt werden. Relevanzgewichtungsfaktoren können beispielsweise auf ein bestimmtes Dokument, das durchsucht wurde, eine Site oder eine Suchmaschine, von der ein bestimmtes Dokument, das durchsucht wurde, abgerufen wurde, oder ein Cluster, in dem ein bestimmtes Dokument, das durchsucht wurde, gruppiert ist, anwendbar sein.
  • Ein Computersystem zum Durchführen der obigen Aufgaben ist ebenfalls vorgesehen, ebenso wie ein computerlesbares Medium zum Tragen einer oder mehrerer Sequenzen von Anweisungen von einem Benutzer eines solchen Computersystems.
  • Diese und andere Ziele, Vorteile und Merkmale der Erfindung werden für Fachleute nach Lektüre der Einzelheiten des Systems und der Verfahren, die unten ausführlicher beschrieben werden, offensichtlich.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • Fig. 1 ein architektonisches Schema eines Systems gemäß der vorliegenden Erfindung;
  • Fig. 2 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die die anfänglichen Rohergebnisse einer Suche zeigt, die unter Verwendung eines Systems gemäß der vorliegenden Erfindung durchgeführt wird;
  • Fig. 3 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die Dokumentensuchergebnisse gemäß einer einfachen Relevanzrangfolge anzeigt;
  • Fig. 4 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die ein Beispiel eines gemäß der vorliegenden Erfindung gebildeten Clusters anzeigt;
  • Fig. 5 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die dasselbe in Fig. 4 identifizierte Cluster anzeigt, jedoch in einem Baumhierarchieformat;
  • Fig. 6 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die Suchdokumente gemäß Kategorien anzeigt;
  • Fig. 7 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die ein Anfrageverfeinerungsmerkmal gemäß der vorliegenden Erfindung zeigt; und
  • Fig. 8 ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle, die einen Suchergebnisse- Sammelbrowser (Search Results Collection Browser) gemäß der vorliegenden Erfindung zeigt.
  • Bevor die vorliegenden Systeme und Verfahren beschrieben werden, muß man verstehen, daß diese Erfindung nicht auf eine bestimmte beschriebene Hardware oder Software begrenzt ist, da eine solche selbstverständlich variieren kann. Es ist ferner zu verstehen, daß die hierin verwendete Terminologie lediglich dem Zweck des Beschreibens bestimmter Ausführungsbeispiele dient und keine Einschränkung darstellen soll, da der Schutzbereich der vorliegenden Erfindung lediglich durch die beigefügten Patentansprüche begrenzt wird.
  • Dort, wo ein Wertebereich bereitgestellt wird, versteht es sich, daß jeder kleinere Bereich zwischen einem beliebigen angegebenen Wert oder dazwischenliegenden Wert in einem angegebenen Bereich und einem beliebigen anderen angegebenen oder dazwischenliegenden Wert in diesem angegebenen Bereich durch die Erfindung abgedeckt ist. Die Ober- und Untergrenzen dieser kleineren Bereiche können unabhängig in dem Bereich enthalten sein oder von demselben ausgeschlossen sein, und jeder Bereich, bei dem eine der beiden Grenzen, keine der beiden Grenzen oder beide Grenzen in den kleineren Bereichen enthalten sind, ist ebenfalls durch die Erfindung abgedeckt, vorbehaltlich etwaiger spezifisch ausgeschlossener Grenzen in dem angegebenen Bereich. Dort, wo der angegebene Bereich eine oder beide Grenzen beinhaltet, sind Bereiche, die einen oder beide dieser beinhalteten Grenzen ausschließen, ebenfalls in der Erfindung beinhaltet.
  • Falls nicht anders definiert, weisen alle hierin verwendeten technischen und wissenschaftlichen Begriffe dieselbe Bedeutung auf, wie sie üblicherweise durch Fachleute auf dem Fachgebiet, in das diese Erfindung fällt, verstanden wird. Obwohl beliebige Verfahren und Systeme, die den hierin beschriebenen ähnlich oder zu denselben äquivalent sind, bei der Praxis oder Prüfung der vorliegenden Erfindung verwendet werden können, werden nun die bevorzugten Verfahren und Systeme beschrieben. Alle hierin erwähnten Veröffentlichungen sind durch Bezugnahme in dieses Dokument aufgenommen, um die Verfahren bzw. Systeme, in deren Zusammenhang die Veröffentlichungen zitiert werden, zu offenbaren und zu beschreiben.
  • Es muß angemerkt werden, daß die Singularformen "ein", "eine" und "der", "die", "das", wie sie hierin und in den beigefügten Patentansprüchen verwendet werden, Plural- Bezugnahmen umfassen, wenn nicht der Kontext eindeutig etwas anderes vorgibt. Somit umfaßt beispielsweise eine Bezugnahme auf "ein Cluster" eine Mehrzahl von solchen Clustern, und eine Bezugnahme auf "die Datenbank" umfaßt eine Bezugnahme auf eine oder mehrere Datenbanken und Äquivalente derselben, die Fachleuten bekannt ist bzw. sind, und so weiter.
  • Die hierin erörterten Veröffentlichungen werden lediglich zum Zwecke ihrer Offenbarung vor dem Einreichdatum der vorliegenden Patentanmeldung bereitgestellt. Ferner können sich die bereitgestellten Veröffentlichungsdaten von den tatsächlichen Veröffentlichungsdaten, welche eventuell unabhängig bestätigt werden müssen, unterscheiden.
  • DEFINITIONEN
  • Der Begriff "Treffer" kann sich auf ein Dokument beziehen, das durch eine Suchtechnik durch ein Abstimmen eines Anfragebegriffs mit einem Begriff, der in diesem Dokument existiert, ausgewählt wird. Wenn er sich auf ein einzelnes Dokument bezieht, kann eine Anzahl von "Treffern" alternativ dazu als jede einzelne Übereinstimmung eines Anfragebegriffs in diesem Dokument angesehen werden.
  • Der Begriff "URL" ist ein Akronym für "Einheitsressourcenlokator (uniform resource locator)", der die "Adresse" oder Position eines Dokuments, einer Website oder anderer Informationen auf dem World Wide Web bezeichnet.
  • Der Begriff "Benutzer" bezieht sich auf einen Agenten, eine Person, einen Computer oder einen anderen Mechanismus, der bzw. die in der Lage ist, eine Anfrage bereitzustellen und Suchergebnisse zu empfangen.
  • Der Begriff "Anfrage" bezieht sich auf die Informationen, die an die Metasuchmaschine gesandt werden, um das Thema, an dessen Suche der Benutzer interessiert ist, zu definieren.
  • Unter Bezugnahme auf Fig. 1 ist ein architektonisches Schema eines Systems zum Durchführen von Suchen und von Data- Mining gemäß der vorliegenden Erfindung gezeigt. Eine Metasuchmaschine (Mehr-Site-Anfragemaschine) 10 ist mit der Fähigkeit ausgestattet, mehrere Suchmaschinen zu verwenden, um geeignete Web-Dokumente zum Verarbeiten zu finden. Suchbegriffe und eine angeforderte Anzahl von Treffern werden durch den Benutzer eingegeben und werden verwendet, um eine Anfrage-URL-Zeichenfolge für jede Suchmaschine aufzubauen. Die jeweiligen URLs werden dann über http aufgerufen, und zurückgegebene Seiten werden verarbeitet, um die einzelnen Suchergebnisse zu extrahieren.
  • Es kann eine Mehrzahl von Verwahrungsorten durchsucht werden, einschließlich nicht nur standardmäßiger webbasierter Sites, die für Suchmaschinen 12 und 14 (beispielsweise Google™ (für ein Metasuchen auf Google™ kann eine Genehmigung und/oder Lizenz erforderlich sein) und AltaVista®, obwohl viele andere generische Suchmaschinen ebenfalls verwendet werden können) zugänglich sind, sondern auch Veröffentlichungssites, die Sites wie beispielsweise PubMed 16, Gen- Bank 18, OMIM und andere, Sequenz-Datenbanken, Proteinstrukturdatenbanken wie beispielsweise PDB, Übertragungsweginformationsdatenbanken, beispielsweise EMP, und andere datenspezifische Sites, jedoch nicht ausschließlich derselben. Sogar ähnliche Arten von Maschinen, beispielsweise die generischen Suchmaschinen, haben unterschiedliche Prioritäten bezüglich dessen, in welchen Sites sie suchen, und deshalb ist die vorliegende Erfindung in der Lage, zahlreiche Maschinen für nicht nur generische Sites, sondern Veröffentlichungssites und andere domain-spezifische Sites zu verwenden. Beispielsweise durchlaufen ähnliche Maschinen verschiedene Abschnitte des Webs, um die Site zu aktualisieren. Es ist wahrscheinlich, daß sich unterschiedliche Suchmaschinen in unterschiedlichen Zeitlinien dessen befinden, wann sie ihre Indexierung aktualisieren, und dadurch kann durch Verwenden von mehr als einer Maschine für jeden Typ von Sitesuche eine aktuellere Gesamtsuche erreicht werden.
  • Desgleichen kann auf Sequenzen-Sites und andere datenspezifische Sites zugegriffen werden, einschließlich, aber nicht ausschließlich, auf Sites wie zum Beispiel SwissProt 19, Entrez Nucleotide, Entrez Protein, EMBL und PDB. Willkürliche Datenbanken, einschließlich derjenigen, auf die über das World Wide Web zugegriffen werden kann, und im Privatbesitz befindliche oder andere Datenbanken, die über ein Intranet intern verfügbar sind, sind ebenfalls zugänglich. Diejenigen Datenbanken, die nicht in einem Format vorliegen, das als Webseiten angezeigt werden kann, können schnittstellenmäßig mit einer Webschnittstelle verbunden werden, die es ermöglicht, daß Suchergebnisse einer solchen Datenbank in Form von Webseiten angezeigt werden. Beispielsweise, und im Fall einer eigenen Java-Anwendung, die mit einer relationalen Datenbank kommuniziert, kann eine Webschnittstelle derart aufgebaut sein, daß das vorliegende Suchsystem mit der relationalen Datenbank schnittstellenmäßig verbunden werden und Ergebnisse in Form von Webseiten einholen kann. Man beachte, daß die meisten Bioinformatik- Datenbanken bereits Webschnittstellen verfügbar haben.
  • Die in dem Beispiel der Fig. 1 angegebenen Sites sind für Molekularbiologie und die Biowissenschaften hochrelevant und verbessern daher die domain-spezifische Relevanz von Suchtreffern im Vergleich zu einer Verwendung von standardmäßigen, öffentlich zur Verfügung stehenden Suchmaschinen dramatisch. Andere inhaltsspezifische Veröffentlichungssites und -datenbanken, die für andere wissenschaftliche Gebiete spezifisch sind, können auf ähnliche Weise für domain-spezifische Suchen aufgebaut sein.
  • Ein wichtiger Aspekt der Suchmerkmale der vorliegenden Erfindung ist ihre Verwendung von textbasierten Daten als Datennormierungstechnik. Unter Verwendung dieses Lösungsansatzes können jegliche Daten, die zu einer Anfrage reduziert werden können, die ein webbasiertes Textdokument zurückgibt, in das System integriert werden. Somit können Genom- und Proteinsequenzdaten als Teil der Metasuche enthalten sein, sowie traditionellere Veröffentlichungsdokumente. Im Prinzip kann jegliches System, einschließlich eigener, geschlossener Datenbanken, in einen CGI-basierten Webanwendungsserver (CGI = common gateway interface) eingehüllt sein, so daß seine Daten auch in eine Metasuche aufgenommen werden, die gemäß der vorliegenden Erfindung durchgeführt wird.
  • Eine Liste von für eine Suche zur Verfügung stehenden Sites wird dem Benutzer bei der Benutzerschnittstelle 30 geliefert, vorzugsweise auf eine visuelle/graphische Weise, wie beispielsweise in Fig. 2 gezeigt. Bei diesem Beispiel weisen die Sites, die für ein Suchen zur Verfügung stehen, jeweils ein neben denselben vorgesehenes Kästchen auf, das durch einen Benutzer abgehakt wird (unter Verwendung einer Maus oder Tastatur, um das Kästchen selektiv abzuhaken), um jede bestimmte zu durchsuchende Site auszuwählen. Das Abhaken der Kästchen kann auf dieselbe Weise auch rückgängig gemacht werden, um eine Site abzuwählen. Auf diese Weise kann der Benutzer eine Suche automatisch an seine Kundenwünsche anpassen, indem er lediglich die gewünschten Sites auswählt.
  • Ferner ist ein "Kontext"-Menü vorgesehen, das Auswahlen von "Voreinstellungen" von Gruppen von Suchmaschinen ermöglicht. Beispielsweise kann der Kontext "Veröffentlichung" Citeseer, PubMed und OMIM auswählen, da diese alle veröffentlichungsorientierte Sites sind und als solche zusammengruppiert werden können. Das Kontext-Menü kann auch konfiguriert sein, um Vorauswahlen, die sich auch auf andere wissenschaftliche Gebiete beziehen, zu gruppieren, beispielsweise kann ein Kontext "Veröffentlichungen Physik" physik-spezifische Veröffentlichungssites umfassen. Desgleichen kann ein Kontext "Sequenz" in dem Kontext-Menü enthalten sein, um eine Auswahl einer Gruppe von Sequenzen- Sites, beispielsweise Entrez Nucleotide, Entrez Protein, EMBL, SwissProt und PDB, zu ermöglichen.
  • Die Listen von zu durchsuchenden Sites können ohne weiteres erweitert werden, um zusätzliche Sites zu umfassen, da eine offene Architektur vorgesehen ist, um eine Hinzufügung zu und Löschung aus der Liste durch die Verwendung von Einsteckelementen oder eine andere Programmierungsmodifizierung zu ermöglichen. Alternativ dazu kann ein zentralisierter Verwahrungsort beispielsweise in XML-Sprache bereitgestellt sein, der jedesmal, wenn ein Benutzer eine Verbindung mit dem System herstellt, durch das Internet oder ein lokales Intranet abgerufen werden kann, oder es könnten durch dieselben Kanäle periodisch Aktualisierungen zur Verfügung gestellt werden.
  • Nachdem die Anfrage formuliert wurde, die Suchsites ausgewählt wurden und die Anfrage der Mehr-Site-Anfragemaschine 10 unterbreitet wurde, befragt die Suchmaschine 10 die identifizierten generischen webbasierten Suchmaschinen und andere identifizierte Sites mit den durch den Benutzer gelieferten Anfragebegriffen der Anfrage. Die Ergebnisse aus jeder Maschine/Site 12, 14, 16, 18, 19 werden wiedererlangt und geparst, um die Suchtreffer zur späteren Verwendung in dem Prozeß zu extrahieren. Die Suchtreffer sind Daten, die von den verschiedenen Suchmaschinen zurückgegeben werden, wobei jeder einen URL, einen Titel und üblicherweise einen kurzen Beschreibungstext enthält. Für Daten, die von Sequenzdatensites und anderen domain-spezifischen Sites, die dieses standardmäßige Format für einen Treffer noch nicht liefern, zurückgegeben werden, entwirft die vorliegende Erfindung Gegenstücke zu diesen. Die Suchtreffer werden zu einem HTML-Dokument kombiniert, das die kombinierten Suchergebnisse zeigt. Das Quelldokument, das jedem Suchergebnis entspricht, wird daraufhin ausdrücklich abgerufen, und es wird eine Sammlung von Textdokumenten erstellt, die die Ergebnisse der Gesamtsuche darstellt.
  • Die Dokumentdaten werden unmittelbar an einer Visualisierungs-/Benutzerschnittstelle 30 angezeigt, und zur selben Zeit beginnt das Data-Mining-Modul 20, die Dokumentdaten zu verarbeiten. Fig. 2 zeigt ein Beispiel einer Bildschirmanzeige auf einer Benutzerschnittstelle 30, die die anfänglichen Rohergebnisse einer unter Verwendung eines Systems gemäß der vorliegenden Erfindung durchgeführten Suche anzeigt. Bei diesem Beispiel wurden die folgenden Sites für ein Suchen ausgewählt: HotBot, Google und PubMed. Die Anfrage, die durchgeführt wurde, lautete "menschliches Myoglobin". Fig. 2 zeigt Rohergebnisse, die von der HotBot- Suchmaschine erhalten wurden. Diese Ergebnisse werden als Titel eines Dokuments im HTML-Format aufgeführt, so daß das Dokument eventuell für den Benutzer direkt zugänglich ist, indem der Benutzer mit einer Mausschnittstelle auf den unterstrichenen Titel klickt oder indem er durch eine mit dem System verbundene Tastatur eine Auswahl eingibt. Eine kurze Beschreibung des Dokuments schließt sich an den Titel an, und an die Beschreibung schließt sich die URL-Adresse (Einheitsressourcenlokator-Adresse) des Dokuments an. Die Dokumente werden gemäß jeder Suchmaschine, die verwendet wird, gruppiert und können mit vordefinierten Relevanzrangfolgen, falls vorhanden, gemäß durch diese bestimmte Suchmaschine verwendeten Schemen erscheinen. Das heißt, daß die Ergebnisse in der Reihenfolge aufgeführt sind, in der sie bezüglich jeder bestimmten Suchmaschine erscheinen. In manchen Fällen, wie bei Google, können die Ergebnisse in einer Reihenfolge aufgeführt sein, die einem bestimmten Schema für eine Relevanzrangfolge entspricht. In anderen Fällen, wie für Sequenzdatenbanken, werden die Ergebnisse eventuell lediglich in der Reihenfolge, in der die Treffer identifiziert oder lokalisiert wurden, oder in alphabetischer Reihenfolge präsentiert. Was auch immer der Fall ist, die vorliegende Erfindung versucht nicht, die Reihenfolge, in der die Ergebnisse angezeigt werden, in dieser Phase der Verarbeitung zu interpretieren.
  • Die Rohergebnisse werden unmittelbar nach einem Wiedererlangen angezeigt, zur selben Zeit wie sie zur weiteren Verarbeitung an das Data-Mining-Modul geliefert werden, so daß der Benutzer zur selben Zeit, wie das Data-Mining- Verarbeiten durchgeführt wird, beginnen kann, die Rohergebnisse zu durchsuchen. Dies liefert dem Benutzer die Gelegenheit, sogar während eine weitere Verarbeitung durchgeführt wird, ein oder mehrere hochrelevante Dokumente manuell zu identifizieren, was dem Benutzer in einem solchen Fall Zeit sparen würde.
  • Beim Überprüfen der Liste von Rohdaten von HotBot in Fig. 2 kann man sehen, daß sich drei der gezeigten Dokumente auf Kannibalismus im Südwesten der USA des 12. Jahrhunderts von seiten der Anasazi-Indianer beziehen. Obwohl diese Informationen für eine spezifische Suche bezüglich Kannibalismus hochrelevant sein könnten, ist es nicht wahrscheinlich, daß sie für viele wissenschaftliche Suchen, die sich auf technische Einzelheiten in bezug auf menschliches Myoglobin beziehen, relevant sind. Somit ist dies ein gutes Beispiel dafür, wie generische Datenbanken und Suchmaschinen als "hochrelevant" markierte Dokumente zurückgeben können, die in der Tat für eine spezifische wissenschaftliche Anfrage jedoch überhaupt nicht relevant sind.
  • Ein Verarbeiten durch das Data-Mining-Modul 20 verarbeitet die Rohdaten, um eine einzige Liste von Dokumenten von all den durchsuchten Sites zu erstellen, bei der die Dokumente nach einfachen Relevanz-Punktzahlen in eine Rangordnung gebracht werden. Beim Erstellen dieser Liste ruft das Data- Mining-Modul 20 einzeln URLs für ein Data-Mining ab. Alle Suchergebnisse, die entweder aufgrund von Netzproblemen oder weil die Seite nicht mehr existiert, nicht über das Web erreichbar waren, werden aus der Liste entfernt. Ferner streift das Data-Mining-Modul 20 jede HTML-Textformatierung ab.
  • Eine einfache Relevanzrangfolge wird daraufhin auf der Basis der Häufigkeit der Suchbegriffe, die in einem bestimmten Dokument gefunden werden, erstellt (z. B. eine Gesamtanzahl von "Treffern" von Suchbegriffen in einem Dokument wird abgestimmt). Auch auf Treffer, die beispielsweise in einem Titel oder an einer anderen wahrscheinlichen, relevanteren Stelle, beispielsweise einer Zusammenfassung, auftreten, kann eine Gewichtungsfunktion angewandt werden. Die Rohrelevanzpunktzahlen werden daraufhin auf eine Skala von 1 bis 100 normiert, und die Dokumente werden nach abnehmenden Relevanzpunktzahlen aufgelistet. In Fig. 3 ist eine Anzeige von Dokumentensuchergebnissen gemäß einer einfachen Relevanzrangfolge auf der Benutzerschnittstelle 30 gezeigt.
  • Wie oben bemerkt wurde, besteht das erste Verfahren bei dem Data-Mining-Prozeß darin, Dokumente, die "tote" oder ungültige URL-Einträge aufweisen, aus der Liste von Ergebnissen zu entfernen. Zu diesem Zeitpunkt werden auch doppelte Einträge entfernt. Wie man in Fig. 3 sehen kann, wurde ein doppelter Auftretensfall des Dokuments "ABQjournal" zu einem einzigen Auftretensfall auf der Ergebnisliste komprimiert. Die Tatsache, daß dieser Eintrag einen doppelten Auftretensfall aufwies, wird dadurch bewiesen, daß HotBot unter der Spalte "Maschine" zweimal aufgeführt wird. Bei dieser Verarbeitungsstufe wird ferner eine einfache Relevanzpunktzahl für die Anzeige berechnet (unter der Spalte "Punktzahl" in Fig. 3 gezeigt), und die Suchergebnisse werden gemäß ihrer einfachen Relevanzpunktzahl in absteigender Reihenfolge aufgeführt.
  • Die einfache Relevanzpunktzahl kann wie folgt berechnet werden. Für jedes Dokument wird die Anzahl von Malen, die jeder Suchbegriff gefunden wird, gezählt und tabellarisiert. Falls in bezug auf die Suche nach "menschlichem Myoglobin" in einem bestimmten Dokument dreimal "menschlich" und fünfmal "Myoglobin" vorkommt, erhält dieses Dokument eine anfängliche Punktzahl von acht. Als nächstes wird der Titel des Dokuments, wie er durch den Ergebnis-Parser bzw. Ergebnis-Syntaxanalysator der vorliegenden Erfindung aufgebaut ist (im Gegensatz zu dem offiziellen HTML-Titel) bezüglich derselben Suchbegriffe geparst bzw. syntaktisch analysiert. Jeder Auftretensfall in dem Titel zählt als ein gewichteter Wert (beispielsweise ein Wert von zehn, obwohl eine Gewichtung sicherlich variiert werden kann, so daß sie einen anderen Wert annimmt), da erwartet wird, daß, wenn ein Suchbegriff in dem Titel erscheint, eine höhere Wahrscheinlichkeit besteht, daß das Dokument für die Suche relevant ist. Um bei dem Beispiel zu bleiben: Wenn das beschriebene Dokument einen Auftretensfall von "Myoglobin" enthielte, wäre die Gesamtpunktzahl für das Dokument achtzehn (8 + 10). Die Punktzahlen für jedes Dokument werden daraufhin normiert, so daß die maximale Punktzahl für die Gesamtsuche "100" beträgt und so daß die Punktzahlen zwischen "0" und "100" rangieren. Eine Normierung wird dadurch bewerkstelligt, daß einfach die maximale Punktzahl ermittelt wird und daraufhin jede Punktzahl mal (100/maximale Punktzahl) multipliziert wird.
  • Die oben bereitgestellte Technik der Relevanzpunktzahlvergabe ist lediglich ein Beispiel eines einfachen Berechnens von Statistiken in bezug auf die identifizierten Dokumente als eine Möglichkeit, eine Relevanz für die von dem Suchenden gewünschten Informationen "vorherzusagen". Bei diesem Prozeß könnten eine Anzahl von verschiedenen statistischen und/oder Gewichtungsschemata verwendet werden, und die vorliegende Erfindung ist nicht auf das bereitgestellte spezifische Beispiel beschränkt. Ferner können viele Metriken verwendet werden, um mehr als eine Möglichkeit bereitzustellen, eine Rangfolge in bezug auf Relevanz zu erstellen, und anschließend kann dem Benutzer die Gelegenheit gegeben werden, die Dokumentergebnisse dadurch zu sortieren, daß er eine Metrik auswählt, die er für die bestimmte Suche am geeignetsten hält. Selbstverständlich muß man sich nicht allein auf die zuerst gewählte Metrik stützen, sondern sie könnte durch ein Auswählen und Sortieren gemäß einer anderen Metrik mit anderen verglichen werden.
  • Die nächste Phase des Data-Mining-Verfahrens beinhaltet das Clustern von ähnlichen Dokumenten in Gruppen oder Clustern. Eine breitangelegte Suche, die grundverschiedene Sites/Datenbanken, wie sie hierin beschrieben sind, durchsucht, kann Ergebnisse liefern, die ein Benutzer nicht erwarten würde, beispielsweise die hierin identifizierten "Kannibalismus"-Dokumente, wenn der Begriff "menschliches Myoglobin" gesucht wird. In einer solchen Situation ist ein Clustern eine effektive Art und Weise, solche Dokumente in einer Gruppe zu ordnen, so daß man sich ihrer gleichzeitig annehmen kann. Es wird ein einfaches Dokument- Clusterverfahren durchgeführt, während dessen Dokumente auf der Basis eines nicht-überwachten Clusterns gruppiert oder geclustert werden, wobei Dokumente gemäß der Ähnlichkeit des Inhalts ohne jegliche andere Intervention gruppiert werden. Auf einem hohen Niveau wird zunächst ein Ähnlichkeitsmaß definiert, um zu bewerten, wie ähnlich ein Dokumentenpaar ist. Ein Beispiel eines Ähnlichkeitsmaßes ist die Annäherungspunktzahl "Sij" (nachstehend definiert), obwohl auch andere Algorithmen zur Verwendung als Ähnlichkeitsmaß substituiert werden können.
  • Es werden auch kundenspezifische Stopwortlisten bereitgestellt, die speziell auf die spezifische Site, die durchsucht wird, zugeschnitten sind. Ein Beispiel dessen würde das Wort "Sequenz" als ein Stopwort für die beim Suchen einer Sequenzdatenbank verwendete kundenspezifische Stopwortliste umfassen, da dieses Wort in einer solchen Datenbank allgegenwärtig ist und einen relativ geringen Diskriminierungswert aufweist, da bereits bekannt ist, daß sich alle oder im wesentlichen alle der in einer solchen Datenbank zu durchsuchenden Dokumente auf Sequenzen beziehen. Andererseits kann das Wort "Sequenz" einen beträchtlichen Diskriminierungswert aufweisen, wenn eine generische Site durchsucht wird, und wäre daher nicht in der kundenspezifischen Stopwortliste enthalten, auf die man sich bezieht, wenn man beispielsweise Google™ durchsucht.
  • Die vorliegende Erfindung kann automatisch Stopwortlisten, die auf jede Site zugeschnitten sind, erstellen, indem sie site-spezifische Stopwörter identifiziert und diese Wörter in jeweiligen Sites vor einem Clustern der Dokumente aus den Dokumenten entfernt. Eine Technik für eine solche automatische Erstellung beinhaltet eine Aufstellung einer Liste von Wörtern, die für jede Site spezifisch sind, wobei jedes Wort in der Liste ein Wort ist, das in allen bei dieser bestimmten Site gefundenen Dokumenten enthalten ist. Die zugrundeliegende Annahme für die Schlußfolgerung, daß diese Wörter Stopwörter für diese Site sind, besteht darin, daß sie für diese Site keinen Diskriminierungswert aufweisen, da alle von dieser Site wiedererlangten Dokumente diese bestimmten Wörter enthalten. Oft erscheinen diese Wörter in den Überschriften oder Links auf der Seite der Suchmaschine. Da sich diese Wörter ändern können, wenn die Suchmaschinensite modifiziert wird, oder sich sogar für verschiedene auf derselben unmodifizierten Site durchgeführte Suchen ändern können, kann zum Zwecke eines besseren Maßschneiderns von Ergebnissen eine automatische Erstellung der Stopwörter, die für jede Anfrage "während des Betriebs" ("on the fly") erzeugt werden, vorgesehen sein. Diese Stopwörter werden verwendet, um site-spezifische Wörter und Wörter mit einem geringen Diskriminierungswert aus Dokumenten, die von jeder Suchmaschinensite wiedererlangt werden, herauszufiltern. Die Begriffe, die in einem Dokument vorhanden sind (nachdem die Stopwörter entfernt wurden), werden daraufhin verwendet, um die Annäherungspunktzahlen zwischen den Dokumenten zu berechnen.
  • Nachdem das Ähnlichkeitsmaß definiert wurde, kann eine Anzahl von verschiedenen Techniken verwendet werden, um die Dokumente zu clustern (z. B. partitionsmäßiges Clustern, hierarchisches Clustern usw.). Bei einem Beispiel wird eine als hierarchisches Gruppendurchschnittsverknüpfungs- Clustern bezeichnete Technik verwendet. Gemäß dieser Technik wird jedes Dokument zunächst in ein individuelles Cluster plaziert, so daß die Gesamtanzahl von anfänglichen Clustern gleich der Gesamtanzahl von Dokumenten ist. Daraufhin wird unter Verwendung eines Ähnlichkeitsmaßes (beispielsweise einer Annäherungspunktzahl) auf einer Cluster- Für-Cluster-Basis ein Vergleich durchgeführt, um zu bestimmen, welche Cluster die ähnlichsten sind, wie dies durch die höchste Ähnlichkeit oder Annäherungspunktzahl bestimmt wird. Nachdem zwei Cluster zu einem einzigen Cluster kombiniert wurden (wie bei einem Bilden eines Clusters, das in der ersten Runde des Verfahrens zwei Dokumente aufweist), werden die Ähnlichkeits- oder Annäherungspunktzahlen jedes anderen Clusters bezüglich des neu erzeugten Clusters unter Verwendung der Gruppendurchschnittsähnlichkeitspunktzahl oder Annäherungspunktzahl neu berechnet. Es sei darauf hingewiesen, daß mit jeder neuen "Runde" oder "Stufe" ein neues Cluster aus zwei zuvor existierenden Clustern, die in bezug aufeinander die höchste Ähnlichkeits- oder Annäherungspunktzahl aufweisen, erzeugt wird. Falls beispielsweise ein Cluster "i" mit einem Cluster "j" in der derzeitigen Runde zu einem Cluster "k" kombiniert wird, wird somit während einer Neuberechnung von Annäherungspunktzahlen die Annäherungspunktzahl zwischen dem vorab existierenden Cluster "l" und dem neu gebildeten Cluster "k" durch ein Berechnen des Durchschnitts der Annäherungspunktzahl des Clusters "i" bezüglich des Clusters "l" und des Clusters "j" bezüglich des Clusters "l" bestimmt und durch die Anzahl von Begriffen im Cluster "i" und im Cluster "j" gewichtet. Der Clustering-Prozeß setzt sich Runde für Runde fort, bis ein Stopzustand erreicht ist, der eine vorbestimmte Annäherungspunktzahlgrenze, eine vorbestimmte Anzahl von endgültigen Clustern oder dergleichen sein kann.
  • Im nachfolgenden wird ein Algorithmus beschrieben, der durch das Data-Mining-Modul für das Clustering-Verfahren gemäß der oben beschriebenen Gruppendurchschnittsverknüpfungstechnik verwendet werden kann. Eine die Entfernung zwischen zwei Dokumenten "i" und "j" darstellende Annäherungspunktzahl Sij kann wie folgt berechnet werden:

    Sij = 2 × (1/2 - N(Ti,Tj)/(N(Ti) + N(Tj));

    wobei
    Ti ein Begriff im Dokument i ist;
    Tj ein Begriff im Dokument j ist;
    N(TiTj) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
    N(Ti) die Anzahl von im Dokument i gefundenen Begriffen ist; und
    N(Tj) die Anzahl von Begriffen im Dokument j ist.
  • Durch ein Normieren der Punktzahlen, wie oben beschrieben, weisen identische Dokumente (d. h. zwei Dokumente, die alle Begriffe gemeinsam haben) eine Annäherungsentfernung von null (0) auf, während vollständig orthogonale Dokumente (d. h. die keine Begriffe gemeinsam haben) eine Annäherungspunktzahl von eins (1) aufweisen. Das hierarchischen Clustering-Verfahren kann ausgeführt werden, bis alle Dokumente in ein Cluster fallen. Um die Ergebnisse des hierarchischen Clusterns zu betrachten, kann durch den Benutzer ein Stoppunkt eingestellt werden, um den Status der Ergebnisse des hierarchischen Clusterns bei jeder beliebigen Runde oder Stufe im Verlauf des Verarbeitens, d. h. nach dem Beginn des Clustering-Prozesses, jedoch bevor alle Dokumente zu einem einzigen Cluster zusammengefaßt wurden, anzuzeigen. Somit kann ein Stoppunkt für eine vorab eingestellte Anzahl von Clustern eingestellt werden, oder wenn die Annäherungspunktzahlen größer als oder gleich einem gewissen vordefinierten Wert zwischen null und eins werden. Es können Kombinationen von Stoppunkten eingestellt werden, derart, daß eine Anzeige von Clustern immer dann auftritt, wenn der erste Stoppunkt erreicht ist.
  • Ein Beispiel eines Clusters ist in Fig. 4 auf der Benutzerschnittstelle 30 angezeigt. Bei diesem Beispiel identifiziert Cluster 3 eine Gruppe von ähnlichen Dokumenten, die bei der oben beschriebenen Suche nach "menschlichem Myoglobin" identifiziert wurden und die sich alle auf Funde der Substanz in archäologischen Ausgrabungen beziehen, die darauf hinweisen, daß die Anasazi-Indianer Kannibalismus praktiziert haben könnten. Durch ein Clustern dieser Dokumente um dieses bestimmte Thema herum können alle Dokumente, die sich auf Kannibalismus im Anasazi-Stamm beziehen, zusammen untersucht werden, und können, falls sie nicht besonders relevant sind, auf effiziente Weise von einem weiteren Durchsuchen ausgeschlossen werden. Falls dieses Thema andererseits von Interesse ist, werden alle sich auf das Thema beziehenden Dokumente zum Zweck einer Wiedererlangung und eines Durchsuchens zweckmäßigerweise gruppiert, ohne den Rest der Daten durchsuchen zu müssen.
  • Fig. 5 zeigt dasselbe in Fig. 4 identifizierte Cluster, aber in Baumhierarchie angezeigt. Die Baumhierarchie- Anzeigeform ermöglicht es dem Benutzer, sich noch eingehender mit Clustern zu befassen, um zu sehen, welche Dokumente innerhalb eines Clusters am engsten in Beziehung stehen. Während die in Fig. 4 gezeigte "Listen"-Ansichtsform von Clustern eine willkürliche Grenze bezüglich dessen, wo das Cluster zu definieren ist, darstellt, indem die Baumstruktur (Fig. 5) der zugrundeliegenden Clusterhierarchie navigiert wird, müssen solche Grenzen nicht durchgeführt werden. Wenn geeignete Daten auf der Benutzerschnittstelle angezeigt werden, kann der Benutzer daraufhin bestimmen, welche Dokumente eine enge Verwandtschaft aufweisen und welche nicht. Der Nachteil der Baumhierarchie besteht darin, daß sie langweiliger zu navigieren sein kann, was die Probleme, die einem Navigieren einer großen Anzahl von Suchergebnissen inhärent sind, in gewisser Weise verschlimmert. Diese Ansichtsform gibt dem Benutzer jedoch eine weitere Option an die Hand und ist manchmal vorteilhafter als die Verwendung des Listen-Formats.
  • Eine Dokumentenklassifiziererfunktion kann ebenfalls beinhaltet sein, derart, daß das Data-Mining-Modul 20 die Dokumente gemäß vordefinierten Kategorien, beispielsweise "Veröffentlichungen", "Nachrichten", "Produktinformationen", "Sequenzen" und "Vermischtes" usw. klassifiziert. Gemäß diesem Klassifikationsschema konsultiert das Data-Mining- Modul 20 eine Liste von Wörtern für jede Kategorie, wobei die Listen Wörter enthalten, die für die untersuchte Kategorie spezifisch sind. Die Listen von Wörtern, die für jede Kategorie spezifisch sind, können entweder manuell erstellt oder automatisch extrahiert werden, wobei die Wörter in jeder Liste für die jeweilige Kategorie, für die sie verwendet wird, spezifisch sind. Die automatische Erstellung wird unter Verwendung eines Trainingssatzes von Dokumenten, die kategorisiert wurden, durchgeführt, so daß jedes Dokument eine bekannte Kategorie aufweist. Eine Liste von Wörtern, die die am stärksten unterscheidenden unter den vordefinierten Kategorien sind, wird daraufhin aus dem Trainingssatz bezüglich jeder Kategorie identifiziert, und ein automatisiertes Verfahren wählt die Wortlisten automatisch aus dem Trainingssatz aus. Die Wörter, die "am stärksten unterscheiden", sind diejenigen, die dadurch identifiziert werden, daß sie im Vergleich zu wenigen Auftretensfällen in anderen Kategorien in einer Kategorie am häufigsten auftreten. Das Lernen der Wortlisten kann inkremental erfolgen, indem die vorherige Wortliste für eine gegebene Kategorie, die sich hieraus ergebende Kategorisierung und die Benutzerrückmeldung bezüglich der Genauigkeit der Kategorisierung eines Satzes von Dokumenten ausgewählt wird, um jeweils die Liste von unterscheidenden Wörtern für jede Kategorie zu erstellen.
  • Auf der Basis der Auftrittshäufigkeit jedes Wortes in der Wortliste der spezifizierten Kategorie wird eine Punktzahl für jedes Rohdokument, das zu einer spezifischen Kategorie gehören soll, berechnet. Das Dokument wird in die Kategorie kategorisiert, die die höchste Punktzahl erhält. Falls die Anzahl von einmaligen Wörtern in dem Dokument, die zu jenen passen, die in der Liste für die Kategorie vorhanden sind, die die höchste Punktzahl erhält, weniger als eine Schwelle (kategoriespezifische Schwelle, die durch den Benutzer geliefert sein kann) beträgt, wird das Dokument in die Kategorie Vermischtes klassifiziert. Die Reihenfolge, in der die Kategorisierung erfolgt, ist nicht kritisch. Bei dem oben bereitgestellten Beispiel waren alle auf Kannibalismus bezogene Dokumente "Nachrichten"-Berichte und wurden durch den Kategorisierungsalgorithmus als "Nachrichten" zusammengruppiert.
  • Fig. 6 zeigt eine Bildschirmanzeige auf der Benutzerschnittstelle 30, die die Suchdokumente gemäß Kategorien auflistet. Obwohl in Fig. 6 nur Dokumente gezeigt sind, die in der Kategorie "Nachrichten" gruppiert sind, wäre der Benutzer in der Lage, ohne weiteres auf die anderen Kategorien von Dokumenten (z. B. "Veröffentlichungen", "Nachrichten", "Produktinformationen", "Sequenzen" und "Vermischtes") zuzugreifen, indem er mit der Seitenrolleiste 32 nach oben oder nach unten rollt bzw. scrollt.
  • Nachdem die Data-Mining-Verfahren für ein einfaches Erstellen einer Relevanzrangfolge, ein Clustern (Liste und Baum) und eine Kategorisierung wie oben beschrieben durchgeführt wurden, werden die Ergebnisse der sich unterscheidenden und durch diese Data-Mining-Verfahren erstellten organisatorischen Ansichtsformen der Daten auf eine Auswahl der entsprechenden Taste aus der Tastenleiste 34 hin auf der Benutzerschnittstelle 30 angezeigt (siehe Fig. 2 bis 6). Somit ist ein Benutzer in der Lage, zu wählen, daß Suchergebnisse in einem der zur Verfügung stehenden Formate, d. h. einfache Relevanz, geclustert (Listen- oder Baumformat), kategorisiert, präsentiert werden, indem er einfach die Taste für das gewünschte Format wählt, zusätzlich zu der Rohdatenansicht für jede Site, die anfänglich bereitgestellt wird, wie oben beschrieben ist. Die Auswahlen können in einer beliebigen Reihenfolge durchgeführt werden, und der Benutzer kann es sinnvoll finden, mehr als ein Format zu durchsuchen, um eine Identifizierung der relevantesten Informationen zu unterstützen.
  • Fig. 7 zeigt eine Anzeige auf der Benutzerschnittstelle 30 eines weiteren Merkmals, das bei der vorliegenden Erfindung verwendet werden kann. Ein Anfrageverfeinerungsmerkmal kann bereitgestellt sein, um eine Anfrage innerhalb einer Anfrage effektiv durchzuführen. Falls ein Benutzer beispielsweise zuvor drei oder vier Suchen in bezug auf "menschliches Myoglobin" durchgeführt hat, können die Ergebnisse dieser Suchen jeweils in einer lokalen Datenbank gespeichert werden. Die gespeicherten Suchen können in einem Seitenfenster 36 angezeigt werden, wie in Fig. 7 und 8 gezeigt ist. Die Rohergebnisansicht und die internen Datenstrukturen, die dem gesamten Ergebnissatz entsprechen, werden in der lokalen Datenbank gespeichert. Beim Wiederherstellen der Daten aus der lokalen Datenbank werden die Rangfolge-, Clustering- und Kategorisierungsgruppierungen neu berechnet.
  • Eine Unteranfrage oder Anfrageverfeinerung kann dann während einer anschließenden verwandten Suche durchgeführt werden, um Ergebnisse aus den gespeicherten Ergebnissen der vorherigen Suchen zu erhalten. Das Data-Mining-Modul 20 kann Ergebnisse aus der Anfrageverfeinerung auf dieselben Weisen, wie sie oben erörtert wurden, verarbeiten. Da die Unteranfrage nur voraussichtlich relevante Informationen sucht und da die Suche lediglich in einer internen Datenbank durchgeführt wird, kann diese Suche potentiell sehr relevante Informationen innerhalb sehr kurzer Zeit ergeben.
  • Als weiteres Merkmal kann in dem vorliegenden System ein Suchergebnisse-Sammelbrowser enthalten sein, wie in Fig. 7 und 8 gezeigt ist, bei dem ein integrierter Rahmen 38 auf der Benutzerschnittstelle 30 einen zusätzlichen Rahmen (in diesem Fall einen Internet-Explorer-Rahmen) in die Systemanwendung (in diesem Fall eine Java-Anwendung) stellt, um alle stattfindenden Browser-Ereignisse zu betrachten. Der Suchergebnisse-Sammelbrowser umfaßt einen Relevanzrückmeldemechanismus, der das Durchsuchen analysiert, um zu bestimmen, mit welchem Dokument der Benutzer die meiste Zeit verbringt, um zu lernen, wie relevante Dokumente aussehen. Selbstverständlich ist der Begriff "relevante Dokumente" hier durch den Geschmack und die Bedürfnisse des Benutzers definiert, und wenn ein Suchender im Verlauf einiger oder vieler Suchen dazu tendiert, auf einem bestimmten wissenschaftlichen Gebiet zu suchen, beginnt der Relevanzrückmeldemechanismus, wiederkehrende Browsing-Themen und Zeiten, die mit ähnlichen Dokumenten verbracht werden, zuzuordnen. Somit kann durch den Suchergebnisse-Sammelbrowser auf der Basis der historischen Präferenzen des Benutzers ein differenzierterer Gewichtungsalgorithmus entwickelt werden, der als ein Gewichtungsfaktor auf Dokumente angewandt wird, die in einer gegenwärtigen Suche und Data- Mining-Operation in eine Rangfolge gebracht werden.
  • Der Suchergebnisse-Sammelbrowser lernt durch ein Beobachten von Browsing-Gewohnheiten, wenn das hierin beschriebene Metasuch- und Data-Mining-System verwendet werden. Die Browsing-Informationen und die Informationen bezüglich der verbrachten Zeit werden daraufhin verwendet, um eine anschließende Relevanz für Suchergebnisse vorauszusagen. In dem Suchergebnisse-Sammelbrowser sind Haken bzw. Programmeinstiegsmöglichkeiten vorgesehen, so daß, wenn ein Benutzer ein Dokument zur Untersuchung anklickt oder auf andere Weise auswählt, das Dokument in dem Fenster des Suchergebnisse-Sammelbrowsers erscheint, und die Haken überwachen, wieviel Zeit der Benutzer auf das Betrachten dieses Dokuments verwendet. Die "Haken" werden durch ein Einbetten eines Internet-Explorer-Rahmens in die Anwendung bereitgestellt, die als ein "Vorschaurahmen" 38 zu verwenden ist. Der Internet-Explorer legt Schnittstellen frei, die aufgerufen werden können, um immer dann, wenn der Benutzer bestimmte Aktionen durchführt, beispielsweise eine bestimmte Seite zum Betrachten öffnet, eine Benachrichtigung bereitzustellen. Durch eine solche Benachrichtigung kann die vorliegende Erfindung verfolgen, wie lange eine Seite in dem Vorschaurahmen 38 angezeigt wird und wie stark der Benutzer mit ihr interagiert.
  • Die vorliegende Erfindung überwacht jegliche Aktion, bei der der Benutzer auf einen Bereich des Vorschaurahmens 38 klickt oder ihn zieht, wobei diese Aktionen zum Beispiel ein Zugreifen auf Scrolleisten, Abrufmenüs, interne Hyperlinks oder sogar ein Klicken auf eine inaktive Stelle der HTML-Seite umfassen. Die Zeitspanne und die Häufigkeit, in bzw. mit der der Benutzer dieses Fenster (beispielsweise durch Klicken oder Ziehen) "berührt", kann daraufhin als Maßzahl seines Interesses an der Seite verwendet werden. Falls der Benutzer auf ein Hyperlink klickt, um eine neue Seite, auf die durch die in der Vorschau betrachtete Seite Bezug genommen wurde, zu starten, wird die neue Seite in einem externen Fenster gestartet, das optional verfolgt werden kann, standardmäßig jedoch nicht verfolgt wird. Je mehr Zeit oder Aktivität auf ein bestimmtes Dokument verwandt wird, desto schwerer ist der Gewichtungsfaktor, der bei einer zukünftigen Suche auf dieses Dokument angewandt wird. Mit der Zeit erhöht sich die Zuverlässigkeit dieses Typs von Gewichtungsfaktor, da er beim Vorhersagen der Dokumenttypen, nach denen der Benutzer in der Regel sucht, genauer wird.
  • Alternativ oder zusätzlich dazu kann der Suchergebnisse- Sammelbrowser auch Browsing-Gewohnheiten auf einer sitespezifischen Basis überwachen, speichern und analysieren. Falls ein Benutzer beispielsweise 80% der Suchzeit darauf verwendet, auf Dokumente in einer bestimmten Sequenzdatenbank zuzugreifen, kann Dokumenten, die in einer späteren Suche aus dieser bestimmten Datenbank identifiziert werden, mehr Gewicht verliehen werden.
  • In bezug auf einen weiteren Aspekt, der mit dem Suchergebnisse-Sammelbrowser bereitgestellt werden kann, kann der Suchergebnisse-Sammelbrowser den Inhalt des Dokuments, das der Benutzer ansieht, untersuchen und versuchen, zu bestimmen, ob der Inhalt relevant ist. Beispielsweise kann der Suchergebnisse-Sammelbrowser versuchen, zu bestimmen, ob sich das Gesamtthema oder der Gesamtinhalt des bestimmten Dokuments darauf bezieht, was der Benutzer derzeit sucht, oder ob es bzw. er ähnlich dem Inhalt von Dokumenten ist, die gesucht werden. Ein Entfernungsmaß wie beispielsweise dasjenige, das oben in bezug auf die Clustering-Funktion beschrieben wurde, kann hier ebenfalls verwendet werden. In einer solchen Situation vergleicht der Suchergebnisse- Sammelbrowser das vorliegende Dokument, das der Benutzer durchsucht, mit dem gespeicherten Inhalt aller Dokumente in den früheren Suchen, die aus vergangenen Suchen gespeichert wurden, um zu bestimmen, ob etwaige andere Dokumente mit dem vorliegenden Dokument relevant sein könnten, um ein Cluster zu bilden.

Claims (54)

1. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen und domain-relevante Suchmaschinen (12, 14, 16, 18, 19) zuzugreifen;
Empfangen einer Anfrage, die durch einen Benutzer in die Metasuchmaschine (10) eingegeben wird, und Suchen nach Dokumenten in einem ausgewählten Satz der generischen webbasierten Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19), die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Anzeigen der Rohdaten auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) Cluster von verwandten Dokumenten gemäß einem nicht-überwachten Clustering-Verfahren bildet; und
Anzeigen der Cluster verwandter Dokumente auf der Benutzerschnittstelle (30).
2. Verfahren gemäß Anspruch 1, bei dem das durch das Data-Mining-Modul (20) durchgeführte nicht-überwachte Clustering-Verfahren eine Gruppendurchschnittsverknüpfungstechnik verwendet, um relative Entfernungen zwischen Dokumenten zu bestimmen.
3. Verfahren gemäß Anspruch 2, bei dem die Gruppendurchschnittsverknüpfungstechnik den folgenden Algorithmus zum Bestimmen einer Annäherungspunktzahl, die die relativen Entfernungen zwischen Dokumenten definiert, verwendet:

Sij = 2 × (1/2 - N (Ti,Tj)/(N(Ti) + N(Tj));

wobei
Ti ein Begriff im Dokument i ist;
Tj ein Begriff im Dokument j ist;
N(TiTj) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(Ti) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(Tj) die Anzahl von Begriffen im Dokument j ist.
4. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem das Data-Mining-Modul (20) auf ein Empfangen der Rohdaten hin die Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren verarbeitet und eine einzige Liste aller Dokumente erstellt, nachdem Dokumente, die nicht über das Web erreichbar sind, eliminiert wurden.
5. Verfahren gemäß Anspruch 4, bei dem das Data-Mining- Modul (20) den in der einzigen Liste erstellten Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente erscheinen, einfache Relevanzpunktzahlen zuweist.
6. Verfahren gemäß Anspruch 5, bei dem die Dokumente in der einzigen Liste in einer Reihenfolge aufgeführt sind, die von einer höchsten der einfachen Relevanzpunktzahlen bis zu einer niedrigsten der einfachen Relevanzpunktzahlen reicht.
7. Verfahren gemäß einem der Ansprüche 1 bis 6, das ferner den Schritt des Bereitstellens von kundenspezifischen Stopwortlisten aufweist, die bezüglich der generischen webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) verwendet werden sollen, wobei das Data-Mining-Modul (20) auf die Stopwortlisten Bezug nimmt, um Stopwörter aus Dokumenten herauszuziehen, die einer jeweiligen generischen, webbasierten Maschine oder domain-relevanten Maschine zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen der Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente erscheinen, und einem Berechnen einer Ähnlichkeitspunktzahl zwischen den Ergebnissen.
8. Verfahren gemäß Anspruch 7, bei dem der Schritt des Bereitstellens von kundenspezifisch ausgelegten Stopwortlisten den Schritt des Bereitstellens von vordefinierten kundenspezifisch ausgelegten Stopwortlisten umfaßt.
9. Verfahren gemäß Anspruch 7 oder 8, bei dem der Schritt des Bereitstellens von kundenspezifisch ausgelegten Stopwortlisten den Schritt des automatischen Erstellens von Stopwortlisten, die für jede Anfrage vorbereitet und kundenspezifisch ausgelegt werden, umfaßt.
10. Verfahren gemäß einem der Ansprüche 5 bis 9, das ferner den Schritt des Anzeigens der einzigen Liste auf der Benutzerschnittstelle (30) aufweist.
11. Verfahren gemäß einem der Ansprüche 1 bis 10, bei dem das Data-Mining-Modul (20) auf ein Empfangen der Rohdaten hin die Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren verarbeitet und die Dokumente so kategorisiert, daß jedes Dokument einer einer vorbestimmten Anzahl von Kategorien zugewiesen wird.
12. Verfahren gemäß Anspruch 11, das ferner den Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien umfaßt, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind, und wobei das Data-Mining-Modul (20) die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument vergleicht, um zu bestimmen, ob das Dokument in dieser jeweiligen Kategorie klassifiziert ist.
13. Verfahren gemäß Anspruch 12, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des Bereitstellens vordefinierter Listen umfaßt.
14. Verfahren gemäß Anspruch 12 oder 13, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des automatischen Erzeugens der Wortlisten, die aus einem Satz von Trainingsdokumenten erstellt wurden, umfaßt.
15. Verfahren gemäß Anspruch 14, bei dem jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort auf der Basis einer Funktion identifiziert ist, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für die es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien berechnet wird.
16. Verfahren gemäß einem der Ansprüche 12 bis 15, bei dem der Schritt des Bereitstellens einer Liste von Wörtern für jede der Kategorien den Schritt des automatischen Erzeugens der Wortlisten, die durch ein inkrementales Training unter Verwendung von zuvor ausgewählten Listen von Wörtern und entsprechenden Kategorien sowie einer Benutzerrückmeldung in bezug auf die Kategorisierung mindestens eines der Dokumente erstellt werden, umfaßt.
17. Verfahren gemäß einem der Ansprüche 11 bis 16, bei dem die Dokumente auf einen Abschluß der Kategorisierung der Dokumente hin in einem kategorisierten Format auf der Benutzerschnittstelle (30) angezeigt werden.
18. Verfahren gemäß einem der Ansprüche 1 bis 17, bei dem die Metasuchmaschine (10) ferner in der Lage ist, auf firmeneigene, geschlossene Datenbanken und beliebige andere Informationsdatenbanken zuzugreifen, die in einen CGI-basierten Webanwendungsserver eingehüllt sein können.
19. Verfahren gemäß einem der Ansprüche 1 bis 18, das ferner folgende Schritte aufweist:
Anzeigen einer Liste der generischen Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19) auf der Benutzerschnittstelle (30), die für ein Suchen zur Verfügung stehen; und
Empfangen einer Auswahl der gesamten oder eines Teils der Liste von dem Benutzer zum Ausrichten der Anfrage auf dieselbe.
20. Verfahren gemäß Anspruch 19, das ferner den Schritt des Bereitstellens eines Kontext-Menüs aufweist, durch das ein Benutzer eine Gruppe von Suchsites oder -maschinen (12, 14, 16, 18, 19) durch Auswählen eines einzelnen Kontexteintrags auswählen kann.
21. Verfahren gemäß Anspruch 20, bei dem das Kontext-Menü mindestens eine der Voreinstellungen, die aus der Gruppe ausgewählt ist, die aus einer Veröffentlichungen-Voreinstellung, die mehr als eine Veröffentlichungen-Site auswählt, aus einer Sequenzen-Voreinstellung, die mehr als eine Sequenzen-Site auswählt, aus einer Voreinstellung generischer, webbasierter Suchmaschinen, die mehr als eine generische, webbasierte Suchmaschine auswählt, aus einer Proteinstrukturdatenbanken- Voreinstellung, die mehr als eine Proteinstrukturdatenbank auswählt, und aus einer Übertragungsweginformationsdatenbank-Voreinstellung, die mehr als eine Übertragungsweginformationsdatenbank auswählt, besteht.
22. Verfahren gemäß einem der Ansprüche 1 bis 21, bei dem die Dokumente aus textbasierten Daten bestehen.
23. Verfahren gemäß einem der Ansprüche 1 bis 22, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 1, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Speichern mindestens entweder der Rohdaten oder der Cluster, die aus dem zusätzlichen Such- und Data- Mining-Verfahren erhalten wurden;
Empfangen einer durch einen Benutzer in die Metasuchmaschine (10) eingegebenen Unteranfrage und Suchen nach Dokumenten aus den Daten, die durch die bezüglich vorheriger Suchen durchgeführten Speicherschritte gespeichert sind; die für die Unteranfrage relevant sind;
Abrufen von Rohdaten-Unteranfrage-Suchergebnissen in Form von Textdokumenten aus den gespeicherten Daten;
Anzeigen der Rohdaten-Unteranfrage-Suchergebnisse auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten-Unteranfrage-Suchergebnisse an das Data-Mining-Modul (20), wobei das Data-Mining- Modul (20) Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering-Verfahren bildet;
Anzeigen der Cluster verwandter Dokumente, die sich aus der Unteranfragesuche ergeben, auf der Benutzerschnittstelle (30).
24. Verfahren gemäß einem der Ansprüche 1 bis 23, das ferner folgende Schritte aufweist:
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.
25. Verfahren gemäß Anspruch 24, bei dem der Relevanzgewichtungsfaktor auf ein bestimmtes Dokument anwendbar ist, das während des Analysierschrittes durchsucht wurde.
26. Verfahren gemäß Anspruch 24 oder 25, bei dem der Relevanzgewichtungsfaktor auf eine Site oder Suchmaschine (12, 14, 16, 18, 19) anwendbar ist, aus der ein bestimmtes Dokument, das während des Analysierschrittes durchsucht wurde, abgerufen wurde.
27. Verfahren gemäß einem der Ansprüche 24 bis 26, bei dem der Relevanzgewichtungsfaktor auf ein Cluster anwendbar ist, in dem ein bestimmtes Dokument, das während des Analysierschritts durchsucht wurde, gruppiert ist.
28. Verfahren gemäß einem der Ansprüche 24 bis 27, bei dem der Relevanzgewichtungsfaktor auf eine Kategorie anwendbar ist, in der ein bestimmtes Dokument, das während des Analysierschritts durchsucht wurde, kategorisiert ist.
29. Verfahren gemäß einem der Ansprüche 1 bis 28, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 1, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der ausgehend von der zusätzlichen Suche angezeigten Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden, wobei der Analysierschritt den Schritt des Vergleichens der Dokumente, die durchsucht werden, mit den gespeicherten Daten umfaßt; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.
30. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites, Proteinstrukturdatenbanken und Übertragungsweginformationsdatenbanken zuzugreifen;
Empfangen einer Anfrage, die durch einen Benutzer in die Metasuchmaschine (10) eingegeben wird, und Suchen nach Dokumenten in einem ausgewählten Satz der generischen, webbasierten Suchmaschinen, Veröffentlichungssites, Sequenzen-Sites, Proteinstrukturdatenbanken und Übertragungsweginformationsdatenbanken, die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Anzeigen der Rohdaten-Suchergebnisse auf einer Benutzerschnittstelle (30);
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) eine einzige Liste aller Dokumente erstellt, nachdem Dokumente, die nicht über das Web erreichbar sind, eliminiert wurden, und den in der einzigen Liste erstellten Dokumenten einfache Relevanzpunktzahlen zuweist; Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering- Verfahren bildet; und die Dokumente so kategorisiert, daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
Anzeigen der Dokumente in einem durch die einzige Liste definierten Format, in einem durch die Cluster definierten Format und in einem durch die Kategorien definierten Format auf der Benutzerschnittstelle (30), so daß ein Benutzer auswählen kann, die Dokumente gemäß dem Listen-Format, dem Cluster-Format oder dem Kategorien-Format zu durchsuchen.
31. Verfahren zum Durchführen einer domain-spezifischen Metasuche und zum Erhalten von Suchergebnissen aus derselben, wobei das Verfahren folgende Schritte aufweist:
Bereitstellen einer Metasuchmaschine (10), die in der Lage ist, auf generische, webbasierte Suchmaschinen und domain-relevante Suchmaschinen (12, 14, 16, 18, 19) zuzugreifen;
Empfangen einer durch einen Benutzer in die Metasuchmaschine (10) eingegebenen Anfrage und Suchen nach Dokumenten in einem ausgewählten Satz der generischen, webbasierten Suchmaschinen und domain-relevanten Suchmaschinen (12, 14, 16, 18, 19), die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten aus jedem Element des ausgewählten Satzes;
Liefern der Rohdaten an ein Data-Mining-Modul (20), wobei das Data-Mining-Modul (20) Cluster verwandter Dokumente gemäß einem nicht-überwachten Clustering- Verfahren bildet und wobei das Data-Mining-Modul (20) die Dokumente kategorisiert, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
Anzeigen der Dokumente in einem durch die Cluster definierten Format und in einem durch die Kategorien definierten Format auf einer Benutzerschnittstelle (30), so daß ein Benutzer wählen kann, die Dokumente gemäß dem Cluster-Format oder dem Kategorien-Format zu durchsuchen.
32. Verfahren gemäß Anspruch 31, das ferner folgende Schritte aufweist:
Speichern mindestens entweder der Rohdaten oder der Cluster;
Durchführen der Schritte gemäß Anspruch 31, um ein zusätzliches Such- und Data-Mining-Verfahren zu bewerkstelligen;
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus umfaßt;
Analysieren der ausgehend von der zusätzlichen Suche angezeigten Dokumente, während sie durch einen Benutzer auf der Benutzerschnittstelle (30) durchsucht werden, wobei der Analysierschritt den Schritt des Vergleichens der Dokumente, die durchsucht werden, mit den gespeicherten Daten umfaßt; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.
33. Computersystem zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen gemäß einer Benutzeranfrage und zum Erhalten organisierter Suchergebnisse daraus, wobei das System folgende Merkmale aufweist:
eine Metasuchmaschine (10), die in der Lage ist, auf eine Mehrzahl von Sites zuzugreifen, einschließlich generischer, webbasierter Suchmaschinen und domain- relevanter Suchmaschinen (12, 14, 16, 18, 19), zum Empfangen von Dokumenten von der Mehrzahl von Sites als Antwort auf die Benutzeranfrage;
eine Einrichtung zum Auswählen bestimmter Suchmaschinen aus einer Mehrzahl generischer, webbasierter Suchmaschinen und domain-relevanter Suchmaschinen (12, 14, 16, 18, 19), die einem Benutzer präsentiert werden;
eine Einrichtung zum Anzeigen der empfangenen Dokumente gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der empfangenen Dokumente von der Mehrzahl von Sites, die durch die ausgewählten bestimmten Suchmaschinen (12, 14, 16, 18, 19) durchsucht wurden, zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den empfangenen Dokumenten in der einzigen Liste und zum Organisieren der Dokumente in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Dokumente zu Clustern gemäß einem nicht-überwachten Clustering-Verfahren;
und eine Einrichtung zum Anzeigen der einzigen Liste und der Cluster gegenüber dem Benutzer.
34. Computersystem gemäß Anspruch 33, bei dem die Einrichtung zum Zuweisen der Relevanzrangfolgen die Relevanzrangfolge auf der Basis einer Auftrittshäufigkeit von Anfragebegriffen in jedem der empfangenen Dokumente zuweist.
35. Computersystem gemäß Anspruch 33 oder 34, das ferner folgendes Merkmal aufweist:
eine Einrichtung zum Bereitstellen von kundenspezifisch ausgelegten Stopwortlisten, die bezüglich der generischen, webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) verwendet werden sollen, wobei die Einrichtung zum Zuweisen von Relevanzrangfolgen auf die Stopwortlisten Bezug nimmt, um Stopwörter aus Dokumenten herauszuziehen, die einer jeweiligen Maschine zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen einer Häufigkeit von Begriffen, die in jedem der Dokumente erscheinen, und wobei die Begriffe verwendet werden, um Ähnlichkeitspunktzahlen zwischen den Dokumenten zu bestimmen.
36. Computersystem gemäß einem der Ansprüche 33 bis 35, bei dem das durch die Einrichtung zum Clustern durchgeführte nicht-überwachte Clustering-Verfahren eine Gruppendurchschnittsverknüpfungstechnik verwendet, um relative Entfernungen zwischen Dokumenten zu bestimmen.
37. Computersystem gemäß Anspruch 36, bei dem die Gruppendurchschnittsverknüpfungstechnik den folgenden Algorithmus zum Bestimmen einer Annäherungspunktzahl, die die relativen Entfernungen zwischen Dokumenten definiert, verwendet:

Sij = 2 × (1/2 - N(Ti,Tj)/(N(Ti) + N(Tj) +

wobei
Ti ein Begriff im Dokument i ist;
Tj ein Begriff im Dokument j ist;
N(TiTj) die Anzahl von gleichzeitig auftretenden Begriffen ist, die die Dokumente i und j gemeinsam haben;
N(Ti) die Anzahl von im Dokument i gefundenen Begriffen ist; und
N(Tj) die Anzahl von Begriffen im Dokument j ist.
38. Computersystem gemäß einem der Ansprüche 33 bis 37, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Kategorisieren der empfangenen Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Kategorien und der denselben zugewiesenen Dokumente gegenüber dem Benutzer.
39. Computersystem gemäß Anspruch 38, das ferner eine Einrichtung zum Speichern einer Liste von Wörtern für jede der Kategorien aufweist, wobei die Wörter in jeder Liste für die jeweilige Kategorie spezifisch sind und wobei die Einrichtung zum Kategorisieren die Wörter in einer bestimmten Liste mit einem zu charakterisierenden Dokument vergleicht, um zu bestimmen, ob das Dokument in dieser bestimmten Kategorie klassifiziert ist.
40. Computersystem gemäß Anspruch 38 oder 39, das ferner eine Einrichtung zum Bereitstellen einer vordefinierten Liste von Wörtern für jede der Kategorien aufweist.
41. Computersystem gemäß einem der Ansprüche 38 bis 40, das ferner eine Einrichtung zum automatischen Erstellen einer Wortliste für jede der Kategorien aufweist.
42. Computersystem gemäß Anspruch 41, bei dem die Wortlisten aus einem Satz von Trainingsdokumenten erstellt sind.
43. Computersystem gemäß Anspruch 41 oder 42, bei dem jedes für die Erstellung der Wortlisten automatisch ausgewählte Wort auf der Basis einer Funktion identifiziert ist, die aus einer Auftrittshäufigkeit des Wortes in der bestimmten Kategorie, für die es ausgewählt wurde, relativ zu einer Auftrittshäufigkeit des Wortes in den anderen existierenden Kategorien berechnet wird.
44. Verfahren gemäß einem der Ansprüche 41 bis 43, bei dem die Wortlisten durch ein inkrementales Training unter Verwendung von zuvor ausgewählten Listen von Wörtern und entsprechenden Kategorien sowie einer Benutzerrückmeldung in bezug auf die Kategorisierung mindestens eines der in mindestens einer der Kategorien enthaltenen Dokumente erstellt werden.
45. Computersystem gemäß einem der Ansprüche 33 bis 44, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Speichern der empfangenen Dokumente;
eine Einrichtung zum Durchführen einer durch einen Benutzer eingegebenen Unteranfrage, um nach durch die Einrichtung zum Speichern gespeicherten Dokumenten zu suchen, die für die Unteranfrage relevant sind;
eine Einrichtung zum Abrufen von Rohdaten- Unteranfrage-Suchergebnissen in Form von Textdokumenten aus der Einrichtung zum Speichern;
eine Einrichtung zum Anzeigen der Rohdaten- Unteranfrage-Suchergebnisse gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der Rohdaten- Unteranfrage-Suchergebnisse zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den Rohdaten-Unteranfrage-Suchergebnissen und zum Organisieren der Ergebnisse in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Unteranfragedokumente zu Clustern gemäß einem nicht- überwachten Clustering-Verfahren;
und eine Einrichtung zum Anzeigen der Unteranfragedokumente gegenüber dem Benutzer in der einzigen Liste und in Cluster-Formaten.
46. Computersystem gemäß einem der Ansprüche 33 bis 45, das ferner folgendes Merkmal aufweist:
einen Browser, der einen Relevanzrückmeldemechanismus aufweist, der ausgelegt ist, um die Dokumente zu analysieren, während sie durch einen Benutzer auf einer Benutzerschnittstelle (30) durchsucht werden; und um auf der Basis von sich aus der Analyse ergebenden Beobachtungen einen Relevanzgewichtungsfaktor zu erzeugen.
47. Computersystem zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen gemäß einer Benutzeranfrage und zum Erhalten organisierter Suchergebnisse daraus, wobei das System folgende Merkmale aufweist:
eine Metasuchmaschine (10), die in der Lage ist, auf eine Mehrzahl von Sites zuzugreifen, einschließlich generischer, webbasierter Suchmaschinen und domain- relevanter Suchmaschinen (12, 14, 16, 18, 19), zum Empfangen von Dokumenten von der Mehrzahl von Sites als Antwort auf die Benutzeranfrage;
eine Einrichtung zum Auswählen bestimmter Suchmaschinen aus einer Mehrzahl generischer, webbasierter Suchmaschinen und domain-relevanter Suchmaschinen (12, 14, 16, 18, 19), die einem Benutzer präsentiert werden;
eine Einrichtung zum Clustern der empfangenen Dokumente zu Clustern gemäß einem nicht-überwachten Clustering-Verfahren;
eine Einrichtung zum Kategorisieren der empfangenen Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Cluster, der Kategorien und der denselben zugewiesenen Dokumenten gegenüber dem Benutzer.
48. Computersystem gemäß Anspruch 47, das ferner folgende Merkmale aufweist:
eine Einrichtung zum Anzeigen der empfangenen Dokumente gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der empfangenen Dokumente aus der Mehrzahl von Sites zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den empfangenen Dokumenten in der einzigen Liste und zum Organisieren der Dokumente in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Speichern der empfangenen Dokumente; und
eine Einrichtung zum Durchführen einer durch einen Benutzer eingegebenen Unteranfrage, um nach durch die Einrichtung zum Speichern gespeicherten Dokumenten zu suchen, die für die Unteranfrage relevant sind;
eine Einrichtung zum Abrufen von Rohdaten- Unteranfrage-Suchergebnissen in Form von Textdokumenten aus der Einrichtung zum Speichern;
eine Einrichtung zum Anzeigen der Rohdaten- Unteranfrage-Suchergebnisse gegenüber dem Benutzer;
eine Einrichtung zum Zusammenfügen der Rohdaten- Unteranfrage-Suchergebnisse zu einer einzigen Liste;
eine Einrichtung zum Zuweisen von Relevanzrangfolgen zu den Rohdaten-Unteranfrage-Suchergebnissen und zum Organisieren der Ergebnisse in der einzigen Liste gemäß den Relevanzrangfolgen;
eine Einrichtung zum Clustern der empfangenen Unteranfragedokumente zu Clustern gemäß einem nicht- überwachten Clustering-Verfahren;
eine Einrichtung zum Kategorisieren der empfangenen Unteranfragedokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist; und
eine Einrichtung zum Anzeigen der Unteranfragedokumente gegenüber dem Benutzer in dem Einzige-Liste-, dem Kategorien- und dem Cluster-Format.
49. Computersystem gemäß Anspruch 47 oder 48, das ferner folgendes Merkmal aufweist:
einen Browser, der einen Relevanzrückmeldemechanismus aufweist und ausgelegt ist, um die Dokumente zu analysieren, während sie durch einen Benutzer auf einer Benutzerschnittstelle (30) durchsucht werden, und um auf der Basis von sich aus der Analyse ergebenden Beobachtungen einen Relevanzgewichtungsfaktor zu erzeugen.
50. Computerlesbares Medium, das eine oder mehrere Sequenzen von Anweisungen von einem Benutzer eines Computersystems zum gleichzeitigen Suchen sowohl allgemeiner als auch domain-spezifischer Informationsressourcen, um organisierte Suchergebnisse daraus zu erhalten, trägt, wobei eine Ausführung der einen oder mehreren Sequenzen von Anweisungen durch einen oder mehrere Prozessoren bewirkt, daß der eine oder die mehreren Prozessoren folgende Schritte durchführt beziehungsweise durchführen:
Empfangen einer durch den Benutzer eingegebenen Anfrage und Empfangen von Anweisungen, auf welche Datenbanken zugegriffen werden soll;
Zugreifen auf ausgewählte Sites unter Verwendung von generischen, webbasierten Suchmaschinen und domain- relevanten Suchmaschinen (12, 14, 16, 18, 19) auf der Basis der von dem Benutzer empfangenen Anweisungen, und Suchen nach Dokumenten auf den ausgewählten Sites, die für die Anfrage relevant sind;
Abrufen von Rohdaten-Suchergebnissen in Form von Textdokumenten von jeder der ausgewählten Sites;
Anzeigen der Rohdaten auf einer Benutzerschnittstelle (30);
Bilden von Clustern verwandter Dokumente aus den Rohdaten gemäß einem nicht-überwachten Clustering- Verfahren; und
Anzeigen der Cluster verwandter Dokumente auf der Benutzerschnittstelle (30).
51. Computerlesbares Medium gemäß Anspruch 50, bei dem die folgenden weiteren Schritte durchgeführt werden:
Erstellen einer einzigen Liste aller der Dokumente unabhängig von den sich bildenden Clustern nach einem Eliminieren von Dokumenten, die nicht über das Web erreichbar sind; und
Zuweisen von einfachen Relevanzpunktzahlen zu den in der einzigen Liste erstellten Dokumenten auf der Basis einer Häufigkeit von Begriffen aus der Anfrage, die in jedem der Dokumente auftreten.
52. Computerlesbares Medium gemäß Anspruch 51, bei dem der folgende weitere Schritt durchgeführt wird:
Bereitstellen von kundenspezifisch ausgelegten Stopwortlisten, die bezüglich der generischen, webbasierten Suchmaschinen, Veröffentlichungssites und Sequenzen-Sites verwendet werden sollen, und Bezug nehmen auf die Stopwortlisten, zum Herausziehen von Stopwörtern aus Dokumenten, die einer jeweiligen Maschine, Veröffentlichungssite oder Sequenzen-Site zugeordnet sind, für die die jeweilige Stopwortliste, auf die Bezug genommen wird, kundenspezifisch ausgelegt wurde, vor einem Bestimmen der Häufigkeit von Begriffen, die in jedem der Dokumente erscheinen, und Verwenden der Begriffe, um Ähnlichkeitspunktzahlen zwischen den Dokumenten zum Clustern der Dokumente zu errechnen.
53. Computerlesbares Medium gemäß einem der Ansprüche 50 bis 52, bei dem die folgenden weiteren Schritte durchgeführt werden:
Verarbeiten der Rohdaten unabhängig von dem nicht- überwachten Clustering-Verfahren und Kategorisieren der Dokumente, so daß jedes Dokument einer einer vordefinierten Anzahl von Kategorien zugewiesen ist.
54. Computerlesbares Medium gemäß einem der Ansprüche 50 bis 53, bei dem die folgenden weiteren Schritte durchgeführt werden:
Bereitstellen eines Browsers, der einen Relevanzrückmeldemechanismus aufweist;
Analysieren der Dokumente, während sie durch den Benutzer durchsucht werden; und
Erzeugen eines Relevanzgewichtungsfaktors auf der Basis von sich aus dem Analysierschritt ergebenden Beobachtungen.
DE10231161A 2001-05-09 2002-07-10 Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben Withdrawn DE10231161A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US28992701P 2001-05-09 2001-05-09
US10/033,823 US6920448B2 (en) 2001-05-09 2001-12-19 Domain specific knowledge-based metasearch system and methods of using

Publications (1)

Publication Number Publication Date
DE10231161A1 true DE10231161A1 (de) 2003-11-20

Family

ID=26710166

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10231161A Withdrawn DE10231161A1 (de) 2001-05-09 2002-07-10 Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben

Country Status (2)

Country Link
US (1) US6920448B2 (de)
DE (1) DE10231161A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007128530A2 (de) * 2006-05-05 2007-11-15 Giesecke & Devrient Gmbh Verfahren und vorrichtung zum personalisieren von karten

Families Citing this family (284)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437351B2 (en) * 1997-01-10 2008-10-14 Google Inc. Method for searching media
EP1266507B1 (de) * 2000-03-17 2004-06-02 America Online, Inc. Heimnetz
US7062561B1 (en) 2000-05-23 2006-06-13 Richard Reisman Method and apparatus for utilizing the social usage learned from multi-user feedback to improve resource identity signifier mapping
US7062488B1 (en) * 2000-08-30 2006-06-13 Richard Reisman Task/domain segmentation in applying feedback to command control
FR2818848B1 (fr) * 2000-12-26 2004-05-14 France Telecom Systeme de gestion d'informations en temps reel, pour un reseau comportant un ensemble heterogene de terminaux, serveur et terminal principal pour un tel systeme
US7249018B2 (en) 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7519605B2 (en) 2001-05-09 2009-04-14 Agilent Technologies, Inc. Systems, methods and computer readable media for performing a domain-specific metasearch, and visualizing search results therefrom
US7272594B1 (en) * 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7146409B1 (en) * 2001-07-24 2006-12-05 Brightplanet Corporation System and method for efficient control and capture of dynamic database content
US20030055914A1 (en) * 2001-08-01 2003-03-20 Izuru Tanaka Communication apparatus and method, recording medium, program, and content providing apparatus
EP1283466A1 (de) * 2001-08-06 2003-02-12 Hewlett-Packard Company (a Delaware corporation) Clustermanagementsystem
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US20030115188A1 (en) * 2001-12-19 2003-06-19 Narayan Srinivasa Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US9418204B2 (en) * 2002-01-28 2016-08-16 Samsung Electronics Co., Ltd Bioinformatics system architecture with data and process integration
US8527495B2 (en) * 2002-02-19 2013-09-03 International Business Machines Corporation Plug-in parsers for configuring search engine crawler
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
US20050074756A1 (en) * 2002-03-01 2005-04-07 Cooper Garth James Smith FALP proteins
US7567953B2 (en) * 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US20040078225A1 (en) * 2002-03-18 2004-04-22 Merck & Co., Inc. Computer assisted and/or implemented process and system for managing and/or providing continuing healthcare education status and activities
USRE45952E1 (en) * 2002-03-29 2016-03-29 Google Inc. Method for searching media
US9684676B1 (en) 2002-03-29 2017-06-20 Google Inc. Method for searching media
US7409404B2 (en) * 2002-07-25 2008-08-05 International Business Machines Corporation Creating taxonomies and training data for document categorization
US7383339B1 (en) 2002-07-31 2008-06-03 Aol Llc, A Delaware Limited Liability Company Local proxy server for establishing device controls
US20040049514A1 (en) * 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US20040068514A1 (en) * 2002-10-04 2004-04-08 Parvathi Chundi System and method for biotechnology information access and data analysis
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US20040083213A1 (en) * 2002-10-25 2004-04-29 Yuh-Cherng Wu Solution search
US20040083205A1 (en) * 2002-10-29 2004-04-29 Steve Yeager Continuous knowledgebase access improvement systems and methods
US8543564B2 (en) * 2002-12-23 2013-09-24 West Publishing Company Information retrieval systems with database-selection aids
US20040143644A1 (en) * 2003-01-21 2004-07-22 Nec Laboratories America, Inc. Meta-search engine architecture
US7958443B2 (en) 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US20040172374A1 (en) * 2003-02-28 2004-09-02 Forman George Henry Predictive data mining process analysis and tool
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US20040243552A1 (en) * 2003-05-30 2004-12-02 Dictaphone Corporation Method, system, and apparatus for viewing data
US8290958B2 (en) * 2003-05-30 2012-10-16 Dictaphone Corporation Method, system, and apparatus for data reuse
GB0309174D0 (en) * 2003-04-23 2003-05-28 Stevenson David W System and method for navigating a web site
US7219090B2 (en) * 2003-04-25 2007-05-15 Overture Services, Inc. Method and system for blending search engine results from disparate sources into one search result
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
US7756750B2 (en) 2003-09-02 2010-07-13 Vinimaya, Inc. Method and system for providing online procurement between a buyer and suppliers over a network
US20050060278A1 (en) * 2003-09-17 2005-03-17 International Business Machines Corporation Method and arrangement of grammar files in a presentation list
US7860717B2 (en) * 2003-09-25 2010-12-28 Dictaphone Corporation System and method for customizing speech recognition input and output
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US7542909B2 (en) * 2003-09-30 2009-06-02 Dictaphone Corporation Method, system, and apparatus for repairing audio recordings
US8024176B2 (en) * 2003-09-30 2011-09-20 Dictaphone Corporation System, method and apparatus for prediction using minimal affix patterns
US7818308B2 (en) * 2003-10-01 2010-10-19 Nuance Communications, Inc. System and method for document section segmentation
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
US20050144184A1 (en) * 2003-10-01 2005-06-30 Dictaphone Corporation System and method for document section segmentation
US7996223B2 (en) * 2003-10-01 2011-08-09 Dictaphone Corporation System and method for post processing speech recognition output
US20050097089A1 (en) * 2003-11-05 2005-05-05 Tom Nielsen Persistent user interface for providing navigational functionality
WO2005067474A2 (en) * 2003-11-17 2005-07-28 Bloomberg Lp Legal research system
US20050144158A1 (en) * 2003-11-18 2005-06-30 Capper Liesl J. Computer network search engine
US8200487B2 (en) 2003-11-21 2012-06-12 Nuance Communications Austria Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US20050114317A1 (en) * 2003-11-26 2005-05-26 Bhide Manish A. Ordering of web search results
GB0327589D0 (en) * 2003-11-27 2003-12-31 Ibm Searching in a computer network
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7451131B2 (en) * 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US20060230040A1 (en) * 2003-12-08 2006-10-12 Andy Curtis Methods and systems for providing a response to a query
WO2005057368A2 (en) * 2003-12-08 2005-06-23 Iac Search & Media, Inc. Methods and systems for conceptually organizing and presenting information
US8036931B2 (en) * 2003-12-19 2011-10-11 International Business Machines Corporation Process and heuristic statistic for prospect selection through data mining
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US20050160080A1 (en) * 2004-01-16 2005-07-21 The Regents Of The University Of California System and method of context-specific searching in an electronic database
US7346613B2 (en) * 2004-01-26 2008-03-18 Microsoft Corporation System and method for a unified and blended search
US7257571B2 (en) * 2004-01-26 2007-08-14 Microsoft Corporation Automatic query clustering
US7852997B2 (en) * 2004-01-28 2010-12-14 Managed Inventions, Llc Internet telephony communications adapter for web browsers
US7814085B1 (en) * 2004-02-26 2010-10-12 Google Inc. System and method for determining a composite score for categorized search results
US7822598B2 (en) * 2004-02-27 2010-10-26 Dictaphone Corporation System and method for normalization of a string of words
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US7716216B1 (en) * 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
US7379946B2 (en) * 2004-03-31 2008-05-27 Dictaphone Corporation Categorization of information using natural language processing and predefined templates
US7562069B1 (en) 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
WO2006011819A1 (en) * 2004-07-30 2006-02-02 Eurekster, Inc. Adaptive search engine
WO2006027973A1 (ja) * 2004-09-07 2006-03-16 Interman Corporation 情報検索提供装置および情報検索提供システム
US20060059135A1 (en) * 2004-09-10 2006-03-16 Eran Palmon Conducting a search directed by a hierarchy-free set of topics
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
US8065316B1 (en) 2004-09-30 2011-11-22 Google Inc. Systems and methods for providing search query refinements
US20060085401A1 (en) * 2004-10-20 2006-04-20 Microsoft Corporation Analyzing operational and other data from search system or the like
US8335753B2 (en) * 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
US7571157B2 (en) * 2004-12-29 2009-08-04 Aol Llc Filtering search results
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
CA2592577A1 (en) * 2004-12-29 2006-07-06 America Online, Inc. Routing queries to information sources and sorting and filtering query results
EP1839124A4 (de) * 2005-01-18 2009-12-30 Yahoo Inc Vergleich und einordnung gesponserter suchlisten mit web-suchtechnologie und web-inhalten
US7921365B2 (en) 2005-02-15 2011-04-05 Microsoft Corporation System and method for browsing tabbed-heterogeneous windows
US20060253409A1 (en) * 2005-03-04 2006-11-09 Nokia Corporation Method, apparatus and computer program product providing local service discovery with browser search
WO2006096838A1 (en) * 2005-03-09 2006-09-14 Medio Systems, Inc. Method and system for content search with mobile computing devices
EP1861800A1 (de) * 2005-03-09 2007-12-05 Medio Systems, Inc. Verfahren und system zur abgabe von geboten zur werbungsplatzierung auf rechnervorrichtungen
US9836729B2 (en) * 2005-03-11 2017-12-05 Microsoft Technology Licensing, Llc Media software navigation with conditional links
US9424563B2 (en) 2005-03-11 2016-08-23 Microsoft Technology Licensing, Llc Accessing medial context information using contextual links
US20060212142A1 (en) * 2005-03-16 2006-09-21 Omid Madani System and method for providing interactive feature selection for training a document classification system
US8468445B2 (en) * 2005-03-30 2013-06-18 The Trustees Of Columbia University In The City Of New York Systems and methods for content extraction
US7734644B2 (en) * 2005-05-06 2010-06-08 Seaton Gras System and method for hierarchical information retrieval from a coded collection of relational data
US8832055B1 (en) 2005-06-16 2014-09-09 Gere Dev. Applications, LLC Auto-refinement of search results based on monitored search activities of users
US20060288001A1 (en) * 2005-06-20 2006-12-21 Costa Rafael Rego P R System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
WO2007005682A2 (en) * 2005-07-05 2007-01-11 Dictaphone Corporation System and method for auto-reuse of document text
US20070016580A1 (en) * 2005-07-15 2007-01-18 International Business Machines Corporation Extracting information about references to entities rom a plurality of electronic documents
WO2007011841A2 (en) 2005-07-15 2007-01-25 Indxit Systems, Inc. Systems and methods for data indexing and processing
US8255408B1 (en) * 2005-08-26 2012-08-28 At&T Intellectual Property Ii, L.P. System and method for categorizing long documents
US7991758B2 (en) * 2005-09-07 2011-08-02 International Business Machines Corporation System and method for performing a search operation within a sequential access data storage subsystem
US8433711B2 (en) * 2005-09-09 2013-04-30 Kang Jo Mgmt. Limited Liability Company System and method for networked decision making support
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US8311888B2 (en) 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US9201979B2 (en) 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US20070060114A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Predictive text completion for a mobile communication facility
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US8364540B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US7603360B2 (en) 2005-09-14 2009-10-13 Jumptap, Inc. Location influenced search results
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US20070198485A1 (en) * 2005-09-14 2007-08-23 Jorey Ramer Mobile search service discovery
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US8433297B2 (en) 2005-11-05 2013-04-30 Jumptag, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US20070061198A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile pay-per-call campaign creation
US7548915B2 (en) * 2005-09-14 2009-06-16 Jorey Ramer Contextual mobile content placement on a mobile communication facility
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
US7647285B2 (en) * 2005-11-04 2010-01-12 Microsoft Corporation Tools for health and wellness
US7406453B2 (en) * 2005-11-04 2008-07-29 Microsoft Corporation Large-scale information collection and mining
US20070112597A1 (en) * 2005-11-04 2007-05-17 Microsoft Corporation Monetizing large-scale information collection and mining
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US8095876B1 (en) * 2005-11-18 2012-01-10 Google Inc. Identifying a primary version of a document
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US20070156671A1 (en) * 2005-12-30 2007-07-05 Yip Kai K K Category search for structured documents
US10600090B2 (en) * 2005-12-30 2020-03-24 Google Llc Query feature based data structure retrieval of predicted values
CN100481077C (zh) * 2006-01-12 2009-04-22 国际商业机器公司 用于增强搜索结果导航的可视化方法及装置
WO2007084852A2 (en) * 2006-01-18 2007-07-26 Roxse, Llc Systems and methods for providing sorted search results
CN101529418A (zh) * 2006-01-19 2009-09-09 维里德克斯有限责任公司 用于获取、分析和挖掘数据和信息的系统和方法
US7644373B2 (en) 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20070179853A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Allocating rebate points
US20070179849A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Ad publisher performance and mitigation of click fraud
US20070179845A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Merchant rankings in ad referrals
KR100755704B1 (ko) * 2006-02-07 2007-09-05 삼성전자주식회사 방송 컨텐츠 녹화 및 검색을 위한 필터링 인터페이스 제공방법 및 장치
US20070203891A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Providing and using search index enabling searching based on a targeted content of documents
US20070214119A1 (en) * 2006-03-07 2007-09-13 Microsoft Corporation Searching within a Site of a Search Result
US7676464B2 (en) * 2006-03-17 2010-03-09 International Business Machines Corporation Page-ranking via user expertise and content relevance
US20070216098A1 (en) * 2006-03-17 2007-09-20 William Santiago Wizard blackjack analysis
US8214360B2 (en) * 2006-04-06 2012-07-03 International Business Machines Corporation Browser context based search disambiguation using existing category taxonomy
US20070239682A1 (en) * 2006-04-06 2007-10-11 Arellanes Paul T System and method for browser context based search disambiguation using a viewed content history
US20070266036A1 (en) * 2006-05-15 2007-11-15 Microsoft Corporation Unbounded Redundant Discreet Fact Data Store
US8135709B2 (en) * 2006-07-05 2012-03-13 BNA (Llesiant Corporation) Relevance ranked faceted metadata search method
US8135708B2 (en) * 2006-07-05 2012-03-13 BNA (Llesiant Corporation) Relevance ranked faceted metadata search engine
US8635214B2 (en) * 2006-07-26 2014-01-21 International Business Machines Corporation Improving results from search providers using a browsing-time relevancy factor
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8117197B1 (en) 2008-06-10 2012-02-14 Surf Canyon, Inc. Adaptive user interface for real-time search relevance feedback
US7685201B2 (en) * 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
US20080071797A1 (en) * 2006-09-15 2008-03-20 Thornton Nathaniel L System and method to calculate average link growth on search engines for a keyword
US7707208B2 (en) 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US8442972B2 (en) 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US7707198B2 (en) * 2006-12-12 2010-04-27 Yahoo! Inc. Harvesting of media objects from searched sites without a user having to enter the sites
US20080147635A1 (en) * 2006-12-13 2008-06-19 Il Im System, apparatus and method for providing weight to information gathering engine according to situation of user and computer readable medium processing the method
US7908260B1 (en) 2006-12-29 2011-03-15 BrightPlanet Corporation II, Inc. Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems
US8073850B1 (en) 2007-01-19 2011-12-06 Wordnetworks, Inc. Selecting key phrases for serving contextually relevant content
US20080183691A1 (en) * 2007-01-30 2008-07-31 International Business Machines Corporation Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content
US8930247B1 (en) 2007-01-31 2015-01-06 Financialsharp, Inc. System and methods for content-based financial decision making support
US7653618B2 (en) 2007-02-02 2010-01-26 International Business Machines Corporation Method and system for searching and retrieving reusable assets
US7912847B2 (en) * 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
US7904958B2 (en) * 2007-02-27 2011-03-08 Symantec Corporation Spam honeypot domain identification
US7705847B2 (en) 2007-03-05 2010-04-27 Oracle International Corporation Graph selection method
CN100433018C (zh) * 2007-03-13 2008-11-12 白云 电子文档与某一领域相关程度的判别方法及其应用
US8005823B1 (en) 2007-03-28 2011-08-23 Amazon Technologies, Inc. Community search optimization
US7698344B2 (en) * 2007-04-02 2010-04-13 Microsoft Corporation Search macro suggestions relevant to search queries
US8041709B2 (en) * 2007-05-25 2011-10-18 Microsoft Corporation Domain collapsing of search results
US20080313166A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Research progression summary
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
AU2008286192B2 (en) * 2007-08-06 2014-04-10 Mls Technologies Pty Ltd Method and/or system for searching network content
US8352511B2 (en) * 2007-08-29 2013-01-08 Partnet, Inc. Systems and methods for providing a confidence-based ranking algorithm
KR20100084510A (ko) * 2007-09-12 2010-07-26 레퓨테이션디펜더, 인코포레이티드 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치
KR20090033728A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 컨텐트 요약 정보 제공 방법 및 그 장치
CN101159967B (zh) * 2007-10-29 2011-08-31 中国移动通信集团设计院有限公司 一种将路测数据用于传播模型校正的方法及装置
US8954430B1 (en) * 2007-12-13 2015-02-10 Amazon Technologies, Inc. Persistent searches
US20090204593A1 (en) * 2008-02-11 2009-08-13 Yahoo! Inc. System and method for parallel retrieval of data from a distributed database
US20090228296A1 (en) * 2008-03-04 2009-09-10 Collarity, Inc. Optimization of social distribution networks
JP5156456B2 (ja) * 2008-03-31 2013-03-06 株式会社日立製作所 文書評価支援方法及びシステム
US20090271371A1 (en) * 2008-04-28 2009-10-29 Alan Levin Search customization by geo-located proxy of user segment
US20090276722A1 (en) * 2008-04-30 2009-11-05 Jonathan Segel Method and apparatus for dual mode content searching, selection, delivery, and playout
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
US20090327224A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation Automatic Classification of Search Engine Quality
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US8180771B2 (en) * 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US8818978B2 (en) 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US20100125809A1 (en) * 2008-11-17 2010-05-20 Fujitsu Limited Facilitating Display Of An Interactive And Dynamic Cloud With Advertising And Domain Features
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US8161028B2 (en) * 2008-12-05 2012-04-17 International Business Machines Corporation System and method for adaptive categorization for use with dynamic taxonomies
US10007729B1 (en) 2009-01-23 2018-06-26 Zakta, LLC Collaboratively finding, organizing and/or accessing information
US10191982B1 (en) 2009-01-23 2019-01-29 Zakata, LLC Topical search portal
US9607324B1 (en) 2009-01-23 2017-03-28 Zakta, LLC Topical trust network
TWI393018B (zh) * 2009-02-06 2013-04-11 Inst Information Industry 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體
US20100205183A1 (en) * 2009-02-12 2010-08-12 Yahoo!, Inc., a Delaware corporation Method and system for performing selective decoding of search result messages
US9836538B2 (en) * 2009-03-03 2017-12-05 Microsoft Technology Licensing, Llc Domain-based ranking in document search
AU2010276382A1 (en) * 2009-07-20 2012-02-09 Google Inc. Search result plusbox including restricted results
US8250056B2 (en) * 2009-10-15 2012-08-21 Dearborn John S Web-based decision matrix display
US9595039B2 (en) * 2009-12-30 2017-03-14 Motorola Solutions, Inc. Stimulus/response-based binding of identifiers across information domains while maintaining confidentiality
US8972540B2 (en) * 2009-12-30 2015-03-03 Motorola Solutions, Inc. Incenting divulgence of information for binding identifiers across information domains while maintaining confidentiality
US20110161472A1 (en) * 2009-12-30 2011-06-30 Motorola, Inc. Client-based binding of identifiers across information domains while maintaining confidentiality
US20110161474A1 (en) * 2009-12-30 2011-06-30 Motorola, Inc. Brokering information across information domains while maintaining confidentiality
US20110161473A1 (en) * 2009-12-30 2011-06-30 Motorola, Inc. Analytics-based binding of identifiers across information domains while maintaining confidentiality
US20110161340A1 (en) * 2009-12-31 2011-06-30 Honeywell International Inc. Long-term query refinement system
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US8762374B1 (en) 2010-03-08 2014-06-24 Emc Corporation Task driven context-aware search
US8429098B1 (en) 2010-04-30 2013-04-23 Global Eprocure Classification confidence estimating tool
KR101727040B1 (ko) * 2010-10-14 2017-04-14 엘지전자 주식회사 전자 장치 및 메뉴 제공 방법
US10068266B2 (en) 2010-12-02 2018-09-04 Vinimaya Inc. Methods and systems to maintain, check, report, and audit contract and historical pricing in electronic procurement
US9323833B2 (en) * 2011-02-07 2016-04-26 Microsoft Technology Licensing, Llc Relevant online search for long queries
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US8694335B2 (en) 2011-02-18 2014-04-08 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US8738403B2 (en) 2011-02-18 2014-05-27 Nuance Communications, Inc. Methods and apparatus for updating text in clinical documentation
US8788289B2 (en) 2011-02-18 2014-07-22 Nuance Communications, Inc. Methods and apparatus for linking extracted clinical facts to text
US9916420B2 (en) 2011-02-18 2018-03-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US8799021B2 (en) 2011-02-18 2014-08-05 Nuance Communications, Inc. Methods and apparatus for analyzing specificity in clinical documentation
US9679107B2 (en) 2011-02-18 2017-06-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US9589072B2 (en) 2011-06-01 2017-03-07 Microsoft Technology Licensing, Llc Discovering expertise using document metadata in part to rank authors
US20140172779A1 (en) * 2011-07-27 2014-06-19 Ray Tanushree Maintaining and utilizing a report knowledgebase
US8898164B1 (en) * 2011-11-17 2014-11-25 Quantcast Corporation Consumption history privacy
US10403403B2 (en) 2012-09-28 2019-09-03 Cerner Innovation, Inc. Adaptive medical documentation system
US9449095B1 (en) * 2012-12-31 2016-09-20 Google Inc. Revising search queries
US10424403B2 (en) * 2013-01-28 2019-09-24 Siemens Aktiengesellschaft Adaptive medical documentation system
US8793246B1 (en) * 2013-03-08 2014-07-29 Fmr Llc Identifying ranking scores for domains of interest
CN104050163B (zh) * 2013-03-11 2017-08-25 广州帷策智能科技有限公司 内容推荐系统
US9342795B1 (en) * 2013-06-05 2016-05-17 Emc Corporation Assisted learning for document classification
US10255363B2 (en) * 2013-08-12 2019-04-09 Td Ameritrade Ip Company, Inc. Refining search query results
WO2015093120A1 (ja) 2013-12-19 2015-06-25 三菱電機株式会社 グラフ生成装置、グラフ表示装置、グラフ生成プログラムおよびグラフ表示プログラム
US10146872B2 (en) * 2014-07-16 2018-12-04 Excalibur Ip, Llc Method and system for predicting search results quality in vertical ranking
CN104166683B (zh) * 2014-07-21 2018-10-12 安徽华贞信息科技有限公司 一种数据挖掘方法
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US11281639B2 (en) * 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US20180225378A1 (en) * 2017-02-06 2018-08-09 Flipboard, Inc. Boosting ranking of content within a topic of interest
US10643178B1 (en) 2017-06-16 2020-05-05 Coupa Software Incorporated Asynchronous real-time procurement system
US11017037B2 (en) * 2017-07-03 2021-05-25 Google Llc Obtaining responsive information from multiple corpora
US11269807B2 (en) * 2018-02-22 2022-03-08 Ford Motor Company Method and system for deconstructing and searching binary based vehicular data
US11188447B2 (en) * 2019-03-06 2021-11-30 International Business Machines Corporation Discovery of computer code actions and parameters
US11710330B2 (en) * 2019-07-02 2023-07-25 Microsoft Technology Licensing, Llc Revealing content reuse using coarse analysis
US11604799B1 (en) 2019-07-16 2023-03-14 Splunk Inc. Performing panel-related actions based on user interaction with a graphical user interface
US11636128B1 (en) 2019-07-16 2023-04-25 Splunk Inc. Displaying query results from a previous query when accessing a panel
US11644955B1 (en) * 2019-07-16 2023-05-09 Splunk Inc. Assigning a global parameter to queries in a graphical user interface
US11604789B1 (en) 2021-04-30 2023-03-14 Splunk Inc. Bi-directional query updates in a user interface
US11947528B1 (en) 2022-01-06 2024-04-02 Splunk Inc. Automatic generation of queries using non-textual input

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067552A (en) 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US6085186A (en) 1996-09-20 2000-07-04 Netbot, Inc. Method and system using information written in a wrapper description language to execute query on a network
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
US6275820B1 (en) 1998-07-16 2001-08-14 Perot Systems Corporation System and method for integrating search results from heterogeneous information resources
US6519586B2 (en) * 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US20020052692A1 (en) * 1999-09-15 2002-05-02 Eoin D. Fahy Computer systems and methods for hierarchical cluster analysis of large sets of biological data including highly dense gene array data
US7003484B2 (en) * 1999-12-30 2006-02-21 Ge Capital Commercial Finance, Inc. Methods and systems for efficiently sampling portfolios for optimal underwriting
CA2407974A1 (en) * 2000-03-16 2001-09-20 Poly Vista, Inc. A system and method for analyzing a query and generating results and related questions
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007128530A2 (de) * 2006-05-05 2007-11-15 Giesecke & Devrient Gmbh Verfahren und vorrichtung zum personalisieren von karten
WO2007128530A3 (de) * 2006-05-05 2008-03-20 Giesecke & Devrient Gmbh Verfahren und vorrichtung zum personalisieren von karten

Also Published As

Publication number Publication date
US20020169764A1 (en) 2002-11-14
US6920448B2 (en) 2005-07-19

Similar Documents

Publication Publication Date Title
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE69917250T2 (de) Merkmalübertragung über hyperlinks
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE60029863T2 (de) System um einer Gruppe von Benutzern Informationen über Dokumentenänderungen zu übermitteln
EP2100234B1 (de) System und verfahren zur benutzergesteuerten multidimensionalen navigation und/oder themenbasierten aggregation und/oder überwachung von multimediadaten
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
EP1311989B1 (de) Verfahren zur automatischen recherche
DE69833238T2 (de) System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung
DE60017727T2 (de) Suchwerkzeug und Prozess zum Suchen unter Benutzung von Kategorien und Schlüsselwörtern
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE10328833A1 (de) System und Verfahren für die Verwaltung einer Synonymsuche
DE10333530A1 (de) Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
EP1877932B1 (de) System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten
DE102007037646B4 (de) Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE102005051429A1 (de) Verfahren und Software zur Analyse von Forschungsveröffentlichungen
DE60030735T2 (de) Voraussage der realisierbarkeit eines verbindungsweges
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE10215495A1 (de) Computersystem und Verfahren für die Recherche, statistische Auswertung und Analyse von Dokumenten
EP1276056B1 (de) Verfahren zum Verwalten einer Datenbank
DE60037681T2 (de) Verfahren zum automatischen und gesicherten suchen von daten mit hilfe eines datenübertragungsnetzwerks
EP1697861A1 (de) System und verfahren zur aggregation und berwachung von dezentralisiert gespeicherten multimediadaten
EP1030254B1 (de) Verfahren und System zum Verwalten von Dokumenten
EP2193457A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: AGILENT TECHNOLOGIES, INC. (N.D.GES.D. STAATES, US

8139 Disposal/non-payment of the annual fee