DE10323444A1 - Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank - Google Patents

Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank

Info

Publication number
DE10323444A1
DE10323444A1 DE10323444A DE10323444A DE10323444A1 DE 10323444 A1 DE10323444 A1 DE 10323444A1 DE 10323444 A DE10323444 A DE 10323444A DE 10323444 A DE10323444 A DE 10323444A DE 10323444 A1 DE10323444 A1 DE 10323444A1
Authority
DE
Germany
Prior art keywords
pages
commercial
documents
page
categorizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10323444A
Other languages
English (en)
Inventor
Daniel C Fain
Paul T Ryan
Peter Savich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Altaba Inc
Original Assignee
Overture Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Overture Services Inc filed Critical Overture Services Inc
Publication of DE10323444A1 publication Critical patent/DE10323444A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure

Abstract

Beschrieben sind Verfahren zum Erzeugen von kategorisierten Dokumenten, Kategorisieren von Dokumenten in einer verteilten Datenbank und Kategorisieren von Resulting-Pages. Ferner ist beschrieben eine Vorrichtung zum Durchsuchen einer verteilten Datenbank. Das Verfahren zum Erzeugen von kategorisierten Dokumenten umfasst generell: anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind; Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie; Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie und Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren sämtlicher Dokumente des Typs 4 in einer dritten Kategorie. Die Vorrichtung zum Durchsuchen einer verteilten Datenbank umfasst generell mindestens eine Speichervorrichtung; eine Rechenvorrichtung, einen Indizierer; einen Transaktionsmarkierungsgenerator und einen Kategoriezuweiser, einen Suchserver und eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.

Description

    Hintergrund
  • Die Übertragung von Informationen über Computernetzwerke wurde zu einer immer wichtigeren Einrichtung, durch welche Institutionen, Firmen und einzelne Personen Geschäfte abwickeln. Computernetzwerke sind im Laufe der Jahre gewachsen von unabhängigen und isolierten Einheiten, eingerichtet zum Bedienen der Bedürfnisse einer einzelnen Gruppe, zu großen Zwischennetzen, welche verschiedenartige physische Netzwerke verbinden und diesen ermöglichen, als ein koordiniertes System zu arbeiten. Derzeit ist das größte existierende Computernetzwerk das Internet. Das Internet ist eine weltweite Verbindung von Computernetzwerken, welche kommunizieren unter Verwendung eines gemeinsamen Protokolls. Millionen von Computern, angefangen bei den Low-End-Personalcomputern bis hin zu den High-End-Personalcomputern, sind verbunden mit dem Internet.
  • Das Internet ist aufgetaucht als eine große Gemeinschaft von elektronisch verbundenen Benutzern, welche sich in der ganzen Welt befinden und einfach und regelmäßig große Mengen von Informationen austauschen. Das Internet bedient weiterhin seine ursprünglichen Zwecke eines Lieferns von Zugriff auf Informationen und eines Austauschs dieser Informationen unter Regierungsstellen, Labors und Universitäten für die Forschung und Bildung. Außerdem hat sich das Internet entwickelt zum Bedienen einer Vielheit von Interessen und Foren, welche über die ursprünglichen Ziele hinaus reichen. Insbesondere vollführt das Internet eine rasche Umwandlung zu einem globalen elektronischen Marktplatz von Gütern und Diensten sowie von Ideen und Informationen.
  • Diese Umwandlung des Internet zu einem globalen Marktplatz wurde zu einem großen Teil gefördert durch die Einführung eines gemeinsamen Protokolls, wie etwa HTTP (Hyper Text Transfer Protocol) und TCP/IP (Transmission Control Protocol/Internet Protocol) zum Ermöglichen des einfachen Veröffentlichens und Austauschs von Informationen. Das Internet ist somit eine einzigartige verteilte Datenbank, bestimmt zum Bieten eines breiten Zugriffs auf ein großes Universum von Dokumenten, welche von einer unbegrenzten Anzahl von Benutzern und Quellen veröffentlicht werden. Die Datenbanksätze des Internet befinden sich in der Form von Dokumenten, bekannt als "Pages" oder Sammlungen von Pages, bekannt als "Sites". Pages und Sites sind resident auf Servern und sind zugriffsfähig über die gemeinsamen Protokolle. Das Internet ist daher eine große Datenbank von Informationen, verteilt über scheinbar unzählige einzelne Computersysteme, welche sich konstant ändert und keine zentralisierte Organisation hat.
  • Computer, welche mit dem Internet verbunden sind, können zugreifen auf Pages über ein als Browser bekanntes Programm, welches eine leistungsfähige, einfach zu erlernende Benutzerschnittstelle, typischerweise grafisch hat, und jedem Computer, welcher mit dem Internet verbunden ist, ermöglicht, sowohl ein Veröffentlicher als auch ein Benutzer von Informationen zu sein. Eine weitere leistungsfähige Technik, welche ermöglicht wird durch Browser, ist bekannt als Hyperlinking, welches Page-Autoren ermöglicht, Links zu anderen Pages zu erzeugen, welche Benutzer dann auffinden können unter Verwendung einfacher Befehle, beispielsweise durch Hindeuten und Klicken innerhalb des Browsers. So existiert jede Page innerhalb einer Verknüpfung von semantisch zusammenhängender Pages, da jede Page sowohl ein Ziel als auch eine Quelle für ein Hyperlinking sein kann, und diese Konnektivität kann erfasst werden in einem gewissen Maß durch Abbilden und Vergleichen, wie diese Hyperlinks zueinander in Beziehung stehen. Außerdem können die Pages aufgebaut sein in einer beliebigen aus einer Vielzahl von Syntaxformen, wie etwa Hyper Text Markup Language (HTML) oder eXstensible Markup Language (XML), und können Multimediainformationsinhalt umfassen, wie etwa Grafik, Audio sowie stehende und bewegte Bilder.
  • Da jede Person mit einem Computer und einer Verbindung zum Internet ihre eigene Page auf dem Internet veröffentlichen kann sowie auf eine beliebige andere öffentlich zugängliche Page zugreifen kann, ermöglicht das Internet ein Viele-zu- Viele-Modell einer Informationsproduktion und Nutzung, welches in der Offlinewelt nicht möglich bzw. durchführbar ist. Effektive Suchdienste, einschließlich Suchmaschinen, sind ein wichtiger Teil des Viele-zu-Viele-Modells, welche es Informationsnutzern ermöglicht, schnell und zuverlässig relevante Pages zu identifizieren unter einer Masse von irrelevanter, jedoch ähnlicher Pages. Infolge des Viele-zu- Viele-Modells hat eine Präsenz im Internet die Fähigkeit zur Einführung einer weltweiten Basis von Nutzern von Geschäften, Einzelpersonen und Institutionen, welche ihre Produkte und Dienste Verbrauchern anbieten möchten, die potentielle Kunden sind. Ferner machen die immer größere Raffinesse bzw. Ausgereiftheit der Gestaltung von Pages, ermöglicht durch die exponentielle Zunahme von Datenübertragungsraten, Computerverarbeitungsgeschwindigkeiten und eine Browserfunktionalität, das Internet zu einem zunehmend attraktiven Medium zum Erleichtern und Durchführen kommerzieller Transaktionen sowie zum Bewerben und Ermöglichen derartiger Transaktionen. Da das Internet eine direkte Identifikation von Geschäften und abgezielter Verbraucher sowie eine Verbindung zwischen diesen ermöglicht, hat es das Potential, ein leistungsfähiges effektives Werbemedium zu sein.
  • Die Verfügbarkeit von leistungsfähigen neuen Werkzeugen, welche die Entwicklung und Verteilung von Internetinhalten erleichtert (diese umfassen Informationen jeglicher Art in einer beliebigen Form bzw. einem beliebigen Format), hat geführt zu einer Verbreitung von Informationen, Produkten und Diensten, welche angeboten werden durch das Internet, und einem dramatischen Wachstum in der Anzahl und den Typen von das Internet benutzenden Verbrauchern. International Data Corporation, gewöhnlich bezeichnet als IDC, hat geschätzt, dass die Anzahl von Internetbenutzern wachsen wird auf etwa 320 Millionen weltweit Ende 2002. Außerdem ist der über das Internet durchgeführte Handel gewachsen, und es wird noch ein dramatisches Wachstum erwartet. IDC schätzt, dass der Prozentanteil von Internetbenutzern, welche Güter und Dienste im Internet kaufen, ansteigt auf etwa 40% in 2002, und dass der Gesamtwert von Gütern und Diensten, verkauft über das Internet, ansteigt auf etwa $ 425,7 Milliarden.
  • So ist das Internet aufgetaucht als ein attraktives neues Medium für Werbende von Informationen, Produkten und Diensten ("Werbende") zum Erreichen nicht nur von Verbrauchern allgemein, sondern auch zum Ermöglichen einer erhöhten Fähigkeit, die spezifischen Zielgruppen von Verbrauchern zu identifizieren auf der Grundlage ihrer Referenzen, Charakteristiken bzw. Verhaltensweisen. Jedoch besteht das Internet aus einer unbegrenzten Anzahl von Sites, verteilt über Millionen von verschiedenen Computersystemen über die ganze Welt, so dass Werbende sich konfrontiert sehen mit der beängstigenden Aufgabe eines Lokalisierens und Erreichens der spezifischen Gruppen oder Untergruppen von Verbrauchern, welche potentiell interessiert sind an ihren Informationen, Produkten und/oder Diensten.
  • Werbende verlassen sich auf Suchdienste zum Unterstützen von Verbrauchern bei der Lokalisierung der Sites von Werbenden. Derartige Dienste, einschließlich Kataloge und Suchmaschinen, haben sich entwickelt zum Indexieren und Suchen der im Internet verfügbaren Informationen und unterstützen dadurch Benutzer, einschließlich Verbraucher, bei der Lokalisierung von Informationen, Produkten und Diensten von Interesse. Diese Suchdienste ermöglichen es Benutzern, einschließlich Verbrauchern, das Internet zu durchsuchen nach einer Liste von Sites auf der Grundlage eines spezifischen Schlüsselbegriffs, Produkts oder Dienstes von Interesse, wie beschrieben durch die Benutzer in ihrer eigenen Sprache. Da Suchdienste das am häufigsten verwendete Werkzeug im Internet nach Email ist, bieten Sites, welche Suchdienste vorsehen, Werbenden eine bedeutende Reichweite in das Internetpublikum und erzeugen die Möglichkeit, auf Verbraucherinteressen zu zielen auf der Grundlage von Schlüsselwort- oder Themensuchanfragen.
  • Suchdienste werden generell erzeugt durch Suchmaschinenanbieter, welche eine elektronische Durchsicht der Pages des Internet durchführen und einen Index und eine Datenbank auf der Grundlage dieser Durchsicht erzeugen. Die Suchmaschinenanbieter können die Suchdienste direkt den Verbrauchern anbieten oder können die Suchdienste einem Dritten anbieten, welcher dann die Suchdienste den Verbrauchern anbietet. Gewöhnlich werden die Datenbanken erzeugt entweder durch Crawling des Internet und Erstellen einer lokalen Kopie von jeder Page oder eines Aspekts davon in einer Speichervorrichtung, oder durch Sammeln von Submissions von den Anbietern der Pages ("Resulting Pages"). Dies kann umfassen statische und/oder dynamische Inhalte, ob Text, Bild, Audio, Video oder stehende Bilder. Alternativ können lediglich bestimmte Aspekte der Pages kopiert werden, wie etwa URL, Titel oder Text. Jede Resulting-Page wird indiziert für eine spätere Referenz. So durchsucht, wenn eine Durchsuchung des Internet angefordert wird durch einen Benutzer, die Suchmaschine nicht tatsächlich das Internet in Echtzeit, sondern durchsucht ihren eigenen Index und ihre eigene Datenbank für die relevanten Resulting-Pages ("Suchergebnisse" oder "Listen"). Die Suchergebnisse werden dann dem Benutzer dargestellt entweder als Kopien der tatsächlichen Pages oder als eine Liste von Pages, auf welche über einen Hyperlink zugegriffen werden kann.
  • Viele bekannte Suchmaschinen verwenden eine automatisierte Suchtechnologie zum Katalogisieren von Suchergebnissen, welche sich generell verlassen auf eine nicht sichtbare Sitebeschreibung, bekannt als "meta tags", welche definiert werden durch die Site-Ersteller. Da Werbende ihre Sites nach ihrer Wahl frei mit Text versehen können, sind viele Pages mit ähnlichen meta tags versehen, was die Schwierigkeit eines Lieferns von relevanten Suchergebnissen erhöht. Außerdem verlassen sich die meisten bekannten Suchmaschinen auf ihre eigene Hierarchie von semantischen Kategorien, in welche indizierte Pages kategorisiert werden. Dies ist ein Top-Down- Kategorisierungsverfahren (top-down: von der höchsten zur niedrigsten hierarchischen Ebene), wo die Kategorien semantisch in Zusammenhang stehen, unabhängig von ihrer kommerziellen oder nichtkommerziellen Natur. Daher liefern bekannte Suchmaschinen keine an den Kunden anpassbare Bottom- Up-Kategorisierung (bottom-up: hierarchisch von oben nach unten) eines Suchergebnisses auf der Grundlage der kommerziellen Natur und Relevanz der Page bzw. Site.
  • Außerdem fügen manche Werbende und andere Site-Ersteller beliebte Suchbegriffe in ihre meta tags der Site ein, welche nicht relevant sind für ihre Pages, so dass diese Pages zusätzliche Verbraucheraufmerksamkeit bei geringen oder gar keinen Grenzkosten anziehen können. Solche Pages erbringen viele unerwünschte Ergebnisse und werden bezeichnet als "Spam Pages". Generell werden Pages bezeichnet als Spam, wenn sie irgendeinen Mechanismus zum Zwecke der Täuschung von Suchmaschinen und/oder Relevanzordnungsalgorithmen umfassen und ferner Benutzer auf Sites umlenken können, welche nicht relevant sind für die ursprüngliche Suche des Benutzers. Viele solcher Mechanismen und Techniken existieren und umfassen meta tags, wobei keine Beschränkung auf das Umfassen von meta tags existiert, welche die wahre Natur der Page nicht reflektieren. Gewöhnlich sind Spam Pages von Natur aus kommerziell. Das heißt, sie versuchen, Benutzern etwas zu verkaufen.
  • Viele bekannte Suchmaschinen sind einfach nicht ausgestattet zur Festlegung einer Priorität von Ergebnissen in Übereinstimmung mit den Präferenzen der Verbraucher. Bekannte Suchmaschinen sehen ferner nicht jeden Weg vor, um zu bestimmen, ob jede Page in einer Auflistung ihrer Natur nach kommerziell ist, und um die Auflistung zu kategorisieren auf der Grundlage der kommerziellen Natur jeder Page. Wenn dies erfolgt, können die Suchergebnisse verarbeitet werden, um eine nützlichere Organisation gemäß den Absichten des Verbrauchers (unabhängig davon, ob diese ist, eine kommerzielle Transaktion oder Suchaktion durchzuführen) bei einem Einleiten der Suche zu liefern. Beispielsweise kann es vorkommen, dass ein Verbraucher, welcher Informationen zu einem gegebenen Thema sucht, wünscht, Pages zu unterscheiden, welche primär informativer Natur sind, von Pages, welche primär kommerzieller Natur sind. Bei anderen Beispielen kann es vorkommen, dass ein Verbraucher wünscht, Pages zu unterscheiden, welche primär kommerzieller Natur sind und relevant für die Anfrage des Verbrauchers sind, von ungewünschten Pages bzw. Spam Pages.
  • Ferner wird bei bekannten Suchmaschinen ein Verbraucher, welcher versucht, eine Site zum Verkaufen von Gütern oder Diensten zu lokalisieren, konfrontiert sein mit einer großen Anzahl von Sites, welche sich auf den Gegenstand beziehen könnten, jedoch nicht den Kauf des Gegenstands ermöglichen. Ebenso werden Verbraucher, welche lediglich an einer Lokalisierung von informativen Sites für einen Gegenstand interessiert sind, mit vielen kommerziellen Sites zum Verkauf des Gegenstands konfrontiert sein, welche möglicherweise die Informationen, nach welchen sie suchen, nicht liefern. Daher sind die gewünschten Ergebnis-Pages der Verbraucher versteckt unter einer großen Anzahl von Pages, welche dem eigentlichen Ziel des Verbrauchers nicht entsprechen, da bekannte Suchmaschinen weder in der Lage sind, die Absicht des Verbrauchers bei der Suche noch die kommerzielle oder nichtkommerzielle Natur der Suchergebnisse zu unterscheiden.
  • Daher liefern die bekannten Suchmaschinen keine geeignete Einrichtung für Benutzer zum Kategorisieren des Typs von Suchergebnissen, nach welchen sie suchen, informativ oder kommerziell, oder für Werbende, welche wünschen, ihre Darbietung zu steuern und ihre Verteilung von Informationen zu interessierten Verbrauchern zu lenken. Derzeitige Paradigmen zum Darstellen von Suchergebnissen machen keine Page-für-Page- Unterscheidung zwischen informativen und kommerziellen Quellen von Informationen und mischen stattdessen beide Typen von Ergebnissen in Abhängigkeit lediglich von der Relevanz, welche diesen zugewiesen wird als Reaktion auf die ursprüngliche Suchanfrage des Benutzers.
  • Bekannte Verfahren, verwendet von Werbenden zum Steuern ihrer Darbietung und Ziellenken ihrer Verteilung, wie etwa Bannerwerbung, folgen traditionellen Werbeparadigmen und scheitern bei der Benutzung der einzigartigen Attribute des Viele-zu-Viele-Veröffentlichungsmodells des Internet. Ferner versagen sie, soweit die Bannerwerbungen in den Suchergebnissen gefunden werden, häufig im Hinblick auf die Anziehung eines Verbraucherinteresses, da der Verbraucher in einer gerichteten Weise nach Suchergebnissen auf dieser Page, und nicht nach einem Banner, sucht.
  • Daher versagen die traditionellen Paradigmen betreffend die Internetwerbung und Suchmaschinen im Hinblick auf eine effektive Kategorisierung und eine Lieferung von relevanten Informationen für interessierte Parteien in einer Zeit- und kosteneffektiven Weise. Daher müssen Verbraucher manuell sämtliche Suchergebnisse sortieren, um schließlich den Typ von Ergebnissen (kommerziell oder nicht kommerziell) zu lokalisieren, an welchem sie interessiert sind. Da Internetwerbung jedoch ein Niveau von Zielrichtbarkeit, Interaktivität und Messbarkeit bieten kann, welches in anderen Medien generell nicht verfügbar ist, erhöht die Fähigkeit zur Kategorisierung und klaren Darstellung von identifizierten Sätzen von kommerziellen und nicht kommerziellen Ergebnissen die Verbraucherzufriedenheit und ermöglicht eine erhöhte ökonomische Effizienz durch Verringern der erforderlichen manuellen Sortierung durch die Benutzer.
  • Idealerweise sollten Werbende in der Lage sein, ihre Sichtbarkeit in einer Internetsuchergebnisliste zu verbessern, so dass ihre Pages nicht nur hervorgehoben in der Auflistung erscheinen, sondern ferner nicht durch eine Vielzahl von anderen nicht kommerziellen Pages maskiert bzw. verdeckt sind (siehe US-Patent Nr. 6 269 361, hierin enthalten durch Verweis). Ebenso sollten Verbraucher in der Lage sein, über eine zuverlässige Kategorisierung und deutliche Darstellung entweder als informativ oder kommerziell ihrer Suchergebnisse zu verfügen. Ohne eine zuverlässige Einrichtung zum Unterscheiden zwischen kommerziellen und nichtkommerziellen Pages können bekannte Suchmaschinen das wahre Potential der zielgerichteten Marktannäherung, welche ermöglicht wird durch das Internet, nicht voll nutzen.
  • Daher muss die Suchmaschinenfunktionalität des Internet fokussiert werden in eine neue Richtung zum Ermöglichen eines Online-Marktplatzes, welcher Verbrauchern schnelle, relevante und kundenangepasste Suchergebnisse bietet, während gleichzeitig Werbenden ein zuverlässiger, verifizierbarer und kosteneffektiver Weg zur Adressierung von Verbrauchern und Positionierung der Produkte und Dienste der Werbenden innerhalb einer Liste bietet. Ein Verbraucher, welcher eine Suchmaschine nutzt, die diesen Online-Marktplatz ermöglicht, wird Firmen und Geschäfte finden, welche die Produkte oder Dienste anbieten, die der Verbraucher sucht, ohne die Ablenkung von nichtkommerziellen Pages. Außerdem wird, während der Benutzer streng informative Ressourcen sucht, der Benutzer nicht belästigt werden durch Spam Pages oder irrelevante kommerzielle Pages.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zum Prüfen und Kategorisieren von Sätzen in einer verteilten Datenbank als kommerzielle oder nichtkommerzielle Sätze und anschließenden Darstellen dieser Sätze in Reaktion auf eine Datenbankabfrage, definiert durch einen Benutzer oder netzwerkdefinierte Einstellungen, zu schaffen.
  • Es ist ferner eine Aufgabe der vorliegenden Erfindung, Benutzer zu versehen mit einer kundenanpassbaren Suchmaschine, welche Benutzern ermöglicht, Suchergebnislisten zu organisieren auf der Grundlage der kommerziellen Natur des Suchergebnisses, und Benutzern ermöglicht, Darstellungsregeln zu spezifizieren auf der Grundlage von Kategorien und Benutzerpräferenzen.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, Suchmaschinendienstkunden zu versehen mit einer kundenanpassbaren Suchmaschine, welche jedem Suchmaschinendienstkunden eine Organisation von Suchergebnislisten auf der Grundlage der kommerziellen Natur des Suchergebnisses ermöglicht und dem Suchmaschinendienstkunden ermöglicht, Darstellungsregeln für die Suchergebnisse auf der Grundlage von Kategorien und Präferenzen des Kunden des Suchmaschinendienstes zu spezifizieren.
  • Es ist ferner eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, welches Anbietern eines Suchmaschinendienstes oder Benutzern ermöglicht, die Wichtigkeit von verschiedenen Transaktionskriterien und Schwellenwerte dynamisch zu spezifizieren, um einen flexiblen scale of value zu erzeugen auf der Grundlage der kommerziellen Natur eines Satzes, um ein Transaktionsrating zuzuweisen und somit eine kommerzielle oder nichtkommerzielle Bestimmung jedes Satzes durchzuführen.
  • Es ist ferner eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen zur Kategorisierung und Darstellung von Suchergebnissen durch Kombinieren eines Transaktionsrating mit einer Qualitätsmarkierung und einer Spam-Markierung, um eine kommerzielle Markierung zuzuweisen und dann ein Ranking bzw. eine Klassifizierung derartiger Ergebnisse gemäß einer derartigen Markierung durchzuführen.
  • Es ist ferner eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen zum Kategorisieren von Dokumenten in einer verteilten Datenbank zum Erzeugen von kategorisierten Dokumenten durch ein anfängliches Annehmen, dass sämtliche Dokumente nicht kommerziell sind, Herausfiltern sämtlicher kommerzieller Dokumente und Platzieren dieser in einer ersten Kategorie und Verwenden der ersten Kategorie als eine Sammlung von Werberprospekten für eine Zahlung für eine Leistungssuchmaschine.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein kosteneffektives System und Verfahren zum Verwalten des Betriebs einer nach Leistung zahlbaren Suchmaschine zu schaffen durch automatisches Generieren von Werber Sales-Leads durch anfängliches Kategorisieren von Pages als kommerziell oder nichtkommerziell und anschließend ferner Kategorisieren von kommerziellen Pages als existierende Kunden oder Sales- Leads.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und Verfahren zu schaffen zum Kategorisieren von Sätzen in einer verteilten Datenbank zum Identifizieren von kommerziellen Sätzen und Vergleichen dieser Sätze gegen eine Zahlung für Auflistungen einer Leistungssuchmaschine, um kommerzielle Sätze weiter zu kategorisieren entweder als teilnehmende Werbende oder nicht teilnehmende Werbende.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren einer Sales-Lead-Generierung zu schaffen für eine Zahlung für Leistungssuchmaschinen-Werbende durch Organisieren und Darstellen von nicht teilnehmenden kommerziellen Sätzen zu einer Zahlung für eine Leistungssuchmaschinen-Sales-Staff gemäß dynamisch spezifizierten Kriterien.
  • Kurze Beschreibung
  • Es erfolgt eine Beschreibung der Verfahren zum Erzeugen kategorisierter Dokumente, Kategorisieren von Dokumenten in einer verteilten Datenbank und Kategorisieren von Resulting- Pages. Ferner wird hier eine Vorrichtung zum Suchen einer verteilten Datenbank beschrieben.
  • Ein Verfahren zum Erzeugen von kategorisierten Dokumenten umfasst generell:
    Anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind; Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie; Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie; und Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren dieser Dokumente des Typs 4 in einer dritten Kategorie.
  • Das Verfahren zum Kategorisieren von Dokumenten in einer gewünschten Datenbank umfasst generell: Annehmen, dass sämtliche Dokumente in der verteilten Datenbank von nichtkommerzieller Natur sind; Herausfiltern sämtlicher Dokumente, welche von kommerzieller Natur sind, aus den Dokumenten, wobei die Dokumente, welche von kommerzieller Natur sind, kommerzielle Dokumente sind; und Erzeugen von Sales-Leads aus den kommerziellen Dokumenten. Bei einem Ausführungsbeispiel des vorliegenden Verfahrens sind die Dokumente Pages, und die verteilte Datenbank ist das Internet.
  • Ein Verfahren zum Kategorisieren von Resulting-Pages in Kategorien umfasst generell: Festlegen einer ersten Kategorie als kommerzielle Pages und einer zweiten Kategorie als informative Pages; Bestimmen einer Qualitätsmarkierung q(wi) für jede Resulting-Page; Bestimmen eines Transaktionsrating für jede Resulting-Page τ(wi); Ableiten einer Propagationsmatrix; P Bestimmen einer kommerziellen Markierung K für jede Resulting-Page; Herausfiltern sämtlicher Resulting- Pages, welche mit einem kommerziellen Markierungsschwellenwert übereinstimmen bzw. diesen überschreiten; wobei die Resulting- Pages, welche mit dem kommerziellen Page-Schwellenwert übereinstimmen oder diesen überschreiten, platziert werden in der ersten Kategorie und sämtliche übrigen Resulting-Pages platziert werden in der zweiten Kategorie.
  • Ein weiteres Verfahren zum Kategorisieren einer Vielzahl von Resulting-Pages in Kategorien umfasst generell: Bestimmen, ob jede der Vielzahl von Resulting-Pages eine Spam-Page ist; Bestimmen einer Qualitätsmarkierung q(wi) für jede der Vielzahl von Resulting-Pages; Bestimmen eines Transaktionsrating τ(wi) für jede der Vielzahl von Resulting-Pages; Ableiten einer Propagationsmatrix P; Bestimmen einer kommerziellen Markierung K für jede der Vielzahl von Resulting-Pages; Herausfiltern sämtlicher Spam-inclusiven kommerziellen Pages aus der Vielzahl von Resulting-Pages; Herausfiltern sämtlicher Spam- Pages aus den Spam-inclusiven kommerziellen Pages; Platzieren sämtlicher kommerzieller Pages in einer kommerziellen Kategorie; und Platzieren sämtlicher übriger Resulting-Pages in einer Informationskategorie.
  • Ein Verfahren zum Suchen einer verteilten Datenbank umfasst generell: (a) Eingeben von Suchbegriffen oder Sätzen in ein System; (b) Generieren von Dokumenten, welche Schlüsselwörter enthalten, die mit den Suchbegriffen oder Sätzen übereinstimmen; (c) Kategorisieren von Suchergebnissen in Kategorien gemäß Kategorisierungskriterien zum Erzeugen von kategorisierten Dokumenten; und (d) Darstellen der kategorisierten Dokumente.
  • Ferner ist beschrieben eine Suchmaschine und eine Datenbank für eine verteilte Datenbank, generell umfassend mindestens eine Speichervorrichtung, umfassend mindestens einen Internet- Cache (bzw. Internet-Cache-Speicher) und einen Internet-Index; eine Rechenvorrichtung, umfassend einen Crawler in Kommunikation mit dem Internet-Cache und dem Internet; einen Indizierer in Kommunikation mit dem Internet-Index und dem Internet-Cache; einen Transaktionsmarkierungsgenerator in Kommunikation mit dem Internet-Cache; und einen Kategoriezuweiser in Kommunikation mit dem Internet-Cache; einen Suchserver in Kommunikation mit dem Internet-Cache, dem Internet-Index; und eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
  • Das System sieht zahlreiche Ausführungsbeispiele vor, welche von Fachleuten auf diesem Gebiet auf der Grundlage der vorliegenden Offenbarung verstanden werden. Manche davon sind unten beschrieben und in der Zeichnung mittels mehrerer Figuren dargestellt.
  • Kurze Beschreibung mehrerer Ansichten der Zeichnung
  • Fig. 1A ist ein Blockdiagramm einer Page-Kategorisierung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 1B ist ein Blockdiagramm einer Page-Kategorisierung gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 2 ist ein Flussdiagramm eines Systems zum Bestimmen, ob eine Page eine kommerzielle Page ist, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 3 ist ein Flussdiagramm eines Systems zum Bestimmen eines Transaktionsrating für eine Page gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 4 ist ein Flussdiagramm eines Systems zum Erzeugen einer Propagationsmatrix gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 5 ist ein Flussdiagramm eines Systems zum Liefern einer kundenangepassten Kategorisierung von Suchergebnissen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 6 ist ein Flussdiagramm eines Systems zum Liefern von kundenangepassten Suchergebnissen und der Darstellung der kundenangepassten Suchergebnisse gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • Fig. 7 ist ein Flussdiagramm eines Systems zum Automatisieren der Sammlung von Sales-Leads für eine Zahlung für eine Leistungssuchmaschinen-Sales-Staff gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und
  • Fig. 8 ist ein Diagramm einer Vorrichtung zum Kategorisieren und Anzeigen von Suchergebnissen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Genaue Beschreibung
  • Nachfolgend beschrieben wird ein Verfahren und eine Vorrichtung zum Identifizieren von Dokumenten in einer verteilten Datenbank. Ein Ausführungsbeispiel umfasst eine Heuristik zum Identifizieren von Pages, die von kommerzieller Natur sind und Liefern eines Systems und eines Verfahrens für die dynamische Kategorisierung und Darstellung sowohl von kommerziellen Pages als auch von informativen Pages in Echtzeit zu einem Werbenden, einem Suchmaschinenanbieter oder einem User. Dieses System kann verwendet werden in einem beliebigen Kontext, wo es nützlich ist, Suchergebnisse zu kategorisieren auf der Grundlage der kommerziellen Natur dieser Pages, und kann verwendet werden in einer Vielzahl von Formen, von einem Browser-Plug-In zu einer selbstständigen Anwendung zu einer ausgangsseitigen bzw. nachgeschalteten Suchmaschine oder einem Suchmaschinenwerkzeug. Außerdem kann das System verwendet werden zum Liefern von einzigartigen Betriebsvorteilen zu einer Zahlung für einen Leistungssuchmaschinenanbieter durch Automatisieren eines Abschnitts des Sales-Zyklus und Ermöglichen einer zusammenwirkenden Kontenverwaltungsumgebung zwischen Werbenden und der Zahlung für einen Leistungssuchmaschinenanbieter.
  • Verschiedene Sätze von Suchergebnissen für kommerzielle Pages und informative Pages, welche zurückkommen in Reaktion auf eine benutzerdefinierte Anfrage, werden geliefert zu Werbenden, Suchmaschinendienstanbietern und Benutzern. Das System unterscheidet Pages gemäß der kommerziellen Natur jeder Page und liefert dadurch relevantere Ergebnisse durch Liefern von relevanten Suchergebnissen zu diesen Benutzern, welche Informationen suchen oder wünschen, eine kommerzielle Transaktion einzugeben, ohne Durcheinanderbringen der beiden Kategorien von Suchergebnissen. Das System ermöglicht ferner eine vollständige Kundenanpassung im Hinblick auf den Satz von Kriterien, welche verwendet werden zum Kategorisieren von Suchergebnissen, die Wichtigkeit von jedem solchen Kriterium bei der Bestimmung einer derartigen Kategorisierung und die letztendliche Kategorisierung und Darstellung derartiger Suchergebnisse zum Benutzer.
  • Verfahren und Vorrichtungen zum statischen und dynamischen Kategorisieren und Darstellen der Sätze einer verteilten Datenbank sind offenbart. Beschreibungen von spezifischen Ausführungsbeispielen sind vorgesehen lediglich als Beispiele, und verschiedene Modifikationen sind für Fachleute auf diesem Gebiet offensichtlich und sollen nicht durch die beschriebenen Ausführungsbeispiele begrenzt sein. Identische Merkmale sind gekennzeichnet durch identische Bezugszeichen in der beiliegenden Zeichnung.
  • Beschrieben ist ein kundenanpassbares System zum Identifizieren und Kategorisieren der Sätze in einer Suche der Sätze oder den Ergebnissen einer Suche der Sätze in einer verteilten Datenbank und zum Kategorisieren und Darstellen der Sätze oder Suchergebnisse gemäß der kommerziellen Natur des Satzes in einer organisierteren, leichter verständlichen und daher nützlicheren Weise. Die folgenden Beschreibungen beschreiben detailliert, wie die Pages einer Suche des Internet oder die Ergebnisse einer Suche des Internet identifiziert und kategorisiert werden können als kommerziell und nichtkommerziell (informativ), jedoch ist es einfach zu verstehen, dass die Sätze einer verteilten Datenbank, einschließlich des Internet, kategorisiert werden können in eine unbegrenzte Vielfalt von Kategorien, einschließlich Unterkategorien der kommerziellen und nichtkommerziellen Kategorie. Andere Kategorien können Online-Shopping und Werbungen von traditionellen Geschäften und Diensten beinhalten. Alternativ oder zusätzlich können die Sätze in den Sätzen in einer verteilten Datenbank oder in den Suchergebnissen der Sätze in einer verteilten Datenbank kategorisiert und grafisch dargestellt werden über einen Preisbereich und durch viele andere Kriterien entsprechend einer Vielzahl von benutzerspezifizierten Variablen. Außerdem können die hier offenbarten Verfahren verwendet werden über eine beliebige verteilte Datenbank, welche in beliebiger Weise gekoppelt ist mit einer beliebigen Art von Netzwerk, einschließlich Local Area Networks (LAN) und Wide Area Networks (WAN) und nicht nur mit dem Internet.
  • Bezugnehmend auf die Zeichnung, zeigen Fig. 1A und 1B, wie die Suchergebnisse einer Suche des Internet kategorisiert werden kann. Eine Suche des Internet ist tatsächlich eine Suche einer Datenbank der Inhalte des Internet, welche generiert werden kann durch die Verwendung eines Crawler. Der Crawler führt ein Crawling des Internet durch und speichert in eine lokale Datenbank entweder ein Duplikat jeder gefundenen Page oder ein Duplikat eines Abschnitts davon (der Abschnitt kann ein beliebiges der folgenden Merkmale von jeder gefundenen Internetpage beinhalten: die URL, Titel, Inhalt, Kurzbeschreibung des Inhalts, Hyperlinks oder eine beliebige Kombination daraus). Die lokalen Kopien der Pages oder Abschnitte davon können dann gesucht werden unter Verwendung einer Suchmaschine. Die lokalen Kopien der Pages, Abschnitte davon oder beliebige Pages oder Abschnitte davon, welche das Ergebnis einer Suche des Vorhergehenden sind, werden allesamt betrachtet als "Resulting-Pages".
  • Wie dargestellt in Fig. 1A und 1B, können die Resulting-Pages 50 generell kategorisiert werden als kommerziell und nicht kommerziell. Resulting-Pages in der kommerziellen Kategorie ("kommerzielle Pages") 52, 62 umfassen generell jene Resulting-Pages, welche das Kaufen und/oder Verkaufen von Gütern und/oder Diensten ermöglichen oder eine Absicht bekunden, eine kommerzielle Aktivität durch den Veröffentlicher dieser Page durchzuführen (diese sind von kommerzieller Natur). Beispielsweise umfassen kommerzielle Pages 52, 62 Pages, welche Güter und/oder Dienste über Verkauf, Miete, Tausch oder eine derartige Transaktion anbieten, oder welche Kontaktinformationen für derartige Transaktionen anbieten, welche durchgeführt werden durch eine andere Einrichtung, wie etwa Fax, Telefon oder persönlich. Resulting-Pages in der nichtkommerziellen Kategorie ("nichtkommerzielle Pages") 54, 64 umfassen generell jene, welche von informativer Natur sind und den Kauf und/oder Verkauf von Gütern und/oder Diensten nicht ermöglichen und somit nicht von kommerzieller Natur sind. Nichtkommerzielle Pages können alternativ bezeichnet werden als "informative Pages".
  • Resulting-Pages, welche Spam ("Spam-Pages") sind, werden generell betrachtet als Untermenge der kommerziellen Pages 52, 62, da Spam-Pages 56 generell von kommerzieller Natur sind. Jedoch ist es auch möglich, dass Spam-Pages primär von informativer Natur sind, da Spam-Pages Informationen betreffend Güter und/oder Dienste liefern, jedoch nicht selbst den Kauf von Gütern und/oder Diensten ermöglichen. Da Spam- Pages gestaltet sind zum Täuschen bzw. Verschlechtern von Suchmaschinen, einschließlich Relevanzordnungsheuristiken, sind sie generell unerwünscht und können aus den Suchergebnissen entfernt bzw. ausgeschlossen werden. Gewöhnlich werden Spam-Pages als von kommerzieller Natur betrachtet, da sie einen direkten Link zu anderen Pages bieten, welche von kommerzieller Natur sind. Spam-Pages können kategorisiert werden als Commercial-Pages, wie dargestellt in Fig. 1A und 1B oder alternativ ausgeschlossen werden aus der kommerziellen Kategorie.
  • In einem Ausführungsbeispiel der Erfindung können Resulting- Pages ferner kategorisiert werden in die "PCC-Pages" (PCC: premium-content containing category). PCC-Pages sind Pages, für welche eine Zahlung einer Prämie erforderlich ist, um Zugang zum Inhalt zu erlangen. In manchen Fällen wird eine Zahlung der Prämie festgelegt durch eine Vereinbarung bzw. einen Vertrag. Es existieren viele Beispiele von PCC-Pages, wie etwa jene, welche gefunden werden bei den folgenden URLs: www.law.com und www.northernlight.com. PCC-Pages können betrachtet werden entweder als Teilmenge von kommerziellen Pages und platziert werden in die kommerzielle Kategorie oder eine Teilmenge von nichtkommerziellen Pages und platziert werden in die nichtkommerzielle Kategorie in Abhängigkeit von den Präferenzen des Benutzers oder des Suchmaschinendienstkunden. Beispielsweise erfordern PCC-Pages 58 eine Zahlung einer Prämie, um Zugang zu erhalten. Infolge der Zahlungsanforderung sind sie von kommerzieller Natur und können betrachtet werden als eine Teilmenge der kommerziellen Pages, wie dargestellt in Fig. 1A. Hingegen liefern PCC-Pages generell Informationen und ermöglichen nicht das Kaufen und/oder Verkaufen von Gütern und/oder Diensten, welche verschieden sind von den in den PCC-Pages selbst enthaltenen Informationen. Daher sind sie auch von informativer Natur und können betrachtet werden als eine Teilmenge der nichtkommerziellen Pages, wie dargestellt in Fig. 1B.
  • Ein weiteres Ausführungsbeispiel zum Herausfiltern der kommerziellen Pages und Platzieren dieser in der kommerziellen Kategorie umfasst generell die in Fig. 2 dargestellten Schritte, angezeigt durch ein Bezugszeichen 10. Diese Schritte umfassen: Bestimmen, ob jede Page eine Spam-Page 12 ist; Bestimmen einer Qualitätsmarkierung für jede Page 14; Bestimmen eines Transaktionrating für jede Page 16; Ableiten einer Propagationsmatrix 18; Bestimmen einer kommerziellen Markierung für jede Page 20; Herausfiltern sämtlicher Pages mit einer kommerziellen Markierung, welche mit einem Schwellenwert übereinstimmt bzw. diesen überschreitet ("Spam- inclusive kommerzielle Pages") 22; Herausfiltern der Spam- Pages aus den Spam-inclusiven kommerziellen Pages 24; und Platzieren der kommerziellen Pages in die kommerzielle Kategorie 26.
  • Bei einem Ausführungsbeispiel wird beim Bestimmen, ob eine Page eine Spam-Page ist, eine Spam-Markierung σ(wj) für jede Page berechnet und bestimmt, ob die Spam-Markierung mit dem Schwellenwert übereinstimmt oder diesen überschreitet, welcher der Spam-Markierung zugewiesen ist. Die Pages, welche mit dem Spam-Markierungsschwellenwert übereinstimmen oder diesen überschreiten, sind Spam-Pages. Ein Bestimmen der Spam- Markierung kann durchgeführt werden unter Verwendung bekannter Techniken, wie etwa einer Zuweisung einer Markierung durch eine Person, und die automatisierten Techniken, dargestellt in den folgenden Papieren, welche hierin unter Verweis enthalten sind; ein White Paper von ebrandmanagement.com mit dem Titel "The Classification of Search Engine Spam" und eine Schrift von Danny Sullivan mit dem Titel "Search Engine Spamming". Beide Dokumente erscheinen in Proceedings of Search Engine Strategies, 4. bis 5. März 2002, Boston, MA, organisiert von Danny Sullivan. Die vorhergehenden und andere bekannte Verfahren umfassen sowohl manuelle als auch automatische Bewertungsverfahren. Diese Verfahren und ähnliche maschinenlernfähige Techniken könnten ferner angewandt werden auf ein Berechnen von τ, den Anfangsvektor in Gleichung (12), unten beschrieben.
  • Die Qualitätsmarkierung q(wi) ist ein skalarer Wert, welcher ein Maß der Qualität einer Page ist. Bei einem Ausführungsbeispiel umfasst ein Bestimmen der Qualitätsmarkierung der Pages ein Bewerten eines Untersatzes von Pages gegen eine Auswahlgruppe von Kriterien. Kriterien, gegen welche die Qualität der Page beurteilt werden kann, umfassen die Qualität des Inhalts, Reputation des Autors bzw. Quelle der Informationen, die Benutzerfreundlichkeit einer Page und viele andere derartige Kriterien. Die Qualitätsmarkierung kann durch eine Person zugewiesen werden oder automatisch bestimmt werden, oder es kann ein Standardwert Pages zugewiesen werden, welche nicht explizit bewertet sind.
  • Ein Transaktionsrating ist ein skalarer Wert, welcher darstellt, ob oder wie stark eine Page Transaktionen ermöglicht, wie etwa Verkauf, Leasen, Mieten oder Auktion. Bei einem Ausführungsbeispiel sind die Schritte zur Bestimmung eines Transaktionsrating für jede Page generell dargestellt in Fig. 3 und angezeigt durch ein Bezugszeichen 16. Transaktionsratings werden bestimmt anhand einer Transaktionsmarkierung. Eine Transaktionsmarkierung ist ein Vektor, welcher darstellt, ob und wie stark jede Page einen bestimmten Satz von Kriterien erfüllt.
  • Daher bestimmt der erste Schritt, ob eine Page und/oder die URL der Page ausgewählte Kriterien 32 erfüllt. Es gibt sehr viele Charakteristiken einer Page, welche geprüft werden können, um schließlich zu bestimmen, ob die Page von Transaktions-Natur ist. Diese Kriterien umfassen ein Bestimmen, ob die Page folgendes umfasst: ein Feld zum Eingeben einer Kreditkarteninformation; ein Feld für einen Benutzernamen und/oder ein Passwort für ein Online- Zahlungssystem, wie etwa PayPal™ oder BidPay™, eine Telefonnummer, identifiziert für ein "Verkaufsbüro", einen "Verkaufsrepräsentanten", "für weitere Information rufen Sie" oder eine beliebige andere Transaktions-orientierte Phrase; ein Link bzw. eine Schaltfläche mit einem Text wie etwa "Klicken Sie hier, um zu kaufen", "Ein-Klick™-Verkauf" oder ähnliche Phrasen, Text wie etwa "Ihre Shoppingkarte enthält" oder "wurde auf Ihre Karte addiert" und/oder ein tag wie etwa ein Ein-Pixel-GIF, verwendet zur Konversionsverfolgung. Ein beliebiger Textabgleich kann erfolgen entweder auf Textketten, wie etwa Abfolgen von Zeichen in den Unicode- oder ASCII- Zeichensätzen, oder auf Text, abgeleitet aus optischer Zeichenerkennung von Text in Bildern, oder Spracherkennung auf einer Tonaufzeichnung, dargestellt in Reaktion auf eine HTTP- Anforderung (HTTP: Hyper Text Transfer Protocol). Die Kriterien können verwendet werden in einer beliebigen Kombination, und beliebige individuelle Kriterien können verwendet werden oder nicht. Außerdem sind diese Kriterien lediglich Beispiele und stellen keine erschöpfende Liste dargestellt.
  • Für jede Page muss dann bestimmt werden, wie stark die Page die ausgewählten Kriterien erfüllt, Block 34. Verschiedene Techniken existieren zur Bestimmung, ob Pages bestimmte Kriterien erfüllen, 32, und wie stark diese die Kriterien 34 erfüllen. Beispielsweise kann jede Page geprüft werden durch einen menschlichen Editor und bewertet werden im Hinblick auf die Kriterien, und es kann ihr entweder ein Boolscher Wert oder ein gewichteter Wert zugewiesen werden. Dies ist jedoch ein sehr langsamer und subjektiver Prozess. Viel schnellere automatisierte Techniken umfassen ein automatisches Prüfen oder Zählen von Zeichenkettenübereinstimmungen, Bildübereinstimmungen oder Übereinstimmungen von Zeichenkettenlängen und/oder Übereinstimmungen von Dateneingabefeldtypen (wie etwa numerisch oder alphanumerisch) und Zuweisen von Log-Wahrscheinlichkeitsmarkierung unter Verwendung von Sprachmodellen. Sprachmodelle umfassen beispielsweise n-Gram-Wortübergangsmodelle wie beschrieben in Statistical Methods for Speech Recognition, Jenek 1999. Diese Verfahren können eine Boolsche Zahl oder einen gewichteten Wert zuweisen.
  • Unter Verwendung der Ergebnisse, erhalten durch Bestimmen, ob jede Page und/oder ihre URL ausgewählte Kriterien erfüllen, 32, und Bestimmen, wie stark die Page und/oder ihre URL ausgewählte Kriterien erfüllen, 34, wird eine Transaktionsmarkierung bestimmt, 35. Ein Bestimmen der Transaktionsmarkierung 35 für jede Page umfasst ein Erzeugen eines Vektors αk(wj) oder eines Vektors βk(wj) aus den Ergebnissen von Blöcken 32 bzw. 34. Einer dieser Vektoren wird erzeugt für jede Page "wi", wobei der Index "i" eine bestimmte Page und der Index "k" ein bestimmtes Kriterium darstellt, gegen welches die Page bewertet wurde. Die Anzahl von Elementen im Vektor "n" (1 ≤ j ≤ n) wird bestimmt durch die Anzahl von verwendeten Kriterien, und die Anzahl von Vektoren wird bestimmt durch die Anzahl von Pages "m". Die Transaktionsmarkierung αn(wj) ist ein Vektor von Boolschen Werten, wobei eine "0" für gegebene Kriterien anzeigt, dass diese Kriterien nicht erfüllt sind (falsch), und eine beliebige gewählte Integerzahl "p" für gegebene Kriterien zeigt an, dass diese Kriterien erfüllt sind (wahr). Der Transaktionsmarkierungsvektor βn(wj) hat dieselbe Anzahl von Elementen wie α(wj). Jedoch können die Elemente in βn(wj) einen Bereich von reellen Zahlen umfassen, wobei jede Zahl anzeigt, wie stark eine Page die Kriterien erfüllt. Beispielsweise kann βn(wj) die reellen Zahlen zwischen "0" und "1" umfassen (obwohl es einen beliebigen Bereich von reellen Zahlen umfassen kann), wobei "0" darstellt, dass ein Kriterium überhaupt nicht erfüllt ist, und "1" stellt dar, dass ein Kriterien vollständig erfüllt ist. Die reellen Zahlen zwischen "0" und "1" stellen die verschiedenen Grade dar, zu welchem ein Kriterium erfüllt ist.
  • Transaktionsmarkierungen αknβn(wj) und βknβn(wj) werden verwendet zum Bestimmen wechselnder Werte für das Transaktionsrating τ(wj) für jede Page, wobei:


  • Das Transaktionsrating τ(wi) ist ein skalarer Wert, welcher die p-Norm entweder des Vektors αn(wi) und βn(wi) ist. "n" ist die Zahl von Kriterien, welche verwendet werden beim Bewerten jeder Site wi. Generell gilt p = 2, so dass kein einzelnes gewichtetes Kriterium das andere dominiert. Jedoch kann p geändert werden, um den dominantesten Kriterium mehr Gewicht zu geben, falls erwünscht. Jede Formel (1) oder (2) kann abwechselnd verwendet werden zum Bestimmen des Transaktionsrating. Formel (2) reflektiert den Grad, zu welchem individuelle Kriterien erfüllt sind.
  • Die Schritte zum Ableiten der Propagationsmatrix sind generell dargestellt in Fig. 4 als Bezugszeichen 18. Die Schritte umfassen ein Erzeugen einer Hyperlink-Konnektivitätsmatrix 42, ein Berechnen von Übergangszählungen und Page-Views, 44, und ein Erzeugen einer Propagationsmatrix 46. Eine Hyperlink- Konnektivitätsmatrix ist eine Weise zum Darstellen der Linkstruktur des Internet, World Wide Web oder eines beliebigen Satzes von Hyperdokumenten und der relativen Wichtigkeit oder Relevanz jeder Page. Bei diesem Ausführungsbeispiel wird die relative Wichtigkeit jeder Page bestimmt durch Prüfen der Anzahl von Links von jeder Page wi zu jeder Page wj, und von jeder wj zu jeder Page wi. Diese Links sind dargestellt in der Hyperlink-Konnektivitätsmatrix. Die Hyperlink-Konnektivitätsmatrix "C" hat "m" Zeilen und "m" Spalten. Die Anzahl von Zeilen und Spalten "m" ist gleich der Anzahl von Pages, wobei eine spezifische Zeile angezeigt wird durch einen Index "i" und eine spezifische Spalte angezeigt wird durch eine Spalte "j". Jedes Element in dieser Matrix Cij enthält einen Wert von "1", wenn und nur wenn eine Page wi ein Link zu einer anderen Page wj aufweist, andernfalls enthält sie eine "0".
  • Die Hyperlink-Konnektivitätsmatrix wird dann verwendet zum Berechnen von zwei skalaren Werten, die Authority-Markierung ai und die Hub-Markierung hi für jede Page wi. Generell ist eine Hub eine Page mit vielen ausgehenden Links, und eine Authority ist eine Page mit vielen eingehenden Links. Die Hub- und Authority-Markierungen reflektieren, in welchem Maß eine Page als Referenz dient bzw. auf diese selbst verwiesen wird. Die Werte für die Hub- und Authority-Markierungen werden bestimmt wie folgt:

    (3) hi = ΣjCi,j

    (4) ai = ΣjCj,i
  • Der nächste Schritt beim Bestimmen der Propagationsmatrix ist ein Bestimmen von Übergangszählungen und Page-Views, Block 44. Bei einem Ausführungsbeispiel repräsentiert jede Übergangszählung Ti,j ein tatsächliches Benutzerverhalten im Internet im Hinblick darauf, wie häufig ein Benutzer eine Page wi betrachtet und dann direkt andere Pages wj betrachtet (ohne irgendwelche Zwischen-Pages zu betrachten). Sämtliche Übergangszählungen werden dargestellt in Matrixform, wobei Ti,j jede individuelle Übergangszählung darstellt. Page-Views repräsentieren die Anzahl einer Betrachtung einer Page und stehen in Zusammenhang mit den Übergangszählungen.

    (5) νi = ΣjTi,j
  • Dann werden die Hyperlink-Konnektivitätsmatrix, Hub- Markierung, Authority-Markierung, Übergangszählungen und Page- Views alle verwendet zum Erzeugen der Propagationsmatrix, Block 46. Die Propagationsmatrix P wird erzeugt unter Verwendung der folgenden Formel:


  • Die Funktionen F(hi), G(ai) und H(vi) liefern Gewichtungen für die Hub-Markierungen, Authority-Markierungen und Page-Views. Diese Funktion F(hi), G(ai) und H(vi) sind monoton steigende Skalarfunktionen von nicht-negativen Integerzahlen Hi, ai bzw. vi. Jede dieser Funktion entspricht einer Gewichtungsfunktion, wie eine Stufenfunktion. Beispielsweise:


    wobei F' > F". Dies gibt einer Hub-Markierung eine niedrigere Wertigkeit, wenn sie unterhalb eines Schwellenwerts "x" liegt, welcher anzeigt, dass ungenügende Daten akkumuliert wurden. G(ai) und H(vi) werden in einer ähnlichen Weise bestimmt.
  • Jedoch wird der Schwellenwert von G(ai) ein Wert "in der Y- Achsenrichtung" von ai sein, und der Schwellenwert für H(vi) wird ein Wert "z" von vi sein.
  • Die Funktionen f(Ci,jhi), g(Ci,jai) und h(Ti,j,vi) repräsentieren die Beiträge der Links und Übergänge. Jede Funktion ist ein gewichteter Quotient der Argumente davon, außer, wenn der Nenner davon gleich Null ist. Beispielsweise ƒ(Ci,j):


  • Die Funktionen g(Ci,j,ai) und h(Ti,j,vi) werden bestimmt in einer ähnlichen Weise.
  • Wie dargestellt in Fig. 1, bestimmt der nächste Schritt beim Bestimmen, ob jede Page kommerziell ist, eine kommerzielle Markierung für jede Page 20. Diese Bestimmung beinhaltet nicht nur die Propagationsmatrix P und die Transaktionsrating τ(wi), sondern auch die Spam-Markierung σ(wi), und die Qualitätsmarkierung q(wi). Das Transaktionsrating τ(wi)und die Spam-Markierung σ(wi) bestimmen das Gewicht der verschiedenen Komponenten. Die kommerzielle Markierung wird rekursiv für jede Page wi bestimmt wie folgt:


    wobei k'(0) der gewichtete Mittelwert des Transaktionsrating τ(wi), der Spam-Markierung σ(wi) und der Qualitätsmarkierung q(wi) ist und A und B Gewichtungsfaktoren sind, welche das Gewicht bestimmen, das τ(wi) bzw. q(wi) gegeben wird. A und B können ausgewählt werden durch den Suchmaschinenanbieter bzw. Erzeuger. Der Vektor k'(t) hat ein Element k'i(t) für jede geprüfte Page wi. η ist das Propagationsmatrixgewicht und kann ebenfalls festgelegt werden durch den Suchmaschinenanbieter oder Erzeuger. η bestimmt den Grad, zu welchem die Propagationsmatrix sich auswirkt auf die kommerzielle Markierung in den Anfangsiterationen. Das Symbol "t" zeigt eine zunehmende Integerzahl an, welche bei eins beginnt und für jede Iteration um eins zunimmt. Jede Iteration hat das Potential, sämtliche wi zu beeinflussen. Die Iterationen fahren fort für eine vorbestimmte Anzahl von Iterationen "t'" oder bis eine geringe Änderung im Wert der kommerziellen Markierung existiert:

    (15) ||k'(t') - k'(t' - 1)|| P ≤ ▵
  • p ist der Normwert und ▵ ein Änderungswert der kommerziellen Markierung. Sobald die Differenz von Werten, erhalten aus zwei aufeinanderfolgenden Iterationen, gleich oder kleiner als der Änderungswert der kommerziellen Markierung ist, stoppt die Iteration und die kommerzielle Markierung wird erhalten, 22.
  • Sämtliche Pages mit einer kommerziellen Markierung oberhalb oder gleich eines Schwellenwerts der kommerziellen Markierung werden herausgefiltert und umfassen die Spam-inclusiven kommerziellen Pages 22. Obwohl sie häufig betrachtet werden können als ein Teilsatz der kommerziellen Pages, werden die Spam-Pages herausgefiltert aus den Spam-inclusiven Pages 24, um die kommerziellen Pages auszubringen, da Spam-Pages generell unerwünscht sind. Die kommerziellen Pages werden dann platziert in die kommerzielle Kategorie 26. Sobald die kommerziellen Pages und die Spam-Pages aus den Pages herausgefiltert sind, werden die übrigen Pages platziert in die nichtkommerzielle Kategorie. Die nichtkommerzielle Kategorie kann auch die PCC-Pages umfassen.
  • Bei einem weiteren Ausführungsbeispiel werden Pages kategorisiert in kommerzielle und nichtkommerzielle Kategorien wie oben beschrieben, jedoch werden Spam-Pages nicht getrennt in eine verschiedene Kategorie. Stattdessen werden die Spam- Pages kategorisiert entweder als kommerzielle oder als nichtkommerzielle Pages in Abhängigkeit von der unterliegenden kommerziellen Markierung, zugewiesen zu dieser Page, und den Schwellenmarkierungen für jede spezifizierte Kategorie. Da Spam-Pages theoretisch entweder kommerziell oder nichtkommerziell sein können und da die Einschließung von Spam-Pages nützlich sein kann für manche Benutzer und/oder in manchen Anwendungen, umfasst dieses Ausführungsbeispiel einen Schritt für die Identifikation und das Herausfiltern von Spam- Pages nicht. Durch Entfernen der Identifikation und des Herausfilterns von Spam-Pages, weist dieses Ausführungsbeispiel eine größere modulare Kompatibilität mit bestehenden Suchmaschinen auf, da viele bestehende Suchmaschinen ausgestattet sind mit ihren eigenen Systemen zur Identifikation und Beseitigung von Spam-Pages. Bei einem anderen Ausführungsbeispiel werden Spam-Pages nicht entfernt aus der kommerziellen Kategorie, da Spam-Pages einen potentiellen Wert haben, beispielsweise als Sales-Leads für eine Zahlung für eine Leistungssuchmaschine.
  • Bei einem anderen Ausführungsbeispiel kann eine Kategorisierung von Resulting-Pages kundenangepasst werden durch oder für den Benutzer (einschließlich Verbraucher, Site- Anbieter und Werbende). In der ersten Stufe des Prozesses definiert der Benutzer seine Kategorisierungspräferenzen durch Eingeben dieser Präferenzen über die Benutzerschnittstelle des Systems und anschließendes Verfeinern der Auswahl, bis die gewünschte Kategorisierung erreicht ist. Sowohl die Kategorien selbst als auch die Art, wie die Resulting-Pages kategorisiert werden, können kundenangepasst werden. Das System kann kundenangepasst werden zum Kategorisieren von Resulting-Pages in Kategorien, spezifiziert durch den Benutzer, unter Verwendung der oben beschriebenen Verfahren. In welche Kategorie eine gegebene Resulting-Page kategorisiert wird, kann durchgeführt werden durch Auswählen eines beliebigen der nachfolgenden Einzelverfahren oder in Kombination dieser Verfahren: wie PCC-Pages kategorisiert werden, die Schwellenniveaus, das pro-Normniveau, Parameter A und B in Gleichung (12), die Anzahl von Iterationen t' zum Berechnen der kommerziellen Markierung, des Abweichungswerts ▵ der kommerziellen Markierung, die Kriterien, verwendet zum Bestimmen, welche Resulting-Pages kommerzielle oder PCC-Pages sind, und wie viel Gewicht jedem Kriterium zu verleihen ist, die Kriterien, verwendet zum Bestimmen der Transaktionsmarkierung, und Transaktionsmarkierungsformel, verwendet zum Bestimmen des Transaktionsratings (die "Kategorisierungskriterien").
  • Die Kategorisierungskriterien können alle so gewählt werden, dass Resulting-Pages kategorisiert und dargestellt werden in einer Vielzahl von Weisen, um die Präferenzen des Benutzers zu befriedigen. Generell können die Kategorisierungskriterien empirisch gewählt werden durch manuelles Versehen des Systems 200 mit vorgewählten Pages und Prüfen der Kategorien, in welche die vorausgewählten Pages kategorisiert werden, und anschließendes Einstellen der Kategorisierungskriterien, um das System abzustimmen, bis die gewünschten Kategorisierungen erreicht werden. Beispielsweise versieht der Benutzer, wie dargestellt in Fig. 5A, das System 200 mit vorausgewählten Pages, für welche der Benutzer die Kategorien kennt, in welche die Pages platziert werden sollten, 210. Der Benutzer gibt dann die Benutzerpräferenzen im Hinblick auf die Kategorien ein, in welche die Pages zu kategorisieren sind, und das Format, in welchem die kategorisierten Ergebnisse angezeigt werden sollten, 212. Der Benutzer legt dann die Kategorisierungskriterien fest, 214. Das System kategorisiert und stellt dann die kategorisierten Ergebnisse dem Benutzer dar, 216. Der Benutzer bestimmt dann, ob das System die vorgewählten Pages in die gewünschten Kategorien kategorisiert hat, 218. Wenn die vorgewählten Pages nicht kategorisiert sind in die gewünschten Kategorien, kann jede beliebige oder eine Kombination der Kategorisierungskriterien geändert und im System festgelegt werden, 214. Die Schritte 214, 216 und 218 können wiederholt werden, bis die gewünschte Kategorisierung erreicht ist.
  • In Schritt 212 kann der Benutzer Präferenzen für die Weise festlegen, in welcher die kategorisierten Ergebnisse angezeigt werden. Die Ergebnisse, erhalten aus einem Kategorisieren der Resulting-Pages, können angezeigt werden in einer Vielzahl von Weisen. Beispielsweise kann der Benutzer spezifizieren, dass nur Resulting-Pages, welche übereinstimmen mit einer Schlüsselwortsuche, zu kategorisieren sind und darzustellen sind, oder dass ein spezifischer Typ bzw. eine spezifische Kategorie von Pages immer ausgeschlossen werden, beispielsweise pornographische Werbung oder Schuldenentlastungs- bzw. Kreditwerbungen. Außerdem oder alternativ kann der Benutzer die kategorisierten Pages betrachten, welche enthalten sind in bestimmten Kategorien, in einer Vielzahl von Weisen, einschließlich eines Anzeigens durch eine Kategorie oder nur eines Anzeigens bestimmter Kategorien, während andere nicht angezeigt werden. Außerdem oder zusätzlich kann der Benutzer die Reihenfolge spezifizieren, in welcher die kategorisierten Pages anzuzeigen sind. Beispielsweise können die kategorisierten Pages angezeigt werden durch eine Kategorie, wobei eine bevorzugte Kategorie zuerst erscheint. Außerdem oder alternativ können auch Zwischenwerte, wie etwa die Transaktionsmarkierung, das Transaktionsrating, die Hyperlink-Konnektivitätsmatrix, die Propagationsmatrix, die Transaktions-Authority und Hub- Markierungen, die kommerziellen Markierungen, Spam- und Qualitätsmarkierungen, angezeigt werden. Zusätzlich oder alternativ können Benutzer auch anfordern, dass der Ankertext der Links geprüft wird. Wenn der Ankertext die Schlüsselwörter enthält, werden die Pages, welche eine beliebige Anzahl der Schlüsselwörter enthalten, mit einer höheren Gewichtung versehen als die Links, welche keine der Schlüsselwörter enthalten. Alternativ können Links, welche eine größere Anzahl von Schlüsselwörtern enthalten, mit einer höheren Gewichtung versehen werden als jene mit einer niedrigeren Anzahl. Eine Kundenanpassung der Anzeige von kategorisierten Pages kann durchgeführt werden unter Verwendung bekannter Anzeige- und Darstellungstechniken.
  • Sobald der Benutzer die Kategorien, die Kategorisierungskriterien und die Anzeigepräferenzen spezifiziert hat, kann eine Suche 250 durchgeführt werden. Wie dargestellt in Fig. 6, beginnt eine Suche 250, wenn ein Benutzer einen Suchbegriff oder eine Suchphrase in das System unter Verwendung einer Benutzerschnittstelle 260 eingibt. Das System erzeugt dann die Resulting-Pages gemäß einem beliebigen von einer Vielzahl bekannter Relevanzverfahren, einschließlich einer Rückgabe von Resulting-Pages, welche ein Schlüsselwort oder die Schlüsselwörter enthalten, die mit dem Suchbegriff bzw. der Suchphrase übereinstimmen (die Suchergebnisse) 262. Das System kategorisiert dann die Suchergebnisse in Kategorien, welche spezifiziert wurden durch den Benutzer, so dass die Kategorisierungskriterien, spezifiziert durch den Benutzer, erfüllt sind, 264. Das System stellt dann die kategorisierten Pages gemäß den Darstellungspräferenzen des Benutzers dargestellt, 266.
  • Bei einem weiteren Ausführungsbeispiel können die kommerziellen Pages verwendet werden zum Erzeugen von Sales- Leads. Unter Verwendung der URLs der Commercial Pages können Kontaktinformationen für die Firmen, welche die Commercial Pages hosten, erhalten werden aus einem Domänennameneintrag. Die Liste von Firmen und ihrer Kontaktinformationen können dann kompiliert werden, um eine Liste von Sales-Leads zu erzeugen. Wie dargestellt in Fig. 7, umfasst ein System 270 zum Kategorisieren der Resulting-Pages generell die zwei folgenden Schritte: (a) Annehmen, dass jede Resulting-Page von nichtkommerzieller Natur ist, 272; (b) Identifizieren und Herausfiltern der Pages, welche von kommerzieller Natur sind, in eine erste Kategorie, 274; (c) Identifizieren und Herausfiltern existierender Werber-Kunden-Pages von den Pages in der ersten Kategorie, 276; (d) Sammeln von Kontaktinformationen für die übrigen Pages ("Lead-Pages"), 278; und (e) Liefern der Lead-Pages und ihrer dazugehörigen Kontaktinformationen als Sales-Leads, 280, beispielsweise zu einem Anbieter einer nach Leistung zahlbaren Suchmaschine oder einer beliebigen anderen interessierten Partei.
  • Bei einem anderen Ausführungsbeispiel wird Werbenden die Gelegenheit geboten zu zahlen, um ihre Listen in bestimmte Kategorien aufzunehmen oder aus diesen auszuschließen, unter Verwendung der in US-Patent Nr. 6 269 361 beschriebenen Techniken, welche durch Verweis hierin enthalten ist. Die Gebühr, gezahlt durch die Werbenden, kann eine Funktion von der Hervorhebung sein, welche ihren Listen in einer ausgewählten Kategorie gegeben wird. In einem weiteren Ausführungsbeispiel werden nur Pages, für welche eine Gebühr bezahlt wurde, erscheinen in der kommerziellen Kategorie (oder einer anderen bezeichneten Kategorie). Bei einem Ausführungsbeispiel kann ein kundenanpassbares System zum Kategorisieren und Darstellen der Sätze oder der Ergebnisse einer Suche der Sätze in einer verteilten Datenbank konfiguriert werden als ein Kontenverwaltungsserver oder ein Suchmaschinenserver, verknüpft mit einer Datenbanksuchvorrichtung, wie etwa der im US-Patent Nr. 6 269 361 beschriebene Typ. Die hier beschriebenen Funktionen, welche dargestellt sind in Fig. 1 bis 8, können in einer beliebigen geeigneten Weise realisiert werden.
  • Eine Realisierung ist eine computerlesbare Quelle oder ein Objektcode, welcher einen Prozessor eines Servers oder eine andere Rechenvorrichtung steuert, um die beschriebenen Funktionen durchzuführen. Der computerlesbare Code kann realisiert sein als ein Artikel mit einem computerlesbaren Signal-tragenden Medium. In einem Ausführungsbeispiel ist das Medium ein beschreibbares Datenspeichermedium, wie etwa eine Floppydisk oder eine Festplatte eines Computers bzw. ein nichtflüchtiger Typ eines Halbleiterspeichers. Bei einem anderen Ausführungsbeispiel ist das Medium ein moduliertes Trägersignal, wie etwa Daten, gelesen über ein Netzwerk, wie etwa das Internet. Das Medium umfasst eine Einrichtung im Medium zum Bestimmen, ob eine Page von Transaktionsnatur ist, eine Einrichtung im Medium zum Ableiten einer Propagationsmatrix für die Page und eine Einrichtung im Medium zum Definieren einer kommerziellen Markierung als eine Funktion der Propagationsmatrix für die Page. Die verschiedenen Einrichtungen können realisiert sein als ein Computerquellcode, ein computerlesbarer Objektcode oder eine beliebige andere geeignete Vorrichtung zum Steuern einer Verarbeitungsvorrichtung, um die beschriebene Funktion durchzuführen.
  • Ein anderes Ausführungsbeispiel der vorliegenden Erfindung bildet eine Vorrichtung zum Kategorisieren und Darstellen der Sätze oder der Ergebnisse einer Suche der Sätze in einer verteilten Datenbank über eine in Fig. 8 dargestellte verteilte Client-Server-Architektur. Diese Suchmaschine und Datenbank 100, dargestellt in Fig. 8, umfasst generell eine Rechenvorrichtung 110, 114, 118, 120, Speichervorrichtungen 112 und 116, einen Server 124 und eine Schnittstelle 122. Die Rechenvorrichtungen 110, 114, 118, 120 können beliebige Prozessoren umfassen, welche Rechenoperationen ausführen können. Der Crawler 110 ist eine Rechenvorrichtung, welche verbunden ist mit dem Internet über ein Netzwerk, und zu jeder Page geht und eine Kopie der Page erstellt (die "Resulting- Page"), einschließlich des statischen und/oder dynamischen Inhalts, ob Text, Bild, Audio, Video oder stehende Bilder, und die Kopie im Internet-Cache 112 speichert. Alternativ wird lediglich eine diskrete Anzahl von Abschnitten von jeder Resulting-Page, wie etwa die URL und/oder Titel kopiert und gespeichert im Internet-Cache 112. Dann vollführt der Indizierer 114 eine Zuweisung jeder Resulting-Page-Kopie bzw. eines Abschnitts davon, einer Adresse im Internet-Cache 112 durch (die "Internet-Cache-Adresse"). Der Indizierer generiert ferner Suchbegriffe für jede Resulting-Page und speichert diese Suchbegriffe mit der dazugehörigen Internet-Cache- Adresse im Internet-Index 116. Der Internet-Cache und der Internet-Index würden etwa 30 terabyte bzw. 5 terabyte verwenden, die derzeitige Größe des Internet vorausgesetzt.
  • Der Transaktionsmarkierungsgenerator 118 verwendet die Information, enthalten in den Kopien jeder Resulting-Page (bzw. Abschnitten davon), gespeichert im Internet-Cache 112, um die Transaktionsmarkierungen zu generieren. Diese Transaktionsmarkierungen werden dann gespeichert im Internet- Cache 112 mit ihren dazugehörigen Resulting-Internet-Pages. Der Kategoriezuweiser 120 verwendet die Transaktionsmarkierungen und andere Informationen, gespeichert im Internet-Cache 112, zum Generieren der Propagationsmatrix und Durchführen einer Zuweisung einer Kategorie zu jeder Resulting-Page. Die Transaktionsmarkierungen, kommerzielle Markierungen, Qualitätsmarkierungen, Spam-Markierungen und Kategorien für jede Page werden gespeichert im Internet-Cache 112 mit ihren dazugehörigen Pages. Die kundenanpassbaren Schwellenwerte p, der Normparameter p, die kommerziellen Markierungsänderungswerte Δ etc. können gespeichert werden auf der Client- oder Serverseite des Systems wie Fachleuten auf diesem Gebiet bekannt. Ein Suchserver 124 ist verbunden mit dem Internet-Index 116 und dem Internet-Cache 112 und ermöglicht der Vorrichtung eine Verbindung mit den Benutzern über die Benutzerschnittstelle 122 des Systems. Die Benutzerschnittstelle 122 des Systems kann ein Browser sein, oder sie kann eine Agent- oder Applikationssoftware sein.
  • Ein Benutzer, welcher das Internet durchsuchen will, kann die Benutzerschnittstelle 122 des Systems verwenden für eine Verbindung mit dem Suchserver 124 über das Internet. Wenn die Benutzerschnittstelle 122 des Systems jedoch ein Browser ist, sendet sie die Suchanfrage des Benutzers zu dem Suchserver 124 über das Internet. Alternativ sendet, wenn die Benutzerschnittstelle 122 eine Agentsoftware ist, der Agent eine automatische Suchanfrage über das Internet. Außerdem kann die Benutzerschnittstelle 122 sowohl einen Browser als auch eine Agentsoftware umfassen und eine automatische Suchanfrage zum Suchserver 124 über das Internet senden. Der Suchserver 124 verwendet dann den Internet-Index 116 zum Bestimmen, welche Resulting-Pages verknüpft sind mit den Suchbegriffen des Benutzers. Diese Resulting-Pages werden dann aufgefunden aus dem Internet-Cache 112 und dem Benutzer dargestellt über die Benutzerschnittstelle 122 in der durch den Benutzer spezifizierten Weise.
  • Aus dem Vorhergehenden ist ersichtlich, dass die vorliegend offenbarten Ausführungsbeispiele ein Verfahren und eine Vorrichtung zum Kategorisieren und Darstellen ausgewählter Elemente einer gewünschten Datenbank liefert. Weitere Vorteile umfassen ein Versorgen von Werbern, Suchdienstanbietern und Benutzern mit einer Suchmaschine und einer Datenbank, welche die kundenangepasste Kategorisierung von Suchergebnissen ermöglicht, und ein Liefern eines Verfahrens und einer Vorrichtung zum Filtern von Suchergebnissen, so dass nur eine gewünschte Kategorie oder gewünschte Kategorien von Suchergebnissen zurückgegeben bzw. angezeigt werden.
  • Weitere Vorteile der vorliegend offenbarten Ausführungsbeispiele umfassen ein Liefern für Benutzer, Werbende, Such-Site-Anbieter und Suchmaschinenanbieter ein Verfahren zur Kundenanpassung von Suchen, um Suchergebnisse zu suchen und/oder anzuzeigen gemäß einer Kategorie oder gemäß Kriterien, und ein Versorgen von Werbenden mit einem Verfahren zum Steuern mit andere Links, wobei eine Kategorisierung und eine Anzeige von Produkten und/oder Diensten von Werbenden erfolgt. Ferner offenbaren die vorliegenden Ausführungsbeispiele ein Liefern eines Verfahrens zum Identifizieren der Natur einer Site und Liefern einer Suchmaschine, welche fähig ist zur Kategorisierung von Suchergebnissen, sowie ein Liefern einer Suchmaschine, welche kundenanpassbar durch Benutzer und Werbende ist.
  • Obwohl die Erfindung beschrieben wurde im Hinblick auf spezifische Ausführungsbeispiele und Anwendungen, können Fachleute auf diesem Gebiet im Lichte dieser Offenbarung zusätzliche Ausführungsbeispiele ohne Überschreiten des Umfangs bzw. Abweichen von dem Wesen der beanspruchten Erfindung erzeugen. Beispielsweise können das System und die Verfahren, welche hier dargelegt sind, nicht nur auf Datenbanken angewandt werden, auf welche über das Internet zugegriffen wird, sondern auch auf eine beliebige verteilte Datenbank. Ferner existiert eine große Vielzahl von Kategorien, in welche die Pages oder Dokumente platziert werden können, sowie in den Kriterien, welche verwendet werden, um diese dort zu platzieren. Dementsprechend ist es selbstverständlich, dass die Zeichnungen und die Beschreibungen in dieser Offenbarung lediglich dazu dienen, das Verständnis für die Erfindung zu erleichtern, und nicht als den Umfang der Erfindung einschränkend betrachten werden sollten. Bezugszeichenliste







Claims (39)

1. Suchmaschine und Datenbank für eine verteilte Datenbank, umfassend:
mindestens eine Speichervorrichtung, umfassend
mindestens ein Internet-Cache; und
einen Internet-Index;
eine Rechenvorrichtung, umfassend:
einen Crawler in Kommunikation mit dem Internet- Cache und einem Internet;
einen Indizierer in Kommunikation mit dem Internet- Index und dem mindestens einen Internet-Cache;
einen Transaktionsmarkierungsgenerator in Kommunikation mit dem Internet-Cache; und
einen Kategoriezuweiser in Kommunikation mit dem Internet-Cache;
einen Suchserver in Kommunikation mit dem Internet- Cache, der Internet-Index; und
eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
2. Suchmaschine und Datenbank für eine verteilte Datenbank nach Anspruch 1, wobei der Internet-Cache mindestens etwa 30 terabyte hat.
3. Suchmaschine und Datenbank für eine verteilte Datenbank nach Anspruch 1, wobei der Internet-Index mindestens etwa 5 terabyte hat.
4. Verfahren zum Durchsuchen einer verteilten Datenbank, umfassend:
a) Eingeben von Suchbegriffen oder Phrasen in ein System;
b) Generieren von Dokumenten mit Schlüsselwörtern, welche mit den Suchbegriffen bzw. Phrasen übereinstimmen;
c) Kategorisieren von Suchergebnissen in Kategorien gemäß Kategorisierungskriterien zum Erzeugen von kategorisierten Dokumenten; und
d) Darstellen der kategorisierten Dokumente.
5. Verfahren zum Durchsuchen einer verteilten Datenbank nach Anspruch 4, wobei Kategorisierungskriterien ausgewählt werden durch einen Benutzer.
6. Verfahren zum Durchsuchen einer verteilten Datenbank nach Anspruch 5, wobei die Kategorien ausgewählt werden durch einen Benutzer.
7. Verfahren zum Durchsuchen einer verteilten Datenbank nach Anspruch 6, wobei Kategorisierungskriterien ausgewählt werden unter Verwendung von Schritten, umfassend:
manuelles Versehen des Systems mit vorausgewählten Dokumenten; und
Wiederholen der Schritte von Anspruch 4, während die Kategorisierungskriterien von Schritt (b) während jeder Iteration geändert werden, bis die kategorisierten Dokumente kategorisiert sind in die Kategorien, wie annähernd beschrieben.
8. Verfahren zum Durchsuchen einer verteilten Datenbank nach Anspruch 4, ferner umfassend ein Auswählen von Anzeigepräferenzen, wobei die Anzeigepräferenzen durchführen, wie die kategorisierten Dokumente dargestellt werden in Schritt (d).
9. Verfahren zum Erzeugen von Dokumenten in einer verteilten Datenbank, um kategorisierte Dokumente zu erzeugen, wobei das Verfahren umfasst:
Anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind;
Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie;
Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie; und
Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren sämtlicher Dokumente des Typs 4 in einer dritten Kategorie.
10. Verfahren zum Erzeugen von Dokumenten in einer verteilten Datenbank nach Anspruch 9, wobei die Dokumente Pages sind und die verteilte Datenbank das Internet ist.
11. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien, umfassend:
Bezeichnen einer ersten Kategorie als kommerzielle Pages und einer zweiten Kategorie als informative Pages;
Bestimmen einer Qualitätsmarkierung q(wi) für jede Resulting-Page;
Bestimmen eines Transaktionsrating für jede Resulting- Page τ(wi);
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede Resulting-Page;
Herausfiltern sämtlicher Resulting-Pages, welche mit einem Schwellenwert der kommerziellen Markierung übereinstimmen bzw. diesen überschreiten;
wobei die Resulting-Pages, welche mit dem Schwellenwert der kommerziellen Page übereinstimmen bzw. diesen überschreiten, platziert werden in der ersten Kategorie und alle übrigen Resulting-Pages platziert werden in der zweiten Kategorie.
12. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 11, wobei ein Bestimmen der Qualitätsmarkierung für jede Resulting-Page ein Bewerten einer Teilmenge von Resulting-Pages gegen eine ausgewählte Gruppe von Kriterien umfasst.
13. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 12, wobei die Auswahlkriterien eine Kombination aus dem Folgenden umfassen können: Qualität des Inhalts, Reputation eines Autors bzw. einer Quelle und Benutzerfreundlichkeit.
14. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 12, wobei ein Standardwert Resulting-Pages zugewiesen wird, welche nicht enthalten sind in der Teilmenge von Resulting-Pages.
15. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 11, wobei ein Bestimmen des Transaktionsrating τ(wi) umfasst:
Bestimmen, ob jede Resulting-Page Auswahlkriterien erfüllt;
Bestimmen, wie stark jede Resulting-Page die Auswahlkriterien erfüllt;
Bestimmen einer Transaktionsmarkierung für jede Page; und
Bestimmen des Transaktionsrating für jede Page von der Transaktionsmarkierung.
16. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 15, wobei ein Bestimmen, wie stark jede Resulting-Page die Auswahlkriterien erfüllt, ein Bewerten jeder Resulting-Page im Hinblick auf die Auswahlkriterien und ein Zuweisen jeder Resulting-Page entweder eines Boolschen oder eines gewichteten Werts, welcher reflektiert, wie stark jede der Resulting-Pages jede der Auswahlkriterien erfüllt, erfolgt.
17. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 15, wobei ein Bestimmen einer Transaktionsmarkierung für jede Page ein Erzeugen eines Vektors für jede Resulting-Page ak(wi) umfasst, wobei jeder Vektor eine Vielzahl von Elementen akn(wi) enthält, wobei jedes der Vielzahl von Elementen akn(wi) ein Boolscher Wert ist, welcher reflektiert, wie stark jede der Resulting-Pages jedes der Auswahlkriterien erfüllt.
18. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 15, wobei ein Bestimmen einer Transaktionsmarkierung für jede Page ein Erzeugen eines Vektors für jede Resulting-Page βk(wi) umfasst, wobei jeder Vektor eine Vielzahl von Elementen βkn(wi) enthält, wobei jedes der Vielzahl von Elementen βkn(wi) ein gewichteter Wert ist, welcher reflektiert, wie stark jede der Resulting-Pages jedes der Auswahlkriterien erfüllt.
19. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 15, wobei ein Bestimmen eines Transaktionsrating τ(wi) für jede Page von der Transaktionsmarkierung ein Bewerten einer Beziehung zwischen dem Transaktionsrating τ(wi) und einer p-Norm eines Vektors für jede Resulting-Page ak(wi) umfasst, wobei die Beziehung definiert ist durch


20. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 19, wobei p = 2 ist.
21. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 15, wobei ein Bestimmen des Transaktionsrating τ(wi) für jede Page von der Transaktionsmarkierung ein Bewerten einer Beziehung zwischen dem Transaktionsrating τ(wi) und einer p-Norm eines Vektors für jede Resulting-Page βk(wi) umfasst, wobei die Beziehung definiert ist durch


22. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 21, wobei p = 2 ist.
23. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 11, wobei ein Ableiten einer Propagationsmatrix umfasst;
Erzeugen einer Hyperlink-Konnektivitätsmatrix C mit Elementen Ci,j,
Berechnen einer Vielzahl von Authority-Markierungen ai und einer Vielzahl von Hub-Markierungen hi;
Berechnen einer Vielzahl von Überganszählungen Ti,j und einer Vielzahl von Page-Views vi für jede Resulting-Page; und
Erzeugen der Propagationsmatrix P mit Propagationsmatrixelementen Pi,j.
24. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 23, wobei ein Erzeugen einer Hyperlink-Konnektivitätsmatrix C umfasst: Darstellen einer Link-Struktur des Internet in einer Matrix.
25. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 24, wobei die Link-Struktur im Falle des Internet dargestellt wird durch Prüfen einer Anzahl von Links von jeder Resulting-Page zu jeder Resulting-Page.
26. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 23, wobei die Vielzahl von Hub- Markierungen hi und die Vielzahl von Authority- Markierungen in Zusammenhang stehen mit der Hyperlink- Konnektivitätsmatrix C, und wobei die Vielzahl von Authority-Markierungen ai definiert ist als: ai = ΣjCj,i, und wobei die Vielzahl von Hub-Markierungen definiert ist als: hi = ΣjCi,j.
27. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 23, wobei die Vielzahl von Page- Views vi in Zusammenhang steht mit der Vielzahl von Übergangszählungen ti,j und definiert ist durch: vi = ΣjTj,i.
28. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 27, wobei die Propagationsmatrix eine Funktion der Hyperlink-Konnektivitätsmatrix, der Vielzahl von Hub-Markierungen, der Vielzahl von Authority-Markierungen, der Vielzahl von Übergangszählungen und der Vielzahl von Page-Views ist.
29. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 27, wobei ein Berechnen der Propagationsmatrix ferner ein Gewichten der Vielzahl von Hub-Markierungen, der Vielzahl von Authority-Markierungen und der Vielzahl von Page-Views umfasst.
30. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 27, wobei die Propagationsmatrix P ferner eine Funktion von Gewichtungsfunktionen F(hi), G(ai) und H(vi) ist, und wobei die Propagationsmatrix P definiert ist als:


31. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 30, wobei jede der Gewichtungsfunktionen eine Stufenfunktion umfasst.
32. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 31, wobei die kommerzielle Markierung k für jede Resulting-Page wi rekursiv bestimmt wird.
33. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 32, wobei die kommerzielle Markierung k rekursiv bestimmt wird über t-Iterationen von einer Transversalen der Propagationsmatrix PT, eines Propagationsmatrixgewichts η und eines Anfangswerts k' (0) der kommerziellen Markierung, wobei k'(0) gewichtet wird durch Auswahlmengen A und B und definiert ist als:

und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als: k'(t) = hPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t') ist.
34. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien nach Anspruch 11,
ferner umfassend ein Bezeichnen einer dritten Kategorie als Spam-Pages;
und Bestimmen einer Spam-Markierung σ(wi) für jede Resulting-Page;
wobei ein Bestimmen der kommerziellen Markierung k für jede Resulting-Page rekursiv bestimmt wird über t- Iterationen von einer Transversalen der Propagationsmatrix PT, eines Propagationsmatrixgewichts η und eines Anfangswerts k'(0) der kommerziellen Markierung, wobei k'(0) gewichtet wird durch Auswahlmengen A und B und definiert ist als:


und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als:
k'(t) = ηPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t').
35. Verfahren zum Kategorisieren von Resulting-Pages in Kategorien, umfassend:
Bestimmen, ob jede der Vielzahl von Resulting-Pages eine Spam-Page ist;
Bestimmen einer Qualitätsmarkierung q(wi) für jede der Vielzahl von Resulting-Pages;
Bestimmen eines Transaktionsrating τ(wi) für jede der Vielzahl von Resulting-Pages;
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede der Vielzahl von Resulting-Pages;
Herausfiltern sämtlicher Spam-inclusiver kommerzieller Pages aus der Vielzahl von Resulting-Pages;
Herausfiltern von Spam-Pages aus den Spam-inclusiven kommerziellen Pages;
Platzieren sämtlicher kommerzieller Pages in einer kommerziellen Kategorie; und
Platzieren sämtlicher übriger Resulting-Pages in eine informative Kategorie.
36. Verfahren zum Kategorisieren von Dokumenten in einer verteilten Datenbank, umfassend:
Annehmen, dass sämtliche Dokumente in der verteilten Datenbank von nichtkommerzieller Natur sind;
Herausfiltern sämtlicher Dokumente, welche von kommerzieller Natur sind, aus den Dokumenten, wobei die Dokumente, welche von kommerzieller Natur sind, kommerzielle Dokumente sind; und
Erzeugen von Sales-Leads aus den kommerziellen Dokumenten.
37. Verfahren zum Kategorisieren von Dokumenten in einer verteilten Datenbank nach Anspruch 36, wobei ein Herausfiltern sämtlicher kommerzieller Dokumente ein Platzieren sämtlicher kommerzieller Dokumente in eine erste Kategorie umfasst.
38. Verfahren zum Kategorisieren von Dokumenten in einer verteilten Datenbank nach Anspruch 37, ferner umfassend nach einem Platzieren sämtlicher Dokumente, welche von kommerzieller Natur sind, in eine erste Kategorie, ein Herausfiltern existierender Werber-Kunden-Pages aus den kommerziellen Pages in der ersten Kategorie, wobei die kommerziellen Pages, welche in der ersten Kategorie bleiben, Lead-Pages sind.
39. Verfahren zum Kategorisieren von Dokumenten in einer verteilten Datenbank nach Anspruch 37, wobei ein Erzeugen von Sales-Leads aus den kommerziellen Dokumenten ein Erzeugen von Sales-Leads aus den Lead-Pages umfasst, wobei ein Erzeugen von Leads aus den Lead-Pages umfasst:
Sammeln von Kontaktinformationen für die Lead-Pages; und
Liefern einer Liste von Lead-Pages und der Kontaktinformationen.
DE10323444A 2002-05-24 2003-05-23 Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank Ceased DE10323444A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/155,290 US7231395B2 (en) 2002-05-24 2002-05-24 Method and apparatus for categorizing and presenting documents of a distributed database

Publications (1)

Publication Number Publication Date
DE10323444A1 true DE10323444A1 (de) 2003-12-11

Family

ID=22554828

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10323444A Ceased DE10323444A1 (de) 2002-05-24 2003-05-23 Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank

Country Status (10)

Country Link
US (2) US7231395B2 (de)
EP (1) EP1367509A3 (de)
JP (1) JP3905498B2 (de)
KR (1) KR100852034B1 (de)
CN (1) CN100517304C (de)
AU (1) AU2003204327B2 (de)
CA (1) CA2429338C (de)
DE (1) DE10323444A1 (de)
FR (1) FR2840088B1 (de)
GB (1) GB2389682A (de)

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6754873B1 (en) * 1999-09-20 2004-06-22 Google Inc. Techniques for finding related hyperlinked documents using link-based analysis
US6625595B1 (en) * 2000-07-05 2003-09-23 Bellsouth Intellectual Property Corporation Method and system for selectively presenting database results in an information retrieval system
US8209246B2 (en) 2001-03-20 2012-06-26 Goldman, Sachs & Co. Proprietary risk management clearinghouse
US8121937B2 (en) 2001-03-20 2012-02-21 Goldman Sachs & Co. Gaming industry risk management clearinghouse
US8140415B2 (en) * 2001-03-20 2012-03-20 Goldman Sachs & Co. Automated global risk management
US7899722B1 (en) * 2001-03-20 2011-03-01 Goldman Sachs & Co. Correspondent bank registry
US20030101191A1 (en) * 2001-11-28 2003-05-29 Yu-Chwin Lin Publication of commercial entity information and method for classifying commercial entity information
US20110264508A1 (en) * 2002-03-29 2011-10-27 Harik George R Scoring, modifying scores of, and/or filtering advertisements using advertiser information
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US8260786B2 (en) * 2002-05-24 2012-09-04 Yahoo! Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040049514A1 (en) * 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US7461051B2 (en) * 2002-11-11 2008-12-02 Transparensee Systems, Inc. Search method and system and system using the same
US7373300B1 (en) 2002-12-18 2008-05-13 At&T Corp. System and method of providing a spoken dialog interface to a website
US8065151B1 (en) * 2002-12-18 2011-11-22 At&T Intellectual Property Ii, L.P. System and method of automatically building dialog services by exploiting the content and structure of websites
EP1584013A4 (de) * 2002-12-20 2007-09-19 Shailen V Banker Verknüpftes informationssystem
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US7792828B2 (en) 2003-06-25 2010-09-07 Jericho Systems Corporation Method and system for selecting content items to be presented to a viewer
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US20050125290A1 (en) * 2003-08-01 2005-06-09 Gil Beyda Audience targeting system with profile synchronization
US9928522B2 (en) 2003-08-01 2018-03-27 Oath (Americas) Inc. Audience matching network with performance factoring and revenue allocation
US8464290B2 (en) 2003-08-01 2013-06-11 Tacoda, Inc. Network for matching an audience with deliverable content
US9118812B2 (en) 2003-08-01 2015-08-25 Advertising.Com Llc Audience server
US7805332B2 (en) * 2003-08-01 2010-09-28 AOL, Inc. System and method for segmenting and targeting audience members
US8150732B2 (en) * 2003-08-01 2012-04-03 Tacoda Llc Audience targeting system with segment management
US9117217B2 (en) * 2003-08-01 2015-08-25 Advertising.Com Llc Audience targeting with universal profile synchronization
US8554601B1 (en) 2003-08-22 2013-10-08 Amazon Technologies, Inc. Managing content based on reputation
US8046350B1 (en) * 2003-09-24 2011-10-25 Google Inc. Systems and methods for detecting commercial queries
US7783637B2 (en) 2003-09-30 2010-08-24 Microsoft Corporation Label system-translation of text and multi-language support at runtime and design
US7617205B2 (en) 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US7715059B2 (en) * 2003-10-22 2010-05-11 International Business Machines Corporation Facsimile system, method and program product with junk fax disposal
US7814101B2 (en) * 2003-10-30 2010-10-12 Microsoft Corporation Term database extension for label system
US7873536B2 (en) * 2003-12-11 2011-01-18 Google Inc. Systems and methods for providing advertisements in a communications network
CN100495392C (zh) * 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US8392249B2 (en) * 2003-12-31 2013-03-05 Google Inc. Suggesting and/or providing targeting criteria for advertisements
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US7707142B1 (en) * 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US7272601B1 (en) * 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7386572B2 (en) * 2004-04-14 2008-06-10 Nancy Kramer System and method for a modular user controlled search engine
US9223868B2 (en) 2004-06-28 2015-12-29 Google Inc. Deriving and using interaction profiles
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US8442953B2 (en) 2004-07-02 2013-05-14 Goldman, Sachs & Co. Method, system, apparatus, program code and means for determining a redundancy of information
US8762191B2 (en) 2004-07-02 2014-06-24 Goldman, Sachs & Co. Systems, methods, apparatus, and schema for storing, managing and retrieving information
US8510300B2 (en) 2004-07-02 2013-08-13 Goldman, Sachs & Co. Systems and methods for managing information associated with legal, compliance and regulatory risk
US8996481B2 (en) 2004-07-02 2015-03-31 Goldman, Sach & Co. Method, system, apparatus, program code and means for identifying and extracting information
JP2006048536A (ja) * 2004-08-06 2006-02-16 Canon Inc 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体
US8799079B2 (en) * 2004-10-22 2014-08-05 Adknowledge, Inc. System for prioritizing advertiser communications over a network
US20060095322A1 (en) * 2004-11-03 2006-05-04 Dierks Timothy M Determining prospective advertising hosts using data such as crawled documents and document access statistics
US7953725B2 (en) 2004-11-19 2011-05-31 International Business Machines Corporation Method, system, and storage medium for providing web information processing services
US20060149710A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features
US20060173822A1 (en) * 2005-02-03 2006-08-03 Microsoft Corporation System and method for optimization of results based on monetization intent
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US20060230009A1 (en) * 2005-04-12 2006-10-12 Mcneely Randall W System for the automatic categorization of documents
US7660792B2 (en) * 2005-04-29 2010-02-09 Microsoft Corporation System and method for spam identification
US7765481B2 (en) * 2005-05-03 2010-07-27 Mcafee, Inc. Indicating website reputations during an electronic commerce transaction
US9384345B2 (en) * 2005-05-03 2016-07-05 Mcafee, Inc. Providing alternative web content based on website reputation assessment
US8566726B2 (en) * 2005-05-03 2013-10-22 Mcafee, Inc. Indicating website reputations based on website handling of personal information
US7822620B2 (en) * 2005-05-03 2010-10-26 Mcafee, Inc. Determining website reputations using automatic testing
US20060253584A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Reputation of an entity associated with a content item
US8438499B2 (en) 2005-05-03 2013-05-07 Mcafee, Inc. Indicating website reputations during user interactions
US7562304B2 (en) * 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US20060253582A1 (en) * 2005-05-03 2006-11-09 Dixon Christopher J Indicating website reputations within search results
US7467146B2 (en) * 2005-05-05 2008-12-16 International Business Machines Corporation System, method and program product for determining whether a web page returned to a web browser is a redirected web page
US20060253423A1 (en) * 2005-05-07 2006-11-09 Mclane Mark Information retrieval system and method
US7996391B2 (en) * 2005-06-20 2011-08-09 Google Inc. Systems and methods for providing search results
US20070005564A1 (en) * 2005-06-29 2007-01-04 Mark Zehner Method and system for performing multi-dimensional searches
US7653617B2 (en) 2005-08-29 2010-01-26 Google Inc. Mobile sitemaps
US8161044B2 (en) * 2005-10-26 2012-04-17 International Business Machines Corporation Faceted web searches of user preferred categories throughout one or more taxonomies
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
US7890502B2 (en) * 2005-11-14 2011-02-15 Microsoft Corporation Hierarchy-based propagation of contribution of documents
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
US7529761B2 (en) * 2005-12-14 2009-05-05 Microsoft Corporation Two-dimensional conditional random fields for web extraction
US8572560B2 (en) * 2006-01-10 2013-10-29 International Business Machines Corporation Collaborative software development systems and methods providing automated programming assistance
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8701196B2 (en) 2006-03-31 2014-04-15 Mcafee, Inc. System, method and computer program product for obtaining a reputation associated with a file
US7831658B2 (en) * 2006-05-22 2010-11-09 Google Inc. Generating landing page variants
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8682712B2 (en) * 2006-05-22 2014-03-25 Google Inc. Monitoring landing page experiments
US8332366B2 (en) 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
FR2902907B1 (fr) * 2006-06-21 2008-10-17 Gerald Poitevineau Procede de recherche d'informations sur un reseau intranet, extranet, internet ou toute autre source de diffusion d'informations numeriques et moteur de recherche pour la mise en oeuvre dudit procede
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
TWI337712B (en) * 2006-10-30 2011-02-21 Inst Information Industry Systems and methods for measuring behavior characteristics, and machine readable medium thereof
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US9092434B2 (en) * 2007-01-23 2015-07-28 Symantec Corporation Systems and methods for tagging emails by discussions
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
US7698261B1 (en) * 2007-03-30 2010-04-13 A9.Com, Inc. Dynamic selection and ordering of search categories based on relevancy information
US8768932B1 (en) * 2007-05-14 2014-07-01 Google Inc. Method and apparatus for ranking search results
US7831611B2 (en) 2007-09-28 2010-11-09 Mcafee, Inc. Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
EP2193415A4 (de) 2007-09-28 2013-08-28 Ibm Verfahren und system zur analyse eines systems für den abgleich von datensätzen
EP2198374A4 (de) 2007-09-28 2013-07-17 Ibm Verfahren und system zur zu assoziation von datensätzen in mehreren sprachen
US8103676B2 (en) * 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
US8296643B1 (en) 2007-10-18 2012-10-23 Google Inc. Running multiple web page experiments on a test page
US20090119276A1 (en) * 2007-11-01 2009-05-07 Antoine Sorel Neron Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results
US7877369B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information
US7877368B2 (en) * 2007-11-02 2011-01-25 Paglo Labs, Inc. Hosted searching of private local area network information with support for add-on applications
TWI352934B (en) * 2007-11-27 2011-11-21 Inst Information Industry Advertisement selection systems and methods for in
NO20076159A (no) * 2007-11-29 2009-05-04 Fast Search & Transfer Asa Fremgangsmåte til forbedring av søkeeffektiviteten i et bedriftssøkesystem
US7991777B2 (en) 2007-12-03 2011-08-02 Microsoft International Holdings B.V. Method for improving search efficiency in enterprise search system
JP5309543B2 (ja) * 2007-12-06 2013-10-09 日本電気株式会社 情報検索サーバ、情報検索方法及びプログラム
US8402025B2 (en) * 2007-12-19 2013-03-19 Google Inc. Video quality measures
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8965865B2 (en) * 2008-02-15 2015-02-24 The University Of Utah Research Foundation Method and system for adaptive discovery of content on a network
US7895293B1 (en) 2008-02-25 2011-02-22 Google Inc. Web page experiments with fragmented section variations
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
JP5020152B2 (ja) * 2008-04-10 2012-09-05 ヤフー株式会社 スパム宣言を利用したウェブページ検索装置、方法及びコンピュータ・プログラム
US8112404B2 (en) * 2008-05-08 2012-02-07 Microsoft Corporation Providing search results for mobile computing devices
US8625642B2 (en) 2008-05-23 2014-01-07 Solera Networks, Inc. Method and apparatus of network artifact indentification and extraction
US8521732B2 (en) * 2008-05-23 2013-08-27 Solera Networks, Inc. Presentation of an extracted artifact based on an indexing technique
US8527339B2 (en) 2008-06-26 2013-09-03 Microsoft Corporation Quality based pricing and ranking for online ads
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8543569B2 (en) * 2009-01-13 2013-09-24 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8484200B2 (en) * 2009-01-13 2013-07-09 Infotrieve, Inc. System and method for the centralized management of a document ordering and delivery program
US8412749B2 (en) 2009-01-16 2013-04-02 Google Inc. Populating a structured presentation with new values
US8977645B2 (en) 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8615707B2 (en) 2009-01-16 2013-12-24 Google Inc. Adding new attributes to a structured presentation
US8452791B2 (en) 2009-01-16 2013-05-28 Google Inc. Adding new instances to a structured presentation
US8689117B1 (en) 2009-10-30 2014-04-01 Google Inc. Webpages with conditional content
EP2533163A4 (de) 2010-02-04 2015-04-15 Ebay Inc Listenanzeige auf basis von listenaktivitäten und entsprechenden anwendungen
US9390139B1 (en) 2010-06-23 2016-07-12 Google Inc. Presentation of content items in view of commerciality
US20150242884A1 (en) * 2010-12-13 2015-08-27 David K. Goodman Cross-vertical publisher and advertiser reporting
US8849991B2 (en) 2010-12-15 2014-09-30 Blue Coat Systems, Inc. System and method for hypertext transfer protocol layered reconstruction
US9436437B2 (en) 2010-12-17 2016-09-06 Microsoft Technology Licensing, Llc Creation, editing and navigation of diagrams
US9384408B2 (en) 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US20120179544A1 (en) * 2011-01-12 2012-07-12 Everingham James R System and Method for Computer-Implemented Advertising Based on Search Query
US8909619B1 (en) 2011-02-03 2014-12-09 Google Inc. Providing search results tools
US8666985B2 (en) 2011-03-16 2014-03-04 Solera Networks, Inc. Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
US8635519B2 (en) 2011-08-26 2014-01-21 Luminate, Inc. System and method for sharing content based on positional tagging
US20130086112A1 (en) 2011-10-03 2013-04-04 James R. Everingham Image browsing system and method for a digital content platform
US8737678B2 (en) 2011-10-05 2014-05-27 Luminate, Inc. Platform for providing interactive applications on a digital content platform
USD736224S1 (en) 2011-10-10 2015-08-11 Yahoo! Inc. Portion of a display screen with a graphical user interface
USD737290S1 (en) 2011-10-10 2015-08-25 Yahoo! Inc. Portion of a display screen with a graphical user interface
US8868536B1 (en) * 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US8255495B1 (en) 2012-03-22 2012-08-28 Luminate, Inc. Digital image and content display systems and methods
US8234168B1 (en) 2012-04-19 2012-07-31 Luminate, Inc. Image content and quality assurance system and method
US8495489B1 (en) 2012-05-16 2013-07-23 Luminate, Inc. System and method for creating and displaying image annotations
US10366401B1 (en) 2012-06-29 2019-07-30 Google Llc Content placement optimization
US20140122663A1 (en) * 2012-10-31 2014-05-01 Brown Paper Tickets Llc Overload protection based on web traffic volumes
CN104281560B (zh) * 2013-07-05 2020-06-30 腾讯科技(深圳)有限公司 一种记忆文本信息的显示方法、装置及终端
JP5882272B2 (ja) * 2013-08-30 2016-03-09 京セラドキュメントソリューションズ株式会社 資料評価プログラムおよび資料評価装置
CN104933570A (zh) * 2014-03-20 2015-09-23 阿里巴巴集团控股有限公司 用户侦测方法及装置
US10796321B1 (en) * 2014-08-05 2020-10-06 Groupon, Inc. Method and system for generating purchase recommendations based on purchase category associations
US10853317B2 (en) * 2015-08-07 2020-12-01 Adp, Llc Data normalizing system
GB2571686B (en) * 2016-11-28 2022-02-02 Cloudamize Inc System and method for analyzing and associating elements of a computer system by shared characteristics
WO2021163521A1 (en) * 2020-02-13 2021-08-19 Verity Platforms Inc. Information platform systems and methods
KR102244699B1 (ko) * 2020-06-15 2021-04-27 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4735A (en) * 1846-09-03 Improvement in separating oleic and stearic agios
US855008A (en) * 1906-03-21 1907-05-28 Homer G Kellogg Coin-controlled apparatus.
EP1235177A3 (de) 1993-12-16 2003-10-08 divine technology ventures Numerische aktive Werbung
US5623660A (en) * 1994-04-22 1997-04-22 Josephson; Jeffrey L. System for regulating access to data base for purposes of data base management
US5768521A (en) 1994-05-16 1998-06-16 Intel Corporation General purpose metering mechanism for distribution of electronic information
US5515488A (en) * 1994-08-30 1996-05-07 Xerox Corporation Method and apparatus for concurrent graphical visualization of a database search and its search history
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
US5752238A (en) 1994-11-03 1998-05-12 Intel Corporation Consumer-driven electronic information pricing mechanism
US5717923A (en) 1994-11-03 1998-02-10 Intel Corporation Method and apparatus for dynamically customizing electronic information to individual end users
US5724521A (en) 1994-11-03 1998-03-03 Intel Corporation Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner
US5659732A (en) 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5704060A (en) 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5748954A (en) 1995-06-05 1998-05-05 Carnegie Mellon University Method for searching a queued and ranked constructed catalog of files stored on a network
US5742816A (en) 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5794210A (en) 1995-12-11 1998-08-11 Cybergold, Inc. Attention brokerage
US5788367A (en) * 1995-12-13 1998-08-04 Jury Alexeevich Budaev Pneumatic vibrator
US5778367A (en) 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
AU1522797A (en) 1995-12-15 1997-07-03 Softpages, Inc. (Delaware Corporation), The Method for computer aided advertisement
US5724524A (en) 1995-12-15 1998-03-03 Pitney Bowes, Inc. Method and system for listing, brokering, and exchanging carrier capacity
US5918014A (en) 1995-12-27 1999-06-29 Athenium, L.L.C. Automated collaborative filtering in world wide web advertising
US5826267A (en) * 1996-03-20 1998-10-20 Mcmillan; James Michael Web information kiosk
US5848397A (en) 1996-04-19 1998-12-08 Juno Online Services, L.P. Method and apparatus for scheduling the presentation of messages to computer users
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US5920859A (en) 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5864845A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy
US5864846A (en) 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5862223A (en) 1996-07-24 1999-01-19 Walker Asset Management Limited Partnership Method and apparatus for a cryptographically-assisted commercial network system designed to facilitate and support expert-based commerce
US5852820A (en) 1996-08-09 1998-12-22 Digital Equipment Corporation Method for optimizing entries for searching an index
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5788357A (en) 1996-08-28 1998-08-04 K. W. Muth Company, Inc. Mirror assembly
GB2331166B (en) 1997-11-06 2002-09-11 Ibm Database search engine
US5903882A (en) 1996-12-13 1999-05-11 Certco, Llc Reliance server for electronic transaction system
US5966126A (en) * 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6285987B1 (en) 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US6041331A (en) * 1997-04-01 2000-03-21 Manning And Napier Information Services, Llc Automatic extraction and graphic visualization system and method
US5895470A (en) 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
US5930777A (en) 1997-04-15 1999-07-27 Barber; Timothy P. Method of charging for pay-per-access information over a network
US5933145A (en) * 1997-04-17 1999-08-03 Microsoft Corporation Method and system for visually indicating a selection query
US5886698A (en) * 1997-04-21 1999-03-23 Sony Corporation Method for filtering search results with a graphical squeegee
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6014664A (en) 1997-08-29 2000-01-11 International Business Machines Corporation Method and apparatus for incorporating weights into data combinational rules
US6389436B1 (en) 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6028605A (en) 1998-02-03 2000-02-22 Documentum, Inc. Multi-dimensional analysis of objects by manipulating discovered semantic properties
US6073135A (en) 1998-03-10 2000-06-06 Alta Vista Company Connectivity server for locating linkage information between Web pages
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP3696731B2 (ja) 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6356898B2 (en) 1998-08-31 2002-03-12 International Business Machines Corporation Method and system for summarizing topics of documents browsed by a user
US6078866A (en) 1998-09-14 2000-06-20 Searchup, Inc. Internet site searching and listing service based on monetary ranking of site listings
US6385602B1 (en) 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
AU2604100A (en) 1999-01-08 2000-07-24 Micro-Integration Corporation Search engine database and interface
US6907566B1 (en) 1999-04-02 2005-06-14 Overture Services, Inc. Method and system for optimum placement of advertisements on a webpage
US6836768B1 (en) * 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
EP1212699A4 (de) 1999-05-05 2006-01-11 West Publishing Co Dokument zuordnungssystem, verfahren und software
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6606657B1 (en) * 1999-06-22 2003-08-12 Comverse, Ltd. System and method for processing and presenting internet usage information
US6353825B1 (en) 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
JP2001134616A (ja) 1999-10-25 2001-05-18 Nec Corp 特定の話題に関するウェブ情報の構成方法とその構成システム
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
EP1240605A4 (de) 1999-12-08 2006-09-27 Amazon Com Inc System und verfahren zum orten und anzeigen von internetbasierten produktangeboten
EP1120722A3 (de) 2000-01-13 2004-01-14 Applied Psychology Research Limited Verfahren und Gerät um Kategoriedaten zu generieren
US20020004735A1 (en) 2000-01-18 2002-01-10 William Gross System and method for ranking items
US20040230461A1 (en) 2000-03-30 2004-11-18 Talib Iqbal A. Methods and systems for enabling efficient retrieval of data from data collections
KR20010102687A (ko) 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
US6721721B1 (en) * 2000-06-15 2004-04-13 International Business Machines Corporation Virus checking and reporting for computer database search results
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6826594B1 (en) * 2000-07-15 2004-11-30 Commission Junction Method and system for remote content management of a designated portion of a web page
WO2002007010A1 (en) 2000-07-17 2002-01-24 Asymmetry, Inc. System and method for storage and processing of business information
US6654743B1 (en) * 2000-11-13 2003-11-25 Xerox Corporation Robust clustering of web documents
US20020077998A1 (en) * 2000-12-08 2002-06-20 Brian Andrews Web based system and method for managing sales deals
US6594670B1 (en) * 2000-12-22 2003-07-15 Mathias Genser System and method for organizing search criteria match results
US6694307B2 (en) * 2001-03-07 2004-02-17 Netvention System for collecting specific information from several sources of unstructured digitized data
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US20040103073A1 (en) * 2002-11-21 2004-05-27 Blake M. Brian System for and method of using component-based development and web tools to support a distributed data management system

Also Published As

Publication number Publication date
KR20030091751A (ko) 2003-12-03
US7792818B2 (en) 2010-09-07
CN1462005A (zh) 2003-12-17
EP1367509A3 (de) 2005-08-31
US20060265400A1 (en) 2006-11-23
FR2840088A1 (fr) 2003-11-28
CA2429338C (en) 2007-01-16
CN100517304C (zh) 2009-07-22
CA2429338A1 (en) 2003-11-24
US7231395B2 (en) 2007-06-12
GB2389682A (en) 2003-12-17
EP1367509A2 (de) 2003-12-03
GB0311975D0 (en) 2003-06-25
KR100852034B1 (ko) 2008-08-13
US20030220912A1 (en) 2003-11-27
AU2003204327B2 (en) 2006-12-21
JP2004164578A (ja) 2004-06-10
JP3905498B2 (ja) 2007-04-18
AU2003204327A1 (en) 2003-12-11
FR2840088B1 (fr) 2008-05-16

Similar Documents

Publication Publication Date Title
DE10323444A1 (de) Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank
US8260786B2 (en) Method and apparatus for categorizing and presenting documents of a distributed database
DE69733606T2 (de) Computernetzwerk und verfahren zur bestimmung des benutzerverhalten
CN101385025B (zh) 通过分析内容确定上下文并且基于该上下文提供相关内容
US6681223B1 (en) System and method of performing profile matching with a structured document
US8751430B2 (en) Methods and system of filtering irrelevant items from search and match operations using emotional codes
DE10252805A1 (de) System und Verfahren, das einem Werber ermöglicht, Sucheinträge in einem Suchsystem mit Bezahlung für Position unter Verwendung von Gruppierung zu verwalten
JP4940399B2 (ja) 広告配信装置およびプログラム
DE10256458A1 (de) Empfehlen von Suchausdrücken unter Verwendung von kollaborativem Filtern und Webspidering
DE10235429A1 (de) System und Verfahren für das Bereitstellen eines Orts- und Preisschutzes in einer Suchergebnisliste die durch eine Suchmaschine eines Computernetzes erzeugt wird
DE10235812A1 (de) Überwachung des Kontos einer Suchmaschine
CA2729717A1 (en) Facilitating collaborative searching using semantic contexts associated with information
EP1826685B1 (de) Verfahren zur Auswahl und Darstellung mindestens einer Zusatzinformation
EP1755049B1 (de) Verfahren zur Übermittlung von Informationen von einem Informationsserver an einen Client
Mei et al. PageSense: Toward stylewise contextual advertising via visual analysis of Web pages
CA2455693A1 (en) Methods, systems, and software for automated growth of intelligent on-line communities
WO2001067300A1 (en) Improved parameter-value databases
Houston et al. Using an AI-based tool to categorize digitized textual forms of organizational memory
Giuffrida et al. A banner recommendation system based on web navigation history
CN117271807A (zh) 金融内容推荐方法、装置、电子设备及存储介质
DE102004017389B3 (de) Verfahren zum Bestellen eines Produkts bei einem mit einem Kommunikationsnetzwerk verbundenen Online-Shop
DE19842320A1 (de) Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten
AU2007201222A1 (en) Method and apparatus for categorizing and presenting documents of a distributed database
WO2001053967A1 (en) Improved parameter-value databases
Leenes et al. Large-scale computer networks and the future of legal knowledge-based systems

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: YAHOO! INC. (N.D.GES.D. STAATES DELAWARE), SUN, US

8131 Rejection