DE10319427A1 - Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method - Google Patents

Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method Download PDF

Info

Publication number
DE10319427A1
DE10319427A1 DE10319427A DE10319427A DE10319427A1 DE 10319427 A1 DE10319427 A1 DE 10319427A1 DE 10319427 A DE10319427 A DE 10319427A DE 10319427 A DE10319427 A DE 10319427A DE 10319427 A1 DE10319427 A1 DE 10319427A1
Authority
DE
Germany
Prior art keywords
search
data records
characteristic
search queries
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10319427A
Other languages
German (de)
Inventor
Andreas Dr. Schaale
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Contraco Consulting & Software
Contraco Consulting & Software Ltd
Original Assignee
Contraco Consulting & Software
Contraco Consulting & Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Contraco Consulting & Software, Contraco Consulting & Software Ltd filed Critical Contraco Consulting & Software
Priority to DE10319427A priority Critical patent/DE10319427A1/en
Priority to EP04727536A priority patent/EP1620809A1/en
Priority to PCT/EP2004/003972 priority patent/WO2004097670A1/en
Publication of DE10319427A1 publication Critical patent/DE10319427A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

Ein Verfahren zur Erstellung von für Datensätze (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensätzen (10) zur Hinterlegung auf einem Speichermodul (6) als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze (4) soll zur Erzeugung eines für eine qualitativ hochwertige Informationsbeschaffung aus der Datenbank oder aus dem World-Wide-Web besonders geeigneter Suchindex geeignet sein. Dazu werden erfindungsgemäß die zur Erstellung eines Kurzdatensatzes (10) aus einem Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.A method for creating short data records (10) which are characteristic of data records (4) from a database, in particular from the World Wide Web, for storage on a memory module (6) as a basis for determining the data records (4) relevant to a predefinable search query. should be suitable for generating a search index that is particularly suitable for obtaining high-quality information from the database or from the World Wide Web. For this purpose, according to the invention, the system resources provided for creating a short data record (10) from a data record (4) are selected taking into account determined empirical values from previous search queries.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Erstellung von für Datensätze aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensätzen zur Hinterlegung auf einem Speichermodul als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze. Sie betrifft weiter ein Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, bei dem derartige Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Weiterhin betrifft die Erfindung ein Suchsystem zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web.The Invention relates to a method of creating for records a database, particularly from the World Wide Web Short records for storage on a memory module as a basis for determination the one Predefinable search query relevant data records. It continues to affect one Procedure for determining for a predefinable search query relevant data records from a database, in particular from the World Wide Web, where such short records are based on their relevance for the respective search query can be searched. Furthermore concerns The invention is a search system for determining a predefinable Search query relevant records from a database, especially from the World Wide Web.

In komplexen Datenbanken oder auch im weltumspannenden Computernetz („World-Wide-Web") wird eine enorme Menge an Informationen bereitgehalten, die ein Benutzer zu Recherchezwecken mehr oder weniger gezielt abrufen kann. Um dabei Informationen aus der großen Informationsmenge heraus gezielt nutzbar machen zu können, kommen so genannte Suchmaschinen zum Einsatz, die gerade bei der Informationsbeschaffung aus dem World-Wide-Web teilweise erhebliche Verbreitung erfahren haben. Bei derartigen Suchmaschinen wird dem Benutzer üblicherweise über ein Ein-/Ausgabemodul ein Anfragenfenster zur Verfügung gestellt, über das gezielte Such- oder Recherchebegriffe vorgegeben werden können. Anschließend durchsucht die Suchmaschine die Informationsbasis der Datenbank bzw. des World-Wide-Web nach geeigneten Schlüssel- oder Keywörtern. Die daraufhin aufgefundenen Antwortdatensätze werden üblicherweise von der jeweiligen Suchmaschine hinsichtlich ihrer Relevanz für den vorgegebe nen Suchauftrag kategorisiert und dem Benutzer in der Art einer Trefferliste in nach ihrer Relevanz geordneter Reihenfolge zur Verfügung gestellt.In complex databases or even in the global computer network ("World Wide Web") will be enormous Amount of information held by a user for research purposes more or less targeted. To get information from the big To be able to use the amount of information in a targeted manner so-called search engines are used, which are particularly useful for gathering information experience considerable spread from the World Wide Web to have. In such search engines, the user is usually informed about a An input / output module provides an inquiry window via which targeted search or research terms can be specified. Then searches the Search engine the information base of the database or the World Wide Web for suitable key or keywords. The response data records found thereupon are usually from the respective Search engine with regard to its relevance for the specified search order categorized and the user in the manner of a hit list in order according to their relevance.

Allerdings bereitet die zunehmende Komplexität der eingesetzten Datenbanken und insbesondere der stetig wachsende enorme Informationsgehalt im World-Wide-Web zunehmende Probleme bei der strukturierten und gezielten Beschaffung von Informationen. Die für die Recherche eingesetzten Suchmaschinen werden daher zunehmend bezüglich der eingesetzten Suchalgorithmen verbessert, wobei zudem in der Art von Vorsortierungen oder Vorfilterungen weitere Hilfsmittel zur Klassifizierung von Datensätzen aus der Datenbank zum Einsatz kommen können. Insbesondere im World-Wide-Web sind die Datensätze üblicherweise in Form von so genannten Domains strukturiert und organisiert, wobei eine Domain typischerweise von einem Betreiber unterhalten wird und ihrerseits eine Vielzahl von Unterdatensätzen, Textdokumenten oder dergleichen umfassen kann.Indeed prepares the increasing complexity of the databases used and in particular the constantly growing enormous amount of information in the World-wide-web increasing Problems with the structured and targeted procurement of information. The for The search engines used are therefore increasing in terms of the search algorithms used improved, in addition in the Type of pre-sorting or pre-filtering other aids for the classification of data records can be used from the database. Especially on the World Wide Web are the records usually structured and organized in the form of so-called domains, whereby a domain is typically maintained by an operator and in turn a variety of sub-records, text documents or the like may include.

Um gerade bei der Informationsbeschaffung aus dem World-Wide-Web trotz der enormen Vielzahl der dort verfügbaren Datensätze oder Domains mit einem seinerseits möglicherweise vergleichsweise großen Inhalt an Unterdatensätzen oder Informationsträgern eine geeignete Vorauswahl von bei einer vorgegebenen Suchanfrage zu berücksichtigenden Domains treffen zu können, kann ein so genanntes Ranking der Domains zum Einsatz kommen. Dabei wird jeder Domain ein Kennwert zugeordnet, der anhand von zugänglichen Sekundärinformationen in der Art einer relativen Relevanz die Wichtigkeit der Berücksichtigung der jeweiligen Domain für die Suchanfrage charakterisiert. Bei der Zuordnung dieses Kennwerts zur jeweiligen Domain wird üblicherweise in der Art eines so genannten statischen Ansatzes eine Informationsbasis herangezogen, bei der beispielsweise aufgrund des Grades der Vernetzung der jeweiligen Domain mit anderen Domains auf die relative Bedeutung der jeweiligen Domain geschlossen wird. Als Maß für eine derartige Bedeutung kann die Anzahl der so genannten Links oder Querverweise von anderen Domains auf die jeweilige Domain herangezogen werden, wobei die Annahme zugrunde gelegt wird, dass eine Vielzahl von Querverweisen auf die jeweilige Domain ein Hinweis darauf ist, dass diese Domain für eine Vielzahl von Benutzern von besonderer Wichtigkeit bei der Bearbeitung ihrer Suchanfragen ist.Around especially when it comes to obtaining information from the World Wide Web the enormous variety of data sets available there or Domains with one in turn possibly comparatively large Sub-record content or information carriers a suitable pre-selection of a given search query domains to consider to be able to meet a so-called domain ranking can be used. Doing so a characteristic value is assigned to each domain, based on accessible secondary information the importance of consideration in the manner of a relative relevance the respective domain for characterizes the search query. When assigning this characteristic value to the respective domain is usually an information base in the manner of a so-called static approach used, for example due to the degree of networking the respective domain with other domains on the relative importance of the respective domain is closed. As a measure of such meaning can be the number of links or cross references from others Domains are used for the respective domain, whereby the Assumption is based on a variety of cross references the respective domain is an indication that this domain is suitable for a large number of Users of particular importance when processing their search queries is.

Allerdings hat sich gezeigt, dass bei der Zuordnung einer derartigen statischen Kenngröße als Relevanzindikator für die jeweilige Domain Spielraum für Manipulationen besteht, wobei unabhängig von den eigentlichen Benutzerinteressen aufgrund wirtschaftlicher Entscheidungen durch die Herstellung einer Vielzahl sachlich eigentlich nicht gerechtfertigter Links oder Querverweise künstlich der Eindruck einer vergleichsweise hohen Relevanz oder Bedeutsamkeit der jeweiligen Domain erzeugt werden kann. Die Verwendung derartiger statischer Relevanzzuordnungen zur Verbesserung der Suchergebnisse von Internet-Recherchen ist daher von eher abnehmendem Interesse.Indeed has been shown that when assigning such a static Parameter as a relevance indicator for the respective domain scope for Manipulations exist, regardless of the actual user interests due to economic decisions by making a Plenty of factually unjustified links or cross-references artificially the impression of a comparatively high relevance or significance of the respective domain can be generated. The use of such static relevance assignments to improve the search results Internet research is therefore of decreasing interest.

Die enormen, im World-Wide-Web oder Internet verfügbaren Informationsmengen machen bei der Durchführung einer Informationsrecherche die tatsächliche Durchsuchung sämtlicher Domains inklusive der darin enthaltenen Unterdatensätze oder Textbausteine in Echtzeit auf das Vorhandensein der Suchanfrage oder von einzelnen Elementen der jeweiligen Suchanfrage unmöglich. Statt dessen kommen in Suchsystemen oder Suchmaschinen für die Informationsbeschaffung aus dem Internet oder World-Wide-Web so genannte „Crawler" oder Durchsuchermodule zum Einsatz, die ständig die Domains oder Datensätze aus dem World-Wide-Web bzw. einer komplexen Datenbank auf ihren Textinhalt oder andere als relevant erachtete Informationen hin durchsuchen. Im Rahmen von vorgegebenen Systemressourcen (beispielsweise Bearbeitungszeit, Speicherkapazität oder Rechenleistung) durchsucht das jeweilige Durchsuchermodul die gerade angewählte Domain oder den Datensatz und stellt bis zu einer durch die zugewiesenen Systemressourcen vorgegebenen Grenze anhand der in der jeweiligen Domain aufgefundenen Informationen einen für die Domain oder den Datensatz charakteristischen Kurzdatensatz, beispielsweise in Form einer Textdatei mit möglicherweise zugeordneten Überschriften oder sonstigen Indikatoren, zusammen.The enormous amounts of information available on the World Wide Web or the Internet make it impossible to actually search all domains, including the sub-data sets or text modules contained therein, in real time for the presence of the search query or of individual elements of the respective search query when carrying out an information search. Instead, so-called "crawlers" or searcher modules are used in search systems or search engines for obtaining information from the Internet or the World Wide Web, which are constantly used for the domains or search records from the World Wide Web or a complex database for their textual content or other information deemed relevant. Within the framework of predefined system resources (for example processing time, storage capacity or computing power), the respective search module searches the currently selected domain or the data record and sets a limit for the domain or the data record based on the information found in the respective domain up to a limit specified by the assigned system resources characteristic short data record, for example in the form of a text file with possibly assigned headings or other indicators.

Dieser Kurzdatensatz wird sodann auf einem Speichermodul hinterlegt und für eine nachfolgende Untersuchung bereitgehalten. Die Gesamtheit der aus den überhaupt bei diesem Vorgehen berücksichtigten Datensätze oder Domains erstellten, auf dem Speichermodul hinterlegten Kurzdatensätze wird auch als so genannter „Index" der jeweiligen Suchmaschine bezeichnet und dient als Informationsbasis für die nachfolgend durchgeführten Recherchen: Die Erstellung der im Index enthaltenen Kurzdatensätze erfolgt dabei üblicherweise kontinuierlich, wobei individuelle Domains zyklisch angewählt werden, so dass eine andauernde Aktualisierung des Index erfolgt. Bei einer nachfolgenden Recherche, also bei der Ermittlung der für eine vorgegebene Suchanfrage relevanten Datensätze, wird sodann der durch die Gesamtheit der hinterlegten Kurzdatensätze gebildete Index auf das Vorhandensein von Schlüssel- oder Keywörtern der jeweiligen Suchanfrage oder von Einzelelementen davon durchsucht, wobei anhand der dabei erzielten Suchergebnisse oder Treffer die den aufgefundenen Kurzdatensätzen zugeordneten Datensätze oder Domains als relevant für die jeweilige Suchanfrage ermittelt werden.This The short data record is then stored on a memory module and for one subsequent investigation held ready. The entirety of that at all considered in this approach records or domains created, stored on the memory module also as a so-called "index" of the respective search engine denotes and serves as an information basis for the research carried out below: The short data records contained in the index are created usually continuously, whereby individual domains are selected cyclically, so that the index is continuously updated. At a subsequent research, i.e. when determining the one for a given one Query relevant records, is then formed by the total of the short data records stored Index to the presence of keywords or keywords the respective search query or individual elements of it, based on the search results or hits obtained the short data records found associated records or domains as relevant for the respective search query can be determined.

Aufgrund der Vielzahl der im World-Wide-Web verfügbaren Domains oder Datensätze können nicht sämtliche Domains bei der Erstellung der Kurzdatensätze berücksichtigt werden. Die Entscheidung, welche Domains bei der Erstellung des Index berücksichtigt werden, erfolgt dabei üblicherweise anhand der oben genannten Relevanzkriterien, also insbesondere anhand von Informationen über eine erkannte oder vermeintliche Bedeutung der jeweiligen Domain für die Benutzer. Gerade da infolge der verfügbaren Informationsvielfalt eine besonders zielgerichtete Vorsortierung der Informationen und insbesondere der als für eine Suchanfrage relevant erkannten Datensätze für die nachfolgende Auswertung der Rechercheergebnisse sehr bedeutsam sein kann, ist bereits bei der Erstellung des so genannten Index eine besonders hohe Qualität und Sorgfalt bei der Auswertung der berücksichtigten Informationen wünschenswert.by virtue of the multitude of domains or data records available on the World Wide Web cannot all Domains are taken into account when creating the short data records. The decision, which domains are taken into account when creating the index usually based on this the above relevance criteria, in particular based on information about a recognized or supposed meaning of the respective domain for the User. Especially because of the variety of information available a particularly targeted pre-sorting of the information and especially the as for a search query relevant recognized data records for the subsequent evaluation the search results can be very significant is already at the creation of the so-called index a particularly high quality and care when evaluating the considered Information desirable.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Erstellung von für Datensätze charakteristischen Kurzdatensätzen der oben genannten Art anzugeben, mit dem ein für eine qualitativ hochwertige Informationsbeschaffung aus der Datenbank oder aus dem World-Wide-Web besonders geeigneter Suchindex erzeugt werden kann. Des Weiteren sollen unter Verwendung dieses Verfahrens ein besonders geeignetes Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, und ein Suchsystem zur Durchführung dieses Verfahrens angegeben werden.The The invention is therefore based on the object of creating a method from for records characteristic short data sets of the type mentioned above, with one for a high quality Obtaining information from the database or from the World Wide Web particularly suitable search index can be generated. Furthermore are said to be a particularly suitable one using this method Procedure for determining for a predefinable search query relevant data records from a database, in particular from the world-wide-web, and a search system to do this Procedure are specified.

Bezüglich des Verfahrens zur Erstellung der für die Datensätze charakteristischen Kurzdatensätze wird diese Aufgabe erfindungsgemäß gelöst, indem die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt werden.Regarding the Procedure for creating the for the records characteristic short data sets this object is achieved according to the invention by those provided for creating a short data record from a data record System resources under consideration from determined empirical values from previous search queries to get voted.

Die Erfindung geht dabei von der Überlegung aus, dass für die Erzeugung einer für qualitativ besonders hochwertige Informationsbeschaffung besonders geeigneten Informationsbasis auf der Grundlage der für die Datensätze charakteristischen Kurzdatensätze zwar einerseits in der Art statischer Kennwerte verfügbare Informationen über die einzelnen Datensätze oder Domains an sich berücksichtigt werden können, das aber andererseits in der Art eines dynamischen Elements auch für die Benutzerinteressen charakteristische Informationen mitberücksichtigt werden sollten. Dabei liegt die Erkenntnis zugrunde, dass das Ergebnis einer Informationsbeschaffung aus der Datenbank oder dem World-Wide-Web dann als qualitativ besonders hochwertig angesehen wird, wenn es in möglichst weit reichendem Umfang das Benutzerinteresse korrekt widerspiegelt. Es sollten daher Maßnahmen getroffen werden, um für das Benutzerinteresse charakteristische Informationen in die weitere Informationsbeschaffung einfließen zu lassen. Ein Ansatzpunkt hierfür ist bereits die Erzeugung der Informationsbasis für die Bearbeitung der Suchanfragen, so dass sich Informationen über das Besucherinteresse bereits bei der Erzeugung der für die Datensätze oder Domains charakteristischen Kurzdatensätze im Index niederschlagen sollten. Um dies zu ermöglichen, werden bereits bei der Zuweisung der Systemressourcen, die für die Erstellung eines Kurzdatensatzes aus einem zugeordneten Datensatz aufgewendet werden kön nen und somit die Vollständigkeit der im Kurzdatensatz für die Informationsbeschaffung bereitgehaltenen Informationen entscheidend mitbestimmen, im Hinblick auf das Benutzerinteresse unter Berücksichtigung von Erfahrungswerten aus vorangegangenen Suchanfragen zugewiesen.The Invention is based on the consideration that for generating one for particularly high quality information gathering suitable information basis on the basis of the short data records characteristic of the data records on the one hand, information about the data available in the form of static parameters individual records or domains themselves are taken into account can, on the other hand in the form of a dynamic element for the Characteristic information taken into account for user interests should be. The underlying understanding is that the result Obtaining information from the database or the World Wide Web is considered to be of particularly high quality if it in if possible far-reaching scope correctly reflects user interest. It should therefore take action to be taken for the user interest characteristic information in the further Increase information gathering allow. A starting point for this is already creating the information base for processing the Search queries so that information about visitor interest is already there in generating the for the records or domains characteristic short data records in the index should. In order to make this possible, are already used in the allocation of system resources for the creation a short data record from an assigned data record can be and thus the completeness the in the short record for the information provided is crucial co-determine, taking into account the user interest based on past experience from previous searches.

In besonders einfacher und prägnanter Weise können die Benutzerinteressen bereits bei der Erstellung des Index berücksichtigt werden, indem vorteilhafterweise bei der Zuordnung der Systemressourcen die Häufigkeit von zu einer Suchanfrage gleichen oder ähnlichen Suchanfragen in der jüngsten Vergangenheit als Erfahrungswert berücksichtigt wird. In weiterer vorteilhafter Ausgestaltung kann dabei auch die Trefferhäufigkeit der Datensätze oder Domains bzgl. der von den Benutzern in jüngster Vergangenheit besonders häufig vorgegebenen Suchanfragen berücksichtigt werden. Die Erfahrungswerte umfassen daher zweckmäßigerweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl.In particularly simple and concise Way can user interests already taken into account when creating the index be by advantageously in the allocation of system resources the frequency of the same or similar searches in the search query recent past is taken into account as empirical value. In a further advantageous embodiment, the frequency of hits can also be achieved of the records or domains related to those of users in the recent past frequently given search queries become. The empirical values therefore expediently include one for the number of similar search queries in a predefinable time interval characteristic key figure.

Um die Benutzerinteressen besonders zielführend bereits bei der Erstellung des Index für die Suchmaschine berücksichtigen zu können, werden vorteilhafterweise als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls oder Crawlers unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.Around the user interests are particularly effective as early as the creation stage of the index for consider the search engine to be able are advantageously the resources of a system resources to create the for the records each characteristic short data sets provided browser module or crawler taking into account from determined empirical values from previous search queries selected.

In einer besonders vorteilhaften Ausgestaltung werden die Benutzerinteressen bei der Zuordnung der Systemressourcen besonders weitgehend berücksichtigt, indem bei der Ermittlung der Erfahrungswerte in besonderem Maß die möglicherweise komplexe Struktur der von den Benutzern verwendeten Suchanfragen berücksichtigt wird. Dabei liegt die Erkenntnis zugrunde, dass ein besonders genaues Abbild des allgemeinen Benutzerinteresses nicht allein durch die relative Häufigkeit einzelner in Suchanfragen verwendeter Elemente oder Begriffe, sondern ergänzend oder zusätzlich auch noch durch die Berücksichtigung von spezifischen Korrelationen zwischen einzelnen Begriffen oder Elementen von Suchanfragen er zielt werden kann. Dabei wird insbesondere berücksichtigt, dass einzelne Elemente oder Komponenten einer Suchanfrage entsprechend dem aktuell gerade verbreiteten Benutzerinteresse bevorzugt in Kombination mit spezifischen anderen Einzelelementen oder Komponenten von Suchanfragen angefragt werden. Beispielsweise könnte das aktuelle Benutzerinteresse im Allgemeinen aktuell in eine Richtung gehen, dass bevorzugt kostenlose Multimedia-Dateien aus dem Internet heruntergeladen werden sollen. In einer derartigen Konstellation ist bei Suchanfragen vermehrt mit einer Kombination der Suchbegriffe „MP3", „free" und „download" zu rechnen. Bei der spezifischen Bewertung und Berücksichtigung vergangener Suchanfragen kann somit die Kombination dieser drei Einzelelemente einer Suchanfrage als ein besonders gewichtiger Indikator für gesteigertes Benutzerinteresse gewertet werden. Um dies zu ermöglichen, werden bei der Ermittlung der Erfahrungswerte vorzugsweise Korrelationen zwischen Einzelelementen der Suchanfragen berücksichtigt.In In a particularly advantageous embodiment, the user interests particularly taken into account when allocating system resources, by the particularly complex when determining the empirical values Structure of search queries used by users is taken into account becomes. This is based on the knowledge that a particularly precise image general user interest not only by relative frequency individual elements or terms used in search queries, but additional or additionally also by considering of specific correlations between individual terms or Elements of search queries it can be targeted. In particular considered, that individual elements or components correspond to a search query in combination with the currently widespread user interest with specific other individual elements or components of search queries Can be requested. For example, the current user interest generally currently go in a direction that prefers free Multimedia files are to be downloaded from the Internet. In such a constellation, search queries are increased with a combination of the search terms "MP3", "free" and "download" the specific evaluation and consideration of past searches can therefore combine these three individual elements of a search query as a particularly important indicator of increased user interest get ranked. In order to make this possible, correlations are preferably used when determining the empirical values Individual elements of the search queries are taken into account.

Um in der Art einer ersten Vorfilterung eine vergleichsweise einfach beschaffbare Eingangsinformation für die Bewertung von Suchanfragen und ihrer Relevanz für die Datensätze bereitzustellen, wird bei der Ermittlung der Erfahrungswerte vorteilhafterweise die relative Häufigkeit von Suchanfragen und/oder von Einzelelementen der Suchanfragen berücksichtigt. Dies kann auf besonders einfache Weise unmittelbar bei der Erstellung des Index berücksichtigt werden, indem denjenigen Datensätzen, die für eine vorgegebene Suchanfrage oder für eine vorgegebene Kombination aus Einzelelementen von Suchanfragen als relevant erkannt werden, vorteilhafterweise in Abhängigkeit von der relativen Häufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von Suchanfragen zusätzliche Systemressourcen für die Erstellung des zugeordneten Kurzdatensatzes zugewiesen werden.Around in the manner of a first pre-filtering a comparatively simple obtainable input information for the evaluation of search queries and their relevance to the records To provide, is advantageous in determining the empirical values the relative frequency of search queries and / or of individual elements of the search queries taken into account. This can be done in a particularly simple manner directly during creation of the index are taken into account by those records the for a given search query or for a given combination are identified as relevant from individual elements of search queries, advantageously depending on the relative frequency the search query or the combination of individual elements of search queries additional System resources for the Creation of the assigned short data record can be assigned.

Vorteilhafterweise werden die auf die genannte Art erstellten, für die Datensätze aus der Datenbank charakteristischen Kurzdatensätze zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus der Datenbank, insbesondere aus dem World-Wide-Web, genutzt, indem die solchermaßen erstellten, in einem Speichermodul hinterlegten Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Als Kriterium für die Ermittlung dieser Relevanz kann dabei beispielsweise die Häufigkeit dienen, mit der ein Schlüssel- oder Keywort der Suchanfrage im jeweiligen Kurzdatensatz aufgefunden werden kann, wobei zudem noch eine Differenzierung nach dem Ort des jeweiligen Auffindens, beispielsweise in einer Überschrift oder im Volltext, vorgenommen werden kann.advantageously, are created in the manner mentioned for the records the short data records characteristic of the database for the determination of for a specifiable Search query relevant records used from the database, in particular from the World Wide Web, by doing so created short data records stored in a memory module their relevance for the respective search query can be searched. As a criterion for the determination this relevance can be used, for example, by the frequency with which a key word or keyword Search query can be found in the respective short data record, with a differentiation according to the location of each Finding, for example in a heading or in full text, can be made.

Bezüglich des Suchsystems zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, wird die genannte Aufgabe gelöst, indem in einem Speichermodul für die Datensätze charakteristische Kurzdatensätze hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.Regarding the Search system for determining for a predefinable search query relevant data records from a database, in particular from the world wide web, the stated task is solved, by in a memory module for the records characteristic short data sets are stored, whereby to create a short data set system resources provided under consideration of stored empirical values from previous search queries chosen are.

Die Erfahrungswerte umfassen dabei vorteilhafterweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl. In zusätzlicher oder alternativer vorteilhafter Ausgestaltung sind als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.The empirical values advantageously include a characteristic number that is characteristic of the number of similar search queries in a predefinable time interval. In an additional or alternative advantageous embodiment, the system resources are the resources of a browser module provided for creating the short data records that are characteristic of the data records, taking into account stored empirical values previous searches.

Die mit der Erfindung erzielten Vorteile bestehen insbesondere darin, dass durch die Berücksichtigung von Erfahrungswerten aus vorangegangenen Suchanfragen bei der Vergabe der Systemressourcen bei der Erstellung des Index oder der für die Datensätze charakteristischen Kurzdatensätze bereits in einem besonders frühen Stadium, nämlich in der Vorbereitungsphase einer Datenbank- oder Internet-Recherche, eine weit gehende Berücksichtigung des aktuell vorhandenen Benutzerinteresses ermöglicht ist. Gerade durch die Berücksichtigung des Benutzerinteresses ergänzend zu oder anstelle von bisher verwendeten Datenbank spezifi schen Charakteristika wie beispielsweise der Häufigkeit der jeweiligen Querverweise ist eine vom Benutzer als besonders hochwertig angesehene Informationsbeschaffung ermöglicht. Ein besonders spezifisches Abbild des Benutzerinteresses und somit eine besonders hohe Genauigkeit bei der Vergabe der Ressourcen ist dabei erreichbar durch die Berücksichtigung von Korrelationen zwischen einzelnen Elementen von Suchanfragen, wobei gerade besonders häufig verwendete Kombinationen spezifischer Einzelelemente und der Rückschluss auf die mit derartigen kombinierten Suchanfragen als Ergebnis aufgefundenen Datensätze oder Domains eine in besonderem Maße an das Benutzerinteresse angepasste Treffergenerierung erwarten lässt.The Advantages achieved with the invention are in particular that by considering from empirical values from previous search queries when awarding the system resources when creating the index or those characteristic of the data records Short records already in a particularly early Stage, namely in the preparation phase of a database or internet search, a far taking into account the currently existing user interest is enabled. Just through that consideration of user interest to or instead of specific database characteristics used so far such as frequency of the respective cross references is one of the users as special high quality viewed information gathering possible. A particularly specific image of user interest and thus is a particularly high level of accuracy when allocating resources thereby achievable through consideration of correlations between individual elements of search queries, being particularly common Combinations of specific individual elements used and the conclusion to the data records found as a result with such combined search queries or Domains a particularly that user interest can expect customized hit generation.

Ein Ausführungsbeispiel der Erfindung wird anhand einer Zeichnung näher erläutert. Darin zeigt die Figur schematisch ein Suchsystem zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen oder Domains aus dem World-Wide-Web.On embodiment the invention is explained in more detail with reference to a drawing. In it the figure shows schematically a search system for determining a search query that can be specified relevant records or domains from the World Wide Web.

Das Suchsystem 1 gemäß der Figur ist über die mittels der Doppelpfeile 2 angedeuteten Datenleitungen des Internets oder World-Wide-Web mit einer Vielzahl von Domains 4 verbunden, wobei jede Domain 4 ihrerseits typischerweise eine Vielzahl von Unterdatensätzen, Textbausteinen, multimedialen Informationselementen oder dergleichen umfasst.The search system 1 according to the figure is about by means of the double arrows 2 indicated data lines of the Internet or World-Wide-Web with a variety of domains 4 connected, each domain 4 in turn typically includes a large number of sub-data sets, text modules, multimedia information elements or the like.

Aufgrund der großen Vielzahl an im World-Wide-Web verfügbaren Informationen ist das Suchsystem 1 für die Bearbeitung einer Suchanfrage nicht für die Durchsuchung der Domains 4 oder der in ihnen enthaltenen Informationsinhalte auf das Vorhandensein bestimmter Schlüsselwörter oder Keywörter, sondern statt dessen für die Durchsuchung eines in einem Speichermodul 6 hinterlegten so genannten Index 8 ausgelegt. Der Index 8 umfasst eine Vielzahl von Kurzdatensätzen 10, von denen jeder jeweils für einen Datensatz oder eine Domain 4 des World-Wide-Web charakteristisch ist. Jeder Kurzdatensatz 10 enthält dabei einen als relevant erkannten Teil des Informationsgehalts der jeweils zugeordneten Domain 4, wobei im Kurzdatensatz 10 insbesondere die in der jeweiligen Domain 4 enthaltene Textinformation wiedergegeben ist. Zur Bearbeitung einer Suchanfrage wird diese, wie durch den Pfeil 12 angedeutet, einem Ein-/Ausgabemodul 14 des Suchsystems 1 zugeführt, von wo aus anhand von für die Suchanfrage charakteristischen Schlüssel- oder Keywörtern eine Durchsuchung der Kurzdatensätze 10 gestartet wird. Abhängig von der Anzahl der Ergebnisse oder Treffer, mit denen das Vorhandensein von Schlüssel- oder Keywörtern in den Kurzdatensätzen 10 festgestellt wird, wird die mit dem jeweiligen Kurzdatensatz 10 korrespondierende Domain 4 als für die Suchanfrage relevant erkannt und die entsprechende Domainadresse dem Benutzer auf einer Ergebnisliste mitgeteilt.Because of the wide variety of information available on the World Wide Web, the search system is 1 for processing a search query not for searching the domains 4 or the information contained in them for the presence of certain keywords or key words, but instead for searching one in a memory module 6 deposited so-called index 8th designed. The index 8th includes a variety of short data sets 10 each of which is for a record or domain 4 of the World Wide Web is characteristic. Every short data record 10 contains a part of the information content of the assigned domain that is recognized as relevant 4 , where in the short data record 10 especially those in the respective domain 4 contained text information is reproduced. To process a search query, it is as shown by the arrow 12 indicated, an input / output module 14 of the search system 1 from where a search of the short data records is carried out using key words or keywords characteristic of the search query 10 is started. Depending on the number of results or hits with which the presence of keywords or key words in the short records 10 is determined, that with the respective short data record 10 corresponding domain 4 recognized as relevant for the search request and the corresponding domain address communicated to the user in a result list.

Zur Erstellung der für die Domains 4 charakteristischen Kurzdatensätze 10, die in ihrer Gesamtheit den Index 8 bilden, umfasst das Suchsystem 1 ein auch als „Crawler" bezeichnetes Durchsuchermodul 16. Das Durchsuchermodul 16 nimmt in regelmäßigen, vorzugsweise zyklischen Zeitintervallen Kontakt mit den jeweiligen Domains 4 auf und durchsucht diese hinsichtlich ihres Informationsgehalts. Dabei kann insbesondere vorgesehen sein, die auf der jeweiligen Domain 4 hinterlegte Textinformation zu erfassen und geeignet zu komprimieren. Art und Umfang der Analyse des Inhalts jeder Domain 4 durch das Durchsuchermodul 16 werden dabei durch die Vorgabe spezifischer Systemressourcen des Durchsuchermoduls 16 für die jeweilige Domain 4 festgelegt. Als Systemressourcen können dabei abhängig von der jeweiligen Domain 4 beispielsweise die für die Durchsuchung vorgesehene Zeitspanne, die eingesetzte Rechnerleistung und/oder zugewiesene Speicherkapazitäten vorgegeben sein. Dabei kann insbesondere auch vorgegeben sein, ob die jeweilige Domain 4 vom Durchsuchermodul 16 überhaupt angesprochen oder von vornherein ignoriert werden soll. Anhand der bei der Durchsuchung ermittelten Informationsbasis für die jeweilige Domain 4 wird anschließend vom Durchsuchermodul 16 in der Art einer Kurzfassung der zugeordnete Kurzdatensatz 10 erstellt und als Bestandteil des Index 8 im Speichermodul 6 abgelegt.To create the for the domains 4 characteristic short data sets 10 which in their entirety are the index 8th form, includes the search system 1 a browser module also referred to as a "crawler" 16 , The browser module 16 contacts the respective domains at regular, preferably cyclical, time intervals 4 and searches for their information content. It can in particular be provided that on the respective domain 4 to record stored text information and compress it appropriately. Type and scope of analysis of the content of each domain 4 through the browser module 16 are determined by specifying specific system resources of the browser module 16 for the respective domain 4 established. System resources can depend on the respective domain 4 For example, the time period provided for the search, the computer power used and / or the allocated storage capacities can be specified. In particular, it can also be specified whether the respective domain 4 from the browser module 16 to be addressed at all or to be ignored from the outset. Using the information base determined during the search for the respective domain 4 is then used by the browser module 16 the assigned short data record in the manner of a short version 10 created and as part of the index 8th in the memory module 6 stored.

Die Zuordnung der Systemressourcen für die Durchsuchung der jeweiligen Domain 4 kann beispielsweise in Abhängigkeit domainspezifischer Relevanzkenn werte erfolgen. Dabei können auch so genannte statische Relevanzkennwerte vorgesehen sein, die anhand vorgegebener Kriterien wie beispielsweise dem Vernetzungsgrad einer Domain 4 mit anderen Domains 4 charakterisieren, wie hoch der Akzeptanzgrad der jeweiligen Domain 4 bei den Benutzern ist. Anhand dieser Relevanzkennwerte kann festgelegt sein, ob eine Domain 4 bei der Durchsuchung überhaupt berücksichtigt wird, und falls ja, wie sorgfältig die Durchsuchung der jeweiligen Domain 4 bei der Erstellung des zugeordneten Kurzdatensatzes 10 erfolgen soll.The allocation of system resources for the search of the respective domain 4 can, for example, depend on domain-specific relevance parameters. So-called static relevance parameters can also be provided, based on predefined criteria such as the degree of networking of a domain 4 with other domains 4 characterize how high the degree of acceptance of the respective domain 4 among users. These relevance parameters can be used to determine whether a domain 4 is taken into account at all during the search, and if so, how carefully the search of the respective domain 4 when creating the assigned Short record 10 should be done.

Darüber hinaus ist das Suchsystem 1 aber auch dafür ausgelegt, bei der Erstellung der Kurzdatensätze 10 Erfahrungswerte und Erkenntnisse aus den vorangegangenen Suchanfragen mit zu berücksichtigen und somit das darin wiedergegebene aktuelle Benutzerinteresse in besonderem Maße in die Erstellung oder zyklische Erneuerung des Index 8 miteinfließen zu lassen. Dazu ist dem Speichermodul 6 ein weiteres Speichermodul 18 zugeordnet, in dem in der Art eines Logbuchs die eingehenden Suchanfragen zur weiteren Auswertung abgelegt werden. Die Inhalte des Speichermoduls 18 werden einem Analysemodul 20 zugänglich gemacht, das die eingegangen Suchanfragen einer Auswertung unterzieht und anhand der dabei gewonnenen Erkenntnisse eine Neuverteilung der Systemressourcen auf die zu berücksichtigenden Domains 4 beim nächsten Durchsuchungszyklus vornimmt. Die entsprechende Zuordnung der Systemressourcen übermittelt das Analysemodul 20, wie über den Pfeil 22 dargestellt, anschließend an das Durchsuchermodul 16.In addition, the search system 1 but also designed for the creation of short data sets 10 Experience values and insights from the previous search queries must also be taken into account and thus the current user interest shown therein, particularly in the creation or cyclical renewal of the index 8th let it flow in. This is the memory module 6 another memory module 18 assigned in which the incoming search queries are stored for further evaluation in the manner of a logbook. The contents of the memory module 18 become an analysis module 20 made accessible, which subjects the received search queries to an evaluation and uses the knowledge gained to redistribute the system resources to the domains to be taken into account 4 on the next search cycle. The analysis module transmits the corresponding allocation of system resources 20 how about the arrow 22 shown, then to the browser module 16 ,

Bei der Zuordnung der Systemressourcen berücksichtigt das Analysemodul 20 somit Erfahrungswerte aus vorangegangenen Suchanfragen. Dies kann beispielsweise dadurch geschehen, dass die Häufigkeit einer Suchanfrage oder eines Schlüssel- oder Keyworts als Einzelelement einer Suchanfrage ermittelt wird, wobei bei häufig verwendeten Suchanfragen oder Einzelelementen von Suchanfragen auf eine derzeit vergleichsweise hohe Popularität bei den Benutzern geschlossen wird. Dementsprechend wird angenommen, dass die bei vergleichsweise populären Suchanfragen aufgefundenen und als relevant erkannten Datensät ze oder Domains 4 in vergleichsweise hohem Maße das aktuelle Benutzerinteresse widerspiegeln. In dieser Ausführungsform kann das Analysemodul 20 somit denjenigen Domains 4, die als Ergebnis für vergleichsweise häufig verwendete Suchanfragen aufgeführt werden, einen entsprechend erhöhten Anteil an Systemressourcen bei der nächstfolgenden Durchsuchung durch das Durchsuchermodul 16 zuordnen.The analysis module takes into account when assigning the system resources 20 thus empirical values from previous search queries. This can be done, for example, by determining the frequency of a search query or a key word or keyword as a single element of a search query, in the case of frequently used search queries or individual elements of search queries suggesting that users are currently comparatively high in popularity. Accordingly, it is assumed that the data records or domains found in comparatively popular search queries and identified as relevant 4 reflect the current user interest to a comparatively high degree. In this embodiment, the analysis module 20 thus those domains 4 , which are listed as the result for comparatively frequently used search queries, a correspondingly increased share of system resources during the next search by the search module 16 assign.

Darüber hinaus ist das Suchsystem 1 aber auch dafür ausgelegt, vergleichsweise komplexe Strukturen im Profil der Suchanfragen bei der Zuordnung der Systemressourcen durch das Analysemodul 20 mitzuberücksichtigen. Dabei werden bei der Ermittlung der Erfahrungswerte insbesondere auch Korrelationen zwischen Einzelelementen von Suchanfragen mitberücksichtigt. Falls beispielsweise festgestellt wird, dass einzelne Elemente oder Suchwörter in Suchanfragen besonders häufig mit bestimmten anderen Einzelelementen oder Suchwörtern kombiniert werden, so wird auf eine hohe intrinsische Korrelation zwischen diesen beiden Suchelementen geschlossen, so dass einerseits diejenigen Domains 4, in denen vollständige oder approximative Kombinationen aufgefunden werden, als besonders relevant erkannt werden, wobei andererseits bei der Auswertung der relativen Häufigkeiten einzelner Suchelemente auch die relativen Häufigkeiten der damit besonders korrelierten weiteren Suchelemente berücksichtigt werden können.In addition, the search system 1 but also designed for comparatively complex structures in the profile of the search queries when allocating the system resources through the analysis module 20 mitzuberücksichtigen. When determining the empirical values, correlations between individual elements of search queries are also taken into account. If, for example, it is found that individual elements or search words in search queries are combined particularly frequently with certain other individual elements or search words, then a high intrinsic correlation between these two search elements is concluded, so that on the one hand those domains 4 , in which complete or approximate combinations are found, can be recognized as particularly relevant, and on the other hand, when evaluating the relative frequencies of individual search elements, the relative frequencies of the further search elements that are particularly correlated with them can also be taken into account.

Zur statistischen Auswertung der Suchanfragen wird dabei im Analysemodul 20 eine Korrelationsmatrix erstellt, deren Matrixelemente ein quantitatives Maß für die Korrelation zwischen jeweils zwei Einzelelementen von Suchanfragen angeben. Als quantitatives Maß kann dabei insbesondere die relative Häufigkeit, mit der die beiden jeweiligen Einzelelemente von Suchanfragen miteinander in Kombination gefragt werden, vorgesehen sein. Diese Korrelationsmatrix wird anschließend durch eine Hauptachsentransformation diagonalisiert, wobei auf der Hauptdiagonalen der diagonalisierten Matrix die Eigenwerte der ursprünglichen Korrelationsmatrix angegeben sind. Bei dieser Hauptachsentransformation werden zudem die Eigenvektoren der Korrelationsmatrix ermittelt.The statistical analysis of the search queries is carried out in the analysis module 20 creates a correlation matrix, the matrix elements of which provide a quantitative measure for the correlation between two individual elements of search queries. In particular, the relative frequency with which the two respective individual elements of search queries are queried in combination can be provided as a quantitative measure. This correlation matrix is then diagonized by a main axis transformation, the eigenvalues of the original correlation matrix being indicated on the main diagonal of the diagonalized matrix. With this main axis transformation, the eigenvectors of the correlation matrix are also determined.

Die Eigenwerte und Eigenvektoren der Korrelationsmatrix können anschließend für eine weitere Auswertung der Suchanfragen herangezogen werden. Diejenigen Eigenvektoren der Korrelationsmatrix, die einen vergleichsweise großen Eigenwert aufweisen, entsprechen dabei einem Mix von Einzelelementen von Suchanfragen, der gemäß der Linearkoeffizienten der Einzelelemente der Suchanfragen vergleichsweise häufig in typischen Suchanfragen vorkommt und somit in besonderem Maße das aktuelle Benutzerinteresse widerspiegelt. Es werden somit in einem nächsten Schritt diejenigen Eigenvektoren der Korrelationsmatrix ausgewählt, denen ein vergleichsweise großer Eigenwert zugeordnet ist. Durch die so ermittelten Eigenvektoren erhält man im Ergebnis einen Mix von Suchanfragen, die in der jeweiligen Kombination mit besonders hoher Wahrscheinlichkeit in jüngster Vergangenheit vorgekommen sind.The Eigenvalues and eigenvectors of the correlation matrix can then be used for further evaluation of search queries are used. Those eigenvectors of the Correlation matrix that has a comparatively large eigenvalue correspond to a mix of individual elements of search queries, which according to the linear coefficients of the individual elements of the search queries comparatively frequently in typical search queries occurs and thus particularly the current user interest reflects. In a next step, those eigenvectors will become selected the correlation matrix, which is a comparatively large one Eigenvalue is assigned. Through the eigenvectors determined in this way receives the result is a mix of search queries in the respective combination have been particularly likely in the recent past are.

Mit den so ausgewählten, vergleichsweise großen Eigenwerten der Korrelationsmatrix zugeordneten „Eigenanfragen" greift das Analysemodul 20 in der Art einer Testanfrage auf den Index 8 zu und ermittelt so für jede „Eigenanfrage" die zu dieser Eigenanfrage als relevant erkannten Datensätze oder Domains 4. Da die solchermaßen ermittelten Domains 4 in besonderem Maße dem aktuellen Benutzerinteresse entsprechen, werden für diese Domains 4 die Systemressourcen bei der erneuten Durchsuchung des World-Wide-Web im Vergleich zum vorigen Durchlauf proportional erhöht. Dies kann beispielsweise durch eine Zuweisung eines Wichtungsfaktors bei der Bereitstellung der Systemressourcen für die jeweilige Domain 4 nach der Beziehung RVPA(Dk) = (1 + α·λβk )α,β > 0erfolgen, wobei λk der Eigenwert der zugehörigen Eigenanfrage Dk eine auf diese Eigenanfrage als Treffer angezeigte Domain 4 und α eine geeignet gewählte Konstante > 0 sein kann.The analysis module acts with the comparatively large eigenvalues assigned to the correlation matrix 20 in the form of a test request for the index 8th and thus determines the data records or domains identified as relevant to this self-inquiry 4 , Because the domains determined in this way 4 correspond to the current user interest in particular for these domains 4 system resources when rerouting the World Wide Web increased proportionally compared to the previous run. This can be done, for example, by assigning a weighting factor when providing the system resources for the respective domain 4 after the relationship R VPA (D k ) = (1 + α · λ β k ) α, β> 0 take place, where λ k is the eigenvalue of the associated self-inquiry D k a domain displayed as a hit on this self-inquiry 4 and α can be a suitably chosen constant> 0.

11
Suchsystemsearch system
22
Doppelpfeiledouble arrows
44
Domaindomain
66
Speichermodulmemory module
88th
Indexindex
1010
KurzdatensätzeShort records
1212
Pfeilarrow
1414
Ein-/AusgabemodulInput / Output Module
1616
DurchsuchermodulSearch form module
1818
Speichermodulmemory module
2020
Analysemodulanalysis module
2222
Pfeilarrow

Claims (10)

Verfahren zur Erstellung von für Datensätze (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensätzen (10) zur Hinterlegung auf einem Speichermodul (6) als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze (4), bei dem die zur Erstellung eines Kurzdatensatzes (10) aus einem Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt werden.Procedure for creating for records ( 4 ) from a database, in particular from the World Wide Web, characteristic short data sets ( 10 ) for storage on a memory module ( 6 ) as a basis for determining the data records relevant for a specifiable search query ( 4 ), which is used to create a short data record ( 10 ) from a data record ( 4 ) provided system resources are selected taking into account the empirical values determined from previous search queries. Verfahren nach Anspruch 1, bei dem die Erfahrungswerte eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl umfassen.The method of claim 1, wherein the empirical values one for the number of similar search queries in a predefinable time interval include characteristic indicator. Verfahren nach Anspruch 1 oder 2, bei dem als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze (4) jeweils charakteristischen Kurzdatensätze (10) vorgesehenen Durchsuchermoduls (16) unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt werden.Method according to Claim 1 or 2, in which, as system resources, the resources one for creating the data records ( 4 ) each characteristic short data sets ( 10 ) provided browser module ( 16 ) can be selected taking previous experience values from previous search queries into account. Verfahren nach einem der Ansprüche 1 bis 3, bei dem bei der Ermittlung der Erfahrungswerte Korrelationen zwischen Einzelelementen der Suchanfragen berücksichtigt werden.Method according to one of claims 1 to 3, wherein in the Determination of empirical values Correlations between individual elements of search queries become. Verfahren nach einem der Ansprüche 1 bis 4, bei dem bei der Ermittlung der Erfahrungswerte die relative Häufigkeit von Suchanfragen und/oder von Einzelelementen der Suchanfragen berücksichtigt wird.Method according to one of claims 1 to 4, wherein in the Determination of the empirical values, the relative frequency of search queries and / or of individual elements of the search queries is taken into account. Verfahren nach Anspruch 5, bei dem denjenigen Datensätzen (4), die für eine vorgegebene Suchanfrage oder für eine vorgegebene Kombination aus Einzelelementen von Suchanfragen als relevant erkannt werden, proportional zur relativen Häufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von Suchanfragen zusätzliche Systemressourcen für die Erstellung des zugeordneten Kurzdatensatzes (10) zugewiesen werden.Method according to Claim 5, in which those data records ( 4 ), which are recognized as relevant for a given search query or for a given combination of individual elements of search queries, proportional to the relative frequency of the search query or the combination of individual elements of search queries, additional system resources for the creation of the assigned short data record ( 10 ) be assigned to. Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, bei dem in einem Speichermodul (6) hinterlegte, für die Datensätze (4) charakteristische, nach dem Verfahren nach einem der Ansprüche 1 bis 6 erstellte Kurzdatensätze (10) auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden.Procedure for the determination of data records relevant for a specifiable search query ( 4 ) from a database, in particular from the World Wide Web, in which in a memory module ( 6 ) for the records ( 4 ) characteristic short data sets created by the method according to one of claims 1 to 6 ( 10 ) are searched for their relevance for the respective search query. Suchsystem (1) zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, insbesondere zur Durchführung des Verfahrens nach Anspruch 7, bei dem in einem Speichermodul (6) für die Datensätze charakteristische Kurzdatensätze (10) hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes (10) aus einem Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.Search system ( 1 ) for the determination of data records relevant for a specifiable search query ( 4 ) from a database, in particular from the World Wide Web, in particular for carrying out the method according to claim 7, in which in a memory module ( 6 ) Short data sets characteristic of the data sets ( 10 ) are stored, whereby those for the creation of a short data record ( 10 ) from a data record ( 4 ) system resources provided are selected taking into account stored empirical values from previous search queries. Suchsystem (1) nach Anspruch 8, bei dem die Erfahrungswerte eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl umfassen.Search system ( 1 ) according to Claim 8, in which the empirical values comprise a characteristic number which is characteristic of the number of similar search queries in a predeterminable time interval. Suchsystem (1) nach Anspruch 8 oder 9, bei dem als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze (4) jeweils charakteristischen Kurzdatensätze (10) vorgesehenen Durchsuchermoduls (16) unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.Search system ( 1 ) according to Claim 8 or 9, in which, as system resources, the resources one for creating the data records ( 4 ) each characteristic short data sets ( 10 ) provided browser module ( 16 ) are selected taking into account stored empirical values from previous search queries.
DE10319427A 2003-04-29 2003-04-29 Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method Ceased DE10319427A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE10319427A DE10319427A1 (en) 2003-04-29 2003-04-29 Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method
EP04727536A EP1620809A1 (en) 2003-04-29 2004-04-15 Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method
PCT/EP2004/003972 WO2004097670A1 (en) 2003-04-29 2004-04-15 Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10319427A DE10319427A1 (en) 2003-04-29 2003-04-29 Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method

Publications (1)

Publication Number Publication Date
DE10319427A1 true DE10319427A1 (en) 2004-12-02

Family

ID=33394008

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10319427A Ceased DE10319427A1 (en) 2003-04-29 2003-04-29 Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method

Country Status (3)

Country Link
EP (1) EP1620809A1 (en)
DE (1) DE10319427A1 (en)
WO (1) WO2004097670A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999066427A1 (en) * 1998-06-15 1999-12-23 Amazon.Com, Inc. System and method for refining search queries
US20030014399A1 (en) * 2001-03-12 2003-01-16 Hansen Mark H. Method for organizing records of database search activity by topical relevance

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
AU2001278004A1 (en) * 2000-07-25 2002-02-05 Energy E-Comm.Com, Inc. Internet information retrieval method and apparatus
US6584468B1 (en) * 2000-09-29 2003-06-24 Ninesigma, Inc. Method and apparatus to retrieve information from a network
GB2368935A (en) * 2000-11-14 2002-05-15 Itt Mfg Enterprises Inc Updating a searchable database of descriptive information describing information stored at a plurality of addressable logical locations
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999066427A1 (en) * 1998-06-15 1999-12-23 Amazon.Com, Inc. System and method for refining search queries
US20030014399A1 (en) * 2001-03-12 2003-01-16 Hansen Mark H. Method for organizing records of database search activity by topical relevance

Also Published As

Publication number Publication date
EP1620809A1 (en) 2006-02-01
WO2004097670A1 (en) 2004-11-11

Similar Documents

Publication Publication Date Title
DE602004003361T2 (en) SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS
DE69933187T2 (en) Document Search and Service
DE69731142T2 (en) System for retrieving documents
DE60004687T2 (en) METHOD FOR THE THEMATIC CLASSIFICATION OF DOCUMENTS, MODULE FOR THE THEMATIC CLASSIFICATION AND A SEARCH ENGINE CONTAINING SUCH A MODULE
DE602005001940T2 (en) METHOD AND SYSTEM FOR GENERATING A POPULATION REPRESENTATIVE TO A LOT OF USERS OF A COMMUNICATION NETWORK
EP1877932B1 (en) System and method for aggregating and monitoring decentrally stored multimedia data
DE602004011890T2 (en) Method for redistributing objects to arithmetic units
DE202017107393U1 (en) Predicting a search engine map signal value
DE202004021885U1 (en) Information retrieval system based on historical data
DE69719641T2 (en) A process for presenting information on screen devices in various sizes
DE102007037646A1 (en) System and method for indexing, searching and retrieving databases
DE102020116499A1 (en) Method for selecting questions for respondents in a respondent inquiry system
DE102018010163A1 (en) Automatic generation of useful user segments
DE112010002620T5 (en) ONTOLOGY USE FOR THE ORDER OF DATA RECORDS NACHRELEVANZ
Dixit et al. Automatic recommendation for online users using web usage mining
DE112012006749T5 (en) search method
DE102004016930A1 (en) Generate a sampling plan for testing generated content
DE112020002465T5 (en) RANDOM SAMPLES FROM A SEARCH ENGINE
DE10319427A1 (en) Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method
DE19651788A1 (en) Data network with information search process
EP1264253B1 (en) Method and arrangement for modelling a system
EP1783631A1 (en) Search result ranking by means of relevance feedback
DE102021203300A1 (en) Computer-implemented method for keyword searches in a knowledge graph
WO2005024661A2 (en) Improved search engine optimisation
LU503356B1 (en) A collaborative academic early warning method between humans and machines

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection