DE10319427A1 - Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method - Google Patents
Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method Download PDFInfo
- Publication number
- DE10319427A1 DE10319427A1 DE10319427A DE10319427A DE10319427A1 DE 10319427 A1 DE10319427 A1 DE 10319427A1 DE 10319427 A DE10319427 A DE 10319427A DE 10319427 A DE10319427 A DE 10319427A DE 10319427 A1 DE10319427 A1 DE 10319427A1
- Authority
- DE
- Germany
- Prior art keywords
- search
- data records
- characteristic
- search queries
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
Ein Verfahren zur Erstellung von für Datensätze (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensätzen (10) zur Hinterlegung auf einem Speichermodul (6) als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze (4) soll zur Erzeugung eines für eine qualitativ hochwertige Informationsbeschaffung aus der Datenbank oder aus dem World-Wide-Web besonders geeigneter Suchindex geeignet sein. Dazu werden erfindungsgemäß die zur Erstellung eines Kurzdatensatzes (10) aus einem Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.A method for creating short data records (10) which are characteristic of data records (4) from a database, in particular from the World Wide Web, for storage on a memory module (6) as a basis for determining the data records (4) relevant to a predefinable search query. should be suitable for generating a search index that is particularly suitable for obtaining high-quality information from the database or from the World Wide Web. For this purpose, according to the invention, the system resources provided for creating a short data record (10) from a data record (4) are selected taking into account determined empirical values from previous search queries.
Description
Die Erfindung bezieht sich auf ein Verfahren zur Erstellung von für Datensätze aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensätzen zur Hinterlegung auf einem Speichermodul als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze. Sie betrifft weiter ein Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, bei dem derartige Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Weiterhin betrifft die Erfindung ein Suchsystem zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web.The Invention relates to a method of creating for records a database, particularly from the World Wide Web Short records for storage on a memory module as a basis for determination the one Predefinable search query relevant data records. It continues to affect one Procedure for determining for a predefinable search query relevant data records from a database, in particular from the World Wide Web, where such short records are based on their relevance for the respective search query can be searched. Furthermore concerns The invention is a search system for determining a predefinable Search query relevant records from a database, especially from the World Wide Web.
In komplexen Datenbanken oder auch im weltumspannenden Computernetz („World-Wide-Web") wird eine enorme Menge an Informationen bereitgehalten, die ein Benutzer zu Recherchezwecken mehr oder weniger gezielt abrufen kann. Um dabei Informationen aus der großen Informationsmenge heraus gezielt nutzbar machen zu können, kommen so genannte Suchmaschinen zum Einsatz, die gerade bei der Informationsbeschaffung aus dem World-Wide-Web teilweise erhebliche Verbreitung erfahren haben. Bei derartigen Suchmaschinen wird dem Benutzer üblicherweise über ein Ein-/Ausgabemodul ein Anfragenfenster zur Verfügung gestellt, über das gezielte Such- oder Recherchebegriffe vorgegeben werden können. Anschließend durchsucht die Suchmaschine die Informationsbasis der Datenbank bzw. des World-Wide-Web nach geeigneten Schlüssel- oder Keywörtern. Die daraufhin aufgefundenen Antwortdatensätze werden üblicherweise von der jeweiligen Suchmaschine hinsichtlich ihrer Relevanz für den vorgegebe nen Suchauftrag kategorisiert und dem Benutzer in der Art einer Trefferliste in nach ihrer Relevanz geordneter Reihenfolge zur Verfügung gestellt.In complex databases or even in the global computer network ("World Wide Web") will be enormous Amount of information held by a user for research purposes more or less targeted. To get information from the big To be able to use the amount of information in a targeted manner so-called search engines are used, which are particularly useful for gathering information experience considerable spread from the World Wide Web to have. In such search engines, the user is usually informed about a An input / output module provides an inquiry window via which targeted search or research terms can be specified. Then searches the Search engine the information base of the database or the World Wide Web for suitable key or keywords. The response data records found thereupon are usually from the respective Search engine with regard to its relevance for the specified search order categorized and the user in the manner of a hit list in order according to their relevance.
Allerdings bereitet die zunehmende Komplexität der eingesetzten Datenbanken und insbesondere der stetig wachsende enorme Informationsgehalt im World-Wide-Web zunehmende Probleme bei der strukturierten und gezielten Beschaffung von Informationen. Die für die Recherche eingesetzten Suchmaschinen werden daher zunehmend bezüglich der eingesetzten Suchalgorithmen verbessert, wobei zudem in der Art von Vorsortierungen oder Vorfilterungen weitere Hilfsmittel zur Klassifizierung von Datensätzen aus der Datenbank zum Einsatz kommen können. Insbesondere im World-Wide-Web sind die Datensätze üblicherweise in Form von so genannten Domains strukturiert und organisiert, wobei eine Domain typischerweise von einem Betreiber unterhalten wird und ihrerseits eine Vielzahl von Unterdatensätzen, Textdokumenten oder dergleichen umfassen kann.Indeed prepares the increasing complexity of the databases used and in particular the constantly growing enormous amount of information in the World-wide-web increasing Problems with the structured and targeted procurement of information. The for The search engines used are therefore increasing in terms of the search algorithms used improved, in addition in the Type of pre-sorting or pre-filtering other aids for the classification of data records can be used from the database. Especially on the World Wide Web are the records usually structured and organized in the form of so-called domains, whereby a domain is typically maintained by an operator and in turn a variety of sub-records, text documents or the like may include.
Um gerade bei der Informationsbeschaffung aus dem World-Wide-Web trotz der enormen Vielzahl der dort verfügbaren Datensätze oder Domains mit einem seinerseits möglicherweise vergleichsweise großen Inhalt an Unterdatensätzen oder Informationsträgern eine geeignete Vorauswahl von bei einer vorgegebenen Suchanfrage zu berücksichtigenden Domains treffen zu können, kann ein so genanntes Ranking der Domains zum Einsatz kommen. Dabei wird jeder Domain ein Kennwert zugeordnet, der anhand von zugänglichen Sekundärinformationen in der Art einer relativen Relevanz die Wichtigkeit der Berücksichtigung der jeweiligen Domain für die Suchanfrage charakterisiert. Bei der Zuordnung dieses Kennwerts zur jeweiligen Domain wird üblicherweise in der Art eines so genannten statischen Ansatzes eine Informationsbasis herangezogen, bei der beispielsweise aufgrund des Grades der Vernetzung der jeweiligen Domain mit anderen Domains auf die relative Bedeutung der jeweiligen Domain geschlossen wird. Als Maß für eine derartige Bedeutung kann die Anzahl der so genannten Links oder Querverweise von anderen Domains auf die jeweilige Domain herangezogen werden, wobei die Annahme zugrunde gelegt wird, dass eine Vielzahl von Querverweisen auf die jeweilige Domain ein Hinweis darauf ist, dass diese Domain für eine Vielzahl von Benutzern von besonderer Wichtigkeit bei der Bearbeitung ihrer Suchanfragen ist.Around especially when it comes to obtaining information from the World Wide Web the enormous variety of data sets available there or Domains with one in turn possibly comparatively large Sub-record content or information carriers a suitable pre-selection of a given search query domains to consider to be able to meet a so-called domain ranking can be used. Doing so a characteristic value is assigned to each domain, based on accessible secondary information the importance of consideration in the manner of a relative relevance the respective domain for characterizes the search query. When assigning this characteristic value to the respective domain is usually an information base in the manner of a so-called static approach used, for example due to the degree of networking the respective domain with other domains on the relative importance of the respective domain is closed. As a measure of such meaning can be the number of links or cross references from others Domains are used for the respective domain, whereby the Assumption is based on a variety of cross references the respective domain is an indication that this domain is suitable for a large number of Users of particular importance when processing their search queries is.
Allerdings hat sich gezeigt, dass bei der Zuordnung einer derartigen statischen Kenngröße als Relevanzindikator für die jeweilige Domain Spielraum für Manipulationen besteht, wobei unabhängig von den eigentlichen Benutzerinteressen aufgrund wirtschaftlicher Entscheidungen durch die Herstellung einer Vielzahl sachlich eigentlich nicht gerechtfertigter Links oder Querverweise künstlich der Eindruck einer vergleichsweise hohen Relevanz oder Bedeutsamkeit der jeweiligen Domain erzeugt werden kann. Die Verwendung derartiger statischer Relevanzzuordnungen zur Verbesserung der Suchergebnisse von Internet-Recherchen ist daher von eher abnehmendem Interesse.Indeed has been shown that when assigning such a static Parameter as a relevance indicator for the respective domain scope for Manipulations exist, regardless of the actual user interests due to economic decisions by making a Plenty of factually unjustified links or cross-references artificially the impression of a comparatively high relevance or significance of the respective domain can be generated. The use of such static relevance assignments to improve the search results Internet research is therefore of decreasing interest.
Die enormen, im World-Wide-Web oder Internet verfügbaren Informationsmengen machen bei der Durchführung einer Informationsrecherche die tatsächliche Durchsuchung sämtlicher Domains inklusive der darin enthaltenen Unterdatensätze oder Textbausteine in Echtzeit auf das Vorhandensein der Suchanfrage oder von einzelnen Elementen der jeweiligen Suchanfrage unmöglich. Statt dessen kommen in Suchsystemen oder Suchmaschinen für die Informationsbeschaffung aus dem Internet oder World-Wide-Web so genannte „Crawler" oder Durchsuchermodule zum Einsatz, die ständig die Domains oder Datensätze aus dem World-Wide-Web bzw. einer komplexen Datenbank auf ihren Textinhalt oder andere als relevant erachtete Informationen hin durchsuchen. Im Rahmen von vorgegebenen Systemressourcen (beispielsweise Bearbeitungszeit, Speicherkapazität oder Rechenleistung) durchsucht das jeweilige Durchsuchermodul die gerade angewählte Domain oder den Datensatz und stellt bis zu einer durch die zugewiesenen Systemressourcen vorgegebenen Grenze anhand der in der jeweiligen Domain aufgefundenen Informationen einen für die Domain oder den Datensatz charakteristischen Kurzdatensatz, beispielsweise in Form einer Textdatei mit möglicherweise zugeordneten Überschriften oder sonstigen Indikatoren, zusammen.The enormous amounts of information available on the World Wide Web or the Internet make it impossible to actually search all domains, including the sub-data sets or text modules contained therein, in real time for the presence of the search query or of individual elements of the respective search query when carrying out an information search. Instead, so-called "crawlers" or searcher modules are used in search systems or search engines for obtaining information from the Internet or the World Wide Web, which are constantly used for the domains or search records from the World Wide Web or a complex database for their textual content or other information deemed relevant. Within the framework of predefined system resources (for example processing time, storage capacity or computing power), the respective search module searches the currently selected domain or the data record and sets a limit for the domain or the data record based on the information found in the respective domain up to a limit specified by the assigned system resources characteristic short data record, for example in the form of a text file with possibly assigned headings or other indicators.
Dieser Kurzdatensatz wird sodann auf einem Speichermodul hinterlegt und für eine nachfolgende Untersuchung bereitgehalten. Die Gesamtheit der aus den überhaupt bei diesem Vorgehen berücksichtigten Datensätze oder Domains erstellten, auf dem Speichermodul hinterlegten Kurzdatensätze wird auch als so genannter „Index" der jeweiligen Suchmaschine bezeichnet und dient als Informationsbasis für die nachfolgend durchgeführten Recherchen: Die Erstellung der im Index enthaltenen Kurzdatensätze erfolgt dabei üblicherweise kontinuierlich, wobei individuelle Domains zyklisch angewählt werden, so dass eine andauernde Aktualisierung des Index erfolgt. Bei einer nachfolgenden Recherche, also bei der Ermittlung der für eine vorgegebene Suchanfrage relevanten Datensätze, wird sodann der durch die Gesamtheit der hinterlegten Kurzdatensätze gebildete Index auf das Vorhandensein von Schlüssel- oder Keywörtern der jeweiligen Suchanfrage oder von Einzelelementen davon durchsucht, wobei anhand der dabei erzielten Suchergebnisse oder Treffer die den aufgefundenen Kurzdatensätzen zugeordneten Datensätze oder Domains als relevant für die jeweilige Suchanfrage ermittelt werden.This The short data record is then stored on a memory module and for one subsequent investigation held ready. The entirety of that at all considered in this approach records or domains created, stored on the memory module also as a so-called "index" of the respective search engine denotes and serves as an information basis for the research carried out below: The short data records contained in the index are created usually continuously, whereby individual domains are selected cyclically, so that the index is continuously updated. At a subsequent research, i.e. when determining the one for a given one Query relevant records, is then formed by the total of the short data records stored Index to the presence of keywords or keywords the respective search query or individual elements of it, based on the search results or hits obtained the short data records found associated records or domains as relevant for the respective search query can be determined.
Aufgrund der Vielzahl der im World-Wide-Web verfügbaren Domains oder Datensätze können nicht sämtliche Domains bei der Erstellung der Kurzdatensätze berücksichtigt werden. Die Entscheidung, welche Domains bei der Erstellung des Index berücksichtigt werden, erfolgt dabei üblicherweise anhand der oben genannten Relevanzkriterien, also insbesondere anhand von Informationen über eine erkannte oder vermeintliche Bedeutung der jeweiligen Domain für die Benutzer. Gerade da infolge der verfügbaren Informationsvielfalt eine besonders zielgerichtete Vorsortierung der Informationen und insbesondere der als für eine Suchanfrage relevant erkannten Datensätze für die nachfolgende Auswertung der Rechercheergebnisse sehr bedeutsam sein kann, ist bereits bei der Erstellung des so genannten Index eine besonders hohe Qualität und Sorgfalt bei der Auswertung der berücksichtigten Informationen wünschenswert.by virtue of the multitude of domains or data records available on the World Wide Web cannot all Domains are taken into account when creating the short data records. The decision, which domains are taken into account when creating the index usually based on this the above relevance criteria, in particular based on information about a recognized or supposed meaning of the respective domain for the User. Especially because of the variety of information available a particularly targeted pre-sorting of the information and especially the as for a search query relevant recognized data records for the subsequent evaluation the search results can be very significant is already at the creation of the so-called index a particularly high quality and care when evaluating the considered Information desirable.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Erstellung von für Datensätze charakteristischen Kurzdatensätzen der oben genannten Art anzugeben, mit dem ein für eine qualitativ hochwertige Informationsbeschaffung aus der Datenbank oder aus dem World-Wide-Web besonders geeigneter Suchindex erzeugt werden kann. Des Weiteren sollen unter Verwendung dieses Verfahrens ein besonders geeignetes Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, und ein Suchsystem zur Durchführung dieses Verfahrens angegeben werden.The The invention is therefore based on the object of creating a method from for records characteristic short data sets of the type mentioned above, with one for a high quality Obtaining information from the database or from the World Wide Web particularly suitable search index can be generated. Furthermore are said to be a particularly suitable one using this method Procedure for determining for a predefinable search query relevant data records from a database, in particular from the world-wide-web, and a search system to do this Procedure are specified.
Bezüglich des Verfahrens zur Erstellung der für die Datensätze charakteristischen Kurzdatensätze wird diese Aufgabe erfindungsgemäß gelöst, indem die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt werden.Regarding the Procedure for creating the for the records characteristic short data sets this object is achieved according to the invention by those provided for creating a short data record from a data record System resources under consideration from determined empirical values from previous search queries to get voted.
Die Erfindung geht dabei von der Überlegung aus, dass für die Erzeugung einer für qualitativ besonders hochwertige Informationsbeschaffung besonders geeigneten Informationsbasis auf der Grundlage der für die Datensätze charakteristischen Kurzdatensätze zwar einerseits in der Art statischer Kennwerte verfügbare Informationen über die einzelnen Datensätze oder Domains an sich berücksichtigt werden können, das aber andererseits in der Art eines dynamischen Elements auch für die Benutzerinteressen charakteristische Informationen mitberücksichtigt werden sollten. Dabei liegt die Erkenntnis zugrunde, dass das Ergebnis einer Informationsbeschaffung aus der Datenbank oder dem World-Wide-Web dann als qualitativ besonders hochwertig angesehen wird, wenn es in möglichst weit reichendem Umfang das Benutzerinteresse korrekt widerspiegelt. Es sollten daher Maßnahmen getroffen werden, um für das Benutzerinteresse charakteristische Informationen in die weitere Informationsbeschaffung einfließen zu lassen. Ein Ansatzpunkt hierfür ist bereits die Erzeugung der Informationsbasis für die Bearbeitung der Suchanfragen, so dass sich Informationen über das Besucherinteresse bereits bei der Erzeugung der für die Datensätze oder Domains charakteristischen Kurzdatensätze im Index niederschlagen sollten. Um dies zu ermöglichen, werden bereits bei der Zuweisung der Systemressourcen, die für die Erstellung eines Kurzdatensatzes aus einem zugeordneten Datensatz aufgewendet werden kön nen und somit die Vollständigkeit der im Kurzdatensatz für die Informationsbeschaffung bereitgehaltenen Informationen entscheidend mitbestimmen, im Hinblick auf das Benutzerinteresse unter Berücksichtigung von Erfahrungswerten aus vorangegangenen Suchanfragen zugewiesen.The Invention is based on the consideration that for generating one for particularly high quality information gathering suitable information basis on the basis of the short data records characteristic of the data records on the one hand, information about the data available in the form of static parameters individual records or domains themselves are taken into account can, on the other hand in the form of a dynamic element for the Characteristic information taken into account for user interests should be. The underlying understanding is that the result Obtaining information from the database or the World Wide Web is considered to be of particularly high quality if it in if possible far-reaching scope correctly reflects user interest. It should therefore take action to be taken for the user interest characteristic information in the further Increase information gathering allow. A starting point for this is already creating the information base for processing the Search queries so that information about visitor interest is already there in generating the for the records or domains characteristic short data records in the index should. In order to make this possible, are already used in the allocation of system resources for the creation a short data record from an assigned data record can be and thus the completeness the in the short record for the information provided is crucial co-determine, taking into account the user interest based on past experience from previous searches.
In besonders einfacher und prägnanter Weise können die Benutzerinteressen bereits bei der Erstellung des Index berücksichtigt werden, indem vorteilhafterweise bei der Zuordnung der Systemressourcen die Häufigkeit von zu einer Suchanfrage gleichen oder ähnlichen Suchanfragen in der jüngsten Vergangenheit als Erfahrungswert berücksichtigt wird. In weiterer vorteilhafter Ausgestaltung kann dabei auch die Trefferhäufigkeit der Datensätze oder Domains bzgl. der von den Benutzern in jüngster Vergangenheit besonders häufig vorgegebenen Suchanfragen berücksichtigt werden. Die Erfahrungswerte umfassen daher zweckmäßigerweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl.In particularly simple and concise Way can user interests already taken into account when creating the index be by advantageously in the allocation of system resources the frequency of the same or similar searches in the search query recent past is taken into account as empirical value. In a further advantageous embodiment, the frequency of hits can also be achieved of the records or domains related to those of users in the recent past frequently given search queries become. The empirical values therefore expediently include one for the number of similar search queries in a predefinable time interval characteristic key figure.
Um die Benutzerinteressen besonders zielführend bereits bei der Erstellung des Index für die Suchmaschine berücksichtigen zu können, werden vorteilhafterweise als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls oder Crawlers unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.Around the user interests are particularly effective as early as the creation stage of the index for consider the search engine to be able are advantageously the resources of a system resources to create the for the records each characteristic short data sets provided browser module or crawler taking into account from determined empirical values from previous search queries selected.
In einer besonders vorteilhaften Ausgestaltung werden die Benutzerinteressen bei der Zuordnung der Systemressourcen besonders weitgehend berücksichtigt, indem bei der Ermittlung der Erfahrungswerte in besonderem Maß die möglicherweise komplexe Struktur der von den Benutzern verwendeten Suchanfragen berücksichtigt wird. Dabei liegt die Erkenntnis zugrunde, dass ein besonders genaues Abbild des allgemeinen Benutzerinteresses nicht allein durch die relative Häufigkeit einzelner in Suchanfragen verwendeter Elemente oder Begriffe, sondern ergänzend oder zusätzlich auch noch durch die Berücksichtigung von spezifischen Korrelationen zwischen einzelnen Begriffen oder Elementen von Suchanfragen er zielt werden kann. Dabei wird insbesondere berücksichtigt, dass einzelne Elemente oder Komponenten einer Suchanfrage entsprechend dem aktuell gerade verbreiteten Benutzerinteresse bevorzugt in Kombination mit spezifischen anderen Einzelelementen oder Komponenten von Suchanfragen angefragt werden. Beispielsweise könnte das aktuelle Benutzerinteresse im Allgemeinen aktuell in eine Richtung gehen, dass bevorzugt kostenlose Multimedia-Dateien aus dem Internet heruntergeladen werden sollen. In einer derartigen Konstellation ist bei Suchanfragen vermehrt mit einer Kombination der Suchbegriffe „MP3", „free" und „download" zu rechnen. Bei der spezifischen Bewertung und Berücksichtigung vergangener Suchanfragen kann somit die Kombination dieser drei Einzelelemente einer Suchanfrage als ein besonders gewichtiger Indikator für gesteigertes Benutzerinteresse gewertet werden. Um dies zu ermöglichen, werden bei der Ermittlung der Erfahrungswerte vorzugsweise Korrelationen zwischen Einzelelementen der Suchanfragen berücksichtigt.In In a particularly advantageous embodiment, the user interests particularly taken into account when allocating system resources, by the particularly complex when determining the empirical values Structure of search queries used by users is taken into account becomes. This is based on the knowledge that a particularly precise image general user interest not only by relative frequency individual elements or terms used in search queries, but additional or additionally also by considering of specific correlations between individual terms or Elements of search queries it can be targeted. In particular considered, that individual elements or components correspond to a search query in combination with the currently widespread user interest with specific other individual elements or components of search queries Can be requested. For example, the current user interest generally currently go in a direction that prefers free Multimedia files are to be downloaded from the Internet. In such a constellation, search queries are increased with a combination of the search terms "MP3", "free" and "download" the specific evaluation and consideration of past searches can therefore combine these three individual elements of a search query as a particularly important indicator of increased user interest get ranked. In order to make this possible, correlations are preferably used when determining the empirical values Individual elements of the search queries are taken into account.
Um in der Art einer ersten Vorfilterung eine vergleichsweise einfach beschaffbare Eingangsinformation für die Bewertung von Suchanfragen und ihrer Relevanz für die Datensätze bereitzustellen, wird bei der Ermittlung der Erfahrungswerte vorteilhafterweise die relative Häufigkeit von Suchanfragen und/oder von Einzelelementen der Suchanfragen berücksichtigt. Dies kann auf besonders einfache Weise unmittelbar bei der Erstellung des Index berücksichtigt werden, indem denjenigen Datensätzen, die für eine vorgegebene Suchanfrage oder für eine vorgegebene Kombination aus Einzelelementen von Suchanfragen als relevant erkannt werden, vorteilhafterweise in Abhängigkeit von der relativen Häufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von Suchanfragen zusätzliche Systemressourcen für die Erstellung des zugeordneten Kurzdatensatzes zugewiesen werden.Around in the manner of a first pre-filtering a comparatively simple obtainable input information for the evaluation of search queries and their relevance to the records To provide, is advantageous in determining the empirical values the relative frequency of search queries and / or of individual elements of the search queries taken into account. This can be done in a particularly simple manner directly during creation of the index are taken into account by those records the for a given search query or for a given combination are identified as relevant from individual elements of search queries, advantageously depending on the relative frequency the search query or the combination of individual elements of search queries additional System resources for the Creation of the assigned short data record can be assigned.
Vorteilhafterweise werden die auf die genannte Art erstellten, für die Datensätze aus der Datenbank charakteristischen Kurzdatensätze zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus der Datenbank, insbesondere aus dem World-Wide-Web, genutzt, indem die solchermaßen erstellten, in einem Speichermodul hinterlegten Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Als Kriterium für die Ermittlung dieser Relevanz kann dabei beispielsweise die Häufigkeit dienen, mit der ein Schlüssel- oder Keywort der Suchanfrage im jeweiligen Kurzdatensatz aufgefunden werden kann, wobei zudem noch eine Differenzierung nach dem Ort des jeweiligen Auffindens, beispielsweise in einer Überschrift oder im Volltext, vorgenommen werden kann.advantageously, are created in the manner mentioned for the records the short data records characteristic of the database for the determination of for a specifiable Search query relevant records used from the database, in particular from the World Wide Web, by doing so created short data records stored in a memory module their relevance for the respective search query can be searched. As a criterion for the determination this relevance can be used, for example, by the frequency with which a key word or keyword Search query can be found in the respective short data record, with a differentiation according to the location of each Finding, for example in a heading or in full text, can be made.
Bezüglich des Suchsystems zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, wird die genannte Aufgabe gelöst, indem in einem Speichermodul für die Datensätze charakteristische Kurzdatensätze hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.Regarding the Search system for determining for a predefinable search query relevant data records from a database, in particular from the world wide web, the stated task is solved, by in a memory module for the records characteristic short data sets are stored, whereby to create a short data set system resources provided under consideration of stored empirical values from previous search queries chosen are.
Die Erfahrungswerte umfassen dabei vorteilhafterweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl. In zusätzlicher oder alternativer vorteilhafter Ausgestaltung sind als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.The empirical values advantageously include a characteristic number that is characteristic of the number of similar search queries in a predefinable time interval. In an additional or alternative advantageous embodiment, the system resources are the resources of a browser module provided for creating the short data records that are characteristic of the data records, taking into account stored empirical values previous searches.
Die mit der Erfindung erzielten Vorteile bestehen insbesondere darin, dass durch die Berücksichtigung von Erfahrungswerten aus vorangegangenen Suchanfragen bei der Vergabe der Systemressourcen bei der Erstellung des Index oder der für die Datensätze charakteristischen Kurzdatensätze bereits in einem besonders frühen Stadium, nämlich in der Vorbereitungsphase einer Datenbank- oder Internet-Recherche, eine weit gehende Berücksichtigung des aktuell vorhandenen Benutzerinteresses ermöglicht ist. Gerade durch die Berücksichtigung des Benutzerinteresses ergänzend zu oder anstelle von bisher verwendeten Datenbank spezifi schen Charakteristika wie beispielsweise der Häufigkeit der jeweiligen Querverweise ist eine vom Benutzer als besonders hochwertig angesehene Informationsbeschaffung ermöglicht. Ein besonders spezifisches Abbild des Benutzerinteresses und somit eine besonders hohe Genauigkeit bei der Vergabe der Ressourcen ist dabei erreichbar durch die Berücksichtigung von Korrelationen zwischen einzelnen Elementen von Suchanfragen, wobei gerade besonders häufig verwendete Kombinationen spezifischer Einzelelemente und der Rückschluss auf die mit derartigen kombinierten Suchanfragen als Ergebnis aufgefundenen Datensätze oder Domains eine in besonderem Maße an das Benutzerinteresse angepasste Treffergenerierung erwarten lässt.The Advantages achieved with the invention are in particular that by considering from empirical values from previous search queries when awarding the system resources when creating the index or those characteristic of the data records Short records already in a particularly early Stage, namely in the preparation phase of a database or internet search, a far taking into account the currently existing user interest is enabled. Just through that consideration of user interest to or instead of specific database characteristics used so far such as frequency of the respective cross references is one of the users as special high quality viewed information gathering possible. A particularly specific image of user interest and thus is a particularly high level of accuracy when allocating resources thereby achievable through consideration of correlations between individual elements of search queries, being particularly common Combinations of specific individual elements used and the conclusion to the data records found as a result with such combined search queries or Domains a particularly that user interest can expect customized hit generation.
Ein Ausführungsbeispiel der Erfindung wird anhand einer Zeichnung näher erläutert. Darin zeigt die Figur schematisch ein Suchsystem zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen oder Domains aus dem World-Wide-Web.On embodiment the invention is explained in more detail with reference to a drawing. In it the figure shows schematically a search system for determining a search query that can be specified relevant records or domains from the World Wide Web.
Das
Suchsystem
Aufgrund
der großen
Vielzahl an im World-Wide-Web verfügbaren Informationen ist das Suchsystem
Zur
Erstellung der für
die Domains
Die
Zuordnung der Systemressourcen für
die Durchsuchung der jeweiligen Domain
Darüber hinaus
ist das Suchsystem
Bei
der Zuordnung der Systemressourcen berücksichtigt das Analysemodul
Darüber hinaus
ist das Suchsystem
Zur
statistischen Auswertung der Suchanfragen wird dabei im Analysemodul
Die Eigenwerte und Eigenvektoren der Korrelationsmatrix können anschließend für eine weitere Auswertung der Suchanfragen herangezogen werden. Diejenigen Eigenvektoren der Korrelationsmatrix, die einen vergleichsweise großen Eigenwert aufweisen, entsprechen dabei einem Mix von Einzelelementen von Suchanfragen, der gemäß der Linearkoeffizienten der Einzelelemente der Suchanfragen vergleichsweise häufig in typischen Suchanfragen vorkommt und somit in besonderem Maße das aktuelle Benutzerinteresse widerspiegelt. Es werden somit in einem nächsten Schritt diejenigen Eigenvektoren der Korrelationsmatrix ausgewählt, denen ein vergleichsweise großer Eigenwert zugeordnet ist. Durch die so ermittelten Eigenvektoren erhält man im Ergebnis einen Mix von Suchanfragen, die in der jeweiligen Kombination mit besonders hoher Wahrscheinlichkeit in jüngster Vergangenheit vorgekommen sind.The Eigenvalues and eigenvectors of the correlation matrix can then be used for further evaluation of search queries are used. Those eigenvectors of the Correlation matrix that has a comparatively large eigenvalue correspond to a mix of individual elements of search queries, which according to the linear coefficients of the individual elements of the search queries comparatively frequently in typical search queries occurs and thus particularly the current user interest reflects. In a next step, those eigenvectors will become selected the correlation matrix, which is a comparatively large one Eigenvalue is assigned. Through the eigenvectors determined in this way receives the result is a mix of search queries in the respective combination have been particularly likely in the recent past are.
Mit
den so ausgewählten,
vergleichsweise großen
Eigenwerten der Korrelationsmatrix zugeordneten „Eigenanfragen" greift das Analysemodul
- 11
- Suchsystemsearch system
- 22
- Doppelpfeiledouble arrows
- 44
- Domaindomain
- 66
- Speichermodulmemory module
- 88th
- Indexindex
- 1010
- KurzdatensätzeShort records
- 1212
- Pfeilarrow
- 1414
- Ein-/AusgabemodulInput / Output Module
- 1616
- DurchsuchermodulSearch form module
- 1818
- Speichermodulmemory module
- 2020
- Analysemodulanalysis module
- 2222
- Pfeilarrow
Claims (10)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10319427A DE10319427A1 (en) | 2003-04-29 | 2003-04-29 | Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method |
EP04727536A EP1620809A1 (en) | 2003-04-29 | 2004-04-15 | Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method |
PCT/EP2004/003972 WO2004097670A1 (en) | 2003-04-29 | 2004-04-15 | Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10319427A DE10319427A1 (en) | 2003-04-29 | 2003-04-29 | Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10319427A1 true DE10319427A1 (en) | 2004-12-02 |
Family
ID=33394008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10319427A Ceased DE10319427A1 (en) | 2003-04-29 | 2003-04-29 | Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1620809A1 (en) |
DE (1) | DE10319427A1 (en) |
WO (1) | WO2004097670A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066427A1 (en) * | 1998-06-15 | 1999-12-23 | Amazon.Com, Inc. | System and method for refining search queries |
US20030014399A1 (en) * | 2001-03-12 | 2003-01-16 | Hansen Mark H. | Method for organizing records of database search activity by topical relevance |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418433B1 (en) * | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
US6493703B1 (en) * | 1999-05-11 | 2002-12-10 | Prophet Financial Systems | System and method for implementing intelligent online community message board |
AU2001278004A1 (en) * | 2000-07-25 | 2002-02-05 | Energy E-Comm.Com, Inc. | Internet information retrieval method and apparatus |
US6584468B1 (en) * | 2000-09-29 | 2003-06-24 | Ninesigma, Inc. | Method and apparatus to retrieve information from a network |
GB2368935A (en) * | 2000-11-14 | 2002-05-15 | Itt Mfg Enterprises Inc | Updating a searchable database of descriptive information describing information stored at a plurality of addressable logical locations |
US20020194161A1 (en) * | 2001-04-12 | 2002-12-19 | Mcnamee J. Paul | Directed web crawler with machine learning |
-
2003
- 2003-04-29 DE DE10319427A patent/DE10319427A1/en not_active Ceased
-
2004
- 2004-04-15 WO PCT/EP2004/003972 patent/WO2004097670A1/en not_active Application Discontinuation
- 2004-04-15 EP EP04727536A patent/EP1620809A1/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999066427A1 (en) * | 1998-06-15 | 1999-12-23 | Amazon.Com, Inc. | System and method for refining search queries |
US20030014399A1 (en) * | 2001-03-12 | 2003-01-16 | Hansen Mark H. | Method for organizing records of database search activity by topical relevance |
Also Published As
Publication number | Publication date |
---|---|
EP1620809A1 (en) | 2006-02-01 |
WO2004097670A1 (en) | 2004-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602004003361T2 (en) | SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS | |
DE69933187T2 (en) | Document Search and Service | |
DE69731142T2 (en) | System for retrieving documents | |
DE60004687T2 (en) | METHOD FOR THE THEMATIC CLASSIFICATION OF DOCUMENTS, MODULE FOR THE THEMATIC CLASSIFICATION AND A SEARCH ENGINE CONTAINING SUCH A MODULE | |
DE602005001940T2 (en) | METHOD AND SYSTEM FOR GENERATING A POPULATION REPRESENTATIVE TO A LOT OF USERS OF A COMMUNICATION NETWORK | |
EP1877932B1 (en) | System and method for aggregating and monitoring decentrally stored multimedia data | |
DE602004011890T2 (en) | Method for redistributing objects to arithmetic units | |
DE202017107393U1 (en) | Predicting a search engine map signal value | |
DE202004021885U1 (en) | Information retrieval system based on historical data | |
DE69719641T2 (en) | A process for presenting information on screen devices in various sizes | |
DE102007037646A1 (en) | System and method for indexing, searching and retrieving databases | |
DE102020116499A1 (en) | Method for selecting questions for respondents in a respondent inquiry system | |
DE102018010163A1 (en) | Automatic generation of useful user segments | |
DE112010002620T5 (en) | ONTOLOGY USE FOR THE ORDER OF DATA RECORDS NACHRELEVANZ | |
Dixit et al. | Automatic recommendation for online users using web usage mining | |
DE112012006749T5 (en) | search method | |
DE102004016930A1 (en) | Generate a sampling plan for testing generated content | |
DE112020002465T5 (en) | RANDOM SAMPLES FROM A SEARCH ENGINE | |
DE10319427A1 (en) | Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method | |
DE19651788A1 (en) | Data network with information search process | |
EP1264253B1 (en) | Method and arrangement for modelling a system | |
EP1783631A1 (en) | Search result ranking by means of relevance feedback | |
DE102021203300A1 (en) | Computer-implemented method for keyword searches in a knowledge graph | |
WO2005024661A2 (en) | Improved search engine optimisation | |
LU503356B1 (en) | A collaborative academic early warning method between humans and machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |