WO2004097670A1 - Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method - Google Patents

Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method Download PDF

Info

Publication number
WO2004097670A1
WO2004097670A1 PCT/EP2004/003972 EP2004003972W WO2004097670A1 WO 2004097670 A1 WO2004097670 A1 WO 2004097670A1 EP 2004003972 W EP2004003972 W EP 2004003972W WO 2004097670 A1 WO2004097670 A1 WO 2004097670A1
Authority
WO
WIPO (PCT)
Prior art keywords
data records
search
characteristic
search queries
account
Prior art date
Application number
PCT/EP2004/003972
Other languages
German (de)
French (fr)
Inventor
Andreas Schaale
Original Assignee
Contraco Consulting & Software Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Contraco Consulting & Software Limited filed Critical Contraco Consulting & Software Limited
Priority to EP04727536A priority Critical patent/EP1620809A1/en
Publication of WO2004097670A1 publication Critical patent/WO2004097670A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • Method for creating short data records characteristic of data records from a database in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method
  • the invention relates to a method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, for storing on a memory module as a basis for determining the data records relevant for a predefinable search query. It further relates to a method for determining data records relevant to a specifiable search query from a database, in particular from the World Wide Web, in which such short data records are searched for their relevance for the respective search query. The invention further relates to a search system for determining a predefinable one
  • World Wide Web An enormous amount of information is available in complex databases or in the global computer network (“World Wide Web”), which a user can access more or less specifically for research purposes.
  • search engines In order to be able to use information from the large amount of information in a targeted manner , so-called search engines are used, which have in some cases become particularly widespread when it comes to obtaining information from the World Wide Web.
  • Output module provides a query window, through which targeted search or research terms can be specified.
  • the search engine searches the information base of the database or of the World Wide Web for suitable key words or key words.
  • the response data records found thereupon are usually categorized by the respective search engine with regard to their relevance for the specified search order and made available to the user in the manner of a hit list in an order arranged according to their relevance.
  • the search engines used for the research are therefore increasingly being improved with regard to the search algorithms used, and further aids for classifying data records from the database can also be used in the manner of pre-sorting or pre-filtering.
  • the data records are usually structured and organized in the form of so-called domains, a domain typically being maintained by an operator and in turn comprising a large number of sub-data records, text documents or the like.
  • Each domain is assigned a characteristic value which, based on accessible secondary information in the manner of a relative relevance, characterizes the importance of considering the respective domain for the search query.
  • an information base is usually used in the manner of a so-called static approach, in which, for example, the relative importance of the respective domain is inferred on the basis of the degree of networking of the respective domain with other domains.
  • the number of so-called links or cross-references from other domains to the respective domain can be used as a measure of such meaning, based on the assumption that a large number of cross-references to the respective domain is an indication that this domain is for a large number of users is of particular importance when processing their search queries.
  • the respective search module searches the currently selected domain or the data record and sets up to a limit specified by the assigned system resources using the in the information found in the respective domain is combined with a short data record characteristic of the domain or the data record, for example in the form of a text file with possibly assigned headings or other indicators.
  • This short data record is then stored on a memory module and kept ready for a subsequent examination.
  • the entirety of the short data sets created from the data records or domains taken into account in this procedure and stored on the memory module is also referred to as the so-called “index” of the respective search engine and serves as an information basis for the searches carried out below usually continuously, whereby individual domains are selected cyclically, so that the index is continuously updated.
  • the index formed by the total of the short data records stored is then searched for the presence of keywords or key words of the respective search query or of individual elements thereof, using the search results obtained or Hits those found
  • Data records or domains assigned to short data records are determined to be relevant for the respective search query.
  • the invention is therefore based on the object of specifying a method for creating short data records of the type mentioned above, which can be used to generate a search index which is particularly suitable for obtaining high quality information from the database or from the World Wide Web. Furthermore, using this method, a particularly suitable method for determining data records relevant to a specifiable search query from a database, in particular from the World Wide Web, and a search system for carrying out this method are to be specified.
  • this object is achieved according to the invention by using the system resources provided for creating a short data record from a data record Consideration of determined empirical values from previous search queries can be selected.
  • the invention is based on the consideration that, on the one hand, available information about the individual data records or domains per se is taken into account in the manner of static characteristic values for the generation of an information base which is particularly suitable for obtaining particularly high quality information based on the short data records characteristic of the data records can, which, on the other hand, should also be taken into account in the manner of a dynamic element, also information characteristic of the user's interests.
  • This is based on the knowledge that the result of obtaining information from the database or the World Wide Web is considered to be of particularly high quality if it reflects the user interest correctly as far as possible. Measures should therefore be taken to incorporate information that is characteristic of the user's interest in further information gathering.
  • the frequency of search queries that are similar or similar to a search query in the recent past is advantageously taken into account as empirical value when assigning the system resources.
  • the frequency of hits of the data records or domains with regard to the search queries that have been specified particularly frequently by users in the recent past can also be taken into account.
  • the Experience values therefore expediently comprise a characteristic number which is characteristic of the number of similar search queries in a predefinable time interval.
  • System resources selected the resources of a searcher module or crawler provided for the creation of the short data sets which are characteristic of the data sets, taking into account the empirical values determined from previous search queries.
  • the user interests are particularly largely taken into account when allocating the system resources by taking into account to a particular extent the possibly complex structure of the search queries used by the users when determining the empirical values.
  • This is based on the knowledge that a particularly precise image of general user interest can be achieved not only by the relative frequency of individual elements or terms used in search queries, but also or additionally by taking into account specific correlations between individual terms or elements of search queries .
  • individual elements or components of a search query are preferably requested in combination with specific other individual elements or components of search queries in accordance with the currently widespread user interest.
  • the current user interest could generally go in one direction, that preferably free multimedia files should be downloaded from the Internet.
  • a combination of the search terms “MP3”, “free” and “download” is increasingly to be expected for search queries.
  • the combination of these three individual elements of a search query can therefore be used as a particularly important indicator for
  • correlations between individual elements of the search queries are preferably taken into account when determining the empirical values.
  • the relative frequency of search queries and / or of individual elements of the search queries is advantageously taken into account when determining the empirical values.
  • the short data records created in the manner mentioned which are characteristic of the data records from the database, are used to determine data records from the database, in particular from the World Wide Web, which are relevant for a specifiable search query, in that the data records created in this way are used in a Storage module stored short data records are searched for their relevance for the respective search query.
  • the criterion for determining this relevance can be, for example, the frequency with which a key word or keyword of the search query can be found in the respective short data record, with a differentiation according to the location of the respective finding, for example in a heading or in full text, can be made.
  • the above-mentioned object is achieved in that characteristic short data records are stored in a memory module for the data records Short data set from a data set provided system resources are selected taking into account stored empirical values from previous search queries.
  • the empirical values advantageously include a characteristic number that is characteristic of the number of similar search queries in a predefinable time interval.
  • the resources of a browser module provided for creating the short data records that are characteristic of the data records are selected as system resources, taking into account stored empirical values from previous search queries.
  • the advantages achieved by the invention are, in particular, that taking into account empirical values from previous search queries when allocating the system resources when creating the index or the short data records characteristic of the data records already in a particularly early stage, namely in the preparation phase of a database. or Internet research, a broad consideration of the current user interest is possible. Precisely by taking the user interest into account in addition to or instead of the database-specific characteristics previously used, such as, for example, the frequency of the respective cross-references, it is possible for the user to obtain information which is considered to be of particularly high quality.
  • a particularly specific image of user interest and thus a particularly high level of accuracy in the allocation of resources can be achieved by taking correlations between individual elements of search queries into account, with particularly frequently used combinations of specific individual elements and the conclusion as to the result of such combined search queries found records or domains can be expected to generate a hit generation that is particularly tailored to the user's interests.
  • FIG. 1 An embodiment of the invention is explained in more detail with reference to a drawing.
  • the figure schematically shows a search system for determining data records or domains from the World Wide Web that are relevant for a specifiable search query.
  • the search system 1 is connected to a large number of domains 4 via the data lines of the Internet or World-Wide-Web indicated by the double arrows 2, each domain 4 in turn typically having a large number of sub-data sets, text modules, multimedia information elements or the like includes. Because of the large amount of information available on the World Wide Web, the search system 1 for processing a search query is not for searching the domains 4 or the information content contained therein for the presence of specific keywords or key words, but instead for searching a so-called index 8 stored in a memory module 6.
  • the index 8 comprises a large number of short data records 10, each of which is characteristic of a data record or a domain 4 of the World Wide Web.
  • Each short data record 10 contains a part of the information content of the respectively assigned domain 4 which is recognized as relevant, the text data contained in the respective domain 4 in particular being reproduced in the short data record 10.
  • a search query as indicated by arrow 12, it is fed to an input / output module 14 of the search system 1, from where a search of the short data records 10 is started on the basis of key words or key words characteristic of the search query.
  • the domain 4 corresponding to the respective short data record 10 is recognized as relevant for the search query and the corresponding domain address is communicated to the user on a result list.
  • the search system 1 comprises a searcher module 16, also referred to as a "crawler".
  • the searcher module 16 contacts the respective domains 4 at regular, preferably cyclical, time intervals and searches for their information content. In particular, it can be provided to capture and appropriately compress the text information stored on the respective domain 4.
  • the type and scope of the analysis of the content of each domain 4 by the search module 16 are determined by the specification specific system resources of the search module 16 for the respective domain 4.
  • the system resources can be, for example, the time period provided for the search, the time used
  • Computer performance and / or allocated storage capacities can be specified. In particular, it can also be specified whether the respective domain 4 should be addressed by the search module 16 or ignored from the outset. On- Using the information base determined during the search for the respective domain 4, the search module 16 then creates the associated short data record 10 in the manner of a short version and stores it as a component of the index 8 in the memory module 6.
  • the system resources for the search of the respective domain 4 can be assigned, for example, as a function of domain-specific relevance parameters.
  • So-called static relevance parameters can also be provided, which use predetermined criteria, such as the degree of networking of a domain 4 with other domains 4, to characterize how high the degree of acceptance of the respective domain 4 is among the users.
  • predetermined criteria such as the degree of networking of a domain 4 with other domains 4, to characterize how high the degree of acceptance of the respective domain 4 is among the users.
  • the search system 1 is also designed to take into account empirical values and knowledge from the previous search queries when creating the short data records 10 and thus to incorporate the current user interest reflected therein to a particular extent in the creation or cyclical renewal of the index 8.
  • a further memory module 18 is assigned to the memory module 6, in which the incoming search queries are stored for further evaluation in the manner of a log book.
  • the contents of the memory module 18 are made accessible to an analysis module 20, which subjects the search queries received to an evaluation and uses the knowledge gained thereby to redistribute the system resources to the domains 4 to be taken into account in the next search cycle.
  • the analysis module 20 transmits the corresponding allocation of the system resources to the browser module 16, as shown by the arrow 22.
  • the analysis module 20 When assigning the system resources, the analysis module 20 thus takes into account empirical values from previous search queries. This can be done, for example, by determining the frequency of a search query or a key word or keyword as a single element of a search query, with frequently used Search queries or individual elements of search queries are currently concluded that users are comparatively popular. Accordingly, it is assumed that the data records or domains 4 found in comparatively popular search queries and identified as relevant reflect the current user interest to a comparatively high degree. In this embodiment, the analysis module 20 can thus assign a correspondingly increased proportion of system resources during the next search by the search module 16 to those domains 4 that are listed as a result for comparatively frequently used search queries.
  • the search system 1 is also designed to take comparatively complex structures in the profile of the search queries into account when allocating the system resources by the analysis module 20.
  • correlations between individual elements of search queries are also taken into account. If, for example, it is found that individual elements or search words in search queries are combined particularly frequently with certain other individual elements or search words, then a high intrinsic correlation between these two search elements is concluded, so that on the one hand those domains 4 in which complete or approximate Combinations are found to be recognized as particularly relevant, and on the other hand, when evaluating the relative frequencies of individual search elements, the relative frequencies of the further search elements that are particularly correlated can also be taken into account.
  • a correlation matrix is created in the analysis module 20, the matrix elements of which indicate a quantitative measure for the correlation between two individual elements of search queries.
  • the relative frequency with which the two respective individual elements of search queries are asked for in combination can be provided as a quantitative measure.
  • This correlation matrix is then diagonized by a main axis transformation, the eigenvalues of the original correlation matrix being indicated on the main diagonal of the diagonalized matrix. At this Principal axis transformation, the eigenvectors of the correlation matrix are also determined.
  • the eigenvalues and eigenvectors of the correlation matrix can then be used for a further evaluation of the search queries.
  • Those eigenvectors of the correlation matrix which have a comparatively large eigenvalue correspond to a mix of individual elements of search queries which, according to the linear coefficients of the individual elements of the search queries, occur comparatively frequently in typical search queries and thus reflects the current user interest to a particular degree.
  • those eigenvectors of the correlation matrix are selected which are assigned a comparatively large eigenvalue. The eigenvectors determined in this way result in a result of a mix of search queries that have occurred in the respective combination with a particularly high probability in the recent past.
  • the analysis module 20 accesses index 8 in the manner of a test query and thus determines the data records or domains 4 identified as relevant for this self-query. Since the Domains 4 determined in this way correspond to a particular degree to the current user interest, the system resources for these domains 4 are increased proportionally in comparison with the previous run when the World Wide Web is searched again. This can be done, for example, by assigning a weighting factor when providing the system resources for the respective domain 4 according to the relationship
  • is the eigenvalue of the associated self-inquiry D k a domain 4 displayed as a hit on this self-inquiry and ⁇ can be a suitably chosen constant> 0.

Abstract

The invention relates to a method for generating data records (4) from a data bank, especially from the World Wide Web, and characteristic short data records (10) for storing in a storage module (6) as a basis for determining the data records (4) that are relevant for a predefined search query. The aim of the invention is to provide a method that makes it possible to generate a search index that is particularly suitable for obtaining qualitatively high-value information from a data bank or from the World Wide Web. According to the invention, the system resources made available for generating a short data record (10) from a data record (4) are chosen taking into account the practical values obtained in previous search queries.

Description

Beschreibung description
Verfahren zur Erstellung von für Datensätze aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzdatensatzen, Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank und Suchsystem zur Durchführung des VerfahrensMethod for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method
Die Erfindung bezieht sich auf ein Verfahren zur Erstellung von für Datensätze aus einer Datenbank, insbesondere aus dem World-Wide-Web, charakteristischen Kurzda- tensätzen zur Hinterlegung auf einem Speichermodul als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze. Sie betrifft weiter ein Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, bei dem derartige Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Weiterhin betrifft die Erfindung ein Suchsystem zur Ermittlung von für eine vorgebbareThe invention relates to a method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, for storing on a memory module as a basis for determining the data records relevant for a predefinable search query. It further relates to a method for determining data records relevant to a specifiable search query from a database, in particular from the World Wide Web, in which such short data records are searched for their relevance for the respective search query. The invention further relates to a search system for determining a predefinable one
Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web.Query relevant data records from a database, especially from the World Wide Web.
In komplexen Datenbanken oder auch im weltumspannenden Computernetz („World- Wide-Web") wird eine enorme Menge an Informationen bereitgehalten, die ein Benutzer zu Recherchezwecken mehr oder weniger gezielt abrufen kann. Um dabei Informationen aus der großen Informationsmenge heraus gezielt nutzbar machen zu können, kommen so genannte Suchmaschinen zum Einsatz, die gerade bei der Informationsbeschaffung aus dem World-Wide-Web teilweise erhebliche Verbreitung erfahren haben. Bei derartigen Suchmaschinen wird dem Benutzer üblicherweise über ein Ein-An enormous amount of information is available in complex databases or in the global computer network (“World Wide Web”), which a user can access more or less specifically for research purposes. In order to be able to use information from the large amount of information in a targeted manner , so-called search engines are used, which have in some cases become particularly widespread when it comes to obtaining information from the World Wide Web.
/Ausgabemodul ein Anfragenfenster zur Verfügung gestellt, über das gezielte Suchoder Recherchebegriffe vorgegeben werden können. Anschließend durchsucht die Suchmaschine die Informationsbasis der Datenbank bzw. des World-Wide-Web nach geeigneten Schlüssel- oder Keywörtern. Die daraufhin aufgefundenen Antwortdaten- sätze werden üblicherweise von der jeweiligen Suchmaschine hinsichtlich ihrer Relevanz für den vorgegebenen Suchauftrag kategorisiert und dem Benutzer in der Art einer Trefferliste in nach ihrer Relevanz geordneter Reihenfolge zur Verfügung gestellt. Allerdings bereitet die zunehmende Komplexität der eingesetzten Datenbanken und insbesondere der stetig wachsende enorme Informationsgehalt im World-Wide-Web zunehmende Probleme bei der strukturierten und gezielten Beschaffung von Informationen. Die für die Recherche eingesetzten Suchmaschinen werden daher zunehmend bezüglich der eingesetzten Suchalgorithmen verbessert, wobei zudem in der Art von Vorsortierungen oder Vorfilterungen weitere Hilfsmittel zur Klassifizierung von Datensätzen aus der Datenbank zum Einsatz kommen können. Insbesondere im World- Wide-Web sind die Datensätze üblicherweise in Form von so genannten Domains strukturiert und organisiert, wobei eine Domain typischerweise von einem Betreiber unterhalten wird und ihrerseits eine Vielzahl von Unterdatensätzen, Textdokumenten oder dergleichen umfassen kann./ Output module provides a query window, through which targeted search or research terms can be specified. The search engine then searches the information base of the database or of the World Wide Web for suitable key words or key words. The response data records found thereupon are usually categorized by the respective search engine with regard to their relevance for the specified search order and made available to the user in the manner of a hit list in an order arranged according to their relevance. However, the increasing complexity of the databases used and in particular the constantly growing enormous amount of information on the World Wide Web creates increasing problems in the structured and targeted procurement of information. The search engines used for the research are therefore increasingly being improved with regard to the search algorithms used, and further aids for classifying data records from the database can also be used in the manner of pre-sorting or pre-filtering. In the World Wide Web in particular, the data records are usually structured and organized in the form of so-called domains, a domain typically being maintained by an operator and in turn comprising a large number of sub-data records, text documents or the like.
Um gerade bei der Informationsbeschaffung aus dem World-Wide-Web trotz der enormen Vielzahl der dort verfügbaren Datensätze oder Domains mit einem seinerseits möglicherweise vergleichsweise großen Inhalt an Unterdatensätzen oderEspecially when it comes to obtaining information from the World Wide Web, despite the enormous number of data records or domains available there, which in turn may have a comparatively large content of sub-data records or
Informationsträgem eine geeignete Vorauswahl von bei einer vorgegebenen Suchanfrage zu berücksichtigenden Domains treffen zu können, kann ein so genanntes Ranking der Domains zum Einsatz kommen. Dabei wird jeder Domain ein Kennwert zugeordnet, der anhand von zugänglichen Sekundärinformationen in der Art einer relativen Relevanz die Wichtigkeit der Berücksichtigung der jeweiligen Domain für die Suchanfrage charakterisiert. Bei der Zuordnung dieses Kennwerts zur jeweiligen Domain wird üblicherweise in der Art eines so genannten statischen Ansatzes eine Informationsbasis herangezogen, bei der beispielsweise aufgrund des Grades der Vernetzung der jeweiligen Domain mit anderen Domains auf die relative Bedeutung der jeweiligen Do- main geschlossen wird. Als Maß für eine derartige Bedeutung kann die Anzahl der so genannten Links oder Querverweise von anderen Domains auf die jeweilige Domain herangezogen werden, wobei die Annahme zugrunde gelegt wird, dass eine Vielzahl von Querverweisen auf die jeweilige Domain ein Hinweis darauf ist, dass diese Domain für eine Vielzahl von Benutzern von besonderer Wichtigkeit bei der Bearbeitung ihrer Suchanfragen ist.To be able to make a suitable pre-selection of domains to be taken into account in a given search query, a so-called ranking of the domains can be used. Each domain is assigned a characteristic value which, based on accessible secondary information in the manner of a relative relevance, characterizes the importance of considering the respective domain for the search query. When assigning this characteristic value to the respective domain, an information base is usually used in the manner of a so-called static approach, in which, for example, the relative importance of the respective domain is inferred on the basis of the degree of networking of the respective domain with other domains. The number of so-called links or cross-references from other domains to the respective domain can be used as a measure of such meaning, based on the assumption that a large number of cross-references to the respective domain is an indication that this domain is for a large number of users is of particular importance when processing their search queries.
Allerdings hat sich gezeigt, dass bei der Zuordnung einer derartigen statischen Kenngröße als Relevanzindikator für die jeweilige Domain Spielraum für Manipulationen besteht, wobei unabhängig von den eigentlichen Benutzerinteressen aufgrund wirtschaftlicher Entscheidungen durch die Herstellung einer Vielzahl sachlich eigentlich nicht gerechtfertigter Links oder Querverweise künstlich der Eindruck einer vergleichsweise hohen Relevanz oder Bedeutsamkeit der jeweiligen Domain erzeugt werden kann. Die Verwendung derartiger statischer Relevanzzuordnungen zur Verbesserung der Suchergebnisse von Internet-Recherchen ist daher von eher abnehmendem Interesse.However, it has been shown that when such a static parameter is assigned as a relevance indicator for the respective domain, there is scope for manipulation exists, whereby regardless of the actual user interests due to economic decisions by creating a large number of factually unjustified links or cross-references, the impression of a comparatively high relevance or significance of the respective domain can be generated artificially. The use of such static relevance assignments to improve the search results of Internet searches is therefore of less interest.
Die enormen, im World-Wide-Web oder Internet verfügbaren Informationsmengen ma- chen bei der Durchführung einer Informationsrecherche die tatsächliche Durchsuchung sämtlicher Domains inklusive der darin enthaltenen Unterdatensätze oder Textbausteine in Echtzeit auf das Vorhandensein der Suchanfrage oder von einzelnen Elementen der jeweiligen Suchanfrage unmöglich. Statt dessen kommen in Suchsystemen oder Suchmaschinen für die Informationsbeschaffung aus dem Internet oder World- Wide-Web so genannte „Crawler" oder Durchsuchermodule zum Einsatz, die ständig die Domains oder Datensätze aus dem World-Wide-Web bzw. einer komplexen Datenbank auf ihren Textinhalt oder andere als relevant erachtete Informationen hin durchsuchen. Im Rahmen von vorgegebenen Systemressourcen (beispielsweise Bearbeitungszeit, Speicherkapazität oder Rechenleistung) durchsucht das jeweilige Durch- suchermodul die gerade angewählte Domain oder den Datensatz und stellt bis zu einer durch die zugewiesenen Systemressourcen vorgegebenen Grenze anhand der in der jeweiligen Domain aufgefundenen Informationen einen für die Domain oder den Datensatz charakteristischen Kurzdatensatz, beispielsweise in Form einer Textdatei mit möglicherweise zugeordneten Überschriften oder sonstigen Indikatoren, zusammen.The enormous amounts of information available on the World Wide Web or the Internet make it impossible to actually search all domains, including the sub-data sets or text modules contained therein, in real time for the presence of the search query or of individual elements of the respective search query when carrying out an information search. Instead, so-called "crawlers" or search modules are used in search systems or search engines for obtaining information from the Internet or the World Wide Web, which constantly check the domains or data records from the World Wide Web or a complex database for their text content or search for other information that is considered relevant. Within the framework of specified system resources (for example processing time, storage capacity or computing power), the respective search module searches the currently selected domain or the data record and sets up to a limit specified by the assigned system resources using the in the information found in the respective domain is combined with a short data record characteristic of the domain or the data record, for example in the form of a text file with possibly assigned headings or other indicators.
Dieser Kurzdatensatz wird sodann auf einem Speichermodul hinterlegt und für eine nachfolgende Untersuchung bereitgehalten. Die Gesamtheit der aus den überhaupt bei diesem Vorgehen berücksichtigten Datensätze oder Domains erstellten, auf dem Speichermodul hinterlegten Kurzdatensätze wird auch als so genannter „Index" der jeweiligen Suchmaschine bezeichnet und dient als Informationsbasis für die nachfolgend durchgeführten Recherchen. Die Erstellung der im Index enthaltenen Kurzdatensätze erfolgt dabei üblicherweise kontinuierlich, wobei individuelle Domains zyklisch angewählt werden, so dass eine andauernde Aktualisierung des Index erfolgt. Bei einer nachfolgenden Recherche, also bei der Ermittlung der für eine vorgegebene Suchanfrage relevanten Datensätze, wird sodann der durch die Gesamtheit der hinterlegten Kurzdatensätze gebildete Index auf das Vorhandensein von Schlüssel- oder Keywörtern der jeweiligen Suchanfrage oder von Einzelelementen davon durchsucht, wobei anhand der dabei erzielten Suchergebnisse oder Treffer die den aufgefundenenThis short data record is then stored on a memory module and kept ready for a subsequent examination. The entirety of the short data sets created from the data records or domains taken into account in this procedure and stored on the memory module is also referred to as the so-called “index” of the respective search engine and serves as an information basis for the searches carried out below usually continuously, whereby individual domains are selected cyclically, so that the index is continuously updated Subsequent research, i.e. when determining the data records relevant to a given search query, the index formed by the total of the short data records stored is then searched for the presence of keywords or key words of the respective search query or of individual elements thereof, using the search results obtained or Hits those found
Kurzdatensätzen zugeordneten Datensätze oder Domains als relevant für die jeweilige Suchanfrage ermittelt werden.Data records or domains assigned to short data records are determined to be relevant for the respective search query.
Aufgrund der Vielzahl der im World-Wide-Web verfügbaren Domains oder Datensätze können nicht sämtliche Domains bei der Erstellung der Kurzdatensätze berücksichtigt werden. Die Entscheidung, welche Domains bei der Erstellung des Index berücksichtigt werden, erfolgt dabei üblicherweise anhand der oben genannten Relevanzkriterien, also insbesondere anhand von Informationen über eine erkannte oder vermeintliche Bedeutung der jeweiligen Domain für die Benutzer. Gerade da infolge der verfügbaren Informationsvielfalt eine besonders zielgerichtete Vorsortierung der Informationen und insbesondere der als für eine Suchanfrage relevant erkannten Datensätze für die nachfolgende Auswertung der Rechercheergebnisse sehr bedeutsam sein kann, ist bereits bei der Erstellung des so genannten Index eine besonders hohe Qualität und Sorgfalt bei der Auswertung der berücksichtigten Informationen wünschenswert.Due to the large number of domains or data records available on the World Wide Web, not all domains can be taken into account when creating the short data records. The decision as to which domains are taken into account when creating the index is usually made on the basis of the relevance criteria mentioned above, in particular on the basis of information about a recognized or supposed meaning of the respective domain for the users. Precisely because a particularly targeted pre-sorting of the information and in particular the data records identified as relevant for a search query can be very important for the subsequent evaluation of the search results due to the variety of information available, a particularly high quality and care is taken in the creation of the so-called index Evaluation of the information considered desirable.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Erstellung von für Datensätze charakteristischen Kurzdatensätzen der oben genannten Art anzugeben, mit dem ein für eine qualitativ hochwertige Informationsbeschaffung aus der Datenbank oder aus dem World-Wide-Web besonders geeigneter Suchindex erzeugt werden kann. Des Weiteren sollen unter Verwendung dieses Verfahrens ein besonders geeignetes Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, und ein Suchsystem zur Durchführung dieses Verfahrens angegeben werden.The invention is therefore based on the object of specifying a method for creating short data records of the type mentioned above, which can be used to generate a search index which is particularly suitable for obtaining high quality information from the database or from the World Wide Web. Furthermore, using this method, a particularly suitable method for determining data records relevant to a specifiable search query from a database, in particular from the World Wide Web, and a search system for carrying out this method are to be specified.
Bezüglich des Verfahrens zur Erstellung der für die Datensätze charakteristischen Kurzdatensätze wird diese Aufgabe erfindungsgemäß gelöst, indem die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt werden.With regard to the method for creating the short data records characteristic of the data records, this object is achieved according to the invention by using the system resources provided for creating a short data record from a data record Consideration of determined empirical values from previous search queries can be selected.
Die Erfindung geht dabei von der Überlegung aus, dass für die Erzeugung einer für qualitativ besonders hochwertige Informationsbeschaffung besonders geeigneten Informationsbasis auf der Grundlage der für die Datensätze charakteristischen Kurzdatensätze zwar einerseits in der Art statischer Kennwerte verfügbare Informationen über die einzelnen Datensätze oder Domains an sich berücksichtigt werden können, das aber andererseits in der Art eines dynamischen Elements auch für die Benutzerinteres- sen charakteristische Informationen mitberücksichtigt werden sollten. Dabei liegt die Erkenntnis zugrunde, dass das Ergebnis einer Informationsbeschaffung aus der Datenbank oder dem World-Wide-Web dann als qualitativ besonders hochwertig angesehen wird, wenn es in möglichst weit reichendem Umfang das Benutzerinteresse korrekt widerspiegelt. Es sollten daher Maßnahmen getroffen werden, um für das Benut- zerinteresse charakteristische Informationen in die weitere Informationsbeschaffung einfließen zu lassen. Ein Ansatzpunkt hierfür ist bereits die Erzeugung der Informationsbasis für die Bearbeitung der Suchanfragen, so dass sich Informationen über das Besucherinteresse bereits bei der Erzeugung der für die Datensätze oder Domains charakteristischen Kurzdatensätze im Index niederschlagen sollten. Um dies zu er- möglichen, werden bereits bei der Zuweisung der Systemressourcen, die für die Erstellung eines Kurzdatensatzes aus einem zugeordneten Datensatz aufgewendet werden können und somit die Vollständigkeit der im Kurzdatensatz für die Informationsbeschaffung bereitgehaltenen Informationen entscheidend mitbestimmen, im Hinblick auf das Benutzerinteresse unter Berücksichtigung von Erfahrungswerten aus vorange- gangenen Suchanfragen zugewiesen.The invention is based on the consideration that, on the one hand, available information about the individual data records or domains per se is taken into account in the manner of static characteristic values for the generation of an information base which is particularly suitable for obtaining particularly high quality information based on the short data records characteristic of the data records can, which, on the other hand, should also be taken into account in the manner of a dynamic element, also information characteristic of the user's interests. This is based on the knowledge that the result of obtaining information from the database or the World Wide Web is considered to be of particularly high quality if it reflects the user interest correctly as far as possible. Measures should therefore be taken to incorporate information that is characteristic of the user's interest in further information gathering. One starting point for this is already the generation of the information base for processing the search queries, so that information about the visitor's interest should already be reflected in the generation of the short data records characteristic of the data records or domains in the index. In order to make this possible, the system resources that can be used to create a short data record from an assigned data record and thus decisively determine the completeness of the information contained in the short data record for obtaining information are already taken into account with regard to the user interest, taking into account based on past experience from previous searches.
In besonders einfacher und prägnanter Weise können die Benutzerinteressen bereits bei der Erstellung des Index berücksichtigt werden, indem vorteilhafterweise bei der Zuordnung der Systemressourcen die Häufigkeit von zu einer Suchanfrage gleichen oder ähnlichen Suchanfragen in der jüngsten Vergangenheit als Erfahrungswert berücksichtigt wird. In weiterer vorteilhafter Ausgestaltung kann dabei auch die Trefferhäufigkeit der Datensätze oder Domains bzgl. der von den Benutzern in jüngster Vergangenheit besonders häufig vorgegebenen Suchanfragen berücksichtigt werden. Die Erfahrungswerte umfassen daher zweckmäßigerweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl.In a particularly simple and concise manner, user interests can already be taken into account when creating the index, in that the frequency of search queries that are similar or similar to a search query in the recent past is advantageously taken into account as empirical value when assigning the system resources. In a further advantageous embodiment, the frequency of hits of the data records or domains with regard to the search queries that have been specified particularly frequently by users in the recent past can also be taken into account. The Experience values therefore expediently comprise a characteristic number which is characteristic of the number of similar search queries in a predefinable time interval.
Um die Benutzerinteressen besonders zielführend bereits bei der Erstellung des Index für die Suchmaschine berücksichtigen zu können, werden vorteilhafterweise alsIn order to be able to take user interests into account in a particularly purposeful manner when creating the index for the search engine, advantageously
Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls oder Crawlers unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.System resources selected the resources of a searcher module or crawler provided for the creation of the short data sets which are characteristic of the data sets, taking into account the empirical values determined from previous search queries.
In einer besonders vorteilhaften Ausgestaltung werden die Benutzerinteressen bei der Zuordnung der Systemressourcen besonders weitgehend berücksichtigt, indem bei der Ermittlung der Erfahrungswerte in besonderem Maß die möglicherweise komplexe Struktur der von den Benutzern verwendeten Suchanfragen berücksichtigt wird. Dabei liegt die Erkenntnis zugrunde, dass ein besonders genaues Abbild des allgemeinen Benutzerinteresses nicht allein durch die relative Häufigkeit einzelner in Suchanfragen verwendeter Elemente oder Begriffe, sondern ergänzend oder zusätzlich auch noch durch die Berücksichtigung von spezifischen Korrelationen zwischen einzelnen Begriffen oder Elementen von Suchanfragen erzielt werden kann. Dabei wird insbesondere berücksichtigt, dass einzelne Elemente oder Komponenten einer Suchanfrage entsprechend dem aktuell gerade verbreiteten Benutzerinteresse bevorzugt in Kombination mit spezifischen anderen Einzelelementen oder Komponenten von Suchanfragen angefragt werden. Beispielsweise könnte das aktuelle Benutzerinteresse im Allgemeinen aktuell in eine Richtung gehen, dass bevorzugt kostenlose Multimedia-Dateien aus dem Internet heruntergeladen werden sollen. In einer derartigen Konstellation ist bei Suchanfragen vermehrt mit einer Kombination der Suchbegriffe „MP3", „free" und „download" zu rechnen. Bei der spezifischen Bewertung und Berücksichtigung vergangener Suchanfragen kann somit die Kombination dieser drei Einzelelemente einer Suchanfrage als ein besonders gewichtiger Indikator für gesteigertes Benutzerinteresse gewertet werden. Um dies zu ermöglichen, werden bei der Ermittlung der Erfahrungswerte vorzugsweise Korrelationen zwischen Einzelelementen der Suchanfragen berücksichtigt. Um in der Art einer ersten Vorfilterung eine vergleichsweise einfach beschaffbare Eingangsinformation für die Bewertung von Suchanfragen und ihrer Relevanz für die Datensätze bereitzustellen, wird bei der Ermittlung der Erfahrungswerte vorteilhafterweise die relative Häufigkeit von Suchanfragen und/oder von Einzelelementen der Suchanfragen berücksichtigt. Dies kann auf besonders einfache Weise unmittelbar bei der Erstellung des Index berücksichtigt werden, indem denjenigen Datensätzen, die für eine vorgegebene Suchanfrage oder für eine vorgegebene Kombination aus Einzelelementen von Suchanfragen als relevant erkannt werden, vorteilhafterweise in Abhängigkeit von der relativen Häufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von Suchanfragen zusätzliche Systemressourcen für die Erstellung des zugeordneten Kurzdatensatzes zugewiesen werden.In a particularly advantageous embodiment, the user interests are particularly largely taken into account when allocating the system resources by taking into account to a particular extent the possibly complex structure of the search queries used by the users when determining the empirical values. This is based on the knowledge that a particularly precise image of general user interest can be achieved not only by the relative frequency of individual elements or terms used in search queries, but also or additionally by taking into account specific correlations between individual terms or elements of search queries , In particular, it is taken into account that individual elements or components of a search query are preferably requested in combination with specific other individual elements or components of search queries in accordance with the currently widespread user interest. For example, the current user interest could generally go in one direction, that preferably free multimedia files should be downloaded from the Internet. In such a constellation, a combination of the search terms “MP3”, “free” and “download” is increasingly to be expected for search queries. In the specific evaluation and consideration of past search queries, the combination of these three individual elements of a search query can therefore be used as a particularly important indicator for In order to make this possible, correlations between individual elements of the search queries are preferably taken into account when determining the empirical values. In order to provide input information for evaluating search queries and their relevance for the data records in the manner of a first pre-filtering, the relative frequency of search queries and / or of individual elements of the search queries is advantageously taken into account when determining the empirical values. This can be taken into account in a particularly simple manner directly when creating the index, in that those data records which are recognized as relevant for a given search query or for a given combination of individual elements of search queries, advantageously depending on the relative frequency of the search query or the Combination of individual elements of search queries additional system resources for the creation of the assigned short data record can be assigned.
Vorteilhafterweise werden die auf die genannte Art erstellten, für die Datensätze aus der Datenbank charakteristischen Kurzdatensätze zur Ermittlung von für eine vorgeb- bare Suchanfrage relevanten Datensätzen aus der Datenbank, insbesondere aus dem World-Wide-Web, genutzt, indem die solchermaßen erstellten, in einem Speichermodul hinterlegten Kurzdatensätze auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden. Als Kriterium für die Ermittlung dieser Relevanz kann dabei beispielsweise die Häufigkeit dienen, mit der ein Schlüssel- oder Keywort der Suchanfrage im jeweiligen Kurzdatensatz aufgefunden werden kann, wobei zudem noch eine Differenzierung nach dem Ort des jeweiligen Auffindens, beispielsweise in einer Überschrift oder im Volltext, vorgenommen werden kann.Advantageously, the short data records created in the manner mentioned, which are characteristic of the data records from the database, are used to determine data records from the database, in particular from the World Wide Web, which are relevant for a specifiable search query, in that the data records created in this way are used in a Storage module stored short data records are searched for their relevance for the respective search query. The criterion for determining this relevance can be, for example, the frequency with which a key word or keyword of the search query can be found in the respective short data record, with a differentiation according to the location of the respective finding, for example in a heading or in full text, can be made.
Bezüglich des Suchsystems zur Ermittlung von für eine vorgebbare Suchanfrage rele- vanten Datensätzen aus einer Datenbank, insbesondere aus dem World-Wide-Web, wird die genannte Aufgabe gelöst, indem in einem Speichermodul für die Datensätze charakteristische Kurzdatensätze hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes aus einem Datensatz bereitgestellten Systemressourcen unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.With regard to the search system for determining data records relevant to a predefinable search query from a database, in particular from the World Wide Web, the above-mentioned object is achieved in that characteristic short data records are stored in a memory module for the data records Short data set from a data set provided system resources are selected taking into account stored empirical values from previous search queries.
Die Erfahrungswerte umfassen dabei vorteilhafterweise eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl. In zusätzlicher oder alternativer vorteilhafter Ausgestaltung sind als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze jeweils charakteristischen Kurzdatensätze vorgesehenen Durchsuchermoduls unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt.The empirical values advantageously include a characteristic number that is characteristic of the number of similar search queries in a predefinable time interval. In Additional or alternative advantageous embodiment, the resources of a browser module provided for creating the short data records that are characteristic of the data records are selected as system resources, taking into account stored empirical values from previous search queries.
Die mit der Erfindung erzielten Vorteile bestehen insbesondere darin, dass durch die Berücksichtigung von Erfahrungswerten aus vorangegangenen Suchanfragen bei der Vergabe der Systemressourcen bei der Erstellung des Index oder der für die Datensätze charakteristischen Kurzdatensätze bereits in einem besonders frühen Stadium, nämlich in der Vorbereitungsphase einer Datenbank- oder Internet-Recherche, eine weit gehende Berücksichtigung des aktuell vorhandenen Benutzerinteresses ermöglicht ist. Gerade durch die Berücksichtigung des Benutzerinteresses ergänzend zu oder anstelle von bisher verwendeten Datenbank spezifischen Charakteristika wie beispielsweise der Häufigkeit der jeweiligen Querverweise ist eine vom Benutzer als besonders hochwertig angesehene Informationsbeschaffung ermöglicht. Ein besonders spezifisches Abbild des Benutzerinteresses und somit eine besonders hohe Genauigkeit bei der Vergabe der Ressourcen ist dabei erreichbar durch die Berücksichtigung von Korrelationen zwischen einzelnen Elementen von Suchanfragen, wobei gerade besonders häufig verwendete Kombinationen spezifischer Einzelelemente und der Rückschluss auf die mit derartigen kombinierten Suchanfragen als Ergebnis aufgefundenen Datensätze oder Domains eine in besonderem Maße an das Benutzerinteresse angepasste Treffergenerierung erwarten lässt.The advantages achieved by the invention are, in particular, that taking into account empirical values from previous search queries when allocating the system resources when creating the index or the short data records characteristic of the data records already in a particularly early stage, namely in the preparation phase of a database. or Internet research, a broad consideration of the current user interest is possible. Precisely by taking the user interest into account in addition to or instead of the database-specific characteristics previously used, such as, for example, the frequency of the respective cross-references, it is possible for the user to obtain information which is considered to be of particularly high quality. A particularly specific image of user interest and thus a particularly high level of accuracy in the allocation of resources can be achieved by taking correlations between individual elements of search queries into account, with particularly frequently used combinations of specific individual elements and the conclusion as to the result of such combined search queries found records or domains can be expected to generate a hit generation that is particularly tailored to the user's interests.
Ein Ausführungsbeispiel der Erfindung wird anhand einer Zeichnung näher erläutert. Darin zeigt die Figur schematisch ein Suchsystem zur Ermittlung, von für eine vorgebbare Suchanfrage relevanten Datensätzen oder Domains aus dem World-Wide-Web.An embodiment of the invention is explained in more detail with reference to a drawing. The figure schematically shows a search system for determining data records or domains from the World Wide Web that are relevant for a specifiable search query.
Das Suchsystem 1 gemäß der Figur ist über die mittels der Doppelpfeile 2 angedeuteten Datenleitungen des Internets oder World-Wide-Web mit einer Vielzahl von Do- mains 4 verbunden, wobei jede Domain 4 ihrerseits typischerweise eine Vielzahl von Unterdatensätzen, Textbausteinen, multimedialen Informationselementen oder dergleichen umfasst. Aufgrund der großen Vielzahl an im World-Wide-Web verfügbaren Informationen ist das Suchsystem 1 für die Bearbeitung einer Suchanfrage nicht für die Durchsuchung der Domains 4 oder der in ihnen enthaltenen Informationsinhalte auf das Vorhandensein bestimmter Schlüsselwörter oder Keywörter, sondern statt dessen für die Durchsu- chung eines in einem Speichermodul 6 hinterlegten so genannten Index 8 ausgelegt. Der Index 8 umfasst eine Vielzahl von Kurzdatensätzen 10, von denen jeder jeweils für einen Datensatz oder eine Domain 4 des World-Wide-Web charakteristisch ist. Jeder Kurzdatensatz 10 enthält dabei einen als relevant erkannten Teil des Informationsgehalts der jeweils zugeordneten Domain 4, wobei im Kurzdatensatz 10 insbesondere die in der jeweiligen Domain 4 enthaltene Textinformation wiedergegeben ist. Zur Bearbeitung einer Suchanfrage wird diese, wie durch den Pfeil 12 angedeutet, einem Ein- /Ausgabemodul 14 des Suchsystems 1 zugeführt, von wo aus anhand von für die Suchanfrage charakteristischen Schlüssel- oder Keywörtern eine Durchsuchung der Kurzdatensätze 10 gestartet wird. Abhängig von der Anzahl der Ergebnisse oder Tref- fer, mit denen das Vorhandensein von Schlüssel; oder Keywörtern in den Kurzdatensätzen 10 festgestellt wird, wird die mit dem jeweiligen Kurzdatensatz 10 korrespondierende Domain 4 als für die Suchanfrage relevant erkannt und die entsprechende Domainadresse dem Benutzer auf einer Ergebnisliste mitgeteilt.The search system 1 according to the figure is connected to a large number of domains 4 via the data lines of the Internet or World-Wide-Web indicated by the double arrows 2, each domain 4 in turn typically having a large number of sub-data sets, text modules, multimedia information elements or the like includes. Because of the large amount of information available on the World Wide Web, the search system 1 for processing a search query is not for searching the domains 4 or the information content contained therein for the presence of specific keywords or key words, but instead for searching a so-called index 8 stored in a memory module 6. The index 8 comprises a large number of short data records 10, each of which is characteristic of a data record or a domain 4 of the World Wide Web. Each short data record 10 contains a part of the information content of the respectively assigned domain 4 which is recognized as relevant, the text data contained in the respective domain 4 in particular being reproduced in the short data record 10. To process a search query, as indicated by arrow 12, it is fed to an input / output module 14 of the search system 1, from where a search of the short data records 10 is started on the basis of key words or key words characteristic of the search query. Depending on the number of results or hits with which the presence of keys; or keywords in the short data records 10 is determined, the domain 4 corresponding to the respective short data record 10 is recognized as relevant for the search query and the corresponding domain address is communicated to the user on a result list.
Zur Erstellung der für die Domains 4 charakteristischen Kurzdatensätze 10, die in ihrer Gesamtheit den Index 8 bilden, umfasst das Suchsystem 1 ein auch als „Crawler" bezeichnetes Durchsuchermodul 16. Das Durchsuchermodul 16 nimmt in regelmäßigen, vorzugsweise zyklischen Zeitintervallen Kontakt mit den jeweiligen Domains 4 auf und durchsucht diese hinsichtlich ihres Informationsgehalts. Dabei kann insbesondere vor- gesehen sein, die auf der jeweiligen Domain 4 hinterlegte Textinformation zu erfassen und geeignet zu komprimieren. Art und Umfang der Analyse des Inhalts jeder Domain 4 durch das Durchsuchermodul 16 werden dabei durch die Vorgabe spezifischer Systemressourcen des Durchsuchermoduls 16 für die jeweilige Domain 4 festgelegt. Als Systemressourcen können dabei abhängig von der jeweiligen Domain 4 beispiels- weise die für die Durchsuchung vorgesehene Zeitspanne, die eingesetzteTo create the short data records 10 which are characteristic of the domains 4 and which in their entirety form the index 8, the search system 1 comprises a searcher module 16, also referred to as a "crawler". The searcher module 16 contacts the respective domains 4 at regular, preferably cyclical, time intervals and searches for their information content. In particular, it can be provided to capture and appropriately compress the text information stored on the respective domain 4. The type and scope of the analysis of the content of each domain 4 by the search module 16 are determined by the specification specific system resources of the search module 16 for the respective domain 4. Depending on the respective domain 4, the system resources can be, for example, the time period provided for the search, the time used
Rechnerleistung und/oder zugewiesene Speicherkapazitäten vorgegeben sein. Dabei kann insbesondere auch vorgegeben sein, ob die jeweilige Domain 4 vom Durchsuchermodul 16 überhaupt angesprochen oder von vornherein ignoriert werden soll. An- hand der bei der Durchsuchung ermittelten Informationsbasis für die jeweilige Domain 4 wird anschließend vom Durchsuchermodul 16 in der Art einer Kurzfassung der zugeordnete Kurzdatensatz 10 erstellt und als Bestandteil des Index 8 im Speichermodul 6 abgelegt.Computer performance and / or allocated storage capacities can be specified. In particular, it can also be specified whether the respective domain 4 should be addressed by the search module 16 or ignored from the outset. On- Using the information base determined during the search for the respective domain 4, the search module 16 then creates the associated short data record 10 in the manner of a short version and stores it as a component of the index 8 in the memory module 6.
Die Zuordnung der Systemressourcen für die Durchsuchung der jeweiligen Domain 4 kann beispielsweise in Abhängigkeit domainspezifischer Relevanzkennwerte erfolgen. Dabei können auch so genannte statische Relevanzkennwerte vorgesehen sein, die anhand vorgegebener Kriterien wie beispielsweise dem Vernetzungsgrad einer Domain 4 mit anderen Domains 4 charakterisieren, wie hoch der Akzeptanzgrad der jeweiligen Domain 4 bei den Benutzern ist. Anhand dieser Relevanzkennwerte kann festgelegt sein, ob eine Domain 4 bei der Durchsuchung überhaupt berücksichtigt wird, und falls ja, wie sorgfältig die Durchsuchung der jeweiligen Domain 4 bei der Erstellung des zugeordneten Kurzdatensatzes 10 erfolgen soll.The system resources for the search of the respective domain 4 can be assigned, for example, as a function of domain-specific relevance parameters. So-called static relevance parameters can also be provided, which use predetermined criteria, such as the degree of networking of a domain 4 with other domains 4, to characterize how high the degree of acceptance of the respective domain 4 is among the users. On the basis of these relevance parameters, it can be determined whether a domain 4 is taken into account at all during the search and, if so, how carefully the search of the respective domain 4 should take place when creating the assigned short data record 10.
Darüber hinaus ist das Suchsystem 1 aber auch dafür ausgelegt, bei der Erstellung der Kurzdatensätze 10 Erfahrungswerte und Erkenntnisse aus den vorangegangenen Suchanfragen mit zu berücksichtigen und somit das darin wiedergegebene aktuelle Benutzerinteresse in besonderem Maße in die Erstellung oder zyklische Erneuerung des Index 8 miteinfließen zu lassen. Dazu ist dem Speichermodul 6 ein weiteres Speichermodul 18 zugeordnet, in dem in der Art eines Logbuchs die eingehenden Suchanfragen zur weiteren Auswertung abgelegt werden. Die Inhalte des Speichermoduls 18 werden einem Analysemodul 20 zugänglich gemacht, das die eingegangen Suchanfragen einer Auswertung unterzieht und anhand der dabei gewonnenen Erkenntnisse eine Neuverteilung der Systemressourcen auf die zu berücksichtigenden Domains 4 beim nächsten Durchsuchungszyklus vornimmt. Die entsprechende Zuordnung der Systemressourcen übermittelt das Analysemodul 20, wie über den Pfeil 22 dargestellt, anschließend an das Durchsuchermodul 16.In addition, the search system 1 is also designed to take into account empirical values and knowledge from the previous search queries when creating the short data records 10 and thus to incorporate the current user interest reflected therein to a particular extent in the creation or cyclical renewal of the index 8. For this purpose, a further memory module 18 is assigned to the memory module 6, in which the incoming search queries are stored for further evaluation in the manner of a log book. The contents of the memory module 18 are made accessible to an analysis module 20, which subjects the search queries received to an evaluation and uses the knowledge gained thereby to redistribute the system resources to the domains 4 to be taken into account in the next search cycle. The analysis module 20 then transmits the corresponding allocation of the system resources to the browser module 16, as shown by the arrow 22.
Bei der Zuordnung der Systemressourcen berücksichtigt das Analysemodul 20 somit Erfahrungswerte aus vorangegangenen Suchanfragen. Dies kann beispielsweise dadurch geschehen, dass die Häufigkeit einer Suchanfrage oder eines Schlüssel- oder Keyworts als Einzelelement einer Suchanfrage ermittelt wird, wobei bei häufig verwen- deten Suchanfragen oder Einzelelementen von Suchanfragen auf eine derzeit vergleichsweise hohe Popularität bei den Benutzern geschlossen wird. Dementsprechend wird angenommen, dass die bei vergleichsweise populären Suchanfragen aufgefundenen und als relevant erkannten Datensätze oder Domains 4 in vergleichsweise hohem Maße das aktuelle Benutzerinteresse widerspiegeln. In dieser Ausführungsform kann das Analysemodul 20 somit denjenigen Domains 4, die als Ergebnis für vergleichsweise häufig verwendete Suchanfragen aufgeführt werden, einen entsprechend erhöhten Anteil an Systemressourcen bei der nächstfolgenden Durchsuchung durch das Durchsuchermodul 16 zuordnen.When assigning the system resources, the analysis module 20 thus takes into account empirical values from previous search queries. This can be done, for example, by determining the frequency of a search query or a key word or keyword as a single element of a search query, with frequently used Search queries or individual elements of search queries are currently concluded that users are comparatively popular. Accordingly, it is assumed that the data records or domains 4 found in comparatively popular search queries and identified as relevant reflect the current user interest to a comparatively high degree. In this embodiment, the analysis module 20 can thus assign a correspondingly increased proportion of system resources during the next search by the search module 16 to those domains 4 that are listed as a result for comparatively frequently used search queries.
Darüber hinaus ist das Suchsystem 1 aber auch dafür ausgelegt, vergleichsweise komplexe Strukturen im Profil der Suchanfragen bei der Zuordnung der Systemressourcen durch das Analysemodul 20 mitzuberücksichtigen. Dabei werden bei der Ermittlung der Erfahrungswerte insbesondere auch Korrelationen zwischen Einzelelementen von Suchanfragen mitberücksichtigt. Falls beispielsweise festgestellt wird, dass einzelne Elemente oder Suchwörter in Suchanfragen besonders häufig mit bestimmten anderen Einzelelementen oder Suchwörtern kombiniert werden, so wird auf eine hohe intrinsi- sche Korrelation zwischen diesen beiden Suchelementen geschlossen, so dass einerseits diejenigen Domains 4, in denen vollständige oder approximative Kombinationen aufgefunden werden, als besonders relevant erkannt werden, wobei andererseits bei der Auswertung der relativen Häufigkeiten einzelner Suchelemente auch die relativen Häufigkeiten der damit besonders korrelierten weiteren Suchelemente berücksichtigt werden können.In addition, the search system 1 is also designed to take comparatively complex structures in the profile of the search queries into account when allocating the system resources by the analysis module 20. When determining the empirical values, correlations between individual elements of search queries are also taken into account. If, for example, it is found that individual elements or search words in search queries are combined particularly frequently with certain other individual elements or search words, then a high intrinsic correlation between these two search elements is concluded, so that on the one hand those domains 4 in which complete or approximate Combinations are found to be recognized as particularly relevant, and on the other hand, when evaluating the relative frequencies of individual search elements, the relative frequencies of the further search elements that are particularly correlated can also be taken into account.
Zur statistischen Auswertung der Suchanfragen wird dabei im Änalysemodul 20 eine Korrelationsmatrix erstellt, deren Matrixelemente ein quantitatives Maß für die Korrelation zwischen jeweils zwei Einzelelementen von Suchanfragen angeben. Als quantitatives Maß kann dabei insbesondere die relative Häufigkeit, mit der die beiden jeweiligen Einzelelemente von Suchanfragen miteinander in Kombination gefragt werden, vorge- sehen sein. Diese Korrelationsmatrix wird anschließend durch eine Hauptachsentransformation diagonalisiert, wobei auf der Hauptdiagonalen der diagonalisierten Matrix die Eigenwerte der ursprünglichen Korrelationsmatrix angegeben sind. Bei dieser Hauptachsentransformation werden zudem die Eigenvektoren der Korrelationsmatrix ermittelt.For the statistical evaluation of the search queries, a correlation matrix is created in the analysis module 20, the matrix elements of which indicate a quantitative measure for the correlation between two individual elements of search queries. In particular, the relative frequency with which the two respective individual elements of search queries are asked for in combination can be provided as a quantitative measure. This correlation matrix is then diagonized by a main axis transformation, the eigenvalues of the original correlation matrix being indicated on the main diagonal of the diagonalized matrix. At this Principal axis transformation, the eigenvectors of the correlation matrix are also determined.
Die Eigenwerte und Eigenvektoren der Korrelationsmatrix können anschließend für eine weitere Auswertung der Suchanfragen herangezogen werden. Diejenigen Eigenvektoren der Korrelationsmatrix, die einen vergleichsweise großen Eigenwert aufweisen, entsprechen dabei einem Mix von Einzelelementen von Suchanfragen, der gemäß der Linearkoeffizienten der Einzelelemente der Suchanfragen vergleichsweise häufig in typischen Suchanfragen vorkommt und somit in besonderem Maße das aktuelle Benutzerinteresse widerspiegelt. Es werden somit in einem nächsten Schritt diejenigen Eigenvektoren der Korrelationsmatrix ausgewählt, denen ein vergleichsweise großer Eigenwert zugeordnet ist. Durch die so ermittelten Eigenvektoren erhält man im Ergebnis einen Mix von Suchanfragen, die in der jeweiligen Kombination mit besonders hoher Wahrscheinlichkeit in jüngster Vergangenheit vorgekommen sind.The eigenvalues and eigenvectors of the correlation matrix can then be used for a further evaluation of the search queries. Those eigenvectors of the correlation matrix which have a comparatively large eigenvalue correspond to a mix of individual elements of search queries which, according to the linear coefficients of the individual elements of the search queries, occur comparatively frequently in typical search queries and thus reflects the current user interest to a particular degree. In a next step, those eigenvectors of the correlation matrix are selected which are assigned a comparatively large eigenvalue. The eigenvectors determined in this way result in a result of a mix of search queries that have occurred in the respective combination with a particularly high probability in the recent past.
Mit den so ausgewählten, vergleichsweise großen Eigenwerten der Korrelationsmatrix zugeordneten „Eigenanfragen" greift das Analysemodul 20 in der Art einer Testanfrage auf den Index 8 zu und ermittelt so für jede „Eigenanfrage" die zu dieser Eigenanfrage als relevant erkannten Datensätze oder Domains 4. Da die solchermaßen ermittelten Domains 4 in besonderem Maße dem aktuellen Benutzerinteresse entsprechen, werden für diese Domains 4 die Systemressourcen bei der erneuten Durchsuchung des World-Wide-Web im Vergleich zum vorigen Durchlauf proportional erhöht. Dies kann beispielsweise durch eine Zuweisung eines Wichtungsfaktors bei der Bereitstellung der Systemressourcen für die jeweilige Domain 4 nach der BeziehungWith the comparatively large eigenvalues assigned to the correlation matrix, the analysis module 20 accesses index 8 in the manner of a test query and thus determines the data records or domains 4 identified as relevant for this self-query. Since the Domains 4 determined in this way correspond to a particular degree to the current user interest, the system resources for these domains 4 are increased proportionally in comparison with the previous run when the World Wide Web is searched again. This can be done, for example, by assigning a weighting factor when providing the system resources for the respective domain 4 according to the relationship
Rm(Dk) = (l + a * Λξ)a,ß > 0R m (D k ) = (l + a * Λξ) a, ß> 0
erfolgen, wobei λ der Eigenwert der zugehörigen Eigenanfrage Dk eine auf diese Eigenanfrage als Treffer angezeigte Domain 4 und α eine geeignet gewählte Konstante >0 sein kann. Bezugszeichenlistetake place, where λ is the eigenvalue of the associated self-inquiry D k a domain 4 displayed as a hit on this self-inquiry and α can be a suitably chosen constant> 0. LIST OF REFERENCE NUMBERS
Suchsystemsearch system
Doppelpfeiledouble arrows
Domaindomain
Speichermodulmemory module
Indexindex
KurzdatensätzeShort records
Pfeilarrow
Ein-/AusgabemodulInput / Output Module
DurchsuchermodulSearch form module
Speichermodulmemory module
Analysemodulanalysis module
Pfeil arrow

Claims

Ansprüche Expectations
1. Verfahren zur Erstellung von für Datensätze (4) aus einer Datenbank, insbeson- s dere aus dem World-Wide-Web, charakteristischen Kurzdatensatzen (10) zur1. Method for creating short data records (10) which are characteristic of data records (4) from a database, in particular from the World Wide Web
Hinterlegung auf einem Speichermodul (6) als Basis zur Ermittlung der für eine vorgebbare Suchanfrage relevanten Datensätze (4), bei dem die zur Erstellung eines Kurzdatensatzes (10) aus einem Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von ermittelten Erfahrungswerten aus vorange- gangenen Suchanfragen gewählt werden.Storage on a memory module (6) as the basis for determining the data records (4) relevant for a predefinable search query, in which the system resources provided for creating a short data record (10) from a data record (4), taking into account the empirical values determined from previous search queries to get voted.
2. Verfahren nach Anspruch 1 , bei dem die Erfahrungswerte eine für die Anzahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl umfassen.2. The method as claimed in claim 1, in which the empirical values comprise a characteristic number which is characteristic of the number of similar search queries in a predeterminable time interval.
3. Verfahren nach Anspruch 1 oder 2, bei dem als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze (4) jeweils charakteristischen Kurzdatensätze (10) vorgesehenen Durchsuchermoduls (16) unter Berücksichtigung von ermittelten Erfahrungswerten aus vorangegangenen Suchanfragen ge- wählt werden.3. The method as claimed in claim 1 or 2, in which the resources of a search module (16) provided for creating the short data records (10) which are respectively characteristic for the data records (4) are selected as system resources, taking into account determined empirical values from previous search queries.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem bei der Ermittlung der Erfahrungswerte Korrelationen zwischen Einzelelementen der Suchanfragen berücksichtigt werden.4. The method according to any one of claims 1 to 3, in which correlations between individual elements of the search queries are taken into account when determining the empirical values.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem bei der Ermittlung der Erfahrungswerte die relative Häufigkeit von Suchanfragen und/oder von Einzelelementen der Suchanfragen berücksichtigt wird.5. The method according to any one of claims 1 to 4, in which the relative frequency of search queries and / or of individual elements of the search queries is taken into account when determining the empirical values.
6. Verfahren nach Anspruch 5, bei dem denjenigen Datensätzen (4), die für eine vorgegebene Suchanfrage oder für eine vorgegebene Kombination aus Einzelelementen von Suchanfragen als relevant erkannt werden, proportional zur relativen Häufigkeit der Suchanfrage bzw. der Kombination aus Einzelelementen von Suchanfragen zusätzliche Systemressourcen für die Erstellung des zugeordneten Kurzdatensatzes (10) zugewiesen werden.6. The method according to claim 5, in which those data records (4) which are recognized as relevant for a given search query or for a given combination of individual elements of search queries are proportional to the relative frequency of the search query or the combination of individual elements of Additional system resources for the creation of the assigned short data record (10) are assigned to search queries.
7. Verfahren zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, bei dem in einem Speichermodul (6) hinterlegte, für die Datensätze (4) charakteristische, nach dem Verfahren nach einem der Ansprüche 1 bis 6 erstellte Kurzdatensätze (10) auf ihre Relevanz für die jeweilige Suchanfrage hin durchsucht werden.7. Method for determining data records (4) relevant for a predeterminable search query from a database, in particular from the World Wide Web, in which the data records (4) which are stored in a memory module (6) are characteristic according to the method short data records (10) created according to one of claims 1 to 6 are searched for their relevance for the respective search query.
8. Suchsystem (1 ) zur Ermittlung von für eine vorgebbare Suchanfrage relevanten Datensätzen (4) aus einer Datenbank, insbesondere aus dem World-Wide-Web, insbesondere zur Durchführung des Verfahrens nach Anspruch 7, bei dem in einem Speichermodul (6) für die Datensätze charakteristische Kurzdatensätze (10) hinterlegt sind, wobei die zur Erstellung eines Kurzdatensatzes (10) aus einem8. search system (1) for determining relevant for a specifiable search request data records (4) from a database, in particular from the World Wide Web, in particular for performing the method according to claim 7, in which in a memory module (6) for the Characteristic short data records (10) are stored, the data records being used to create a short data record (10)
Datensatz (4) bereitgestellten Systemressourcen unter Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind.System resources provided (4) are selected taking into account stored empirical values from previous search queries.
9. Suchsystem (1 ) nach Anspruch 8, bei dem die Erfahrungswerte eine für die An- zahl gleichartiger Suchanfragen in einem vorgebbaren Zeitintervall charakteristische Kennzahl umfassen.9. Search system (1) according to claim 8, in which the empirical values comprise a characteristic number which is characteristic of the number of similar search queries in a predeterminable time interval.
10. Suchsystem (1) nach Anspruch 8 oder 9, bei dem als Systemressourcen die Ressourcen eines zur Erstellung der für die Datensätze (4) jeweils charakte- ristischen Kurzdatensätze (10) vorgesehenen Durchsuchermoduls (16) unter10. The search system (1) according to claim 8 or 9, in which the system resources are the resources of a search module (16) provided for creating the characteristic short data records (10) for the data records (4)
Berücksichtigung von hinterlegten Erfahrungswerten aus vorangegangenen Suchanfragen gewählt sind. Consideration of stored empirical values from previous search queries are selected.
PCT/EP2004/003972 2003-04-29 2004-04-15 Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method WO2004097670A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP04727536A EP1620809A1 (en) 2003-04-29 2004-04-15 Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10319427A DE10319427A1 (en) 2003-04-29 2003-04-29 Method for creating short data records characteristic of data records from a database, in particular from the World Wide Web, method for determining data records relevant to a specifiable search query from a database and search system for carrying out the method
DE10319427.4 2003-04-29

Publications (1)

Publication Number Publication Date
WO2004097670A1 true WO2004097670A1 (en) 2004-11-11

Family

ID=33394008

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2004/003972 WO2004097670A1 (en) 2003-04-29 2004-04-15 Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method

Country Status (3)

Country Link
EP (1) EP1620809A1 (en)
DE (1) DE10319427A1 (en)
WO (1) WO2004097670A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172898A1 (en) * 2008-08-28 2010-04-07 Palo Alto Research Center Incorporated System and method for providing community-based advertising term disambiguation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002008962A1 (en) * 2000-07-25 2002-01-31 Energy E-Comm.Com, Inc. Internet information retrieval method and apparatus
WO2002027562A2 (en) * 2000-09-29 2002-04-04 Ninesigma, Inc. Method and apparatus to retrieve information from a network
EP1207468A2 (en) * 2000-11-14 2002-05-22 Itt Manufacturing Enterprises, Inc. A method and system for updating a searchable database of descriptive information describing information stored at a plurality of addressable logical locations
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
WO2002008962A1 (en) * 2000-07-25 2002-01-31 Energy E-Comm.Com, Inc. Internet information retrieval method and apparatus
WO2002027562A2 (en) * 2000-09-29 2002-04-04 Ninesigma, Inc. Method and apparatus to retrieve information from a network
EP1207468A2 (en) * 2000-11-14 2002-05-22 Itt Manufacturing Enterprises, Inc. A method and system for updating a searchable database of descriptive information describing information stored at a plurality of addressable logical locations
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARASU A ET AL: "SEARCHING THE WEB", ACM TRANSACTIONS ON INTERNET TECHNOLOGY, ACM, NEW YORK, NY, US, vol. 1, no. 1, August 2001 (2001-08-01), pages 2 - 43, XP001143684, ISSN: 1049-3301 *
ROCHA L M: "Adaptive Webs for Heterarchies with Diverse Communities of Users", WORKSHOP FROM INTELLIGENT NETWORKS TO THE GLOBAL BRAIN: EVOLUTIONARY SOCIAL ORGANIZATION THROUGH KNOWLEDGE TECHNOLOGY, XX, XX, 3 July 2001 (2001-07-03), pages 1 - 35, XP002209508 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172898A1 (en) * 2008-08-28 2010-04-07 Palo Alto Research Center Incorporated System and method for providing community-based advertising term disambiguation

Also Published As

Publication number Publication date
DE10319427A1 (en) 2004-12-02
EP1620809A1 (en) 2006-02-01

Similar Documents

Publication Publication Date Title
DE602004003361T2 (en) SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS
DE69933187T2 (en) Document Search and Service
DE60004687T2 (en) METHOD FOR THE THEMATIC CLASSIFICATION OF DOCUMENTS, MODULE FOR THE THEMATIC CLASSIFICATION AND A SEARCH ENGINE CONTAINING SUCH A MODULE
DE69731142T2 (en) System for retrieving documents
DE60129652T2 (en) Image retrieval system and method with semantic and property-based relevance feedback
DE69833238T2 (en) Keyword extraction system and text retrieval system for its use
DE69934102T2 (en) SYSTEM AND METHOD FOR MODEL MINING OF COMPLEX INFORMATION TECHNOLOGY SYSTEMS
DE602005001940T2 (en) METHOD AND SYSTEM FOR GENERATING A POPULATION REPRESENTATIVE TO A LOT OF USERS OF A COMMUNICATION NETWORK
EP1877932B1 (en) System and method for aggregating and monitoring decentrally stored multimedia data
DE202017107393U1 (en) Predicting a search engine map signal value
DE10231161A1 (en) Domain-specific knowledge-based meta search system and method for using the same
DE202004021885U1 (en) Information retrieval system based on historical data
DE112015000218T5 (en) A method, system and computer program for scanning a plurality of memory areas in a work memory for a specified number of results
CH704497B1 (en) Procedures for notifying storage medium having processor instructions for such a procedure.
DE112018006345T5 (en) GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS
DE69719641T2 (en) A process for presenting information on screen devices in various sizes
DE102007037646A1 (en) System and method for indexing, searching and retrieving databases
WO2006018041A1 (en) Speech and textual analysis device and corresponding method
DE102020116499A1 (en) Method for selecting questions for respondents in a respondent inquiry system
DE112010002620T5 (en) ONTOLOGY USE FOR THE ORDER OF DATA RECORDS NACHRELEVANZ
DE102004016930A1 (en) Generate a sampling plan for testing generated content
EP1264253B1 (en) Method and arrangement for modelling a system
DE10048478A1 (en) Method for accessing a storage unit when searching for substrings and associated storage unit
DE102005032733A1 (en) Index extraction of documents
WO2004097670A1 (en) Method for generating data records from a data bank, especially from the world wide web, characteristic short data records, method for determining data records from a data bank which are relevant for a predefined search query and search system for implementing said method

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020057020376

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2004727536

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2004727536

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1020057020376

Country of ref document: KR

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWW Wipo information: withdrawn in national office

Ref document number: 2004727536

Country of ref document: EP