DE10313420A1 - Research system and method for determining information from a database, in particular from the World Wide Web - Google Patents
Research system and method for determining information from a database, in particular from the World Wide Web Download PDFInfo
- Publication number
- DE10313420A1 DE10313420A1 DE10313420A DE10313420A DE10313420A1 DE 10313420 A1 DE10313420 A1 DE 10313420A1 DE 10313420 A DE10313420 A DE 10313420A DE 10313420 A DE10313420 A DE 10313420A DE 10313420 A1 DE10313420 A1 DE 10313420A1
- Authority
- DE
- Germany
- Prior art keywords
- search
- module
- research system
- result data
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Abstract
Ein Recherchensystem und ein Verfahren zur Ermittlung von Informationen aus einer Datenbank, insbesondere aus dem World-Wide-Web, sollen zur Erzielung von gleichbleibend hohen Recherchequalitäten in besonderem Maße geeignet sein. Dazu ist erfindungsgemäß die gemeinsame und/oder gleichzeitige Nutzung einer Mehrzahl von Suchmaschinen (2) vorgesehen, wobei in einem Integrationsmodul (6), das die von den Suchmaschinen (2) gelieferten, jeweils eine Mehrzahl von Ergebnisdatensätzen (E) umfassenden Ergebnisdaten in ein gemeinsames Datenformat konvertiert, unter Rückgriff auf in einem Speichermodul (14) hinterlegte Priorisierungsparameter (P) die Zuordnung eines Relevanzkennwerts zu jedem Ergebnisdatensatz (E) vorgesehen ist.A research system and a method for determining information from a database, in particular from the World Wide Web, are said to be particularly suitable for achieving consistently high search qualities. For this purpose, according to the invention, the joint and / or simultaneous use of a plurality of search engines (2) is provided, with an integration module (6) which contains the result data comprising a plurality of result data records (E) delivered by the search engines (2) into a common one Converted data format, using a prioritization parameter (P) stored in a memory module (14), the assignment of a relevance parameter to each result data record (E) is provided.
Description
Die Erfindung bezieht sich auf ein Recherchensystem zur Ermittlung von Informationen aus einer Datenbank unter Nutzung einer Mehrzahl von Suchmaschinen. Sie betrifft weiter ein Verfahren zur Ermittlung von Informationen aus einer Datenbank, insbesondere aus dem World-Wide-Web, unter Nutzung eines derartigen Recherchensystems.The Invention relates to a search system for determining Information from a database using a plurality of Search engines. It also relates to a method of investigation information from a database, especially from the World Wide Web, using such a research system.
In komplexen Datenbanken oder auch im weltumspannenden Computernetz („World-Wide-Web") wird eine enorme Menge an Informationen bereitgehalten, die ein Benutzer zu Recherchezwecken mehr oder weniger gezielt abrufen kann. Um dabei Informationen aus der großen Informationsmenge heraus gezielt nutzbar machen zu können, kommen so genannte Suchmaschinen zum Einsatz, die gerade bei der Informationsbeschaffung aus dem World-Wide-Web teilweise erhebliche Verbreitung erfahren haben. Bei derartigen Suchmaschinen wird dem Benutzer üblicherweise über ein Ein-/Ausgabemodul ein Anfragenfenster zur Verfügung gestellt, über das gezielte Such- oder Recherchebegriffe vorgegeben werden können. Anschließend durchsucht die Suchmaschine die Informationsbasis der Datenbank bzw. des World-Wide-Web nach geeigneten Schlüssel- oder Keywörtern. Die daraufhin aufgefundenen Antwortdatensätze werden üblicherweise von der jeweiligen Suchmaschine hinsichtlich ihrer Relevanz für den vorgegebenen Suchauftrag kategorisiert und dem Benutzer in der Art einer Trefferliste in nach ihrer Relevanz geordneter Reihenfolge zur Verfügung gestellt.In complex databases or even in the global computer network ("World Wide Web") will be enormous Amount of information held by a user for research purposes more or less targeted. To get information from the big To be able to use the amount of information in a targeted manner so-called search engines are used, which are particularly useful for gathering information experience considerable spread from the World Wide Web to have. In such search engines, the user is usually informed about a An input / output module provides an inquiry window via which targeted search or research terms can be specified. Then searches the Search engine the information base of the database or the World Wide Web for suitable key or keywords. The response data records found thereupon are usually from the respective Search engine with regard to its relevance for the given search order categorized and the user in the manner of a hit list in order according to their relevance.
Zwischenzeitlich haben sich eine Vielzahl derartiger Suchmaschinen etabliert, die sich hinsichtlich ihrer Leistungsfähigkeit, Zuverlässigkeit und/oder der berücksichtigten Informationsbasis in der Art einer thematischen Spezialisierung voneinander unterscheiden können. Gerade weil aber aufgrund der Vielzahl der beispielsweise im World-Wide-Web angebotenen Informationen beim Betrieb einer derartigen Suchmaschine eine gewisse Schwerpunktbildung oder Spezialisierung einzelner Suchmaschinen erforderlich sein kann, kann die Qualität der Suchergebnisse abhängig von der vorgegebenen Suchanfrage für einzelne Suchmaschinen in gewissen Bandbreiten variieren.In the meantime, a large number of such search engines have established themselves themselves regarding their performance, reliability and / or the considered Information base in the manner of a thematic specialization can distinguish from each other. Precisely because of the large number of, for example, on the World Wide Web offered information when operating such a search engine certain focus or specialization of individual search engines The quality of the search results may depend on the given search query for individual search engines vary in certain ranges.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Recherchensystem zur Ermittlung von Informationen aus einer Datenbank, insbesondere aus dem World-Wide-Web, anzugeben, das zur Erzielung einer gleichbleibend hohen Recherchequalität im besonderem Maße zur gemeinsamen und/oder gleichzeitigen Nutzung einer Mehrzahl von Suchmaschinen besonders geeignet ist. Des Weiteren soll ein Verfahren zur Ermittlung von Informationen aus einer Datenbank, insbesondere aus dem World-Wide-Web, unter Nutzung eines derartigen Recherchensystems angegeben werden.The The invention is therefore based on the object of a research system to determine information from a database, in particular from the world wide web, Specify that to achieve a consistently high quality of research in particular Dimensions for shared and / or simultaneous use of a plurality of search engines is particularly suitable. Furthermore, a procedure for the determination is to be carried out information from a database, especially from the World Wide Web, be specified using such a research system.
Bezüglich des Recherchensystems wird diese Aufgabe erfindungsgemäß gelöst mit einem Integrationsmodul, das die von den Suchmaschinen gelieferten, jeweils eine Mehrzahl von Ergebnisdatensätzen umfassenden Ergebnisdaten in ein gemeinsames Datenformat konvertiert und anschließend unter Rückgriff auf in einem im Speichermodul hinterlegte Priorisierungsparameter jedem Ergebnisdatensatz einen Relevanzkennwert zuordnet.Regarding the Research system this problem is solved according to the invention with a Integration module, which is supplied by the search engines, respectively a plurality of result records comprehensive results data converted into a common data format and subsequently under recourse to a prioritization parameter stored in the memory module assigns a relevance parameter to each result data set.
Die Erfindung geht dabei von der Überlegung aus, dass zur Erreichung gleichbleibend hoher Recherchequalitäten grundsätzlich eine Mehrzahl von alternativen Suchmaschinen eingesetzt werden sollte, so dass suchfragenabhängige Qualitätsmängel wechselweise ausgeglichen werden können. Gerade beim Einsatz einer Mehrzahl von Suchmaschinen für eine Suchanfrage ist jedoch damit zu rechnen, dass eine große Vielzahl an Recherchetreffern oder Ergebnisdatensätzen von der Gesamtheit der Suchmaschinen generiert wird. Für eine benutzerfreundliche und gezielte Auswertung dieser Ergebnisse sollte eine allen Ergebnissen gemeinsame Relevanzkennung vergeben werden, so dass in für den Benutzer nachvollziehbarerweise eine systematische Ordnung sämtlicher Rechercheergebnisse nach vorgegebenen Relevanzkriterien erfolgen kann. Insbesondere sollte dabei ermöglicht sein, die nach vorgegebenen Kriterien als relevantest erachteten Ergebnisse zuerst zu präsentieren, so dass der Benutzer sich auf die wesentlichen Rechercheergebnisse konzentrieren kann. Um dies zu ermöglichen, ist zunächst die Konvertierung der eingehenden Datensätze in ein gemeinsames Datenformat vorgesehen, so dass eine gemeinsame Datenauswertung und -strukturierung ermöglicht wird. Anschließend ist die Gliederung der aufgefundenen Ergebnisdatensätze im Sinne einer gemeinsamen Relevanzstruktur vorgesehen. Diese Funktion der Zusammenfügung und Konsolidierung von Ergebnisdatensätzen aus verschiedenen Quellen wird durch das Integrationsmodul erfüllt.The invention is based on the consideration that, in order to achieve consistently high research qualities, a plurality of alternative search engines should in principle be used, so that quality defects dependent on search questions can be compensated for alternately. However, especially when using a plurality of search engines for a search query, it can be expected that a large number of search hits or result data sets will be generated by the whole of the search engines. For a user-friendly and targeted evaluation of these results, a relevance identifier common to all results should be assigned, so that it is understandable for the user that all search results can be systematically arranged according to predetermined relevance criteria. In particular, it should be possible to present the results that are considered the most relevant according to the specified criteria first, so that the user can concentrate on the essential research results. In order to make this possible, the conversion of the incoming data records into a common data format is initially provided, so that a common data evaluation and structuring is made possible. The structure of the result data records found is then provided in the sense of a common relevance structure. This function of merging and consolidating result data sentences from different sources are fulfilled by the integration module.
Die hierarchische Kategorisierung der aufgefundenen Ergebnisdatensätze durch Zuordnung eines spezifischen Relevanzkennwerts kann dabei nach vom Benutzer oder einem Betreiber vorgegebenen Priorisierungskriterien erfolgen. Insbesondere könnte vorgesehen sein, bei der Auswertung der gelieferten Ergebnisse bestimmten Suchmaschinen generell und standardisiert eine erhöhte Relevanz zuzuordnen, beispielsweise weil für einen bestimmten Typus einer Suchanfrage bekannt ist, dass bestimmte Suchmaschinen in der Regel vergleichsweise hohe Recherchequalität liefern. Um dies zu ermöglichen, sind die Priorisierungsparameter vorteilhafterweise abhängig von der jeweiligen Suchmaschine gewählt, so dass beispielsweise anhand des für eine bestimmte Suchmaschine hinterlegten Priorisierungskennwerts festgestellt werden kann, dass ein von dieser Suchmaschine gelieferter Ergebnisdatensatz mit einem vergleichsweise hohen Relevanzkennwert versehen wird.The hierarchical categorization of the found data records Assignment of a specific relevance characteristic can be done from User or an operator predetermined prioritization criteria respectively. In particular, could intended to be determined when evaluating the results delivered Search engines in general and standardized an increased relevance assign, for example because one for a certain type Search query is known to certain search engines usually deliver comparatively high research quality. In order to make this possible, the prioritization parameters are advantageously dependent on chosen by the respective search engine, so, for example, based on that for a particular search engine stored priority value can be determined that a result data set delivered by this search engine with a comparatively high relevance value.
Die Vorgabe einer spezifischen Priorisierung bei der Berücksichtigung der Suchmaschinen kann dabei vom Benutzer nach Art und Umfang vorgegeben sein. Innerhalb der von einer Suchmaschine gelieferten Ergebnisdatensätze kann die so genannte interne Priorisierung anschließend auf der Grundlage der von der Suchmaschine bereits gelieferten Priorisierung erfolgen. Dazu wird in weiterer oder alternativer vorteilhafter Ausgestaltung der Relevanzkennwert für den jeweiligen Ergebnisdatensatz unter Berücksichtigung eines von der jeweiligen Suchmaschine bereitgestellten Ausgangsrelevanzkennwerts vom Integrationsmodul ermittelt.The Specification of a specific prioritization when considering the search engine can be specified by the user according to type and scope his. Within the result data sets supplied by a search engine the so - called internal prioritization based on the Prioritization already delivered by the search engine. This is done in a further or alternative advantageous embodiment the relevance index for the respective result data record taking into account one of the respective search engine provided output relevance parameter determined by the integration module.
Dabei kann insbesondere in der Art einer „dynamischen Priorisierung" eine Normalisierung von den jeweiligen Suchmaschinen bereits mitgelieferter Ausgangsrelevanzkennwerte vorgesehen sein, bei der der von der jeweiligen Suchmaschine als relevantest angesehene Ergebnisdatensatz mit einem vorläufigen Relevanzkennwert von beispielsweise 100 % versehen wird, wobei die von der jeweiligen Suchmaschine bereits als vergleichsweise weniger relevant eingestuften weiteren Ergebnisdatensätze mit einem entsprechend abgestuften Relevanzkennwert versehen werden. Bei dieser Art der Auswertung und Priorisierung ist somit in der Art einer Gleichberechtigung sämtlicher eingesetzter Suchmaschinen ein direkter Quervergleich einzelner Ergebnisdatensätze ermöglicht. Zusätzlich oder alternativ kann aber auch vorgesehen sein, dass bereits bei der Normalisierung, also bei der Bildung der Bezugsgröße für den von der jeweiligen Suchmaschine als relevantest angesehenen Ergebnisdatensatz, ein suchmaschinenspezifischer Kennwert mit vorgegeben wird, durch den der Relevanzkennwert des von der jeweiligen Suchmaschine als relevantest angesehenen Ergebnisdatensatzes suchmaschinenspezifisch vorgegeben wird. Durch eine derartige suchmaschinenspezifische Vorgabe sind somit Relativwichtungen zwischen einzelnen Suchmaschinen möglich, in die insbesondere auch Erfahrungswerte über die generelle Zuverlässigkeit der jeweiligen Suchmaschine und/oder auch themen- oder suchanfragenabhängige Erkenntnisse über die jeweilige Suchmaschine mit einfließen können.there can normalization in particular in the manner of a "dynamic prioritization" output relevance parameters already supplied by the respective search engines be provided in which the search engine as Most relevant viewed result data record with a preliminary relevance characteristic is provided by, for example, 100%, with that of the respective Search engine already classified as comparatively less relevant further result data sets be provided with a correspondingly graduated relevance characteristic. With this type of evaluation and prioritization, Art equal rights for all used search engines a direct cross-comparison of individual Result records allows. additionally or alternatively it can also be provided that already at normalization, that is to say the formation of the reference variable for the of the respective search engine considered the most relevant result data set, a search engine-specific characteristic is specified by which the relevance characteristic of the most relevant from the respective search engine viewed result data set specified for the search engine becomes. Such a search engine-specific specification thus relative weightings between individual search engines possible in which in particular also experience based on general reliability of the respective search engine and / or also subject-specific or search query-dependent knowledge about the respective search engine can be included.
Das Integrationsmodul ist zur gemeinsamen Auswertung der von den verschiedenen Suchmaschinen gelieferten Ergebnisdatensätzen ausgelegt, wobei zunächst eine Konvertierung der einzelnen Ergebnisdatensätze in ein gemeinsames und somit gemeinsam auswertbares Datenformat vorgesehen ist. Dazu ist das Integrationsmodul dafür ausgelegt, die spezifische, von der jeweiligen Suchmaschine eingesetzte Syntax oder deren Datenformat auswerten und gegebenenfalls umwandeln zu können. Um dies zu ermöglichen, ist das Integrationsmodul vorteilhafterweise mit einem zweiten Speichermodul verbunden, in dem Syntaxdaten für die einzelnen Suchmaschinen hinterlegt sind. Anhand dieser Syntaxdaten kann sodann die suchmaschinenspezifische Datenkonvertierung vorgenommen werden.The Integration module is for the joint evaluation of the different Search engine delivered result records designed, initially one Conversion of the individual result data sets into a common one thus jointly evaluable data format is provided. Is to the integration module for it designed, the specific, used by the respective search engine Evaluate syntax or its data format and convert if necessary to be able to. In order to make this possible, is the integration module advantageously with a second memory module connected in which syntax data for the individual search engines are stored. Using this syntax data the search engine-specific data conversion can then be carried out become.
In weiterer vorteilhafter Ausgestaltung ist zusätzlich zum Integrationsmodul auch ein Distributionsmodul vorgesehen, das einen im gemeinsamen Datenformat eingehenden Suchauftrag geeignet auf die einzelnen zum Einsatz vorgesehenen Suchmaschinen aufteilt. Dazu ist das Distributionsmodul, das zweckmäßigerweise über ein gemeinsames Pufferspeichermodul mit dem Integrationsmodul kommuniziert, vorteilhafterweise dafür ausgelegt, den jeweiligen Suchauftrag geeignet in eine für die jeweilige Suchmaschine verarbeitbare Syntax oder ein entsprechendes Datenformat umzuwandeln.In Another advantageous embodiment is in addition to the integration module also a distribution module is provided, which one in common Data format incoming search order suitable for the individual Split intended use of search engines. This is the distribution module, the expediently via a common buffer memory module communicates with the integration module, advantageously for that designed, the respective search order suitable in a for the respective Search engine processable syntax or a corresponding data format convert.
Um eine zuverlässige Zuordnung der gelieferten Ergebnisse zum jeweiligen Suchauftrag auch dann zu ermöglichen, wenn in enger zeitlicher Reihenfolge eine vergleichsweise große Vielzahl an Suchaufträgen zu bearbeiten ist, was insbesondere bei unterschiedlichen Reaktionszeiten der Suchmaschine zu unterschiedlichen Wartezeiten auf die Ergebnisse und somit zu zeitlichem Überlapp zwischen verschiedenen Suchaufträgen führen könnte, ist dem Integrationsmodul und dem Distributionsmodul vorteilhafterweise ein gemeinsames Pufferspeichermodul zugeordnet. Im Pufferspeichermodul werden zweckmäßigerweise für jeden Suchauftrag charakteristische Identifikationsdaten, beispielsweise eine Identifikationskennummer, hinterlegt, wobei die einzelnen, an die Suchmaschinen direkt ausgegebenen spezifizierten Suchaufträge mit einer entsprechenden Kennnummer versehen sind. Bei den von den Suchmaschinen gelieferten Antworten ist dann im Integrationsmodul durch einen Rückgriff auf die im Pufferspeicher hinterlegten charakteristischen Identifikationsdaten eine eindeutige Zuordnung der Ergebnisdatensätze zum jeweiligen Suchauftrag ermöglicht, so dass eine konsolidierte und konsistente Auswertung der eingehenden Ergebnisse ermöglicht ist.In order to enable a reliable assignment of the delivered results to the respective search order even if a comparatively large number of search orders has to be processed in close chronological order, which is particularly the case with different search engine response times, different waiting times for the results and thus overlap in time between different ones Carry out search requests, the integration module and the distribution module are advantageously assigned a common buffer memory module. Characteristic identification data, for example an identification number, are expediently stored in the buffer memory module, with the individual specified search orders output directly to the search engines with a corresponding one Identification number are provided. In the case of the answers provided by the search engines, a clear assignment of the result data records to the respective search request is then made possible in the integration module by using the characteristic identification data stored in the buffer memory, so that a consolidated and consistent evaluation of the incoming results is made possible.
Das Distributionsmodul ist vorteilhafterweise spezifisch dafür ausgelegt, den eingehenden Suchauftrag datenseitig in eine für die jeweiligen Suchmaschinen verarbeitbares Datenformat oder eine Syntax zu konvertieren. Dazu ist auch das Di stributionsmodul vorteilhafterweise mit dem zweiten Speichermodul verbunden, in dem Syntaxdaten für die Suchmaschinen hinterlegt sind. Durch gezielte Wartung und Pflege des zweiten Speichermoduls ist somit auf besondere Weise ermöglicht, gegebenenfalls Aktualisierungen der von den Suchmaschinen verwendeten Syntax oder auch die Hinzufügung oder Löschung vollständiger Suchmaschinen auf besonders einfache Weise vorzunehmen.The Distribution module is advantageously specifically designed to the incoming search order on the data side for the respective Search engine convertible data format or syntax to convert. For this purpose, the dispersion module is also advantageous with the second memory module connected in which syntax data for the search engines are deposited. Through targeted maintenance and care of the second memory module is thus made possible in a special way, updates if necessary the syntax used by the search engines or also the addition or deletion complete Search engines in a particularly simple way.
In weiterer vorteilhafter Ausgestaltung ist das Distributionsmodul eingangsseitig über ein Filtermodul mit einem Ein-/Ausgabemodul verbunden, über das vom Benutzer einzelne Suchaufträge vorgebbar sind. Das Filtermodul kann dabei insbesondere dafür ausgelegt sein, anhand einstellbarer oder individuell vorgebbarer Filterkriterien bestimmte Suchanfragen ganz zu unterdrücken oder beispielsweise länder- oder kundenspezifische Individualvorgaben hinzuzufügen. Dabei kann insbesondere auch vorgesehen sein, anhand der Art der Anfrage gezielt einzelne, als besonders geeignet erkannte Suchmaschinen für die nachfolgende Bearbeitung des Suchauftrags vorzugeben. Das Filtermodul kann somit insbesondere auch dafür ausgelegt sein, abhängig von der jeweiligen Suchanfrage oder von deren thematischem Schwerpunkt eine Vor- oder Grobauswahl der einzusetzenden Suchmaschinen zu treffen und somit eine Grobstrategie für die nachfolgende Strategie vorzugeben.In Another advantageous embodiment is the distribution module on the input side a filter module connected to an input / output module via which individual search requests by the user can be specified. The filter module can in particular be designed for this be, based on adjustable or individually definable filter criteria suppress certain search queries completely or, for example, country or add customer-specific individual specifications. In particular, also be provided, based on the type of request, individual, Search engines recognized as particularly suitable for the subsequent processing of the Specify search order. The filter module can thus in particular for that too be designed depending on the respective search query or its thematic focus to make a preliminary or rough selection of the search engines to be used and therefore a rough strategy for specify the strategy below.
Grundsätzlich können das Distributionsmodul und das Integrationsmodul als eigenständige Einheiten, beispielsweise auf Software- oder auf Hardwarebasis, ausgeführt sein. Eine besonders kompakte und somit günstige Bauweise ist dabei erreichbar, indem das Distributionsmodul vorteilhafterweise mit dem Integrationsmodul in eine gemeinsame Einheit integriert ist.Basically, it can Distribution module and the integration module as separate units, for example on a software or hardware basis. A particularly compact one and therefore cheap Construction can be achieved by using the distribution module advantageously integrated with the integration module in a common unit is.
Es ist weit verbreitete Praxis, gerade bei der Durchführung von Recherchen im Internet oder World-Wide-Web, dass dem Benutzer gemeinsam mit den auf seine Suchanfrage hin generierten Trefferlisten Werbeanzeigen, so genannte „Banners", mit angezeigt werden. Dabei werden in Reaktion auf eine Suchanfrage von einem auch als „Ad-Server" bezeichneten Werbemitteldatenbank gemeinsam mit den Ergebnissen zufällig aus den dort hinterlegten Banners ausgewählte Datensätze mit übermittelt, die anschließend auf dem Ein-/Ausgabemodul zur Anzeige gebracht werden. Bei einem derartigen System erfolgt die Hinzufügung der individuellen Banners jedoch üblicherweise unspezifiziert und insbesondere ohne Bezug auf das vom Benutzer durch die Suchanfrage vorgegebene Thema, so dass das Benutzerinteresse am jeweiligen Werbemittel nur vergleichsweise gering ist. In besonders vorteilhafter Weiterbildung des oben genannten Systems sind jedoch nunmehr das Distributions- und das Integrationsmodul datenseitig mit einer Werbemitteldatenbank verbunden, die als Antwortdatensatz auf eine eingehende Suchanfrage einen hinsichtlich eines Kennungssignals an die Suchanfrage angepassten Datensatz liefert. Mit anderen Worten: Aufgrund der ohnehin vorgesehenen, vergleichsweise qualifizierten Auswertung der vorgegebenen Suchanfrage, die über die entsprechende Konvertierung im Distributionsmodul ermöglicht wird, ist nunmehr die Erzeugung einer beispielsweise inhalts- oder themenbezogenen Kennung für die Suchanfrage ermöglicht, die bei einer Weiterleitung der Suchanfrage auf die Werbemitteldatenbank eine gezielte Selektion von hinsichtlich des Kennungssignals, also beispielsweise hinsichtlich des bearbeiteten Themas, besonders geeigneten Werbedatensatzes ermöglicht. Durch eine derartige gezielte Zuordnung der als Antwortsignal mitgegebenen Werbemitteldatensätze ist somit eine deutlich erhöhte Aufmerksamkeit beim Benutzer gegenüber der eingesetzten Werbemittel erreichbar.It is widespread practice, especially when performing Research on the Internet or World-Wide-Web that the user has in common with the hit lists generated for his search query, so-called "banners" are also displayed. In response to a search query, an advertising material database also referred to as an “ad server” together with the results randomly from those stored there Banners selected records with transmitted, which then be displayed on the input / output module. At a such a system, the individual banners are added however usually unspecified and especially without reference to that of the user topic specified by the search query, so that the user interest is only comparatively low on the respective advertising medium. Especially are advantageous further development of the above system now the distribution and integration module on the data side connected to an advertising material database, which acts as a response data record to an incoming search request for an identification signal delivers data record adapted to the search query. In other words: Because of the already planned, comparatively qualified Evaluation of the specified search query using the corresponding conversion enabled in the distribution module is now the generation of a content or thematic identifier for the search query enables when the search query is forwarded to the advertising material database a targeted selection of with respect to the identification signal, ie for example with regard to the topic being worked on, particularly suitable Advertising data record enables. Through such a targeted assignment of the given as the response signal Advertising media records is therefore a significantly increased Attention to the user regarding the advertising material used reachable.
Bezüglich des Verfahrens wird die genannte Aufgabe unter Nutzung des genannten Recherchensystems gelöst, indem die von den Suchmaschinen gelieferten, jeweils eine Mehrzahl von Ergebnisdatensätzen umfassenden Ergebnisdaten in ein gemeinsames Datenformat konvertiert werden, wobei anschließend unter Rückgriff auf in einem Speichermodul hinterlegte Priorisierungsparameter jedem Ergebnisdatensatz ein Relevanzkennwert zugeordnet wird. Über das Integrationsmodul ist somit vorgesehen, für die gelieferten Ergebnisdatensätze ein konsolidiertes und konsistentes Relevanzsystem zu erzeugen, in dem die einzelnen Ergebnisdatensätze relativ zueinander im Hinblick auf vorgegebene Relevanzkriterien geeignet positioniert sind.Regarding the The aforementioned task is carried out using the aforementioned method Research system solved, by a majority of those supplied by the search engines of result data sets Result data are converted into a common data format, being subsequently under recourse to prioritization parameters stored in a memory module for everyone Result data record is assigned a relevance parameter. About the Integration module is thus provided for the delivered result data sets generate a consolidated and consistent relevance system in which the individual result records relative to each other with regard to given relevance criteria are positioned appropriately.
Vorteilhafterweise werden die Priorisierungsparameter dabei abhängig von der jeweiligen Suchmaschine gewählt, wobei der Relevanzkennwert in alternativer oder zusätzlicher vorteilhafter Weiterbildung für den jeweiligen Ergebnisdatensatz unter Berücksichtigung eines von der jeweiligen Suchmaschine bereitgestellten Ausgangsrelevanzkennwerts ermittelt wird.The prioritization parameters are advantageously selected as a function of the respective search engine, the relevance parameter being provided in an alternative or additional advantageous development for the respective result data record, taking into account one from the respective search engine output relevance characteristic value is determined.
Vorteilhafterweise wird ein im gemeinsamen Datenformat eingehender Suchauftrag für jede ausgewählte Suchmaschine in deren spezifisches Datenformat umgewandelt und anschließend an diese ausgegeben. In alternativer oder zusätzlicher vorteilhafter Ausgestaltung wird ein über ein Ein-/Ausgabemodul vorgegebener Suchauftrag vor seiner weiteren Bearbeitung einer Filterung unterzogen.advantageously, becomes a search request in common data format for each selected search engine converted to their specific data format and then to spent this. In an alternative or additional advantageous embodiment becomes an over an input / output module specified search order before its further Processing subjected to filtering.
Vorteilhafterweise wird ein Suchauftrag zusätzlich zu den Suchmaschinen an eine Werbemitteldatenbank ausgegeben, wobei ein von dieser eingehender Antwortdatensatz mittels eines Kennungssignals der jeweiligen Suchanfrage zugeordnet wird. Durch das Kennungssignal ist dabei insbesondere ermöglicht, den Antwortdatensatz hinsichtlich vorgebbarer Kriterien, beispielsweise hinsichtlich verwendeter Inhalte oder Themen, an die jeweilige Suchanfrage anzupassen, so dass im Ergebnis dem Benutzer gemeinsam mit seinen Suchergebnissen ein thematisch zur Suchanfrage passender Werbeträger angeboten wird.advantageously, a search request is added to the search engines to an advertising material database, where an incoming response data record by means of an identification signal is assigned to the respective search query. By the identification signal is particularly possible the response data record with regard to predefinable criteria, for example with regard to the content or topics used, to the respective search query adjust so that, as a result, the user shares with his Search results are offered a thematic matching the search query becomes.
Die mit der Erfindung erzielten Vorteile bestehen insbesondere darin, dass durch die Verwendung des Integrationsmoduls, dass eingehende Ergebnisdatensätze auf ein gemeinsames Datenformat konvertiert und anschließend eine relative Gewichtung und Priorisierung der Ergebnisdatensätze untereinander durch Vergabe eines „globalen" Relevanzkennwerts eine konsistente gemeinsame Nutzung einer Mehrzahl von Suchmaschinen ermöglicht ist. Durch das mit dem Integrationsmodul kommunizierende Distributionsmodul ist weiterhin gewährleistet, dass unter Rückgriff auf im Speichermodul hinterlegte, suchmaschinenspezifische Daten wie beispielsweise Syntaxdaten eine gezielte Ansprache verschiedenartiger Suchmaschinen mit einer gemeinsamen Suchanfrage ermöglicht ist, wobei ebenso eine konsolidierte gemeinsame Auswertung der von den angesprochenen Suchmaschinen gelieferten Ergebnisse unter Berücksichtigung von deren spezifischer Syntax ermöglicht ist.The Advantages achieved with the invention are in particular that through the use of the integration module that incoming Result records converted to a common data format and then one relative weighting and prioritization of the result data sets among themselves by assigning a "global" relevance value consistent sharing across multiple search engines allows is. Through the distribution module communicating with the integration module is still guaranteed that falling back to search engine-specific data stored in the memory module, such as For example, syntax data can be used to address various types Search engines with a common search query is enabled with a consolidated joint evaluation of the data from the the search engines addressed, taking into account the results provided of their specific syntax is made possible.
Ein Ausführungsbeispiel der Erfindung wird anhand einer Zeichnung näher erläutert. Darin zeigen:On embodiment the invention is explained in more detail with reference to a drawing. In it show:
Das
Recherchensystem
Um
dabei den gleichzeitigen und gemeinsamen Einsatz einer Mehrzahl
von Suchmaschinen
Dazu
ist das Integrationsmodul
Bei
der Priorisierung kann insbesondere vorgesehen sein, die nach Vorgabe
durch einen Benutzer oder durch einen Betreiber ausgewählte Suchmaschinen
Zusätzlich kann
bei den Priorisierungsparametern P aber auch ein suchmaschinenspezifischer
Kennwert hinterlegt sein, der allgemein oder abhängig von der jeweiligen Suchanfrage
der jeweiligen Suchmaschine
Die
Auswerteeinheit
Bei
der Bearbeitung einer vom Benutzer über das Ein-/Ausgabemodul
Die
solchermaßen
gefilterte Suchanfrage
Die
durch die Zuführung
der individualisierten Suchanfrage gestarteten Suchmaschinen
Im
Integrationsmodul
Zusätzlich zu
den Suchmaschinen
Rollenbeschreibungrole Description
Kundecustomer
„Kunde" ist jeder Benutzer, der eine Suchanfrage starten kann."Customer" is any user who can start a search.
TSC FiltermanagerTSC filter manager
Die Rolle „TSC Filtermanager" beschreibt den Mitarbeiterkreis, in dessen Verantwortungsbereich die Filterdefinitionen liegen. Dieser Mitarbeiterkreis wertet außerdem die Statistikprotokollierung des Recherchensystems aus.The Role “TSC Filter Manager "describes the employee group, in whose area of responsibility the filter definitions lie. This group of employees also evaluates the statistics logging of the research system.
TSC AdminTSC admin
Die Rolle des „Admin" beschreibt den Mitarbeiterkreis, der für den Betrieb des Recherchensystems verantwortlich ist.The role of "admin" describes the group of employees responsible for operating the research system responsible for.
Er administriert die Konfigurationsdatei (tsc.cfg) des Recherchensystems und überwacht die Fehlerprotokolle (tsc_error.log).He administrates the configuration file (tsc.cfg) of the research system and monitored the error logs (tsc_error.log).
Beschreibung der externen SystemeDescription of the external systems
Inhaltecontent
KurzbeschreibungSummary
Hier werden Suchergebnisse bereitgestellt, die auf private und Business-Homepages zeigen.Here search results are provided on private and business homepages demonstrate.
Schnittstelleinterface
Die Schnittstelle ist analog zur WWW-Suche mit Fast.The Interface is analogous to the WWW search with Fast.
P4P-ServerP4P server
KurzbeschreibungSummary
Die Suchergebnisse des Pay4Performance(P4P)-Servers werden hier bereitgestellt.The Search results from the Pay4Performance (P4P) server are provided here.
Schnittstelleinterface
Die Schnittstelle des GoTo-Suchcenters wird per HTTP-Request (inklusive Parameter) angesprochen. Die Ergebnisse werden in XML-Format geliefert.The The GoTo search center interface is included via HTTP request (included Parameters) addressed. The results are delivered in XML format.
FAST SuchcenterFAST search center
KurzbeschreibungSummary
Hier werden internet-weite Suchergebnisse bereitgestellt, die mittels der Suchmaschine „AllTheWeb" gefunden wurden.Here Internet-wide search results are provided, which are by means of the search engine "AllTheWeb" were found.
Schnittstelleinterface
Die Schnittstelle des FAST-Suchcenters wird per HTTP-Request (inklusive Parameter) angesprochen. Die Ergebnisse werden in XML-Format geliefert.The The interface of the FAST search center is included via HTTP request (included Parameters) addressed. The results are delivered in XML format.
Ad-ServerAd Server
KurzbeschreibungSummary
Der Ad-Server liefert entsprechend der Suchanfrage eine Werbe-Komponente, die in die Gesamtdarstellung der Suchergebnisse einfließt.The According to the search query, ad server delivers an advertising component, which flows into the overall presentation of the search results.
Recherchensystem Prozessesearch system processes
In
TSC KonfigurationTSC configuration
Die Konfiguration des Recherchensystem wird über Parameter gesteuert, die in einer eigenen Datei abgelegt sind. Diese Konfigurationsdatei wird im XML-Format im Dateisystem des Suchcenters abgelegt. Sie kann mit Hilfe eines Standard-Editors bearbeitet werden.The Configuration of the research system is controlled via parameters that are stored in a separate file. This configuration file is saved in XML format in the file system of the search center. she can can be edited using a standard editor.
Die geänderte Konfiguration kann nur mit Hilfe des Restarts der „TSC Suche" Prozesse erreicht werden.The modified Configuration can only be achieved with the restart of the "TSC search" processes become.
Der Prozess „TSC Konfiguration" beschreibt die notwendigen Arbeitsschritte für die Administration der Konfigurationsdatei des Recherchensystem. The process "TSC configuration" describes the necessary steps for the administration of the configuration file of the research system.
TSC Ausschlussfilter pflegenMaintain TSC exclusion filter
Die TSC Ausschlussfilter definieren Worte und Phrasen für die ein Suchstring, wenn sie in diesem enthalten sind, für bestimmte Kanäle gesperrt wird. Diese Sperrungen sind landesspezifisch und können zeitabhängig definiert werden. Gewöhnlich werden die Filter mit Hilfe einer eigenen Anwendung (der TSC Admin Anwendung) gepflegt. Letztendlich ist die Datei der TSC Ausschlussfilter das Produkt eines Exports aus der „Filter DB" und liegt im CSV-Format vor. Diese Datei kann ggf. mit einem Standardeditor bearbeitet werden.The TSC exclusion filters define words and phrases for the one Search string, if contained in this, blocked for certain channels becomes. These closures are country-specific and can be defined depending on the time become. Usually the filters are checked using a separate application (the TSC Admin Application). Ultimately, the file is the TSC exclusion filter the product of an export from the "Filter DB" and is available in CSV format If necessary, the file can be edited with a standard editor.
Die Aktivierung der geänderten Filter kann nur mit Hilfe des Restart der „TSC Suche" Prozesse erreicht.The Activation of the changed Filters can only be reached by restarting the "TSC search" processes.
Folgende Arbeitsschritte werden für den Prozess „TSC Ausschlussfilter pflegen" definiert: The following steps are defined for the process "Maintain TSC exclusion filter":
TSC RestartTSC restart
Der „TSC Restart" Prozess kann manuell oder automatisch durch andere Skripte, wie z. B. im Kontext der Filteraktivierung, gestartet werden. The "TSC Restart" process can be started manually or automatically by other scripts, such as in the context of filter activation.
Die „fast-cgi" Umgebung des Apache Web-Servers sorgt automatisch für das Neustarten der vorkonfigurierten Anzahl „TSC Suche" Prozesse.The "fast-cgi" environment of Apache Web server automatically takes care of restarting the preconfigured number of "TSC search" processes.
TSC Suchanfrage bearbeitenEdit TSC search query
Der Prozess „TSC Suchanfrage bearbeiten" ist der zentrale Prozess, der durch das Recherchensystem realisiert wird.The Process "TSC Edit search query " the central process that is realized through the research system becomes.
Der folgende Ablauf skizziert diesen Prozesses auf hoher Ebene. Detailliert wird dieser Ablauf später im Dokument. The following procedure outlines this process at a high level. This process will be detailed later in the document.
Auswertung TSC StatistikEvaluation of TSC statistics
Die Statistikdatei kann mittels eines Texteditors eingesehen werden oder in andere Programme importiert werden, da die Datei im CSV-Format vorliegt.The Statistics file can be viewed using a text editor or imported into other programs because the file is in CSV format is present.
Auswertung TSC FehlerprotokollEvaluation of TSC error log
Mittels eines Texteditors kann das Fehlerprotokoll eingesehen werden.through the error log can be viewed in a text editor.
TSC PlattformAnalysemodellTSC platform analysis model
Use-Case-Diagramm, GrobanalyseUse case diagram, rough analysis
Use-Case: TSC KonfigurationUse case: TSC configuration
Der „TSC Admin" erhält die Möglichkeit, die in einer XML-Datei abgelegte Konfiguration des Suchcenters einzusehen und zu verändern. Dazu bedient er das Admin-Tool, das auf einem separaten, nicht zur Produktivumgebung gehörenden Rechner läuft. Damit eine geänderte Konfiguration wirksam wird, ist ein Neustart der einzelnen Prozesse notwendig.The "TSC Admin" is given the opportunity view the configuration of the search center stored in an XML file and change. To do this, he uses the admin tool, which is on a separate, not for Productive environment Computer is running. So that changed Configuration takes effect is a restart of the individual processes necessary.
Business Process DiagrammBusiness process diagram
Die
in
Use-Case: TSC Ausschlussfilter pflegenUse case: TSC exclusion filter care for
Der „TSC Filtermanager" pflegt die Wörter, die von der Suche ausgeschlossen werden sollen. Diese Wörter können pro Land (Portal) als auch zeitlich eingeschränkt definiert werden.The "TSC filter manager" maintains the words that should be excluded from the search. These words can be per Country (portal) as well as limited time.
Nach Änderung der Ausschlussfilter ist jeweils das Recherchensystem (TSC) neuzustarten, damit die Änderungen aktiv werden können.After change the exclusion filter is to restart the search system (TSC), hence the changes can become active.
Use-Case: Konfiguration und Filter aktivierenUse case: configuration and activate filter
Die Konfiguration wird mit Hilfe des Admin-Tools vom Admin-Rechner auf alle am Suchcenter beteiligten Rechner übertragen und dann ein Neustart des Systems durchgeführt. Durch einen Neustart werden u. a. neue Prozesse gestartet, die während ihrer Initialisierung die aktuelle Konfiguration und die Filtertabellen laden.The Configuration is opened using the admin tool from the admin computer transfer all computers involved in the search center and then restart of the system. By restarting u. a. new processes started during their Initialization of the current configuration and the filter tables load.
Use-Case: TSC RestartUse case: TSC restart
Das Suchcenter wird mit Hilfe des Admin-Tools neu gestartet. Dabei werden alle Prozesse auf allen am Suchcenter beteiligten Rechnern geordnet beendet und neugestartet. Ein Neustart ist notwendig, damit Änderungen der Ausschlussfilter oder der Konfiguration wirksam werden.The Search Center is restarted using the admin tool. In doing so All processes are organized on all computers involved in the search center ended and restarted. A restart is necessary to make changes the exclusion filter or the configuration take effect.
Use-Case: Suchanfrage bearbeitenUse case: search query to edit
Der „Kunde" gibt in der Suchmaske des Ein-/Ausgabesystems seinen Suchausdruck ein. Dieser kann aus mehreren mit UND-, ODER- und NICHT-Operatoren verknüpften Wörtern bestehen. Dieser Suchausdruck wird nach Absenden an die Server-Engine von dieser interpretiert, an die Anforderungen der verschiedenen (z. T. externen) Suchmaschinen angepasst und an diese selbst geschickt. Unter Berücksichtigung von konfigurierbaren Timeouts werden die verschiedenen Suchergebnisse dann zu einer Gesamtansicht integriert und zum Browser des Kunden zurückgeliefert.The "customer" gives in the search mask the input / output system its search expression. This can come from multiple words associated with AND, OR, and NOT operators. This search expression is sent to the server engine from this interprets the requirements of the various (e.g. T. external) adapted search engines and sent to them themselves. Considering The different search results are made of configurable timeouts then integrated into an overall view and to the customer's browser returned.
Use-Case: Auswertung StatistikUse case: evaluation of statistics
Der „TSC Filtermanager" kann über einen Texteditor die Suchbegriffe und Verarbeitungszeiten einsehen. Zusätzlich sollen dem Auswerter Möglichkeiten bereitgestellt werden, die eine Ad-hoc-Standardauswertung nach noch zu definierenden Kriterien ermöglicht.The "TSC filter manager" can be operated via a Text editor to view the search terms and processing times. In addition, should the evaluator possibilities are provided, which have an ad hoc standard evaluation according to criteria to be defined.
Use-Case: Auswertung FehlerprotokollUse case: evaluation of error log
Der „TSC Admin" kann über einen Texteditor die in einer Textdatei abgelegten Fehlermeldungen einsehen.The "TSC Admin" can be via a Text editor to view the error messages stored in a text file.
Use-Case-Diagramme, FeinanalyseUse case diagrams, fine analysis
In
„Ergebnisse Integrieren" empfängt die Suchergebnisse der Suchmaschinen und präsentiert sie dem Nutzer im gewünschten Format."Results Integrate "receives the Search results of the search engines and presents them to the user in the desired Format.
„Errorhandling" übernimmt das Protokollieren von Fehlerzuständen in eine Fehlerdatei."Error handling" takes over the logging of fault conditions into an error file.
„Priorisieren" wichtet die von den verschiedenen Suchmaschinen gelieferten Ergebnisse nach bestimmten Geschäftsregeln."Prioritize" means that of the various search engines delivered results according to certain Business rules.
Fehlerbehandelte und priorisierte Suchergebnisse werden „in Ergebnisseite integrieren" in das gewünschte Ausgabeformat überführt.error Treated and prioritized search results are "integrated into the results page" converted into the desired output format.
Der
Nutzer/Kunde hat, wie in
Bei „erweiterter Suche" kann der Nutzer zuerst den Typ des gesuchten Webinhalts auswählen (Webseite, Bild, Musik etc.). Je nach Inhaltstyp stehen dann angepasste Suchoptionen zur Verfügung.With "extended Search "can the Users first select the type of web content they are looking for (website, Picture, music etc.). Depending on the content type, there are customized search options to disposal.
Der
in
ModulüberblickModule overview
Das
Gesamtsystem unterteilt sich, wie in
Modul InterpreterInterpreter module
Das
Modul BRISBANE-Interpreter enthält,
wie in
Modul IntegratorModule integrator
Die
in
Für jede Anfrage an ein Zielsystem wird eine Instanz der Klasse Request erzeugt. Diese Objekte stellen die Kommunikationsschnittstelle zwischen Suchcenter und Zielsystemen dar.For every request An instance of the Request class is created on a target system. These objects represent the communication interface between search centers and target systems.
Die Kommunikation mit den Zielsystemen wird durch den RequestManager verwaltet. Er ist jedoch nicht für die Darstellung der Ergebnisse verantwortlich.The Communication with the target systems is carried out by the RequestManager managed. However, it is not for responsible for presenting the results.
Modul Server-EngineServer Engine module
Dieses
in
Die Server-Engine ist auch für das Instanziieren von Interpreter und Integrator sowie das geordnete Beenden des Prozesse (bei Eintreffen eines Signals) verantwortlich.The Server engine is also for the instantiation of interpreter and integrator as well as the orderly termination of the process (when a signal arrives).
Die Klasse Logging ist für die Protokollierung von Fehlern und Statistikdaten verantwortlich.The Class logging is for logging errors and statistical data.
Dynamisches Modelldynamic model
In
Nach dem Start der Suchcenter-Software wird die Konfiguration ausgelesen. Je nach Konfiguration werden dann entsprechende Ausschlussfilter und eine länderspezifische XSL-Datei geladen. Der Prozess wartet nun auf eine Suchanfrage. Wenn diese eintrifft, wird der Suchausdruck interpretiert. In Ausschlussfiltern vorkommende Wörter werden aus der Suchanfrage entfernt. Zusätzlich wird die Anfrage an die Syntax der beteiligten Suchmaschinen angepasst. Die modifizierten Suchausdrücke werden nun an die Suchmaschinen gesendet. Abhängig vom Format der zurückgelieferten Ergebnisse ist eventuell eine Transformation in das HTML-Format notwendig (wenn beispielsweise die Ergebnisse im XML-Format vorliegen). Die Ergebnisse werden an den Browser des Kunden gesendet. Der Prozess geht wieder in Warteposition, bis der nächste Request eintrifft. Die einzelnen Suchanfragen werden mit Suchausdruck, Zeitstempel und Dauer der Verarbeitung in der Statistikdatei „tsc_statistics" abgelegt. Zudem werden Fehlerzustände während des gesamten Verlaufs in der Datei „tsc_error_log" eingetragen.After starting the search center software, the configuration is read out. Depending on the configuration, appropriate exclusion filters and a country-specific XSL file are then loaded. The process is now waiting for a search request. If this arrives, the search expression is interpreted. Words that appear in exclusion filters are removed from the search query. In addition, the request to the syntax of betei adjusted search engines. The modified search terms are now sent to the search engines. Depending on the format of the returned results, a transformation to HTML format may be necessary (for example, if the results are in XML format). The results are sent to the customer's browser. The process waits again until the next request arrives. The individual search queries are saved with the search expression, time stamp and duration of processing in the statistics file "tsc_statistics". In addition, error states are entered in the file "tsc_error_log" throughout the entire process.
Modul Server EngineServer module Engine
Initialisierungsphaseinitialization
Während der
Initialisierung werden, wie in
Verarbeitung einer SuchanfrageProcessing a search query
Bei
Eintreffen eines Requests werden, wie in
Modul InterpreterInterpreter module
Der
Interpreter veranlasst, wie in
Modul IntegratorModule integrator
Nach Erzeugung der Integrator-Instanz befindet diese sich in einem initialen Zustand. Die Verarbeitung der Requests erfolgt durch den Aufruf der Methode „do-Requests()".To Generation of the integrator instance is in an initial one Status. The requests are processed by the call the method "do requests ()".
Main des fast-ProgrammsMain of the fast program
Das Fast-CGI Programm enthält eine Funktion „main()". Dieses wird vom Webserver aufgerufen. Voraussetzung für das ordnungsgemäße Arbeiten des Programms ist die korrekte Initialisierung und das Eintreten in die Warteschleife. Die Konfiguration wird in einer Datei gehalten. Die Angabe des kompletten Pfades dieser Datei erfolgt über eine Umgebungsvariable.The Fast-CGI program contains a function "main ()" Web server called. Prerequisite for proper work the program is the correct initialization and entry on hold. The configuration is kept in a file. The complete path of this file is specified using a Environment variable.
Konfiguration des Recherchensystemconfiguration of the research system
Das Suchcenter wird über eine einzige Datei konfiguriert (tsc.cfg). Diese Datei befindet sich auf einem separaten Rechner, der nicht als Produktivrechner verwendet wird. Die Konfigurationsdatei dient als Vorlage für alle Konfigurationsdateien pro Rechner in der Produktionsumgebung. Bei Änderungen der Konfiguration (z. B.: Modifikation des Verzeichnisses für die Statistikdateien) wird die Konfigurationsdatei auf dem außerhalb des Produktivsystems befindlichen Rechner modifiziert und per Script auf alle Rechner im Produktivsystem kopiert.The Search center is about configured a single file (tsc.cfg). This file is located on a separate computer that is not a production computer is used. The configuration file serves as a template for all configuration files per computer in the production environment. When the configuration changes (e.g .: modification of the directory for the statistics files) the configuration file on the outside of the productive system modified computer and scripted on all computers copied in the production system.
Format der FiltertabelleFormat of the filter table
Auf Anforderung im Admintool wird aus der Datenbank (mysql) eine aktuelle Filterdatei erstellt, die über die Verteilmechanismen an die Suchcenter-Rechner übertragen wird.On The request in the admin tool turns the database (mysql) into a current one Filter file created over transfer the distribution mechanisms to the search center computers becomes.
Diese Filterdatei hat zeilenweise Einträge, innerhalb einer Zeile sind die Werte durch Semikolon getrennt.This Filter file has line by line entries that are within a line the values separated by semicolons.
Eine
Zeile ist folgendermaßen
sematisch aufgebaut (Werte in ⌷ sind optional.):
Ländercode;
zu filterndes Wort oder Phrase; [Datum Beginn]; Uhrzeit Beginn;
[Datum Ende]; Uhrzeit Ende; Kanal 1; Kanal 2;...;Kanal n
z.
B.
DE;Neu;2000-10-10;12:00:00;2001-12-31;23:35:00;WWW;;;;;
DE;verboten;2001-10-20;01:00:00;2001-12-31;20:00:00;WWW;P4P;BRISBANE;PHP;SP;AD
UK;Bier;;00:00:00;;00:00:00;WWW;;BRISBANE;;SP;
CH;Alkohol;2001-09-30;15:00:00;;00:00:00;WWW;;BRISBANE;PHP;;A line is structured as follows (values in ⌷ are optional):
Country code; word or phrase to be filtered; [Start date]; Time of start; [End date]; Time end; Channel 1; Channel 2; ...; Channel n
z. B.
DE; Neu; 2000-10-10; 12: 00: 00; 2001-12-31; 23: 35: 00; WWW ;;;;;
DE; prohibited; 2001-10-20 01: 00: 00; 2001-12-31; 20: 00: 00; WWW; P4P; BRISBANE; PHP; SP; AD
UK; beer ;; 00: 00: 00 ;; 00: 00: 00; WWW ;; BRISBANE ;; SP;
CH; alcohol; 2001-09-30; 15: 00: 00 ;; 00: 00: 00; WWW ;; BRISBANE; PHP ;;
Aktivierung von Konfiguration und FiltertabelleActivation of configuration and filter table
Die Aktivierung von Konfiguration und Filtertabelle erfolgt durch das Starten von Scripts.The Configuration and filter table are activated by the Start scripts.
Format der ProtokolldateiFormat of the log file
Der Name der Statistikdatei wird in der Konfigurationsdatei (tsc.cfg) angegeben, z. B. tsc_statistics_<PID>. <PID> wird dann im Betrieb durch die Prozess-ID ersetzt. Da gleichzeitig mehrere Prozesse laufen, gibt es auch dementsprechend viele Protokolldateien.The The name of the statistics file is in the configuration file (tsc.cfg) specified, e.g. B. tsc_statistics_ <PID>. <PID> will then replaced by the process ID during operation. Because several at the same time Processes are running, there are accordingly many log files.
Alle Statistikdateien liegen in einem zentralen Verzeichnis.All Statistics files are in a central directory.
Diese Statistik-Dateien werden im CSV-Format gespeichert. Zur Auswertung existiert ein separater Prozess, der aufgrund des großen Datenvolumens auf einem eigens dafür eingerichteten Server laufen sollte. Die Such-Prozesse schreiben entweder ihre Daten direkt auf den Auswertungsserver oder der Auswertungsprozess sammelt in regelmäßigen Abständen die Statistik-Daten aller Such-Prozesse ein.This Statistics files are saved in CSV format. To the results there is a separate process due to the large volume of data on a specially for that configured server should run. The search processes write either their data directly to the evaluation server or the evaluation process collects the at regular intervals Statistics data of all search processes.
Aufbau der DateiStructure of the file
Die Statistik-Datei besteht aus 4 Grundspalten und pro realem Kanal kommen weitere 4 Spalten hinzu.The Statistics file consists of 4 basic columns and per real channel there are another 4 columns.
Grundspalten:Basic columns:
- 1. Eingegebene Suchbegriffe1. Entered search terms
- 2. Uhrzeit der Suche2. Time of the search
- 3. Suchmodus3. Search mode
- 4. Gesamtzeit in ms oder Timeout4. Total time in ms or timeout
Spalten pro Kanal:Columns per channel:
- 1. Name1. Name
- 2. verwendete Suchbegriffe2. Search terms used
- 3. Zeitdauer in ms oder Timeout3. Duration in ms or timeout
- 4. Anzahl der Ergebnisse4. Number of results
MengengerüstQuantity structure
- Grundspalten ca. 50 ByteBasic columns approx. 50 bytes
- Kanalspalten je ca. 50 ByteChannel columns approx. 50 bytes each
Maximallast
500 Anfragen pro Sekunden, ca. 250 Byte pro Anfrage:
→ 125 KByte
pro Sekunde → 450
MByte pro Stunde → 10,8
GByte pro TagMaximum load 500 requests per second, approx. 250 bytes per request:
→ 125 KB per second → 450 MB per hour → 10.8 GB per day
Format der FehlerprotokollierungError log format
Der Name der Fehlerprotokolldatei wird in der Konfigurationsdatei (tsc.cfg) angegeben, z. B. tsc_err_<PID>. <PID> wird dann im Betrieb durch die Prozess-ID ersetzt. Da gleichzeitig mehrere Prozesse laufen, gibt es auch dementsprechend viele Fehlerprotokolldateien.The Name of the error log file is in the configuration file (tsc.cfg) specified, e.g. B. tsc_err_ <PID>. <PID> will then replaced by the process ID during operation. Because several at the same time Processes are running, there are accordingly many error log files.
Einträge in das
Fehlerprotokoll geschehen zeilenweise. Innerhalb eines Eintrages
sind die Werte kommasepariert und hat folgende sematische Bedeutung
Uhrzeit, Original-URL, angepasste URL, Zeit für den reinen Request, Anzahl
Treffer,
Beschreibung des aufgetretenen Fehlers
z. B.: Entries in the error log are made line by line. Within an entry, the values are comma-separated and have the following sematical meaning: time, original URL, adapted URL, time for the trip NEN request, number
Hit, description of the error that occurred
z. B .:
Wenn ein allgemeiner Fehler auftritt, wird dieser in der Form, Uhrzeit, Beschreibung des aufgetretenen Fehlers protokolliert, z. B. If a general error occurs, it is logged in the form, time, description of the error that occurred, e.g. B.
Beschreibung der Stylesheetsdescription the style sheets
Die XSL-Stylesheets dienen innerhalb des Suchcenters dazu, die gesammelten Antworten in XML-Form zu einer HTML-Seite entsprechend der aktuellen Layoutvorgaben umzusetzen. Die Daten für eine Webseite werden dem Stylesheet im XML, bzw. durch Stylesheetparameter übergeben. Pro Sprache existiert im Suchcenter ein Stylesheet. Innerhalb des Stylesheets werden die Suchergebnisse in HTML aufbereitet sowie die Links für das Vor- und Zurückblättern erzeugt. Entsprechend den Voreinstellungen wird dann noch die entsprechende Reiterstruktur über den Suchergebnissen und die Werbebanner bzw. die Formular für die neue Suche erstellt.The XSL stylesheets are used within the search center to collect the Answers in XML form to an HTML page according to the current one Implement layout specifications. The data for a website is the Style sheet in XML, or passed through style sheet parameters. There is a style sheet for each language in the search center. Within the Style sheets, the search results are prepared in HTML as well the links for the page forward and backward generated. According to the default settings, the corresponding one is then Tab structure over the search results and the advertising banners or the form for the new search created.
Administration der FiltertabelleAdministration of the filter table
Kontextcontext
Der
Kontext der Admin Anwendung ist in
- 11
- Recherchensystemsearch system
- 22
- Suchmaschinensearch engines
- 44
- zentrale Auswerteeinheitcentral evaluation
- 66
- Integrationsmodulintegration module
- 88th
- Speichermodulmemory module
- 1010
- Distributionsmoduldistribution module
- 1212
- Pufferspeicherbuffer memory
- 1414
- Speichermodulmemory module
- 1616
- Filtermodulfilter module
- 1818
- Ein-/AusgabemodulInput / Output Module
- 2020
- WerbemitteldatenbankAdvertising media database
- Ee
- ErgebnisdatensätzeResult records
- PP
- Priorisierungsparameterprioritization parameters
Claims (15)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10313420A DE10313420A1 (en) | 2003-03-25 | 2003-03-25 | Research system and method for determining information from a database, in particular from the World Wide Web |
EP04721889A EP1642211A1 (en) | 2003-03-25 | 2004-03-19 | Search system and method for determining information from a databank, especially the worldwide web |
KR1020057018038A KR20060017489A (en) | 2003-03-25 | 2004-03-19 | Search system and method for determining information from a databank, especially the world wide web |
PCT/EP2004/002915 WO2004086251A1 (en) | 2003-03-25 | 2004-03-19 | Search system and method for determining information from a databank, especially the worldwide web |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10313420A DE10313420A1 (en) | 2003-03-25 | 2003-03-25 | Research system and method for determining information from a database, in particular from the World Wide Web |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10313420A1 true DE10313420A1 (en) | 2004-10-28 |
Family
ID=33038760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10313420A Ceased DE10313420A1 (en) | 2003-03-25 | 2003-03-25 | Research system and method for determining information from a database, in particular from the World Wide Web |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1642211A1 (en) |
KR (1) | KR20060017489A (en) |
DE (1) | DE10313420A1 (en) |
WO (1) | WO2004086251A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE477429T1 (en) | 2007-06-21 | 2010-08-15 | Luk Lamellen & Kupplungsbau | CLUTCH WITH ADJUSTMENT DEVICE |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998026357A1 (en) * | 1996-12-09 | 1998-06-18 | Practical Approach Corporation | Natural language meta-search system and method |
WO2001073610A1 (en) * | 2000-03-24 | 2001-10-04 | Bitmobile Technologies | System and method for embedded distributed information retrieval in a free-text application environment |
US6370527B1 (en) * | 1998-12-29 | 2002-04-09 | At&T Corp. | Method and apparatus for searching distributed networks using a plurality of search devices |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6085186A (en) * | 1996-09-20 | 2000-07-04 | Netbot, Inc. | Method and system using information written in a wrapper description language to execute query on a network |
US6327590B1 (en) * | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US6564208B1 (en) * | 2000-02-24 | 2003-05-13 | Inktomi Corporation | Delivering non-default items in association with search results |
US6430553B1 (en) * | 2000-03-22 | 2002-08-06 | Exactone.Com, Inc. | Method and apparatus for parsing data |
US7451136B2 (en) * | 2000-10-11 | 2008-11-11 | Microsoft Corporation | System and method for searching multiple disparate search engines |
DE10056681A1 (en) * | 2000-11-15 | 2002-05-23 | Hewlett Packard Co | Method for running with a Meta search engine adapting to a new search response display processes a search response delivered by a primary search engine in a search response display. |
US6631367B2 (en) * | 2000-12-28 | 2003-10-07 | Intel Corporation | Method and apparatus to search for information |
-
2003
- 2003-03-25 DE DE10313420A patent/DE10313420A1/en not_active Ceased
-
2004
- 2004-03-19 KR KR1020057018038A patent/KR20060017489A/en not_active Application Discontinuation
- 2004-03-19 WO PCT/EP2004/002915 patent/WO2004086251A1/en not_active Application Discontinuation
- 2004-03-19 EP EP04721889A patent/EP1642211A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998026357A1 (en) * | 1996-12-09 | 1998-06-18 | Practical Approach Corporation | Natural language meta-search system and method |
US6370527B1 (en) * | 1998-12-29 | 2002-04-09 | At&T Corp. | Method and apparatus for searching distributed networks using a plurality of search devices |
WO2001073610A1 (en) * | 2000-03-24 | 2001-10-04 | Bitmobile Technologies | System and method for embedded distributed information retrieval in a free-text application environment |
Also Published As
Publication number | Publication date |
---|---|
WO2004086251A1 (en) | 2004-10-07 |
EP1642211A1 (en) | 2006-04-05 |
KR20060017489A (en) | 2006-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69729926T2 (en) | Network Browser | |
DE69531599T2 (en) | Method and device for finding and obtaining personalized information | |
DE19842688B4 (en) | A method of filtering data originating from a data provider | |
DE10255125A1 (en) | Decentralized Automatic Testing of Graphical User Interfaces (GUI) of Software | |
DE10348337A1 (en) | Content management portal and method for communicating information | |
DE202012013427U1 (en) | Linking tables in a MapReduce method | |
DE102013017085A1 (en) | System for deep linking and search engine support for websites integrating a third-party application and components | |
DE19955718A1 (en) | Definition for central system databank enabling parallel databank support for workflow management system, contained within configuration specification for work flow management system | |
DE102005008520A1 (en) | A method of monitoring a directory in a computer system, computer program product, and computer system for performing this method | |
DE19960048A1 (en) | Start condition processing method for computer workflow management system evaluates correctness of control links for each process activity and verifies time interval conditions | |
DE102019220056A1 (en) | DOMAIN KNOWLEDGE INJECTION IN SEMI-SWARMED UNSTRUCTURED DATA SUMMARY FOR DIAGNOSTICS AND REPAIR | |
WO2012017056A1 (en) | Method and apparatus for automatically processing data in a cell format | |
EP1783631A1 (en) | Search result ranking by means of relevance feedback | |
DE10313420A1 (en) | Research system and method for determining information from a database, in particular from the World Wide Web | |
DE19814348A1 (en) | System and method for communication with various electronic archive systems | |
DE102005008519B4 (en) | Method for monitoring a directory in a printing system, computer program product and printing system for carrying out this method | |
EP1094405A2 (en) | Method to create a dynamical database retrieval interface | |
DE10108564A1 (en) | Method for searching for data currently or previously stored in a distributed system or data containing data, taking into account the time of their availability | |
DE102017201156A1 (en) | Creation and execution of software modules | |
DE19845043C1 (en) | Alignment method for data in user data files | |
DE69910352T2 (en) | Procedures for controlling the work environment of company employees | |
EP1610194A2 (en) | Method and system for supplying context sensitive product informations | |
EP1170676A1 (en) | Visualization of informationstructure of documents on the World wide web | |
DE10139761B4 (en) | Computer arrangement in the form of a client / server system with a file of a markup language for the parameterization of an automatic query and corresponding method | |
WO2024067920A1 (en) | Database of a computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |