WO2001090932A2 - Method and devices for blocking data which can be requested from a network - Google Patents

Method and devices for blocking data which can be requested from a network Download PDF

Info

Publication number
WO2001090932A2
WO2001090932A2 PCT/EP2001/005746 EP0105746W WO0190932A2 WO 2001090932 A2 WO2001090932 A2 WO 2001090932A2 EP 0105746 W EP0105746 W EP 0105746W WO 0190932 A2 WO0190932 A2 WO 0190932A2
Authority
WO
WIPO (PCT)
Prior art keywords
data
user
content
network
requested
Prior art date
Application number
PCT/EP2001/005746
Other languages
German (de)
French (fr)
Other versions
WO2001090932A3 (en
Inventor
Clemente Spehr
Original Assignee
Clemente Spehr
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clemente Spehr filed Critical Clemente Spehr
Priority to AU2001269021A priority Critical patent/AU2001269021A1/en
Publication of WO2001090932A2 publication Critical patent/WO2001090932A2/en
Publication of WO2001090932A3 publication Critical patent/WO2001090932A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present invention relates to a method and a device for blocking data that can be requested from a network with undesired content, and a method for filtering out such data from an arbitrarily large amount of data.
  • the present invention and the problem on which it is based are explained in relation to a situation in which several end-user PCs networked with one another have firewall access to the Internet.
  • the internet is used by many people these days. It is an excellent, complex, and in some cases easy to research, information resource for a variety of resources, such as texts, images, data, sound sequences or image sequences or combinations thereof, as is the case, for example, in video films.
  • the information is generally transported from a data source, a network server, which is usually specific to the requested information, to the end user, where it which can only be displayed or saved and further processed.
  • State-of-the-art options for selectively withholding certain content from the end user are only available via text recognition.
  • the end user may only be able to access the PC as a machine via a password, the password also being able to be requested when a browser program is called up.
  • the inventive method with the features of claim 1, the method with the features of claim 5 and the corresponding devices according to claims 16 to 19 have the advantage over the known approaches that the access control is more flexible than before. If the end user requests certain data from the Internet, for example, this data is examined before being presented to the end user to determine whether or not they meet certain, flexibly determinable filter criteria. These filter criteria are then used as the basis for deciding whether the data are to be blocked off as undesired by the end user or whether they can be supplied to the end user as tolerable.
  • a so-called filter server is therefore connected between the end user PC and the information network, which preferably implements this filter function for a large number of end users at the same time.
  • the filtering out essentially consists of an examination of the data with regard to its integrity with regard to the predetermined, indexed topics, the qualification of the examined data with regard to this integrity, the storage of this data and / or their references in a database together with their evaluation results and the decision between blocking or release.
  • a firewall is the interface to the information network, this can be advantageous also be expanded in such a way that the decision to block or release it is made by it.
  • This has the advantage that maintenance and care of the criteria can easily be carried out for a plurality of end users at a single point, and this can be combined in combination with the practice of automatic virus control existing in the prior art.
  • the filter method according to the invention can also be triggered either by positive control or voluntarily controlled by the end user from his remote PC.
  • the aforementioned filter function can also be implemented by computer systems which are used by the network provider chosen by the end user.
  • the idea on which the present invention is based is that all of the requested network information resources, for example websites from the worldwide web, are checked for integrity before being used by the end user. This can be done promptly to the request, but should preferably be decoupled from the user request.
  • the information resources that can be requested are examined and qualified essentially fully automatically by a filter program according to the invention. This investigation is preferably controllable at different levels: On the one hand, it makes sense to keep a "" black list with references to addresses of certain data sources that are known to make the desired content available. On the other hand, it makes sense to keep a green list with references to addresses of certain data sources that are known to provide desired content.
  • This simple form of filtering then only requires a comparison between the reference requested by the end user and the corresponding lists.
  • the method proposed according to the invention is considerably more flexible and effective than such a general comparison: because certain elements of the data originating from the network can be individually identified and assigned a weighting.
  • the weighting covers the various indexed subject areas mentioned above, such as violence, porn, sex and crime.
  • the aim is to find as reliable as possible significant information from the downloaded content that allows the conclusion as clearly as possible that the content in question can be classified as undesirable.
  • a bare butt can be assigned, for example, a weighting percentage of 80% for the sex topic, 30% for the hardcore topic, 40% for the child porn topic, 0% for the violence topic and 0% for advertising.
  • a bare knee is used as a picture element identified, it only gets a weighting percentage of 20% for sex and correspondingly reduced percentages for the other subject areas.
  • the search algorithms used by the filter program can be based on scan functions for images, text and speech that are available in the prior art.
  • the corresponding modules can advantageously be adopted and called up directly by the filter program according to the invention.
  • Specific element lists are therefore generated for all information categories such as text, images, audio and video, each of which contains a list of such elements which could contribute to this, a website, or other information relating to the associated element included, to be classified as undesirable or tolerable.
  • the text list can contain vulgar expressions in different languages.
  • the image list for example, a large number of whole-body nude representations and the representation of individual, preferably naked or scantily clad, body parts can be stored.
  • Various sounds that are significant for one or more of the above-mentioned subject areas can be stored in the audio list.
  • Individual (still) images or image sequences from videos can be edited with the image list above.
  • the software running in the filter server preferably searches the Internet automatically in a basic mode in order to have the most current information possible.
  • Techniques for recognizing advertising that exist in the prior art can also be used in a sensible manner. Certain, frequently recurring motifs of all categories can advantageously be saved as being particularly typical of the corresponding category, on the one hand to serve as a comparison pattern for similar patterns and on the other hand to be able to recognize them more quickly if they occur again, which means that the performance in automatic search of the websites is increased.
  • the qualification results for the individual web contents are preferably stored systematically in one or more databases.
  • An evaluation algorithm that reads this information and adds further information from the environment of the website can then make a program-controlled decision regarding a website requested by the end user whether the requested information is to be judged as undesirable or tolerable. If it is undesirable, the request will not be served and a notice may be given to the end user. Otherwise the information is output to the user.
  • the system proposed according to the invention consists of two elements, on the one hand with an extended firewall as the front end and a so-called clean surf server, hereinafter abbreviated CSS, as the back end.
  • the user has the front end on the computer that the user uses to access the Internet, be it as a single workstation or in a local network.
  • the CSS is advantageously assigned to the network provider, where it can serve a large number of end users.
  • the filter method according to the invention runs at least in two stages: in a preliminary stage on the user side, a comparison is made between user-requested content with references marked as undesired and stored on the user side for indexed or non-indexed content. If you hit this' first black line - solve
  • the user request is immediately rejected without contacting the CCS. If there is no hit and the URL has not yet been examined, the user request is passed on to the CCS for further processing.
  • the result is a flexible, efficient process that can be scaled from a single-user PC to large end-user networks.
  • these references are addresses of specific data sources which are known to provide undesired or desired content, for example IP server addresses or URL page addressing. This increases performance since the response time to the user request is very short.
  • the data can correspond to websites from a network, in particular the Internet and the WorldWideWeb. This measure then meets the current main application of the present invention.
  • the index topics include at least one of the following topics: sex, hard core, child pornography, violence, advertising and credit cards, and also the possibility of entering credit card numbers.
  • undesirable topics provides a relatively objective moral standard for 'keeping clean one of the provided content to the user.
  • combinations of certain elements are assigned and stored with weighting values typical of the combination. If, for example, both a whip and human nude images are found in a downloaded image, it can be concluded with a relatively high probability that it is a website with Sado / Maso content. Therefore, the combination whip plus naked body part or naked body gets a high importance factor in the area of sex and crime or hardcore.
  • whip alone as a recognized image element would not be sufficient to classify the website in this way, since whips also serve as riding accessories. Even naked body parts or naked or scantily clad full-body representations do not in themselves justify such a classification, because they are quite common when presenting swimwear or women's or men's underwear.
  • Combinations can advantageously also be formed from elements that come from different categories. For example, the combination of 'moaning plus nude' would have a high importance factor for the subject area of sex. If handcuffs or certain other known Sado / Maso accessories were added as a further combination element, the weighting factor for sex would be reduced again, that of hardcore or sex and crime, however, be increased from 0% to a very high value.
  • a user profile specified by an end user can also be taken into account in the evaluation with regard to the definition of undesired data.
  • This user profile can then be superimposed in a suitable manner with the predetermined, ⁇ objective 'filter criteria in order to set up effective, user-related, subjective filter criteria. These effective criteria then replace the objective criteria described above.
  • This measure is particularly suitable for adapting the method according to the invention to different age groups of the end users. So it can be very desirable for adults to be able to view sex representations. On the other hand, this minor should be denied, as should access to depictions of violence.
  • the user profile contains a weighting of the various index topics. This enables the subjective and the objective filter criteria to be easily overlaid.
  • search terms or page requests going out from the user are examined to determine whether they meet the objective filter criteria specified above.
  • search terms can also be filtered.
  • the integrity of the URL information entered by the end user is examined before the image or sound material behind it is examined. If the requested URL is found on the black list, access is denied and the user is informed accordingly. This increases performance.
  • the method according to the invention can also be used in an advantageous manner for the actual filtering out of undesired content in image sequences or sound sequences or in videos.
  • the evaluation method depends on both the presentation and the type of transmission. For example, transmitted in a video broadcast on the image information only changes to the image in front of it, the ⁇ basic picture must be examined 'on his integrity back. However, if the change introduces a picture element that is on the index list, the weighting can be carried out according to the above-mentioned procedure.
  • Fig. 1 is a schematic block diagram with the essential technical functional elements and the most important steps during the use of the inventive method according to a preferred embodiment.
  • FIG. 1 shows a schematic block diagram with the essential technical functional elements and the most important steps during the use of the inventive method according to a preferred embodiment.
  • An in-house network 10 includes a plurality N of end-user PCs, at least some of which are set up to surf the Internet. For the present case, only the one shown above is of interest
  • firewall network component known from the prior art has now been expanded by some functions according to the invention. This component is provided with reference number 14. The primary function of the firewall 14 remains the coupling of the company network to one or more public networks, the Internet being shown here as an example network, see the upper area of the figure.
  • the firewall component 14 enables a data connection on a data line 16 to a so-called clean surf server 18, which serves as an intermediate station in order to avoid direct contact between the firewall 14 and the Internet.
  • This server 18 is also abbreviated to CSS below and essentially works as a filter server.
  • the filter server 18 is connected to a robotic mechanism 20 basically has an automatic access to the Internet regardless of a user request and a variety of content offered there to text, "sound, data content, such as a presence of viruses, as well as audio or video clips from web Pages examined. This is done via a separate data line 22.
  • This robot mechanism contains a search program known in the prior art which, according to a predetermined network search scheme, can search for websites including all the links there and download their contents.
  • the robot mechanism advantageously works in a separate, powerful computer, which is preferably freely scalable in terms of performance in order to be able to adapt well to the growing amount of data on the Internet.
  • the data line 22 should preferably have a very high capacity.
  • the robotic computer 20 is logically and physically connected to a number of databases 24, in which a large number of search criteria are stored for each information category.
  • a database 24a for the information category 'text'
  • a database 24b for the category 'image'
  • an audio database 24c for the category 'image'
  • a video database 24d for the category 'image'
  • a virus database 24e optionally a virus database 24e.
  • certain elements are stored separately for each category, each of which is relevant to one or more specific indexed subject areas, as described above.
  • the combination of several separate databases into a single or a lower number of databases can be carried out depending on the database type and the desired performance.
  • the robot mechanism is also logically connected to two databases 26 and 28.
  • the units 20, 24, 26 and 28 together form a functional sub-unit 30, which normally works asynchronously from the filter server 18 and continuously examines the Internet for new content, the web pages found being included in search processing servers which are not shown separately the search criteria stored in the databases 24a,... 24e are searched for undesirable content.
  • the search results are then stored in the two databases 26 and 28. Individual elements found are preferably stored in one of the two databases 26 or 28 together with their typical weighting.
  • the database 26 preferably contains the IP addresses of certain web servers that offer prohibited / unwanted content.
  • the database 28 preferably contains forbidden / undesired HTML pages or those HTML pages which at least partially contain undesired content, and a corresponding classification.
  • an HTML page is found during the automatic search by the robot mechanism, which is not yet stored in the database 28 and which has not yet been checked for its integrity, it is subjected to the examination method according to the invention.
  • the HTML page found may now contain text information, image and audio information.
  • Different processes are now preferably started in parallel with one another: a text scan process, a picture element scan process and an audio element scan process. If possible, each of the three processes now isolates individual elements in its respective category and compares them with the search criteria stored in the databases 24.
  • the text string 'Ficken' is now found as the text element.
  • the image search process finds an individually identified representation that is very similar to a pornographic representation stored in the image database 24b and contains a pornographic pose.
  • the audio search process also hits. to a sound pattern that is very similar to a sound pattern that is stored in the audio database 24c as a typical 'groan'.
  • Each element found is now stored together with a weighting factor for each of the indexed subject areas in the corresponding database, here the HTML database 28.
  • the text string 'fucking', the audio sound pattern of a groan and a single pornographic pose are found as significant elements on the website examined.
  • the text string 'Ficken' is assigned the following weighting factors, for example: Sex: 100%, Hardcore: 50%, Child porn: 40%, Violence: 10%, Advertising: 0%, Credit card: 0%, since there is no entry option for one Credit card number was found.
  • the audio pattern 'groan' gets 100% in the sex category, 60% in hardcore, 30% in child porn, 10% in violence, 0% in advertising and 0% in credit card.
  • the pornographic pose is also saved as a picture element, whereby the following weighting factors are assigned, for example: sex: 80%, hardcore: 30%, child porn: 40%, violence: 0%, advertising: 0% and credit card also 0%.
  • a complex evaluation algorithm After evaluating the individual elements, a complex evaluation algorithm reads the stored weighting profiles and combines them into a synthesis, special combinations of individual text elements, as mentioned above, preferably also being taken into account to a particular degree.
  • the environment of the website can also be weighted enter: if pornographic content has already been found in the hierarchical structure of the website above, or if the URL of the website is known to be pornographic, then the page is also blocked as undesirable, because there is a high probability that pornography contains only pornographic content illustrations.
  • Another indication of a porn site are links to websites already recognized as porn sites. Because here too there is a high probability of finding pornographic material.
  • IP address of the web server could also be used to exclude websites from the outset or to exclude websites in case of doubt. Because web servers are often located on web servers, each of which is dedicated to a single topic from the prohibited topics. This case often occurs with illegal representations, such as child pornography or right-wing extremist content that charcoalies violence.
  • the evaluation algorithm preferably cumulates the weighting factors of all the elements found on a website in a categorized manner by multiplication. If, for example, five elements from the category of violence are found that have the weighting factors 90%, 80%, 95%, 75% and 40%, the percentages are tiplied to form an interim result. In the present case, this would be a cumulative percentage of 0.2052. This would already be regarded as relatively high, so that the affected page is marked as undesirable for further editing.
  • an evaluation factor B can also be determined by the formula
  • the request is now processed in a separate process of the extended firewall 14 and is first forwarded via line 16 to the Clean Surf Server CSS 18, which in turn carries out further control processing. First it is determined whether the currently requested website has already been examined or not. If not, it is downloaded from the Internet and assessed as described above, the result of the assessment being stored in the database 28 for HTML pages.
  • the Clean Surf Server can report back to the firewall why this page has not been released, whereby the firewall can automatically notify the system administrator from a configurable frequency of requests that a certain website is requested relatively frequently within a certain time interval has been. Furthermore, which websites were requested, which search terms are used, how many refusals were made, etc.
  • the system administrator can then take measures to release the website if necessary or, if this is not intended, to take other measures depending on the type of website.
  • the program according to the invention can be installed in a variety of configurations.
  • a special software or network card is advantageous, which can only be accessed via a protected password so that the end user e.g. cannot change the default gateway or proxy server by itself. This can also serve as a child lock.
  • some of the existing program functions of the inventive method can also be integrated in a conventional web browser.
  • the function of Clean Surf Server 18 and firewall 14 can be brought completely to the end-user PC by, for example, a
  • Directory of all unwanted content identified - for example, by the URLs or the IP address of web servers - before a user request is made available to the end user.
  • Such a 'fabulous ze list 'can for example, also be sold individually in the form of a CD or can be downloaded from the Internet or other possible data transmissions.
  • a bonus system can also be implemented for various purposes in combination with certain of the aforementioned features. Furthermore, in a special development of the inventive method, such websites or general content. that have been assessed as highly undesirable are automatically subjected to separate treatment, which includes, for example, informing a competent authority.
  • the inventive concept is not limited to searching prohibited content on the Internet or WorldWideWeb. Other networks, such as intranets, can also be searched.
  • pushings and pop-ups i.e. automatic opening of pages or automatic opening of windows
  • existing technologies such as tunneling, ie virtual network protocol nesting, can also be implemented.
  • the extended firewall and the CSS component can also be implemented on a computer or system that is remote from the end user PC and optionally also serves as a web server.

Abstract

The invention relates to a method and devices for blocking resources which can be requested from a network and which have an undesirable content, and to a method for filtering data of this type out of any quantity of data. Requested web pages are e.g. checked for integrity before being used by the end user. The information resources that can be requested are essentially fully automatically checked and qualified by an inventive filtering program based on the detection and weighted evaluation of individual suspicious information elements.

Description

Verfahren und Vorrichtung zum Abblocken von aus einem Netzwerk anforderbaren DatenMethod and device for blocking data that can be requested from a network
STAND DER TECHNIKSTATE OF THE ART
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Abblocken von aus einem Netzwerk anfor- derbaren Daten mit unerwünschtem Inhalt sowie ein Verfahren zum Ausfiltern solcher Daten aus einer beliebig großen Datenmenge .The present invention relates to a method and a device for blocking data that can be requested from a network with undesired content, and a method for filtering out such data from an arbitrarily large amount of data.
Obwohl auf beliebige Daten und Netzwerke anwendbar, wer- den die vorliegende Erfindung sowie die ihr zugrundeliegende Problematik in Bezug auf eine Situation erläutert, in der mehrere, miteinander vernetzte Endbenutzer-PCs einen Firewall Zugang zum Internet besitzen. Das Internet wird heutzutage von vielen Menschen genutzt. Es ist eine hervorragende, komplexe, unter Umständen einfach zu recherchierende Informationsressource für eine Vielfalt von Ressourcen, wie beispielsweise Texte, Bilder, Daten, Tonsequenzen oder Bildsequenzen beziehungsweise Kombinationen daraus, wie es beispielsweise in Videofilmen der Fall ist. Die Informationen werden dabei grundsätzlich auf Anforderung eines Endbenutzers von einer meist für die angeforderte Information spezifischen Datenquelle, einem Netzserver, zum Endbenutzer transportiert, wo sie entwe- der nur dargestellt oder auch gespeichert und weiterverarbeitet werden können.Although applicable to any data and networks, the present invention and the problem on which it is based are explained in relation to a situation in which several end-user PCs networked with one another have firewall access to the Internet. The internet is used by many people these days. It is an excellent, complex, and in some cases easy to research, information resource for a variety of resources, such as texts, images, data, sound sequences or image sequences or combinations thereof, as is the case, for example, in video films. At the request of an end user, the information is generally transported from a data source, a network server, which is usually specific to the requested information, to the end user, where it which can only be displayed or saved and further processed.
Mit zunehmender Akzeptanz des Internets in weiten Kreisen von Wirtschaft und Bevölkerung haben sich die Inhalte der im Internet dargebotenen Webseiten stark diversifiziert : einerseits gibt es informative, sehr nützliche Informationen die für den Verbrauch beim Endbenutzer unproblematisch sind. Andererseits gibt es jedoch eine Vielzahl nicht gewünschter Informationen, beispielsweise Informationen, die thematisch im Bereich Sex, Hardcore, Kinderporno, Gewalt, oder auch reiner Werbung liegen.With increasing acceptance of the Internet in wide circles of business and population, the content of the websites presented on the Internet has become very diversified: on the one hand, there is informative, very useful information that is unproblematic for consumption by end users. On the other hand, there is a lot of unwanted information, for example information that is thematically related to sex, hardcore, child porn, violence, or pure advertising.
Je nach Alter, Interessen und Hintergrund eines oder meh- rerer Endbenutzer dieser Informationen ist es wünschenswert, bestimmte oder alle im Netz verfügbaren Informationen, die zu einem oder mehreren der vorgenannten Themen eindeutig zuzuordnen sind, auszufiltern, um den Endbenutzer nicht damit zu belasten.Depending on the age, interests and background of one or more end users of this information, it is desirable to filter out certain or all of the information available on the net that can be clearly assigned to one or more of the aforementioned topics, in order not to burden the end user with it.
Solche Informationen werden im folgenden als nicht gewünschte Informationen bezeichnet.Such information is referred to below as unwanted information.
Es gibt freilich gewisse objektive Maßstäbe nach denen solche Informationen gefiltert werden könnten. Darunter fallen beispielsweise Informationen, in denen die Gewalt verherrlicht wird, die Kinderpornos zeigen, oder gewisse, moralisch stark bedenkliche Sex and Crime-Inhalte, um nur die wichtigsten zu nennen. Für solche Inhalte erscheint eine globale, klassische Indizierung angebracht. Das Problem dabei ist jedoch, wie solche Informationen, beispielsweise in Form von Webseiten wirksam vor dem Endbenutzer abgeblockt werden können. Ein weiterer Aspekt, der bei jenem Abblocken zu berücksichtigen ist, ist die Tatsache, daß ein und der selbe Inhalt nicht für alle Menschen gleich schädlich beziehungsweise unerwünscht ist. So gibt es beispielsweise Menschen, die sich durch Werbeblöcke oder Werbebanner kaum stören lassen oder aber Men- sehen, die auf die Einblendung solcher Werbemittel sehr sensibel reagieren. Auch kann ein erwachsener Mensch ein größeres Maß an den oben genannten Sex and Crime- Informationen verarbeiten, ohne daran Schaden zu nehmen, im Vergleich zu einem Kind. Da Kinder jedoch in zunehmen- dem Maße auch als Endbenutzer in Frage kommen, müssen Kinder beispielsweise selektiv vor unerwünschten oder verbotenen Inhalten geschützt werden.Of course, there are certain objective standards by which such information could be filtered. This includes, for example, information in which the violence is glorified, which shows child pornography, or certain, morally questionable sex and crime content, to name just the most important. For such content appears a global, classic indexing is appropriate. The problem with this, however, is how such information, for example in the form of websites, can be effectively blocked from the end user. Another aspect that must be taken into account when blocking this is the fact that one and the same content is not equally harmful or undesirable for all people. For example, there are people who can hardly be disturbed by advertising blocks or banners, or people who react very sensitively to the display of such advertising media. Also, an adult can process a larger amount of the sex and crime information above without being harmed compared to a child. However, since children are increasingly being considered as end users, children must, for example, be selectively protected against unwanted or prohibited content.
Im Stand der Technik befindliche Möglichkeiten, selektiv bestimmte Inhalte dem Endbenutzer vorzuenthalten, sind nur über Texterkennung gegeben. Insbesondere kann dem Endbenutzer der Zugang nur zum PC als Maschine über ein Paßwort möglich sein, wobei das Paßwort auch beim Aufruf eines Browser-Programms verlangt werden kann.State-of-the-art options for selectively withholding certain content from the end user are only available via text recognition. In particular, the end user may only be able to access the PC as a machine via a password, the password also being able to be requested when a browser program is called up.
Dies hat jedoch den Nachteil, daß der Endbenutzer auch keine für ihn nützlichen oder wertvollen Daten aus dem Netz ziehen kann. VORTEILE DER ERFINDUNGHowever, this has the disadvantage that the end user cannot pull data that is useful or valuable from the network. ADVANTAGES OF THE INVENTION
Das erfindungsgemäße Verfahren mit den Merkmalen des Anspruchs 1, das Verfahren mit den Merkmalen des Anspruchs 5 sowie die entsprechenden Vorrichtungen gemäß Ansprüchen 16 bis 19 weisen gegenüber den bekannten Lösungsansätzen den Vorteil auf, daß die Zugangskontrolle flexibler als bisher gestaltbar ist. Fordert der Endbenutzer beispielsweise aus dem Internet bestimmte Daten an, so werden die- se Daten vor einer Darstellung beim Endbenutzer daraufhin untersucht, ob sie bestimmten, flexibel bestimmbaren Filterkriterien genügen oder nicht. Diese Filterkriterien werden dann als Basis dafür herangezogen, zu entscheiden, ob die Daten als ungewünscht' vom Endbenutzer abzublok- ken sind, oder ob sie als tolerabel dem Endbenutzer zuführbar sind. Es wird also ein sogenannter Filterserver zwischen den Endbenutzer-PC und dem Informationsnetzwerk geschaltet, der vorzugsweise für eine Vielzahl von Endbenutzern gleichzeitig diese Filterfunktion realisiert. Das Ausfiltern besteht im wesentlichen aus einer Untersuchung der Daten hinsichtlich ihrer Integrität bezüglich der vorbestimmten, indizierten Themen, dem Qualifizieren der untersuchten Daten hinsichtlich dieser Integrität, dem Speichern dieser Daten und/oder deren Referenzen in einer Datenbank zusammen mit deren Beurteilungsergebnissen und der Entscheidung zwischen Abblocken oder Freigabe.The inventive method with the features of claim 1, the method with the features of claim 5 and the corresponding devices according to claims 16 to 19 have the advantage over the known approaches that the access control is more flexible than before. If the end user requests certain data from the Internet, for example, this data is examined before being presented to the end user to determine whether or not they meet certain, flexibly determinable filter criteria. These filter criteria are then used as the basis for deciding whether the data are to be blocked off as undesired by the end user or whether they can be supplied to the end user as tolerable. A so-called filter server is therefore connected between the end user PC and the information network, which preferably implements this filter function for a large number of end users at the same time. The filtering out essentially consists of an examination of the data with regard to its integrity with regard to the predetermined, indexed topics, the qualification of the examined data with regard to this integrity, the storage of this data and / or their references in a database together with their evaluation results and the decision between blocking or release.
Wenn eine Firewall die Schnittstelle zu dem Informationsnetzwerk darstellt, kann diese in vorteilhafter Weise auch derart erweitert sein, daß die Entscheidung auf Abblocken oder Freigabe von ihr erstellt wird. Dies hat den Vorteil, daß Wartung und Pflege der Kriterien an einer einzigen Stelle einfach für eine Mehrzahl von Endbenut- zern durchgeführt werden kann, wobei dies gleich in Kombination mit der im Stand der Technik vorhandenen Praxis der automatischen Virenkontrolle kombiniert werden kann. Im Falle der Nutzung des erfindungsgemäßen Verfahrens kann das erfindungsgemäße Filterverfahren auch entweder zwangsgesteuert oder vom Endbenutzer freiwillig steuerbar von seinem entfernt liegenden PC aus angestoßen werden. In vorteilhafter Weise kann die vorerwähnte Filterfunktion auch durch Computersysteme realisiert werden, die bei dem vom Endbenutzer gewählten Netzprovider eingesetzt werden.If a firewall is the interface to the information network, this can be advantageous also be expanded in such a way that the decision to block or release it is made by it. This has the advantage that maintenance and care of the criteria can easily be carried out for a plurality of end users at a single point, and this can be combined in combination with the practice of automatic virus control existing in the prior art. If the method according to the invention is used, the filter method according to the invention can also be triggered either by positive control or voluntarily controlled by the end user from his remote PC. Advantageously, the aforementioned filter function can also be implemented by computer systems which are used by the network provider chosen by the end user.
Die der vorliegenden Erfindung zugrundeliegende Idee besteht darin, daß alle angeforderten Netzwerkinformationsressourcen, z.B. Webseiten aus dem worldwide web, vor dem Konsum beim Endbenutzer auf ihre Integrität hin kontrolliert werden. Dies kann zeitnah zur Anforderung geschehen, sollte aber zeitlich vorzugsweise von der Benutzeranforderung entkoppelt werden. Die anforderbaren Informationsressourcen werden im wesentlichen vollautomatisch durch ein erfindungsgemäßes Filterprogramm untersucht und qualifiziert. Diese Untersuchung läuft vorzugsweise steuerbar in verschiedenen Ebenen ab: Einerseits ist es sinnvoll, eine ""schwarze Liste' mit Referenzen auf Adressen bestimmter Datenquellen zu führen, die bekanntermaßen un- gewünschte Inhalte zur Verfügung stellen. Andererseits ist es sinnvoll, eine grüne Liste' mit Referenzen auf Adressen bestimmter Datenquellen zu führen, die bekanntermaßen gewünschte Inhalte zur Verfügung stellen.The idea on which the present invention is based is that all of the requested network information resources, for example websites from the worldwide web, are checked for integrity before being used by the end user. This can be done promptly to the request, but should preferably be decoupled from the user request. The information resources that can be requested are examined and qualified essentially fully automatically by a filter program according to the invention. This investigation is preferably controllable at different levels: On the one hand, it makes sense to keep a "" black list with references to addresses of certain data sources that are known to make the desired content available. On the other hand, it makes sense to keep a green list with references to addresses of certain data sources that are known to provide desired content.
Dies können beispielsweise die IP-Adressen der zugehörigen Webserver oder spezielle Webseiten-URLs sein, wenn als Informationsressource das Internet gilt. Diese einfache Form des Filterns benötigt dann lediglich einen Ab- gleich zwischen der vom Endbenutzer angeforderten Referenz mit den entsprechenden Listen.This can be, for example, the IP addresses of the associated web servers or special website URLs if the Internet is the information resource. This simple form of filtering then only requires a comparison between the reference requested by the end user and the corresponding lists.
Das erfindungsgemäß vorgeschlagene Verfahren ist jedoch wesentlich flexibler und wirksamer als ein solcher pau- schaler Abgleich: denn bestimmte Elemente der aus dem Netzwerk stammenden Daten können einzeln identifiziert und mit einer Wichtung belegt abgespeichert werden. Dabei deckt die Wichtung die verschiedenen, oben genannten, indizierten Themenbereiche, wie zum Beispiel Gewalt, Porno, Sex and Crime, ab. Ziel ist es dabei, möglichst zuverlässig signifikante Informationen aus dem downgeloadeten Inhalt zu finden, die möglichst eindeutig den Schluß zulassen, daß der betreffende Inhalt als unerwünscht eingestuft werden kann. Ein nackter Hintern kann beispielswei- se mit einem Wichtungsprozentsatz von 80 % für den Themenbereich Sex, mit 30 % für den Themenbereich Hardcore, mit 40 % für den Themenbereich Kinderporno, mit 0 % für Themenbereich Gewalt, ebenso 0 % für Werbung belegt werden. Wird beispielsweise ein nacktes Knie als Bildelement identifiziert, so bekommt es nur einen Wichtungsprozentsatz von 20 % für Sex und entsprechend reduzierte Prozentsätze für die anderen Themenbereiche.However, the method proposed according to the invention is considerably more flexible and effective than such a general comparison: because certain elements of the data originating from the network can be individually identified and assigned a weighting. The weighting covers the various indexed subject areas mentioned above, such as violence, porn, sex and crime. The aim is to find as reliable as possible significant information from the downloaded content that allows the conclusion as clearly as possible that the content in question can be classified as undesirable. A bare butt can be assigned, for example, a weighting percentage of 80% for the sex topic, 30% for the hardcore topic, 40% for the child porn topic, 0% for the violence topic and 0% for advertising. For example, a bare knee is used as a picture element identified, it only gets a weighting percentage of 20% for sex and correspondingly reduced percentages for the other subject areas.
Die von dem Filterprogramm benutzten Suchalgorithmen können dabei auf im Stand der Technik vorhandenen Scan- Funktionen für Bilder, Text und Sprache basieren. In vorteilhafter Weise können die entsprechenden Module direkt von dem erfindungsgemäßen Filterprogramm übernommen und aufgerufen werden. Es werden also für alle Informationskategorien wie beispielsweise Text, Bild, Audio und Video spezifische Elementelisten erzeugt, die jeweils eine möglichst vollständige Auflistung solcher Elemente beinhalten, die einen Beitrag dazu liefern könnten, eine Websei- te-, oder andere Informationen, die das zugehörige Element enthalten, als unerwünscht oder aber als tolerabel einzustufen. In der Textliste können beispielsweise vulgäre Ausdrücke in verschiedenen Sprachen stehen. In der Bildliste können beispielsweise eine Vielzahl von Ganzkörper- Nacktdarstellungen und die Darstellung einzelner, vorzugsweise nackter oder spärlich bekleideter Körperteile abgespeichert werden. In der Audio-Liste können verschiedene Geräusche gespeichert werden, die für einen oder mehrere der oben genannten Themenbereiche signifikant sind, beispielsweise Stöhnen. Einzelne (Stand-) Bilder bzw. Bildsequenzen von Videos können mit der o.g. Bildliste bearbeitet werden. Die in dem Filterserver laufende Software sucht vorzugsweise automatisch in einem Grundmodus ständig das Internet ab, um möglichst aktuelle Informationen zu haben. Auch im Stand der Technik vorhandene Techniken der Erken- nung von Werbung können hierbei sinnvoll zum Einsatz kommen. Bestimmte, häufig wiederkehrende Motive aller Kategorien können in vorteilhafter Weise als besonders typisch für die entsprechende Kategorie abgespeichert werden, um einerseits als Vergleichsmuster für ähnliche Mu- ster zu dienen und andererseits, um sie bei einem wiederholten Auftreten schneller erkennen zu können, wodurch die Performance beim automatischen Absuchen der Webseiten gesteigert wird.The search algorithms used by the filter program can be based on scan functions for images, text and speech that are available in the prior art. The corresponding modules can advantageously be adopted and called up directly by the filter program according to the invention. Specific element lists are therefore generated for all information categories such as text, images, audio and video, each of which contains a list of such elements which could contribute to this, a website, or other information relating to the associated element included, to be classified as undesirable or tolerable. For example, the text list can contain vulgar expressions in different languages. In the image list, for example, a large number of whole-body nude representations and the representation of individual, preferably naked or scantily clad, body parts can be stored. Various sounds that are significant for one or more of the above-mentioned subject areas, for example groans, can be stored in the audio list. Individual (still) images or image sequences from videos can be edited with the image list above. The software running in the filter server preferably searches the Internet automatically in a basic mode in order to have the most current information possible. Techniques for recognizing advertising that exist in the prior art can also be used in a sensible manner. Certain, frequently recurring motifs of all categories can advantageously be saved as being particularly typical of the corresponding category, on the one hand to serve as a comparison pattern for similar patterns and on the other hand to be able to recognize them more quickly if they occur again, which means that the performance in automatic search of the websites is increased.
Je nach verfügbarem Speicherplatz und anderen Randbedingungen, beispielsweise den bevorzugten Ziel-Webseiten der angeschlossenen Endbenutzer werden entweder komplette Webseiten auf dem Filterserver selbst gespeichert oder nur Referenzen auf diese Daten, beispielsweise die URL oder andere, signifikante Adressangaben, je nach Netzwerktyp oder Informationsquelle.Depending on the available storage space and other boundary conditions, for example the preferred target websites of the connected end users, either complete websites are stored on the filter server itself or only references to this data, for example the URL or other significant address details, depending on the network type or information source.
In bevorzugter Weise werden die Qualifizierungsergebnisse für die einzelnen Web-Inhalte in einer oder mehreren Da- tenbanken systematisch abgelegt. Durch einen Auswertealgorithmus, der diese Informationen liest und noch weitere Informationen aus dem Umfeld der Webseite hinzunimmt, kann dann bezüglich einer vom Endbenutzer angeforderten Webseite programmgesteuert eine Entscheidung getroffen werden, ob die angeforderte Information als unerwünscht oder als tolerabel zu beurteilen ist. Ist sie unerwünscht, so wird die Anforderung nicht bedient und gegebenenfalls ein Hinweis an den Endbenutzer ausgegeben. An- dernfalls wird die Information an den Benutzer ausgegeben.The qualification results for the individual web contents are preferably stored systematically in one or more databases. An evaluation algorithm that reads this information and adds further information from the environment of the website can then make a program-controlled decision regarding a website requested by the end user whether the requested information is to be judged as undesirable or tolerable. If it is undesirable, the request will not be served and a notice may be given to the end user. Otherwise the information is output to the user.
In den Unteransprüchen finden sich vorteilhafte Weiterbildungen und Verbesserungen des jeweiligen Gegenstandes der Erfindung.Advantageous developments and improvements of the respective subject matter of the invention can be found in the subclaims.
Gemäß einer bevorzugten Weiterbildung besteht das erfindungsgemäß vorgeschlagene System aus zwei Elementen, zum einen mit einer erweiterten Firewall als Front-End und einem sogenannten Clean Surf Server, im folgenden CSS abgekürzt, als Back-End. Dabei befindet sich das Front-End benutzerseitig auf dem Rechner, über den der Benutzer in das Internet kommt, sei es als Einzelplatz oder in einem lokalen Netzwerk. Der CSS ist in vorteilhafter Weise dem Netzprovider zugeordnet, wo er eine Vielzahl von Endbenutzern bedienen kann.According to a preferred development, the system proposed according to the invention consists of two elements, on the one hand with an extended firewall as the front end and a so-called clean surf server, hereinafter abbreviated CSS, as the back end. The user has the front end on the computer that the user uses to access the Internet, be it as a single workstation or in a local network. The CSS is advantageously assigned to the network provider, where it can serve a large number of end users.
Gemäß einer bevorzugten Weiterbildung läuft das erfindungsgemäße Filterverfahren wenigstens zweistufig ab: In einer Vorstufe auf der Benutzerseite findet ein Abgleich zwischen benutzerangeforderten Inhalten mit als unerwünscht markierten und benutzerseitig gespeicherten Referenzen auf indizierte bzw. nicht-indizierte Inhalte statt. Bei einem Treffer in dieser 'ersten schwarzen Li- - lö ¬According to a preferred development, the filter method according to the invention runs at least in two stages: in a preliminary stage on the user side, a comparison is made between user-requested content with references marked as undesired and stored on the user side for indexed or non-indexed content. If you hit this' first black line - solve
ste' wird die Benutzeranforderung sofort abgelehnt, ohne den CCS zu kontaktieren. Wenn kein Treffer erfolgt und die URL noch nicht untersucht wurde, wird die Benutzeranforderung an den CCS zur Weiterbearbeitung weiterge- reicht. Ein flexibles, effizientes Verfahren folgt daraus, das vom Einzelplatz-PC bis hin zu großen Endbenutzer-Netzwerken skalierbar ist.The user request is immediately rejected without contacting the CCS. If there is no hit and the URL has not yet been examined, the user request is passed on to the CCS for further processing. The result is a flexible, efficient process that can be scaled from a single-user PC to large end-user networks.
Gemäß einer bevorzugten Weiterbildung sind diese Referen- zen Adressen bestimmter Datenquellen, die bekanntermaßen ungewünschte oder gewünschte Inhalte zur Verfügung stellen, also beispielsweise IP-Server-Adressen oder URL- Seiten-Adressierungen. Dies steigert die Performance, da die Antwortzeit auf die Benutzeranforderung hin sehr ge- ring ist.According to a preferred development, these references are addresses of specific data sources which are known to provide undesired or desired content, for example IP server addresses or URL page addressing. This increases performance since the response time to the user request is very short.
Gemäß einer bevorzugten Weiterbildung können die Daten Webseiten aus einem Netzwerk, insbesondere dem Internet und dem WorldWideWeb entsprechen. Diese Maßnahme trifft dann den derzeitigen Hauptanwendungsfall der vorliegenden Erfindung.According to a preferred development, the data can correspond to websites from a network, in particular the Internet and the WorldWideWeb. This measure then meets the current main application of the present invention.
Gemäß einer bevorzugten Weiterbildung umfassen die Indexthemen wenigstens eines der folgenden Themen: Sex, Hard- core, Kinderporno, Gewalt, Werbung und Kreditkarten, und ebenso die Eingabemöglichkeit von Kreditkartennummern. Eine solche Ausgestaltung unerwünschter Themen bietet einen relativ objektiven moralischen Maßstab zum 'Sauberhalten1 der dem Benutzer dargebotenen Inhalte. Gemäß einer bevorzugten Weiterbildung werden Kombinationen bestimmter Elemente mit für die Kombination typischen Wichtungswerten belegt und abgespeichert. Werden bei- spielsweise in einem heruntergeladenen Bild sowohl eine Peitsche als auch menschliche Nacktdarstellungen gefunden, so kann mit relativ großer Wahrscheinlichkeit darauf geschlossen werden, daß es sich um eine Webseite mit Sa- do-/Maso-Inhalten handelt. Daher bekommt die Kombination Peitsche plus nackter Körperteil oder nackter Körper einen hohen Wichtungsfaktor im Themenbereich Sex and Crime beziehungsweise Hardcore. Eine Peitsche allein als erkanntes Bildelement würde noch nicht ausreichen, um die Webseite derart einzustufen, da Peitschen ja auch als Reitzubehör dienen. Auch nackte Körperteile beziehungsweise nackte oder spärlich bekleidete Ganzkörperdarstellungen rechtfertigen für sich gesehen noch nicht eine solche Klassifizierung, denn sie sind durchaus üblich bei der Präsentation von Bademode oder Damen- oder Herren- Unterbekleidung.According to a preferred development, the index topics include at least one of the following topics: sex, hard core, child pornography, violence, advertising and credit cards, and also the possibility of entering credit card numbers. Such a configuration undesirable topics provides a relatively objective moral standard for 'keeping clean one of the provided content to the user. According to a preferred development, combinations of certain elements are assigned and stored with weighting values typical of the combination. If, for example, both a whip and human nude images are found in a downloaded image, it can be concluded with a relatively high probability that it is a website with Sado / Maso content. Therefore, the combination whip plus naked body part or naked body gets a high importance factor in the area of sex and crime or hardcore. A whip alone as a recognized image element would not be sufficient to classify the website in this way, since whips also serve as riding accessories. Even naked body parts or naked or scantily clad full-body representations do not in themselves justify such a classification, because they are quite common when presenting swimwear or women's or men's underwear.
In vorteilhafter Weise können auch Kombinationen gebildet werden aus Elementen, die aus verschiedenen Kategorien stammen. Beispielsweise bekäme die Kombination 'Stöhnen plus Nacktdarstellung' einen hohen Wichtungsfaktor für den Themenbereich Sex. Kämen dann noch Handschellen oder bestimmte andere, bekannte Sado-/Maso-Zubehörteile als weiteres Kombinationselement hinzu, so würde der Wichtungsfaktor für Sex wieder reduziert, der von Hardcore beziehungsweise Sex and Crime jedoch von 0 % auf einen sehr hohen Wert erhöht werden.Combinations can advantageously also be formed from elements that come from different categories. For example, the combination of 'moaning plus nude' would have a high importance factor for the subject area of sex. If handcuffs or certain other known Sado / Maso accessories were added as a further combination element, the weighting factor for sex would be reduced again, that of hardcore or sex and crime, however, be increased from 0% to a very high value.
In bevorzugter Weise können durch komplexe Abfragealgo- rithmen und .umfassende Reservoirs an Elementen für jede einzelne Informationskategorie themenbereichsspezifisch verläßliche Filterungsgergebnisse erzielt werden. Dabei versteht sich von selbst, daß in diese Abfragealgorithmen viel empirisches Wissen integriert werden sollte, damit diese eine optimale Wirksamkeit erzielen.Complex query algorithms and comprehensive reservoirs of elements for each individual information category can be used to achieve reliable filtering results specific to the subject area. It goes without saying that a lot of empirical knowledge should be integrated into these query algorithms so that they achieve optimal effectiveness.
Gemäß einer bevorzugten Weiterbildung kann ein von einem Endbenutzer spezifiziertes Benutzerprofil hinsichtlich der Definition ungewünschter Daten zusätzlich bei der Auswertung berücksichtigt werden. Dieses Benutzerprofil kann dann in geeigneter Weise mit den vorgegebenen, λob- jektiven' Filterkriterien überlagert werden, um effektive, benutzerbezogene, subjektive Filterkriterien aufzustellen. Diese effektiven Kriterien ersetzen dann die oben beschriebenen, objektiven Kriterien. Diese Maßnahme eignet sich insbesondere, um das erfindungsgemäße Verfahren an verschiedene Altersgruppen der Endbenutzer anzupassen. So kann es für Erwachsene durchaus wünschenswert sein, Sexdarstellungen betrachten zu können. Andererseits sollte dieses Minderjährigen verwehrt sein, ebenso wie der Zugang zu Gewaltdarstellungen.According to a preferred development, a user profile specified by an end user can also be taken into account in the evaluation with regard to the definition of undesired data. This user profile can then be superimposed in a suitable manner with the predetermined, λ objective 'filter criteria in order to set up effective, user-related, subjective filter criteria. These effective criteria then replace the objective criteria described above. This measure is particularly suitable for adapting the method according to the invention to different age groups of the end users. So it can be very desirable for adults to be able to view sex representations. On the other hand, this minor should be denied, as should access to depictions of violence.
Gemäß einer bevorzugten Weiterbildung enthält das Benutzerprofil eine Wichtung der verschiedenen Indexthemen. Dies ermöglicht eine einfach zu realisierende Überlagerung der subjektiven mit den objektiven Filterkriterien.According to a preferred development, the user profile contains a weighting of the various index topics. This enables the subjective and the objective filter criteria to be easily overlaid.
Gemäß einer bevorzugten Weiterbildung werden vom Benutzer abgehende Suchbegriffe oder Seitenanforderungen untersucht, ob sie den oben angegebenen objektiven Filterkriterien genügen. Insbesondere können solche Suchbegriffe auch gefiltert werden. In einem solchen Fall werden beispielsweise die URL-Angaben, die vom Endbenutzer eingege- ben wurden, auf ihre Integrität hin untersucht, bevor das dahinterliegende Bild- oder Tonmaterial, untersucht wird. Findet sich die angeforderte URL auf der schwarzen Liste, so wird der Zugriff verweigert und der Benutzer entsprechend informiert. Dies steigert die Performance.According to a preferred development, search terms or page requests going out from the user are examined to determine whether they meet the objective filter criteria specified above. In particular, such search terms can also be filtered. In such a case, the integrity of the URL information entered by the end user is examined before the image or sound material behind it is examined. If the requested URL is found on the black list, access is denied and the user is informed accordingly. This increases performance.
Das erfindungsgemäße Verfahren kann in vorteilhafter Weise auch zum eigentlichen Ausfiltern unerwünschter Inhalte in Bildsequenzen oder Tonsequenzen oder in Videos für sich betrachtet herangezogen werden. Die Auswertemethode hängt dabei sowohl von der Darstellungsweise als auch von der Übertragungsart ab. Werden beispielsweise in einer Videoübertragung bei den Bildinformationen nur Änderungen gegenüber dem Bild davor übertragen, so muß das ΛGrund- bild' auf seine Integrität hin untersucht werden. Wenn allerdings die Änderung ein Bildelement einführt, das auf der Indexliste steht, so kann die Wichtung nach dem oben angegebenen Verfahren vollzogen werden. Bei streaming-basierten Übertragungen ist es vorteilhaft, die Übertragung durch einen temporären Pufferspeicher laufen zu lassen, und unerwünschte Teilsequenzen entweder zu entfernen oder durch andere, unproblematische Teilsequenzen zu ersetzen. Dies hat den Vorteil, daß keine langweiligen Lücken bei der Wiedergabe der gestreamten Daten entstehen.The method according to the invention can also be used in an advantageous manner for the actual filtering out of undesired content in image sequences or sound sequences or in videos. The evaluation method depends on both the presentation and the type of transmission. For example, transmitted in a video broadcast on the image information only changes to the image in front of it, the Λ basic picture must be examined 'on his integrity back. However, if the change introduces a picture element that is on the index list, the weighting can be carried out according to the above-mentioned procedure. In the case of streaming-based transmissions, it is advantageous to have the transmission run through a temporary buffer memory and either to remove undesired partial sequences or to replace them with other, unproblematic partial sequences. This has the advantage that there are no boring gaps in the playback of the streamed data.
ZEICHNUNGENDRAWINGS
Äusführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert.Äusführungsbeispiele the invention are shown in the drawings and explained in more detail in the following description.
Es zeigt:It shows:
Fig. 1 eine schematische Blockdarstellung mit den wesentlichen technischen Funktionselementen und den wichtigsten Schritten während des Einsatzes des erfinderischen Verfahrens gemäß einem bevorzugten Ausführungsbeispiel.Fig. 1 is a schematic block diagram with the essential technical functional elements and the most important steps during the use of the inventive method according to a preferred embodiment.
BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELEDESCRIPTION OF THE EMBODIMENTS
Fig. 1 zeigt eine schematische Blockdarstellung mit den wesentlichen technischen Funktionselementen und den wichtigsten Schritten während des Einsatzes des erfinderischen Verfahrens gemäß einem bevorzugten Ausführungsbeispiel. Ein unternehmensinternes Netzwerk 10 enthält eine Mehrzahl N von Endbenutzer-PCs, von denen zumindest einige zum Surfen im Internet eingerichtet sind. Für den vorlie- genden Fall interessiert nur der oben eingezeichneteFig. 1 shows a schematic block diagram with the essential technical functional elements and the most important steps during the use of the inventive method according to a preferred embodiment. An in-house network 10 includes a plurality N of end-user PCs, at least some of which are set up to surf the Internet. For the present case, only the one shown above is of interest
User-PC 1. Er ist mit Bezugszeichen 12 versehen. Eine aus dem Stand der Technik bekannte Firewall- Netzwerkkomponente ist nun um einige erfindungsgemäße Funktionen erweitert. Diese Komponente ist mit Bezugszei- chen 14 versehen. Die Primärfunktion der Firewall 14 bleibt die Ankopplung des Unternehmensnetzes an ein oder mehrere öffentliche Netze, wobei hier das Internet als Beispielsnetz dargestellt ist, siehe oberer Bereich der Figur.User PC 1. It is provided with reference number 12. A firewall network component known from the prior art has now been expanded by some functions according to the invention. This component is provided with reference number 14. The primary function of the firewall 14 remains the coupling of the company network to one or more public networks, the Internet being shown here as an example network, see the upper area of the figure.
Die Firewall-Komponente 14 ermöglicht eine Datenverbindung auf einer Datenleitung 16 zu einem sogenannten Clean Surf Server 18, der als zwischengeschaltete Station dient, um einen direkten Kontakt zwischen Firewall 14 und Internet zu vermeiden. Dieser Server 18 wird im folgenden auch als CSS abgekürzt und arbeitet im wesentlichen als Filterserver.The firewall component 14 enables a data connection on a data line 16 to a so-called clean surf server 18, which serves as an intermediate station in order to avoid direct contact between the firewall 14 and the Internet. This server 18 is also abbreviated to CSS below and essentially works as a filter server.
Der Filterserver 18 ist mit einem Robot-Mechanismus 20 verbunden, der grundsätzlich unabhängig von einer Benutzeranfrage einen automatischen Zugang zum Internet besitzt und eine Vielzahl der dort angebotenen Inhalte auf Text, "Ton, Dateninhalt, beispielsweise einem Vorhandensein von Viren, sowie Audio- oder Videosequenzen von Web- Seiten untersucht. Dies geschieht über eine separate Datenleitung 22. Dieser Robot-Mechanismus enthält ein im Stand der Technik bekanntes Such-Programm, das nach einem vorgegebenen Netzwerksuchschema Webseiten einschließlich aller darauf befindlicher Links aufsuchen und deren Inhalte herunterladen kann. In vorteilhafter Weise arbeitet der Robot-Mechanismus in einem separat stehenden, leistungsfähigen Computer, der vorzugsweise von der Performance her frei skalierbar ist, um sich an den wachsenden Datenbestand im Internet gut anpassen zu können. Damit der Durchsatz gut ist, sollte die Datenleitung 22 vorzugsweise eine sehr hohe Kapazität besitzen.The filter server 18 is connected to a robotic mechanism 20 basically has an automatic access to the Internet regardless of a user request and a variety of content offered there to text, "sound, data content, such as a presence of viruses, as well as audio or video clips from web Pages examined. This is done via a separate data line 22. This robot mechanism contains a search program known in the prior art which, according to a predetermined network search scheme, can search for websites including all the links there and download their contents. The robot mechanism advantageously works in a separate, powerful computer, which is preferably freely scalable in terms of performance in order to be able to adapt well to the growing amount of data on the Internet. In order for the throughput to be good, the data line 22 should preferably have a very high capacity.
Der Robot-Computer 20 ist logisch und physikalisch mit einer Reihe von Datenbanken 24 verbunden, in denen für jede Informationskategorie eine große Anzahl von Suchkriterien gespeichert sind. Es gibt also für die Informationskategorie 'Text' eine Datenbank 24a, für die Kategorie 'Bild' eine Datenbank 24b, eine Audio-Datenbank 24c, eine Video-Datenbank 24d sowie optional eine Viren-Datenbank 24e. In all diesen Datenbanken sind separat für jede Kategorie bestimmte Elemente gespeichert, die jeweils für ein oder mehrere, bestimmte, indizierte Themenbereiche relevant sind, wie es oben beschrieben wurde. Die Zusam- menfassung mehrerer getrennter Datenbanken in eine einzige oder in eine niedrigere Anzahl von Datenbanken kann je nach Datenbanktyp und gewünschter Performance durchgeführt werden. Der Robot-Mechanismus ist weiterhin logisch mit zwei Datenbanken 26 und 28 verbunden. Die Einheiten 20, 24, 26 und 28 bilden zusammen eine funktionsfähige Untereinheit 30, die im Normalfall asynchron vom Filterserver 18 ar- beitet und laufend das Internet nach neuen Inhalten hin untersucht, wobei in nicht separat dargestellten Suchve- rarbeitungs-Servern die gefundenen Webseiten mit den in den Datenbanken 24a, .. 24e gespeicherten Suchkriterien nach unerwünschten Inhalten durchsucht werden. Die Such- ergebnisse werden dann in den beiden Datenbanken 26 und 28 abgelegt. Vorzugsweise werden gefundene Einzelelemente zusammen mit einer für sie typischen Wichtung in einer der beiden Datenbanken 26 oder 28 abgelegt.The robotic computer 20 is logically and physically connected to a number of databases 24, in which a large number of search criteria are stored for each information category. There is therefore a database 24a for the information category 'text', for the category 'image' there is a database 24b, an audio database 24c, a video database 24d and optionally a virus database 24e. In all of these databases, certain elements are stored separately for each category, each of which is relevant to one or more specific indexed subject areas, as described above. The combination of several separate databases into a single or a lower number of databases can be carried out depending on the database type and the desired performance. The robot mechanism is also logically connected to two databases 26 and 28. The units 20, 24, 26 and 28 together form a functional sub-unit 30, which normally works asynchronously from the filter server 18 and continuously examines the Internet for new content, the web pages found being included in search processing servers which are not shown separately the search criteria stored in the databases 24a,... 24e are searched for undesirable content. The search results are then stored in the two databases 26 and 28. Individual elements found are preferably stored in one of the two databases 26 or 28 together with their typical weighting.
Die Datenbank 26 enthält vorzugsweise die IP-Adressen bestimmter Webserver, die verbotene / unerwünschte Inhalte anbieten. Die Datenbank 28 enthält vorzugsweise verbotene /unerwünschte HTML-Seiten beziehungsweise solche HTML- Seiten, die wenigstens zum Teil unerwünschte Inhalte ent- halten, sowie eine entsprechende Klassifizierung.The database 26 preferably contains the IP addresses of certain web servers that offer prohibited / unwanted content. The database 28 preferably contains forbidden / undesired HTML pages or those HTML pages which at least partially contain undesired content, and a corresponding classification.
Wird beim automatischen Absuchen durch den Robot- Mechanismus beispielsweise eine HTML-Seite gefunden, die noch nicht in der Datenbank 28 abgespeichert ist, und die noch nicht auf ihre Integrität hin untersucht worden ist, so wird sie dem erfindungsgemäßen Untersuchungsverfahren unterworfen. Die gefundene HTML-Seite möge nun Textinformationen, Bild- und Audio-Informationen enthalten. Vorzugsweise parallel zueinander werden nun verschiedene Prozesse gestartet: ein Text-Scan-Prozeß, ein Bildelemente-Scan-Prozeß und ein Audio-Elemente-Scan-Prozeß. Jeder der drei Prozesse isoliert nun, sofern möglich, einzelne Elemente in seiner jeweiligen Kategorie und vergleicht sie mit den in den Datenbanken 24 gespeicherten Suchkriterien. Als Textelement wird nun der Text-String 'Ficken' gefunden. Gleichzeitig findet der Bild-Suchprozeß eine einzeln identifizierte Darstellung, die einer in der Bilddatenbank 24b gespeicherten pornographischen Darstellung sehr ähnlich ist und eine pornographische Pose enthält. Des weiteren trifft der Audio-Suchprozeß . auf ein Klangmuster, das sehr große Ähnlichkeit mit einem Klangmuster aufweist, der in der Audio-Datenbank 24c als typi- sches 'Stöhnen' abgespeichert ist. Jedes gefundene Element wird nun zusammen mit je einem Wichtungsfaktor für jeden der indizierten Themenbereiche in der entsprechenden Datenbank, hier der HTML-Datenbank 28 abgespeichert. Diese Verfahrensweise ermöglicht eine nachträgliche Ände- rung der Beurteilung durch Korrektur der Wichtungsfaktoren, wenn sich herausstellt, daß ein solcher Korrekturbedarf besteht. Eine solche nachträgliche Änderung kann dann erfolgen, ohne daß alle Seiten und Elemente neu untersucht werden müssen.If, for example, an HTML page is found during the automatic search by the robot mechanism, which is not yet stored in the database 28 and which has not yet been checked for its integrity, it is subjected to the examination method according to the invention. The HTML page found may now contain text information, image and audio information. Different processes are now preferably started in parallel with one another: a text scan process, a picture element scan process and an audio element scan process. If possible, each of the three processes now isolates individual elements in its respective category and compares them with the search criteria stored in the databases 24. The text string 'Ficken' is now found as the text element. At the same time, the image search process finds an individually identified representation that is very similar to a pornographic representation stored in the image database 24b and contains a pornographic pose. The audio search process also hits. to a sound pattern that is very similar to a sound pattern that is stored in the audio database 24c as a typical 'groan'. Each element found is now stored together with a weighting factor for each of the indexed subject areas in the corresponding database, here the HTML database 28. This procedure enables the assessment to be changed retrospectively by correcting the weighting factors if it turns out that there is a need for such correction. Such a subsequent change can then be made without having to re-examine all pages and elements.
Auf der untersuchten Webseite werden als signifikante Elemente also der Text-String 'Ficken' , das Audio- Klangmuster eines Stöhnens sowie eine einzige pornographische Pose gefunden. Der Text-String 'Ficken' bekommt beispielsweise folgende Wichtungsfaktoren zugeteilt: Sex: 100 %, Hardcore: 50 %, Kinderporno: 40 %, Gewalt: 10 %, Werbung: 0 %, Kreditkar- te: 0 %, da keine Eingabemöglichkeit für eine Kreditkar- tennummer gefunden wurde.The text string 'fucking', the audio sound pattern of a groan and a single pornographic pose are found as significant elements on the website examined. The text string 'Ficken' is assigned the following weighting factors, for example: Sex: 100%, Hardcore: 50%, Child porn: 40%, Violence: 10%, Advertising: 0%, Credit card: 0%, since there is no entry option for one Credit card number was found.
Das Audio-Muster 'Stöhnen' bekommt in der Kategorie Sex 100 %, bei Hardcore 60 %, bei Kinderporno 30 %, bei Ge- walt 10 %, bei Werbung 0 % und bei Kreditkarte ebenfalls 0 %.The audio pattern 'groan' gets 100% in the sex category, 60% in hardcore, 30% in child porn, 10% in violence, 0% in advertising and 0% in credit card.
Die pornographische Pose wird als Bildelement ebenfalls abgespeichert, wobei beispielsweise folgende Wichtungs- faktoren vergeben werden: Sex: 80 %., Hardcore: 30 %, Kinderporno: 40 %, Gewalt: 0 %, Werbung: 0 % und Kreditkarte ebenfalls 0 %.The pornographic pose is also saved as a picture element, whereby the following weighting factors are assigned, for example: sex: 80%, hardcore: 30%, child porn: 40%, violence: 0%, advertising: 0% and credit card also 0%.
Nach Bewertung der einzelnen Elemente liest ein komplexer Auswertealgorithmus die gespeicherten Wichtungsprofile und faßt sie zu einer Synthese zusammen, wobei vorzugsweise auch besondere Kombinationen einzelner Textelemente, wie es- weiter oben erwähnt wurde, in besonderem Maße berücksichtigt werden.After evaluating the individual elements, a complex evaluation algorithm reads the stored weighting profiles and combines them into a synthesis, special combinations of individual text elements, as mentioned above, preferably also being taken into account to a particular degree.
Werden auf einer Webseite beispielsweise aber nur solche Elemente gefunden, die für sich gesehen und auch in Kombination miteinander keine eindeutigen Schlüsse zulassen, so kann auch die Umgebung der Webseite in die Wichtung eingehen: wenn in der hierarchischen Gliederung der Webseite weiter oben schon pornographische Inhalte gefunden wurden, oder wenn die URL der Webseite als pornographisch bekannt gilt, dann wird die Seite ebenfalls als uner- wünscht abgeblockt, denn auf Pornoseiten finden sich mit einer hohen Wahrscheinlichkeit ausschließlich pornographische Abbildungen. Ein weiteres Indiz für eine Pornoseite sind Links auf bereits als Pornoseite erkannte Webseiten. Denn auch hier gibt es dann eine hohe Wahrschein- lichkeit, pornographisches Material zu finden.If, for example, only those elements are found on a website that are seen by themselves and do not allow clear conclusions in combination with one another, the environment of the website can also be weighted enter: if pornographic content has already been found in the hierarchical structure of the website above, or if the URL of the website is known to be pornographic, then the page is also blocked as undesirable, because there is a high probability that pornography contains only pornographic content illustrations. Another indication of a porn site are links to websites already recognized as porn sites. Because here too there is a high probability of finding pornographic material.
Auch die IP-Adresse des Webservers könnte herangezogen werden, um von vornherein Webseiten auszuschließen oder um im Zweifelsfall Webseiten auszuschließen. Denn häufig liegen auf Webservern Webseiten, die jeweils einem einzigen Themenbereich aus den verbotenen Themen gewidmet sind. Dieser Fall tritt häufig bei illegalen Darstellungen, wie etwa Kinderporno oder rechtsradikalen, gewaltverherrlichenden Inhalten auf.The IP address of the web server could also be used to exclude websites from the outset or to exclude websites in case of doubt. Because web servers are often located on web servers, each of which is dedicated to a single topic from the prohibited topics. This case often occurs with illegal representations, such as child pornography or right-wing extremist content that glorifies violence.
Darüber hinaus können im Zweifelsfall auch Menschen zur Beurteilung einer Webseite herangezogen werden.In addition, in case of doubt, people can also be used to evaluate a website.
Der Auswertealgorithmus kumuliert vorzugsweise die Wich- tungsfaktoren aller auf einer Webseite gefundenen Elemente kategorieweise geordnet durch Multiplikation. Wenn beispielsweise fünf Elemente der Kategorie Gewalt gefunden werden, die die Wichtungsfaktoren 90 %, 80 %, 95 %, 75 % und 40 % aufweisen, so werden die Prozentzahlen mul- tipliziert, um ein Zwischenergebnis zu bilden. Dies wäre im vorliegenden Fall ein kumulativer Prozentsatz von 0,2052. Dieser wäre bereits als relativ hoch anzusehen, so daß die betroffene Seite als unerwünscht für das wei- tere Bearbeiten markiert wird.The evaluation algorithm preferably cumulates the weighting factors of all the elements found on a website in a categorized manner by multiplication. If, for example, five elements from the category of violence are found that have the weighting factors 90%, 80%, 95%, 75% and 40%, the percentages are tiplied to form an interim result. In the present case, this would be a cumulative percentage of 0.2052. This would already be regarded as relatively high, so that the affected page is marked as undesirable for further editing.
Finden sich beispielsweise auf einer Webseite fünf Elemente mit den einzelnen Wichtungsfaktoren von 20 %, 15 %, 40 %, 50 % und 30 %, also einer weit weniger verbots- trächtigen Elementesammlung, so ergibt sich ein kumulativer Prozentsatz von 0,0018. Der kumulative Prozentsatz liegt also bei der gleichen Anzahl von verwerteten Elementen um etwa zwei Zehnerpotenzen niedriger. Er würde daher nicht als unerwünscht markiert werden, sofern nicht andere Ausnahmetatbestände doch dafür sprechen. Es ist offensichtlich, daß der Auswertealgorithmus die Anzahl der kumulierten Elemente bei seiner Beurteilung gebührend berücksichtigt, denn jeder Wichtungsfaktor, der kleiner als 1 ist, drückt den kumulativen Prozentsatz herunter. Daher kann beispielsweise durch Multiplizieren mit derIf, for example, there are five elements on a website with the individual weighting factors of 20%, 15%, 40%, 50% and 30%, that is, a collection of elements that is far less prohibitive, a cumulative percentage of 0.0018 results. The cumulative percentage is therefore about two powers of ten lower for the same number of elements used. It would therefore not be marked as undesirable unless there are other exceptions to it. It is obvious that the evaluation algorithm takes due account of the number of cumulative elements in its assessment, because any weighting factor that is less than 1 depresses the cumulative percentage. Therefore, for example, by multiplying by
Anzahl der kumulierten Elemente auf einfache Weise dafür eine Kompensation gefunden werden. Damit ergäbe sich beispielsweise für eine Webseite, die 5 Elemente mit einem jeweiligen Wichtungsfaktor von 90 % aufweist, ein kumula- tiver Prozentsatz von 0,59, der dann mit 5 multipliziert einen Wert von etwa 3 ergäbe. Bei 10 gefundenen Elementen mit einem solchen Wichtungsfaktor ergäbe sich ein Wert von etwa 3,5, was die Ergebnisse gut vergleichbar macht. Allgemein kann auch ein Bewertungsfaktor B durch die FormelNumber of accumulated elements can be easily found for compensation. For example, for a website that has 5 elements with a respective weighting factor of 90%, this would result in a cumulative percentage of 0.59, which then multiplied by 5 would give a value of approximately 3. With 10 elements found with such a weighting factor, the result would be about 3.5, which makes the results easily comparable. In general, an evaluation factor B can also be determined by the formula
B = Summe ( iEi) /nB = sum (iEi) / n
gewonnen werden, wobei pi die Wichtungsfaktoren darstellen, E. die Elemente und n die Anzahl der Elemente.are obtained, where pi represent the weighting factors, E. the elements and n the number of elements.
Nach einer gewissen Vorlaufzeit, während der das Robot- System das Internet durchsucht hat bzw. auf bereits vorhandene Datenbanken zurückgreift und die Beurteilungsergebnisse in den beiden Datenbanken 26 und 28 abgespeichert hat, kann ein gewisser Teil der von dem User-PC 12 gemachten Anfragen an HTML-Seiten unter Berücksichtigung der Beurteilungsergebnisse bearbeitet werden. Dazu wird wie folgt vorgegangen: Die bereits untersuchten Webseiten werden als untersucht markiert. Der Endbenutzer am User- PC 12 definiert eine Anfrage nach einer bestimmten HTML- Seite auf seinem PC, indem er in einem Browser eine be- stimmte Aktion durchführt, wie es durch Anklicken eines Links oder Eingabe einer URL der Fall sein kann.After a certain lead time, during which the robot system has searched the Internet or is using existing databases and has stored the assessment results in the two databases 26 and 28, a certain part of the requests made by the user PC 12 to HTML - Pages are edited taking into account the assessment results. To do this, proceed as follows: The websites already examined are marked as examined. The end user on the user PC 12 defines a request for a specific HTML page on his PC by carrying out a specific action in a browser, as can be the case by clicking a link or entering a URL.
Wenn die angeforderte Adresse noch nicht lokal als erwünscht oder unerwünscht klassifiziert wurde, wird die Anfrage wird nun in einem' separaten Prozeß der erweiterten Firewall 14 bearbeitet und über die Leitung 16 zunächst an den Clean Surf Server CSS 18 weitergeleitet, der seinerseits die weitere Kontrolle bei der Bearbeitung übernimmt . Zunächst wird festgestellt, ob die aktuell angeforderte Webseite bereits untersucht wurde oder nicht. Falls nicht, wird sie aus dem Internet downgeloadet und wie oben beschrieben beurteilt, wobei das Beurteilungsergebnis in der Datenbank 28 für HTML-Seiten abgespeichert wird.If the requested address has not yet been classified locally as desired or undesirable, the request is now processed in a separate process of the extended firewall 14 and is first forwarded via line 16 to the Clean Surf Server CSS 18, which in turn carries out further control processing. First it is determined whether the currently requested website has already been examined or not. If not, it is downloaded from the Internet and assessed as described above, the result of the assessment being stored in the database 28 for HTML pages.
Danach, ebenso wie in dem Fall, in dem die angeforderte Webseite bereits vor Absenden der Benutzeranforderung untersucht war, wird festgestellt, ob sie als unerwünscht gilt oder nicht. Dies kann durch Setzen eines Flags in dem entsprechenden HTML-Datensatz und Abfragen dieses Flags erfolgen. Je nach Untersuchungsergebnis kann dann der Zugang zur angeforderten Webseite ermöglicht oder abgeblockt werden.Then, just as in the case where the requested website was examined before the user request was sent, it is determined whether it is considered undesirable or not. This can be done by setting a flag in the corresponding HTML data record and querying this flag. Depending on the result of the investigation, access to the requested website can then be enabled or blocked.
Obwohl die vorliegende Erfindung anhand eines bevorzugten Ausführungsbeispiels vorstehend beschrieben wurde, ist sie darauf nicht beschränkt, sondern auf vielfältige Weise modifizierbar.Although the present invention has been described above on the basis of a preferred exemplary embodiment, it is not restricted thereto, but rather can be modified in many ways.
So kann beispielsweise der Clean Surf Server im Falle eines Abblockens an die Firewall zurückmelden, warum diese Seite nicht freigegeben worden ist, wobei die Firewall ab einer einstellbaren Häufigkeit von Anforderungen den Systemadministrator automatisch benachrichtigen kann, daß eine bestimmte Webseite in einem bestimmten Zeitintervall relativ häufig angefordert wurde. Weiterhin kann fest- gehalten werden, welche Webseiten angefordert wurde, welche Suchbegriffe verwendet werden, wieviele Verweigerungen es gab, etc.For example, in the event of a block, the Clean Surf Server can report back to the firewall why this page has not been released, whereby the firewall can automatically notify the system administrator from a configurable frequency of requests that a certain website is requested relatively frequently within a certain time interval has been. Furthermore, which websites were requested, which search terms are used, how many refusals were made, etc.
Der Systemadministrator kann dann Maßnahmen ergreifen, um im Bedarfsfall die Webseite doch freizugeben oder, falls dies nicht beabsichtigt ist, andere Maßnahmen treffen, je nach Art der Webseite.The system administrator can then take measures to release the website if necessary or, if this is not intended, to take other measures depending on the type of website.
Das erfindungsgemäße Programm kann in vielerlei Ausgestaltungen installiert werden. Vorteilhaft ist eine spezielle Software oder Netzwerkkarte, auf die nur über ein geschütztes Paßwort zugegriffen werden kann, damit der Endbenutzer z.B. den Standard-Gateway oder Proxiserver von sich aus nicht umstellen kann. Dies kann auch als Kindersicherung dienen.The program according to the invention can be installed in a variety of configurations. A special software or network card is advantageous, which can only be accessed via a protected password so that the end user e.g. cannot change the default gateway or proxy server by itself. This can also serve as a child lock.
In vorteilhafter Weise können einzelne der vorhandenen Programmfunktionen des erfinderischen Verfahrens auch in einen herkömmlichen Web-Browser integriert sein.Advantageously, some of the existing program functions of the inventive method can also be integrated in a conventional web browser.
Des weiteren kann in einer unter Umständen abgespeckten Version des erfinderischen Verfahrens die Funktion von Clean Surf Server 18 und Firewall 14 vollständig auf den End-User-PC gebracht werden, indem beispielsweise einFurthermore, in a possibly slimmed-down version of the inventive method, the function of Clean Surf Server 18 and firewall 14 can be brought completely to the end-user PC by, for example, a
Verzeichnis aller nicht-erwünschten Inhalte, gekennzeichnet- etwa durch die URLs oder die IP-Adresse von Webservern abgefragt wird, bevor eine Benutzeranforderung dem Endbenutzer zugänglich gemacht wird. Eine solche 'schwär- ze Liste' kann beispielsweise auch in Form einer CD einzeln verkauft oder über das Internet oder sonstige mögliche Datenübertragungen downloadbar sein.Directory of all unwanted content, identified - for example, by the URLs or the IP address of web servers - before a user request is made available to the end user. Such a 'fabulous ze list 'can, for example, also be sold individually in the form of a CD or can be downloaded from the Internet or other possible data transmissions.
Des weiteren besteht die Möglichkeit, daß ein Endbenutzer, wenn er trotz Filterung eine unerwünschte Seite erhält, dies dem CSS rückmeldet, beispielsweise durch Betätigen eines eigenen Buttons in dem von ihm benutzten Browser.There is also the possibility that an end user, if he receives an unwanted page despite filtering, reports this back to the CSS, for example by pressing his own button in the browser he is using.
Auch ein Bonussystem kann für verschiedene Zwecke in Kombination mit bestimmten der vorerwähnten Merkmale implementiert werden. Des weiteren können in einer speziellen Weiterbildung des erfinderischen Verfahrens solche Web- seiten oder allgemeine Inhalte,. die als hochgradig unerwünscht beurteilt wurden, automatisch einer separaten Behandlung unterzogen werden, die beispielsweise das Informieren einer zuständigen Behörde miteinschließt.A bonus system can also be implemented for various purposes in combination with certain of the aforementioned features. Furthermore, in a special development of the inventive method, such websites or general content. that have been assessed as highly undesirable are automatically subjected to separate treatment, which includes, for example, informing a competent authority.
Mit der vorgeschlagenen Firewall-Erweiterung können ganze Netze ebenso wie Einzelrechner abgesichert werden. Das erfinderische Konzept ist nicht beschränkt auf das Absuchen verbotener Inhalte im Internet oder WorldWideWeb. Auch andere Netzwerke, wie beispielsweise Intranets kön- nen durchsucht werden.With the proposed firewall extension, entire networks as well as individual computers can be secured. The inventive concept is not limited to searching prohibited content on the Internet or WorldWideWeb. Other networks, such as intranets, can also be searched.
Des weiteren können sogenannte Pushings und Pop-Ups, also ein automatisches Aufdrücken von Seiten beziehungsweise ein automatisches Aufmachen von Fenstern verhindert wer- den. Des weiteren können vorhandene Technologien wie Tun- neling, also eine virtuelle Netzwerkprotokollverschachte- lung mit implementiert werden. Auch kann die erweiterte Firewall und die CSS-Komponente auf einem Rechner oder System implementiert sein, der entfernt vom Endbenutzer- PC liegt und optional ebenfalls noch als Web-Server dient .Furthermore, so-called pushings and pop-ups, i.e. automatic opening of pages or automatic opening of windows, can be prevented the. Furthermore, existing technologies such as tunneling, ie virtual network protocol nesting, can also be implemented. The extended firewall and the CSS component can also be implemented on a computer or system that is remote from the end user PC and optionally also serves as a web server.
Des weiteren ist es möglich, durch Triggering-Mechanis en vom Stand der Technik zahlreiche andere Aktionen auszulösen, wenn eine Webseite als ungewünscht markiert wurde. So kann es beispielsweise sinnvoll sein,- den Web-Master der zuständigen Seite zu informieren, beispielsweise durch automatisches Versenden einer eMail. Der Web-Master hat dann die Möglichkeit, Stellung zu nehmen oder die Seite möglicherweies zu verändern. Furthermore, it is possible to trigger numerous other actions by triggering mechanisms from the prior art if a website has been marked as undesired. For example, it can make sense to - inform the web master of the responsible page, for example by automatically sending an email. The web master then has the opportunity to comment or possibly change the page.
Verfahren und Vorrichtungen zum Abblocken von aus einem Netzwerk anforderbaren DatenMethods and devices for blocking data that can be requested from a network
BEZUGSZEICHENLISTE:LIST OF REFERENCE NUMBERS:
Figure imgf000029_0001
Figure imgf000029_0001

Claims

0128PATENTANSPRÜCHE 0128PATENTANSPRÜCHE
1. Verfahren zum Abblocken von aus einem Netzwerk anforderbaren Daten mit unerwünschtem Inhalt, enthaltend die Schritte,1. A method for blocking data that can be requested from a network with undesired content, comprising the steps
Daten über einen vorbestimmte Filterkriterien verwendenden Clean Surf Server (CCS) (18) als Filterserver zwi- sehen einem Endbenutzer-Computer (12) und dem Netzwerk aus diesem anzufordern, um unerwünschte Daten von zu tolerierenden Daten zu unterscheiden.Request data via a Clean Surf Server (CCS) (18) using a predetermined filter criteria as a filter server between an end user computer (12) and the network, in order to distinguish unwanted data from data to be tolerated.
2. Verfahren nach Anspruch 1, verwendet in einem Firewallsystem (14), um den Empfang unerwünschter Inhalte an mehreren, miteinander vernetzten Computern (10) zu verhindern.2. The method according to claim 1, used in a firewall system (14) to prevent the reception of unwanted content on several, networked computers (10).
3. Verfahren nach einem der vorstehenden Ansprüche, den weiteren Schritt enthaltend, in einer benutzerseitigen Vorstufe einen Abgleich zwischen benutzerangeforderten Inhalten mit als unerwünscht oder erwünscht markierten und benutzerseitig gespeicherten Referenzen durchzufüh- ren,3. The method as claimed in one of the preceding claims, comprising the further step of carrying out a comparison between user-requested content with references marked as undesired or desired and stored on the user side in a preliminary stage by the user. reindeer,
bei einem Treffer die Benutzeranforderung abzulehnen, undto reject the user request upon a hit, and
andernfalls die Anforderung an den CCS zur Weiterbearbeitung weiterzugeben.otherwise pass the request on to the CCS for further processing.
4. Verfahren nach dem vorstehenden Anspruch, wobei die Referenzen Adressen bestimmter Datenquellen, die bekann- termaßen ungewünschte oder gewünschte überprüfbare Inhalte zur Verfügung stellen, als Serveradressen oder als Seitenadressen enthalten.4. The method according to the preceding claim, wherein the references contain addresses of specific data sources, which are known to provide undesired or desired verifiable content, as server addresses or as page addresses.
5. Verfahren zum Ausfiltern von aus einem Netzwerk anfor- derbaren Daten mit unerwünschtem Inhalt, enthaltend die5. Method for filtering out data which can be requested from a network and which contains undesired content
Schritte,Steps,
Untersuchen der Daten hinsichtlich ihrer Erwünschtheit,Examine the data for desirability,
Qualifizieren der untersuchten Daten hinsichtlich ihrer Erwünschtheit,Qualifying the examined data with regard to their desirability,
Speichern von Netzwerkdaten und/ oder deren Referenzen in einer Datenbank zusammen mit deren Beurteilungergebnissen hinsichtlich unerwünschtem Inhalt,Storing network data and / or their references in a database together with their evaluation results with regard to undesired content,
Vorenthalten oder Freigeben von Benutzeranforderungen auf diese Daten je nach Maß ihrer Erwünschtheit. Withheld or released user requests to this data based on their preference.
6. Verfahren nach Anspruch 5, wobei die Daten Webseiten aus einem Netzwerk, insbesondere dem Internet entsprechen.6. The method according to claim 5, wherein the data correspond to websites from a network, in particular the Internet.
7. Verfahren nach Anspruch 5 oder 6, wobei die Daten wenigstens auf eines von7. The method of claim 5 or 6, wherein the data on at least one of
Text, Bild, Ton, oder Virus-Befallenheit untersucht werden, und die Daten bezüglich ihrer Zugehörigkeit zu verschie- denen Indexthemen mit einer Wichtung beurteilt werden.Text, image, sound, or virus infestation are examined, and the data regarding their affiliation to various index topics are assessed with a weighting.
8. Verfahren nach einem der vorstehenden Ansprüche 5 bis8. The method according to any one of the preceding claims 5 to
7, wobei die Indexthemen wenigstens eines von7, where the index topics are at least one of
Sex, Hardcore, Kinderporno, Gewalt, Werbung, Eingabemög- lichkeit von Kreditkartennummern umfassen.Sex, hardcore, child porn, violence, advertising, the ability to enter credit card numbers.
9. Verfahren nach einem der Ansprüche 1 bis 8, wobei bestimmte Elemente der Daten einzeln identifiziert und mit einer Wichtung belegt abgespeichert werden.9. The method according to any one of claims 1 to 8, wherein certain elements of the data are individually identified and stored with a weighting.
10. Verfahren nach einem der Ansprüche 1 bis 9, wobei Kombinationen bestimmter Elemente mit für sie typischen Wichtungswerten belegt abgespeichert werden.10. The method according to any one of claims 1 to 9, wherein combinations of certain elements are stored with weighting values typical for them.
11. Verfahren nach einem der vorstehenden Ansprüche, weiter enthaltend den Schritt,11. The method according to any one of the preceding claims, further comprising the step,
Auswerten eines Benutzerprofils hinsichtlich der Definition ungewünschter Daten, Überlagern des Benutzerprofils mit dem Erwünschtheitspro- fil zur Bestimmung eines subjektiven Erwünschtheitspro- fils, um individuellen Filterkriterien zu genügen,Evaluating a user profile with regard to the definition of unwanted data, Superimposing the user profile with the desirability profile to determine a subjective desirability profile in order to meet individual filter criteria,
Vorenthalten oder Freigeben von Benutzeranforderungen auf diese Daten je nach Maß ihrer subjektiven Erwünschtheit,Withholding or releasing user requests to this data based on their subjective desirability,
Übermitteln einer Begründung im Falle des Vorenthaltens an den Benutzer.Providing a reason to the user in the event of withholding.
12. Verfahren nach dem vorstehenden Anspruch, wobei das Benutzerprofil eine Wichtung verschiedener Indexthemen enthält12. The method according to the preceding claim, wherein the user profile contains a weighting of different index topics
13. Verfahren nach einem der vorstehenden Ansprüche, wobei vom Benutzer abgehende Suchbegriffe oder Seitenanforderungen hinsichtlich Anforderungen unerwünschten Inhalts untersucht werden und optionellerweise weitergemeldet werden.13. The method according to any one of the preceding claims, wherein outgoing search terms or page requests from the user are examined with regard to requests for undesirable content and are optionally passed on.
14. Verwendung des Verfahrens nach einem der Ansprüche 5 bis 14 zum Ausfiltern unerwünschter Inhalte von Bildsequenzen oder Tonsequenzen oder Videos.14. Use of the method according to one of claims 5 to 14 for filtering out undesirable contents of image sequences or sound sequences or videos.
15. Verfahren nach dem vorstehenden Anspruch, wobei die Übertragung bei Strea ing-basierten Übertragungen gepuffert verläuft und unerwünschte Teilsequenzen entfernt oder durch andere Teilsequenzen ersetzt werden.15. The method according to the preceding claim, wherein the transmission in streaming-based transmissions is buffered and removes undesired partial sequences or be replaced by other partial sequences.
16. Computerprogramm enthaltend Codeabschnitte zur Ausführung von Schritten des Verfahrens nach einem der An- sprüche 1 bis 4 oder 5 bis 15.16. Computer program containing code sections for executing steps of the method according to one of claims 1 to 4 or 5 to 15.
17. Computerprogrammerzeugnis, gespeichert auf einem computerlesbaren Datenträger, enthaltend computerlesbare Programmeinrichtungen, um einen Computer zur Ausführung von Schritten des Verfahrens nach einem der Ansprüche 1 bis 4 oder 5 bis 15 zu veranlassen, wenn es in eine Computer geladen wird.17. A computer program product, stored on a computer-readable data medium, containing computer-readable program devices to cause a computer to carry out steps of the method according to one of claims 1 to 4 or 5 to 15 when it is loaded into a computer.
18. Computersystem, enthaltend Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 4 oder 5 bis 15.18. Computer system containing means for performing the method according to one of claims 1 to 4 or 5 to 15.
19. Computersystem, enthaltend Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 4 in Kombi- nation mit dem Verfahren nach Ansprüchen 5 bis 15. 19. Computer system containing means for carrying out the method according to one of claims 1 to 4 in combination with the method according to claims 5 to 15.
PCT/EP2001/005746 2000-05-19 2001-05-18 Method and devices for blocking data which can be requested from a network WO2001090932A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2001269021A AU2001269021A1 (en) 2000-05-19 2001-05-18 Method and devices for blocking data which can be requested from a network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10024733.4 2000-05-19
DE10024733A DE10024733A1 (en) 2000-05-19 2000-05-19 Blocking data for request from network involves requesting data via Clean Surf Server using predetermined filter criterion and acting as filter to distinguish unwanted data from tolerated data

Publications (2)

Publication Number Publication Date
WO2001090932A2 true WO2001090932A2 (en) 2001-11-29
WO2001090932A3 WO2001090932A3 (en) 2003-02-27

Family

ID=7642749

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/005746 WO2001090932A2 (en) 2000-05-19 2001-05-18 Method and devices for blocking data which can be requested from a network

Country Status (3)

Country Link
AU (1) AU2001269021A1 (en)
DE (1) DE10024733A1 (en)
WO (1) WO2001090932A2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388091A2 (en) * 2001-02-28 2004-02-11 Microsoft Corporation Category name service
WO2006036170A1 (en) * 2004-09-15 2006-04-06 Pcsafe, Inc. Methods and systems for filtering urls, webpages, and content
US7421498B2 (en) 2003-08-25 2008-09-02 Microsoft Corporation Method and system for URL based filtering of electronic communications and web pages
US7444403B1 (en) 2003-11-25 2008-10-28 Microsoft Corporation Detecting sexually predatory content in an electronic communication
US8195822B2 (en) 2006-02-13 2012-06-05 International Business Machines Corporation Substituting content for undesirable content in a web browser

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721749B1 (en) 2000-07-06 2004-04-13 Microsoft Corporation Populating a data warehouse using a pipeline approach
US6978266B2 (en) 2001-05-07 2005-12-20 Microsoft Corporation Determining a rating for a collection of documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696898A (en) * 1995-06-06 1997-12-09 Lucent Technologies Inc. System and method for database access control
US5757417A (en) * 1995-12-06 1998-05-26 International Business Machines Corporation Method and apparatus for screening audio-visual materials presented to a subscriber
US5911043A (en) * 1996-10-01 1999-06-08 Baker & Botts, L.L.P. System and method for computer-based rating of information retrieved from a computer network
WO1999054827A1 (en) * 1998-04-20 1999-10-28 Patrick Alan Huges Inappropriate site management software
US5996011A (en) * 1997-03-25 1999-11-30 Unified Research Laboratories, Inc. System and method for filtering data received by a computer system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2317793B (en) * 1996-09-18 2001-03-28 Secure Computing Corp System and method of electronic mail filtering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696898A (en) * 1995-06-06 1997-12-09 Lucent Technologies Inc. System and method for database access control
US5757417A (en) * 1995-12-06 1998-05-26 International Business Machines Corporation Method and apparatus for screening audio-visual materials presented to a subscriber
US5911043A (en) * 1996-10-01 1999-06-08 Baker & Botts, L.L.P. System and method for computer-based rating of information retrieved from a computer network
US5996011A (en) * 1997-03-25 1999-11-30 Unified Research Laboratories, Inc. System and method for filtering data received by a computer system
WO1999054827A1 (en) * 1998-04-20 1999-10-28 Patrick Alan Huges Inappropriate site management software

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388091A2 (en) * 2001-02-28 2004-02-11 Microsoft Corporation Category name service
EP1388091A4 (en) * 2001-02-28 2006-01-18 Microsoft Corp Category name service
US7421498B2 (en) 2003-08-25 2008-09-02 Microsoft Corporation Method and system for URL based filtering of electronic communications and web pages
US7444403B1 (en) 2003-11-25 2008-10-28 Microsoft Corporation Detecting sexually predatory content in an electronic communication
WO2006036170A1 (en) * 2004-09-15 2006-04-06 Pcsafe, Inc. Methods and systems for filtering urls, webpages, and content
US8195822B2 (en) 2006-02-13 2012-06-05 International Business Machines Corporation Substituting content for undesirable content in a web browser
US8458351B2 (en) 2006-02-13 2013-06-04 International Business Machines Corporation Substituting content for undesirable content in a web browser

Also Published As

Publication number Publication date
WO2001090932A3 (en) 2003-02-27
AU2001269021A1 (en) 2001-12-03
DE10024733A1 (en) 2001-11-22

Similar Documents

Publication Publication Date Title
DE60110771T2 (en) INTERNET BROWSING-CONTROL METHOD
DE69817176T2 (en) Method and device for intrusion detection in computers and computer networks
DE112010002445T9 (en) Identification of bots
DE69724356T2 (en) Method and apparatus for displaying information related to each of several hyperlinks
DE69910952T2 (en) Priority and security coding system for electronic mail messages
DE10231161A1 (en) Domain-specific knowledge-based meta search system and method for using the same
EP1178409A1 (en) Cookiemanager to control the exchange of cookies in an Internet client-server computersystem
DE102013205737A1 (en) Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed
DE112012003366T5 (en) Synthesis of directories, domains and subdomains
DE10205081A1 (en) Dokumentenauskunftszensor
DE112016005266T5 (en) Fast pattern detection for log analysis
DE202008018638U1 (en) Generic format for the efficient transmission of data
DE112021004808T5 (en) DETECTING MALWARE THROUGH ANALYSIS OF DISTRIBUTED TELEMETRY DATA
WO2001090932A2 (en) Method and devices for blocking data which can be requested from a network
DE10028624A1 (en) Method and device for obtaining documents
EP1246100A2 (en) Method, device and e-mail server for recognizing unwanted e-mails
DE102012025351B4 (en) Processing of an electronic document
WO2003054727A1 (en) Categorizing system for data objects and method for verifying the consistency of assignments of data objects to categories
EP1431885A2 (en) Method for selecting data records
EP2164021A1 (en) Method for recognising unwanted access and network server device
DE102006026923A1 (en) Method and device for warding off disturbing multimodal messages
DE10248837A1 (en) System and method for processing electronic documents
DE102009053585A1 (en) System for automatically creating task list from records in multiple documents of project discussion in construction industry, has CPU generating entry in database during determining code word or character string in code word format
EP1522931A1 (en) Process and system for searching for and retrieving documents pertaining to a search term in a data space
DE10123773A1 (en) Searching for content in the world wide web, where to improve search efficiency, a user is assigned a search profile that is based on his search history so that searches employ both search criteria and the search profile

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP