DE102010007302A1

DE102010007302A1 - Ein System und Verfahren zum Generieren von Abfragen

Info

Publication number: DE102010007302A1
Application number: DE102010007302A
Authority: DE
Inventors: George Loveland Erhart; Valentine Granville Matula; Arzucan Ann Arbor Ozgur; David Golden Skiba
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2009-02-18
Filing date: 2010-02-08
Publication date: 2010-09-23
Also published as: BRPI1002397B1; US20100211569A1; GB2468022A; US8301619B2; BRPI1002397A2; GB201002575D0

Abstract

Das System nutzt (holt) Trainingsdaten, die mehrere Trainingsdokumente umfassen. Jedes der mehreren Trainingsdokumente umfasst ein oder mehrere Trainingstokens. Die mehreren Trainingsdokumente werden auf der Basis mindestens eines Trainingstoken in den mehreren Trainingsdokumenten zu mehreren Clustern geclustert. Jedes Cluster enthält mindestens ein Trainingsdokument. Eine oder mehrere Boolesche Abfragen werden auf der Basis eines Auftretens des mindestens einen Trainingstoken in einem Trainingsdokument in den mehreren Trainingsdokumenten für ein Cluster generiert. Das System holt Produktionsdaten, die mehrere Produktionsdokumente umfassen. Jedes der mehreren Produktionsdokumente umfasst ein oder mehrere Produktionstokens. Die eine oder mehreren Booleschen Abfragen werden dann an den Produktionsdaten ausgeführt.

Description

Erfindungsgebiet
Das System und das Verfahren betreffen Datenclusteringsysteme und insbesondere das Generieren von Booleschen Abfragen auf der Basis von Clustern.
Allgemeiner Stand der Technik
Gegenwärtig gibt es eine Vielfalt von Systemen, die Daten auf der Basis von Suchtermen clustern können. K-Means und Bisecting-K-Means sind Beispiele für Algorithmen, die zum Clustern von Daten verwendet werden können. Diese Verfahren des Clustering sind im Allgemeinen sehr verarbeitungsintensiv und sind schwierig zu implementieren, wenn es schnelle Änderungen bei dem zu clusternden Datensatz gibt. Diese Clusteringverfahren werden nicht zum Generieren von Booleschen Abfragen verwendet, die einen Datensatz schneller und mit weniger Verarbeitungsressourcen durchsuchen können, als wenn existierende Clusteringsverfahren verwendet werden.
Beispielweise definiert das US-Patent 5,862,519 ein System für „blindes” Clustering. Das System nimmt Daten und segmentiert sie zu Clustern. Dieses System generiert keine Booleschen Abfragen auf der Basis der geclusterten Daten und stellt die Booleschen Abfragen nicht an einen Datensatz.
Die US-Patentanmeldungsveröffentlichung 2002/0087579 offenbart ein System zum Clustern von Daten zu Klassifikationen. Das System zeigt dann die Beziehungen zwischen Daten. Bei den Beziehungen kann es sich um unterschiedliche Arten von Beziehungen handeln, einschließlich Boolesche Beziehungen. Dieses System generiert jedoch keine Booleschen Abfragen auf der Basis der geclusterten Klassifikationen. Zudem stellt das System keine Booleschen Abfragen an die geclusterten Klassifikationen.
Kurze Darstellung der Erfindung
Das System und das Verfahren zielen darauf ab, diese und andere Probleme und Nachteile des Stands der Technik zu lösen. Jedes von mehreren Trainingsdokumenten umfasst ein oder mehrere Trainingstokens. Die mehreren Trainingsdokumente werden auf der Basis mindestens eines Trainingstoken in den mehreren Trainingsdokumenten zu mehreren Clustern geclustert. Jedes Cluster enthält mindestens ein Trainingsdokument. Eine oder mehrere Boolesche Abfragen werden auf der Basis eines Auftretens des mindestens einen Trainingstoken in einem Trainingsdokument in den mehreren Trainingsdokumenten für ein Cluster generiert. Das System erhält Produktionsdaten, die mehrere Produktionsdokumente umfassen. Jedes der mehreren Produktionsdokumente umfasst ein oder mehrere Produktionstokens. Die eine oder mehreren Booleschen Abfragen werden dann an den Produktionsdaten ausgeführt.
Eine weitere Ausführungsform des Systems erhält die Trainingsdaten. Die Trainingsdaten werden gereinigt. Ein oder mehrere herausragende Tokens werden aus dem einen oder den mehreren Tokens in mindestens einem der mehreren Trainingsdokumente identifiziert. Die mehreren Trainingsdokumente werden auf der Basis mindestens eines Trainingstoken oder mindestens eines herausragenden Token zu mehreren Clustern geclustert. Jedes Cluster enthält mindestens ein Trainingsdokument. Eine Boolesche Abfrage wird auf der Basis eines Auftretens von mindestens einem herausragenden Token in einem Trainingsdokument in den mehreren Trainingsdokumenten für ein Cluster generiert. Das System erhält Produktionsdaten und führt die Boolesche Abfrage an den Produktionsdaten aus.
Kurze Beschreibung der Zeichnung
Diese und weitere Merkmale und Vorteile des Systems und des Verfahrens ergeben sich bei Betrachtung der folgenden Beschreibung einer veranschaulichenden Ausführungsform des Systems und des Verfahrens zusammen mit der Zeichnung. Es zeigen:
1 ein Blockdiagramm eines veranschaulichenden Systems zum Generieren und Ausführen von Booleschen Abfragen,
2 ein Flussdiagramm eines Verfahrens zum Generieren und Ausführen von Booleschen Abfragen,
3 ein Flussdiagramm eines weiteren Verfahrens zum Generieren und Ausführen von Booleschen Abfragen,
4 ein Flussdiagramm eines Verfahrens zum Gewichten und Ranken von einem oder mehreren Tokens/herausragenden Tokens in einem Cluster,
5 ein Diagramm, das eine Menge von Clustern und die Verteilung von Trainings- bzw. herausragenden Tokens unter ihnen darstellt,
6 eine Tabelle, die den Prozentsatz von Trainingsdokumenten darstellt, die in jedem Cluster ein Trainingstoken bzw. ein herausragendes Token enthalten,
7 eine Tabelle, die die berechnete Token/Cluster-Gewichtsmatrix für jedes Cluster darstellt,
8 eine Tabelle, die das Ranking von Tokens für jedes Cluster darstellt,
9 ein Flussdiagramm eines Verfahrens zum Generieren von Booleschen Abfragen unter Verwendung eines DNF-Algorithmus (Disjunktive Normalform),
10 ein Flussdiagramm eines Verfahrens zum Generieren von Booleschen Abfragen unter Verwendung eines OR-BUT-NOT-Algorithmus,
11 ein Flussdiagramm eines Verfahrens zum Analysieren der Abfrage auf der Basis von neuen Trainingsdaten, neuen Produktionsdaten, einer Anfrage zum Modifizieren einer Abfrage und/oder einer Anfrage zum Ändern der Anzahl von Clustern,
Ausführliche Beschreibung
1 ist ein Blockdiagramm eines veranschaulichenden Systems 100 zum Generieren und Ausführen von Booleschen Abfragen. Das System 100 umfasst ein Abfragemanagementsystem 101 und eine oder mehrere Datenquellen 105. Das Anfragemanagementsystem 101 umfasst weiterhin einen Datenmanager 102, einen Clusteringmanager 103 und einen Anfragenmanager 104.
Bei der einen oder den mehreren Datenquellen 105 kann es sich um ein beliebiges System handeln, das Daten generieren und/oder empfangen kann. Die Datenquelle 105 kann ein Call Center, ein E-Mail-System, ein soziales Netzwerk, eine Website, ein Video-Server, eine Datenbank und dergleichen sein. Das Abfragemanagementsystem 101 kann eine beliebige Art von System sein, das Daten verarbeiten kann, wie etwa ein Server, ein PC, eine Nebenstellenanlage (NStAnl) und dergleichen. Gleichermaßen kann es sich bei dem Datenmanager 102, dem Clusteringmanager 103 und dem Abfragenmanager 104 um eine beliebige Art von Systemen handeln, die Daten verarbeiten können.
Die Daten in der oder den Datenquellen 105 können Trainingsdaten und/oder Produktionsdaten enthalten. Die Trainingsdaten und/oder die Produktionsdaten können von mehreren Datenquellen 105 kommen. Sowohl die Trainingsdaten als auch die Produktionsdaten enthalten mehrere Dokumente. Jedes Dokument der mehreren Dokumente sowohl in den Trainingsdaten als auch den Produktionsdaten enthält einen oder mehrere Tokens. Bei den mehreren Dokumenten sowohl in den Trainingsdaten als auch den Produktionsdaten kann es sich um eine beliebige Art von Dokumenten und/oder Informationen handeln, die verglichen werden können, wie etwa E-Mails, geschriebene Dokumente, Benutzereingabe von einem sozialen Netzwerk, Videodateien, Audiodateien, Textniederschriften von Audiodateien und dergleichen. Bei einem Dokument könnte es sich um eine individuelle E-Mail, eine Gruppe von E-Mails, eine Niederschrift eines individuellen Anrufs, eine Niederschrift einer Gruppe von Anrufen, einen Eintrag in ein soziales Netzwerk, mehrere Einträge in ein soziales Netzwerk und dergleichen handeln.
Jedes Dokument von beiden Mehrheiten von Trainings- und Produktionsdokumenten enthält ein oder mehrere Tokens. Bei einem Token kann es sich um eine beliebige Art von Element handeln, das verglichen werden kann, wie etwa ein Textstring, ein Unigramm, ein Bigramm, ein Trigramm, identifizierte Videoelemente, identifizierte Audioelemente, aus einer Audiodatei generierte Textstrings und der gleichen. Beispielsweise kann ein Token ein Videoelement, ein identifiziertes Videoelement oder ein beliebiges Videoobjekt sein, das identifiziert und verglichen werden kann, wie etwa ein Wagen, ein Berg, eine Person und dergleichen. Gleichermaßen kann es sich bei einem Audioelement um Wörter von einer Audiodatei, einem Sound und dergleichen handeln.
Der Datenmanager 102 erhält Trainingsdaten von der oder den Datenquellen 105. Der Datenmanager 102 kann die Trainingsdaten von einer einzelnen oder mehreren Datenquellen 105 erhalten. Die Trainingsdaten enthalten mehrere Trainingsdokumente. Jedes der mehreren Trainingsdokumente enthält mindestens ein Trainingstoken. Der Clusteringmanager 103 clustert die mehreren Trainingsdokumente zu mehreren Clustern. Das Clustering kann auf einem oder mehreren Trainingstokens in den mehreren Trainingsdokumenten basieren. Beispielsweise zählen zu Algorithmen, die Dokumente auf der Basis von einem oder mehreren Tokens clustern, ein K-Means, ein Bisecting-K-Means, ein agglomerativer oder ein divisive-hierarchical-clustering-Algorithmus. Ein Cluster enthält mindestens ein Trainingsdokument. Ein Trainingsdokument kann sich in mehr als einem Cluster befinden.
Der Abfragenmanager 104 generiert eine oder mehrere Boolesche Abfragen für ein Cluster in den mehreren Clustern auf der Basis eines Auftretens des mindestens einen Trainingstoken in einem oder mehreren geclusterten Trainingsdokumenten in dem Cluster. Die eine oder die mehreren Booleschen Abfragen werden für ein Cluster auf der Basis des Auftretens oder der Abwesenheit des Token in den mehreren Trainingsdokumenten generiert. Die Boolesche Abfragen können auf vielerlei Weise generiert werden, wie etwa ein DNF-Algorithmus (Disjunctive Normal Form) (siehe 9), ein OR-BUT-NOT-Algorithmus (siehe 10) und dergleichen.
Der Datenmanager 102 erhält Produktionsdaten von der oder den Datenquellen 105. Der Datenmanager 102 kann die Produktionsdaten von der gleichen Datenquelle 105 wie die Trainingsdaten oder von einer anderen Datenquelle 105 erhalten. Die Produktionsdaten können einige oder alle der Trainingsdaten enthalten. Der Datenmanager 102 kann die Produktionsdaten jederzeit erhalten, auch vor dem Erhalten der Trainingsdaten. Die Produktionsdaten enthalten mehrere Produktionsdokumente. Jedes der mehreren Produktionsdokumente enthält mindestens ein Produktionstoken. Der Abfragenmanager führt dann die eine oder die mehreren Booleschen Abfragen an den mehreren Produktionsdokumenten in den Produktionsdaten aus.
Boolesche Abfragen werden an Produktionstoken in den Produktionsdaten ausgeführt, indem bestimmt wird, ob das oder die Tokens in der Booleschen Abfrage sich in den Produktionsdokumenten befinden oder nicht. Falls beispielsweise die generierte Boolesche Abfrage für Cluster 1 Token 1 (das Wort „Kauf”) und Token 2 (das Wort „Gerät”) ist, werden die Ergebnisse der Boolesche Abfrage (Kauf AND Gerät) nur Produktionsdokumente zurückgeben, die die Produktionstokens (Wörter) Kauf und Gerät enthalten. Falls gleichermaßen die Abfrage Token 1 und NOT Token 2 ist, werden Ergebnisse der Booleschen Abfrage Produktionsdokumente zurückgeben, die das Produktionstoken Kauf enthalten und nicht das Produktionstoken Gerät enthalten. Die Produktionsdokumente, die bei diesem Beispiel von den Booleschen Abfragen zurückgegeben werden, sind diejenigen, die für Cluster 1 am relevantesten sind. Der Grund dafür ist, dass die Abfragen aus dem oder den Trainingstoken in Cluster 1 generiert werden.
2 ist ein Flussdiagramm eines Verfahrens zum Generieren und Ausführen von Booleschen Abfragen. Veranschaulichend sind das Abfragemanagementsystem 101, der Datenmanager 102, der Clusteringmanager 103 und der Abfragenmanager 104 eine speicherprogrammgesteuerte Entität wie etwa ein Computer, der die Verfahren von 2–4 und 9–11 ausführt, indem er ein in einem Speichermedium wie etwa einem Speicher oder einer Platte gespeichertes Programm ausführt.
Der Prozess beginnt mit dem Holen 200 von Trainingsdaten. Die Trainingsdaten enthalten mehrere Trainingsdokumente. Jedes der mehreren Trainingsdokumente enthält mindestens ein Trainingstoken. Die mehreren Trainingsdokumente sind zu mehreren Clustern geclustert 201. Das Clustering basiert auf mindestens einem Trainingstoken in den mehreren Trainingsdokumenten. Jedes Cluster enthält mindestens ein Trainingsdokument. Die eine oder mehreren Booleschen Abfragen werden für ein Cluster in den mehreren Clustern auf der Basis eines Auftretens eines Trainingstoken in den mehreren Trainingsdokumenten generiert 202. Der Prozess holt 203 Produktionsdaten. Die Produktionsdaten enthalten mehrere Produktionsdokumente. Jedes der mehreren Produktionsdokumente enthält mindestens ein Produktionstoken. Die eine oder mehreren Booleschen Abfragen werden an den Produktionsdokumenten in den Produktionsdaten ausgeführt 204.
3 ist ein Flussdiagramm eines alternativen Verfahrens zum Generieren und Ausführen von Booleschen Abfragen. Der Prozess beginnt mit dem Holen 300 von Trainingsdaten. Die Trainingsdaten enthalten mehrere Trainingsdokumente. Jedes der mehreren Trainingsdokumente enthält mindestens ein Trainingstoken. Die mehreren Trainingsdokumente in den Trainingsdaten werden gereinigt 301. Ein Beispiel für das Reinigen 301 der mehreren Trainingsdokumente in den Trainingsdaten kann das Herausnehmen von Wörtern (Trainingstoken(s)) sein, die in normaler Sprache/normalem Text sehr häufig auftreten. Dies sind Wörter, die keine Nutzinformationen über den Inhalt des Textes führen. Wörter wie etwa ”ein”, ”der”, ”einer” und ”von” sind Typen von häufigen Wörtern, die aus den Trainingsdaten gereinigt werden können. Zu weiteren Beispielen für das Reinigen 301 der Trainingsdaten zählt das Löschen von Trainingstokens wie etwa „äh” aus einer Niederschrift von Sprachkonversationen für Anrufe in einem Call Center.
Der Prozess identifiziert 302 einen oder mehrere herausragende Tokens unter den Trainingstokens in den mehreren Trainingsdokumenten. Ein herausragendes Token ist ein Token, das für die mehreren zu analysierenden Trainingsdokumente relevant ist. Ein herausragendes Token ist ein Token, das in Dokumenten in den mehreren Trainingsdokumenten in Relation zu Dokumenten in anderen Dokumentensammlungen mehr oder weniger häufig auftritt. Das Identifizieren 302 von herausragenden Tokens kann bewerkstelligt werden, indem Häufigkeiten von individuellen Wörtern (Unigrammen), Sequenzen von Wörtern (z. B. Bigramme, Trigramme), Teile von Wörtern, gesprochene Wörter, Videoobjekte und dergleichen in den mehreren Trainingsdokumenten mit einem Generic-Domain-Corpus verglichen werden. Ein Generic-Domain-Corpus ist eine Basislinie dafür, wie häufig Wörter/Phrasen/Objekte in einer gesprochenen/geschriebenen Sprache und/oder einem Video verwendet werden. Beispielsweise definiert "Word Frequencies in Written and Spoken English" (Andrew Wilson, Geoffery Leech, Paul Rayson, ISBN 0582-32007-0, Prentice Hall, 2001), das durch Bezugnahme hier aufgenommen ist, einen beispielhaften Generic-Domgin-Corpus. Herausragende Wörter (d. h. Wörter, die für unseren Corpus charakteristisch sind), können auf der Basis von bekannten Algorithmen wie etwa einem Häufigkeitsquotienten RFR (Relative Frequency Ratio) identifiziert werden. Als Beispiel offenbart ”Fred J. Damerau. Generating and evaluating domain-oriented multi-word terms from texts. Information Processing and Management 29(4): 433–447, 1993.” den Einsatz von RFR.
Die mehreren Trainingsdokumente werden auf der Basis von mindestens einem Trainingstoken in den mehreren Trainingstokens und/oder mindestens einem herausragenden Token geclustert 303. Eine oder mehrere Boolesche Abfragen werden für ein Cluster auf der Basis des Auftretens des oder der herausragenden Tokens in einem Trainingsdokument in den mehreren Trainingsdokumenten generiert 304. Der Prozess holt 305 Produktionsdaten. Die Produktionsdaten enthalten mehrere Produktionsdokumente. Jedes der mehreren Produktionsdokumente enthält mindestens ein Produktionstoken. Die eine oder mehreren Booleschen Abfragen werden an den mehreren Produktionsdokumenten in den Produktionsdaten ausgeführt 306.
4 ist ein Flussdiagramm eines Verfahrens zum Gewichten und Ranken von einem oder mehreren Trainingstokens/herausragenden Tokens in einem Cluster. 4 ist ein Flussdiagramm von Schritten, die zwischen Schritt 201 und Schritt 202 in 2 oder zwischen Schritt 303 und Schritt 304 in 3 erfolgen. Nach dem Clustern 201 oder 303 der mehreren Trainingsdokumente in mehrere Cluster auf der Basis des/der Trainingstoken(s)/herausragenden Tokens berechnet 400 der Prozess eine Token-/Cluster-Gewichtsmatrix für die Trainingstokens/herausragenden Tokens (siehe 7 für eine beispielhafte Token-/Cluster-Gewichtsmatrix). Das/die Trainingstokens/herausragenden Tokens werden für jedes Cluster gerankt 401 (siehe 8 wegen eines Beispiels für gerankte Tokens für jedes Cluster). Eine Liste der obersten N Tokens/herausragenden Tokens wird ausgewählt 402. N ist eine positive ganze Zahl. N wird üblicherweise auf der Basis der Größe und Anzahl von Trainingsdokumenten bestimmt. Der Prozess geht dann zu Schritt 202 oder Schritt 304.
5 ist ein Diagramm, das eine Menge von Clustern 500–502 und die Verteilung von Trainings- bzw. herausragenden Tokens unter ihnen darstellt. 5 ist ein veranschaulichendes Beispiel von Clustern 500–502, die in den Schritten 201 und 303 generiert werden. 5 enthält drei Cluster: Cluster eins 500, Cluster zwei 501 und Cluster drei 502. Trainingsdokumente werden unter Verwendung bekannter Clusteringalgorithmen in Clustern platziert. Bei diesem Beispiel besitzt Cluster eins 500 Trainingsdokumente, die mindestens eines der Trainingstokens/herausragenden Tokens T1 bis T4 enthalten. Cluster zwei 501 hat Trainingsdokumente, die Trainingstokens/herausragende Tokens T3 oder T4 enthalten. Cluster drei 502 hat Trainingsdokumente, die Trainingstokens/herausragende Tokens T4 oder T5 enthalten. Trainingstokens/herausragende Tokens T1–T5 können Trainingstokens sein oder es können herausragende Tokens sein, je nach dem eingesetzten Verfahren.
6 ist eine Tabelle 600, die den Prozentsatz von Trainingsdokumenten darstellt, die ein Trainingstoken/herausragendes Token in jedem Cluster 500–502 enthalten. 6 ist eine Tabellendarstellung der in 5 gezeigten Cluster 500–502. Jede Spalte stellt ein Cluster 500–502 dar. Jede Reihe stellt ein Trainingstoken/herausragendes Token dar. Die Prozentsatzzahl stellt den Prozentsatz von Trainingsdokumenten in dem Cluster 500–502 dar, die das Trainingstoken/das herausragende Token enthalten.
Bei diesem Beispiel befindet sich Token 1 (T1) in 50% der Trainingsdokumente in Cluster eins 500. T1 befindet sich in keinem der Trainingsdokumente in Cluster zwei 501 oder Cluster drei 502. Token 2 (T2) befindet sich in 30% der Trainingsdokumente in Cluster eins 500. T2 befindet sich in keinem der Trainingsdokumente in Cluster zwei 501 oder Cluster drei 502. Token 3 (T3) befindet sich in 20% der Trainingsdokumente in Cluster eins 500. T3 befindet sich in 50% der Trainingsdokumente in Cluster zwei 501. T3 befindet sich in keinem der Trainingsdokumente in Cluster drei 502. Token 4 (T4) befindet sich in 10% der Trainingsdokumente in Cluster eins 500. T4 befindet sich in 15% der Trainingsdokumente in Cluster zwei 501. T4 befindet sich in 30% der Trainingsdokumente in Cluster drei 502. Token 5 (T5) befindet sich in keinem der Trainingsdokumente in Cluster eins 500 oder Cluster zwei 501. T5 befindet sich in 10% der Trainingsdokumente in Cluster drei 502.
7 ist eine Tabelle, die die berechnete 400 Token/Cluster-Gewichtsmatrix für jedes Cluster 500–502 darstellt. Die folgende Gleichung (Gleichung 1) wird zum Berechnen 400 der Token/Cluster-Gewichtsmatrix für jedes Cluster unter Verwendung der Daten von Tabelle 600 verwendet.
Gleichung 1
Das Gewicht (t, C_j) ist das Gewicht des Token t für das Cluster j. DF (t, C_j) ist die Zahl von Dokumenten in Cluster j, die Token t enthalten. N_Cj, ist die Gesamtzahl von Dokumenten in Cluster j. M (m) ist die Anzahl von Clustern. Gleichung 1 gewichtet ein Token in einem Cluster durch Berücksichtigung der deskriptiven und der diskriminativen Leistung des Token für dieses Cluster. Intuitiv wird ein Token höher gewichtet, wenn es in vielen Dokumenten in dem Cluster erscheint, aber nur in einigen wenigen Dokumenten in den anderen Clustern.
Unter Einsatz von Gleichung 1 würde das Gewicht von T1 für Cluster eins 500 berechnet 400 werden als: 0,5/(1 + 0 + 0) oder 0,5. Das Gewicht von T1 für Cluster eins 500 berechnet 400 werden als: 0,3/(1 + 0 + 0) oder 0,3. Das Gewicht von T3 für Cluster eins 500 würde berechnet 400 werden als: 0,2/(1 + 0,5 + 0), oder 0,133. Das Gewicht von T4 für Cluster eins 500 würde berechnet 400 werden als: 0,1/(1 + 0,15 + 0,3), oder 0,069. Das Gewicht für T5 ist 0. Gleichermaßen werden die Werte für Cluster zwei 501 und Cluster drei 502 unter Einsatz von Gleichung 1 berechnet 400 und sind in Tabelle 700 gezeigt.
8 ist eine Tabelle 800, die das Ranking 401 von Tokens/herausragenden Tokens für jedes Cluster 500–502 darstellt. Folgende Gleichung (Gleichung 2) wird für das Ranken 401 des oder der Trainingstokens/herausragenden Tokens für jedes Cluster 500–502 verwendet. Max t[Min i=1,i≠j(Gewicht(t, Cj) – Gewicht (t, Ci))] Gleichung 2

T (t) ist das beste Token für Cluster j-> max. Gewichtsdifferenz mit dem Cluster mit dem höchsten Gewicht. Für jedes Cluster werden nur die N obersten Tokens mit einem positiven Endgewicht (unter Einsatz von Gleichung 2) gewählt. Unter Einsatz von Gleichung 2 wird das Ranking 401 des/der Tokens/herausragenden Tokens wie folgt hergeleitet:

T1	C1 = min {(0,5 – 0), (0,5 – 0)} = 0,5
	C2 = min {(0 – 0,5), (0 – 0)} = –0,5
	C3 = min {(0 – 0), (0 – 0,5)} = –0,5

T2	C1 = min {(0,3 – 0), (0,3 – 0)} = 0,3
	C2 = min {(0 – 0,3), (0 – 0)} = –0,3
	C3 = min {(0 – 0), (0 – 0,3)} = –0,3

T3	C1 = min {(0,133 – 0,417), (0,133 – 0)} = –0,284
	C2 = min {(0,417 – 0,133), (0,417 – 0)} = 0,284
	C3 = min {(0 – 0,133), (0 – 0,417)}) = –0,417

Gleichermaßen wird das Ranking 401 von T4–T5 unter Einsatz von Gleichung 2 bewerkstelligt. Die Ergebnisse des Ranking 401 von T1–T5 in den Clustern 500–502 sind in Tabelle 800 gezeigt. Das Ranking 401 ist von der höchsten Zahl zu der niedrigsten Zahl organisiert. Eine Liste der N obersten Trainingstokens/herausragenden Tokens wird für jedes Cluster 500–502 ausgewählt 402. N ist eine positive ganze Zahl.
9 ist ein Flussdiagramm eines Verfahrens zum Generieren (202 oder 304) von Booleschen Abfragen unter Verwendung eines DNF-Algorithmus (Disjunktive Normalform). 9 ist ein Flussdiagramm entweder von Schritt 202 in 2 oder Schritt 304 in Schritt 3. Der in 9 beschriebene Prozess kann für jedes Cluster 500–502 verwendet werden. Der Prozess beginnt durch die Initialisierung 900. Die Initialisierung 900 kann unter anderem das Einstellen der Abfrage auf eine leere Abfrage und das Holen der N obersten Trainingstokens/herausragenden Tokens (siehe Tabelle 800) für das Cluster 500–502 beinhalten, für das die Boolesche Abfrage generiert wird (202 oder 304). Die N obersten Trainingstokens/herausragenden Tokens für jedes Cluster und ihr Negativum (das NOT des Trainingstoken/herausragenden Token) werden in eine Liste eingegeben. Die Klausel wird auf eine leere Klausel gesetzt 901. Die Klausel ist ein Halter für das Errichten eine Gruppe von Tokens, die miteinander AND-verknüpft werden. Das nächstbeste Trainingstoken/herausragende Token für die Klausel wird aus der Liste der N obersten Trainingstokens/herausragenden Tokens für das Cluster ausgewählt 902.
Das nächstbeste Trainingstoken/herausragende Token wird ausgewählt 902. Für jedes Token in der Liste der N obersten Trainingstokens/herausragenden Tokens ist das nächstbeste Trainingstoken/herausragende Token dasjenige, das die Differenz der wahren Abdeckung und der falschen Abdeckung bei OR-Verknüpfung mit der aktuellen Abfrage maximiert. Die wahre Abdeckung ist die Anzahl von wiedergewonnenen korrekten Dokumenten. Die falsche Abdeckung ist die Anzahl von wiedergewonnenen inkorrekten Dokumenten. Das nächstbeste Trainingstoken/herausragende Token wird ausgewählt durch Subtrahieren der falschen Abdeckung (Abfrage mit dem Token OR-verknüpft) von der wahren Abdeckung (Abfrage mit dem Token OR-verknüpft).
Falls in Schritt 903 die Wiederaufrufsverbesserung der OR-Verknüpfung des Trainingstoken/herausragenden Token nicht größer ist als die Minimalverbesserung, geht der Prozess zu Schritt 911. Ein Wiederaufruf ist der Anteil von korrekten Dokumenten, die wiedergewonnen werden. Eine Wiederaufrufsverbesserung ist der Wiederaufruf der Abfrage, OR-verknüpft mit dem Trainingstoken/herausragenden Token, minus dem Wiederaufruf der Abfrage. Die Minimalverbesserung ist ein Schwellwert der Verbesserung. Falls in Schritt 903 die Wiederaufrufsverbesserung der OR-Verknüpfung des Trainingstoken/herausragenden Token größer ist als die Minimalverbesserung, wird die Klausel auf das Trainingstoken/herausragende Token gesetzt 904 und die Variable clause tokens wird auf eins gesetzt. Die Variable clause tokens ist die Anzahl von Trainingstokens/herausragenden Tokens, die sich gegenwärtig in der Klausel befinden.
Der Prozess wählt 905 das nächstbeste Trainingstoken/herausragende Token, wie in Schritt 902 beschrieben. Das nächstbeste Trainingstoken/herausragende Token ist dasjenige, das die Differenz der wahren Abdeckung und der falschen Abdeckung bei AND-Verknüpfung mit der aktuellen Klausel maximiert. Dies ist die wahre Abdeckung (Abfrage OR (Klausel AND Token)) minus falsche Abdeckung (Abfrage OR (Klausel UND Token)). Der Prozess bestimmt 906, ob eine Präzisionsverbesserung des AND-Verknüpfens des Trainingstoken/herausragenden Token größer ist als eine Wiederaufrufsabnahme. Die Wiederaufrufsabnahme und die Präzisionsverbesserung können auf unterschiedliche Weise berechnet werden. Beispielsweise kann die Wiederaufrufsabnahme die Anzahl an wahren Dokumenten sein, die verpasst werden durch Aufnehmen des Trainingstoken/herausragenden Token in die Boolesche Gleichung. Die Präzisionsverbesserung kann die Anzahl an falschen Dokumenten sein, die eliminiert werden durch die Boolesche Abfrage durch Aufnehmen des Trainingstoken/herausragenden Token (oder NOT-Token) in die Boolesche Abfrage. Ein wahres Dokument ist ein Dokument, das sich in dem Cluster befindet (das Dokument könnte sich in anderen Clustern befinden). Ein falsches Dokument ist ein Dokument, das sich nicht in dem Cluster befindet. Bei der Wiederaufrufsverbesserung handelt es sich um das oder die wahren Dokumente, die relativ zu den wahren Dokumenten hinzugefügt werden, die durch die Trainingstokens/herausragenden Tokens hinzugefügt werden, die sich bereits in der Booleschen Abfrage befinden.
Als ein zweiter beispielhafter Prozess kann die Wiederaufrufsabnahme unter Verwendung des folgenden Prozesses berechnet werden. Die Wiederaufrufsabnahme ist der Wiederaufruf (Abfrage OR Klausel) minus Wiederaufruf (Abfrage OR (Klausel AND Token)). Die Präzisionsverbesserung ist die Präzision (Abfrage OR (Klausel AND Token)) minus Präzision (Abfrage OR Klausel). Falls in Schritt 906 die Präzisionsverbesserung der AND-Verknüpfung des Trainingstoken/herausragenden Token nicht größer ist als die Wiederaufrufsabnahme, geht der Prozess zu Schritt 910.
Falls in Schritt 906 die Präzisionsverbesserung der AND-Verknüpfung des Trainingstoken/herausragenden Token größer ist als die Wiederaufrufsabnahme, setzt 907 der Prozess die Klausel gleich der mit dem Trainingstoken/herausragende Token AND-verknüpften Klausel. Der Prozess inkrementiert 908 die Variable clause tokens.
Der Prozess bestimmt 909, ob die Variable clause tokens kleiner ist als die Variable max clause tokens. Die Variable max clause tokens ist eine vordefinierte Zahl, die bezüglich der Anzahl von Trainingstokens/herausragenden Tokens, die sich in einer Klausel befinden, eine Grenze setzt. Falls in Schritt 909 die Variable clause tokens kleiner ist als max clause tokens, geht der Prozess zu Schritt 905, um das nächstbeste Trainingstoken/herausragende Token auszuwählen. Falls ansonsten in Schritt 909 die Variable clause tokens nicht kleiner ist als die Variable max clause tokens, wird die Abfrage gleich der mit der Klausel OR-verknüpften Abfrage gesetzt. Die Variable num clauses wird inkrementiert 911. Der Prozess bestimmt 912, ob die Variable num clauses kleiner ist als die Variable max clauses. Max clauses ist eine Grenze bezüglich der Anzahl von Klauseln, die in der Booleschen Abfrage gestattet sind. Falls die Variable num clauses kleiner ist als max clauses, geht der Prozess zu Schritt 901, sodass eine neue Klausel generiert werden kann. Falls ansonsten in Schritt 912 die Variable num clauses nicht kleiner ist als die Variable max clauses, geht der Prozess zu Schritt 203 oder 305.

Als ein Beispiel für das Verwenden des Verfahrens von 9 wird angenommen, dass die fünf gerankten Trainingstokens/herausragenden Tokens für Cluster eins 500 aus Tabelle 800 die Anzahl (N) von gerankten Trainingstokens/herausragenden Tokens sind. Es werden die folgenden Werte angenommen: Minimalverbesserung = 10%, max clause tokens = 2 und max clauses = 2. Wie oben erörtert kann die Liste der N Trainingstokens/herausragenden Tokens (und Token NOT) bestimmt werden durch Subtrahieren der falschen Abdeckung (negative Trainingsdokumente) von der Präzisionsverbesserung (positive Trainingsdokumente). Unter Verwendung von 6 würden sich für Cluster eins 500 die folgenden Berechnungen ergeben.

Token Berechnung		Rang
T1	50% – 0% = 50%	2
NOT T1	50% – 100% = –50%	10
T2	30% – 0% = 30%	3
NOT T2	70% – 100% = –30%	7–9
T3	20% – 50% = –30%	7–9
NOT T3	80% – 100% = –20%	6
T4	10% – 30%–45% = –20% bis –35%	7–9
NOT T4	90% – 85%–100% = 5% bis –10%	4
T5	0% – 10% = –10%	5
NOT T5	100% – 10% = 90%	1

Die obigen Berechnungen basieren auf Prozentsätzen von Dokumenten. Es können jedoch andere Verfahren verwendet werden. Beispielsweise können Berechnungen auf der Basis der Anzahl von Dokumenten verwendet werden. T1 wird auf der Basis der wahren Abdeckung (50% positiver Dokumente hinzugefügt) minus der falschen Abdeckung (0% negativer Dokumente hinzugefügt) berechnet oder ist 0.5. NOT T1 wird auf der Basis einer wahren Abdeckung von 50% (NOT T1 fügt 50% der Trainingsdokumente hinzu) minus der falschen Abdeckung von 100% (NOT T1 fügt 100% der Trainingsdokumente sowohl in C2 als auch C3 hinzu) berechnet oder ist –0,5. Die gleichen Berechnungen werden für T2 verwendet. T3 wird auf der Basis der wahren Abdeckung von 20% minus der falschen Abdeckung von 50% berechnet. NOT T3 wird auf der Basis der wahren Abdeckung von 80% minus der falschen Abdeckung von 100% berechnet (d. h. 100% der Trainingsdokumente in Cluster drei 502). Gleichermaßen werden die Werte für T4–T5 unter Verwendung des gleichen Verfahrens berechnet. Man beachte, dass die für T4 und NOT T4 berechneten Werte einen Bereich von Werten aufweisen, weil es eine Überlappung von C2 zu C3 geben kann (d. h., das gleiche Trainingsdokument kann sich in beiden Clustern befinden).
Nach dem Initialisieren 900 und Einstellen 901 der Klausel auf eine leere Klausel wählt 902 der Prozess das höchstrangige Trainingstoken/herausragende Token NOT T5. Der Prozess bestimmt 903, dass die Wiederaufrufsverbesserung für NOT T5 (100%) größer ist als die Minimalverbesserung (10%). Die Klausel wird auf NOT T5 gesetzt 904 und clause tokens wird auf eins gesetzt. Das nächstbeste Trainingstoken/herausragende Token (T1) wird ausgewählt 905. Der Prozess bestimmt 906, dass die Präzisionsverbesserung für T1 (100%) größer ist als die Wiederaufrufsabnahme für T1 (50%). Die Klausel (NOT T5) wird auf den gegenwärtigen Klauselwert (NOT T5) gesetzt, mit dem gegenwärtigen Token T1 AND-verknüpft, wodurch ein Klauselwert von (NOT T5 AND T1) erzeugt wird. Die clause tokens wird auf zwei inkrementiert 908. Der Prozess bestimmt 909, dass clause tokens (2) nicht kleiner ist als max clause tokens (2). Die Abfrage (NOT T5 AND T1) wird gleich der Abfrage, mit der Klausel ((NOT T5 AND T1) OR) OR-verknüpft, gesetzt 910. Num clause wird auf eins inkrementiert 911. Der Prozess bestimmt 912, dass num clauses (1) kleiner ist als max clauses (2).
Der Prozess setzt 901 die Klausel auf eine leere Klausel. Der Prozess wählt 902 das nächstbeste Trainingstoken/herausragende Token T2. Der Prozess bestimmt 903, dass die Wiederaufrufsverbesserung für T2 (30%) größer ist als die Minimalverbesserung (10%) für T2. Die Klausel wird auf T2 gesetzt 904 und clause tokens wird auf eins gesetzt. Das nächstbeste Trainingstoken/herausragende Token (NOT T4) wird ausgewählt 905. Der Prozess bestimmt, dass die Präzisionsverbesserung für NOT T4 50% (unter der Annahme, dass 50% der wiederhergestellten Dokumente wahr sind)) größer ist als die Wiederaufrufsabnahme für NOT T4 (10%). Die Klausel wird auf clause (T2) gesetzt 907, AND-verknüpft mit dem Trainingstoken/herausragenden Token NOT T4 (T2 AND NOT T4). Die clause tokens wird auf zwei inkrementiert 908. Der Prozess bestimmt 909, dass clause tokens (2) nicht kleiner ist als max clause tokens (2). Die Abfrage wird gleich der Abfrage (NOT T5 AND T1) gesetzt 910, mit der Klausel (T2 AND NOT T4), oder ((NOT T5 AND T1) OR (T2 AND NOT T4)) OR-verknüpft. Num clauses wird auf zwei inkrementiert 911. Der Prozess bestimmt 912, dass num clauses (2) nicht kleiner ist als max clauses (2). Der Prozess geht zu Schritt 203 oder 305. Die generierte Boolesche Abfrage ist ((NOT T5 AND T1) OR (T2 AND NOT T4)).
Das obige Beispiel offenbart eine Möglichkeit, zu bestimmen 906, ob die Präzisionsverbesserung größer ist als die Wiederaufrufsabnahme. Bei dem obigen Beispiel basiert die Präzisionsverbesserung auf dem ausgewählten nächstbesten Token von Schritt 905. Die Präzisionsverbesserung in Schritt 905 kann jedoch in Echtzeit auf der Basis der aktuellen Abfrage berechnet werden.
10 ein Flussdiagramm eines Verfahrens zum Generieren (202 oder 304) von Booleschen Abfragen unter Verwendung eines OR-BUT-NOT-Algorithmus. 10 ist ein Flussdiagramm entweder von Schritt 202 in 2 oder Schritt 304 in 3. Der Prozess beginnt durch die Initialisierung 1000. Die Initialisierung 1000 kann unter anderem das Einstellen der Abfrage auf eine leere Abfrage, das Einstellen der Variablen num OR tokens auf null, das Einstellen der Variablen num AND NOT token auf null und das Holen der N obersten Trainingstokens/herausragenden Tokens (siehe 8) für das Cluster 500–502 beinhalten, für das die Boolesche Abfrage generiert wird (202 oder 304). Das nächstbeste positive Trainingstoken/herausragende Token wird gewählt 1001.
Der Prozess bestimmt 1002, ob die Wiederaufrufsverbesserung größer ist als die Minimalverbesserung für das ausgewählte positive Trainingstoken/herausragende Token. Falls in Schritt 1002 die Wiederaufrufsverbesserung nicht größer ist als die Minimalverbesserung, geht der Prozess zu Schritt 1004. Ansonsten wird die Abfrage auf die Abfrage, OR-verknüpft mit dem ausgewählten Trainingstoken/herausragenden Token, gesetzt 1003. Die Variable num OR tokens wird inkrementiert 1004. Num OR tokens ist die Anzahl der Trainingstokens/herausragenden Tokens, die aus der Liste der N Trainingstokens/herausragenden Tokens verarbeitet worden sind. Der Prozess bestimmt 1005, ob die Variable num OR tokens kleiner ist als max OR tokens. Max OR tokens ist die größte Anzahl von Trainingstokens/herausragenden Tokens, die in der generierten Boolesche Abfrage OR-verknüpft werden. Falls in Schritt 1005 num OR tokens kleiner ist max OR tokens, geht der Prozess zu Schritt 1001, um das nächstbeste positive Trainingstoken/herausragende Token auszuwählen.
Ansonsten wird das nächstbeste negative Trainingstoken/herausragende Token ausgewählt 1006. Der Prozess bestimmt 1007, ob eine Präzisionsverbesserung größer ist als eine Wiederaufrufsabnahme für das ausgewählte negative Trainingstoken/ herausragende Token. Falls in Schritt 1007 die Präzisionsverbesserung nicht größer ist als die Wiederaufrufsabnahme, geht der Prozess zu Schritt 1009. Ansonsten wird, falls in Schritt 1007 die Präzisionsverbesserung größer ist als die Wiederaufrufsabnahme, die Abfrage gleich der Abfrage, mit dem ausgewählten nächstbesten negativen Trainingstoken/herausragenden Token AND-verknüpft, gesetzt 1008. Die Variable num AND NOT tokens wird inkrementiert 1009. Num AND NOT token ist die Anzahl der negativen Trainingstokens/herausragenden Tokens, die verarbeitet worden sind. Der Prozess bestimmt 1010, ob num AND NOT token kleiner ist als max AND NOT token. Max AND NOT tokens ist die größte Anzahl von NOT Trainingstokens/herausragenden Tokens, die verarbeitet werden. Falls num AND NOT tokens kleiner ist als max AND NOT tokens, geht der Prozess zu Schritt 1006 und wählt das nächstbeste negative Trainingstoken/herausragende Token. Ansonsten geht der Prozess zu Schritt 203 oder 305.
Als ein Beispiel für das Verwenden des Verfahrens von 10 wird angenommen, dass die fünf gerankten Trainingstokens/herausragenden Tokens für Cluster eins 500 aus Tabelle 800 die Anzahl (N) von gerankten Trainingstokens sind. Es werden die folgenden Werte angenommen: Minimalverbesserung = 10%, max OR tokens = 2 und max AND NOT tokens = 2. Wie oben erörtert wird die Liste der N Trainingstokens/herausragenden Tokens (und Token NOT) bestimmt durch Subtrahieren der falschen Abdeckung (negative Trainingsdokumente) von der wahren Abdeckung (positive Trainingsdokumente). Unter Verwendung von 6 würden sich für Cluster eins 500 die folgenden Berechnungen ergeben für die positiven und negativen Trainingstokens/herausragenden Tokens. Positives Trainingstoken/herausragendes Token Rang

T1 50% – 0% = 50% 1

T2 30% – 0% = 30% 2

T3 20% – 50% = –30% 4–5

T4 10% – 30%–45% = –20% bis –35% 4–5

T5 0% – 10%= –10% 3

Negatives Trainingstoken/herausragendes Token Rang

NOT T1 50% – 100% = –50% 5

NOT T2 70% – 100% = –30% 4

NOT T3 80% – 100% = –20% 3

NOT T4 90% – 85%–100% = 5% bis –10% 2

NOT T5 100% – 10% = 90% 1
Nach dem Initialisieren 1000 wird das nächstbeste positive Trainingstoken/herausragende Token T1 ausgewählt 1001. Der Prozess bestimmt 1002, dass die Wiederaufrufsverbesserung für T1 (50%) größer ist als die Minimalverbesserung (10%). Die Abfrage wird gleich der Abfrage, mit dem ausgewählten positiven Token (T1) OR-verknüpft, gesetzt 1003. Num OR tokens wird auf eins inkrementiert. Der Prozess bestimmt 1005, dass num OR tokens (1) kleiner ist als max OR tokens (2). Das nächstbeste positive Token T2 wird ausgewählt 1001. Die Wiederaufrufsverbesserung für T2 ist die Anzahl von neuen Trainingsdokumenten, die auf der Basis der Aufnahme von T2 in die Boolesche Abfrage hinzugefügt werden. Die Wiederaufrufsverbesserung für T2 könnte zwischen 0% und 30% liegen, je nach dem, wie viele neue Dokumente durch Aufnehmen von T2 hinzugefügt werden. Fall beispielsweise T2 nicht in irgendeinem der Trainingsdokumente ist, die T1 enthalten, würde die Wiederaufrufsverbesserung für T2 30% betragen. Falls die Hälfte der Dokumente, die T2 enthalten, auch T1 enthalten, würde die Wiederaufrufsverbesserung für T2 15% betragen, weil das Hinzufügen von T2 zu der Booleschen Abfrage 15% neue Trainingsdokumente hinzufügen würde. Für dieses Beispiel sei angenommen, dass die Wiederaufrufsverbesserung 15% beträgt. Der Prozess bestimmt 1002, dass die Wiederaufrufsverbesserung für T2 (15%) größer ist als die kleinste Wiederaufrufsverbesserung (10%). Die Abfrage wird gleich der Abfrage, mit dem ausgewählten nächstbesten positiven Token (T1 OR T2) OR-verknüpft, gesetzt 1003. Num OR tokens wird auf zwei inkrementiert 1004. Der Prozess bestimmt 1005, dass num OR tokens (2) nicht kleiner ist als max OR tokens (2).
Das nächstbeste positive Token (NOT T5) wird ausgewählt 1006. Der Prozess bestimmt 1007, dass die Präzisionsverbesserung von NOT T5 50% (unter der Annahme, dass 50% der wiederhergestellten Dokumente wahr sind) größer ist als die Wiederaufrufsabnahme (0%). Die Abfrage wird gleich der Abfrage AND NOT T5 oder ((T1 OR T2) AND NOT T5) gesetzt 1008. Die Variable num AND NOT tokens wird auf eins inkrementiert 1009. Der Prozess bestimmt 1010, dass num AND NOT token (1) kleiner ist als max AND NOT tokens (2). Das nächstbeste negative Trainingstoken/herausragende Token (NOT T4) wird ausgewählt 1006. Der Prozess bestimmt 1007, dass die Präzisionsverbesserung für NOT T4 50% (unter der Annahme, dass 50% der wiederhergestellten Dokumente wahr sind) größer ist als die Wiederaufrufsabnahme (10%). Die Abfrage wird gleich der Abfrage AND NOT T4 oder ((T1 OR T2) AND NOT T5 AND NOT T4 gesetzt 1008. Die Variable num AND NOT token wird auf zwei inkrementiert 1009. Der Prozess bestimmt 1010, dass num AND NOT token (2) nicht kleiner ist als max AND NOT tokens (2). Der Prozess geht zu Schritt 2003 oder 305. Die generierte Abfrage ist (T1 OR T2) AND NOT T5 AND NOT T4.
Das obige Beispiel offenbart eine Möglichkeit, zu bestimmen 1007, ob die Präzisionsverbesserung größer ist als die Wiederaufrufsabnahme. Bei dem obigen Beispiel basiert die Präzisionsverbesserung auf dem ausgewählten nächstbesten negativen Token von Schritt 1006. Die Präzisionsverbesserung in Schritt 1007 kann jedoch in Echtzeit auf der Basis der aktuellen Abfrage berechnet werden.
11 ist ein Flussdiagramm eines Verfahrens zum Analysieren der Abfrageergebnisse auf der Basis von neuen Trainingsdaten, neuen Produktionsdaten, einer Anfrage zum Modifizieren einer Abfrage und/oder einer Anfrage zum Ändern der Anzahl von Clustern. Der Prozess beginnt nach der Ausführung 204 oder 306 der einen oder mehreren Booleschen Abfragen über die mehreren Produktionsdokumente in den Produktionsdaten. Die Ergebnisse der einen oder der mehreren Booleschen Abfragen werden analysiert 1100, um zu bestimmen, ob die eine oder die mehreren Booleschen Abfragen effektiv sind. Das Analysieren 1100 könnte ein manueller oder ein automatisierter Prozess sein.
Wenn beispielsweise ein Manager bestimmen würde, dass sich die Arten von Anrufen in einem Call Center geändert haben, könnte eine neue Menge von Trainingsdaten und Produktionsdaten erforderlich sein, um die eine oder die mehreren entsprechenden Booleschen Abfragen für den aktuellen Zustand des Call Centers zu generieren. Potenziell könnten einige der einen oder der mehreren Booleschen Abfragen, die generiert wurden, nicht dahingehend effektiv sein, Produktionsdokumente auszuwählen, die für das Cluster relevant sind. Der Manager möchte vielleicht eine oder mehrere der generierten Booleschen Abfragen löschen, um Produktionsdokumente zu erhalten, die wichtigen Themen in den Produktionsdaten besser entsprechen. Die Anzahl von Clustern, die in den Schritten 201 und 303 generiert werden, kann geändert werden, und zwar auf der Basis des Identifizierens der Trainingsdokumente in einem oder mehreren Clustern, die zuvor generiert wurden, und des erneuten Abarbeitens des Prozesses von 2 oder 3 unter Verwendung der Trainingsdokumente in dem Cluster als den Trainingsdaten.
Nach dem Analysieren 1100 der Ergebnisse der Booleschen Abfragen bestimmt 1101 der Prozess, ob neue Trainingsdaten vorliegen. Falls in Schritt 1101 neue Trainingsdaten vorliegen, geht der Prozess zu Schritt 200 oder 300. Ansonsten bestimmt 1102 der Prozess, ob eine oder mehrere der Booleschen Abfragen modifiziert werden müssen. Falls die Booleschen Abfragen modifiziert werden müssen, geht der Prozess zu Schritt 204 oder 306. Ansonsten bestimmt 1103 der Prozess, ob die Anzahl von Clustern verändert werden muss. Falls die Anzahl von Clustern verändert werden muss, geht der Prozess zu Schritt 201 oder 303. Ansonsten bestimmt 1104 der Prozess, ob neue Produktionsdaten vorliegen oder neue Produktionsdaten und eine oder mehrere der Booleschen Abfragen modifiziert werden müssen. Falls neue Produktionsdaten vorliegen oder neue Produktionsdaten und eine oder mehrere der Booleschen Abfragen modifiziert werden müssen, geht der Prozess zu Schritt 203 oder 305. Ansonsten ist der Prozess beendet 1105.
Natürlich ergeben sich für den Fachmann verschiedene Änderungen und Modifikationen an der oben beschriebenen veranschaulichenden Ausführungsform. Beispielsweise durch Clustern von Daten (manuell oder automatisch), um nur neue Trainingsdaten hinzuzufügen, die von einer gewissen Klasse sind, oder Hinzufügen von Schlüsselwörtern zu den Abfragen, selbst wenn die Terme nicht in den Trainingsdaten erscheinen. Diese Änderungen und Modifikationen können vorgenommen werden, ohne von dem Gedanken und Schutzbereich des Systems und Verfahrens abzuweichen und ohne die damit einhergehenden Vorteile zu schmälern. Es ist deshalb beabsichtigt, dass solche Änderungen und Modifikationen durch die folgenden Ansprüche abgedeckt werden, außer in dem Ausmaß, wie durch den Stand der Technik begrenzt. Außerdem sollte in den Ansprüchen bei Bezugnahme auf ein Element im Singular (z. B. ein Produktionstoken) das Element auch so angesehen werden, dass es das eine oder mehrere von dem Element beinhaltet (z. B. ein oder mehrere Produktionstokens).
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- US 5862519 [0003]

Zitierte Nicht-Patentliteratur

- ”Word Frequencies in Written and Spoken English” (Andrew Wilson, Geoffery Leech, Paul Rayson, ISBN 0582-32007-0, Prentice Hall, 2001 [0030]
- Fred J. Damerau. Generating and evaluating domain-oriented multi-word terms from texts. Information Processing and Management 29(4): 433–447, 1993 [0030]

Claims

System zum Generieren einer Booleschen Abfrage, umfassend: a. einen Datenmanager, der konfiguriert ist, Trainingsdaten und Produktionsdaten zu holen, wobei die Trainingsdaten mehrere Trainingsdokumente umfassen und jedes der mehreren Trainingsdokumente mindestens ein Trainingstoken umfasst, und wobei die Produktionsdaten mehrere Produktionsdokumente umfassen und jedes der mehreren Produktionsdokumente mindestens ein Produktionstoken umfasst; b. einen Clusteringmanager, der konfiguriert ist, die mehreren Trainingsdokumente auf der Basis mindestens eines Trainingstoken in den mehreren Trainingsdokumenten zu mehreren Clustern zu clustern, wobei jedes Cluster mindestens ein Trainingsdokument umfasst; und c. einen Abfragemanager, der konfiguriert ist, die Boolesche Abfrage auf der Basis eines Auftretens des mindestens einen Trainingstoken in dem mindestens einen Trainingsdokument der mehreren Trainingsdokumente für ein Cluster der mehreren Cluster zu generieren und die Boolesche Abfrage an den mehreren Produktionsdokumenten in den Produktionsdaten auszuführen.
System nach Anspruch 1, wobei das mindestens eine Trainingstoken mehrere Trainingstokens umfasst und wobei der Datenmanager konfiguriert ist, eine Trainingstoken-/Cluster-Gewichtsmatrix für die mehreren Trainingstokens für das Cluster zu berechnen, die mehreren Trainingstokens für das Cluster gemäß der Matrix zu ranken und eine Liste der N obersten Trainingstokens aus den gerankten mehreren Trainingstokens für das Cluster auszuwählen, wobei N eine positive ganze Zahl ist.
System nach Anspruch 2, wobei der Abfragemanager konfiguriert ist, die Boolesche Abfrage durch mindestens einen Algorithmus zu generieren, der ausgewählt ist aus der Gruppe bestehend aus: dem in 9 definierten Algorithmus, dem in 10 definierten Algorithmus und dem in 11 definierten Algorithmus.
System zum Generieren einer Booleschen Abfrage, umfassend: a. einen Datenmanager, der konfiguriert ist, Trainingsdaten und Produktionsdaten zu holen, wobei die Trainingsdaten mehrere Trainingsdokumente umfassen und jedes der mehreren Trainingsdokumente mindestens ein Trainingstoken umfasst, wobei die Produktionsdaten mehrere Produktionsdokumente umfassen und jedes der mehreren Produktionsdokumente mindestens ein Produktionstoken umfasst und wobei der Datenmanager konfiguriert ist, die Trainingsdaten zu reinigen und mindestens ein herausragendes Token unter dem mindestens einen Trainingstoken in jedem der mehreren Trainingsdokumenten zu identifizieren; b. einen Clusteringmanager, der konfiguriert ist, die mehreren Trainingsdokumente auf der Basis mindestens eines Trainingstoken in den mehreren Trainingsdokumenten oder des mindestens einen herausragenden Token zu mehreren Clustern zu clustern, wobei jedes Cluster mindestens ein Trainingsdokument umfasst; und c. einen Abfragemanager, der konfiguriert ist, die Boolesche Abfrage auf der Basis eines Auftretens des mindestens einen herausragenden Token in mindestens einem Trainingsdokument der mehreren Trainingsdokumente für ein Cluster zu generieren und die Boolesche Abfrage an den mehreren Produktionsdokumenten in den Produktionsdaten auszuführen.
System nach Anspruch 4, wobei das mindestens eine herausragende Token mehrere herausragende Tokens umfasst und wobei der Datenmanager weiterhin konfiguriert ist, eine herausragende-Token-/Cluster-Gewichtsmatrix für die mehreren herausragenden Tokens für das Cluster zu berechnen, die mehreren herausragenden Tokens für das Cluster gemäß der Matrix zu ranken und eine Liste der N obersten herausragenden Tokens aus den gerankten mehreren Trainingstokens für das Cluster auszuwählen, wobei N eine positive ganze Zahl ist.
System nach Anspruch 5, wobei der Abfragemanager konfiguriert ist, die Boolesche Abfrage durch mindestens einen Algorithmus zu generieren, der ausgewählt ist aus der Gruppe bestehend aus: dem in 9 definierten Algorithmus, dem in 10 definierten Algorithmus und dem in 11 definierten Algorithmus.
Computerimplementiertes Verfahren zum Generieren einer Booleschen Abfrage, umfassend: a. Holen von Trainingsdaten, wobei die Trainingsdaten mehrere Trainingsdokumente umfassen und wobei jedes der mehreren Trainingsdokumente mindestens ein Trainingstoken umfasst; b. Clustern der mehreren Trainingsdokumente auf der Basis mindestens eines Trainingstoken der mehreren Trainingsdokumenten zu mehreren Clustern, wobei jedes Cluster mindestens ein Trainingsdokument umfasst; c. Generieren der Booleschen Abfrage auf der Basis eines Auftretens des mindestens einen Trainingstoken in mindestens einem Trainingsdokument der mehreren Trainingsdokumente für ein Cluster der mehreren Cluster; d. Holen von Produktionsdaten, wobei die Produktionsdaten mehrere Produktionsdokumente umfassen und wobei jedes der mehreren Produktionsdokumente mindestens ein Produktionstoken umfasst; und e. Ausführen der Booleschen Abfrage an den mehreren Produktionsdokumenten in den Produktionsdaten.
Verfahren nach Anspruch 7, wobei das mindestens eine Trainingstoken mehrere Trainingstokens umfasst und wobei der Schritt des Generierens der Boolesche Abfrage für das Cluster in den mehreren Clustern weiterhin die folgenden Schritte umfasst: f. Berechnen einer Trainingstoken-/Cluster-Gewichtsmatrix für die mehreren Trainingstokens für das Cluster; g. Ranken der mehreren Trainingstokens für das Cluster gemäß der Matrix und h. Auswählen einer Liste der N obersten Trainingstokens aus den gerankten mehreren Trainingstokens für das Cluster, wobei N eine positive ganze Zahl ist.
Verfahren nach Anspruch 8, wobei das Generieren der Booleschen Abfrage durch mindestens einen Algorithmus bewerkstelligt wird, der ausgewählt ist aus der Gruppe bestehend aus: dem in 9 definierten Algorithmus, dem in 10 definierten Algorithmus und dem in 11 definierten Algorithmus.
Computerimplementiertes Verfahren zum Generieren einer Booleschen Abfrage, umfassend: a. Holen von Trainingsdaten, wobei die Trainingsdaten mehrere Trainingsdokumente umfassen und wobei jedes der mehreren Trainingsdokumente mindestens ein Trainingstoken umfasst; b. Reinigen der Trainingsdaten; c. Identifizieren, mindestens eines herausragenden Token unter dem mindestens einen Trainingstoken in jedem der mehreren Trainingsdokumente; d. Clustern der mehreren Trainingsdokumente auf der Basis mindestens eines Trainingstoken in den mehreren Trainingsdokumenten oder des mindestens einen herausragenden Token zu mehreren Clustern, wobei jedes Cluster mindestens ein Trainingsdokument umfasst; e. Generieren der Booleschen Abfrage auf der Basis eines Auftretens von mindestens einem herausragenden Token in mindestens einem Trainingsdokument der mehreren Trainingsdokumente für ein Cluster der mehreren Cluster; f. Holen von Produktionsdaten, wobei die Produktionsdaten mehrere Produktionsdokumente umfassen und wobei jedes der mehreren Produktionsdokumente mindestens ein Produktionstoken umfasst; und g. Ausführen der Booleschen Abfrage an den mehreren Produktionsdokumenten in den Produktionsdaten.
Verfahren nach Anspruch 10, wobei das mindestens eine herausragende Token mehrere herausragende Tokens umfasst und wobei der Schritt des Generierens der Boolesche Abfrage für das Cluster in den mehreren Clustern weiterhin die folgenden Schritte umfasst: h. Berechnen einer herausragende-Token-/Cluster-Gewichtsmatrix für die mehreren herausragenden Tokens für das Cluster; i. Ranken der mehreren herausragenden Tokens für das Cluster gemäß der Matrix und j. Auswählen einer Liste der N obersten herausragenden Tokens aus den gerankten mehreren herausragenden Tokens für das Cluster, wobei N eine positive ganze Zahl ist.
Verfahren nach Anspruch 11, wobei das Generieren der Booleschen Abfrage durch mindestens einen Algorithmus bewerkstelligt wird, der ausgewählt ist aus der Gruppe bestehend aus: dem in 9 definierten Algorithmus, dem in 10 definierten Algorithmus und dem in 11 definierten Algorithmus.