DE60315506T2 - Identifizierung von kritischen merkmalen in einem geordneten skala-raum - Google Patents

Identifizierung von kritischen merkmalen in einem geordneten skala-raum Download PDF

Info

Publication number
DE60315506T2
DE60315506T2 DE60315506T DE60315506T DE60315506T2 DE 60315506 T2 DE60315506 T2 DE 60315506T2 DE 60315506 T DE60315506 T DE 60315506T DE 60315506 T DE60315506 T DE 60315506T DE 60315506 T2 DE60315506 T2 DE 60315506T2
Authority
DE
Germany
Prior art keywords
features
feature
groups
variance
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60315506T
Other languages
English (en)
Other versions
DE60315506D1 (de
Inventor
William Bainbridge Island KNIGHT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Attenex Corp
Original Assignee
Attenex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Attenex Corp filed Critical Attenex Corp
Application granted granted Critical
Publication of DE60315506D1 publication Critical patent/DE60315506D1/de
Publication of DE60315506T2 publication Critical patent/DE60315506T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf eine Merkmalserkennung und Kategorisierung, und insbesondere auf ein System und Verfahren zum Identifizieren kritischer Merkmale in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raums.
  • STAND DER TECHNIK
  • Beginnend mit Gutenberg in der Mitte des 15. Jahrhunderts hat sich das Volumen von bedruckten Materialien stetig mit einer explosionsartigen Geschwindigkeit erhöht. Heutzutage enthält sogar die Kongressbibliothek alleine über 18 Millionen Bücher und 54 Millionen Manuskripte. Ein wesentlicher Teil von bedrucktem Material ist ebenfalls in elektronischer Form verfügbar, größtenteils aufgrund der weit verbreiteten Einführung des Internets und des Personal-Computing.
  • Nichtsdestotrotz verbleibt eine wirksame Erkennung und Kategorisierung von bemerkenswerten Merkmalen innerhalb eines vorgegebenen Hauptteils von bedruckten Dokumenten eine gewaltige und komplexe Aufgabe, und zwar sogar dann, wenn durch eine Automatisierung unterstützt wird. Es existierten wirksame Suchstrategien lange Zeit für Datenbanken, Tabellenkalkulationen und ähnliche Formen von geordneten Daten. Der Hauptteil von bedruckten Dokumenten ist jedoch eine unstrukturierte Sammlung von einzelnen Wörtern, welche, auf einem semantischen Pegel, Ausdrücke und Konzepte bilden, es ihnen jedoch im Allgemeinen an einer regulären Ordnung oder Struktur mangelt. Ein Extrahieren oder „Fördern" von einer Bedeutung von unstrukturierten Dokumentensätzen erfordert konsequenterweise ein Ausnutzen der inhärenten oder „latenten" semantischen Struktur, welche Sätzen und Wörtern unterliegt.
  • Ein Erkennen und Kategorisieren eines Textes innerhalb von unstrukturierten Dokumentensätzen stellt Probleme dar, welche analog zu weiteren Formen einer Datenorganisation sind, welche eine latente Bedeutung haben, welche in der natürlichen Ordnung von einzelnen Merkmalen eingebettet ist. Beispielsweise bilden Genom- und Proteinsequenzen Muster aus, welche Datenförderungs-Verfahren zugänglich sind, und welche leicht bestimmt und analysiert werden können, um einzelne genetische Charakteristiken zu identifizieren. Jede Genom- und Proteinsequenz enthält eine Folge von Großbuchstaben und Ziffern, welche eindeutig einen genetischen Code für DNA Nukleotide und Aminosäuren identifizieren. Generische Marker, das heißt Gene oder weitere identifizierbare Abschnitte einer DNA, deren Vererbung gefolgt werden kann, treten natürlicherweise innerhalb eines vorgegebenen Genoms oder einer Proteinsequenz auf, und können zur Unterstützung einer Identifikation und Kategorisierung helfen.
  • Eine wirksame Verarbeitung eines Merkmal-Raums, welcher Ausdrücke und Konzepte enthält, welche aus einem unstrukturierten Text oder generischen Markern extrahiert sind, welche aus Genom- und Proteinsequenzen extrahiert sind, leiden beide unter dem Fluch der Dimension: Die Dimension des Problembereiches wächst proportional zur Größe des Körpers von einzelnen Merkmalen. Beispielsweise können Ausdrücke und Konzepte von einem unstrukturierten Dokumentensatz gefördert werden, und die Auftritts-Häufigkeit von einzelnen Ausdrücken und Konzepten kann leicht bestimmt werden. Jedoch steigt die Auftrittsläufigkeit linear mit jedem aufeinanderfolgenden Ausdruck und Konzept an. Das exponentiale Wachstum des Problembereiches erstellt eine Analyse schnell hartnäckig, obwohl ein Großteil des Problembereiches auf einem semantischen Pegel konzeptionell unwesentlich ist.
  • Die hohe Dimension des Problembereiches resultiert aus dem reichen Merkmal-Raum. Die Auftritts-Häufigkeit von jedem Merkmal über den gesamten Satz von Daten (Körper für Textdokumente) kann über statistische und ähnliche Mittel analysiert werden, um ein Muster einer semantischen Regelmäßigkeit zu bestimmen. Jedoch kann die bloße Anzahl von Merkmalen ein Identifizieren der relevantesten Merkmale durch redundante Werte und konzeptionell unwesentliche Merkmale übermäßig komplizieren.
  • Darüber hinaus versagen populärste Klassifikationstechniken im Allgemeinen beim Betreiben in einem Merkmal-Raum mit einer hohen Dimension. Beispielsweise arbeiten neurale Netzwerke, Bayesian-Klassifizierer und ähnliche Annäherungen am besten, wenn sie auf einer relativ kleinen Anzahl von Eingangswerten arbeiten. Diese Annäherungen versagen, wenn Hunderte oder Tausende von Eingangsmerkmalen verarbeitet werden. Neurale Netzwerke enthalten beispielsweise eine Eingangsschicht, eine oder mehrere Zwischenschichten und eine Ausgangsschicht. Durch geführtes Lernen werden die Gewichtungen, welche diese Schichten zwischenverbinden, modifiziert, indem sukzessive Eingangssätze und eine Fehlerverbreitung durch das Netzwerk angewendet werden. Ein Umtrainieren mit einem neuen Satz von Eingaben erfordert ferner ein Trainieren auf diese Art. Ein Merkmal-Raum mit hoher Dimension bewirkt, dass ein solches Umtrainieren viel Zeit verbraucht und undurchführbar ist.
  • Ein Abbilden eines Merkmal-Raumes mit hoher Dimension auf niedrigere Dimensionen ist ebenfalls schwierig. Eine Annäherung der Abbildung ist in unserer U.S-Patentanmeldung Serial No. 09/943,918 , eingereicht am 31. August 2001, beschrieben. Diese Annäherung verwendet statistische Verfahren, um es einem Benutzer zu ermöglichen, relevante Merkmale, welche in Gruppen zur Anzeige in einem zweidimensionalen Konzeptraum ausgebildet sind, zu modellieren und auszuwählen. Jedoch werden logisch bezogene Konzepte nicht geordnet, und konzeptionell unwesentliche und redundante Merkmale innerhalb eines Konzeptraumes werden in einer Projektion mit einer niedrigeren Dimension beibehalten.
  • Eine anverwandte Annäherung zum Analysieren eines unstrukturierten Textes ist beschrieben in N.E. Miller et al., „Topic Islands: A Wavelet-Based Text Visualization System" IEEE Visualization Proc., 1998. Das Textvisualisierungssystem analysiert automatisch einen Text, um Unterbrechungen in einem erzählerischen Fluss zu lokalisieren. Es werden Wavelets dazu verwendet, um es zu ermöglichen, dass der erzählerische Fluss in eindeutige Kanäle konzeptionalisiert wird. Jedoch beschreiben die Kanäle nicht einzelne Merkmale und verdauen nicht einen gesamten Hauptteil von mehreren Dokumenten.
  • Ähnlich sind eine Vielzahl von Dokumenten-Einlagerungs- und Textförderungs-Techniken in D. Sullivan, „Document Warehousing and Text Mining-Techniques for Improving Business Operations, Marketing, and Sales" Parts 2 and 3, John Wiley & Sons (Februar 2001) beschrieben. Jedoch sind die Annäherungen ohne eine Fokussierung der Identifizierung eines Merkmal-Raums innerhalb eines größeren Körpers oder der Neuordnung von Merkmalsvektoren einer hohen Dimension, um eine latente semantische Bedeutung zu extrahieren, beschrieben.
  • Das U.S.-Patent No. 6,070,133 , Brewster et al., offenbart ein Informationserlangungssystem unter Verwendung von einer Wavelet-Transformation. Das System führt eine spektrale Analyse auf eine Wellenform oder ein digitales Signal durch, um eine Dokumenten-Charakterisierung bereitzustellen, wobei das digitale Signal eine numerische Darstellung der Wörter ist, welche innerhalb des Dokuments enthalten sind. Es wird eine spektrale Analyse durchgeführt, um das digitale Signal zu verstärken und ein Rauschen zu reduzieren, um es einem Benutzer zu erlauben, eine visuelle Darstellung von dem semantischen Aufbau zu erzeugen, welcher die Reihenfolge ist, in welcher die Themen in dem Dokument erzählerisch diskutiert werden. Die spektrale Analyse wird bereitgestellt, indem eine Wavelet-Transformation auf das digitale Signal durchgeführt wird, und die Ausgabe von der Wavelet-Transformation kann dazu verwendet werden, um eine visuelle Darstellung des semantischen Aufbaus zu erzeugen, welche eine textbasierte, grafische oder zusammengefasste Darstellung sein kann. Die Ausgabe von der Wavelet-Transformation kann ebenfalls dazu verwendet werden, um das Dokument gemäß einem semantischen Inhalt auf einem einzelnen Pegel oder auf mehreren Pegeln zu partitionieren, um einen Umriss oder einen „Fuzzy"-Umriss von dem Dokument zu erzeugen. Die numerische Darstellung der Wörter innerhalb des Dokuments kann von Worthäufigkeits-Zählungen, Funktionen von Worthäufigkeits-Zählungen und statistischen Korrelationen von Wörtern innerhalb des gesamten Dokuments oder Gruppen, von Wörtern oder Teilmengen von Wörtern in einem Dokument hergeleitet werden. Das digitale Signal behält die Wort-Reihenfolge bei, welche in der Erzählung gefunden wird.
  • M. Slaney et al., „Multimedia Edges: Finding Hierarchy in all Dimensions" Proc. 9th ACM International Conference an Multimedia, Seiten 29-40 (30. September 2001), offenbart Techniken zum Analysieren der temporalen Eigenschaften von Audio- und Bilddaten in einem Video, um eine hierarchische Segmentierung des Videos oder eine Inhaltstabelle von dem Audio, eine Semantik und Bilddaten zu erzeugen. Änderungen in dem Video oder des semantischen Inhaltes von dem Video werden als eine Funktion der Zeit erfasst. Bilddaten werden über eine Schwenkerfassung analysiert und mit einer Information von dem Audiosignal zusammengefasst, um Änderungen in dem Inhalt oder dem Ton zu finden, welche Strukturen mit höherem Pegel innerhalb des Videos anzeigen. Techniken, wie beispielsweise eine latente Semantik-Indexierung, werden dazu verwendet, um anverwandte Dokumente zu gruppieren oder um ein Dokument zu finden, welches einer Warteschlange am nächsten gleicht, welches dazu verwendet werden kann, um den semantischen Pfad von einer Kopie eines Videos als ein Signal in einem Skala-Raum zu beschreiben. Das Signal kann analysiert werden, um semantische Unterbrechungen in dem Audio zu finden und um eine semantische Inhaltstabelle für das Video zu erzeugen. Jeglicher Zeitpunkt in dem Video kann durch eine Position in einem Akustik-Farb-Semantik-Vektor-Raum beschrieben werden.
  • Die U.S.-Patentanmeldung Veröffentlichung No. US 2002/0016798 , von Sakai et al., offenbart eine Textinformations-Analyseeinrichtung und ein Verfahren, welches eine Mehrzahl von Text gemäß einem Inhalt anordnet. Eine Kategorie-Positionseinheit ist dazu konfiguriert, um einen Text in eine von einer Mehrzahl von vorbestimmten Kategorien zu klassifizieren. Eine Gruppenerzeugungseinheit ist dazu konfiguriert, um Texte zu gruppieren, welche ähnliche Inhalte haben. Eine Steuereinheit ist dazu konfiguriert, um die Kategorieentscheidungs- und Gruppenerzeugungseinheiten dazu zu steuern, um gleichzeitig eine Kategorieentscheidung und Gruppierung auszuführen. Eine morphologische Analyse wird für jeden Text ausgeführt, und jegliche Wörter, welche enthalten sind, werden vor der Entscheidung identifiziert, ob der Text gemäß einer Kategorieentscheidungsregel klassifiziert ist. Jedoch überspannen die Kategorien einen Skala-Raum und es mangelt ihnen daran, mehrere Detailpegel bereitzustellen, M. Kurimo, „Fast Latent Semantic Indexing of Spoken Documents by using Self-Organizing Maps", IEEE International Conference an Acustics, Speech and Signal Proc., Vol. 5, Seiten 2425-2428 (5. Juni 2000), offenbart ein latentes Semantik-Indexierungsverfahren für gesprochene Audiodokumente. Dokumente werden als Vektoren von Wortzählungen dargestellt, deren Dimension schnell durch eine willkürliche Abbildung reduziert wird, und welche in einen latenten semantischen Teilraum projiziert werden. Die Vektoren werden durch eine selbstorganisierende Abbildung geglättet, welches einen einfachen Weg bereitstellt, um Index- und Warteschlangen-Ergebnisse zu visualisieren und die Datenbank zu untersuchen. Jedoch stellen die selbstorganisierenden Abbildungen nicht-lineare Daten einer hohen Dimension in einer Anzeige mit einer niedrigen Dimension dar, und es mangelt ihnen daran, mehrere Pegel von Detail und Merkmalen bereitzustellen.
  • Es gibt daher eine Notwendigkeit nach einer Annäherung zum Bereitstellen eines geordneten Satzes von extrahierten Merkmalen, welche von einem multidimensionalen Problembereich bestimmt sind, welcher Textdokumente und Genom- und Proteinsequenzen enthält. Vorzugsweise wird eine solche Annäherung kritische Merkmalsräume isolieren, während Null-Wert, konzeptionell unwesentliche und redundante Merkmale innerhalb des Konzeptraumes herausgefiltert werden.
  • Es gibt eine weitere Notwendigkeit nach einer Annäherung, welche den Merkmal-Raum in einen geordneten Skala-Raum transformiert. Vorzugsweise wird eine solche Annäherung einen skalierbaren Merkmal-Raum bereitstellen, welcher dazu in der Lage ist, in variierenden Detailpegeln über eine Mehrfachauflösungs-Analyse zu abstrahieren.
  • BESCHREIBUNG DER ERFINDUNG
  • Die vorliegende Erfindung stellt ein System und ein Verfahren gemäß der folgenden Ansprüche zum Transformieren eines multidimensionalen Merkmal-Raumes in eine geordnete und priorisierte Skala-Raum-Darstellung bereit. Der Skala-Raum wird im Allgemeinen im Hilbert-Funktion-Raum bestimmt. Eine Mehrheit von einzelnen Merkmalen wird von einer Vielzahl von diskreten Datensammlungen extrahiert. Jedes einzelne Merkmal stellt einen latenten Inhalt dar, welcher der semantischen Struktur von der Datensammlung inhärent ist. Die Merkmale werden in einem Satz von Mustern auf einer Datensammlungsbasis organisiert. Jedes Muster wird auf Ähnlichkeiten analysiert und nahe anverwandte Merkmale werden zu einzelnen Gruppen gruppiert. In der beschriebenen Ausführungsform werden die Ähnlichkeits-Messungen anhand einer Distanz-Metrik erzeugt. Die Gruppen werden dann in einem geordneten Skala-Raum projiziert, in welchem die einzelnen Merkmalsvektoren nacheinander folgend als Wavelet- und Skalierungs-Koeffizienten unter Verwendung einer Mehrfachauflösungs-Analyse encodiert werden. Die geordneten Vektoren enthalten ein „Semantik"-Signal, welches Signalverarbeitungstechniken, wie beispielsweise eine Komprimierung, zugänglich ist.
  • Eine Ausführungsform stellt ein System und ein Verfahren zum Identifizieren kritischer Merkmale in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raumes bereit. Merkmale werden von einer Mehrzahl von Datensammlungen extrahiert. Jede Datensammlung wird durch eine Sammlung von Merkmalen, welche semantisch durch eine Grammatik bezogen sind, charakterisiert. Jedes Merkmal wird dann normalisiert und es werden Auftritts-Häufigkeiten und Nebenauftritte für die Merkmale für jede der Datensammlungen bestimmt. Die Auftritts-Häufigkeiten und die Nebenauftritts-Häufigkeiten für jedes der extrahierten Merkmale werden in einem Satz von Auftritts-Häufigkeitsmustern und einem Satz von Nebenauftritts-Häufigkeitsmustern abgebildet. Das Muster für jede Datensammlung wird ausgewählt, und es werden Ähnlichkeits-Messungen zwischen jeder Auftritts-Häufigkeit in dem ausgewählten Muster berechnet. Die Auftritts-Häufigkeiten werden auf ein eindimensionales Dokumentsignal projiziert, um eine Ähnlichkeit unter Verwendung der Ähnlichkeits-Messungen relativ zu verringern. Fälle von Merkmalsvektoren einer hohen Dimension können dann als ein eindimensionaler Signalvektor behandelt werden. Wavelet- und Skalierungs-Koeffizienten werden aus dem eindimensionalen Dokumentsignal hergeleitet.
  • Eine weitere Ausführungsform stellt ein System und Verfahren zum Abstrahieren von semantisch latenten Konzepten, welche von einer Mehrzahl von Dokumenten extrahiert sind, bereit. Ausdrücke und Phrasen werden von einer Mehrzahl von Dokumenten extrahiert. Jedes Dokument enthält eine Sammlung von Ausdrücken, Phrasen und nicht beweiskräftigen Wörtern. Die Ausdrücke und Phrasen werden zu Konzepten bestimmt und auf eine Einzelstamm-Wortform reduziert. Eine Auftritts-Häufigkeit wird für jedes Konzept angesammelt. Die Auftritts-Häufigkeiten für jedes der Konzepte werden in einem Satz von Mustern von Auftritts-Häufigkeiten abgebildet, und zwar eines solchen Musters pro Dokument, angeordnet in einer zweidimensionalen Dokument-Merkmals-Matrix. Jedes Muster wird iterativ von der Dokumentenmerkmals-Matrix für jedes Dokument ausgewählt. Ähnlichkeits-Messungen zwischen jedem Muster werden berechnet. Die Auftrittswahrscheinlichkeiten, beginnend von einem im Wesentlichen maximalen Ähnlichkeitswert, werden in ein eindimensionales Signal in einer skalierbaren Vektorform transformiert, und zwar geordnet in einer Sequenz von einer relativ abnehmenden Ähnlichkeit. Wavelet- und Skalierungs-Koeffizienten werden von dem eindimensionalen Skala-Signal hergeleitet.
  • Eine weitere Ausführungsform stellt ein System und ein Verfahren zum Abstrahieren semantisch latenter genetischer Teilsequenzen bereit, welche von einer Mehrzahl von genetischen Sequenzen extrahiert werden. Generische Teilsequenzen werden von einer Mehrzahl von genetischen Sequenzen extrahiert. Jede genetische Sequenz enthält eine Sammlung von zumindest einem von genetischen Codes für DNA Nukleotide und Aminosäuren. Eine Auftritts-Häufigkeit für jede genetische Teilsequenz wird für jede der genetischen Sequenzen, von welchen die genetischen Teilsequenzen hergeleitet sind, angesammelt. Die Auftritts-Häufigkeiten für jede der genetischen Teilsequenzen werden in einem Satz von Mustern von Auftritts-Häufigkeiten abgebildet, und zwar eines von einem solchen Muster pro genetischer Sequenz, angeordnet in einer zweidimensionalen genetischen Teilsequenz-Matrix. Jedes Muster wird iterativ aus der genetischen Teilsequenz-Matrix für jede genetische Sequenz ausgewählt. Ähnlichkeits-Messungen zwischen jeder Auftritts-Häufigkeit in jedem ausgewählten Muster werden berechnet. Die Auftritts-Häufigkeiten, beginnend von einer im Wesentlichen maximalen Ähnlichkeits-Messung, werden auf ein eindimensionales Signal in skalierbarer Vektorform, geordnet in einer Sequenz von einer relativ abnehmenden Ähnlichkeit, projiziert. Wavelet- und Skalierungskoeffizienten werden aus dem eindimensionalen Skala-Signal hergeleitet.
  • Noch weitere Ausführungsformen von der vorliegenden Erfindung werden dem Fachmann anhand der folgenden detaillierten Beschreibung leicht deutlich, wobei in ihr Ausführungsformen von der Erfindung mittels Darstellung des besten Modus, welcher zur Ausführung der Erfindung in Erwägung gezogen ist, beschrieben sind. Wie erkannt werden wird, ist die Erfindung zu weiteren und unterschiedlichen Ausführungsformen fähig, und ihre mehreren Details sind zur Modifikation auf verschiedene offensichtliche Hinsichten fähig, wobei sie alle nicht vom Umfang der vorliegenden Erfindung abweichen. Demgemäß sind die Zeichnungen und ist die detaillierte Beschreibung als natürlich darstellhaft und nicht als beschränkend anzusehen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, welches ein System zum Identifizieren von kritischen Merkmalen in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raumes gemäß der vorliegenden Erfindung zeigt.
  • 2 ist ein Blockdiagramm, welches mittels Beispiel ein Satz von Dokumenten zeigt.
  • 3 ist ein Venn-Diagramm, welches mittels Beispiel die Merkmale, welche von dem Dokumentensatz von 2 extrahiert sind, zeigt.
  • 4 ist ein Datenstruktur-Diagramm, welches mittels Beispiel Projektionen von Merkmalen, welche von dem Dokumentensatz von 2 extrahiert sind, zeigt.
  • 5 ist ein Blockdiagramm, welches die Softwaremodule zeigt, welche den Datensammlungs-Analysator von 1 implementieren.
  • 6 ist ein Prozess-Ablaufdiagramm, welches die Stufen der Merkmalsanalyse zeigt, welche durch den Datensammlungs-Analysator von 1 durchgeführt werden.
  • 7 ist ein Ablaufdiagramm, welches ein Verfahren zum Identifizieren von kritischen Merkmalen in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raums gemäß der vorliegenden Erfindung zeigt.
  • 8 ist ein Ablaufdiagramm, welches die Routine zur Durchführung einer Merkmalsanalyse zur Verwendung in dem Verfahren von 7 zeigt.
  • 9 ist ein Ablaufdiagramm, welches die Routine zur Bestimmung einer Konzepthäufigkeit zur Verwendung in der Routine von 8 zeigt.
  • 10 ist ein Datenstrukturdiagramm, welches eine Datenbankaufzeichnung für ein Merkmal, welches in der Datenbank von 1 gespeichert ist, zeigt.
  • 11 ist ein Datenstrukturdiagramm, welches mittels Beispiel eine Datenbanktabelle zeigt, welche ein Lexikon von extrahierten Merkmalen enthält, welche in der Datenbank von 1 gespeichert sind.
  • 12 ist ein Kurvenverlauf, welcher mittels Beispiel ein Histogramm der Häufigkeiten von Merkmalsauftritten zeigt, welches durch die Routine von 9 erzeugt ist.
  • 13 ist ein Kurvenverlauf, welcher mittels Beispiel eine Zunahme in einer Anzahl von Merkmalen, bezogen auf eine Anzahl von Datensammlungen, zeigt.
  • 14 ist eine Tabelle, welche mittels Beispiel eine Matrix-Abbildung von Merkmals-Häufigkeiten, welche durch die Routine von 9 erzeugt ist, zeigt.
  • 15 ist ein Kurvenverlauf, welcher mittels Beispiel einen Korpus-Kurvenverlauf der Häufigkeit von Merkmalsauftritten, welche durch die Routine von 9 erzeugt ist, zeigt.
  • 16 ist ein Ablaufdiagramm, welches eine Routine zum Transformieren eines Problem-Raumes in einem Skala-Raum zur Verwendung in der Routine von 8 zeigt.
  • 17 ist ein Ablaufdiagramm, welches die Routine zum Erzeugen von Ähnlichkeits-Messungen und Ausbilden von Gruppen zur Verwendung in der Routine von 16 zeigt.
  • 18 ist eine Tabelle, welche mittels Beispiel die Merkmalsgruppen zeigt, welche durch die Routine von 17 erzeugt sind.
  • 19 ist ein Ablaufdiagramm, welches eine Routine zum Identifizieren von kritischen Merkmalen zur Verwendung in dem Verfahren von 7 zeigt. MODUS bzw. MODI ZUR DURCHFÜHRUNG DER ERFINDUNG Wortliste
    Dokument: Eine Basiskollektion von Daten, welche zur Analyse als ein Datensatz verwendet werden.
    Vorgang: Eine Basiskollektion von Daten, welche zur Analyse als ein Datensatz verwendet werden. In der beschriebenen Ausführungsform ist ein Vorgang im Allgemeinen äquivalent zu einem Dokument.
    Dokumentvektor: Ein Satz von Merkmalswerten, welche ein Dokument beschreiben.
    Dokumentsignal: Äquivalent zu einem Dokumentvektor.
    Skala-Raum: Im Allgemeinen als ein Hilbert-Funktion-Raum H bezeichnet.
    Schlüsselwort: Ein wortgetreuer Suchausdruck, welcher in einem Dokument oder einer Datensammlung entweder vorliegt oder nicht vorliegt. Schlüsselwörter werden nicht in der Auswertung von Dokumenten und Datensammlungen, wie hier beschrieben, verwendet.
    Ausdruck: Ein Wurzelstamm von einem einzelnen Wort, welches in dem Hauptteil von zumindest einem Dokument oder einer Datensammlung erscheint. Analog ein generischer Marker in einer Genom- oder Proteinsequenz.
    Phrase: Zwei oder mehrere Wörter, welche in dem Hauptteil von einem Dokument oder einer Datensammlung nebeneinander auftreten. Eine Phrase kann Stopp-Wörter enthalten.
    Merkmal: Eine Sammlung von Ausdrücken oder Phrasen mit gemeinsamen semantischen Bedeutungen, ebenfalls bezeichnet als Konzept.
    Thema: Zwei oder mehrere Merkmale mit einer gemeinsamen semantischen Bedeutung.
    Gruppe: Alle Dokumente oder Datensammlungen, welche bei einer vorbestimmten Messung von einer Ähnlichkeit fehlschlagen.
    Korpus: Alle Textdokumente, welche den gesamten Rohdatensatz bestimmen.
  • Die vorhergehenden Ausdrücke werden über dieses Dokument hinweg verwendet, und werden, es sei denn anders angezeigt, den oben dargelegten Bedeutungen angehängt. Ferner, obwohl mit Bezug auf eine Dokumentenanalyse beschrieben, werden die Ausdrücke analog an weitere Formen von strukturierten Daten angewendet, welche Genom- und Proteinsequenzen enthalten, und ähnlichen Datensammlungen, welche ein Vokabular, eine Grammatik und atomare Dateneinheiten haben, wie durch den Fachmann anerkannt werden wird.
  • 1 ist ein Blockdiagramm, welches ein System 11 zum Identifizieren von kritischen Merkmalen in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raums gemäß der vorliegenden Erfindung zeigt. Der Skala-Raum ist ebenfalls als ein Hilbert-Funktion-Raum bekannt. Mittels einer Darstellung arbeitet das System 11 in einer verteilten Berechnungsumgebung 10, welche eine Mehrzahl von heterogenen Systemen und Datensammelquellen enthält. Das System 11 implementiert einen Datensammel-Analysator 12, wie im Folgenden, beginnend mit Bezug auf 4, ferner beschrieben, zur Auswertung von latenten semantischen Merkmalen in unstrukturierten Datensammlungen. Das System 11 ist an einer Speichervorrichtung 13 gekoppelt, welche eine Datensammlungs-Quelle 14 zum Archivieren der Datensammlungen und eine Datenbank 30 zum Beibehalten von einer Datensammlungs-Merkmalsinformation speichert.
  • Der Dokumenten-Analysator 12 analysiert Datensammlungen, welche von einer Mehrzahl von lokalen Quellen erlangt werden. Die lokalen Quellen enthalten Datensammlungen 17, welche in einer Speichervorrichtung 16 beibehalten werden, welche an einen lokalen Server 15 gekoppelt ist, und Datensammlungen 20, welche in einer Speichervorrichtung 19 beibehalten werden, welche an einem lokalen Client 18 gekoppelt ist. Der lokale Server 15 und der lokale Client 18 sind über ein Intranetzwerk 21 zum System 11 zwischenverbunden. Zusätzlich kann der Datensammlungs-Analysator 12 Datensammlungen von entfernten Quellen über ein Internetzwerk 22, welches das Internet enthält, über ein Gateway 23, welches mit dem Intranetzwerk 21 eine Schnittstelle bildet, identifizieren und erlangen. Die entfernten Quellen enthalten Datensammlungen 26, welche in einer Speichervorrichtung 25 beibehalten werden, welche an einen entfernten Server 24 gekoppelt ist, und Datensammlung 29, welche in einer Speichervorrichtung 28 beibehalten werden, welche an einen entfernten Client 27 gekoppelt ist.
  • Die einzelnen Datensammlungen 17, 20, 26, 29 bilden jeweils eine semantisch bezogene Sammlung von gespeicherten Daten, welche alle Formen und Typen von unstrukturierten und halb strukturierten (textbasierten) Daten enthalten, welche elektronische Meldungsvorräte, wie beispielsweise elektronische Mail (E-Mail)-Ordner, Textverarbeitungsdokumente oder Hypertext-Dokumente, enthalten, und ebenfalls Grafik- oder Multimediadaten enthalten können. Die unstrukturierten Daten enthalten ebenfalls Genom- und Proteinsequenzen und ähnliche Datensammlungen. Die Datensammlungen enthalten eine bestimmte Art eines Vokabulars, mit welchem atomare Dateneinheiten bestimmt werden, und Merkmale semantisch durch eine Grammatik bezogen werden, wie der Fachmann anerkennen wird. Eine atomare Dateneinheit ist analog zu einem Merkmal und enthält eine oder mehrere suchbare Charakteristiken, welche, wenn einzeln oder in Kombination genommen, eine Gruppierung darstellen, welche eine allgemeine semantische Bedeutung hat. Die Grammatik erlaubt es, dass die Merkmale syntaktisch und semantisch zusammengefasst werden, und ermöglicht die Entdeckung von latent-semantischen Bedeutungen. Die Dokumente können ebenfalls in der Form von strukturierten Daten sein, wie beispielsweise in einer Tabellenkalkulation oder einer Datenbank gespeichert. Ein Inhalt, welcher von diesen Typen von Dokumenten gefördert wird, wird keine Vorverarbeitung erfordern, wie im Folgenden beschrieben.
  • In der beschriebenen Ausführungsform enthalten die einzelnen Datensammlungen 17, 20, 26, 29 elektronische Meldungsordner, wie beispielsweise durch die Outlook- und Outlook Express-Produkte beibehalten, lizenziert durch Microsoft Corporation, Redmond, Washington. Die Datenbank ist eine SQL-basierte relationale Datenbank, wie beispielsweise das Oracle Datenbank Verwaltungssystem, Ausgabe 8, lizenziert durch die Oracle Corporation, Redwood Shores, Kalifornien.
  • Die einzelnen Computersysteme, welche das System 11, den Server 15, den Client 18, den entfernten Server 24 und den entfernten Client 27 enthalten, sind Vielzweckprogrammierte digitale Berechnungsvorrichtungen, welche eine zentrale Verarbeitungseinheit (CPU), einen Arbeitsspeicher (RAM), einen nicht-flüchtigen sekundären Speicher, wie beispielsweise eine Festplatte oder ein CD-ROM-Laufwerk, Netzwerk- und Drahtlos-Schnittstellen und Peripherie-Vorrichtungen enthalten, welche ein Benutzer-Schnittstellenmittel enthalten, wie beispielsweise eine Tastatur und eine Anzeige. Ein Programmcode, welcher Softwareprogramme enthält, und Daten werden in den RAM zur Ausführung und Verarbeitung durch die CPU geladen und Ergebnisse werden zur Anzeige, Ausgabe, Übertragung oder Speicherung erzeugt.
  • Der vollständige Satz von Merkmalen, welche von einem vorgegebenen Dokument oder einer Datensammlung extrahierbar sind, kann in einem logischen Merkmal-Raum, ebenfalls als ein Hilbert-Funktion-Raum H bezeichnet, modelliert werden. Die einzelnen Merkmale bilden einen Merkmalssatz, aus welchem Themen extrahiert werden können. Aus Gründen der Darstellung ist 2 ein Blockdiagramm, welches mittels Beispiel einen Satz 40 von Dokumenten 41-46 zeigt. Jedes einzelne Dokument 41-46 enthält eine Datensammlung, welche einzelne Ausdrücke enthält. Beispielsweise enthalten Dokumente 42, 44, 45 und 46 jeweils „Mäuse", „Mäuse", „Maus" und „Mäuse", wobei der Wurzelstamm davon gleich „Maus" ist. Ähnlich enthalten Dokumente 42 und 43 beide „Katze"; Dokumente 43 und 46 enthalten jeweils „Mann" und „Männer", der Wurzelstamm davon ist „Mann"; und Dokument 43 enthält „Hund". Jeder Satz von Ausdrücken enthält ein Merkmal. Dokumente 42, 44, 45 und 46 enthalten den Ausdruck „Maus” als ein Merkmal. Ähnlich enthalten Dokumente 42 und 43 den Ausdruck „Katze", Dokumente 43 und 46 enthalten den Ausdruck „Mann" und Dokument 43 enthält den Ausdruck „Hund" als ein Merkmal. Somit bilden die Merkmale „Maus", „Katze", „Mann" und „Hund" den Korpus von dem Dokumentensatz 40.
  • 3 ist ein Venn-Diagramm 50, welches mittels Beispiel die Merkmale 51-54 zeigt, welche von dem Dokumentsatz 40 von 2 extrahiert sind. Das Merkmal „Maus" tritt vier Mal in den Dokumentensatz 40 auf. Ähnlich treten die Merkmale „Katze", „Mann" und „Hund" jeweils zwei Mal, zwei Mal und ein Mal auf. Ferner treten die Merkmale „Maus" und „Katze" konsistent zusammen in dem Dokumentensatz 40 nebeneinander auf und bilden ein Thema „Maus und Katze". „Maus" und „Mann" treten ebenfalls nebeneinander auf, um ein zweites Thema „Maus und Mann" auszubilden. „Mann" und „Hund" treten nebeneinander auf, um ein drittes Thema „Mann und Hund" auszubilden. Das Venn-Diagramm stellt diagrammartig die Zwischenbeziehungen von den thematischen Nebenauftritten in zwei Dimensionen dar und spiegelt wider, dass „Maus und Katze" das stärkste Thema in dem Dokumentensatz 40 ist.
  • Venn-Diagramme sind zweidimensionale Darstellungen, welche lediglich eine thematische Überlappung entlang einer einzelnen Dimension abbilden können. Wie im Folgenden, beginnend mit Bezug auf 19, ferner beschrieben, können die einzelnen Merkmale genauer als Gruppen in einem multidimensionalen Merkmal-Raum modelliert werden. Wiederum können die Gruppen auf geordnete und priorisierte eindimensionale Merkmalsvektoren oder Projektionen projiziert werden, modelliert im Hilbert-Funktion-Raum H, welcher die relativen Stärken von den Zwischenbeziehungen zwischen den jeweiligen Merkmalen und Themen widerspiegelt. Die geordneten Merkmalsvektoren bilden ein „semantisches" Signal, welches für Signalverarbeitungstechniken, wie beispielsweise eine Quantisierung und Encodierung, zugänglich ist.
  • 4 ist ein Datenstrukturdiagramm, welches mittels Beispiel Projektionen 60 von den Merkmalen zeigt, welche von dem Dokumentensatz 40 von 2 extrahiert sind. Die Projektionen 60 sind in vier Detailpegel 61-64 im Skala-Raum gezeigt. In dem höchsten oder detailliertesten Pegel 61 sind alle anverwandten Merkmale in Reihenfolge einer abnehmenden Zwischenbeziehung beschrieben. Beispielsweise ist das Merkmal „Maus" am meisten dem Merkmal „Katze" als den Merkmalen „Mann" und „Hund" anverwandt. Ähnlich ist das Merkmal „Maus" ebenfalls am meisten dem Merkmal „Mann" als dem Merkmal „Hund" anverwandt. Das Merkmal „Hund" ist das am wenigsten anverwandte Merkmal.
  • Auf dem zweithöchsten Detailpegel 62 ist das Merkmal „Hund" ausgelassen. Ähnlich sind in dem dritten und vierten Detailpegel 63, 64 die Merkmale „Mann" und „Katze" jeweils ausgelassen. Der vierte Detailpegel 64 spiegelt das relevanteste Merkmal wider, welches in dem Dokumentensatz 40 vorliegt, nämlich „Maus", welches vier Mal auftritt und daher den Korpus auf einem minimalen Pegel abstrahiert.
  • 5 ist ein Blockdiagramm, welches die Softwaremodule 70 zeigt, welche den Datensammlungs-Analysator 12 von 1 implementieren. Der Datensammlungs-Analysator 12 enthält sechs Module: einen Speicher- und Erlangungsverwalter 71, einen Merkmals-Analysator 72, einen unüberwachten Klassifizierer 73, eine Skala-Raum-Transformation 74, einen Kritisches-Merkmal-Identifizierer 75 und eine Anzeige und Visualisierung 82. Der Speicher- und Erlangungsverwalter 71 identifiziert und erlangt Datensammlungen 76 in der Datenquelle 14. Die Datensammlungen 76 werden von verschiedenen Quellen erlangt, welche lokale und entfernte Clients- und Server-Lager enthalten. Der Merkmals-Analysator 72 führt den Hauptteil der Merkmalsförderverarbeitung durch. Der unüberwachte Klassifizierer 73 verarbeitet Muster von häufigen Auftritten, welche im Merkmal-Raum in neu geordneten Vektoren ausgedrückt werden, welche im Skala-Raum ausgedrückt werden. Die Skala-Raum-Transformation 74 abstrahiert die Skala-Raum-Vektoren in variierende Detailpegel mit beispielsweise Wavelet- und Skalierungs-Koeffizienten über eine Mehrfachauflösungs-Analyse. Die Anzeige und Visualisierung 82 vervollständigt die Betriebe, welche durch den Merkmals-Analysator 72, unüberwachten Klassifizierer 73, die Skala-Raum-Transformation 74 und den Kritisches-Merkmal-Identifizierer 75 durchgeführt sind, indem visuelle Darstellungen von der Information dargestellt werden, welche von den Datensammlungen 76 extrahiert ist. Die Anzeige und Visualisierung 82 kann ebenfalls eine grafische Darstellung von den vermischten und verarbeiteten Merkmalen erzeugen, welches unabhängig variable Beziehungen erhält, wie in der gemeinsam zugewiesenen U.S.-Patentanmeldung Serial No. 09/944,475 , eingereicht am 31. August 2001, beschrieben.
  • Während der Textanalyse identifiziert der Merkmals-Analysator 72 Ausdrücke und Phrasen und extrahiert Merkmale in der Form von Nominalphrasen, Genom- oder Protein-Markern oder ähnlichen atomaren Dateneinheiten, welche dann in einem Lexikon 77 gespeichert werden, welches in der Datenbank 30 beibehalten ist. Nach dem Normalisieren der extrahierten Merkmale erzeugt der Merkmals-Analysator 72 eine Merkmals-Häufigkeits-Tabelle 78 von Merkmalsauftritten im Dokument und eine geordnete Merkmals-Häufigkeits-Abbildungsmatrix 79, wie im Folgenden mit Bezug auf 14 ferner beschrieben. Die Merkmals-Häufigkeits-Tabelle 78 bildet die Auftritte von Merkmalen auf einer Pro-Dokument-Basis ab, und die geordnete Merkmals-Häufigkeits-Abbildungsmatrix 79 bildet die Auftritte von allen Merkmalen über den gesamten Korpus oder die Datensammlung ab.
  • Der unüberwachte Klassifizierer 73 erzeugt logische Gruppen 80 der extrahierten Merkmale in einem multidimensionalen Merkmal-Raum zur Modellierung einer semantischen Bedeutung. Jede Gruppe 80 gruppiert semantisch bezogene Themen, basierend auf relativen Ähnlichkeits-Messungen, beispielsweise in Ausdrücken von einer ausgewählten L2-Distanzmetrik.
  • In der beschriebenen Ausführungsform sind die L2-Distanzmetriken im L2-Funktionsraum bestimmt, welcher der Raum von absoluten quadratischen integrierbaren Funktionen ist, wie beispielsweise beschrieben in B.B. Hubbard, „The World According to Wavelets, the Story of a Mathematical Technique in the Making", Seiten 227-229, A.K. Peters (2d ed. 1998). Die L2-Distanzmetrik ist äquivalent der euklidischen Distanz zwischen zwei Vektoren. Weitere Distanz-Messungen enthalten eine Korrelation, Richtungs-Kosinusse, Minkowski-Metriken, Tanimoto-Ähnlichkeits-Messungen, Mahanobis-Distanzen, Hamming-Distanzen, Levenshtein-Distanzen, Maximalwahrscheinlichkeits-Distanzen und ähnliche Distanzmetriken, wie sie im Stand der Technik bekannt sind, wie beispielsweise beschrieben in T. Kohonen, „Self Organizing Maps", Kapitel 1.2, Springer-Verlag (3. Ausgabe 2001).
  • Die Skala-Raum-Transformation 74 bildet Projektionen 81 von den Gruppen 80 in einem eindimensional geordneten und priorisierten Skala-Raum aus. Die Projektionen 81 werden unter Verwendung von Wavelet- und Skalierungs-Koeffizienten (nicht gezeigt) ausgebildet. Der Kritisches-Merkmal-Identifizierer 75 erlangt Wavelet- und Skalierungs-Koeffizienten von dem eindimensionalen Dokumentsignal. Schließlich erzeugt die Anzeige und Visualisierung 82 ein Histogramm 83 von Merkmalsauftritten pro Dokument oder Datensammlung, wie im Folgenden mit Bezug auf 13 ferner beschrieben, und einen Korpus-Kurvenverlauf 84 von Merkmalsauftritten über alle Datensammlungen, wie im Folgenden mit Bezug auf 15 weiter beschrieben.
  • Jedes Modul ist ein Computerprogramm, eine Prozedur oder ein Modul, welches als Quellencode in einer herkömmlichen Programmiersprache, wie beispielsweise die C++ Programmiersprache, geschrieben ist, und wird zur Ausführung durch die CPU als Objekt oder Byte-Code, wie im Stand der Technik bekannt, dargelegt. Die verschiedenen Implementierungen des Quellencodes und der Objekt- und Byte-Codes können auf einem computerlesbaren Speichermedium gehalten werden oder auf einem Übertragungsmedium in einer Trägerwelle ausgeführt sein. Der Datensammlungs-Analysator 12 arbeitet gemäß einer Sequenz von Prozessschritten, wie im Folgenden mit Bezug auf 7 weiter beschrieben.
  • 6 ist ein Prozess-Ablaufdiagramm, welches die Stufen 90 der Merkmalsanalyse, welche durch den Datensammlungs-Analysator 12 von 1 durchgeführt wird, zeigt. Die einzelnen Datensammlungen 76 werden vorverarbeitet, und Nominalphrasen, Genom- und Protein-Marker oder ähnliche atomare Dateneinheiten werden als Merkmale (Übergang 91) im Lexikon 77 extrahiert. Die Merkmale werden normalisiert und aufgereiht (Übergang 92), um die Merkmals-Häufigkeits-Tabelle 78 zu erzeugen. Die Merkmals-Häufigkeits-Tabelle 78 identifiziert einzelne Merkmale und jeweilige Auftritts-Häufigkeiten innerhalb jeder Datensammlung 76. Die Häufigkeiten der Merkmalsauftritte werden in der geordneten Merkmals-Häufigkeits-Abbildungsmatrix 79 abgebildet (Übergang 93), welche die Auftritts-Häufigkeiten von jedem Merkmal auf einer Pro-Datensammlung-Basis über alle Datensammlungen in Zusammenhang stellt. Die Merkmale werden in Gruppen 80 von semantisch bezogenen Themen, basierend auf einer relativen Ähnlichkeit, beispielsweise in Ausdrücken von der Distanz-Messung gemessen, ausgebildet (Übergang 94). Schließlich werden die Gruppen 80 in Projektionen 81 projiziert (Übergang 95), welche in eindimensionale Dokumentsignalvektoren neu geordnet und priorisiert werden.
  • 7 ist ein Ablaufdiagramm, welches ein Verfahren 100 zum Identifizieren von kritischen Merkmalen in einem geordneten Skala-Raum innerhalb eines multidimensionalen Merkmal-Raums 40 (in 2 gezeigt) gemäß der vorliegenden Erfindung zeigt. Als ein vorläufiger Schritt wird der Problem-Raum definiert, indem die zu analysierende Datensammlung identifiziert wird (Block 101). Der Problem-Raum kann jegliche Sammlung von strukturierten oder unstrukturierten Datensammlungen sein, welche Dokumente oder Genom- oder Proteinsequenzen enthalten, wie durch den Fachmann anerkannt werden wird. Die Datensammlungen 41 werden von der Datenquelle 14 (in 1 gezeigt) erlangt (Block 102).
  • Sobald identifiziert und erlangt, werden die Datensammlungen 41 nach Merkmalen analysiert (Block 103), wie im Folgenden mit Bezug auf 8 weiter beschrieben. Während der Merkmalsanalyse wird eine geordnete Matrix 79, welche die Auftritts-Häufigkeit von extrahierten Merkmalen abbildet (unten in 14 gezeigt), konstruiert, um den semantischen Inhalt, welcher den Datensammlungen 41 inhärent ist, zusammenzufassen. Schließlich kann der semantische Inhalt, welcher von den Datensammlungen 41 extrahiert ist, optional grafisch dargestellt und visualisiert werden (Block 104), wie in unserer U.S.-Patentanmeldung Serial No. 09/944,475 , eingereicht am 31. August 2001; U.S.-Patentanmeldung Serial No. 09/943,918 , eingereicht am 31. August 2001; und U.S.-Patentanmeldung Serial No. 10/084,401 , eingereicht am 25. Februar 2002, beschrieben. Das Verfahren schließt dann ab.
  • 8 ist ein Ablaufdiagramm, welches die Routine 110 zur Durchführung einer Merkmalsanalyse zur Verwendung in dem Verfahren 100 von 7 zeigt. Der Grund für diese Routine liegt in der Extrahierung und Indexierung von Merkmalen von den Datensammlungen 41. In der beschriebenen Ausführungsform werden Ausdrücke und Phrasen typischerweise aus Dokumenten extrahiert. Dokument-Merkmale können ebenfalls eine Absatz-Zählung, Sätze, ein Datum, einen Titel, eine Datei, einen Autor, ein Thema, eine Zusammenfassung usw. enthalten. Für Genom- und Proteinsequenzen werden Marker extrahiert. Für weitere Formen von strukturierten oder unstrukturierten Daten werden atomistische Dateneinheiten, welche einem semantischen Inhalt charakteristisch sind, extrahiert, wie durch den Fachmann erkannt werden wird.
  • Zuvor wird jede Datensammlung 41 in dem Problem-Raum vorverarbeitet (Block 111), um Stopp-Wörter oder ähnlich atomare, nicht-beweiskräftige Dateneinheiten zu entfernen. Bei Datensammlungen 41, welche Dokumente enthalten, enthalten Stopp-Wörter allgemein auftretende Wörter, wie beispielsweise unbestimmte Artikel („ein" und „eine"), bestimmte Artikel („der", „die", „das"), Pronomen („ich", „er" und „sie"), Verbindungsworte („und" und „oder") und ähnliche nichtsubstantive Wörter. Für Genom- und Proteinsequenzen enthalten Stopp-Wörter Nicht-Marker-Nachfolgekombinationen. Weitere Formen von Stopp-Wörtern oder nicht-beweiskräftigen Dateneinheiten können eine Entfernung oder Filterung erfordern, wie durch den Fachmann anerkannt werden wird.
  • Der Vorverarbeitung folgend, wird die Auftritts-Häufigkeit von Merkmalen für jede Datensammlung 41 bestimmt (Block 112), wie im Folgenden mit Bezug auf 9 weiter beschrieben. Optional wird ein Histogramm 83 von der Häufigkeit von Merkmalsauftritten pro Dokument oder Datensammlung (in 4 gezeigt) logisch erzeugt (Block 113). Jedes Histogramm 83, wie im Folgenden mit Bezug auf 13 weiter beschrieben, bildet die relative Auftritts-Häufigkeit von jedem extrahierten Merkmal auf einer Pro- Dokument-Basis ab. Als Nächstes wird die Auftritts-Häufigkeit von Merkmalen für alle Datensätze 41 über den gesamten Problem-Raum abgebildet (Block 114), indem eine geordnete Merkmals-Häufigkeits-Abbildungsmatrix 79 erzeugt wird, wie im Folgenden mit Bezug auf 14 weiter beschrieben. Optional wird ein Merkmals-Häufigkeits-Auftritt-Kurvenverlauf 84 (in 4 gezeigt) logisch erzeugt (Block 115). Der Korpus-Kurvenverlauf, wie im Folgenden mit Bezug auf 15 weiter beschrieben, wird für alle Datensätze 41 erzeugt und bildet grafisch die semantisch bezogenen Konzepte, basierend auf den kumulativen Auftritten von den extrahierten Merkmalen ab.
  • Eine Mehrfachauflösungs-Analyse wird auf der geordneten Häufigkeits-Abbildungsmatrix 79 (Block 116) durchgeführt, wie im Folgenden mit Bezug auf 16 weiter beschrieben. Eine Gruppen-Neuordnung erzeugt einen Satz von geordneten Vektoren, wobei jeder ein „semantisches" Signal enthält, welches herkömmlichen Signalverarbeitungstechniken zugänglich ist. Somit können die geordneten Vektoren analysiert, wie beispielsweise über eine Mehrfachauflösungs-Analyse, quantisiert (Block 117) und encodiert (Block 118), wie im Stand der Technik bekannt, werden. Die Routine kehrt dann zurück.
  • 9 ist ein Ablaufdiagramm, welches die Routine 120 zum Bestimmen einer Häufigkeit von Konzepten zur Verwendung in der Routine von 8 zeigt. Der Zweck von dieser Routine liegt in der Extrahierung von einzelnen Merkmalen von jeder Datensammlung und in der Erzeugung einer normalisierten Darstellung von den Merkmalsauftritten und Nebenauftritten auf einer Pro-Datensammlung-Basis. In der beschriebenen Ausführungsform werden Merkmale für Dokumente auf der Basis von den extrahierten Nominalphrasen bestimmt, obwohl einzelne Nomen oder Tri-Grams (Wort-Dreiergruppen) anstelle von Nominalphrasen verwendet werden können. Ausdrücke und Phrasen werden typischerweise von den Dokumenten unter Verwendung des LinguistX-Produktes extrahiert, welches durch Inxight-Software, INC., Santa Clara, California, lizenziert. Weitere Dokument-Merkmale können ebenfalls extrahiert werden, welche eine Absatz-Zählung, Sätze, ein Datum, einen Titel, ein Verzeichnis, eine Datei, einen Autor, ein Thema, eine Zusammenfassung, Verbphrasen, usw. enthalten. Die Genom- und Proteinsequenzen werden ähnlich unter Verwendung von erkannten Protein- und Amino-Markern, extrahiert, wie im Stand der Technik bekannt.
  • Jede Datensammlung wird iterativ wie folgt verarbeitet (Blöcke 121-126). Zuerst werden einzelne Merkmale, wie beispielsweise Nominalphrasen oder Genom- und Proteinsequenz-Marker, von jeder Datensammlung 41 extrahiert (Block 122). Sobald extrahiert, werden die einzelnen Merkmale in Aufzeichnungen geladen, welche in der Datenbank 30 gespeichert sind (in 1 gezeigt) (Block 123). Die in der Datenbank 30 gespeicherten Merkmale werden normalisiert (Block 124), so dass jedes Merkmal lediglich ein Mal als eine Aufzeichnung erscheint. In der beschriebenen Ausführungsform werden die Aufzeichnungen in die dritte normale Form normalisiert, obwohl weitere Normalisierungs-Schemata verwendet werden können. Eine Merkmals-Häufigkeits-Tabelle 78 (in 5 gezeigt) wird für die Datensammlung 41 erzeugt (Block 125). Die Merkmals-Häufigkeits-Tabelle 78 bildet die Anzahl von Auftritten und Nebenauftritten von jedem extrahierten Merkmal für die Datensammlung ab. Eine iterative Verarbeitung setzt sich für jede verbleibende Datensammlung 41 fort (Block 126), nach welcher die Routine zurückkehrt.
  • 10 ist ein Datenstruktur-Diagramm, welches eine Datenbank-Aufzeichnung 130 für ein Merkmal zeigt, welches in der Datenbank 30 von 1 gespeichert ist. Jede Datenbank-Aufzeichnung 130 enthält Felder zum Speichern einer Kennung 131, eines Merkmals 132 und einer Häufigkeit 133. Die Kennung 131 ist ein monoton ansteigender Ganzzahlwert, welcher das Merkmal 132, welches in jeder Aufzeichnung 130 gespeichert ist, eindeutig identifiziert. Die Kennung 131 kann gleichwertig jegliche weitere Form von einer unverwechselbaren Kennzeichnung sein, wie durch den Fachmann anerkannt werden wird. Die Auftritts-Häufigkeit von jedem Merkmal wird in die Häufigkeit 133 sowohl auf einer Pro-Fall-Sammlung und von gesamten Problem-Raum-Basen aufgegangen.
  • 11 ist ein Datenstruktur-Diagramm, welches mittels Beispiel eine Datenbank-Tabelle 140 zeigt, welche ein Lexikon 141 von extrahierten Merkmalen enthält, welche in der Datenbank 30 von 1 gespeichert sind. Das Lexikon 141 bildet die einzelnen Auftritte von identifizierten Merkmalen 143 ab, welche für jegliche vorgegebene Datensammlung 142 extrahiert sind. Mittels Beispiel enthält die Datensammlung 142 drei Merkmale, welche mit 1, 3 und 5 nummeriert sind. Das Merkmal 1 tritt ein Mal in der Datensammlung 142 auf, das Merkmal 3 tritt zwei Mal auf und das Merkmal 5 tritt ebenfalls ein Mal auf. Das Lexikon wird die Auftritts-Häufigkeit von den Merkmalen 1, 3 und 5 über alle Datensammlungen 44 in dem Problem-Raum hinweg zusammenzählen und darstellen.
  • Die extrahierten Merkmale in dem Lexikon 141 können grafisch visualisiert werden. 12 ist ein Kurvenverlauf, welcher mittels Beispiel ein Histogramm 150 von den Häufigkeiten von Merkmalsauftritten, welche durch die Routine von 9 erzeugt werden, zeigt. Die X-Achse bestimmt die einzelnen Merkmale 151 für jedes Dokument und die Y-Achse bestimmt die Auftritts-Häufigkeiten von jedem Merkmal 152. Die Merkmale werden in Reihenfolge von abnehmender Häufigkeit 153 abgebildet, um einen Kurvenverlauf 154 zu erzeugen, welcher den semantischen Inhalt von dem Dokument 44 darstellt. Demgemäß haben Merkmale, welche auf dem zunehmenden Ende von dem Kurvenverlauf 154 erscheinen, eine hohe Auftritts- Häufigkeit, während Merkmale, welche am abnehmenden Ende von dem Kurvenverlauf 154 erscheinen, eine niedrige Auftritts-Häufigkeit haben.
  • Wieder Bezug nehmend auf 11, spiegelt das Lexikon 141 die Merkmale für einzelne Datensammlungen wider und kann eine wesentliche Anzahl von Merkmalsauftritten in Abhängigkeit von der Größe von der Datensammlung enthalten. Die einzelnen Lexika 141 können logisch zusammengefasst werden, um einen Merkmal-Raum über alle Datensammlungen auszubilden. 13 ist ein Kurvenverlauf 160, welcher mittels Beispiel eine Zunahme in einer Anzahl von Merkmalen in Relation zu einer Anzahl von Datensammlungen zeigt. Die X-Achse bestimmt die Datensammlungen 161 für den Problem-Raum und die Y-Achse bestimmt die Anzahl von extrahierten Merkmalen 162. Eine Abbildung des Merkmal-Raumes (Anzahl von Merkmalen 162) über den Problem-Raum (Anzahl von Datensammlungen 161) erzeugt einen Kurvenverlauf 163, welcher die kumulative Anzahl von Merkmalen darstellt, welcher proportional zur Anzahl von Datensammlungen 161 zunimmt 163. Jedes zusätzliche extrahierte Merkmal erzeugt eine neue Dimension innerhalb des Merkmal-Raumes, welcher, ohne eine Ordnung und Priorisierung, kaum einen semantischen Inhalt auf eine wirksame Weise abstrahiert.
  • 14 ist eine Tabelle, welche mittels Beispiel eine Matrix-Abbildung von Merkmals-Häufigkeiten 170 zeigt, welche durch die Routine von 9 erzeugt wird. Die Merkmals-Häufigkeits-Abbildungs-Matrix 170 bildet Merkmale 173 entlang einer horizontalen Dimension 171 und Datensammlungen 174 entlang einer vertikalen Dimension 172 ab, obwohl die Zuweisung von jeweiligen Dimensionen willkürlich ist und invers neu zugewiesen werden kann, wie durch den Fachmann anerkannt werden wird. Jede Zelle 175 innerhalb der Matrix 170 enthält die kumulative Anzahl von Auftritten für jedes Merkmal 173 innerhalb einer vorgegebenen Datensammlung 174. Demgemäß bildet jede Merkmals-Spalte einen Merkmalssatz 176, und jede Datensammlungs-Zeile bildet einen Fall oder ein Muster 177. Jedes Muster 177 stellt ein eindimensionales Signal in skalierbarer Vektorform dar, und konzeptionell unwesentliche Merkmale innerhalb des Musters 177 stellen Rauschen dar.
  • 15 ist ein Kurvenverlauf, welcher mittels Beispiel einen Korpus-Kurvenverlauf 180 von der Häufigkeit von Merkmalsauftritten zeigt, welche durch die Routine von 9 erzeugt wird. Der Kurvenverlauf 180 visualisiert die extrahierten Merkmale, wie in der Merkmals-Häufigkeits-Abbildungs-Matrix 170 (in 14 gezeigt) aufgezählt. Die X-Achse bestimmt die einzelnen Merkmale 181 für alle Datensammlungen und die Y-Achse bestimmt die Anzahl von Datensammlungen 41, welche auf jedes Merkmal 182 Bezug nehmen. Die einzelnen Merkmale werden in Reihenfolge einer abnehmenden Auftritts-Häufigkeit 183 abgebildet, um einen Kurvenverlauf 184 zu erzeugen, welcher die latenten Semantiken von dem Satz von Datensammlungen 41 darstellt. Der Kurvenverlauf 184 wird dazu verwendet, um Gruppen zu erzeugen, wobei diese auf geordnete und priorisierte eindimensionale Projektionen im Hilbert-Funktion-Raum projiziert werden.
  • Während der Gruppenausbildung wird ein Mittelwert 185 ausgewählt, und es werden Kantenbedingungen 186a-b aufgebaut, um zwischen Merkmalen, welche zu häufig auftreten, gegen Merkmale, welche zu unhäufig auftreten, zu unterscheiden. Jene Datensammlungen, welche innerhalb der Kantenbedingungen 186a-b fallen, bilden einen Teilsatz von Datensammlungen aus, welche latente Merkmale enthalten. In der beschriebenen Ausführungsform ist der Mittelwert 185 Datensammlungstyp abhängig. Aus Gründen der Wirksamkeit wird die Obere-Kante-Bedingung 186b auf 70% eingestellt, und ein Teilsatz von den Merkmalen, welche unmittelbar der Obere-Kante-Bedingung 186b folgen, wird ausgewählt, obwohl weitere Formen von einer Schwellwert-Unterscheidung ebenfalls verwendet werden können.
  • 16 ist ein Ablaufdiagramm 190, welches eine Routine zur Transformation eines Problem-Raums in einen Skala-Raum zur Verwendung in der Routine von 8 zeigt. Der Zweck von dieser Routine liegt in der Erzeugung von Gruppen 80 (in 4 gezeigt), welche dazu verwendet werden, um eindimensionale Projektionen 81 (in 4 gezeigt) in einen Skala-Raum auszubilden, von welchem aus kritische Merkmale identifiziert werden.
  • Kurz gesagt wird eine einzelne Gruppe anfänglich erzeugt, und zusätzliche Gruppen werden unter Verwendung von einer bestimmten Form von einer unüberwachten Gruppenbildung hinzugefügt, wie beispielsweise eine einfache Gruppenbildung, eine hierarchische Gruppenbildung, Aufteilungsverfahren und Zusammenführverfahren, wie beschrieben in T. Kohonen, Ibid. at CH. 1.3. Die Form der Gruppenbildung, welche verwendet wird, ist nicht kritisch und kann jegliche weitere Form von einem unüberwachten Training sein, wie im Stand der Technik bekannt. Jede Gruppe enthält jene Datensammlungen, welche anverwandte Merkmale gemeinsam benutzen, wie durch eine bestimmte Distanzmetrik gemessen, welche im multidimensionalen Merkmal-Raum abgebildet wird. Die Gruppen werden auf eindimensionale geordnete Vektoren projiziert, welche als Wavelet- und Skalierungs-Koeffizienten encodiert sind, und nach kritischen Merkmalen analysiert.
  • Anfangs wird eine Varianz, welche eine obere Grenze auf der Distanz-Messung in dem multidimensionalen Merkmal-Raum spezifiziert, bestimmt (Block 191). In der beschriebenen Ausführungsform wird eine Varianz von 5% spezifiziert, obwohl weitere Varianzwerte, entweder größer oder kleiner als 5%, als geeignet verwendet werden können. Jene Gruppen, welche außerhalb der vorbestimmten Varianz fallen, werden in separate Gruppen gruppiert, so dass die Merkmale über einen aussagekräftigen Bereich von Gruppen verteilt werden, und jeder Fall in dem Problem-Raum in zumindest einer Gruppe erscheint.
  • Die Merkmals-Häufigkeits-Abbildungsmatrix 170 (in 14 gezeigt) wird dann abgerufen (Block 192). Die geordnete Merkmals-Häufigkeits-Abbildungsmatrix 79 wird in einem multidimensionalen Merkmal-Raum ausgedrückt. Jedes Merkmal erzeugt eine neue Dimension, welche die Merkmal-Raum-Größe linear mit jedem aufeinanderfolgend extrahierten Merkmal erhöht. Demgemäß werden die Datensammlungen iterativ verarbeitet (Blöcke 193-197), um den multidimensionalen Merkmal-Raum in einem einzeldimensionalen Dokumentenvektor (Signal), wie folgt, zu transformieren. Während jeder Iteration (Block 193) wird ein Muster 177 für die derzeitige Datensammlung von der Merkmals-Haufigkeits-Abbildungsmatrix 170 extrahiert (Block 194). Ähnlichkeits-Messungen werden von dem Muster 177 erzeugt und anverwandte Merkmale werden in Gruppen 80 (in 5 gezeigt) ausgebildet (Block 195), indem eine bestimmte Form einer unüberwachten Gruppierung verwendet wird, wie oben beschrieben. Jene Merkmale, welche innerhalb der vorbestimmten Varianz fallen, wie durch die Distanzmetrik gemessen, werden in derselben Gruppe identifiziert und gruppiert, während jene Merkmale, welche außerhalb der vorbestimmten Varianz fallen, einer weiteren Gruppe zugewiesen werden.
  • Als Nächstes werden die Gruppen 80 im Merkmal-Raum jeweils auf ein eindimensionales Signal in skalierbarer Vektorform projiziert (Block 196). Die geordneten Vektoren bilden ein „semantisches" Signal, welches Signalverarbeitungstechniken, wie beispielsweise eine Mehrfachauflösungs-Analyse, zugänglich ist. In der beschriebenen Ausführungsform werden die Gruppen 80 durch ein iteratives Ordnen der Merkmale, welche zu jeder Gruppe identifiziert sind, in den Vektor 61 projiziert. Alternativ kann eine Gruppenausbildung (Block 195) und Projektion (Block 196) in einem einzelnen Satz von Betrieben unter Verwendung einer selbstorganisierenden Abbildung, wie beispielsweise beschrieben in T. Kohonen, Ibid. at Ch. 3, durchgeführt werden. Weitere Verfahren zum Erzeugen von Ähnlichkeits-Messungen, Ausbilden von Gruppen und Projizieren in einen Skala-Raum können gleichwertig angewendet werden und durch die vorhergehend beschriebenen Annäherungen ersetzt oder damit in Kombination durchgeführt werden, wie durch den Fachmann anerkannt werden wird. Eine iterative Verarbeitung fährt dann für jede verbleibende nächste Datensammlung fort (Block 197), wonach die Routine zurückkehrt.
  • 17 ist ein Ablaufdiagramm 200, welches die Routine zum Erzeugen von Ähnlichkeits-Messungen und Ausbilden von Gruppen zur Verwendung in der Routine von 16 zeigt. Der Zweck von dieser Routine liegt in der Identifizierung jener Merkmale, welche innerhalb des Merkmal-Raumes eine nächste Ähnlichkeit haben, und zum Gruppieren von zwei oder mehreren Sätzen von ähnlichen Merkmalen in einzelne Gruppen. Die Gruppen ermöglichen eine Visualisierung des multidimensionalen Merkmal-Raums.
  • Merkmale und Gruppen werden in einem Paar von verschachtelten Schleifen (Blöcke 201-212 und 204-209) iterativ verarbeitet. Während jeder Iteration von der äußeren Verarbeitungsschleife (Blöcke 201-212) wird jedes Merkmal i verarbeitet (Block 201). Das Merkmal i wird zuerst ausgewählt (Block 202) und die Varianz θ für das Merkmal i wird berechnet (Block 203).
  • Während jeder Iteration von der inneren Verarbeitungsschleife (Block 204-209) wird jede Gruppe j verarbeitet (Block 204). Die Gruppe j wird ausgewählt (Block 205) und der Winkel σ in Relation zum gemeinsamen Ursprung wird für die Gruppe j berechnet (Block 206). Es ist zu erwähnen, dass der Winkel σ regelmäßig für jede Gruppe j neu berechnet werden muss, da Merkmale den Gruppen hinzugefügt werden oder aus diesen entfernt werden. Die Differenz zwischen dem Winkel θ für das Merkmal i und dem Winkel σ für die Gruppe j wird mit der vorbestimmten Varianz verglichen (Block 207). Wenn die Differenz kleiner als die vorbestimmte Varianz ist (Block 207), wird das Merkmal i in die Gruppe j gesetzt (Block 208), und die iterative Verarbeitungsschleife (Block 204-209) wird abgeschlossen. Wenn die Differenz größer als gleich der Varianz ist (Block 207), wird die nächste Gruppe j verarbeitet (Block 209), bis alle Gruppen verarbeitet wurden (Blöcke 204-209).
  • Wenn die Differenz zwischen dem Winkel θ für das Merkmal i und dem Winkel σ für jede der Gruppen die Varianz übersteigt, wird eine neue Gruppe erzeugt (Block 210) und der Zähler num_clusters wird erhöht (Block 211). Die Verarbeitung fährt mit dem nächsten Merkmal i fort (Block 212), bis alle Merkmale verarbeitet wurden (Blöcke 201-212). Die Kategorisierung von Gruppen wird wiederholt (Block 213), wenn notwendig. In der beschriebenen Ausführungsform wird die Gruppen-Kategorisierung (Blöcke 201-212) zumindest ein Mal wiederholt, bis der Satz von Gruppen festgelegt ist. Schließlich können die Gruppen als ein optionaler Schritt finalisiert werden (Block 214). Eine Finalisierung enthält eine Zusammenfügung von zwei oder mehreren Gruppen in eine einzelne Gruppe, eine Aufteilung einer einzelnen Gruppe in zwei oder mehrere Gruppen, eine Entfernung von Minimal- oder Ausreißer-Gruppen und ähnliche Betriebe, wie durch den Fachmann anerkannt werden wird. Die Routine kehrt dann zurück.
  • 18 ist eine Tabelle 210, welche mittels Beispiel die Merkmalsgruppen zeigt, welche durch die Routine von 17 erzeugt werden. Idealerweise sollte jedes der Merkmale 211 in zumindest einer der Gruppen 212 erscheinen, wodurch sichergestellt wird, dass jede Datensammlung in einer bestimmten Gruppe erscheint. Die Distanzberechnungen 213a-d zwischen den Datensammlungen für ein vorgegebenes Merkmal werden bestimmt. Jene Distanzwerte 213a-d, welche innerhalb einer vorbestimmten Varianz fallen, werden jeder einzelnen Gruppe zugewiesen. Die Tabelle 210 kann dazu verwendet werden, um die Gruppen in einem multidimensionalen Merkmal-Raum zu visualisieren.
  • 19 ist ein Ablaufdiagramm, welches eine Routine zum Identifizieren von kritischen Merkmalen zur Verwendung in den Verfahren von 7 zeigt. Der Zweck von dieser Routine liegt in der Transformation des Skala-Raum-Vektors in variierende Detailpegel mit Wavelet- und Skalierungs-Koeffizienten über eine Mehrfachauflösungs-Analyse. Eine Wavelet-Dekomposition ist eine Form einer Signalfilterung, welche eine grobe Zusammenfassung von den ursprünglichen Daten und Details, welche während einer Dekomposition verloren gehen, bereitstellt, wodurch es erlaubt wird, dass der Datenstrom mehrere Detailpegel ausdrückt. Jeder Wavelet- und Skalierungs-Koeffizient wird durch eine Mehrfachauflösungs-Analyse ausgebildet, welche typischerweise den Datenstrom während jedes rekursiven Schrittes halbiert.
  • Somit wird die Größe des eindimensional geordneten Vektors 61 (in 4 gezeigt) durch die Gesamtanzahl von Merkmalen n im Merkmal-Raum bestimmt (Block 221). Der Vektor 61 wird dann über jeden Mehrfachauflösungs-Pegel wie folgt iterativ verarbeitet (Blöcke 222-225). Zunächst werden n/2 Wavelet-Koeffizienten und n/2 Skalierungsfunktionen φ von dem Vektor 61 erzeugt, um Wavelet-Koeffizienten und Skalierungs-Koeffizienten auszubilden. Inder beschriebenen Ausführungsform werden die Wavelet- und Skalierungs-Koeffizienten durch Falten der Wavelet Ψ und Skalierung φ Funktionen mit den geordneten Dokumentenvektoren in einen kontinuierlichen Satz von Werten in dem Vektor 61 erzeugt. Weitere Verfahren zum Falten von Wavelet Ψ und Skalierung φ Funktionen können ebenfalls verwendet werden, wie durch den Fachmann erkannt werden wird.
  • Der ersten Iteration von der Wavelet- und Skalierungs-Koeffizientenerzeugung folgend, wird die Anzahl von Merkmalen n herunter abgetastet (Block 224) und jeder verbleibende Mehrfachauflösungs-Pegel wird iterativ verarbeitet (Blöcke 222-225), bis die gewünschte minimale Auflösung des Signals erzielt ist. Die Routine kehrt dann zurück.
  • Obwohl die Erfindung insbesondere bezogen auf die Ausführungsformen davon gezeigt und beschrieben wurde, wird der Fachmann verstehen, dass die vorgenannten und weiteren Änderungen in der Form und im Detail darin vorgenommen werden können, ohne vom Umfang der Erfindung abzuweichen.

Claims (19)

  1. System (10) zum Identifizieren semantisch bezogener Merkmale (212) in einem geordneten Skala-Raum innerhalb eines multidimensionalen Vektor-Raums, welche eine Mehrzahl von Dokumenten darstellen, welches enthält: einen Merkmals-Analysator (72), welcher anfangs Merkmale (173) verarbeitet (110), welcher enthält: einen Merkmals-Extraktor (71), welcher die Merkmale von einer Mehrzahl von Dokumenten (21) extrahiert (122) und jedes Merkmal normalisiert (124); und einen Merkmals-Abbilder (79), welcher Häufigkeiten eines Auftritts (183) für jedes der Merkmale (173) in den Dokumenten (21) bestimmt und die Häufigkeiten eines Auftrittes (183) in Vektoren (177) mit einem Vektor (177) für jedes Dokument (21) abbildet (114); einen unbeaufsichtigten Klassifizierer (73), welcher Ähnlichkeits-Messungen zwischen den Häufigkeiten eines Auftrittes (183) in jedem Vektor (177) erzeugt (195) und Gruppen (80) ausbildet, wobei jede ein oder mehrere der Merkmale (173) enthält, welche Ähnlichkeits-Messungen innerhalb einer vorbestimmten Varianz haben; einen Skala-Raum Umformer (74), welcher die Merkmale (173) in jedem eindimensionalen Signal (81) ordnet, indem eine Ähnlichkeit verringert wird, und jede Gruppe (80) auf jedes eindimensionale Signal (81) unter Verwendung von Wavelets und Skalierungs-Koeffizienten projiziert wird; und einen Merkmals-Identifizierer (75), welcher die Wavelets und Skalierungs-Koeffizienten von jedem eindimensionalen Signal (81) durch sukzessive Detailpegel rekursiv herleitet (220), indem die Anzahl von abgetasteten Merkmalen verringert wird und die Wavelets und Skalierungs-Koeffizienten für die Merkmale von den Dokumenten analysiert werden.
  2. System nach Anspruch 1, welches ferner enthält: einen Vorprozessor, welcher jedes der Dokumente (21) vor einer Merkmals-Extraktion zum Identifizieren und logischen Entfernen von Stopp-Wörtern vorverarbeitet (111).
  3. System nach Anspruch 1, welches ferner enthält: einen Datenbank-Rufzeichner (130), welcher ein einzelnes Auftreten von jedem Merkmal (173) in normalisierter Form speichert.
  4. System nach Anspruch 1, welches ferner enthält: einen Merkmals-Häufigkeits-Abbilder (79), welcher die Vektoren (177) in eine Dokument-Merkmals-Matrix (170) gemäß dem Dokument (21) anordnet, von welchem die Merkmale (173) in jedem Vektor (177) extrahiert sind.
  5. System nach Anspruch 1, welches ferner enthält: ein Ähnlichkeits-Modul, welches eine Distanz-Messung zwischen jeder Auftritts-Häufigkeit (183) als eine Ähnlichkeits-Messung berechnet.
  6. System nach Anspruch 7, welches ferner enthält: ein Eigenorganisations-Kennfeld des multidimensionalen Vektor-Raums, welches vor der Projektion ausgebildet ist.
  7. System nach Anspruch 1, bei welchem der unbeaufsichtigte Klassifizierer (73) die Gruppen (80) kategorisiert, welcher enthält: einen Varianz-Bestimmer, welcher eine Varianz für jedes der Merkmale (173) bestimmt (203); einen Winkel-Bestimmer, welcher einen Winkel in Relation zu einem allgemeinen Ursprung für jede der Gruppen bestimmt (206); und einen Gruppen-Zuweiser, welcher jene Merkmale in die Gruppe zuweist (208), bei welchen der Winkel und die Varianz innerhalb der vorbestimmten Varianz sind.
  8. System nach Anspruch 7, bei welchem der unbeaufsichtigte Klassifizier (73) wiederholt die Gruppen (80) kategorisiert, und der Varianz-Bestimmer eine Varianz für jedes der Merkmale (173) neu bestimmt (203); wobei der Winkel-Bestimmer den Winkel in Relation zum allgemeinen Ursprung für jene Gruppen neu bestimmt (206), von welchen oder in welche ein oder mehrere der Merkmale jeweils entfernt oder zugewiesen sind; und der Gruppen-Zuweiser zumindest eines aus einem Entfernen jener Merkmale aus der Gruppe, bei welchen der Winkel und die Varianz außerhalb der vorbestimmten Varianz sind, und einem Zuweisen (208) jener Merkmale in die Gruppe, bei welchen der Winkel und die Varianz innerhalb der vorbestimmten Varianz sind, durchführt.
  9. System nach Anspruch 7, bei welchem der unbeaufsichtigte Klassifizierer (73) die Gruppen (80) fertigstellt (214), welcher zumindest eines aus einem Zusammenfassen einer Mehrzahl der Gruppen in eine einzelne Gruppe; Aufteilen einer Gruppe in eine Mehrzahl von Gruppen; und Entfernen von Ausreißer-Gruppen enthält.
  10. Verfahren (100) zum Identifizieren semantisch bezogener Merkmale (212) in einem geordneten Skala-Raum innerhalb eines multidimensionalen Vektor-Raums, welche eine Mehrzahl von Dokumenten (21) darstellen, welches enthält: Verarbeiten von Merkmalen durch Extrahieren (122) der Merkmale (173) von der Mehrzahl von Dokumenten (21), und Normalisieren (124) jedes Merkmals (173); Bestimmen von Häufigkeiten (183) von einem Auftritt für jedes der Merkmale (173) in den Dokumenten (21), und Abbilden (114) der Häufigkeiten eines Auftritts (183) in Vektoren (177) mit einem Vektor (177) für jedes Dokument (21); Erzeugen (195) von Ähnlichkeits-Messungen zwischen den Häufigkeiten eines Auftritts (183) in jedem Vektor (177), und Ausbilden von Gruppen (80), welche jeweils ein oder mehrere der Merkmale (173) enthalten, welche Ähnlichkeits-Messungen innerhalb einer vorbestimmten Varianz haben; Ordnen der Merkmale (173) in jedem eindimensionalen Signal (81) durch Verringern einer Ähnlichkeit; Projizieren (196) von jeder Gruppe (80) auf jedes eindimensionale Signal (81) unter Verwendung von Wavelets und Skalierungs-Koeffizienten; und rekursives Herleiten (220) der Wavelets und Skalierungs-Koeffizienten von jedem eindimensionalen Signal (81) durch sukzessive Detailpegel durch Verringern der Anzahl von abgetasteten Merkmalen, und Analysieren der Wavelets und Skalierungs-Koeffizienten für die Merkmale von den Dokumenten.
  11. Verfahren nach Anspruch 10, welches ferner enthält: Vorverarbeiten (111) jedes der Dokumente (21) vor einer Merkmals-Extraktion zum Identifizieren und logischen Entfernen von Stopp-Wörtern.
  12. Verfahren nach Anspruch 10, welches ferner enthält: Speichern eines einzelnen Auftretens von jedem Merkmal (173) in normalisierter Form.
  13. Verfahren nach Anspruch 10, welches ferner enthält: Anordnen der Vektoren (177) in eine Dokument-Merkmals-Matrix (170) gemäß dem Dokument (21), von welchem die Merkmale (173) in jedem Vektor (177) extrahiert wurden.
  14. Verfahren nach Anspruch 10, welches ferner enthält: Berechnen einer Distanz-Messung zwischen jeder Häufigkeit eines Auftritts (183) als eine Ähnlichkeits-Messung.
  15. Verfahren nach Anspruch 10, welches ferner enthält: Erzeugen eines Eigenorganisations-Kennfeldes des multidimensionalen Vektor-Raums vor einer Projektion.
  16. Verfahren nach Anspruch 10, welches ferner enthält: Kategorisieren der Gruppen (80), welches enthält: Bestimmen (203) von einer Varianz für jedes der Merkmale; Bestimmen (206) eines Winkels in Relation zu einem allgemeinen Ursprung für jede der Gruppen; und Zuweisen (208) jener Merkmale in die Gruppe, bei welchen der Winkel und die Varianz innerhalb der vorbestimmten Varianz sind.
  17. Verfahren nach Anspruch 16, welches ferner enthält: wiederholtes Kategorisieren (213) der Gruppen (80), welches ferner enthält: Neubestimmen (203) einer Varianz für jedes der Merkmale; Neubestimmen (206) des Winkels in Relation zum allgemeinen Ursprung für jene Gruppen, von welchen oder in welche ein oder mehrere der Merkmale jeweils entfernt oder zugewiesen sind; und Durchführen von zumindest einem aus: Entfernen jener Merkmale aus der Gruppe, bei welchen der Winkel und die Varianz außerhalb der vorbestimmten Varianz sind; und Zuweisen (208) jener Merkmale in die Gruppe, bei welchen der Winkel und die Varianz innerhalb der vorbestimmten Varianz sind.
  18. Verfahren nach Anspruch 16, welches ferner enthält: Fertigstellen (214) der Gruppen, welches zumindest eines enthält aus: Zusammenfassen einer Mehrzahl der Gruppen in eine einzelne Gruppe; Aufteilen einer Gruppe in eine Mehrzahl von Gruppen; und Entfernen von Ausreißer-Gruppen.
  19. Computerlesbares Speichermedium für eine Vorrichtung, welches einen Kode zum Durchführen des Verfahrens gemäß einem der Ansprüche 10 bis 18 enthält.
DE60315506T 2002-12-11 2003-12-11 Identifizierung von kritischen merkmalen in einem geordneten skala-raum Expired - Lifetime DE60315506T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/317,438 US20050171948A1 (en) 2002-12-11 2002-12-11 System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US317438 2002-12-11
PCT/US2003/039356 WO2004053771A2 (en) 2002-12-11 2003-12-11 Identifying critical features in ordered scale space

Publications (2)

Publication Number Publication Date
DE60315506D1 DE60315506D1 (de) 2007-09-20
DE60315506T2 true DE60315506T2 (de) 2008-04-17

Family

ID=32506121

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60315506T Expired - Lifetime DE60315506T2 (de) 2002-12-11 2003-12-11 Identifizierung von kritischen merkmalen in einem geordneten skala-raum

Country Status (7)

Country Link
US (1) US20050171948A1 (de)
EP (1) EP1573660B1 (de)
AT (1) ATE369591T1 (de)
AU (1) AU2003293498A1 (de)
CA (1) CA2509580C (de)
DE (1) DE60315506T2 (de)
WO (1) WO2004053771A2 (de)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US7567972B2 (en) * 2003-05-08 2009-07-28 International Business Machines Corporation Method and system for data mining in high dimensional data spaces
US7139764B2 (en) * 2003-06-25 2006-11-21 Lee Shih-Jong J Dynamic learning and knowledge representation for data mining
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7565346B2 (en) * 2004-05-31 2009-07-21 International Business Machines Corporation System and method for sequence-based subspace pattern clustering
US7716162B2 (en) * 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
US8386232B2 (en) * 2006-06-01 2013-02-26 Yahoo! Inc. Predicting results for input data based on a model generated from clusters
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
MY183641A (en) * 2007-06-01 2021-03-04 Kba Notasys Sa Authentication of security documents, in particular of banknotes
US7769782B1 (en) * 2007-10-03 2010-08-03 At&T Corp. Method and apparatus for using wavelets to produce data summaries
US8103671B2 (en) * 2007-10-11 2012-01-24 Honda Motor Co., Ltd. Text categorization with knowledge transfer from heterogeneous datasets
US7987195B1 (en) 2008-04-08 2011-07-26 Google Inc. Dynamic determination of location-identifying search phrases
WO2010024893A1 (en) * 2008-08-26 2010-03-04 Ringleader Digital Nyc Uniquely identifying network-distributed devices without explicitly provided device or user identifying information
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US20100145720A1 (en) * 2008-12-05 2010-06-10 Bruce Reiner Method of extracting real-time structured data and performing data analysis and decision support in medical reporting
US20110153680A1 (en) * 2009-12-23 2011-06-23 Brinks Hofer Gilson & Lione Automated document classification and routing
US20120296941A1 (en) * 2010-02-03 2012-11-22 Nokia Corporation Method and Apparatus for Modelling Personalized Contexts
CN102368334A (zh) * 2011-09-07 2012-03-07 常州蓝城信息科技有限公司 基于老龄用户多方式隐式语义分析处理方法
US10163063B2 (en) * 2012-03-07 2018-12-25 International Business Machines Corporation Automatically mining patterns for rule based data standardization systems
US9069880B2 (en) * 2012-03-16 2015-06-30 Microsoft Technology Licensing, Llc Prediction and isolation of patterns across datasets
US8805842B2 (en) 2012-03-30 2014-08-12 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of National Defence, Ottawa Method for displaying search results
US9251180B2 (en) * 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
US9229800B2 (en) * 2012-06-28 2016-01-05 Microsoft Technology Licensing, Llc Problem inference from support tickets
US9262253B2 (en) 2012-06-28 2016-02-16 Microsoft Technology Licensing, Llc Middlebox reliability
US20140006369A1 (en) * 2012-06-28 2014-01-02 Sean Blanchflower Processing structured and unstructured data
US9565080B2 (en) 2012-11-15 2017-02-07 Microsoft Technology Licensing, Llc Evaluating electronic network devices in view of cost and service level considerations
US9325748B2 (en) 2012-11-15 2016-04-26 Microsoft Technology Licensing, Llc Characterizing service levels on an electronic network
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US9350601B2 (en) 2013-06-21 2016-05-24 Microsoft Technology Licensing, Llc Network event processing and prioritization
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US10671675B2 (en) 2015-06-19 2020-06-02 Gordon V. Cormack Systems and methods for a scalable continuous active learning approach to information classification
US9959328B2 (en) 2015-06-30 2018-05-01 Microsoft Technology Licensing, Llc Analysis of user text
US10402435B2 (en) 2015-06-30 2019-09-03 Microsoft Technology Licensing, Llc Utilizing semantic hierarchies to process free-form text
US10089576B2 (en) * 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
US10679008B2 (en) * 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
CN108319626B (zh) * 2017-01-18 2022-06-03 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN107644104B (zh) * 2017-10-17 2021-06-25 北京锐安科技有限公司 一种文本特征提取方法及系统
US11501186B2 (en) * 2019-02-27 2022-11-15 Accenture Global Solutions Limited Artificial intelligence (AI) based data processing
CN111827370A (zh) * 2019-04-17 2020-10-27 福建农林大学 基于小波系数相位角变化的桩基损伤位置判别方法
US11734331B1 (en) * 2022-02-18 2023-08-22 Peakspan Capital Management, Llc Systems and methods to optimize search for emerging concepts

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3426210A (en) * 1965-12-22 1969-02-04 Rca Corp Control circuit for automatically quantizing signals at desired levels
BE757866A (fr) * 1969-12-22 1971-04-01 Ibm Element de memoire a disque magnetique et appareil d'enregistrement en faisant usage
US4893253A (en) * 1988-03-10 1990-01-09 Indiana University Foundation Method for analyzing intact capsules and tablets by near-infrared reflectance spectrometry
US5121338A (en) * 1988-03-10 1992-06-09 Indiana University Foundation Method for detecting subpopulations in spectral analysis
US5860136A (en) * 1989-06-16 1999-01-12 Fenner; Peter R. Method and apparatus for use of associated memory with large key spaces
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
AU3969093A (en) * 1992-04-30 1993-11-29 Apple Computer, Inc. Method and apparatus for organizing information in a computer system
JP3364242B2 (ja) * 1992-07-03 2003-01-08 株式会社東芝 人工的神経回路網のリンク学習装置
US5528735A (en) * 1993-03-23 1996-06-18 Silicon Graphics Inc. Method and apparatus for displaying data within a three-dimensional information landscape
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US6173275B1 (en) * 1993-09-20 2001-01-09 Hnc Software, Inc. Representation and retrieval of images using context vectors derived from image information elements
US5619632A (en) * 1994-09-14 1997-04-08 Xerox Corporation Displaying node-link structure with region of greater spacings and peripheral branches
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5635929A (en) * 1995-02-13 1997-06-03 Hughes Aircraft Company Low bit rate video encoder and decoder
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
US5862325A (en) * 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US5864871A (en) * 1996-06-04 1999-01-26 Multex Systems Information delivery system and method including on-line entitlements
US5909677A (en) * 1996-06-18 1999-06-01 Digital Equipment Corporation Method for determining the resemblance of documents
JP3540511B2 (ja) * 1996-06-18 2004-07-07 株式会社東芝 電子署名検証装置
US5864846A (en) * 1996-06-28 1999-01-26 Siemens Corporate Research, Inc. Method for facilitating world wide web searches utilizing a document distribution fusion strategy
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
GB9713019D0 (en) * 1997-06-20 1997-08-27 Xerox Corp Linguistic search system
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6070133A (en) * 1997-07-21 2000-05-30 Battelle Memorial Institute Information retrieval system utilizing wavelet transform
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
US7209949B2 (en) * 1998-05-29 2007-04-24 Research In Motion Limited System and method for synchronizing information between a host system and a mobile data communication device
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
JP2000019556A (ja) * 1998-06-29 2000-01-21 Hitachi Ltd 液晶表示装置
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
JP3903610B2 (ja) * 1998-09-28 2007-04-11 富士ゼロックス株式会社 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6678705B1 (en) * 1998-11-16 2004-01-13 At&T Corp. System for archiving electronic documents using messaging groupware
US6549957B1 (en) * 1998-12-22 2003-04-15 International Business Machines Corporation Apparatus for preventing automatic generation of a chain reaction of messages if a prior extracted message is similar to current processed message
JP2000187668A (ja) * 1998-12-22 2000-07-04 Hitachi Ltd グループ化方法と重複排除方法
US6349307B1 (en) * 1998-12-28 2002-02-19 U.S. Philips Corporation Cooperative topical servers with automatic prefiltering and routing
US6363374B1 (en) * 1998-12-31 2002-03-26 Microsoft Corporation Text proximity filtering in search systems using same sentence restrictions
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
US6377287B1 (en) * 1999-04-19 2002-04-23 Hewlett-Packard Company Technique for visualizing large web-based hierarchical hyperbolic space with multi-paths
US6701305B1 (en) * 1999-06-09 2004-03-02 The Boeing Company Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6415171B1 (en) * 1999-07-16 2002-07-02 International Business Machines Corporation System and method for fusing three-dimensional shape data on distorted images without correcting for distortion
US6389433B1 (en) * 1999-07-16 2002-05-14 Microsoft Corporation Method and system for automatically merging files into a single instance store
US6523063B1 (en) * 1999-08-30 2003-02-18 Zaplet, Inc. Method system and program product for accessing a file using values from a redirect message string for each change of the link identifier
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6544123B1 (en) * 1999-10-29 2003-04-08 Square Co., Ltd. Game apparatus, command input method for video game and computer-readable recording medium recording programs for realizing the same
US6507847B1 (en) * 1999-12-17 2003-01-14 Openwave Systems Inc. History database structure for Usenet
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
US6571225B1 (en) * 2000-02-11 2003-05-27 International Business Machines Corporation Text categorizers based on regularizing adaptations of the problem of computing linear separators
AU2001242153A1 (en) * 2000-03-17 2001-09-24 Vizible.Com Inc. A three dimensional spatial user interface
US6560597B1 (en) * 2000-03-21 2003-05-06 International Business Machines Corporation Concept decomposition using clustering
US6584564B2 (en) * 2000-04-25 2003-06-24 Sigaba Corporation Secure e-mail system
US7325127B2 (en) * 2000-04-25 2008-01-29 Secure Data In Motion, Inc. Security server system
US7698167B2 (en) * 2000-04-28 2010-04-13 Computer Pundits, Inc. Catalog building method and system
US6879332B2 (en) * 2000-05-16 2005-04-12 Groxis, Inc. User interface for displaying and exploring hierarchical information
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
US6519580B1 (en) * 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
US6697998B1 (en) * 2000-06-12 2004-02-24 International Business Machines Corporation Automatic labeling of unlabeled text data
US20020078090A1 (en) * 2000-06-30 2002-06-20 Hwang Chung Hee Ontological concept-based, user-centric text summarization
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6738759B1 (en) * 2000-07-07 2004-05-18 Infoglide Corporation, Inc. System and method for performing similarity searching using pointer optimization
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20020032735A1 (en) * 2000-08-25 2002-03-14 Daniel Burnstein Apparatus, means and methods for automatic community formation for phones and computer networks
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
AU2002220172A1 (en) * 2000-11-15 2002-05-27 David M. Holbrook Apparatus and method for organizing and/or presenting data
WO2002042982A2 (en) * 2000-11-27 2002-05-30 Nextworth, Inc. Anonymous transaction system
US20020065912A1 (en) * 2000-11-30 2002-05-30 Catchpole Lawrence W. Web session collaboration
US7003551B2 (en) * 2000-11-30 2006-02-21 Bellsouth Intellectual Property Corp. Method and apparatus for minimizing storage of common attachment files in an e-mail communications server
JP4022374B2 (ja) * 2001-01-26 2007-12-19 株式会社ルネサステクノロジ 半導体デバイスの製造方法およびそのシステム
US7366759B2 (en) * 2001-02-22 2008-04-29 Parity Communications, Inc. Method and system for characterizing relationships in social networks
US7353204B2 (en) * 2001-04-03 2008-04-01 Zix Corporation Certified transmission system
US6714929B1 (en) * 2001-04-13 2004-03-30 Auguri Corporation Weighted preference data search system and method
US7020645B2 (en) * 2001-04-19 2006-03-28 Eoriginal, Inc. Systems and methods for state-less authentication
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6735578B2 (en) * 2001-05-10 2004-05-11 Honeywell International Inc. Indexing of knowledge base in multilayer self-organizing maps with hessian and perturbation induced fast learning
US6675164B2 (en) * 2001-06-08 2004-01-06 The Regents Of The University Of California Parallel object-oriented data mining system
US7188107B2 (en) * 2002-03-06 2007-03-06 Infoglide Software Corporation System and method for classification of documents
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US6996575B2 (en) * 2002-05-31 2006-02-07 Sas Institute Inc. Computer-implemented system and method for text-based document processing
US20040034633A1 (en) * 2002-08-05 2004-02-19 Rickard John Terrell Data search system and method using mutual subsethood measures
US20040024755A1 (en) * 2002-08-05 2004-02-05 Rickard John Terrell System and method for indexing non-textual data
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7373612B2 (en) * 2002-10-21 2008-05-13 Battelle Memorial Institute Multidimensional structured data visualization method and apparatus, text visualization method and apparatus, method and apparatus for visualizing and graphically navigating the world wide web, method and apparatus for visualizing hierarchies
US8713018B2 (en) * 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion

Also Published As

Publication number Publication date
WO2004053771A2 (en) 2004-06-24
AU2003293498A1 (en) 2004-06-30
WO2004053771A3 (en) 2004-12-16
CA2509580A1 (en) 2004-06-24
EP1573660A2 (de) 2005-09-14
CA2509580C (en) 2014-12-09
ATE369591T1 (de) 2007-08-15
US20050171948A1 (en) 2005-08-04
DE60315506D1 (de) 2007-09-20
AU2003293498A8 (en) 2004-06-30
EP1573660B1 (de) 2007-08-08

Similar Documents

Publication Publication Date Title
DE60315506T2 (de) Identifizierung von kritischen merkmalen in einem geordneten skala-raum
US7398269B2 (en) Method and apparatus for document filtering using ensemble filters
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
US7831597B2 (en) Text summarization method and apparatus using a multidimensional subspace
US7509578B2 (en) Classification method and apparatus
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN112417153B (zh) 文本分类方法、装置、终端设备和可读存储介质
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
JP2011243148A (ja) 情報処理装置、情報処理方法及びプログラム
JP2009294939A (ja) 文書分類装置
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
CN113239268A (zh) 一种商品推荐方法、装置及系统
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
KR100751295B1 (ko) 질의 기반의 문서요약 장치 및 그 방법
Probierz et al. Clustering of scientific articles using natural language processing
Kanaan et al. kNN Arabic text categorization using IG feature selection
Triwijoyo et al. Analysis of Document Clustering based on Cosine Similarity and K-Main Algorithms
CN100378713C (zh) 为对象分类的自动确定显著特点的方法和装置
Renard Time series representation for classification: a motif-based approach
CN113220855B (zh) 基于it技术问答网站的计算机技术领域发展趋势分析方法
Dos Santos et al. Selecting candidate labels for hierarchical document clusters using association rules
Xu et al. Wavelet-based hierarchical document categorization

Legal Events

Date Code Title Description
8364 No opposition during term of opposition