DE602004003513T2 - Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur - Google Patents

Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur Download PDF

Info

Publication number
DE602004003513T2
DE602004003513T2 DE602004003513T DE602004003513T DE602004003513T2 DE 602004003513 T2 DE602004003513 T2 DE 602004003513T2 DE 602004003513 T DE602004003513 T DE 602004003513T DE 602004003513 T DE602004003513 T DE 602004003513T DE 602004003513 T2 DE602004003513 T2 DE 602004003513T2
Authority
DE
Germany
Prior art keywords
tree
constituent
model
sentence
order component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004003513T
Other languages
English (en)
Other versions
DE602004003513D1 (de
Inventor
Eric Issaquah Ringger
Michael Seattle Gamon
Martine Redmond Smets
Simon Seattle Corston-Oliver
Robert C. Mercer Island Moore
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602004003513D1 publication Critical patent/DE602004003513D1/de
Application granted granted Critical
Publication of DE602004003513T2 publication Critical patent/DE602004003513T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf die Erzeugung einer natürlichen Sprache. Insbesondere befasst sich die vorliegende Erfindung mit einer Satzrealisierung in einem System für die Erzeugung einer natürlichen Sprache.
  • Ein System für die Erzeugung einer natürlichen Sprache erzeugt einen Text von einer linguistischen Darstellung eines Satzes. Solche Systeme umfassen typischerweise einen Textplaner oder eine Inhalt-Auswahl-Komponente, eine Satzplaner-Komponente und eine Satzrealisierungs-Komponente.
  • Der Textplaner oder die Inhalt-Auswahl-Komponente erhält, als eine Eingabe, einen Inhalt, der die Basis des realisierten Textes bilden soll. Der Satzplanungsteil bestimmt, wie der Inhalt in Sätze zu organisieren ist, und die Satzrealisierungs-Komponente bestimmt, wie der tatsächliche Ausgabesatz zu formulieren ist.
  • Zum Beispiel wird angenommen, dass der Textplaner Inhaltsworte, wie beispielsweise „Little Red Riding Hood", „walking" und „grandmother's house", bereitstellt. Der Satzplaner bestimmt, dass „Little Red Riding Hood" der Agent ist, der Vorgang „walking" ist und das Ziel „grandmother's house" ist. Der Satzplaner stellt diese abstrakte, linguistische Darstellung als eine Eingabe zu der Satzrealisierungs-Komponenten bereit. Die Satzrealisierungs-Komponente führt die komplexe Aufgabe eines Auflistens von der abstrakten, linguistischen Darstellung zu einer tatsächlichen Folge von Worten und einer Punktuierung entsprechend zu dieser abstrakten, linguistischen Darstellung durch. Die tatsächliche Folge von Worten und einer Punktuierung ist der realisierte Satz (auch bezeichnet als die Oberflächen-Datenfolge (surface string)), der durch das System ausgegeben wird.
  • Frühere Satzrealisierungs-Systeme haben dazu tendiert, in zwei unterschiedliche Kategorien zu fallen. Der erste Typ eines Systems ist ein handcodiertes, auf einer Regel basierendes System, das erfolgreich die linguistische Darstellung manipuliert, um Darstellungen zu erzeugen, von denen die Oberflächen-Datenfolge einfach gelesen werden kann. In solchen Systemen codieren rechenmäßige Linguistiken typischerweise explizit Code-Strategien für Stufen, die von Planungstexten und einem Aggregieren eines Inhalts in einen einzelnen Satz bis zum Auswählen geeigneter Formen von Bezug nehmenden Ausdrücken, Durchführen einer morphologischen Beugung und Formatieren einer Ausgabe reichen. Solche Systeme haben typischerweise ein großes Volumen eines handgeschriebenen Codes umfasst, der sehr zeitaufwändig zu erzeugen ist. Zusätzlich treffen solche handcodierten Systeme auf eine große Schwierigkeit, neue Domänen anzupassen, und passen noch schwieriger unterschiedliche Sprachen an.
  • Der zweite Typ eines Satzrealisierungs-Systems, typischerweise verwendet in der Vergangenheit, versucht, Kandidatensätze direkt von der eingegebenen, linguistischen Darstellung zu erzeugen. Zum Beispiel sind solche Systeme in hoch-domänenspezifischen Anwendungen (wie beispielsweise Flugreservierungen) verwendet worden, in denen eine endliche Zahl von Masken vorhanden ist, und die Inhaltsworte werden einfach den verschiedenen Schlitzen in den Masken zugeordnet. Die ausgefüllten Masken werden dazu verwendet, direkt eine Ausgabe zu erzeugen.
  • Ein anderer Typ eines Satzrealisierungs-Systems zählt alle möglichen Kandidatensätze auf, die von der abstrakten, linguistischen Darstellung des Satzes erzeugt werden können. In diesen Fällen werden die Kandidatensätze unter Verwendung von statistischen Techniken evaluiert, die die Sätze bevorzugen, in denen Kombinationen von Worten am nächsten Kombinationen, beobachtet in einem realen Satz, anpassen. Allerdings kann die Anzahl von Kandidatensätzen, die geprüft werden soll, extrem groß sein. Dies führt zu langsamen Berechnungszeiten. Weiterhin führen die Techniken, die dazu verwendet werden, die Kandidatensätze zu evaluieren, oftmals schlecht linguistische Phänomene über eine lange Entfernung durch. Dies gestaltet solche Systeme weniger geeignet für Genres und Sprachen, in denen Phänomene über eine lange Entfernung üblich sind.
  • Ein Beispiel eines Systems in dieser dritten Kategorie ist das Nitrogen System, wie es in Langilde, I. und K. Knight, 1998, „The Practical Value of N-Grams in Generation", Proceedings of the 9th International Workshop on Natural Language Generation, Niagara-on-the-Lake, Kanada, Seiten 248-255; und Langkilde, I. und K. Knight, 1998, „Generation that Exploits Corpus-Based Statistical Knowledge", Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING ACL 1998), Montreal, Quebec, Kanada, Seiten 704-710; beschrieben ist.
  • In dem ersten dieser Systeme werden Wortbigramme anstelle einer tiefen, linguistischen Kenntnis verwendet, um unter alternativen Ausgabesätzen zu entscheiden. Zwei Sätze von unter einer Kenntnis aufgestellten Regeln arbeiten in Bezug auf die Eingabespezifikation, um Kandidaten-Ausgabe-Sätze zu erzeugen. Ein Satz von Regeln führt eine Auflistung eins-zu-vielen von unter-spezifizierten Semantiken zu möglichen syntaktischen Formulierungen durch, was Informationen herausarbeitet, wie beispielsweise Definiertheit und Zahl, die in einer praktischen Erzeugung von Zusammenhängen fehlen könnten, wie beispielsweise Maschinenübersetzungssystemen vom Japanischen ins Englische. Der zweite Satz von Regeln, der eine Sensitivität in Bezug auf eine Zieldomäne umfasst, transformiert die Darstellungen, erzeugt durch das erste Modul, um noch mehr Kandidatensätze zu erhalten, die als ein Wortgitter dargestellt sind. Eine morphologische Beugung, durchgeführt durch eine einfache Tabellendurchsicht, erweitert weiterhin das Gitter. Wortbigramme werden dazu verwendet, das optimale Traversal des Gitters zu finden, was zu dem am besten bewerteten Ausgabesatz führt. Dieses System erzeugt eine sehr große Anzahl von Kandidatensätzen, um bewertet und abgestuft zu werden. Zum Beispiel umfasst, in einem der Beispiele, die in Langkilde, I. und K. Knight, angegeben sind, die Eingabe-Semantik-Form fünf lexikalische Knoten in solchen Beziehungen wie AGENT, DE-STINATION und PATIENT. Das Wortgitter, das sich aus dieser semantischen Eingabe ergibt, enthält mehr als 11 Millionen mögliche Pfade, wobei der an oberster Stelle eingestufte Kandidat „Visitors who came in Japan admire Mount Fuji" ist. Ein anderes solches Beispiel (für das die semantische Eingabedarstellung nicht angegeben ist) scheint nur zwei Inhaltsworte zu enthalten, die in ein Gitter transformiert werden, das mehr als 155.000 Pfade enthält, um den an oberster Stelle eingestuften Kandidaten „I can not betray their trust", zu ergeben.
  • Das Wortbigramm-Sprachmodell, das in diesem System verwendet wird, leidet unter seiner Unfähigkeit, Abhängigkeiten unter nicht-benachbarten Worten zu erfassen. Ein Erhöhen der Reihenfolge des Sprachmodells zu Tri-Grammen oder zu n-Grammen höherer Ordnung ist möglich, allerdings schlagen die Modelle noch fehl, typische Abhängigkeiten über lange Entfernungen zu erfassen. Weiterhin ist die Datenseltenheit ein Punkt, wenn sich die Ordnung erhöht.
  • Es wurde auch eine andere, frühere Arbeit zur Kenntnis genommen, die für die Teile der vorliegenden Offenbarung relevant ist, auf die nachfolgend als das „Ordermodell" Bezug genommen ist. Ein relevanter Bereich umfasst „generative" Satzanalyse-Modelle. Solche Modelle werden in dem Satzanalyse- (d.h. syntaktischen Analyse) Verfahren eingerechnet, um Wahrscheinlichkeiten zu alternativen Syntax-Bäumen zuzuordnen. Der Name „generativ" zeigt an, dass das Modell auch zufällig abgetastet werden kann, um eine Satzstruktur entsprechend zu den Verteilungen in dem Modell zu erzeugen. Wie in dem Satzanalyseverfahren kann ein solches Modell eine Wahrscheinlichkeit zu möglichen Konstituenten-Strukturen zuordnen, die relevante Merkmale während des Erzeugungsvorgangs ergeben.
  • Beispiele solcher Satzanalyse-Modelle sind in den nachfolgenden Veröffentlichungen angegeben. Eugene Charniak, „A Maximum-Entropy-Inspired Parser", erschienen in The Proceedings of NAACL-2000, Seattle, Washington Seiten 132-139. Auch: Eugene Charniak, erschienen in „Immediate-Head Parsing for Language Model", The Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (2001), Toulouse, Frankreich, Seiten 116-123. In der Arbeit, die in diesen Papieren beschrieben ist, werden Wertungen der Konstituenten-Wahrscheinlichkeit in Bezug auf textmäßige Informationen, wie beispielsweise den Kopf bzw. Anfang des Konstituents, konditioniert. Ein Aspekt der Ordnungsmodelle in der vorliegenden Erfindung, die die Arbeit, die hier offenbart ist, von den Modellen von Charniak und von gegenüber früheren, generativen Satzanalyse-Modellen absetzen, ist die Verwendung von semantischen Beziehungen und anderen Merkmalen, die während der Erzeugungsaufgabe, allerdings nicht während der Satzanalyse, verfügbar sind.
  • Ein anderer Punkt einer Referenz ist die Satzanalyse-Arbeit von David Magerman, die Entscheidungsbäume einsetzte, um Verteilungen, die für eine Satzanalyse von Interesse sind, abzuschätzen. Siehe Magerman M., 1995, „Statistical Decision-Tree Models for Parsing", in Proc. of ACL, Seiten 276-283. Die primären Unterscheidungen zwischen dieser Arbeit und dieser Erfindung sind die Verwendung bei der Satzanalyse gegenüber einer Erzeugung und der Unterschied in Merkmalen, die für jedes Modell verfügbar sind. Weiterhin waren die Modelle von Magerman nicht generativ.
  • Eine Wort- und Konstituenten-Reihenfolge bzw. -Ordnung spielen eine kritische Rolle beim Aufstellen des Einflusses und der Verständlichkeit eines Satzes. Eine Aufstellungsreihenfolge in der Satzrealisierungs-Stufe der Erzeugung einer natürlichen Sprache ist allgemein durch handgefertigte Erzeugungsgrammatiken in der Vergangenheit vorge nommen worden. Siehe zum Beispiel Aikawa T. et al, 2001, „Multilingual sentence generation", in Proceedings of the 8th European Workshop on Natural Language Generation, Toulouse, Frankreich, Seiten 57-63; und Reiter E. et al., 2000, „Building natural language generation systems", Cambridge University Press. In neuerer Zeit sind statistische Maßnahmen erforscht worden. Das Nitrogen System, das vorstehend beschrieben ist, und das Fergus System (siehe Bangalore S. und Rambow O., 2000, „Exploiting a probabilistic hierarchical model for generation", in Proceedings of COLING 2000, Saarbrücken, Germany, Seiten 42-48) haben Wort-n-Gramm-Sprachmodelle eingesetzt, um unter einem großen Satz von Wortfolge-Kandidaten auszuwählen, die in einer Konstituenten-Reihenfolge, in einer Wort-Reihenfolge, einer lexikalischen Auswahl und einer morphologischen Beugung variieren. In den Systemen von Nitrogen und Fergus wird die Konstituenten-Reihenfolge nur indirekt über Wort-n-Gramme an den Oberflächenstrings modellmäßig aufgestellt; d.h. die Reihenfolge ist nicht als ein separates Phänomen von der Auswahl geeigneter, morphologischer Varianten und der Auflösung von unterspezifizierten Eingaben isoliert. Auch verbinden sie nicht wesentliche, linguistische Merkmale, die während einer Realisation verfügbar sind.
  • Das Halogen System (siehe Langkilde I., 2000, „Forest-Based Statistical Sentence generation", in Proceedings of NAACL 2000, Seiten 170-177; und Langilde-Geary I., 2002, „An Empirical Verification of Coverage and Correctness for a General-Purpose Sentence Generator" in Proceedings of the International Language Generation Conferene 2002, New York, Seiten 17-24) -- ähnlich Nitrogen -- verwendet ein Wort-n-Gramm-Modell, extrahiert allerdings die am besten bewertete Oberflächenrealisierungen effizient von einem Wald (forest) (im Gegensatz zu einem Gitter (lattice)) durch Beschränkung der Suche zuerst innerhalb des Umfangs jedes Konstituenten.
  • Das Amalgam System (siehe Corston-Oliver et al., 2002, „An overview of Amalgam: a machine-learned generation module", in Proceedings of the International Language Generation Conference 2002, New York, Seiten 33-40), besitzt eine explizite Ordnungs-Stufe, die die Ordnung bzw. Reihenfolge von Konstituenten und deren Töchter, im Gegensatz zu Worten direkt, bestimmt. Amalgam verbindet eine Baum-Konstituenten-Struktur und Merkmale dieser Konstituenten. Durch Einrichten einer Reihenfolge innerhalb der Konstituenten beschränkt Amalgam die möglichen Satzrealisierungen auf das Wortniveau. Allerdings können Verbesserungen in den Amalgam-Modellen der Konstituenten-Struktur, ver wendet dazu, eine Konstituenten-Reihenfolge in einer natürlichen Spracherzeugung einzurichten, zu verbesserten Ergebnissen führen; auf diese Verbesserungen ist die vorliegende Offenbarung gerichtet.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird eine Baum-Ordnungskomponente geschaffen, wie sie in Anspruch 1 angegeben ist.
  • Die vorliegende Erfindung ist eine Komponente, die Konstituenten in einer Syntax-Baum-Struktur so ordnet, dass eine korrekte Wortreihenfolge in einer Satzrealisierung eingerichtet wird. Das Produkt ist ein geordneter Syntax-Baum oder eine bewertete und abgestufte Liste von alternativen, geordneten Syntax-Bäumen. Diese Baum-Ordnungskomponente (oder Gruppe von Komponenten) des Systems nimmt einen ungeordneten Syntax-Baum auf und evaluiert die Wahrscheinlichkeit von alternativen Ordnungen dieses Syntax-Baums basierend auf statistischen Modellen einer Konstituenten-Struktur (umfassend Entscheidungs-Baum-Modelle). Die Verwendung von Entscheidungs-Baum-Modellen, um die Wahrscheinlichkeitsverteilungen in Modellen der Konstituenten-Struktur abzuschätzen, ist auch ein Beitrag dieser Erfindung. Diese Technik lässt einen großen Merkmal-Raum innerhalb einer automatischen Merkmal-Auswahl zu.
  • In anderen Ausführungsformen können Techniken, andere als ein Erlernen eines Entscheidungs-Baums, wie beispielsweise maximales Entropie-Training und Sprach-Modellierung, eingesetzt werden, um die Parameter des Modells der Konstituenten-Struktur abzuschätzen (nachfolgend bezeichnet auch als das „Ordnungsmodell").
  • In einigen Ausführungsformen setzt die Baum-Ordnungskomponente ein konditionales Konstituenten-Ordnungsmodell ein, das unter Vorgabe des ungeordneten Syntax-Baums identifiziert, welcher einer Vielzahl von alternativen, geordneten Syntax-Bäumen eine höchste, konditionale Wahrscheinlichkeit, die dem ungeordneten Syntax-Baum gegeben ist, besitzt. In noch spezielleren Ausführungsformen ist das konditionale Konstituenten-Ordnungsmodell ein binäres, konditionales Konstituenten-Ordnungsmodell.
  • In einigen Ausführungsformen, für die das Ordnungsmodell ein konditionales Konstituenten-Ordnungsmodell ist, ist das Modell eine Markov-Grammatik. In noch spezielleren Ausführungsformen ist die Markov-Grammatik eine Markov-Grammatik links-nachrechts, oder eine kopfgesteuerte Markov-Grammatik. Diese Definition ist nicht auf die vor stehenden Orientierungen beschränkt und kann andere Orientierungen, wie beispielsweise rechts-nach-links, oder alternierend von links nach rechts, usw., umfassen.
  • In einigen Ausführungsformen setzt die Baum-Ordnungskomponente ein Verbindungs-Konstituenten-Ordnungsmodell ein, das eine Bewertung zu jedem einer Vielzahl von alternativen, geordneten Syntax-Bäumen zusammen mit dem gegeben, ungeordneten Syntax-Baum zuordnet. Diese Verbindungsmodelle sind Markov-Grammatiken. Wiederum sind für die Verbindungsmodelle bestimmte Ausführungsformen vorhanden, mit Orientierungen von links nach rechts, kopfgesteuert, usw..
  • In einigen Ausführungsformen schätzt das Ordnungsmodell die Wahrscheinlichkeit der Konstituenten-Ordnung durch Konditionieren in Bezug auf Merkmale der Töchter der Konstituenten ab. Zum Beispiel kann das Modell in Bezug auf die semantische Relation zwischen der Kopf-Tochter und der Tochter, die in Rede steht, konditionieren. In einer anderen Ausführungsform ist ein zusammenhangmäßiges Merkmal die Anzahl von Töchtern des Konstituenten, der bereits geordnet ist, oder die Anzahl von Töchtern des Konstituenten, die verbleiben, um geordnet zu werden. In einer noch anderen Ausführungsform ist ein Merkmal eine Anzahl von Töchtern des Konstituenten, der bereits geordnet ist (oder verbleibt, um geordnet zu werden), der ein bestimmtes Konstituenten-Label besitzt.
  • In einigen Ausführungsformen konditioniert das Ordnungsmodell Wahrscheinlichkeiten der geordneten Syntax-Bäume auf mindestens einem lexikalischen Merkmal. Mögliche lexikalische Merkmale umfassen, zum Beispiel, eine Transitivität und eine Kompatibilität mit klausalen Komponenten.
  • In anderen Ausführungsformen konditioniert das Ordnungsmodell Wahrscheinlichkeiten der geordneten Syntax-Bäume in Bezug auf mindestens ein semantisches Merkmal, wie beispielsweise eine semantische Relation oder das Vorhandensein von Quantifizierungs-Operatoren. Ein noch anderes Merkmal kann in anderen Ausführungsformen verwendet werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein Blockdiagramm einer beispielhaften Umgebung, in der die vorliegende Erfindung verwendet werden kann.
  • 2 zeigt ein Blockdiagramm einer Ausführungsform eines Satzrealisierungs-Systems, umfassend einen Kasten für eine Ordnung, die vorliegende Erfindung darstellend, und einen Datenfluss zeigend.
  • 3 zeigt ein Blockdiagramm, das eine Ordnungskomponente des Typs, der in der vorliegenden Erfindung verwendet wird, darstellt, um einen geordneten Syntax-Baum, unter Vorgabe eines bestimmten, nicht geordneten Syntax-Baums, zu identifizieren.
  • 4 zeigt eine beispielhafte, semantische Darstellung eines Satzes, verwendet als eine Eingabe zu der vorliegenden Erfindung, und ist als eine logische Form ausgeführt.
  • 5 stellt ein Beispiel eines ungeordneten Syntax-Baums, entsprechend zu der logischen Form in 4, und ein Beispiel der Art einer Eingabe für die Ordnungskomponente dar.
  • 6 stellt ein Beispiel eines geordneten Syntax-Baums, entsprechend zu dem ungeordneten Baum in 5, und ein Beispiel der Ausgabe von der Baum-Ordnungskomponenten dar.
  • 7 zeigt ein Blockdiagramm, das eine Erweiterung von links-nach-rechts eines Konstituenten darstellt.
  • 8 zeigt ein Blockdiagramm, das eine kopfgesteuerte Erweiterung eines Konstituenten darstellt.
  • 9 zeigt ein Blockdiagramm, das eine Erweiterung von links-nach-rechts eines Konstituenten unter Verwendung eines binär-konditionalen Modells darstellt.
  • 10 zeigt eine Tabelle von Ergebnissen, die verschiedene Ordnungsmodelle für sowohl Deutsch als auch Französisch vergleichen.
  • 11 zeigt eine Tabelle von Ergebnissen, die einen Untersatz der Ordnungsmodelle, mit und ohne Verb-Positions-Merkmalen, vergleichen.
  • DETAILLIERTE BESCHREIBUNG ERLÄUTERNDER AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung wird in Bezug auf ein Satzrealisierungs-System beschrieben. Die vorliegende Erfindung umfasst die Baum-Ordnungskomponente des gesamten Satzrealisierungs-Systems und von Verfahren, die in dieser Komponenten eingesetzt sind.
  • Die vorliegende Erfindung verwendet Entscheidungsbäume, um Wahrscheinlichkeitsverteilungen in Modellen einer Konstituenten-Struktur abzuschätzen, um eine Konstituenten-Ordnung bei der Erzeugung einer natürlichen Sprache einzurichten. Diese Maßnahme kann einen großen Merkmal-Raum ohne eine manuelle Merkmal-Auswahl handhaben. Die Technik wird hier so beschrieben, dass sie bei einer einen weiten Bereich abdeckenden Satzrealisierung in Französisch und Deutsch eingesetzt wird, um zu zeigen, wie die Maßnahmen Wort-Ordnungs-Generalisierungen in diesen Sprachen handhabt. Diese Techniken sind ebenso bei irgendeiner anderen Sprache anwendbar.
  • 1 stellt ein Beispiel einer geeigneten Rechensystem-Umgebung 100 dar, auf der die Erfindung ausgeführt werden kann. Die Rechensystem-Umgebung 100 ist nur ein Beispiel einer geeigneten Rechenumgebung und ist nicht dazu vorgesehen, irgendeine Einschränkung in Bezug auf den Umfang der Benutzung oder der Funktionalität der Erfindung zu vermitteln. Auch sollte die Rechenumgebung 100 dahingehend interpretiert werden, dass sie irgendeine Abhängigkeit oder ein Erfordernis besitzt, das sich auf irgendeine der Komponenten oder eine Kombination davon, dargestellt in der beispielhaften Betriebsumgebung 100, bezieht.
  • Die Erfindung ist in Verbindung mit zahlreichen anderen Rechensystem-Umgebungen oder Konfigurationen für einen allgemeinen Zweck oder einen speziellen Zweck betreibbar. Beispiele von ausreichend bekannten Rechensystemen, Umgebungen und/oder Konfigurationen, die zur Verwendung mit der Erfindung geeignet sein können, umfassen, sind allerdings nicht darauf beschränkt, Personal-Computer, Server-Computer, in der Hand haltbare oder Laptop-Vorrichtungen, Multiprozessorsysteme, auf einem Mikroprozessor basierende Systeme, Set-Top-Boxen, programmierbare Verbraucherelektroniken, Netzwerk-PCs, Minicomputer, Mainframe-Computer, verteilte Rechenumgebungen, die irgendeines der vorstehenden Systeme oder der Vorrichtungen, und dergleichen, umfassen.
  • Die Erfindung kann in dem allgemeinen Zusammenhang von mittels Computer ausführbaren Anweisungen, wie beispielsweise Programm-Modulen, die durch einen Computer ausgeführt werden, beschrieben werden. Allgemein umfassen Programm-Module Routines, Programme, Objekte, Komponenten, Datenstrukturen, usw., die besondere Aufgaben durchführen oder bestimmte, abstrakte Datentypen implementieren. Die Erfindung kann auch in verteilten Rechenumgebungen ausgeführt werden, wo Aufgaben durch entfernte Verarbeitungsvorrichtungen durchgeführt werden, die über ein Kommunikationsnetzwerk verknüpft sind. In einer verteilten Rechenumgebung können Programm-Module in sowohl lokalen als auch entfernten Computer-Speichermedien, umfassend Speichervorrichtungen, angeordnet sein.
  • Wie 1 zeigt, umfasst ein beispielhaftes System zum Ausführen der Erfindung eine Rechenvorrichtung für allgemeine Zwecke in der Form eines Computers 110. Kom ponenten des Computers 110 können, sind allerdings nicht darauf beschränkt, eine Verarbeitungseinheit 120, einen Systemspeicher 130 und einen Systembus 121, der die verschiedenen Systemkomponenten miteinander verbindet, umfassend den Systemspeicher zu der Verarbeitungseinheit 120, verbinden. Der Systembus 121 kann irgendeiner von verschiedenen Typen von Busstrukturen sein, umfassend einen Speicherbus oder eine Speichersteuereinheit, einen peripheren Bus und einen lokalen Bus, und zwar unter Verwendung irgendeiner Vielzahl von Bus-Architekturen. Anhand eines Beispiels, und nicht als Einschränkung, umfassen solche Architekturen Industy Standard Architecture (ISA) Bus, Micro Channel Architecture (MCA) Bus, Enchanced ISA (EISA) Bus, Video Electronics Standards Association (VESA) Lokal-Bus und Peripheral Component Interconnect (PCI Bus, auch bekannt als Mezzanine Bus).
  • Der Computer 110 umfasst typischerweise eine Vielzahl von mittels Computer lesbaren Medien. Mittels Computer lesbare Medien können irgendwelche verfügbaren Medien sein, auf die durch einen Computer 110 zugegriffen werden kann, und umfassen sowohl flüchtige als auch nicht flüchtige Medien, entfernbare und nicht entfernbare Medien. Anhand eines Beispiels, und nicht als Einschränkung, können mittels Computer lesbare Medien Computer-Speichermedien und Kommunikationsmedien aufweisen. Computer-Speichermedien umfassen sowohl flüchtige als auch nicht flüchtige, entfernbare und nicht entfernbare Medien, umgesetzt in irgendeinem Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise mittels Computer lesbare Anweisungen, Datenstrukturen, Programm-Modulen oder anderen Daten. Computer-Speichermedien umfassen, sind allerdings nicht darauf beschränkt, RAM, ROM, EEPROM, Flash Memory oder eine andere Speichertechnologie, CD-ROM, Digital-Versatile-Disks (DVD) oder andere, optische Plattenspeicher, magnetische Kassetten, ein Magnetband, einen Magnetplattenspeicher oder andere, Magnetspeichervorrichtungen, oder irgendein anderes Medium, das dazu verwendet werden kann, die erwünschten Informationen zu speichern und auf die durch einen Computer 110 zugegriffen werden kann. Kommunikationsmedien führen typischerweise mittels Computer lesbare Instruktionen bzw. Anweisungen, Datenstrukturen, Programm-Module oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus, aus, und umfassen irgendwelche Informationen liefernde Medien. Der Ausdruck „moduliertes Datensignal" bedeutet ein Signal, das eine oder mehrere seiner Charakteristik bzw. Charakteristi ka einstellt oder in einer solchen Art und Weise geändert besitzt, um Informationen in dem Signal zu codieren. Anhand eines Beispiels, und nicht als Einschränkung, umfassen Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien, wie beispielsweise akustische, HF, infrarote und andere, drahtlose Medien. Kombinationen von irgendwelchen der vorstehenden sollten auch innerhalb des Umfangs von mittels Computer lesbaren Medien enthalten sein.
  • Der Systemspeicher 130 umfasst Computer-Speichermedien in der Form von einem flüchtigen und/oder nicht-flüchtigen Speicher, wie beispielsweise einem Read-Only-Memory (ROM) 131 und einem Random Access Memory (RAM 132). Ein Basis-Eingabe/Ausgabesystem 133 (BIOS), das die Basis-Routines enthält, die dabei unterstützen, Informationen zwischen Elementen innerhalb des Computers 110 zu übertragen, wie beispielsweise während des Hochfahrens, ist typischerweise in dem ROM 131 gespeichert. Der RAM 132 enthält typischerweise Daten und/oder Programm-Module, die unmittelbar auf die Verarbeitungseinheit 120 zugreifen und/oder momentan auf dieser betrieben werden. Anhand eines Beispiels, und nicht als Einschränkung, stellt 1 ein Betriebssystem 134, Anwendungsprogramme 135, andere Programm-Module 136 und Programmdaten 137 dar.
  • Der Computer 110 kann auch andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computer-Speichermedien umfassen. Anhand eines Beispiels nur stellt 1 ein Festplattenlaufwerk 141, das von oder zu nicht-entfernbaren, nicht flüchtigen, magnetischen Medien, liest oder schreibt, ein Magnetplattenlaufwerk 151, das von oder zu einer entfernbaren, nicht-flüchtigen Magnetplatte 152 liest oder schreibt, und ein optisches Plattenlaufwerk 155, das von oder zu einer entfernbaren, nicht-flüchtigen, optischen Platte 156, wie beispielsweise einem CD-ROM oder anderen, optischen Medien, liest oder schreibt, dar. Andere entfernbare/nicht-entfernbare, flüchtige/nicht-flüchtige Computer-Speichermedien, die in der beispielhaften Betriebsumgebung verwendet werden können, umfassen, sind allerdings nicht darauf beschränkt, Magnetbandkassetten, Flash-Memory-Cards, Digital-Versatile-Disks, ein digitales Videoband, einen Solid-State-RAM, einen Solid-State-ROM, und dergleichen. Das Festplattenlaufwerk 151 ist typischerweise mit dem Systembus 121 über eine nicht-entfernbare Speicherschnittstelle, wie beispielsweise eine Schnittstelle 140, verbunden, und das Magnetplattenlaufwerk 151 und das optische Plat tenlaufwerk 155 sind typischerweise mit dem Systembus 121 durch eine entfernbare Speicherschnittstelle, wie beispielsweise eine Schnittstelle 150, verbunden.
  • Die Laufwerke und deren zugeordnete Computer-Speichermedien, die vorstehend diskutiert und in 1 dargestellt sind, bilden einen Speicher für mittels Computer lesbare Instruktionen, Datenstrukturen, Programm-Module und anderen Daten für den Computer 110. In 1 ist, zum Beispiel, das Festplattenlaufwerk 151 als speicherndes Betriebssystem 144, Anwendungsprogramme 145, andere Programm-Module 146 und Programmdaten 147 dargestellt. Es ist anzumerken, dass diese Komponenten entweder dieselben oder unterschiedlich für das Betriebssystem 134, die Anwendungsprogramme 135, andere Programm-Module 136 und Programmdaten 137 sein können. Dem Betriebssystem 144, den Anwendungsprogrammen 145, den anderen Programm-Modulen 146 und den Programmdaten 147 sind unterschiedliche Zahlen hier gegeben, um zu zeigen, dass sie, minimal, unterschiedliche Kopien sind.
  • Ein Benutzer kann Befehle und Informationen in dem Computer 110 über Eingabevorrichtungen, wie beispielsweise ein Tastenfeld 162, ein Mikrofon 163 und eine Zeigevorrichtung 161, wie beispielsweise eine Mouse, einen Trackball oder ein Touchpad, eingeben. Andere Eingabevorrichtungen (nicht dargestellt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder dergleichen, umfassen. Diese und andere Eingabevorrichtungen sind oftmals mit der Verarbeitungseinheit 120 über eine Benutzereingabeschnittstelle 160 verbunden, die mit dem Systembus verbunden ist, können allerdings mit anderen Schnittstellen- und Busstrukturen, wie beispielsweise einem Parallelport, einem Gameport oder einem Universal-Serial-Bus (SB), verbunden sein. Ein Monitor 191 oder ein anderer Typ einer Anzeigevorrichtung ist auch mit dem Systembus 121 über eine Schnittstelle, wie beispielsweise eine Videoschnittstelle 190, verbunden. Zusätzlich zu dem Monitor können Computer auch andere, periphere Ausgabevorrichtungen, wie beispielsweise Lautsprecher 197 und Drucker 196, die über eine periphere Ausgabeschnittstelle 195 verbunden sein können, umfassen.
  • Der Computer 110 kann in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren entfernten Computer(n), wie beispielsweise einem entfernten Computer 180, arbeiten. Der entfernte Computer 180 kann ein Personal-Computer, eine in der Hand gehaltene Vorrichtung, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Vorrichtung oder kann ein anderer, gemeinsamer Netzwerkknoten sein, und kann typischerweise viele oder alle der Elemente, die vorstehend in Bezug auf den Computer 110 beschrieben sind, umfassen. Die logischen Verbindungen, die in 1 gezeigt sind, umfassen ein Local Area Network (LAN) 171 und ein Wide Area Network (WAN) 173, können allerdings andere Netzwerke umfassen. Solche Netzumgebungen sind in Büros, in weltweiten Computernetzwerken, Intranets und dem Internet üblich.
  • Der Computer 110 ist, wenn er in einer LAN-Netzwerkumgebung verwendet ist, mit dem LAN 171 über eine Netzwerkschnittstelle oder einen Adapter 170 verbunden. Der Computer 110 umfasst typischerweise, wenn er in einer WAN-Netzwerkumgebung verwendet wird, ein Modem 172 oder eine andere Einrichtung zum Einrichten von Kommunikationen bzw. Datenübertragungen über das WAN 173, wie beispielsweise das Internet. Das Modem 172, das intern oder extern sein kann, kann mit dem Systembus 121 über die Benutzereingabeschnittstelle 160, oder einen anderen, geeigneten Mechanismus, verbunden sein. In einer vernetzten Umgebung können Programm-Module, gezeigt relativ zu dem Computer 110, oder Bereiche davon, in der entfernten Speichervorrichtung gespeichert sein. Anhand eines Beispiels, und nicht als Einschränkung, stellt 1 entfernte Anwendungsprogramme 185 dar, die auf einem entfernten Computer 180 vorhanden sind. Es wird ersichtlich werden, dass die Netzwerkverbindungen, die beispielhaft dargestellt sind, und andere Einrichtungen zum Einrichten einer Kommunikationsverbindung zwischen den Computern, verwendet werden können.
  • 2 zeigt ein Blockdiagramm (auch einen Datenfluss darstellend) einer Satzrealisierungs-Komponenten 200, in der die vorliegende Erfindung eingesetzt wird. Eine Satzrealisierungs-Komponente 200 umfasst eine Vorverarbeitungs-Komponente 202, eine Flesh-Out-Komponente 204, eine Basis-Baum-Umwandlungs-Komponente 206, eine Global-Bewegungs-Komponente 208, eine Intra-Konstituenten-Ordnungs-Komponente 210, eine Oberflächen-Cleanup-Komponente 212, eine Punktuierung-Einsetzungs-Komponente 214, eine Beugungs-Erzeugungs-Komponente 216 und eine Baum-Leseeinrichtungs-Komponente 218. Der gesamte Betrieb des Systems 200 wird nun beschrieben.
  • Das System 200 nimmt als eine Eingabe eine abstrakte, linguistische Darstellung eines Eingabesatzes auf. In der Ausführungsform, die hier diskutiert ist, liegt die Eingabe in einer logischen Form vor. Allerdings wird ersichtlich werden, dass im Wesentlichen irgendeine andere syntaktische oder semantische Darstellung eines Satzes als eine Eingabe ebenso aufgenommen werden kann. Eine Struktur einer logischen Form wird in größe rem Detail in dem US-Patent Nr. 5,966,686, herausgegeben am 12. Oktober 1999 für Heidorn et al., mit dem Titel METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGI-CAL FORMS FROM SYNTAX TREES, angegeben.
  • Eine Vorverarbeitungs-Komponente 202 verarbeitet die abstrakte, linguistische Darstellung durch eine Degraphing-Verarbeitung der Eingabe. Zum Beispiel ist dort, wo die Eingabe eine logische Form ist, sie eine grafische Struktur, im Gegensatz zu einer Baumstruktur. Demzufolge wird die Eingabestruktur einem Degraphing unterworfen und in eine Struktur, die ähnlicher eines Baums ist, umgewandelt. Die Vorverarbeitungs-Komponente 202 fügt auch lexikalische Informationen zu der Eingabestruktur, wie beispielsweise über einen Wörterbuch-Durchsichtsvorgang, hinzu. Die Vorverarbeitungs-Komponente 202 kann auch eine Vereinfachung von Verbindungen durchführen. Die Ausgabe der Vorverarbeitungs-Komponenten 202 ist eine entgrafisierte Struktur 220, die zusätzliche Informationen dazu hinzugefügt besitzt.
  • Die Flesh-Out-Komponente 204 nimmt die Datenstruktur 220 auf und fügt syntaktische Informationen zu dieser Datenstruktur hinzu. Die Flesh-Out-Komponente 204 setzt auch Funktionsworte, wie beispielsweise Determinatoren bzw. Bestimmungsworte, Hilfsverben, semantische Lehrpräpositionen, Relativpronomen, usw., ein. Die Komponente 204 ordnet auch Fallmerkmale und Verb-Positions-Merkmale, ebenso wie die Wahrscheinlichkeiten zur Aussprache von Nomen-Ausdrücken in Subjekt- oder Objekt-Positionen, zu. Die Flesh-Out-Komponente 204 stellt, als eine Ausgabe, eine Struktur 222 bereit, die eine entgrafisierte Struktur mit syntaktischen und anderen Informationen dazu hinzugefügt ist.
  • Die Basis-Baum-Umwandlungs-Komponente 206 nimmt die Datenstruktur 222 auf und wandelt diese Datenstruktur in einen Basis-Syntax-Baum um. Die Komponente 206 liest eine syntaktische Baumstruktur von der entgrafisierten Datenstruktur 222 aus und teilt separierbare Vorsilben von deren Stämmen ab. Die Komponente 206 kann auch eine syntaktische Darstellung einer Koordination einführen und kann bestimmte, syntaktische Dominanz-Relationen umkehren. Die Komponente 206 stellt, als eine Ausgabe, einen ungeordneten Basis-Syntax-Baum 224 bereit.
  • Die Global-Bewegungs-Komponente 208 nimmt die Struktur 224 auf und führt eine Global-Bewegung oder eine globale Ordnung durch. Die Global-Bewegung umfasst die Bewegung von Frageworten (Wh-Worte), von Relativpronomen, und einem Vorgang, be kannt als die linguistische Theorie, wie sie entsteht. Die Komponente 208 führt auch eine Extra-Positions-Verarbeitung durch. Die Komponente 208 stellt, als einen Ausgang, eine Struktur 226 bereit, in der jeder Konstituent die korrekten Eltern hat, obwohl die Konstituenten in 226 ungeordnet sind.
  • Eine Intra-Konstituenten-Ordnungs-Komponente 210 nimmt die Struktur 226 als eine Eingabe auf und ordnet vollständig die Knoten in dem Syntax-Baum, um einen vollständig geordneten Syntax-Baum 228 an seinem Ausgang bereitzustellen.
  • Die Oberflächenreinigungs-Komponente 212 nimmt die Struktur 228 auf und führt Oberflächenreinigungs-Operationen durch, wie beispielsweise eine Oberflächenrealisierung von Determinatoren, Relativpronomen und Reflexivpronomen. Die Komponente 212 löscht auch dupliziertes Material in Koordination dazu. Die Komponente 212 stellt, als ihren Ausgang, einen reinen, vollständig geordneten Syntax-Baum 230 bereit.
  • Die Punktuierungs-Komponente 214 nimmt die Struktur 230 auf und setzt Punktuierungs-Markierungen in den Syntax-Baum ein. Die Komponente 214 stellt, als deren Ausgang, den gereinigten, vollständig geordneten Syntax-Baum, mit einer Punktuierung eingesetzt, wie dies durch das Bezugszeichen 232 angegeben ist, bereit.
  • Die Beugungs-Erzeugungs-Komponente 216 nimmt die Struktur 232 auf und erzeugt eine abschließende Beugung und gibt den abschließenden, gebeugten Baum 234 aus. Die Baum-Lese-Komponente 218 liest einfach den Baum 234 und stellt, als ihren Ausgang, einen Oberflächenstring- bzw. eine Oberflächen-Datenfolge 236 (oder einen realisierten Satz 236) durch Abgeben der Worte an den Blättern des abschließenden, gebeugten Baums 234 bereit. Dies ist das Ende der Folge, die in 2 dargestellt ist.
  • Unter Verwendung des vorstehend beschriebenen Systems werden Satz-Strings aus semantischen Abhängigkeits-Grafiken erzeugt, unter Verwendung einer Vielzahl von maschinen-erlernten Modulen, die die Zusammenhänge der Anwendung von bestimmten, linguistischen Operationen bestimmen. Diese Operationen transformieren diese semantische Darstellung in einen syntaktischen Baum und einen fließenden String bzw. eine fließende Datenfolge.
  • Wenn alle Syntax-Knoten erzeugt worden sind und alle hierarchischen Beziehungen eingerichtet worden sind, ist die Ordnung unter den Konstituenten des ungeordneten Syntax-Baums bestimmt, um einen geordneten Syntax-Baum zu erzeugen.
  • Dies ist allgemein in 3 dargestellt, in der ein ungeordneter Syntax-Baum durch die Ordnungskomponente 210 geordnet ist, was zu einem geordneten Syntax-Baum (oder einer Liste von geordneten Bäumen) führt. Der ungeordnete Syntax-Baum kann zum Beispiel so sein, wie dies bei 226 in 2 dargestellt ist, während der geordnete Syntax-Baum so sein kann, wie dies bei 228 in 2 dargestellt ist. Zum Beispiel wird der ungeordnete Syntax-Baum für das Beispiel, das in 5 dargestellt ist, betrachtet. Dieser ungeordnete Syntax-Baum wird von der semantischen Abhängigkeitsgrafik, dargestellt in 4, für den deutschen Satz abgeleitet: „In der folgenden Tabelle werden die Optionen sowie deren Funktionen aufgelistet". Das englische Äquivalent dieses Satzes ist: „The options and their functions are listed in the following table". In 5 sind die semantischen Relationen zwischen einem Modifizierer und einem Kopf, dargestellt in Klammern an den Blättern, angegeben. Ein geordneter Syntax-Baum für diesen ungeordneten Syntax-Baum könnte der Baum sein, der in 6 dargestellt ist.
  • Die vorliegende Erfindung verbessert weiterhin, in einer Ausführungsform, den Satzrealisierungs-Vorgang unter Verwendung von Entscheidungsbäumen, um die Wahrscheinlichkeitsverteilungen in Modellen einer Konstituenten-Struktur abzuschätzen, um eine Konstituenten-Ordnung einzurichten. Diese Maßnahme kann einen großen Merkmalsraum ohne eine manuelle Merkmalsauswahl handhaben. Andere Ausführungsformen setzen andere Techniken ein (wie beispielsweise Training einer maximalen Entropie von Log-Linear-Modellen), um die Wahrscheinlichkeitsverteilungen abzuschätzen.
  • Die frühesten Untersuchungen dieses Problems einer Bestimmung einer Konstituenten-Ordnung während einer Satzrealisierung hat sich auf Englisch konzentriert, einer Sprache mit sehr strikten Worten und einer sehr strikten Konstituenten-Reihenfolge. In dieser Beschreibung wird der Fokus auf Französisch und Deutsch gerichtet, die neue Herausforderungen darstellen. Das Ziel der Erfindung ist es, ein Modell anzugeben, das alle Ordnungsphänomene in einer vereinheitlichen und eleganten Art und Weise über typologisch diverse Sprachen handhabt. In der vorliegenden Beschreibung wird der Raum von möglichen Modellen und eine Prüfung einiger von diesen sehr genau beschrieben. Bevor die Modelle im Detail beschrieben werden, werden Punkte beim Bestimmen einer Wort-Konstituenten-Ordnung in Französisch und Deutsch angegeben.
  • Wort- und Konstituenten-Ordnung
  • Die Herausforderung für irgendein Modell einer Konstituenten-Ordnung ist diejenige, bevorzugte Ordnungsbeschränkungen, eine Abhängigkeit eines Konstituenten-Typs und -Zusammenhangs zu lernen, um fließende Sätze zu erzeugen.
  • Die Herausforderung bei einer deutschen Satzrealisierung ist die Kombination einer festen Verb-Position mit einer ziemlich freien Positionierung von anderen Konstituenten. In deklarativen Hauptsätzen und in einem kleinen Untersatz von Nebensätzen muss das finite Verb in der zweiten Position nach irgendeiner Art eines Konstituenten erscheinen („verb-second" Sätze). Finite Verben in den meisten Nebensätzen und alle nicht-finiten Verben werden an dem Ende des Satzes angeordnet („verb-final" Sätze, wie in 6). Fehler in der Platzierung von Verben führen zu Texten mit einer geringen Verständlichkeit.
  • Argumente des Verbs und zusätzliche Modifizierer können an verschiedenen Positionen innerhalb der Maske, definiert durch diesen festen, verbalen Rahmen, platziert werden. Die strukturellen, pragmatischen und semantischen Beschränkungen, die die Platzierung dieser fließenden Bestandteile bestimmen, sind nicht vollständig verstanden.
  • Französisch ist ähnlich zu Englisch insoweit, als die Beziehung zwischen einer Oberflächen-Syntax und grammatikalischen Beziehungen sehr direkt ist. Französisch liegt zwischen Englisch und Deutsch in der Komplexität der Ordnungsaufgabe. Ähnlich Englisch besitzt Französisch eine sehr strikte Ordnung der Konstituenten, allerdings ist eine Wortordnung weniger streng im Französischen als im Englischen. Ähnlich Englisch ist Französisch eine SVO-Sprache, allerdings ist eine Ordnung von Komplementen sehr frei: PP-Komplemente gehen oft Objekt-Komplementen stärker als ein einzelnes Wort voraus, und sie können an dem Beginn des Satzes auftreten. In Relativsätzen ist eine Umkehrung von nicht-klitischen Subjekten häufig. Eine Adjektiv-Position ist weniger feststehend als im Englischen: viele Adjektive können dem Hauptwort, das sie modifizieren, vorausgehen oder folgen, während andere Adjektive nur dem Hauptwort vorausgehen oder ihm folgen.
  • Andererseits ist eine Ordnung von Konstituenten zwischen dem Subjekt und dem Verb sehr streng. Klitische Pronome und der klitische Negator, wobei beide davon orthografisch im Französischen als unabhängige Worte dargestellt werden, treten zwischen dem Subjekt und dem Verb in einer strikten Ordnung, bestimmt durch den Typ der Klitik (Objekt, Dativ oder Stelle) und den Zustimmungsmerkmalen der Klitik, auf.
  • Modelle einer Konstituenten-Ordnung
  • Für den Zweck, die Modelle der Konstituenten-Struktur zu beschreiben, die wichtige Ordnungsphänomene erfassen, wird der Raum von möglichen Verbindungs- und konditionalen Modellen betrachtet. Die Unabhängigkeitsannahmen in den Modellen, der Satz von Merkmalen, verwendet in den Modellen, und die automatische Merkmal-Auswahl spielen alle eine wichtige Rolle beim Erzeugen von nützlichen Modellen. Viele Kombinationen sind möglich, und diese Erfindung umfasst die Kombinationen, die man als nützlich herausgefunden hat.
  • Die Modelle hier unterscheiden sich von den früheren, statistischen Annäherungen in dem Bereich von Eingabemerkmalen. Ähnlich den auf einer Kenntnis ausgelegten Maßnahmen setzen die Modelle, die hier angegeben sind, lexikalische Merkmale, einen Teil einer Sprache, einen Konstituenten-Typ, Konstituenten-Grenzen, Abhängigkeiten über eine große Entfernung und semantische Beziehungen zwischen Köpfen und deren Modifizierern setzen ein.
  • Obwohl die beschriebenen Modelle nicht den gesamten Raum von möglichen Modellen abdecken, hat man wesentliche Punkte in dem Raum ausgewählt.
  • Verbindungs-Modelle
  • Es wird damit begonnen, Verbindungs-Modelle der Konstituenten-Struktur der Form P(π, ρ) über geordnete Syntax-Bäume π und ungeordnete Syntax-Bäume ρ zu betrachten. Ein geordneter Baum π enthält Nicht-End-Konstituenten C, wobei jeder davon die Eltern einer geordneten Sequenz von Töchtern (D1, ..., Dn) ist, wobei einer davon der Kopf bzw. der Anfang des Konstituenten H ist. (Alle großen lateinischen Buchstaben bezeichneten Konstituenten, und die entsprechenden lateinischen Buchstaben in kleinen Buchstaben bezeichnen deren Label -- d.h. syntaktische Kategorien). Unter Vorgabe eines geordneten Baums π ist der Wert der Funktion unordered_tree(π) ein ungeordneter Baum ρ entsprechend zu π, der einen Konstituenten B für jedes C in π enthält, so dass B = unordered_set(C) = {D1, ..., Dn} gilt, wiederum mit H = Di für einige i in (1..n). Die hierarchische Struktur von ρ ist identisch zu π.
  • Es werden hier Verbindungsmodelle zum Bewerten von alternativen, geordneten Bäumen wie folgt eingesetzt: unter Vorgabe eines ungeordneten Syntax-Baums ρ wird der geordnete Syntax-Baum π ^, der die Verbindungswahrscheinlichkeit maximiert, gewünscht. Das bedeutet, dass man sucht
  • Figure 00180001
  • Figure 00190001
  • Wie Gleichung 1 anzeigt, kann man die Suche auf solche Bäume π beschränken, die alternative Ordnungen des gegebenen Baums ρ sind. Um die möglichen Modell-Typen, die man betrachtet, zu beschränken, wird angenommen, dass die Ordnung irgendeines Konstituenten von der Ordnung innerhalb der anderen Konstituenten in dem Baum abhängig ist, einschließlich seiner Töchter. Demzufolge kann jeder Konstituent unabhängig geordnet werden; woraus folgt:
    Figure 00190002
  • Speziell für π ^ erhält man:
    Figure 00190003
  • Schließlich gilt für jedes B∊constits(ρ)
    Figure 00190004
  • Demzufolge hat man das Problem auf ein Finden der besten Ordnung jedes Konstituenten des ungeordneten Baums reduziert.
  • Tatsächlich kann man die Suche weiter entsprechend dem Kopf von B einschränken, da der Kopf von C B anpassen muss:
    Figure 00190005
  • Die einzigen, möglichen geordneten Bäume sind Bäume, die mit Konstituenten aufgebaut sind, die das vorstehende Prädikat erfüllen. Man muss zu P(C) normieren, so dass P(π) dies wiedergibt. Es wird angenommen, dass Z die Normierungs-Konstante ist:
    Figure 00190006
  • Dann:
    Figure 00200001
  • Natürlich ist, für ein gegebenes B, Z konstant, und deshalb hat es keinen Einfluss auf den Wert des argmax, so dass man nicht diesen in der Praxis berechnen muss.
  • Nun wird gewünscht, auf ein bestimmtes Merkmal x = f(ρ) zu konditionieren, wobei man dann zuerst dieses vorhersagen muss:
    Figure 00200002
  • Falls x wahrhaftig ein Merkmal von ρ ist und nicht davon abhängt, welches C konsistent mit ρ man betrachtet, dann ist P(x) konstant, und man muss es nicht in der Praxis berechnen. Demzufolge kann man, gerade für ein Verbindungsmodell P(C), konditionierende Merkmale hinzufügen, die in dem gegebenen, nicht geordneten Baum ρ festgelegt sind, ohne sie zuerst vorherzusagen, wie in Gleichung 9.
  • Figure 00200003
  • Die Verbindungs-Modelle, die hier beschrieben sind, sind von dieser Form. Aus diesem Grund kann man, wenn man eine Verteilung P(C|x) beschreibt, ohne dass man es explizit in anderer Weise angibt, tatsächlich den Teil des Verbindungsmodells beschreiben, der von Interesse ist. Wie vorstehend begründet ist, muss man nicht P(x) berechnen und wird einfach alternative Formen von P(C|x) präsentieren.
  • Man kann die Verteilung P(C) (oder P(C|x)) auf viele unterschiedliche Arten und Weisen unter Verwendung der Kettenregel faktorisieren. Es wird die Klasse von Modellen, bezeichnet als Markov-Grammatiken, als der Ausgangspunkt hier angewandt. Eine „Markov-Grammatik" ist ein Modell einer Konstituenten-Struktur, die an dem Fußpunkt des Baums beginnt und eine Wahrscheinlichkeit zu der Erweiterung eines Nicht-Endes einer Tochter zu einem Zeitpunkt zuordnet, im Gegensatz zu gesamten Produktionen (siehe Charniak, E., 1997, „Statistical Techniques for Natural Language Parsing", In Al Magazin (1997); und Charniak, E., 2000, „A Maximum-Entropy-Inspired Parser", in Proceedings of ACL 2000, Seiten 132-139.)
  • Links-nach-rechts
  • Unter Betrachtung noch der Verbindungs-Modelle wird zuerst eine Markov-Grammatik von links-nach-rechts der Ordnung j betrachtet, die C durch Vorhersagen deren Töchter D1, ..., Dn von links-nach-rechts erweitert, eine zu einem Zeitpunkt, wie dies in 7 dargestellt ist, entsprechend zu der Verteilung in Gleichung 11.
  • Figure 00210001
  • Um ein anderes Merkmal jeder Tochter Di zu konditionieren, wie beispielsweise deren semantische Relation ψi zu dem Kopfbestandteil H, sagt man sie zuerst voraus, und zwar entsprechend der Kettenregel. Das Ergebnis ist Gleichung 12.
  • Figure 00210002
  • Demzufolge sagt das Modell eine semantische Beziehung ψi und dann das Label di in dem Zusammenhang dieser semantischen Beziehung voraus.
  • Als eine Erweiterung zu dem vorstehenden Modell werden Merkmale, berechnet durch die folgenden Funktionen in Bezug auf den Satz αi von Töchtern von C, die bereits geordnet sind, eingeschlossen:
    • • Zahl von Töchtern, die bereits geordnet sind (Größe von αi)
    • • Zahl von Töchtern in αi, die ein bestimmtes Label für jedes der möglichen Konstituenten-Label {NP, AUXP, VP, usw.} haben (24 für Deutsch, 23 für Französisch).
  • Auf diese Art und Weise kann ein Modell einer Markov-Ordnung j potenziell eine wahre Ordnung größer als j haben. An diesem Punkt unterscheidet sich die Verwendung hier der Terminologie „Markov-Grammatik" von herkömmlichen Interpretationen des Ausdrucks. Man bezeichnet hier den Satz von Merkmalen kurz ausgedrückt als f(αi):
    Figure 00210003
    Figure 00220001
  • Kopfgesteuert
  • Als eine Alternative zu der Erweiterung links-nach-rechts kann man jeden Konstituenten C eines geordneten Baums π als die Kopf-Tochter H, geordnete Vor-Modifizierer (L1, ..., Lm) (von H) und geordnete Nach-Modifizierer (R1, ..., Rn) charakterisieren, wie dies in 8 dargestellt ist. Man kann dies als eine „kopfgesteuerte Markov-Grammatik" bezeichnen. Falls der Konditionierungs-Kontext hier an dem Kopf anhält, beginnt, ohne einen Verlust einer Allgemeingültigkeit, die Erweiterung hier zuerst mit Vor-Modifizierern, gefolgt durch Nach-Modifizierer. Die Verteilung ist zweiteilig, mit einem Teil für eine Erweiterung der Vor-Modifizierer und einem zweiten Teil für eine Erweiterung der Nach-Modifizierer:
    Figure 00220002
  • Wie in dem Fall von links-nach-rechts kann man die semantische Relation einer Tochter zu dem Kopf-Konstituenten H konditionieren. Für ein reicheres Modell kann man den vollen Satz αi von Töchtern, die bereits geordnet sind, konditionieren (demzufolge Konditionieren in Bezug auf Merkmale über den Kopf).
  • Es werden nun komplexere Modelle betrachtet, die zusätzliche Merkmale verwenden: Der Kopf H von C, der ungeordnete Konstituent B, der C entspricht, seine Eltern PB und seine Großeltern GB. Wie in dem Zusammenhang in Gleichung 13 stellen B, PB und GB jeweils einen Satz von linguistischen Merkmalen in Bezug auf solche jeweilige Konstituenten dar: P(C|p) = P(C|h, B, PB, GB) Gleichung 15
  • Demzufolge ist das komplexe Modell hier mit einer Orientierung von links-nachrechts wie folgt strukturiert:
    Figure 00220003
    Figure 00230001
  • Hierbei kann jedes Modell von P(C|h,B,PB,GB) wahlweise Merkmale von B konsultieren. Es werden hier auch Merkmale eingeschlossen, die in Bezug auf den Satz αi von Töchtern von C, die bereits geordnet sind, funktionieren.
  • Schließlich wird der Bereich der Verbindungs-Modelle verlassen und es werden genaue, konditionale Modelle durch Einschließen von Merkmalen eingeführt, die in Bezug auf den Satz βi von Töchtern von C, die noch geordnet werden sollen, funktionieren. Zum Beispiel:
    • • Zahl von Töchtern, die verbleiben, um geordnet zu werden (Größe von βi)
    • • Zahl von Töchtern in βi, die ein bestimmtes Label haben.
  • Man bezeichnet diese Merkmalssätze hier abgekürzt als f(αi) und f(βi):
    Figure 00230002
  • Wie bei den einfachen Modellen werden auch komplexe, kopfgesteuerte Markov-Grammatiken derselben Form betrachtet.
  • Binär-konditionales Modell
  • Es wird hier ein dritter Typ eines Modells eingeführt, den man als binärkonditionales Modell bezeichnen kann. Es schätzt eine Verteilung über die binäre Variable σ, bezeichnet als „sort-next", mit Werten ab {ja, nein}. Es stellt das Ereignis dar, das ein bis jetzt noch ungeordnetes Mitglied D von βi (der Satz von bis jetzt ungeordneten Töchtern der Eltern C, wie vorstehend definiert) als nächstes „sortiert" werden sollte, wie in 9 dargestellt ist. Die konditionierenden Merkmale sind nahezu identisch zu solchen, die in den konditionalen Modellen von links-nach-rechts, diskutiert vorstehend, verwendet werden, mit der Ausnahme, dass D und ψ (die semantische Beziehung von D mit Kopf H) in dem konditionalen Zusammenhang erscheinen, niemals vorhergesagt werden. In seiner einfachen Form schätzt das Modell die folgende Verteilung ab.
  • Figure 00240001
  • Es wird nun beschrieben, wie dieses Modell direkt in einer „Sortierungs"-Suche später in dem Abschnitt in Bezug auf die Suche von links-nach-rechts anzuwenden ist.
  • Abschätzung
  • Man kann Verteilungen eines Modells unter Verwendung einer Zahl von unterschiedlichen Techniken abschätzen. Für diese Offenbarung hier werden interpolierte Sprach-Modelliertechniken (nachfolgend abgekürzt als LM) und wahrscheinlichkeitsmäßige Entscheidungsbäume (DTs) verwendet. Obwohl es nicht im Detail in dieser Offenbarung beschrieben ist, werden Fachleute auf dem betreffenden Fachgebiet erkennen, dass andere Maßnahmen in Bezug auf eine Merkmal-Auswahl und eine Verteilungsabschätzung auch verwendet werden können.
  • Es werden Modelle von beiden Typen, verwendet in den Experimenten hier, beschrieben. Alle Modelle in dieser Offenbarung sind solche einer Markov-Ordnung 2, mit der Ausnahme der zusätzlichen Merkmal-Funktionen f(αi) und f((βi), definiert vorstehend.
  • Sprach-Modellierung
  • Die LM-Modelle hier setzen ein interpoliertes Kneser-Ney als eine Glättungstechnik ein. Siehe Kneser R. und Ney H., 1995, „Improved backing-off for m-gram language modeling" in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1, Seiten 181-184; und Goodman J. T., 2001, „A Bit of Progress in Language Modeling: Extended Version", Microsoft technical report MSR-TR-2001-72. Ein Nachteil dieser Maßnahme (und der Tools, die man hier verwendet) ist das Erfordernis einer manuellen Merkmal-Auswahl und einer spezifizierten Back-off-Ordnung, wobei der praktische Effekt davon derjenige ist, dass nur eine relativ kleine Zahl von Merkmalen effektiv verwendet werden kann. Man setzt ein einzelnes Verbindungs-kopfgesteuertes Modell dieses Typs in den Experimenten hier ein.
  • Entscheidungs-Bäume
  • Es werden hier Entscheidungs-Bäume unter Verwendung des WinMine toolkit (siehe Chickering D. M., 2002, „The WinMine Toolkit", Microsoft Technical Report 2002-103), verwendet. Es muss nicht verdeutlicht werden, dass mittels WinMine erlernter Entscheidungs-Bäume nicht nur Klassifizierer sind; jedes Blatt ist eine konditionale Wahrscheinlichkeitsverteilung über die Werte des Sollmerkmals, unter Vorgabe aller Merkmale, die im Training verfügbar sind; demzufolge ist der Baum selbst eine Abschätzung derselben konditionalen Verteilung. Der primäre Vorteil, Entscheidungs-Bäume zu verwenden, und probabilistische DTs insbesondere, ist ein automatisches Auswahlmerkmal von einem großen Vorrat an Merkmalen. Man setzt hier sechs Modelle dieses Typs mit einem reichen Satz an Merkmalen ein. Zwei Modelle sind eine Verbindung; zwei sind eine Verbindung mit Merkmalen in Bezug auf den Satz von Töchtern, die bereits geordnet sind (bezeichnet mit f(αi)); zwei sind konditional. Eines jedes Typs ist kopfgesteuert, und eines von jedem verläuft von links-nach-rechts. Zusätzlich kann man ein binäres, konditionales DT-Modell von links-nach-rechts einsetzen, beides mit und ohne Normierung.
  • Merkmale und Merkmal-Auswahl
  • Ein weiter Bereich von linguistischen Merkmalen wird aus den unterschiedlichen Entscheidungs-Baum-Modellen extrahiert. Die Anzahl von ausgewählten Merkmalen für Deutsch reicht von 6 bis 8 (von 8) für die Verbindungsmodelle, von 7 bis 16 (von 33) für die Verbindungs-Modelle mit f(αi), von 21 bis 107 (von 487) (kopfgesteuert), 494 (1-bis-r)) für konditionale Modelle, und erreicht 280 (von 651) in dem binären, konditionalen Modell. Für Französisch reicht die Anzahl von ausgewählten Merkmalen von 6 bis 8 (von 8) für die Verbindungs-Modelle, von 7 bis 11 (von 32) für die Verbindungsmodelle mit f(αi), von 22 bis 91 (von 404 (kopfgesteuert), 429 (1-bis-r)) für die konditionalen Modelle, und erreicht 218 (von 550) in dem binären, konditionalen Modell, wobei alle davon sehr gut mit den deutschen Modellen vergleichbar sind. Die komplexen und binären, konditionalen Modelle können von dem vollen Spektrum verfügbarer Merkmale herausgezogen werden:
    • • lexikalische Unterkategorisierungs-Merkmale, wie beispielsweise Transitivität und Kompatibilität mit klausalen Komplementen
    • • Kurztitel (oder Wortstämme)
    • • semantische Merkmale, wie beispielsweise die semantische Relation und das Vorhandensein von quantifikationsmäßigen Operatoren
    • • Länge eines Konstituenten in Worten
    • • syntaktische Informationen, wie beispielsweise das Label und das Vorhandensein von syntaktischen Modifizierern
  • Von einem linguistischen Standpunkt aus gesehen ist es von besonderem Interesse, dass es gerade mit einer detaillierten, linguistischen Kenntnis der Einzelheiten einer deutschen und französischen Grammatik unmöglich gewesen wäre, diese Merkmal-Auswahl manuell durchzuführen. Ein Paar hervorstechender, semantischer Grundmerkmale, wie beispielsweise Belebtheit und Definiertheit, sind deutlich relevant für eine Ordnung. Allerdings werden die Wechselwirkungen dieser Merkmale derzeit zu schlecht verstanden, um eine erklärende Beschreibung deren Rolle bei der Ordnung zu ermöglichen.
  • Suche – erschöpfende Suche
  • Unter Vorgabe eines ungeordneten Baums ρ und eines Modells einer Konstituenten-Struktur O wird nach dem am besten geordneten Baum π gesucht, der Po(π|ρ) maximiert, wobei der Kontext entsprechend der Komplexität des Modells variiert. Jedes der Modelle hier (mit Ausnahme des binären, konditionalen Modells) schätzt die Wahrscheinlichkeit einer Ordnung irgendeines gegebenen Konstituenten C in π, unabhängig von der Ordnung innerhalb anderer Konstituenten in π, ab. Die vollständige Suche ist ein dynamischer Programmieralgorithmus, entweder von links-nach-rechts in den Töchtern von C, oder kopfgesteuert, und zwar in Abhängigkeit von dem Modell. Die Suche behält eine nicht-statistische Beschränkung bei: sie respektiert die Ordnung von koordinierten Konstituenten, wie sie in dem „ungeordneten" Baum erscheinen.
  • Suche – Greedy Suche für ein binäres, konditionales Modell
  • Das binäre, konditionale Modell wird in einem „Sortier"-Modus von links-nach-rechts angewandt. Es wird 9 für eine Schematik des Prozesses herangezogen. Für jede ungeordnete Tochter Dj, in βi, wird das Modell für die Wahrscheinlichkeit von σj = yes konsultiert, nämlich, dass Dj nach rechts von den bereits geordneten Tochter-Konstituenten αi platziert werden sollte. Die Tochter in βi mit der höchsten Wahrscheinlichkeit wird von βi entfernt und erstreckt αi nach rechts. Die Suche geht weiter mit den verbleibenden, ungeordneten Konstituenten, bis alle Konstituenten in der Liste der ungeordneten Konstituenten in dieser erfolgsorientierten Art und Weise geordnet worden sind.
  • Um dieses Modell in der umfangreichen DP-Suche anzuwenden, wird das Modell an jeder Stufe der Suche normiert und es wird dadurch in eine Wahrscheinlichkeitsverteilung über die verbleibenden Töchter in βi hineingezwungen. Es wird hier Gleichung 18 kurzerhand einfach als P(σ|d, ψ,Γi), wobei Γi die kontextmäßigen Merkmale für die gege bene Such-Hypothese an der Suchstufe i darstellt. Demzufolge ist die normierte Verteilung hier für die Stufe i durch Gleichung 19 gegeben. Die freie Variable j stellt einen Index an ungeordneten Töchtern in βi dar, wie dies auch für k der Fall ist.
  • Figure 00270001
  • Experimente – Training
  • Es wird hier ein Satz von Experimenten beschrieben, um die verschiedenen Modelle, die vorstehend angegeben sind, zu vergleichen und im Gegensatz zueinander zu setzen. Für ein Training wurde ein Trainingssatz von 20.000 Sätzen verwendet, sowohl für Französisch als auch für Deutsch. Die Daten kommen von technischen Manuals in der Computer-Domäne. Für einen gegebenen Satz in dem Trainingssatz wurde der Satz zuerst als ein Syntax-Baum und eine semantische Abhängigkeitsgrafik unter Verwendung des NLPWin Systems analysiert (US-Patent Nr. 5,966,686, herausgegeben am 12. Oktober 1999 für Heidorn et al, mit dem Titel „METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES"). Durch Konsultieren der semantischen Abhängigkeitsgrafik und des Syntax-Baums wird ein Baum mit allen der Charakteristika von Bäumen, gesehen durch die Amalgam Ordnungsstufe zu der Erzeugungslaufzeit, mit einer Ausnahme, erzeugt: diese Trainingsbäume werden geeignet geordnet. Dieser Baum umfasst alle Merkmale, die von Interesse sind, einschließlich der semantischen Beziehungen unter einem Kopf und seinen Modifizierern. Die Ordnungsmodelle, die verwendet sind, sind von den Konstituenten dieser Bäume trainiert.
  • Experimente – Evaluierung
  • Um die Modelle zu evaluieren, wird der Ordnungsvorgang in Isolation evaluiert, unabhängig von dem Rest des Amalgam-Satzrealisierungsvorgangs. Test-Sätze von 1.000 Sätzen werden verwendet, auch von technischen Manuals, für jede Sprache. Um eine Ordnung, für einen gegebenen Test-Satz, zu isolieren, wird der Satz wie in dem Training verarbeitet, um einen geordneten Baum π zu erzeugen (die Referenz für eine Evaluierung), und um davon einen ungeordneten Baum ρ zu erzeugen. Unter Vorgabe von ρ wird eine Suche für die beste, geordnete Baum-Hypothese π ^ unter Verwendung des in Rede stehenden Modells durchgeführt. Ein Vergleich von π und π ^ wird dann vorgenommen. Da nur eine Konstituenten-Ordnung durchgeführt wird, können π und π ^ durch Vergleichen der Ordnung deren entsprechender Konstituenten verglichen werden. Die Metrik, die dazu verwendet ist, zwei Konstituenten in diesem Fall zu vergleichen, ist ein Editier-Abstand, gemessen als ein Prozentsatz der gesamten Töchter, die in Bewegungen partizipieren. Die gesamte Bewertung für den Hypothese-Baum π ^ ist der gewichtete Durchschnitt des Pro-Konstituenten-Editier-Abstands.
  • Auch werden durchschnittliche Pro-Konstituenten-Editier-Abstand-Metriken für jeden Nicht-Terminal-Typ für den Zweck einer Fehleranalyse und zum Erhalten des Einflusses eines gegebenen Modells auf linguistische Zusammenhänge, die von Interesse sind, berechnet.
  • Für jedes Modell wird die durchschnittliche Bewertung über den Test-Satz für die gegebene Sprache in der Tabelle in 10 angegeben. Für sowohl Deutsch als auch Französisch übertrifft das binäre, konditionale DT-Modell von links-nach-rechts (angewandt in einer Greedy-Suche) alle anderen Modelle. Ein Normieren des binären, konditionalen Modells und ein Anwenden davon in einer umfangreichen Suche hilft nicht; tatsächlich kann ein leichter Abfall in der Genauigkeit aufgrund des Label-Bias-Problems auftreten. Siehe Lafferty et al, 2001, „Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data", in Proc. Of 18th ICML, Seiten 282-289.
  • Das interpolierte Sprachmodell ist das zweitbeste für Französisch und Deutsch. Dieses Modell besitzt die einfachste Struktur, setzt allerdings die anspruchsvollste Glättung ein.
  • Es ist interessant anzumerken, dass die Verbindungs-Modelle von links-nach-rechts (ohne f(αi) Merkmale) die kopfgesteuerten Verbindungs-Modelle für sowohl Deutsch als auch Französisch übertreffen. Das Einschließen der f(αi) Merkmale für links-nach-rechts und kopfgesteuert dreht die Situation für Französisch, allerdings nicht für Deutsch, um.
  • Wiederum übertreffen für Deutsch die konditionalen Modelle von links-nach-rechts die kopfgesteuerten, konditionalen Modelle. Für Französisch ist es ein ähnlicher Fall. Wie für die Frage von konditionalen gegenüber Verbindungs-Modellen übertreffen die einfachen Modelle (mit f(αi) Merkmalen) übereinstimmend deren komplexe Gegenstücke. Dies kann aufgrund eines Fehlens ausreichender Trainingsdaten der Fall sein. Hierbei ist die Trainingszeit der komplexen Modelle der begrenzende Faktor.
  • Dabei ist auch eine deutliche Disparität zwischen der Funktionsweise der deutschen Modelle und der Funktionsweise der französischen Modelle vorhanden. Das beste deutsche Modell ist zweimal so schlecht wie das beste französische Modell.
  • In Bezug auf individuelle, syntaktische Kategorien liegt die Güte des binären, konditionalen Modells primär in dem korrekten Einrichten einer Konstituenten-Ordnung innerhalb verbaler Konstituenten. Für Deutsch bewertet das binäre, konditionale Modell 9,892% für verbale Konstituenten. Das Beste irgendeines der anderen Modelle kann dies mit 13,61% vornehmen (links-nach-rechts Verbindung mit f(αi)). Für Französisch bewertet das binäre, konditionale Modell mit 3,602% für verbale Konstituenten. Das Beste irgendeines der anderen Modelle kann dies mit 5,891% vornehmen (LM kopfgesteuerte Verbindung).
  • Die besondere Schwierigkeit beim Einrichten einer Ordnung in verbalen Konstituenten in Deutsch ist am wahrscheinlichsten den Herausforderungen einer Verb-Positionierung und der entspannteren Ordnung von Modifizierern in dem verbalen Zusammenhang zuschreibbar. Um sich dem Punkt der Verb-Ordnung zuzuwenden, wurde ein zusätzliches Merkmal in den ungeordneten Baum für ein Experimentieren eingeschlossen. Die Position des Verbs war nicht in Bezug auf alle relevanten Konstituenten angegeben. Durch Hinzufügen dieses Merkmals zu den konditionalen Modellen wurde ein wesentlicher Sprung in der Modell-Genauigkeit beobachtet, wie dies in der Tabelle in 11 dargestellt ist.
  • Wiederum ist das beste Modell das binäre, konditionale Modell. Wie zuvor hilft eine Normierung nicht. Die Verbesserung, die durch die Verfügbarkeit des Verb-Positions-Merkmals beitrug, ist 13% einer relativen Verringerung der gesamten Ordnungs-Fehler-Rate. Wie für die verbalen Konstituenten verbessert sich die Bewertung auf 8,468% mit Verb-Positions-Merkmalen. Das nächstbeste Modell mit einer Verb-Position ist das linksnach-rechts konditionale Modell mit 12,59%.
  • Obwohl die vorliegende Erfindung unter Bezugnahme auf bestimmte Ausführungsformen beschrieben worden ist, werden Fachleute auf dem betreffenden Fachgebiet erkennen, dass Änderungen in Form und Details vorgenommen werden können, ohne den Schutzumfang der Erfindung, wie er nur durch die beigefügten Ansprüche definiert ist, zu verlassen.

Claims (23)

  1. Baum-Ordnungskomponente für ein Satzrealisierungs-System, wobei die Baum-Ordnungskomponente eine Einrichtung umfasst, die so eingerichtet ist, dass sie einen ungeordneten Syntax-Baum empfängt und eine bewertete sowie abgestufte Liste alternativer geordneter Syntax-Bäume aus dem ungeordneten Syntax-Baum erzeugt, und die Baum-Ordnungskomponente des Weiteren umfasst: ein statistisches Modell mit merkmalskonditionierter Konstituenten-Struktur, das eine formale Struktur hat und dessen Parameter unter Verwendung eines statistischen Schätzverfahrens geschätzt werden; und eine Such-Komponente, die eine Einrichtung umfasst, die so eingerichtet ist, dass sie den ungeordneten Syntax-Baum empfängt, den Satz möglicher alternativer geordneter Syntax-Bäume prüft und identifiziert, welcher der alternativen geordneten Syntax-Bäume entsprechend dem statistischen Modell mit Konstituenten-Struktur eine höchste Wahrscheinlichkeit hat.
  2. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale mit einem automatischen Merkmals-Auswählverfahren ausgewählt worden sind.
  3. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Sprachmodellierungsverfahren geschätzt werden.
  4. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Verfahren maximaler Entropie geschätzt werden.
  5. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Entscheidungsbaum-Lernverfahren geschätzt werden.
  6. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die formale Struktur des Modells eine Markov-Grammatik mit einer bestimmten Ausrichtung ist.
  7. Baum-Ordnungskomponente nach Anspruch 6, wobei bei dem statistischen Modell mit Konstituenten-Struktur das Modell, das Markov-Grammatik-Struktur hat, ein gemeinsames Modell mit Konstituenten-Struktur ist.
  8. Baum-Ordnungskomponente nach Anspruch 6, wobei bei dem statistischen Modell mit Konstituenten-Struktur das Modell, das Markov-Grammatik-Struktur hat, ein bedingtes Modell mit Konstituenten-Struktur ist.
  9. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die formale Struktur des Modells ein binäres bedingtes Modell ist.
  10. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere lexikalische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
  11. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere syntaktische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
  12. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere semantische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
  13. Baum-Ordnungskomponente nach Anspruch 12, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells die semantische Beziehung zwischen dem Kopf einer bestimmten Konstituente in dem ungeordneten Baum und den Töchtern dieser Konstituente enthält.
  14. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells eine Länge einer bestimmten Konstituente des ungeordneten Baums in Worten enthält.
  15. Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die bereits geordneten Töchter dieses Konstituenten.
  16. Baum-Ordnungskomponente nach Anspruch 15, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
  17. Baum-Ordnungskomponente nach Anspruch 15, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.
  18. Baum-Ordnungskomponente nach Anspruch 8, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die noch zu ordnenden Töchter dieses Konstituenten.
  19. Baum-Ordnungskomponente nach Anspruch 18, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
  20. Baum-Ordnungskomponente nach Anspruch 18, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.
  21. Baum-Ordnungskomponente nach Anspruch 9, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die noch zu ordnenden Töchter dieses Konstituenten.
  22. Baum-Ordnungskomponente nach Anspruch 21, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
  23. Baum-Ordnungskomponente nach Anspruch 21, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.
DE602004003513T 2003-03-25 2004-03-19 Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur Expired - Lifetime DE602004003513T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US396549 2003-03-25
US10/396,549 US7346493B2 (en) 2003-03-25 2003-03-25 Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system

Publications (2)

Publication Number Publication Date
DE602004003513D1 DE602004003513D1 (de) 2007-01-18
DE602004003513T2 true DE602004003513T2 (de) 2007-04-05

Family

ID=32824957

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004003513T Expired - Lifetime DE602004003513T2 (de) 2003-03-25 2004-03-19 Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur

Country Status (12)

Country Link
US (1) US7346493B2 (de)
EP (1) EP1462948B1 (de)
JP (1) JP2004295884A (de)
KR (1) KR101084786B1 (de)
CN (1) CN1542649B (de)
AT (1) ATE347711T1 (de)
AU (1) AU2004201089B2 (de)
BR (1) BRPI0400778A (de)
CA (1) CA2461777C (de)
DE (1) DE602004003513T2 (de)
MX (1) MXPA04002816A (de)
RU (1) RU2336552C2 (de)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7324927B2 (en) * 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7620541B2 (en) * 2004-05-28 2009-11-17 Microsoft Corporation Critiquing clitic pronoun ordering in french
JP2006065462A (ja) * 2004-08-25 2006-03-09 Canon Inc ソフトウェア・システム、ソフトウェア停止方法、プログラム、及び、記憶媒体
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US20060115145A1 (en) * 2004-11-30 2006-06-01 Microsoft Corporation Bayesian conditional random fields
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7552047B2 (en) * 2006-05-02 2009-06-23 International Business Machines Corporation Instance-based sentence boundary determination by optimization
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8996587B2 (en) * 2007-02-15 2015-03-31 International Business Machines Corporation Method and apparatus for automatically structuring free form hetergeneous data
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20100076978A1 (en) * 2008-09-09 2010-03-25 Microsoft Corporation Summarizing online forums into question-context-answer triples
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
RU2509350C2 (ru) * 2008-11-07 2014-03-10 Матрокс Профешнл Инк Способ семантической обработки естественного языка с использованием графического языка-посредника
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9378202B2 (en) * 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8359311B2 (en) 2010-06-01 2013-01-22 Microsoft Corporation Federated implicit search
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR101225333B1 (ko) * 2010-11-12 2013-01-23 한양대학교 산학협력단 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
JP5681041B2 (ja) * 2011-06-03 2015-03-04 富士通株式会社 名寄せ規則生成方法、装置、およびプログラム
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US10810368B2 (en) * 2012-07-10 2020-10-20 Robert D. New Method for parsing natural language text with constituent construction links
KR101409413B1 (ko) * 2012-07-20 2014-06-20 한양대학교 에리카산학협력단 단일화 문법을 이용한 자연어 처리 방법
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9355093B2 (en) 2012-08-30 2016-05-31 Arria Data2Text Limited Method and apparatus for referring expression generation
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
WO2014102569A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
US10115202B2 (en) 2012-12-27 2018-10-30 Arria Data2Text Limited Method and apparatus for motion detection
GB2524934A (en) 2013-01-15 2015-10-07 Arria Data2Text Ltd Method and apparatus for document planning
US9965461B2 (en) * 2013-03-01 2018-05-08 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using argument ordering
WO2014204336A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llс Methods and systems that build a hierarchically organized data structure containing standard feature symbols for conversion of document images to electronic documents
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
RU2540832C1 (ru) * 2013-09-24 2015-02-10 Российская Федерация, от имени которой выступает Министерство обороны Российской Федерации Система поиска разнородной информации в локальной компьютерной сети
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US10664558B2 (en) 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10614168B2 (en) * 2015-03-05 2020-04-07 National University Corporation NARA Institute of Science and Technology Syntax evaluation apparatus, translation apparatus, syntax evaluation method, and syntax evaluation program
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
CN106294325B (zh) * 2016-08-11 2019-01-04 海信集团有限公司 自然语言生成语句的优化方法及装置
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
RU2636098C1 (ru) * 2016-10-26 2017-11-20 Общество с ограниченной ответственностью "Аби Продакшн" Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN106652534B (zh) * 2016-12-14 2019-08-16 北京工业大学 一种预测公交车到站时间的方法
US11144735B2 (en) * 2019-04-09 2021-10-12 International Business Machines Corporation Semantic concept scorer based on an ensemble of language translation models for question answer system
RU2717718C1 (ru) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Способ преобразования структурированного массива данных, содержащего простые суждения
RU2717719C1 (ru) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Способ формирования структуры данных, содержащей простые суждения
CN111667057B (zh) * 2020-06-05 2023-10-20 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN112463953B (zh) * 2020-11-30 2022-06-17 杭州孚嘉科技有限公司 一种基于税务咨询问题的热句排序方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
JPH02240769A (ja) * 1989-03-14 1990-09-25 Canon Inc 自然言語文生成装置
US5146406A (en) * 1989-08-16 1992-09-08 International Business Machines Corporation Computer method for identifying predicate-argument structures in natural language text
JP2810750B2 (ja) * 1990-01-31 1998-10-15 株式会社沖テクノシステムズラボラトリ 語学訓練用装置
JPH0424767A (ja) * 1990-05-15 1992-01-28 Fujitsu Ltd 機械翻訳システム
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
JP3607462B2 (ja) 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
US7275029B1 (en) 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
JP4049543B2 (ja) 2001-02-28 2008-02-20 株式会社リコー 文書検索装置、文書検索プログラム、記録媒体
JP3693958B2 (ja) 2001-04-05 2005-09-14 松下電器産業株式会社 分散型文書検索方法及び装置、並びに分散型文書検索プログラム及びそのプログラムを記録した記録媒体
JP2003030238A (ja) 2001-07-18 2003-01-31 Nippon Telegr & Teleph Corp <Ntt> 並列型情報検索装置および方法と並列型情報検索プログラムおよび該プログラムを記録した記録媒体
US7003445B2 (en) 2001-07-20 2006-02-21 Microsoft Corporation Statistically driven sentence realizing method and apparatus
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system

Also Published As

Publication number Publication date
AU2004201089A1 (en) 2004-10-14
ATE347711T1 (de) 2006-12-15
CN1542649B (zh) 2010-06-16
MXPA04002816A (es) 2005-06-17
US20040193401A1 (en) 2004-09-30
EP1462948A1 (de) 2004-09-29
KR20040084856A (ko) 2004-10-06
BRPI0400778A (pt) 2005-01-11
CN1542649A (zh) 2004-11-03
KR101084786B1 (ko) 2011-11-21
EP1462948B1 (de) 2006-12-06
DE602004003513D1 (de) 2007-01-18
JP2004295884A (ja) 2004-10-21
CA2461777A1 (en) 2004-09-25
RU2004108775A (ru) 2005-09-27
US7346493B2 (en) 2008-03-18
AU2004201089B2 (en) 2009-09-17
RU2336552C2 (ru) 2008-10-20
CA2461777C (en) 2012-06-26

Similar Documents

Publication Publication Date Title
DE602004003513T2 (de) Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur
Wang et al. Skeleton key: Image captioning by skeleton-attribute decomposition
Boyd-Graber et al. Syntactic topic models
DE69725883T2 (de) Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten
US7865354B2 (en) Extracting and grouping opinions from text documents
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
Johnson A simple pattern-matching algorithm for recovering empty nodes and their antecedents
Andersen et al. Automatic extraction of facts from press releases to generate news stories
Velardi et al. Evaluation of OntoLearn, a methodology for automatic learning of domain ontologies
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE69820343T2 (de) Linguistisches Suchsystem
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE102005051617B4 (de) Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE60304066T2 (de) Verfahren zur Normalisierung einer Diskursrepräsentationsstruktur und normalisierte Datenstruktur
DE102008040739A1 (de) Verfahren und System zum Berechnen oder Bestimmen von Vertrauens- bzw. Konfidenzauswertungen für Syntaxbäume auf allen Ebenen
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE102021004562A1 (de) Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache
Akın Variants and invariants of design cognition
Bangura et al. Automatic Generation of German Drama Texts Using Fine Tuned GPT-2 Models
DE102018222156A1 (de) Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
DE202013011084U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet

Legal Events

Date Code Title Description
8364 No opposition during term of opposition