DE602004003513T2

DE602004003513T2 - Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur

Info

Publication number: DE602004003513T2
Application number: DE602004003513T
Authority: DE
Inventors: Eric Issaquah Ringger; Michael Seattle Gamon; Martine Redmond Smets; Simon Seattle Corston-Oliver; Robert C. Mercer Island Moore
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-03-25
Filing date: 2004-03-19
Publication date: 2007-04-05
Anticipated expiration: 2024-03-20
Also published as: AU2004201089A1; ATE347711T1; CN1542649B; MXPA04002816A; US20040193401A1; EP1462948A1; KR20040084856A; BRPI0400778A; CN1542649A; KR101084786B1; EP1462948B1; DE602004003513D1; JP2004295884A; CA2461777A1; RU2004108775A; US7346493B2; AU2004201089B2; RU2336552C2; CA2461777C

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf die Erzeugung einer natürlichen Sprache. Insbesondere befasst sich die vorliegende Erfindung mit einer Satzrealisierung in einem System für die Erzeugung einer natürlichen Sprache.
Ein System für die Erzeugung einer natürlichen Sprache erzeugt einen Text von einer linguistischen Darstellung eines Satzes. Solche Systeme umfassen typischerweise einen Textplaner oder eine Inhalt-Auswahl-Komponente, eine Satzplaner-Komponente und eine Satzrealisierungs-Komponente.
Der Textplaner oder die Inhalt-Auswahl-Komponente erhält, als eine Eingabe, einen Inhalt, der die Basis des realisierten Textes bilden soll. Der Satzplanungsteil bestimmt, wie der Inhalt in Sätze zu organisieren ist, und die Satzrealisierungs-Komponente bestimmt, wie der tatsächliche Ausgabesatz zu formulieren ist.
Zum Beispiel wird angenommen, dass der Textplaner Inhaltsworte, wie beispielsweise „Little Red Riding Hood", „walking" und „grandmother's house", bereitstellt. Der Satzplaner bestimmt, dass „Little Red Riding Hood" der Agent ist, der Vorgang „walking" ist und das Ziel „grandmother's house" ist. Der Satzplaner stellt diese abstrakte, linguistische Darstellung als eine Eingabe zu der Satzrealisierungs-Komponenten bereit. Die Satzrealisierungs-Komponente führt die komplexe Aufgabe eines Auflistens von der abstrakten, linguistischen Darstellung zu einer tatsächlichen Folge von Worten und einer Punktuierung entsprechend zu dieser abstrakten, linguistischen Darstellung durch. Die tatsächliche Folge von Worten und einer Punktuierung ist der realisierte Satz (auch bezeichnet als die Oberflächen-Datenfolge (surface string)), der durch das System ausgegeben wird.
Frühere Satzrealisierungs-Systeme haben dazu tendiert, in zwei unterschiedliche Kategorien zu fallen. Der erste Typ eines Systems ist ein handcodiertes, auf einer Regel basierendes System, das erfolgreich die linguistische Darstellung manipuliert, um Darstellungen zu erzeugen, von denen die Oberflächen-Datenfolge einfach gelesen werden kann. In solchen Systemen codieren rechenmäßige Linguistiken typischerweise explizit Code-Strategien für Stufen, die von Planungstexten und einem Aggregieren eines Inhalts in einen einzelnen Satz bis zum Auswählen geeigneter Formen von Bezug nehmenden Ausdrücken, Durchführen einer morphologischen Beugung und Formatieren einer Ausgabe reichen. Solche Systeme haben typischerweise ein großes Volumen eines handgeschriebenen Codes umfasst, der sehr zeitaufwändig zu erzeugen ist. Zusätzlich treffen solche handcodierten Systeme auf eine große Schwierigkeit, neue Domänen anzupassen, und passen noch schwieriger unterschiedliche Sprachen an.
Der zweite Typ eines Satzrealisierungs-Systems, typischerweise verwendet in der Vergangenheit, versucht, Kandidatensätze direkt von der eingegebenen, linguistischen Darstellung zu erzeugen. Zum Beispiel sind solche Systeme in hoch-domänenspezifischen Anwendungen (wie beispielsweise Flugreservierungen) verwendet worden, in denen eine endliche Zahl von Masken vorhanden ist, und die Inhaltsworte werden einfach den verschiedenen Schlitzen in den Masken zugeordnet. Die ausgefüllten Masken werden dazu verwendet, direkt eine Ausgabe zu erzeugen.
Ein anderer Typ eines Satzrealisierungs-Systems zählt alle möglichen Kandidatensätze auf, die von der abstrakten, linguistischen Darstellung des Satzes erzeugt werden können. In diesen Fällen werden die Kandidatensätze unter Verwendung von statistischen Techniken evaluiert, die die Sätze bevorzugen, in denen Kombinationen von Worten am nächsten Kombinationen, beobachtet in einem realen Satz, anpassen. Allerdings kann die Anzahl von Kandidatensätzen, die geprüft werden soll, extrem groß sein. Dies führt zu langsamen Berechnungszeiten. Weiterhin führen die Techniken, die dazu verwendet werden, die Kandidatensätze zu evaluieren, oftmals schlecht linguistische Phänomene über eine lange Entfernung durch. Dies gestaltet solche Systeme weniger geeignet für Genres und Sprachen, in denen Phänomene über eine lange Entfernung üblich sind.
Ein Beispiel eines Systems in dieser dritten Kategorie ist das Nitrogen System, wie es in Langilde, I. und K. Knight, 1998, „The Practical Value of N-Grams in Generation", Proceedings of the 9^th International Workshop on Natural Language Generation, Niagara-on-the-Lake, Kanada, Seiten 248-255; und Langkilde, I. und K. Knight, 1998, „Generation that Exploits Corpus-Based Statistical Knowledge", Proceedings of the 36^th Annual Meeting of the Association for Computational Linguistics and 17^th International Conference on Computational Linguistics (COLING ACL 1998), Montreal, Quebec, Kanada, Seiten 704-710; beschrieben ist.
In dem ersten dieser Systeme werden Wortbigramme anstelle einer tiefen, linguistischen Kenntnis verwendet, um unter alternativen Ausgabesätzen zu entscheiden. Zwei Sätze von unter einer Kenntnis aufgestellten Regeln arbeiten in Bezug auf die Eingabespezifikation, um Kandidaten-Ausgabe-Sätze zu erzeugen. Ein Satz von Regeln führt eine Auflistung eins-zu-vielen von unter-spezifizierten Semantiken zu möglichen syntaktischen Formulierungen durch, was Informationen herausarbeitet, wie beispielsweise Definiertheit und Zahl, die in einer praktischen Erzeugung von Zusammenhängen fehlen könnten, wie beispielsweise Maschinenübersetzungssystemen vom Japanischen ins Englische. Der zweite Satz von Regeln, der eine Sensitivität in Bezug auf eine Zieldomäne umfasst, transformiert die Darstellungen, erzeugt durch das erste Modul, um noch mehr Kandidatensätze zu erhalten, die als ein Wortgitter dargestellt sind. Eine morphologische Beugung, durchgeführt durch eine einfache Tabellendurchsicht, erweitert weiterhin das Gitter. Wortbigramme werden dazu verwendet, das optimale Traversal des Gitters zu finden, was zu dem am besten bewerteten Ausgabesatz führt. Dieses System erzeugt eine sehr große Anzahl von Kandidatensätzen, um bewertet und abgestuft zu werden. Zum Beispiel umfasst, in einem der Beispiele, die in Langkilde, I. und K. Knight, angegeben sind, die Eingabe-Semantik-Form fünf lexikalische Knoten in solchen Beziehungen wie AGENT, DE-STINATION und PATIENT. Das Wortgitter, das sich aus dieser semantischen Eingabe ergibt, enthält mehr als 11 Millionen mögliche Pfade, wobei der an oberster Stelle eingestufte Kandidat „Visitors who came in Japan admire Mount Fuji" ist. Ein anderes solches Beispiel (für das die semantische Eingabedarstellung nicht angegeben ist) scheint nur zwei Inhaltsworte zu enthalten, die in ein Gitter transformiert werden, das mehr als 155.000 Pfade enthält, um den an oberster Stelle eingestuften Kandidaten „I can not betray their trust", zu ergeben.
Das Wortbigramm-Sprachmodell, das in diesem System verwendet wird, leidet unter seiner Unfähigkeit, Abhängigkeiten unter nicht-benachbarten Worten zu erfassen. Ein Erhöhen der Reihenfolge des Sprachmodells zu Tri-Grammen oder zu n-Grammen höherer Ordnung ist möglich, allerdings schlagen die Modelle noch fehl, typische Abhängigkeiten über lange Entfernungen zu erfassen. Weiterhin ist die Datenseltenheit ein Punkt, wenn sich die Ordnung erhöht.
Es wurde auch eine andere, frühere Arbeit zur Kenntnis genommen, die für die Teile der vorliegenden Offenbarung relevant ist, auf die nachfolgend als das „Ordermodell" Bezug genommen ist. Ein relevanter Bereich umfasst „generative" Satzanalyse-Modelle. Solche Modelle werden in dem Satzanalyse- (d.h. syntaktischen Analyse) Verfahren eingerechnet, um Wahrscheinlichkeiten zu alternativen Syntax-Bäumen zuzuordnen. Der Name „generativ" zeigt an, dass das Modell auch zufällig abgetastet werden kann, um eine Satzstruktur entsprechend zu den Verteilungen in dem Modell zu erzeugen. Wie in dem Satzanalyseverfahren kann ein solches Modell eine Wahrscheinlichkeit zu möglichen Konstituenten-Strukturen zuordnen, die relevante Merkmale während des Erzeugungsvorgangs ergeben.
Beispiele solcher Satzanalyse-Modelle sind in den nachfolgenden Veröffentlichungen angegeben. Eugene Charniak, „A Maximum-Entropy-Inspired Parser", erschienen in The Proceedings of NAACL-2000, Seattle, Washington Seiten 132-139. Auch: Eugene Charniak, erschienen in „Immediate-Head Parsing for Language Model", The Proceedings of the 39^th Annual Meeting of the Association for Computational Linguistics (2001), Toulouse, Frankreich, Seiten 116-123. In der Arbeit, die in diesen Papieren beschrieben ist, werden Wertungen der Konstituenten-Wahrscheinlichkeit in Bezug auf textmäßige Informationen, wie beispielsweise den Kopf bzw. Anfang des Konstituents, konditioniert. Ein Aspekt der Ordnungsmodelle in der vorliegenden Erfindung, die die Arbeit, die hier offenbart ist, von den Modellen von Charniak und von gegenüber früheren, generativen Satzanalyse-Modellen absetzen, ist die Verwendung von semantischen Beziehungen und anderen Merkmalen, die während der Erzeugungsaufgabe, allerdings nicht während der Satzanalyse, verfügbar sind.
Ein anderer Punkt einer Referenz ist die Satzanalyse-Arbeit von David Magerman, die Entscheidungsbäume einsetzte, um Verteilungen, die für eine Satzanalyse von Interesse sind, abzuschätzen. Siehe Magerman M., 1995, „Statistical Decision-Tree Models for Parsing", in Proc. of ACL, Seiten 276-283. Die primären Unterscheidungen zwischen dieser Arbeit und dieser Erfindung sind die Verwendung bei der Satzanalyse gegenüber einer Erzeugung und der Unterschied in Merkmalen, die für jedes Modell verfügbar sind. Weiterhin waren die Modelle von Magerman nicht generativ.
Eine Wort- und Konstituenten-Reihenfolge bzw. -Ordnung spielen eine kritische Rolle beim Aufstellen des Einflusses und der Verständlichkeit eines Satzes. Eine Aufstellungsreihenfolge in der Satzrealisierungs-Stufe der Erzeugung einer natürlichen Sprache ist allgemein durch handgefertigte Erzeugungsgrammatiken in der Vergangenheit vorge nommen worden. Siehe zum Beispiel Aikawa T. et al, 2001, „Multilingual sentence generation", in Proceedings of the 8^th European Workshop on Natural Language Generation, Toulouse, Frankreich, Seiten 57-63; und Reiter E. et al., 2000, „Building natural language generation systems", Cambridge University Press. In neuerer Zeit sind statistische Maßnahmen erforscht worden. Das Nitrogen System, das vorstehend beschrieben ist, und das Fergus System (siehe Bangalore S. und Rambow O., 2000, „Exploiting a probabilistic hierarchical model for generation", in Proceedings of COLING 2000, Saarbrücken, Germany, Seiten 42-48) haben Wort-n-Gramm-Sprachmodelle eingesetzt, um unter einem großen Satz von Wortfolge-Kandidaten auszuwählen, die in einer Konstituenten-Reihenfolge, in einer Wort-Reihenfolge, einer lexikalischen Auswahl und einer morphologischen Beugung variieren. In den Systemen von Nitrogen und Fergus wird die Konstituenten-Reihenfolge nur indirekt über Wort-n-Gramme an den Oberflächenstrings modellmäßig aufgestellt; d.h. die Reihenfolge ist nicht als ein separates Phänomen von der Auswahl geeigneter, morphologischer Varianten und der Auflösung von unterspezifizierten Eingaben isoliert. Auch verbinden sie nicht wesentliche, linguistische Merkmale, die während einer Realisation verfügbar sind.
Das Halogen System (siehe Langkilde I., 2000, „Forest-Based Statistical Sentence generation", in Proceedings of NAACL 2000, Seiten 170-177; und Langilde-Geary I., 2002, „An Empirical Verification of Coverage and Correctness for a General-Purpose Sentence Generator" in Proceedings of the International Language Generation Conferene 2002, New York, Seiten 17-24) -- ähnlich Nitrogen -- verwendet ein Wort-n-Gramm-Modell, extrahiert allerdings die am besten bewertete Oberflächenrealisierungen effizient von einem Wald (forest) (im Gegensatz zu einem Gitter (lattice)) durch Beschränkung der Suche zuerst innerhalb des Umfangs jedes Konstituenten.
Das Amalgam System (siehe Corston-Oliver et al., 2002, „An overview of Amalgam: a machine-learned generation module", in Proceedings of the International Language Generation Conference 2002, New York, Seiten 33-40), besitzt eine explizite Ordnungs-Stufe, die die Ordnung bzw. Reihenfolge von Konstituenten und deren Töchter, im Gegensatz zu Worten direkt, bestimmt. Amalgam verbindet eine Baum-Konstituenten-Struktur und Merkmale dieser Konstituenten. Durch Einrichten einer Reihenfolge innerhalb der Konstituenten beschränkt Amalgam die möglichen Satzrealisierungen auf das Wortniveau. Allerdings können Verbesserungen in den Amalgam-Modellen der Konstituenten-Struktur, ver wendet dazu, eine Konstituenten-Reihenfolge in einer natürlichen Spracherzeugung einzurichten, zu verbesserten Ergebnissen führen; auf diese Verbesserungen ist die vorliegende Offenbarung gerichtet.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung wird eine Baum-Ordnungskomponente geschaffen, wie sie in Anspruch 1 angegeben ist.
Die vorliegende Erfindung ist eine Komponente, die Konstituenten in einer Syntax-Baum-Struktur so ordnet, dass eine korrekte Wortreihenfolge in einer Satzrealisierung eingerichtet wird. Das Produkt ist ein geordneter Syntax-Baum oder eine bewertete und abgestufte Liste von alternativen, geordneten Syntax-Bäumen. Diese Baum-Ordnungskomponente (oder Gruppe von Komponenten) des Systems nimmt einen ungeordneten Syntax-Baum auf und evaluiert die Wahrscheinlichkeit von alternativen Ordnungen dieses Syntax-Baums basierend auf statistischen Modellen einer Konstituenten-Struktur (umfassend Entscheidungs-Baum-Modelle). Die Verwendung von Entscheidungs-Baum-Modellen, um die Wahrscheinlichkeitsverteilungen in Modellen der Konstituenten-Struktur abzuschätzen, ist auch ein Beitrag dieser Erfindung. Diese Technik lässt einen großen Merkmal-Raum innerhalb einer automatischen Merkmal-Auswahl zu.
In anderen Ausführungsformen können Techniken, andere als ein Erlernen eines Entscheidungs-Baums, wie beispielsweise maximales Entropie-Training und Sprach-Modellierung, eingesetzt werden, um die Parameter des Modells der Konstituenten-Struktur abzuschätzen (nachfolgend bezeichnet auch als das „Ordnungsmodell").
In einigen Ausführungsformen setzt die Baum-Ordnungskomponente ein konditionales Konstituenten-Ordnungsmodell ein, das unter Vorgabe des ungeordneten Syntax-Baums identifiziert, welcher einer Vielzahl von alternativen, geordneten Syntax-Bäumen eine höchste, konditionale Wahrscheinlichkeit, die dem ungeordneten Syntax-Baum gegeben ist, besitzt. In noch spezielleren Ausführungsformen ist das konditionale Konstituenten-Ordnungsmodell ein binäres, konditionales Konstituenten-Ordnungsmodell.
In einigen Ausführungsformen, für die das Ordnungsmodell ein konditionales Konstituenten-Ordnungsmodell ist, ist das Modell eine Markov-Grammatik. In noch spezielleren Ausführungsformen ist die Markov-Grammatik eine Markov-Grammatik links-nachrechts, oder eine kopfgesteuerte Markov-Grammatik. Diese Definition ist nicht auf die vor stehenden Orientierungen beschränkt und kann andere Orientierungen, wie beispielsweise rechts-nach-links, oder alternierend von links nach rechts, usw., umfassen.
In einigen Ausführungsformen setzt die Baum-Ordnungskomponente ein Verbindungs-Konstituenten-Ordnungsmodell ein, das eine Bewertung zu jedem einer Vielzahl von alternativen, geordneten Syntax-Bäumen zusammen mit dem gegeben, ungeordneten Syntax-Baum zuordnet. Diese Verbindungsmodelle sind Markov-Grammatiken. Wiederum sind für die Verbindungsmodelle bestimmte Ausführungsformen vorhanden, mit Orientierungen von links nach rechts, kopfgesteuert, usw..
In einigen Ausführungsformen schätzt das Ordnungsmodell die Wahrscheinlichkeit der Konstituenten-Ordnung durch Konditionieren in Bezug auf Merkmale der Töchter der Konstituenten ab. Zum Beispiel kann das Modell in Bezug auf die semantische Relation zwischen der Kopf-Tochter und der Tochter, die in Rede steht, konditionieren. In einer anderen Ausführungsform ist ein zusammenhangmäßiges Merkmal die Anzahl von Töchtern des Konstituenten, der bereits geordnet ist, oder die Anzahl von Töchtern des Konstituenten, die verbleiben, um geordnet zu werden. In einer noch anderen Ausführungsform ist ein Merkmal eine Anzahl von Töchtern des Konstituenten, der bereits geordnet ist (oder verbleibt, um geordnet zu werden), der ein bestimmtes Konstituenten-Label besitzt.
In einigen Ausführungsformen konditioniert das Ordnungsmodell Wahrscheinlichkeiten der geordneten Syntax-Bäume auf mindestens einem lexikalischen Merkmal. Mögliche lexikalische Merkmale umfassen, zum Beispiel, eine Transitivität und eine Kompatibilität mit klausalen Komponenten.
In anderen Ausführungsformen konditioniert das Ordnungsmodell Wahrscheinlichkeiten der geordneten Syntax-Bäume in Bezug auf mindestens ein semantisches Merkmal, wie beispielsweise eine semantische Relation oder das Vorhandensein von Quantifizierungs-Operatoren. Ein noch anderes Merkmal kann in anderen Ausführungsformen verwendet werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Blockdiagramm einer beispielhaften Umgebung, in der die vorliegende Erfindung verwendet werden kann.
2 zeigt ein Blockdiagramm einer Ausführungsform eines Satzrealisierungs-Systems, umfassend einen Kasten für eine Ordnung, die vorliegende Erfindung darstellend, und einen Datenfluss zeigend.
3 zeigt ein Blockdiagramm, das eine Ordnungskomponente des Typs, der in der vorliegenden Erfindung verwendet wird, darstellt, um einen geordneten Syntax-Baum, unter Vorgabe eines bestimmten, nicht geordneten Syntax-Baums, zu identifizieren.
4 zeigt eine beispielhafte, semantische Darstellung eines Satzes, verwendet als eine Eingabe zu der vorliegenden Erfindung, und ist als eine logische Form ausgeführt.
5 stellt ein Beispiel eines ungeordneten Syntax-Baums, entsprechend zu der logischen Form in 4, und ein Beispiel der Art einer Eingabe für die Ordnungskomponente dar.
6 stellt ein Beispiel eines geordneten Syntax-Baums, entsprechend zu dem ungeordneten Baum in 5, und ein Beispiel der Ausgabe von der Baum-Ordnungskomponenten dar.
7 zeigt ein Blockdiagramm, das eine Erweiterung von links-nach-rechts eines Konstituenten darstellt.
8 zeigt ein Blockdiagramm, das eine kopfgesteuerte Erweiterung eines Konstituenten darstellt.
9 zeigt ein Blockdiagramm, das eine Erweiterung von links-nach-rechts eines Konstituenten unter Verwendung eines binär-konditionalen Modells darstellt.
10 zeigt eine Tabelle von Ergebnissen, die verschiedene Ordnungsmodelle für sowohl Deutsch als auch Französisch vergleichen.
11 zeigt eine Tabelle von Ergebnissen, die einen Untersatz der Ordnungsmodelle, mit und ohne Verb-Positions-Merkmalen, vergleichen.
DETAILLIERTE BESCHREIBUNG ERLÄUTERNDER AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung wird in Bezug auf ein Satzrealisierungs-System beschrieben. Die vorliegende Erfindung umfasst die Baum-Ordnungskomponente des gesamten Satzrealisierungs-Systems und von Verfahren, die in dieser Komponenten eingesetzt sind.
Die vorliegende Erfindung verwendet Entscheidungsbäume, um Wahrscheinlichkeitsverteilungen in Modellen einer Konstituenten-Struktur abzuschätzen, um eine Konstituenten-Ordnung bei der Erzeugung einer natürlichen Sprache einzurichten. Diese Maßnahme kann einen großen Merkmal-Raum ohne eine manuelle Merkmal-Auswahl handhaben. Die Technik wird hier so beschrieben, dass sie bei einer einen weiten Bereich abdeckenden Satzrealisierung in Französisch und Deutsch eingesetzt wird, um zu zeigen, wie die Maßnahmen Wort-Ordnungs-Generalisierungen in diesen Sprachen handhabt. Diese Techniken sind ebenso bei irgendeiner anderen Sprache anwendbar.
1 stellt ein Beispiel einer geeigneten Rechensystem-Umgebung 100 dar, auf der die Erfindung ausgeführt werden kann. Die Rechensystem-Umgebung 100 ist nur ein Beispiel einer geeigneten Rechenumgebung und ist nicht dazu vorgesehen, irgendeine Einschränkung in Bezug auf den Umfang der Benutzung oder der Funktionalität der Erfindung zu vermitteln. Auch sollte die Rechenumgebung 100 dahingehend interpretiert werden, dass sie irgendeine Abhängigkeit oder ein Erfordernis besitzt, das sich auf irgendeine der Komponenten oder eine Kombination davon, dargestellt in der beispielhaften Betriebsumgebung 100, bezieht.
Die Erfindung ist in Verbindung mit zahlreichen anderen Rechensystem-Umgebungen oder Konfigurationen für einen allgemeinen Zweck oder einen speziellen Zweck betreibbar. Beispiele von ausreichend bekannten Rechensystemen, Umgebungen und/oder Konfigurationen, die zur Verwendung mit der Erfindung geeignet sein können, umfassen, sind allerdings nicht darauf beschränkt, Personal-Computer, Server-Computer, in der Hand haltbare oder Laptop-Vorrichtungen, Multiprozessorsysteme, auf einem Mikroprozessor basierende Systeme, Set-Top-Boxen, programmierbare Verbraucherelektroniken, Netzwerk-PCs, Minicomputer, Mainframe-Computer, verteilte Rechenumgebungen, die irgendeines der vorstehenden Systeme oder der Vorrichtungen, und dergleichen, umfassen.
Die Erfindung kann in dem allgemeinen Zusammenhang von mittels Computer ausführbaren Anweisungen, wie beispielsweise Programm-Modulen, die durch einen Computer ausgeführt werden, beschrieben werden. Allgemein umfassen Programm-Module Routines, Programme, Objekte, Komponenten, Datenstrukturen, usw., die besondere Aufgaben durchführen oder bestimmte, abstrakte Datentypen implementieren. Die Erfindung kann auch in verteilten Rechenumgebungen ausgeführt werden, wo Aufgaben durch entfernte Verarbeitungsvorrichtungen durchgeführt werden, die über ein Kommunikationsnetzwerk verknüpft sind. In einer verteilten Rechenumgebung können Programm-Module in sowohl lokalen als auch entfernten Computer-Speichermedien, umfassend Speichervorrichtungen, angeordnet sein.
Wie 1 zeigt, umfasst ein beispielhaftes System zum Ausführen der Erfindung eine Rechenvorrichtung für allgemeine Zwecke in der Form eines Computers 110. Kom ponenten des Computers 110 können, sind allerdings nicht darauf beschränkt, eine Verarbeitungseinheit 120, einen Systemspeicher 130 und einen Systembus 121, der die verschiedenen Systemkomponenten miteinander verbindet, umfassend den Systemspeicher zu der Verarbeitungseinheit 120, verbinden. Der Systembus 121 kann irgendeiner von verschiedenen Typen von Busstrukturen sein, umfassend einen Speicherbus oder eine Speichersteuereinheit, einen peripheren Bus und einen lokalen Bus, und zwar unter Verwendung irgendeiner Vielzahl von Bus-Architekturen. Anhand eines Beispiels, und nicht als Einschränkung, umfassen solche Architekturen Industy Standard Architecture (ISA) Bus, Micro Channel Architecture (MCA) Bus, Enchanced ISA (EISA) Bus, Video Electronics Standards Association (VESA) Lokal-Bus und Peripheral Component Interconnect (PCI Bus, auch bekannt als Mezzanine Bus).
Der Computer 110 umfasst typischerweise eine Vielzahl von mittels Computer lesbaren Medien. Mittels Computer lesbare Medien können irgendwelche verfügbaren Medien sein, auf die durch einen Computer 110 zugegriffen werden kann, und umfassen sowohl flüchtige als auch nicht flüchtige Medien, entfernbare und nicht entfernbare Medien. Anhand eines Beispiels, und nicht als Einschränkung, können mittels Computer lesbare Medien Computer-Speichermedien und Kommunikationsmedien aufweisen. Computer-Speichermedien umfassen sowohl flüchtige als auch nicht flüchtige, entfernbare und nicht entfernbare Medien, umgesetzt in irgendeinem Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise mittels Computer lesbare Anweisungen, Datenstrukturen, Programm-Modulen oder anderen Daten. Computer-Speichermedien umfassen, sind allerdings nicht darauf beschränkt, RAM, ROM, EEPROM, Flash Memory oder eine andere Speichertechnologie, CD-ROM, Digital-Versatile-Disks (DVD) oder andere, optische Plattenspeicher, magnetische Kassetten, ein Magnetband, einen Magnetplattenspeicher oder andere, Magnetspeichervorrichtungen, oder irgendein anderes Medium, das dazu verwendet werden kann, die erwünschten Informationen zu speichern und auf die durch einen Computer 110 zugegriffen werden kann. Kommunikationsmedien führen typischerweise mittels Computer lesbare Instruktionen bzw. Anweisungen, Datenstrukturen, Programm-Module oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus, aus, und umfassen irgendwelche Informationen liefernde Medien. Der Ausdruck „moduliertes Datensignal" bedeutet ein Signal, das eine oder mehrere seiner Charakteristik bzw. Charakteristi ka einstellt oder in einer solchen Art und Weise geändert besitzt, um Informationen in dem Signal zu codieren. Anhand eines Beispiels, und nicht als Einschränkung, umfassen Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien, wie beispielsweise akustische, HF, infrarote und andere, drahtlose Medien. Kombinationen von irgendwelchen der vorstehenden sollten auch innerhalb des Umfangs von mittels Computer lesbaren Medien enthalten sein.
Der Systemspeicher 130 umfasst Computer-Speichermedien in der Form von einem flüchtigen und/oder nicht-flüchtigen Speicher, wie beispielsweise einem Read-Only-Memory (ROM) 131 und einem Random Access Memory (RAM 132). Ein Basis-Eingabe/Ausgabesystem 133 (BIOS), das die Basis-Routines enthält, die dabei unterstützen, Informationen zwischen Elementen innerhalb des Computers 110 zu übertragen, wie beispielsweise während des Hochfahrens, ist typischerweise in dem ROM 131 gespeichert. Der RAM 132 enthält typischerweise Daten und/oder Programm-Module, die unmittelbar auf die Verarbeitungseinheit 120 zugreifen und/oder momentan auf dieser betrieben werden. Anhand eines Beispiels, und nicht als Einschränkung, stellt 1 ein Betriebssystem 134, Anwendungsprogramme 135, andere Programm-Module 136 und Programmdaten 137 dar.
Der Computer 110 kann auch andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computer-Speichermedien umfassen. Anhand eines Beispiels nur stellt 1 ein Festplattenlaufwerk 141, das von oder zu nicht-entfernbaren, nicht flüchtigen, magnetischen Medien, liest oder schreibt, ein Magnetplattenlaufwerk 151, das von oder zu einer entfernbaren, nicht-flüchtigen Magnetplatte 152 liest oder schreibt, und ein optisches Plattenlaufwerk 155, das von oder zu einer entfernbaren, nicht-flüchtigen, optischen Platte 156, wie beispielsweise einem CD-ROM oder anderen, optischen Medien, liest oder schreibt, dar. Andere entfernbare/nicht-entfernbare, flüchtige/nicht-flüchtige Computer-Speichermedien, die in der beispielhaften Betriebsumgebung verwendet werden können, umfassen, sind allerdings nicht darauf beschränkt, Magnetbandkassetten, Flash-Memory-Cards, Digital-Versatile-Disks, ein digitales Videoband, einen Solid-State-RAM, einen Solid-State-ROM, und dergleichen. Das Festplattenlaufwerk 151 ist typischerweise mit dem Systembus 121 über eine nicht-entfernbare Speicherschnittstelle, wie beispielsweise eine Schnittstelle 140, verbunden, und das Magnetplattenlaufwerk 151 und das optische Plat tenlaufwerk 155 sind typischerweise mit dem Systembus 121 durch eine entfernbare Speicherschnittstelle, wie beispielsweise eine Schnittstelle 150, verbunden.
Die Laufwerke und deren zugeordnete Computer-Speichermedien, die vorstehend diskutiert und in 1 dargestellt sind, bilden einen Speicher für mittels Computer lesbare Instruktionen, Datenstrukturen, Programm-Module und anderen Daten für den Computer 110. In 1 ist, zum Beispiel, das Festplattenlaufwerk 151 als speicherndes Betriebssystem 144, Anwendungsprogramme 145, andere Programm-Module 146 und Programmdaten 147 dargestellt. Es ist anzumerken, dass diese Komponenten entweder dieselben oder unterschiedlich für das Betriebssystem 134, die Anwendungsprogramme 135, andere Programm-Module 136 und Programmdaten 137 sein können. Dem Betriebssystem 144, den Anwendungsprogrammen 145, den anderen Programm-Modulen 146 und den Programmdaten 147 sind unterschiedliche Zahlen hier gegeben, um zu zeigen, dass sie, minimal, unterschiedliche Kopien sind.
Ein Benutzer kann Befehle und Informationen in dem Computer 110 über Eingabevorrichtungen, wie beispielsweise ein Tastenfeld 162, ein Mikrofon 163 und eine Zeigevorrichtung 161, wie beispielsweise eine Mouse, einen Trackball oder ein Touchpad, eingeben. Andere Eingabevorrichtungen (nicht dargestellt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder dergleichen, umfassen. Diese und andere Eingabevorrichtungen sind oftmals mit der Verarbeitungseinheit 120 über eine Benutzereingabeschnittstelle 160 verbunden, die mit dem Systembus verbunden ist, können allerdings mit anderen Schnittstellen- und Busstrukturen, wie beispielsweise einem Parallelport, einem Gameport oder einem Universal-Serial-Bus (SB), verbunden sein. Ein Monitor 191 oder ein anderer Typ einer Anzeigevorrichtung ist auch mit dem Systembus 121 über eine Schnittstelle, wie beispielsweise eine Videoschnittstelle 190, verbunden. Zusätzlich zu dem Monitor können Computer auch andere, periphere Ausgabevorrichtungen, wie beispielsweise Lautsprecher 197 und Drucker 196, die über eine periphere Ausgabeschnittstelle 195 verbunden sein können, umfassen.
Der Computer 110 kann in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren entfernten Computer(n), wie beispielsweise einem entfernten Computer 180, arbeiten. Der entfernte Computer 180 kann ein Personal-Computer, eine in der Hand gehaltene Vorrichtung, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Vorrichtung oder kann ein anderer, gemeinsamer Netzwerkknoten sein, und kann typischerweise viele oder alle der Elemente, die vorstehend in Bezug auf den Computer 110 beschrieben sind, umfassen. Die logischen Verbindungen, die in 1 gezeigt sind, umfassen ein Local Area Network (LAN) 171 und ein Wide Area Network (WAN) 173, können allerdings andere Netzwerke umfassen. Solche Netzumgebungen sind in Büros, in weltweiten Computernetzwerken, Intranets und dem Internet üblich.
Der Computer 110 ist, wenn er in einer LAN-Netzwerkumgebung verwendet ist, mit dem LAN 171 über eine Netzwerkschnittstelle oder einen Adapter 170 verbunden. Der Computer 110 umfasst typischerweise, wenn er in einer WAN-Netzwerkumgebung verwendet wird, ein Modem 172 oder eine andere Einrichtung zum Einrichten von Kommunikationen bzw. Datenübertragungen über das WAN 173, wie beispielsweise das Internet. Das Modem 172, das intern oder extern sein kann, kann mit dem Systembus 121 über die Benutzereingabeschnittstelle 160, oder einen anderen, geeigneten Mechanismus, verbunden sein. In einer vernetzten Umgebung können Programm-Module, gezeigt relativ zu dem Computer 110, oder Bereiche davon, in der entfernten Speichervorrichtung gespeichert sein. Anhand eines Beispiels, und nicht als Einschränkung, stellt 1 entfernte Anwendungsprogramme 185 dar, die auf einem entfernten Computer 180 vorhanden sind. Es wird ersichtlich werden, dass die Netzwerkverbindungen, die beispielhaft dargestellt sind, und andere Einrichtungen zum Einrichten einer Kommunikationsverbindung zwischen den Computern, verwendet werden können.
2 zeigt ein Blockdiagramm (auch einen Datenfluss darstellend) einer Satzrealisierungs-Komponenten 200, in der die vorliegende Erfindung eingesetzt wird. Eine Satzrealisierungs-Komponente 200 umfasst eine Vorverarbeitungs-Komponente 202, eine Flesh-Out-Komponente 204, eine Basis-Baum-Umwandlungs-Komponente 206, eine Global-Bewegungs-Komponente 208, eine Intra-Konstituenten-Ordnungs-Komponente 210, eine Oberflächen-Cleanup-Komponente 212, eine Punktuierung-Einsetzungs-Komponente 214, eine Beugungs-Erzeugungs-Komponente 216 und eine Baum-Leseeinrichtungs-Komponente 218. Der gesamte Betrieb des Systems 200 wird nun beschrieben.
Das System 200 nimmt als eine Eingabe eine abstrakte, linguistische Darstellung eines Eingabesatzes auf. In der Ausführungsform, die hier diskutiert ist, liegt die Eingabe in einer logischen Form vor. Allerdings wird ersichtlich werden, dass im Wesentlichen irgendeine andere syntaktische oder semantische Darstellung eines Satzes als eine Eingabe ebenso aufgenommen werden kann. Eine Struktur einer logischen Form wird in größe rem Detail in dem US-Patent Nr. 5,966,686, herausgegeben am 12. Oktober 1999 für Heidorn et al., mit dem Titel METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGI-CAL FORMS FROM SYNTAX TREES, angegeben.
Eine Vorverarbeitungs-Komponente 202 verarbeitet die abstrakte, linguistische Darstellung durch eine Degraphing-Verarbeitung der Eingabe. Zum Beispiel ist dort, wo die Eingabe eine logische Form ist, sie eine grafische Struktur, im Gegensatz zu einer Baumstruktur. Demzufolge wird die Eingabestruktur einem Degraphing unterworfen und in eine Struktur, die ähnlicher eines Baums ist, umgewandelt. Die Vorverarbeitungs-Komponente 202 fügt auch lexikalische Informationen zu der Eingabestruktur, wie beispielsweise über einen Wörterbuch-Durchsichtsvorgang, hinzu. Die Vorverarbeitungs-Komponente 202 kann auch eine Vereinfachung von Verbindungen durchführen. Die Ausgabe der Vorverarbeitungs-Komponenten 202 ist eine entgrafisierte Struktur 220, die zusätzliche Informationen dazu hinzugefügt besitzt.
Die Flesh-Out-Komponente 204 nimmt die Datenstruktur 220 auf und fügt syntaktische Informationen zu dieser Datenstruktur hinzu. Die Flesh-Out-Komponente 204 setzt auch Funktionsworte, wie beispielsweise Determinatoren bzw. Bestimmungsworte, Hilfsverben, semantische Lehrpräpositionen, Relativpronomen, usw., ein. Die Komponente 204 ordnet auch Fallmerkmale und Verb-Positions-Merkmale, ebenso wie die Wahrscheinlichkeiten zur Aussprache von Nomen-Ausdrücken in Subjekt- oder Objekt-Positionen, zu. Die Flesh-Out-Komponente 204 stellt, als eine Ausgabe, eine Struktur 222 bereit, die eine entgrafisierte Struktur mit syntaktischen und anderen Informationen dazu hinzugefügt ist.
Die Basis-Baum-Umwandlungs-Komponente 206 nimmt die Datenstruktur 222 auf und wandelt diese Datenstruktur in einen Basis-Syntax-Baum um. Die Komponente 206 liest eine syntaktische Baumstruktur von der entgrafisierten Datenstruktur 222 aus und teilt separierbare Vorsilben von deren Stämmen ab. Die Komponente 206 kann auch eine syntaktische Darstellung einer Koordination einführen und kann bestimmte, syntaktische Dominanz-Relationen umkehren. Die Komponente 206 stellt, als eine Ausgabe, einen ungeordneten Basis-Syntax-Baum 224 bereit.
Die Global-Bewegungs-Komponente 208 nimmt die Struktur 224 auf und führt eine Global-Bewegung oder eine globale Ordnung durch. Die Global-Bewegung umfasst die Bewegung von Frageworten (Wh-Worte), von Relativpronomen, und einem Vorgang, be kannt als die linguistische Theorie, wie sie entsteht. Die Komponente 208 führt auch eine Extra-Positions-Verarbeitung durch. Die Komponente 208 stellt, als einen Ausgang, eine Struktur 226 bereit, in der jeder Konstituent die korrekten Eltern hat, obwohl die Konstituenten in 226 ungeordnet sind.
Eine Intra-Konstituenten-Ordnungs-Komponente 210 nimmt die Struktur 226 als eine Eingabe auf und ordnet vollständig die Knoten in dem Syntax-Baum, um einen vollständig geordneten Syntax-Baum 228 an seinem Ausgang bereitzustellen.
Die Oberflächenreinigungs-Komponente 212 nimmt die Struktur 228 auf und führt Oberflächenreinigungs-Operationen durch, wie beispielsweise eine Oberflächenrealisierung von Determinatoren, Relativpronomen und Reflexivpronomen. Die Komponente 212 löscht auch dupliziertes Material in Koordination dazu. Die Komponente 212 stellt, als ihren Ausgang, einen reinen, vollständig geordneten Syntax-Baum 230 bereit.
Die Punktuierungs-Komponente 214 nimmt die Struktur 230 auf und setzt Punktuierungs-Markierungen in den Syntax-Baum ein. Die Komponente 214 stellt, als deren Ausgang, den gereinigten, vollständig geordneten Syntax-Baum, mit einer Punktuierung eingesetzt, wie dies durch das Bezugszeichen 232 angegeben ist, bereit.
Die Beugungs-Erzeugungs-Komponente 216 nimmt die Struktur 232 auf und erzeugt eine abschließende Beugung und gibt den abschließenden, gebeugten Baum 234 aus. Die Baum-Lese-Komponente 218 liest einfach den Baum 234 und stellt, als ihren Ausgang, einen Oberflächenstring- bzw. eine Oberflächen-Datenfolge 236 (oder einen realisierten Satz 236) durch Abgeben der Worte an den Blättern des abschließenden, gebeugten Baums 234 bereit. Dies ist das Ende der Folge, die in 2 dargestellt ist.
Unter Verwendung des vorstehend beschriebenen Systems werden Satz-Strings aus semantischen Abhängigkeits-Grafiken erzeugt, unter Verwendung einer Vielzahl von maschinen-erlernten Modulen, die die Zusammenhänge der Anwendung von bestimmten, linguistischen Operationen bestimmen. Diese Operationen transformieren diese semantische Darstellung in einen syntaktischen Baum und einen fließenden String bzw. eine fließende Datenfolge.
Wenn alle Syntax-Knoten erzeugt worden sind und alle hierarchischen Beziehungen eingerichtet worden sind, ist die Ordnung unter den Konstituenten des ungeordneten Syntax-Baums bestimmt, um einen geordneten Syntax-Baum zu erzeugen.
Dies ist allgemein in 3 dargestellt, in der ein ungeordneter Syntax-Baum durch die Ordnungskomponente 210 geordnet ist, was zu einem geordneten Syntax-Baum (oder einer Liste von geordneten Bäumen) führt. Der ungeordnete Syntax-Baum kann zum Beispiel so sein, wie dies bei 226 in 2 dargestellt ist, während der geordnete Syntax-Baum so sein kann, wie dies bei 228 in 2 dargestellt ist. Zum Beispiel wird der ungeordnete Syntax-Baum für das Beispiel, das in 5 dargestellt ist, betrachtet. Dieser ungeordnete Syntax-Baum wird von der semantischen Abhängigkeitsgrafik, dargestellt in 4, für den deutschen Satz abgeleitet: „In der folgenden Tabelle werden die Optionen sowie deren Funktionen aufgelistet". Das englische Äquivalent dieses Satzes ist: „The options and their functions are listed in the following table". In 5 sind die semantischen Relationen zwischen einem Modifizierer und einem Kopf, dargestellt in Klammern an den Blättern, angegeben. Ein geordneter Syntax-Baum für diesen ungeordneten Syntax-Baum könnte der Baum sein, der in 6 dargestellt ist.
Die vorliegende Erfindung verbessert weiterhin, in einer Ausführungsform, den Satzrealisierungs-Vorgang unter Verwendung von Entscheidungsbäumen, um die Wahrscheinlichkeitsverteilungen in Modellen einer Konstituenten-Struktur abzuschätzen, um eine Konstituenten-Ordnung einzurichten. Diese Maßnahme kann einen großen Merkmalsraum ohne eine manuelle Merkmalsauswahl handhaben. Andere Ausführungsformen setzen andere Techniken ein (wie beispielsweise Training einer maximalen Entropie von Log-Linear-Modellen), um die Wahrscheinlichkeitsverteilungen abzuschätzen.
Die frühesten Untersuchungen dieses Problems einer Bestimmung einer Konstituenten-Ordnung während einer Satzrealisierung hat sich auf Englisch konzentriert, einer Sprache mit sehr strikten Worten und einer sehr strikten Konstituenten-Reihenfolge. In dieser Beschreibung wird der Fokus auf Französisch und Deutsch gerichtet, die neue Herausforderungen darstellen. Das Ziel der Erfindung ist es, ein Modell anzugeben, das alle Ordnungsphänomene in einer vereinheitlichen und eleganten Art und Weise über typologisch diverse Sprachen handhabt. In der vorliegenden Beschreibung wird der Raum von möglichen Modellen und eine Prüfung einiger von diesen sehr genau beschrieben. Bevor die Modelle im Detail beschrieben werden, werden Punkte beim Bestimmen einer Wort-Konstituenten-Ordnung in Französisch und Deutsch angegeben.
Wort- und Konstituenten-Ordnung
Die Herausforderung für irgendein Modell einer Konstituenten-Ordnung ist diejenige, bevorzugte Ordnungsbeschränkungen, eine Abhängigkeit eines Konstituenten-Typs und -Zusammenhangs zu lernen, um fließende Sätze zu erzeugen.
Die Herausforderung bei einer deutschen Satzrealisierung ist die Kombination einer festen Verb-Position mit einer ziemlich freien Positionierung von anderen Konstituenten. In deklarativen Hauptsätzen und in einem kleinen Untersatz von Nebensätzen muss das finite Verb in der zweiten Position nach irgendeiner Art eines Konstituenten erscheinen („verb-second" Sätze). Finite Verben in den meisten Nebensätzen und alle nicht-finiten Verben werden an dem Ende des Satzes angeordnet („verb-final" Sätze, wie in 6). Fehler in der Platzierung von Verben führen zu Texten mit einer geringen Verständlichkeit.
Argumente des Verbs und zusätzliche Modifizierer können an verschiedenen Positionen innerhalb der Maske, definiert durch diesen festen, verbalen Rahmen, platziert werden. Die strukturellen, pragmatischen und semantischen Beschränkungen, die die Platzierung dieser fließenden Bestandteile bestimmen, sind nicht vollständig verstanden.
Französisch ist ähnlich zu Englisch insoweit, als die Beziehung zwischen einer Oberflächen-Syntax und grammatikalischen Beziehungen sehr direkt ist. Französisch liegt zwischen Englisch und Deutsch in der Komplexität der Ordnungsaufgabe. Ähnlich Englisch besitzt Französisch eine sehr strikte Ordnung der Konstituenten, allerdings ist eine Wortordnung weniger streng im Französischen als im Englischen. Ähnlich Englisch ist Französisch eine SVO-Sprache, allerdings ist eine Ordnung von Komplementen sehr frei: PP-Komplemente gehen oft Objekt-Komplementen stärker als ein einzelnes Wort voraus, und sie können an dem Beginn des Satzes auftreten. In Relativsätzen ist eine Umkehrung von nicht-klitischen Subjekten häufig. Eine Adjektiv-Position ist weniger feststehend als im Englischen: viele Adjektive können dem Hauptwort, das sie modifizieren, vorausgehen oder folgen, während andere Adjektive nur dem Hauptwort vorausgehen oder ihm folgen.
Andererseits ist eine Ordnung von Konstituenten zwischen dem Subjekt und dem Verb sehr streng. Klitische Pronome und der klitische Negator, wobei beide davon orthografisch im Französischen als unabhängige Worte dargestellt werden, treten zwischen dem Subjekt und dem Verb in einer strikten Ordnung, bestimmt durch den Typ der Klitik (Objekt, Dativ oder Stelle) und den Zustimmungsmerkmalen der Klitik, auf.
Modelle einer Konstituenten-Ordnung
Für den Zweck, die Modelle der Konstituenten-Struktur zu beschreiben, die wichtige Ordnungsphänomene erfassen, wird der Raum von möglichen Verbindungs- und konditionalen Modellen betrachtet. Die Unabhängigkeitsannahmen in den Modellen, der Satz von Merkmalen, verwendet in den Modellen, und die automatische Merkmal-Auswahl spielen alle eine wichtige Rolle beim Erzeugen von nützlichen Modellen. Viele Kombinationen sind möglich, und diese Erfindung umfasst die Kombinationen, die man als nützlich herausgefunden hat.
Die Modelle hier unterscheiden sich von den früheren, statistischen Annäherungen in dem Bereich von Eingabemerkmalen. Ähnlich den auf einer Kenntnis ausgelegten Maßnahmen setzen die Modelle, die hier angegeben sind, lexikalische Merkmale, einen Teil einer Sprache, einen Konstituenten-Typ, Konstituenten-Grenzen, Abhängigkeiten über eine große Entfernung und semantische Beziehungen zwischen Köpfen und deren Modifizierern setzen ein.
Obwohl die beschriebenen Modelle nicht den gesamten Raum von möglichen Modellen abdecken, hat man wesentliche Punkte in dem Raum ausgewählt.
Verbindungs-Modelle
Es wird damit begonnen, Verbindungs-Modelle der Konstituenten-Struktur der Form P(π, ρ) über geordnete Syntax-Bäume π und ungeordnete Syntax-Bäume ρ zu betrachten. Ein geordneter Baum π enthält Nicht-End-Konstituenten C, wobei jeder davon die Eltern einer geordneten Sequenz von Töchtern (D₁, ..., D_n) ist, wobei einer davon der Kopf bzw. der Anfang des Konstituenten H ist. (Alle großen lateinischen Buchstaben bezeichneten Konstituenten, und die entsprechenden lateinischen Buchstaben in kleinen Buchstaben bezeichnen deren Label -- d.h. syntaktische Kategorien). Unter Vorgabe eines geordneten Baums π ist der Wert der Funktion unordered_tree(π) ein ungeordneter Baum ρ entsprechend zu π, der einen Konstituenten B für jedes C in π enthält, so dass B = unordered_set(C) = {D₁, ..., D_n} gilt, wiederum mit H = D_i für einige i in (1..n). Die hierarchische Struktur von ρ ist identisch zu π.
Es werden hier Verbindungsmodelle zum Bewerten von alternativen, geordneten Bäumen wie folgt eingesetzt: unter Vorgabe eines ungeordneten Syntax-Baums ρ wird der geordnete Syntax-Baum π ^, der die Verbindungswahrscheinlichkeit maximiert, gewünscht. Das bedeutet, dass man sucht
Wie Gleichung 1 anzeigt, kann man die Suche auf solche Bäume π beschränken, die alternative Ordnungen des gegebenen Baums ρ sind. Um die möglichen Modell-Typen, die man betrachtet, zu beschränken, wird angenommen, dass die Ordnung irgendeines Konstituenten von der Ordnung innerhalb der anderen Konstituenten in dem Baum abhängig ist, einschließlich seiner Töchter. Demzufolge kann jeder Konstituent unabhängig geordnet werden; woraus folgt:
Speziell für π ^ erhält man:
Schließlich gilt für jedes B∊constits(ρ)
Demzufolge hat man das Problem auf ein Finden der besten Ordnung jedes Konstituenten des ungeordneten Baums reduziert.
Tatsächlich kann man die Suche weiter entsprechend dem Kopf von B einschränken, da der Kopf von C B anpassen muss:
Die einzigen, möglichen geordneten Bäume sind Bäume, die mit Konstituenten aufgebaut sind, die das vorstehende Prädikat erfüllen. Man muss zu P(C) normieren, so dass P(π) dies wiedergibt. Es wird angenommen, dass Z die Normierungs-Konstante ist:
Dann:
Natürlich ist, für ein gegebenes B, Z konstant, und deshalb hat es keinen Einfluss auf den Wert des argmax, so dass man nicht diesen in der Praxis berechnen muss.
Nun wird gewünscht, auf ein bestimmtes Merkmal x = f(ρ) zu konditionieren, wobei man dann zuerst dieses vorhersagen muss:
Falls x wahrhaftig ein Merkmal von ρ ist und nicht davon abhängt, welches C konsistent mit ρ man betrachtet, dann ist P(x) konstant, und man muss es nicht in der Praxis berechnen. Demzufolge kann man, gerade für ein Verbindungsmodell P(C), konditionierende Merkmale hinzufügen, die in dem gegebenen, nicht geordneten Baum ρ festgelegt sind, ohne sie zuerst vorherzusagen, wie in Gleichung 9.
Die Verbindungs-Modelle, die hier beschrieben sind, sind von dieser Form. Aus diesem Grund kann man, wenn man eine Verteilung P(C|x) beschreibt, ohne dass man es explizit in anderer Weise angibt, tatsächlich den Teil des Verbindungsmodells beschreiben, der von Interesse ist. Wie vorstehend begründet ist, muss man nicht P(x) berechnen und wird einfach alternative Formen von P(C|x) präsentieren.
Man kann die Verteilung P(C) (oder P(C|x)) auf viele unterschiedliche Arten und Weisen unter Verwendung der Kettenregel faktorisieren. Es wird die Klasse von Modellen, bezeichnet als Markov-Grammatiken, als der Ausgangspunkt hier angewandt. Eine „Markov-Grammatik" ist ein Modell einer Konstituenten-Struktur, die an dem Fußpunkt des Baums beginnt und eine Wahrscheinlichkeit zu der Erweiterung eines Nicht-Endes einer Tochter zu einem Zeitpunkt zuordnet, im Gegensatz zu gesamten Produktionen (siehe Charniak, E., 1997, „Statistical Techniques for Natural Language Parsing", In Al Magazin (1997); und Charniak, E., 2000, „A Maximum-Entropy-Inspired Parser", in Proceedings of ACL 2000, Seiten 132-139.)
Links-nach-rechts
Unter Betrachtung noch der Verbindungs-Modelle wird zuerst eine Markov-Grammatik von links-nach-rechts der Ordnung j betrachtet, die C durch Vorhersagen deren Töchter D₁, ..., D_n von links-nach-rechts erweitert, eine zu einem Zeitpunkt, wie dies in 7 dargestellt ist, entsprechend zu der Verteilung in Gleichung 11.
Um ein anderes Merkmal jeder Tochter D_i zu konditionieren, wie beispielsweise deren semantische Relation ψ_i zu dem Kopfbestandteil H, sagt man sie zuerst voraus, und zwar entsprechend der Kettenregel. Das Ergebnis ist Gleichung 12.
Demzufolge sagt das Modell eine semantische Beziehung ψ_i und dann das Label d_i in dem Zusammenhang dieser semantischen Beziehung voraus.
Als eine Erweiterung zu dem vorstehenden Modell werden Merkmale, berechnet durch die folgenden Funktionen in Bezug auf den Satz α_i von Töchtern von C, die bereits geordnet sind, eingeschlossen:

• Zahl von Töchtern, die bereits geordnet sind (Größe von α_i)
• Zahl von Töchtern in α_i, die ein bestimmtes Label für jedes der möglichen Konstituenten-Label {NP, AUXP, VP, usw.} haben (24 für Deutsch, 23 für Französisch).

Auf diese Art und Weise kann ein Modell einer Markov-Ordnung j potenziell eine wahre Ordnung größer als j haben. An diesem Punkt unterscheidet sich die Verwendung hier der Terminologie „Markov-Grammatik" von herkömmlichen Interpretationen des Ausdrucks. Man bezeichnet hier den Satz von Merkmalen kurz ausgedrückt als f(α_i):
Kopfgesteuert
Als eine Alternative zu der Erweiterung links-nach-rechts kann man jeden Konstituenten C eines geordneten Baums π als die Kopf-Tochter H, geordnete Vor-Modifizierer (L₁, ..., L_m) (von H) und geordnete Nach-Modifizierer (R₁, ..., R_n) charakterisieren, wie dies in 8 dargestellt ist. Man kann dies als eine „kopfgesteuerte Markov-Grammatik" bezeichnen. Falls der Konditionierungs-Kontext hier an dem Kopf anhält, beginnt, ohne einen Verlust einer Allgemeingültigkeit, die Erweiterung hier zuerst mit Vor-Modifizierern, gefolgt durch Nach-Modifizierer. Die Verteilung ist zweiteilig, mit einem Teil für eine Erweiterung der Vor-Modifizierer und einem zweiten Teil für eine Erweiterung der Nach-Modifizierer:
Wie in dem Fall von links-nach-rechts kann man die semantische Relation einer Tochter zu dem Kopf-Konstituenten H konditionieren. Für ein reicheres Modell kann man den vollen Satz α_i von Töchtern, die bereits geordnet sind, konditionieren (demzufolge Konditionieren in Bezug auf Merkmale über den Kopf).
Es werden nun komplexere Modelle betrachtet, die zusätzliche Merkmale verwenden: Der Kopf H von C, der ungeordnete Konstituent B, der C entspricht, seine Eltern P_B und seine Großeltern G_B. Wie in dem Zusammenhang in Gleichung 13 stellen B, P_B und G_B jeweils einen Satz von linguistischen Merkmalen in Bezug auf solche jeweilige Konstituenten dar: P(C|p) = P(C|h, B, PB, GB) Gleichung 15
Demzufolge ist das komplexe Modell hier mit einer Orientierung von links-nachrechts wie folgt strukturiert:
Hierbei kann jedes Modell von P(C|h,B,P_B,G_B) wahlweise Merkmale von B konsultieren. Es werden hier auch Merkmale eingeschlossen, die in Bezug auf den Satz α_i von Töchtern von C, die bereits geordnet sind, funktionieren.
Schließlich wird der Bereich der Verbindungs-Modelle verlassen und es werden genaue, konditionale Modelle durch Einschließen von Merkmalen eingeführt, die in Bezug auf den Satz β_i von Töchtern von C, die noch geordnet werden sollen, funktionieren. Zum Beispiel:

• Zahl von Töchtern, die verbleiben, um geordnet zu werden (Größe von β_i)
• Zahl von Töchtern in β_i, die ein bestimmtes Label haben.

Man bezeichnet diese Merkmalssätze hier abgekürzt als f(α_i) und f(β_i):
Wie bei den einfachen Modellen werden auch komplexe, kopfgesteuerte Markov-Grammatiken derselben Form betrachtet.
Binär-konditionales Modell
Es wird hier ein dritter Typ eines Modells eingeführt, den man als binärkonditionales Modell bezeichnen kann. Es schätzt eine Verteilung über die binäre Variable σ, bezeichnet als „sort-next", mit Werten ab {ja, nein}. Es stellt das Ereignis dar, das ein bis jetzt noch ungeordnetes Mitglied D von β_i (der Satz von bis jetzt ungeordneten Töchtern der Eltern C, wie vorstehend definiert) als nächstes „sortiert" werden sollte, wie in 9 dargestellt ist. Die konditionierenden Merkmale sind nahezu identisch zu solchen, die in den konditionalen Modellen von links-nach-rechts, diskutiert vorstehend, verwendet werden, mit der Ausnahme, dass D und ψ (die semantische Beziehung von D mit Kopf H) in dem konditionalen Zusammenhang erscheinen, niemals vorhergesagt werden. In seiner einfachen Form schätzt das Modell die folgende Verteilung ab.
Es wird nun beschrieben, wie dieses Modell direkt in einer „Sortierungs"-Suche später in dem Abschnitt in Bezug auf die Suche von links-nach-rechts anzuwenden ist.
Abschätzung
Man kann Verteilungen eines Modells unter Verwendung einer Zahl von unterschiedlichen Techniken abschätzen. Für diese Offenbarung hier werden interpolierte Sprach-Modelliertechniken (nachfolgend abgekürzt als LM) und wahrscheinlichkeitsmäßige Entscheidungsbäume (DTs) verwendet. Obwohl es nicht im Detail in dieser Offenbarung beschrieben ist, werden Fachleute auf dem betreffenden Fachgebiet erkennen, dass andere Maßnahmen in Bezug auf eine Merkmal-Auswahl und eine Verteilungsabschätzung auch verwendet werden können.
Es werden Modelle von beiden Typen, verwendet in den Experimenten hier, beschrieben. Alle Modelle in dieser Offenbarung sind solche einer Markov-Ordnung 2, mit der Ausnahme der zusätzlichen Merkmal-Funktionen f(α_i) und f((β_i), definiert vorstehend.
Sprach-Modellierung
Die LM-Modelle hier setzen ein interpoliertes Kneser-Ney als eine Glättungstechnik ein. Siehe Kneser R. und Ney H., 1995, „Improved backing-off for m-gram language modeling" in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1, Seiten 181-184; und Goodman J. T., 2001, „A Bit of Progress in Language Modeling: Extended Version", Microsoft technical report MSR-TR-2001-72. Ein Nachteil dieser Maßnahme (und der Tools, die man hier verwendet) ist das Erfordernis einer manuellen Merkmal-Auswahl und einer spezifizierten Back-off-Ordnung, wobei der praktische Effekt davon derjenige ist, dass nur eine relativ kleine Zahl von Merkmalen effektiv verwendet werden kann. Man setzt ein einzelnes Verbindungs-kopfgesteuertes Modell dieses Typs in den Experimenten hier ein.
Entscheidungs-Bäume
Es werden hier Entscheidungs-Bäume unter Verwendung des WinMine toolkit (siehe Chickering D. M., 2002, „The WinMine Toolkit", Microsoft Technical Report 2002-103), verwendet. Es muss nicht verdeutlicht werden, dass mittels WinMine erlernter Entscheidungs-Bäume nicht nur Klassifizierer sind; jedes Blatt ist eine konditionale Wahrscheinlichkeitsverteilung über die Werte des Sollmerkmals, unter Vorgabe aller Merkmale, die im Training verfügbar sind; demzufolge ist der Baum selbst eine Abschätzung derselben konditionalen Verteilung. Der primäre Vorteil, Entscheidungs-Bäume zu verwenden, und probabilistische DTs insbesondere, ist ein automatisches Auswahlmerkmal von einem großen Vorrat an Merkmalen. Man setzt hier sechs Modelle dieses Typs mit einem reichen Satz an Merkmalen ein. Zwei Modelle sind eine Verbindung; zwei sind eine Verbindung mit Merkmalen in Bezug auf den Satz von Töchtern, die bereits geordnet sind (bezeichnet mit f(α_i)); zwei sind konditional. Eines jedes Typs ist kopfgesteuert, und eines von jedem verläuft von links-nach-rechts. Zusätzlich kann man ein binäres, konditionales DT-Modell von links-nach-rechts einsetzen, beides mit und ohne Normierung.
Merkmale und Merkmal-Auswahl
Ein weiter Bereich von linguistischen Merkmalen wird aus den unterschiedlichen Entscheidungs-Baum-Modellen extrahiert. Die Anzahl von ausgewählten Merkmalen für Deutsch reicht von 6 bis 8 (von 8) für die Verbindungsmodelle, von 7 bis 16 (von 33) für die Verbindungs-Modelle mit f(α_i), von 21 bis 107 (von 487) (kopfgesteuert), 494 (1-bis-r)) für konditionale Modelle, und erreicht 280 (von 651) in dem binären, konditionalen Modell. Für Französisch reicht die Anzahl von ausgewählten Merkmalen von 6 bis 8 (von 8) für die Verbindungs-Modelle, von 7 bis 11 (von 32) für die Verbindungsmodelle mit f(α_i), von 22 bis 91 (von 404 (kopfgesteuert), 429 (1-bis-r)) für die konditionalen Modelle, und erreicht 218 (von 550) in dem binären, konditionalen Modell, wobei alle davon sehr gut mit den deutschen Modellen vergleichbar sind. Die komplexen und binären, konditionalen Modelle können von dem vollen Spektrum verfügbarer Merkmale herausgezogen werden:

• lexikalische Unterkategorisierungs-Merkmale, wie beispielsweise Transitivität und Kompatibilität mit klausalen Komplementen
• Kurztitel (oder Wortstämme)
• semantische Merkmale, wie beispielsweise die semantische Relation und das Vorhandensein von quantifikationsmäßigen Operatoren
• Länge eines Konstituenten in Worten
• syntaktische Informationen, wie beispielsweise das Label und das Vorhandensein von syntaktischen Modifizierern

Von einem linguistischen Standpunkt aus gesehen ist es von besonderem Interesse, dass es gerade mit einer detaillierten, linguistischen Kenntnis der Einzelheiten einer deutschen und französischen Grammatik unmöglich gewesen wäre, diese Merkmal-Auswahl manuell durchzuführen. Ein Paar hervorstechender, semantischer Grundmerkmale, wie beispielsweise Belebtheit und Definiertheit, sind deutlich relevant für eine Ordnung. Allerdings werden die Wechselwirkungen dieser Merkmale derzeit zu schlecht verstanden, um eine erklärende Beschreibung deren Rolle bei der Ordnung zu ermöglichen.
Suche – erschöpfende Suche
Unter Vorgabe eines ungeordneten Baums ρ und eines Modells einer Konstituenten-Struktur O wird nach dem am besten geordneten Baum π gesucht, der P_o(π|ρ) maximiert, wobei der Kontext entsprechend der Komplexität des Modells variiert. Jedes der Modelle hier (mit Ausnahme des binären, konditionalen Modells) schätzt die Wahrscheinlichkeit einer Ordnung irgendeines gegebenen Konstituenten C in π, unabhängig von der Ordnung innerhalb anderer Konstituenten in π, ab. Die vollständige Suche ist ein dynamischer Programmieralgorithmus, entweder von links-nach-rechts in den Töchtern von C, oder kopfgesteuert, und zwar in Abhängigkeit von dem Modell. Die Suche behält eine nicht-statistische Beschränkung bei: sie respektiert die Ordnung von koordinierten Konstituenten, wie sie in dem „ungeordneten" Baum erscheinen.
Suche – Greedy Suche für ein binäres, konditionales Modell
Das binäre, konditionale Modell wird in einem „Sortier"-Modus von links-nach-rechts angewandt. Es wird 9 für eine Schematik des Prozesses herangezogen. Für jede ungeordnete Tochter D_j, in β_i, wird das Modell für die Wahrscheinlichkeit von σ_j = yes konsultiert, nämlich, dass D_j nach rechts von den bereits geordneten Tochter-Konstituenten α_i platziert werden sollte. Die Tochter in β_i mit der höchsten Wahrscheinlichkeit wird von β_i entfernt und erstreckt α_i nach rechts. Die Suche geht weiter mit den verbleibenden, ungeordneten Konstituenten, bis alle Konstituenten in der Liste der ungeordneten Konstituenten in dieser erfolgsorientierten Art und Weise geordnet worden sind.
Um dieses Modell in der umfangreichen DP-Suche anzuwenden, wird das Modell an jeder Stufe der Suche normiert und es wird dadurch in eine Wahrscheinlichkeitsverteilung über die verbleibenden Töchter in β_i hineingezwungen. Es wird hier Gleichung 18 kurzerhand einfach als P(σ|d, ψ,Γ_i), wobei Γ_i die kontextmäßigen Merkmale für die gege bene Such-Hypothese an der Suchstufe i darstellt. Demzufolge ist die normierte Verteilung hier für die Stufe i durch Gleichung 19 gegeben. Die freie Variable j stellt einen Index an ungeordneten Töchtern in β_i dar, wie dies auch für k der Fall ist.
Experimente – Training
Es wird hier ein Satz von Experimenten beschrieben, um die verschiedenen Modelle, die vorstehend angegeben sind, zu vergleichen und im Gegensatz zueinander zu setzen. Für ein Training wurde ein Trainingssatz von 20.000 Sätzen verwendet, sowohl für Französisch als auch für Deutsch. Die Daten kommen von technischen Manuals in der Computer-Domäne. Für einen gegebenen Satz in dem Trainingssatz wurde der Satz zuerst als ein Syntax-Baum und eine semantische Abhängigkeitsgrafik unter Verwendung des NLPWin Systems analysiert (US-Patent Nr. 5,966,686, herausgegeben am 12. Oktober 1999 für Heidorn et al, mit dem Titel „METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES"). Durch Konsultieren der semantischen Abhängigkeitsgrafik und des Syntax-Baums wird ein Baum mit allen der Charakteristika von Bäumen, gesehen durch die Amalgam Ordnungsstufe zu der Erzeugungslaufzeit, mit einer Ausnahme, erzeugt: diese Trainingsbäume werden geeignet geordnet. Dieser Baum umfasst alle Merkmale, die von Interesse sind, einschließlich der semantischen Beziehungen unter einem Kopf und seinen Modifizierern. Die Ordnungsmodelle, die verwendet sind, sind von den Konstituenten dieser Bäume trainiert.
Experimente – Evaluierung
Um die Modelle zu evaluieren, wird der Ordnungsvorgang in Isolation evaluiert, unabhängig von dem Rest des Amalgam-Satzrealisierungsvorgangs. Test-Sätze von 1.000 Sätzen werden verwendet, auch von technischen Manuals, für jede Sprache. Um eine Ordnung, für einen gegebenen Test-Satz, zu isolieren, wird der Satz wie in dem Training verarbeitet, um einen geordneten Baum π zu erzeugen (die Referenz für eine Evaluierung), und um davon einen ungeordneten Baum ρ zu erzeugen. Unter Vorgabe von ρ wird eine Suche für die beste, geordnete Baum-Hypothese π ^ unter Verwendung des in Rede stehenden Modells durchgeführt. Ein Vergleich von π und π ^ wird dann vorgenommen. Da nur eine Konstituenten-Ordnung durchgeführt wird, können π und π ^ durch Vergleichen der Ordnung deren entsprechender Konstituenten verglichen werden. Die Metrik, die dazu verwendet ist, zwei Konstituenten in diesem Fall zu vergleichen, ist ein Editier-Abstand, gemessen als ein Prozentsatz der gesamten Töchter, die in Bewegungen partizipieren. Die gesamte Bewertung für den Hypothese-Baum π ^ ist der gewichtete Durchschnitt des Pro-Konstituenten-Editier-Abstands.
Auch werden durchschnittliche Pro-Konstituenten-Editier-Abstand-Metriken für jeden Nicht-Terminal-Typ für den Zweck einer Fehleranalyse und zum Erhalten des Einflusses eines gegebenen Modells auf linguistische Zusammenhänge, die von Interesse sind, berechnet.
Für jedes Modell wird die durchschnittliche Bewertung über den Test-Satz für die gegebene Sprache in der Tabelle in 10 angegeben. Für sowohl Deutsch als auch Französisch übertrifft das binäre, konditionale DT-Modell von links-nach-rechts (angewandt in einer Greedy-Suche) alle anderen Modelle. Ein Normieren des binären, konditionalen Modells und ein Anwenden davon in einer umfangreichen Suche hilft nicht; tatsächlich kann ein leichter Abfall in der Genauigkeit aufgrund des Label-Bias-Problems auftreten. Siehe Lafferty et al, 2001, „Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data", in Proc. Of 18^th ICML, Seiten 282-289.
Das interpolierte Sprachmodell ist das zweitbeste für Französisch und Deutsch. Dieses Modell besitzt die einfachste Struktur, setzt allerdings die anspruchsvollste Glättung ein.
Es ist interessant anzumerken, dass die Verbindungs-Modelle von links-nach-rechts (ohne f(α_i) Merkmale) die kopfgesteuerten Verbindungs-Modelle für sowohl Deutsch als auch Französisch übertreffen. Das Einschließen der f(α_i) Merkmale für links-nach-rechts und kopfgesteuert dreht die Situation für Französisch, allerdings nicht für Deutsch, um.
Wiederum übertreffen für Deutsch die konditionalen Modelle von links-nach-rechts die kopfgesteuerten, konditionalen Modelle. Für Französisch ist es ein ähnlicher Fall. Wie für die Frage von konditionalen gegenüber Verbindungs-Modellen übertreffen die einfachen Modelle (mit f(α_i) Merkmalen) übereinstimmend deren komplexe Gegenstücke. Dies kann aufgrund eines Fehlens ausreichender Trainingsdaten der Fall sein. Hierbei ist die Trainingszeit der komplexen Modelle der begrenzende Faktor.
Dabei ist auch eine deutliche Disparität zwischen der Funktionsweise der deutschen Modelle und der Funktionsweise der französischen Modelle vorhanden. Das beste deutsche Modell ist zweimal so schlecht wie das beste französische Modell.
In Bezug auf individuelle, syntaktische Kategorien liegt die Güte des binären, konditionalen Modells primär in dem korrekten Einrichten einer Konstituenten-Ordnung innerhalb verbaler Konstituenten. Für Deutsch bewertet das binäre, konditionale Modell 9,892% für verbale Konstituenten. Das Beste irgendeines der anderen Modelle kann dies mit 13,61% vornehmen (links-nach-rechts Verbindung mit f(α_i)). Für Französisch bewertet das binäre, konditionale Modell mit 3,602% für verbale Konstituenten. Das Beste irgendeines der anderen Modelle kann dies mit 5,891% vornehmen (LM kopfgesteuerte Verbindung).
Die besondere Schwierigkeit beim Einrichten einer Ordnung in verbalen Konstituenten in Deutsch ist am wahrscheinlichsten den Herausforderungen einer Verb-Positionierung und der entspannteren Ordnung von Modifizierern in dem verbalen Zusammenhang zuschreibbar. Um sich dem Punkt der Verb-Ordnung zuzuwenden, wurde ein zusätzliches Merkmal in den ungeordneten Baum für ein Experimentieren eingeschlossen. Die Position des Verbs war nicht in Bezug auf alle relevanten Konstituenten angegeben. Durch Hinzufügen dieses Merkmals zu den konditionalen Modellen wurde ein wesentlicher Sprung in der Modell-Genauigkeit beobachtet, wie dies in der Tabelle in 11 dargestellt ist.
Wiederum ist das beste Modell das binäre, konditionale Modell. Wie zuvor hilft eine Normierung nicht. Die Verbesserung, die durch die Verfügbarkeit des Verb-Positions-Merkmals beitrug, ist 13% einer relativen Verringerung der gesamten Ordnungs-Fehler-Rate. Wie für die verbalen Konstituenten verbessert sich die Bewertung auf 8,468% mit Verb-Positions-Merkmalen. Das nächstbeste Modell mit einer Verb-Position ist das linksnach-rechts konditionale Modell mit 12,59%.
Obwohl die vorliegende Erfindung unter Bezugnahme auf bestimmte Ausführungsformen beschrieben worden ist, werden Fachleute auf dem betreffenden Fachgebiet erkennen, dass Änderungen in Form und Details vorgenommen werden können, ohne den Schutzumfang der Erfindung, wie er nur durch die beigefügten Ansprüche definiert ist, zu verlassen.

Claims

Baum-Ordnungskomponente für ein Satzrealisierungs-System, wobei die Baum-Ordnungskomponente eine Einrichtung umfasst, die so eingerichtet ist, dass sie einen ungeordneten Syntax-Baum empfängt und eine bewertete sowie abgestufte Liste alternativer geordneter Syntax-Bäume aus dem ungeordneten Syntax-Baum erzeugt, und die Baum-Ordnungskomponente des Weiteren umfasst: ein statistisches Modell mit merkmalskonditionierter Konstituenten-Struktur, das eine formale Struktur hat und dessen Parameter unter Verwendung eines statistischen Schätzverfahrens geschätzt werden; und eine Such-Komponente, die eine Einrichtung umfasst, die so eingerichtet ist, dass sie den ungeordneten Syntax-Baum empfängt, den Satz möglicher alternativer geordneter Syntax-Bäume prüft und identifiziert, welcher der alternativen geordneten Syntax-Bäume entsprechend dem statistischen Modell mit Konstituenten-Struktur eine höchste Wahrscheinlichkeit hat.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale mit einem automatischen Merkmals-Auswählverfahren ausgewählt worden sind.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Sprachmodellierungsverfahren geschätzt werden.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Verfahren maximaler Entropie geschätzt werden.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Parameter des Modells mit Entscheidungsbaum-Lernverfahren geschätzt werden.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die formale Struktur des Modells eine Markov-Grammatik mit einer bestimmten Ausrichtung ist.
Baum-Ordnungskomponente nach Anspruch 6, wobei bei dem statistischen Modell mit Konstituenten-Struktur das Modell, das Markov-Grammatik-Struktur hat, ein gemeinsames Modell mit Konstituenten-Struktur ist.
Baum-Ordnungskomponente nach Anspruch 6, wobei bei dem statistischen Modell mit Konstituenten-Struktur das Modell, das Markov-Grammatik-Struktur hat, ein bedingtes Modell mit Konstituenten-Struktur ist.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur die formale Struktur des Modells ein binäres bedingtes Modell ist.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere lexikalische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere syntaktische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells ein oder mehrere semantische Merkmale von Konstituenten in dem ungeordneten Baum enthält.
Baum-Ordnungskomponente nach Anspruch 12, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells die semantische Beziehung zwischen dem Kopf einer bestimmten Konstituente in dem ungeordneten Baum und den Töchtern dieser Konstituente enthält.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells eine Länge einer bestimmten Konstituente des ungeordneten Baums in Worten enthält.
Baum-Ordnungskomponente nach Anspruch 1, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die bereits geordneten Töchter dieses Konstituenten.
Baum-Ordnungskomponente nach Anspruch 15, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
Baum-Ordnungskomponente nach Anspruch 15, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.
Baum-Ordnungskomponente nach Anspruch 8, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die noch zu ordnenden Töchter dieses Konstituenten.
Baum-Ordnungskomponente nach Anspruch 18, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
Baum-Ordnungskomponente nach Anspruch 18, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.
Baum-Ordnungskomponente nach Anspruch 9, wobei bei dem statistischen Modell mit Konstituenten-Struktur ein Merkmalssatz des Modells Merkmale eines Konstituenten-Satzes enthält, die wie folgt definiert werden: für einen bestimmten Konstituenten des ungeordneten Baums während der Ordnungs-Suche relativ zu einer Ordnungs-Hypothese die noch zu ordnenden Töchter dieses Konstituenten.
Baum-Ordnungskomponente nach Anspruch 21, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Größe dieses Satzes einschließen.
Baum-Ordnungskomponente nach Anspruch 21, wobei bei dem statistischen Modell mit Konstituenten-Struktur die Merkmale des Konstituenten-Satzes von Interesse eine Gesamtzahl des Auftretens jeder syntaktischen Kategorie in diesem Satz einschließen.