CN1542649B

CN1542649B - 句子实现系统

Info

Publication number: CN1542649B
Application number: CN200410032691XA
Authority: CN
Inventors: E·林格; M·加蒙; M·斯麦茨; S·科斯顿-奥利弗; R·C·摩尔
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-03-25
Filing date: 2004-03-25
Publication date: 2010-06-16
Anticipated expiration: 2024-03-25
Also published as: DE602004003513D1; EP1462948A1; CA2461777A1; US20040193401A1; CA2461777C; ATE347711T1; AU2004201089A1; KR20040084856A; BRPI0400778A; MXPA04002816A; DE602004003513T2; AU2004201089B2; CN1542649A; EP1462948B1; KR101084786B1; JP2004295884A; US7346493B2; RU2336552C2; RU2004108775A

Abstract

本发明是一个在句子实现系统中的树形排序部件，该部件接收一个无序的语法树并从该无序语法树中产生可选有序语法树的一个归类表。本发明还包括在对可选排序树的计分中由该树形排序部件所使用的成分结构的统计模型。

Description

句子实现系统

发明背景

本发明涉及自然语言的生成。更准确地说，本发明涉及自然语言生成系统的句子实现。

背景技术

自然语言生成系统通过句子的语言表达来产生文本。这种系统典型地包括文本设计器或内容选择部件，句子设计部件和一个句子实现部件。

该文本设计器或内容选择部件获得将要形成已实现文本的基础的内容以作为输入。该句子设计部分确定如何将内容组织成句子，以及句子实现部分确定如何公式化实际输出的句子。

例如，假设文本设计器提供如“Little Red Riding Hood”、“walking”、以及“grandmother’s house”这样的实义词。句子设计器确定“Little Red Riding Hood”是主体，动作是“walking”，以及目的是“grandmother’s house”。该句子设计器将这种抽象的语言表达作为输入提供给句子实现部件。句子实现部件执行将抽象的语言表达映射到相应于抽象的语言表达的词和标点的实际序列的合成任务。该词和标点的实际序列即为由系统输出的已实现的句子(也称为表面字符串)。

先前的句子实现系统倾向于分成两个不同的种类。第一种类型的系统是一种手动编码、基于规则的系统，该系统连续操作语言的表达来产生可从中简单地读出表面字符串的表达。在这种系统中，计算的语言典型明确地对策略进行译码，所述策略用于从设计文本和集合内容成为一个单句到选择相应表达的适当形式的阶段，执行语形的词尾变化的阶段并格式化一个输出的阶段。这种的系统典型地包括需要非常多的时间消耗来产生的大量手写代码。另外，这种手动编码系统在适应新的领域中遇到了很大的困难，并且在适应不同的语言时遇到了更大的困难。

在过去典型使用的第二种类型的句子实现系统，尝试从输入的语言表达直接产生候选句子。例如，这种系统在非常特殊的领域应用中(例如在航班预定中)使用，其存在有限数目的模板，并可简单地将实义词分配到到模板中的不同位置。该填充模板通常直接产生一个输出。

另一种类型的句子实现系统列举了所有从句子的抽象的语言表达中产生的可能的候选句子。在这些例子中，使用统计技术来估计候选的句子，该技术推荐其中词语的组合与实际文本中所遵守的组合最匹配的句子。然而，对于一个给定的语言表达，将要进行分析的候选句子的数目是非常庞大的。这导致了缓慢的计算时间。此外，这种用于估计候选句子的技术通常在长距离语言现象上拙劣地执行。这使得这种系统不适合普遍为长距离现象的类型和语言。

第三种类别的系统的例子是Nitrogen系统，其描述于Langkilde，I.和K.Knight，1998，The Practical Value of N-Grams in Generation”Proceedings of the 9thInternational Workshop on Natural Language Generation，Niagara-on-the-lake，Canada，248-255页；以及Langkilde，I.和K.Knight，1998，“Generation that ExploitsCorpus-Based Statistical Knowledge”Proceedings of the 36th Annual Meeting of theAssociation for Computational Linguistics and 17th International Conference onComputational Linguistics(COLING-ACL 1998)，Montreal，Quebec，Canada，704-710页。

起初在这些系统中，使用词二元语法代替深奥的语言知识在选择的输出句子中判定。知识工程的两组规则运行在输入规范说明上以产生候选的输出句子。其中一组规则执行从指定下的语义到可能的语法公式表示的一到多映射，增加(fleshing out)诸如在日语-英语机器翻译系统那样的实际产生环境中可能丢失的诸如确定性和数目的信息。包括对目标域敏感性的第二组规则转换由第一模块产生的表达以产生表现为一个词点阵的更多候选句子。由简单表查找来执行的语形的词尾变化还扩展了该点阵。使用词二元语法查找点阵的最佳遍历，以产生最佳排列的输出句子。这种系统产生大量用于计算和排列的候选句子。例如，在Langkilde，I.和K.Knight中给定的一个实例中，输入的语义形式包括五个词汇节点，其具有如主体、目的和受动者这样的关系。从这个语义输入得到的词点阵包含多于11千万的可能路径，其最佳排列候选为“Visitors who came in Japanadmire Mount Fuji.”。另一个这种实例(没有给出语义输入表达)只包括两个转换到包含155,000条路径以上的点阵中的实义词，以产生最佳排序后选“I can notbetray their trust.”。

在这种系统中使用的该词二元语法语言模型遇到了在非邻近词中不能获得从属物的问题。增加该语言模型的顺序到三元语法或更高级的n元语法中是可能的，但该模型仍未能获得典型的长距离从属物。此外，数据稀少成为顺序增加的一个问题。

我们也注意到与在下文中称为顺序模型的部分揭露内容相关其它先前的技术。一个相关领域包括“生成”分析模型。这种模型在分析(也就是语法分析)处理中使用以将概率分配到可选择的语法树。名称“生成”表示也可以根据该模型中分配随机取样该模型以生成一个句子结构。在该分析处理中，这种模型可以分配一个概率到可能的成分结构，在该生成处理过程中给出的相关特征。

这种分析模型的例子在以下出版物中记载。Eugene Charniak，出现在TheProceedings of NAACL-2000中的“A Maximum-Entropy-Inspired Parser”，Seattle，Washington，132-139页。以及：Eugene Charniak，出现在the Proceedings of the 39^thAnnual Meeting of the Association for Computational Linguistics中的“Immediate-Head Parsing for Language Models”，Toulouse，France，116-123页。在这些文件所描述的技术中，成分可能性的估计是以例如成分的前部这样的前后关系的信息为条件的。本发明的排序模型的一个方面是将此处披露的技术与Charniak的技术以及在先的生成分析模型相区分，其利用了语义关系以及对于非分析期间的产生任务来说可用的其他特征。

另个参考点在于David Magerman的分析技术，该技术在分析中使用了判定树来估计重要分配。见Magerman M.，1995，在Proc.OfACL中的“StatisticalDecision-Tree Models for Parsing”，276-283页。该技术与本发明最根本的区别在于分析函数生成的应用以及每一个模型可用特征中的区别。此外，Magerman的模型是不可再生的。

词和成分顺序在估计一个句子的流畅性和可理解性中扮演一个重要的角色。以往在自然语言生成的句子实现阶段中的建立顺序通常是通过手动生成文法来实现的。例如见，AikawaT等的，2001年，Proceedings of the 8th European Workshopon Natural Language Generation中的“Multilingual sentence generation”，Toulouse，France，57-63页；以及Reiter E等的，2000年，“Building natural language generationsystems”，Cambridge University Press。近来，探讨了统计的方法。以上描述的Nitrogen系统和Fergus系统(见Bangalore S.和Rambow O.，2000，Proceedings ofCOLING 2000中的“Exploiting a probabilistic hierarchical model for generation”，Saarbrücken，Germany，42-48页)已使用了词n元语法语言模型以在一个词序列候选的大集合中进行选择，其中所述词序列候选在成分顺序、词顺序、词汇选择、以及语形的词尾变化中的改变。在Nitrogen系统和Fergus系统中，成分顺序通过关于表面字符串的词n元语法进行模仿；也就是说，作为一种个别现象，顺序没有从适当的语形变量的选择和内部输入的决定中分离。它们在实现过程中也不影响重要语言特征的可用性。

如同Nitrogen，Halogen系统(见Langkilde I.，2000，Proceeding of NAACL2000中的“Forest-Based Statistical Sentence generation”，l 70-177页；以及L abgkilde-Geary I.，2002，见Proceedings of the Inernational Language GenerationConference 2002，New York，pp.17-24的“An Emprical Verification of Coverage andcorrectness for a General-Purpose Sentence Generator，”)使用一个词n元语法模型，但它通过首先约束在每个成分的范围中的搜索，从一个森林(而不是一个点阵)中有效地提取最佳计算的表面实现。

该Amalgam系统(见Proceedings of the international languge generationconference 2002 New York，pp.33-40的Corston-Oliver等al.，2002，“An overview ofAmalgam：a machine-learned generation module”)具有一个明确的排序阶段，该阶段直接地确定成分的顺序和它们的子节点而不是词。Amalgam影响树形成分结构和那些成分的特征。通过在成分中的建立顺序，Amalgam在词级别上约束可能的句子实现。然而，用于在自然语言生成中建立成分顺序的成分结构的Amalgam模型的改进可以产生改进的结果；这些提高是本发明披露的重点。

发明内容

本发明提供了一种句子实现系统，它接收一个无序语法树并从该无序语法树产生一个可选择的有序语法树的计分和归类表，该句子实现系统包括：一个以特征为条件的成分结构的生成统计模型，该模型具有形式的结构，并且使用统计估计技术来估计该模型的参数；一个搜索部件，该部件接收无序语法树以生成句子，考虑有可能的可选有序语法树的集合，并根据该成分结构的生成统计模型确定具有最大概率的可选有序语法树，所述搜索部件提供一个用于生成句子的完全有序语法树作为输出；以及一个树读取部件，用于从所述完全有序语法树生成句子。

本发明是一个部件，该部件在一个语法树结构中排序成分，以便校正在句子实现中建立的词序。结果是个有序语法树或一个可选排序语法树的计分和排列表。基于成分结构的统计模型(包括判定树模型)，系统的这种树形排序部件(或部件组)接收一个无序的语法树并估计该语法树的可选择排序的概率。使用判定树模型来估计成分结构在模型中的概率分布也是本发明的一个贡献。这种技术允许一个带有自动特征选择的大特征空间。

在其它实施例中，可以使用不同于判定树学习技术诸如最大平均信息量训练和语言模型化来估计成分结构的模型(此处也称为“顺序模型”)参数。

在一些实施例中，树形排序部件使用一个条件成分顺序模型，该模型给出无序语法树，确定大量可选择的有序语法树中的哪一个具有无序语法树所给定的最大条件概率。在一些更特殊的实施例中，该条件的成分顺序模型是一个二元条件成分顺序模型。

在一些实施例中，顺序模型是一个条件成分顺序模型，该模型是一个马尔可夫文法。在一些更特殊的实施例中，该马尔可夫文法是一个从左到右的马尔可夫语法，或者是一个中心词-驱动动的马尔可夫语法。这种定义不限制于以上的方向，并可以包括其它的方向，如从右到左，或交替的左和右等。

在一些实施例中，该树形排序部件使用一个接合成分顺序模型，该模型对大量可选择的有序语法树和给出的未排序语法树中的每一个分配一个得分。这些接合模型是马尔可夫语法。此外，对于该接合模型，还有带有从左到右的方向、中心词-驱动等更特别的实施例。

在一些实施例中，该顺序模型通过以成分的子节点的特征为条件来估计一个成分的顺序的概率。例如，该模型可以以讨论中的父子(head daughter)节点和子(daughter)节点之间的语义关系为条件。在另一个实施例中，一个语境特征是该已排序成分的子节点的数目，或者是仍需被排序的成分的子节点的数目。在另一个实施例中，特征是具有一个特别成分标记的已排序成分的子节点的数目。

在一些实施例中，该顺序模型在至少一个词汇特征上以该有序语法树的概率为条件。可能的词汇特征包括，例如，传递性以及带有从句(补语)的兼容性。

在其它实施例中，该顺序模型在至少一个词汇特征上以该有序语法树的概率为条件，例如存在的操作的语义关系或量化。其它特征可以在其它实施例中使用

附图说明

图1是一个在其中使用本发明的典型环境的方块图。

图2是一个体现本发明并说明了数据流的句子实现系统实例的方块图，所述句子实现系统包括一个用于排序的方框。

图3说明了本发明使用类型的排序部件来识别一个特定的无序语法树所给出的有序语法树的的方框图。

图4是作为本发明的输入而使用句子的典型语义表达，并且具体作为一个逻辑形式。

图5说明了根据图4的逻辑形式的一个无序语法树的例子，以及用于排序部件的典型输入。

图6说明了根据图5的无序语法树的一个有序语法树的例子，以及树形排序部件的典型的输出。

图7是说明成分从左到右扩展。

图8是说明成分的中心词-驱动扩展的一个方框图。

图9是说明使用一个二元条件模型的成分从左到右扩展。

图10是比较用于德语和法语的各种顺序模型的结果表。

图11是对比带有或不带有位置特征的顺序模型的子集的结果表。

具体实施方式

本发明描述了关于一个句子实现的系统。本发明包括全部句子实现系统的树形排序部件和包含在该部件中的方法。

本发明利用判定树来估计成分结构模式中的概率分配以确定在自然语言生成中的成分顺序。这种方法可以不通过人工特征选择来处理一个很大的特征空间。在此所述的技术使用于法语和德语中广泛覆盖的句子实现，以说明如何处理这些语言中字序的推广。该技术也可适用于任何其它语言。

图1举例说明了一个可执行本发明的合适的计算系统环境100的实例。该计算系统环境100只是合适的计算环境的一个实例，但并不是对本发明的使用或功能性的范围的任何限定。计算环境100也不作为具有涉及在典型的操作环境100中所说明的任何一个或组合的部件的任何从属性或必要条件来解释。

本发明通过许多其它一般目的或特殊目的计算系统环境或配置来操作。熟知的可以适合于本发明使用的计算系统、环境、和/或配置的例子包括但并不限于个人计算机、服务器计算机、手提式或膝上型设备、多处理器系统、基于微处理器系统、机顶盒、可编程消费电子技术、网络个人计算机、小型计算机、大型计算机、包括任何一个上述系统或设备的分布计算环境等。

本发明可在计算机执行指令诸如由一个计算机执行的程序模块的通用环境中描述，。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。本发明也可以在分布计算环境中实行，在分布计算环境中通过由一个通信网络连接的远程处理设备来执行任务。在分布计算环境中，程序模块可以位于包括存储器设备的本地和远程计算机存储介质中。

根据图1，一个用于实现本发明的典型系统包括形式为计算机110的一个通用计算设备。计算机110的部件可以包括但并不限于一个处理单元120、一个系统存储器130、和一个连接包括从该系统存储器到该处理单元120的各系统部件的系统总线121。该系统总线121可以是几种类型的总线结构中的任何一种，该总线结构包括一个存储总线或存储控制器、一个外围总线和一个使用多种总线结构中的任何一个的局部总线。举例来说但并不局限于此，这样的结构包括工业标准结构(ISA)总线、微通道(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也被称为夹层(Mezzanine)总线的外设部件互连(PCI)总线。

计算机110典型地包括多种计算机可读介质。计算机可读介质可以是能够通过计算机110访问的任何可用介质，并包括易失和非易失介质、可拆卸和不可拆卸介质。举例来说但并不局限于此，计算机可读介质可以包含计算机存储介质和通信介质。计算机存储介质包括以任何用于信息的存储的方法或技术实现的易失和非易失介质、可拆卸和不可拆卸介质，这些信息可例如是计算机可读指令、程序模块或其它数据。计算机存储介质包括，但并不局限于RAM，ROM，EEPROM，闪存存储器或其它存储技术、CD-ROM，数字通用盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储器设备、或任何其它可以用于存储需求信息和可以通过计算机110访问的介质。通信介质典型地包含计算机可读指令、数据结构、程序模块或在例如一个载波中的调制数据信号中或在其它传送机构中的其它数据，并包括任何信息传递介质。术语“调制数据信号”表示一个以在信号中编码信息的方式对其一个或多个特征进行设定或改变的信号。举例来说但并不局限于此，通信介质包括如一个有线网络或直接接线的连接器这样的有线介质，以及像声学的、RF、红外线的以及其它无线介质这样的无线介质，但并不局限于此。上述任意一种的组合也包括在计算机可读介质的范围中。

系统存储器130包括形式为易失和/或非易失存储器的计算机存储介质诸如只读存储器(ROM)131和随机存取存储器(RAM)132。一个基本输入/输出系统133(BIOS)通常存储在ROM131中，该系统包含例如在启动过程中帮助在计算机100中的元件间传递信息的基本程序。RAM 132典型地包含通过处理单元120可快速访问和/或正在运行的数据和/或程序模块。举例来说但并不局限于此，图1说明了操作系统134、应用程序135、其它程序模块136、以及程序数据137。

计算机110也可包括其它可拆卸和不可拆卸、易失和非易失计算机存储介质。仅举例来说，图1说明了一个从不可拆卸的、非易失磁盘介质进行读出或写入的硬盘设备141，一个从可拆卸的、非易失磁盘152读出或写入的磁盘设备151，以及一个从诸如CD ROM或其它光学介质那样的可拆卸的、非易失光盘156读出或写入的光盘设备155。其它可以在典型的操作环境中使用的可拆卸/不可拆卸、易失/非易失计算机存储介质包括但并不局限于磁带盒、闪存存储卡、数字通用盘、数字视频录像带、固态RAM、固态ROM等。硬盘驱动器141典型地通过一个像接口140这样的不可拆卸存储器接口连接到系统总线121，磁盘驱动器151和光盘驱动器155典型地通过一个像接口150这样的可拆卸存储器接口连接到系统总线121。

以上讨论的并在图1中说明的这些驱动器以及与它们关联的计算机存储介质提供了用于计算机110的计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，例如，硬盘驱动器141被解释为存储操作系统144、应用程序145、其它程序模块、以及程序数据147。注意到这些部件与操作系统134、应用程序135、其它程序模块136、以及程序数据137既可以是相同的或者也可以是不同的。此处提供给操作系统144、应用程序145、其它程序模块146以不同的数字用于解释至少它们是不同的复制。

用户可以通过诸如键盘162、麦克风163、以及定点设备诸如鼠标、轨迹球或触摸板这样的输入设备来输入命令和信息到计算机110中。其它输入设备(未示出)可以包括一个操纵杆、游戏板、卫星反射器、扫描仪等。这些或其它输入设备通常通过一个连接到系统总线的用户输入接口160连接到处理单元120，但也可以用其它接口和总线结构连接，如一个并行端口、游戏端口或一个通用串行总线(USB)。监视器191或其它类型的显示设备通过如视频接口190这样的一个接口也连接到系统总线121。除该监视器之外，计算机也可以包括如扬声器197和打印机196这样的其它外围输出设备，该设备可以通过一个输出外围接口195连接。

计算机110通过使用到一个或多个远程计算机诸如远程计算机180的逻辑链接而在网络环境中操作。远程计算机180可以是个人计算机、手提设备、服务器、路由器、网络个人计算机、同级设备或其它通用网络节点，其典型地包括许多或全部上述与计算机110相关的元件。在图1中描述的该逻辑连接包括一个本地局域网(LAN)171和一个广域网(WAN)173，但也包括其它网络。这种网络化环境常见于办公室、企业广阔计算机网络、内联网和互联网中。

当在LAN网络化环境中使用时，计算机110通过一个网络接口或适配器170连接到局域网171。当在WAN网络化环境中使用时，计算机110典型地包括一个调制解调器172或其它用于在WAN 173诸如互联网上建立通信的装置。调制解调器172可以是内置或外挂式的，其可通过用户输入接口160或其它合适的机制连接到系统总线121。在一个网络环境中，所描述的与计算机110相关的程序模块或其中的一部分程序模块可以存储在远程存储器存储设备。举例来说但并不局限于此，图1说明了远程计算机180上驻留有远程应用程序185。可以理解，所示的网络连接是典型的，以及可以使用在计算机间建立通信链接的其它手段。

图2是使用本发明的句子实现部件200的方块图(也说明数据流)。句子实现部件200包括预处理部件202、增加(flesh-out)部件204、基础树转换部件206、整体迁移部件208、内部成分排序部件210、表层清除部件212、标点插入部件214、词尾变化生成部件216以及树读出部件218。现在来描述系统200的所有操作。

系统200接收作为输入的一个输入句子的抽象的语言表达。在此讨论的实施例中，该输入是一个逻辑形式。然而，可以意识到实际上一个句子的任何其它语法或语义上的表达也可以作为一个输入而被接收的。1998年10月12日公开Heidorn等人的题为METHOD AND SYSTEM FOR COMPUTING SEMANTICLOGICAL FORMS FORM SYNTAX TREES的美国专利No.5,966,686，非常详细的阐明了逻辑形式结构。

预处理部件202通过分离输入来处理该抽象的语言表达。例如，输入是一个逻辑形式，它是一个图结构，而不是一个树形结构。因此，该输入结构被分离并转换成一个更加类似于树的结构。预处理部件202例如通过一个字典查找操作也将词汇信息添加到该输入结构中。预处理部件202也可以执行复合成分的简化。预处理部件202的输出是一个具有添加于此的附加信息的分离结构220。

增加部件204接收数据结构220并添加语法信息到该数据结构。增加部件204也插入功能词，例如限定词、助动词、语义空缺介词、关系代词等。部件204也分配大小写(case)特征和动词位置特征，以及用于清楚地说明名词短语在主语或宾语中的位置的概率。增加部件204提供一个带有语法和其它添加于此的其他附加信息的分离结构作为一个输出。

基础树转换部件206接收数据结构222并将该数据结构转换成一个基础语法树。部件206从该分离的数据结构222中读出一个语法树结构，并从它们的词干中分离出可分离的前缀。部件206也可以引入一个等同的语法表达，并颠倒某些语法支配关系。部件206提供一个基础无序语法树224以作为输出。

整体移动部件208接收结构224，并执行整体迁移或整体排序。整体移动包括疑问词(WH词)、关系代词、以及在语言原理中出现的已知处理的移动。部件208也执行外部位置(extraposition)处理。部件208提供结构206以作为输出，该结构中每个成分具有合适的父节点，即使226中的成分是无序的。

内部成分排序部件210接收结构226作为一个输入，并完全排序语法树中的节点以在它的输出端提供一个全序语法树。

表层清除部件212接收结构228并执行表层清楚操作，例如限定字、关系代词和反身代词的表层实现。部件212也删除等同的复制物。部件212提供一个规则的全序语法树230作为一个输出。

标点部件214接收结构230，并将标点符号插入到该语法树。部件214提供由数字232指示的具有插入标点的清除过的全排序语法树以作为它的输出。

词尾变化产生部件216接收结构232，产生最终的词尾变化，以及输出一个最终词尾变化树234。树读取部件218简单地读取树234，并通过在最终词尾变化树234的叶子上发出(emitting)单词来提供表面字符串236(或实现的句子236)作为一个输出。这是在图2中示出的传递途径的终点。

使用上述系统，通过使用多种机器识别模型从语义从属性关系图中产生句子串，该机器识别模型为特殊语言操作的应用来确定上下文。这些操作将语义表达转换成一个语法树和一个流串。

一旦建立了所有语法节点并确定了所有层次关系，那么在无序语法树的成分中就能确定次序从而产生一个有序的语法树。

这主要在图3中体现，图3中通过排序部件210排序一个无序树，产生一个有序语法树(或有序树的一列)。该无序语法树例如可以是图2中的226所示出的那样，而该有序树可以是图2中的228所示出的那样。例如，将图5示出无序语法树作为例子。这个无序语法树从表示德语句子“In der folgenden Tabelle werden dieOptionen sowie deren Funktionen aufgelistet.”的图4所示的语义从属性关系图中得出。这个句子的英语等义句为：“The options and their functions are listed in thefollowing table.”。在图5中，修饰词和中心词之间的语义关系在节点的括号中示出。用于这种无序语法树的一个有序语法树可以是图6中示出的树。

本发明在一个实施例中，还通过利用判定树来估计在成分结构的模型中的概率分配以便建立成分的排序从而加强了句子实现处理。这种方法可以不通过人工特征选择来处理一个很大的特征空间。其它实施例使用其它技术(例如对数线性模型的最大平均信息量训练)来估计该概率分配。

先前大多数对句子实现过程中决定成分排序的问题的研究都集中在英语这这样的具有相当严格的词和成分排序的语言上。在发明中，我们集中在提出新的挑战的法语和德语上。本发明的目的是介绍一个模型，该模型对类型多样的语言以统一和文雅的方式来处理所有排序现象。在当前揭露的内容中，描述可能的模型空间以及精确地分析这些模型中的一部分。在详细描述该模型之前，我们略述法语和德语中判定词及成分顺序中的问题。

词和成分顺序

为了产生流畅的句子，有关成分顺序的任何模型中的挑战是依赖于成分类型和上下文而认识到首选排序的约束约束条件。

在德语句子实现中的挑战是固定动词位置与其他成分相当自由的定位的结合。在说明性主句和从句的小子集中，限定动词必须出现在成分的任何类型之后的第二位置中(“第二动词”从句)。大多数从句中的限定动词和所有非限定性动词置于从句的末端(“最后动词”从句，如图6所示)。动词安置的错误会产生很难理解的文本。

动词的变量和附加的修饰成分可以置于通过这种固定文字格式所定义的模板内的各种位置。用于确定这些不固定成分的定位的该结构的、语法以及语义的成分是不能完全理解的。

由于表面语义和语法关系之间的关系更直接，因而法语和英语是相似的。在排序任务的复杂度上法语处于英语和德语之间。如同英语，法语的成分排序是相当严格的，但法语中的词序不及英语中的严格。如同英语，法语是一个SVO语言，但补语的排序是相当自由的：PP补语常处于多于一个词的宾语补语之前，并且它们可以出现在句子的开始。在关系从句中，颠倒接语宾语(non-clitic subjects)是常见的。形容词的位置也是没有英语中的严格：许多形容词可以在它们修饰的名词之前或跟随该名词，而其它形容词只是在名词之后或跟随着名词。

另一方面，宾语和动词之间的成分排序是非常严格的。接语代词和接语否定作为独立词在法语中拼字正确地表示，该接语代词和接语在由接语(目标、与格形式、或定位)的类型和接语的一致特征所确定的严格顺序中的宾语和动词之间出现。

成分顺序的模型

出于描述捕捉重要顺序现象的成分结构的模型的目的，我们考虑可能接合的空间和条件模型。在该模型中的独立假设、在该模型中使用的特征集、以及自动特征选择都在产生有用的模式中扮演一个重要的角色。许多结合是可能的，并且本发明包含已经发现的有用的结合。

该模式在输入特征的范围内不同于先前的统计法。如同知识工程(设计)(knowledge-engineered)法，在此出现的模型在中心词和它们的修饰词之间插入词汇特征、词性、成分类型、成分边界、长距离从属、以及语义关系。

虽然所描述的模型不覆盖可能存在的模型的整个空间，但已在该空间中选择了重要点。

接合模型

我们首先考虑在有序语法树π和无序语法树ρ上的形式为P(π，ρ)的成分结构的接合模型。一个有序语法树包括非终结符成分C，每一个非终结符成分C是子代(D₁，…，D_n)的一个有序序列的父代，非终结符成分C之一是中心词成分H。(所有大写拉丁字母都表示成分，并且相应的小写拉丁字母表示它们的标记-也就是，语法分类。)给出一个有序树π，函数unordered_tree(π)的值是一个相应于π且包含用于π中每一个C的一个成分B的无序树ρ，，如B＝unordered_set(C)＝{D₁，…，D_n}，此外对于(l…n)中的某个i，H＝D_I。ρ的分级结构和π是相同的。

使用如下的用于计算可选择的有序树的接合模型：给出一个无序语法树ρ，我们需要得到能够最大化接合概率的有序树

也就是，寻求

\hat{π} = \underset{π}{\arg \max P} (π, ρ) = \underset{π : ρ = undordered_tree (π)}{\arg \max} P (π)

式1

如式1所示，可以将我们的搜索限制到作为给出树ρ的可选择排序的那些树π中。

为了限制该可能的模型类型，假设包含子代的任何成分的排序是独立于该树中其它成分内的排序。因此，每一个成分从而可以独立地排序。

P (π) = \underset{C &Element; constits (π)}{Π} P (C)

式2

特别地，对于具有：

P (\hat{π}) = \underset{\hat{C} &Element; constits (\hat{π})}{Π} P (\hat{C})

式3

最终，对于每一个B∈constits(ρ)，

\hat{C} = \underset{C : B = undordered_set (C)}{\arg \max} P (C)

式4

所以，我们将问题简化为寻找无序树中每个成分的最佳排序。

实际上，可以进一步根据B的中心词而进一步地限定搜寻，这是由于C的中心词必须与B的中心词匹配：

式5

仅可能的有序树是具有满足上述属性的成分的树形构造。需要将P(C)格式化以使反映P(π)这个问题。使Z为该格式化常数：

式6

因而：

式7

当然，对于一个给出的B，Z是常数，并且因此，对变量最大值没有影响，从而不需要在实际中计算该常数。

如果希望规定某个特征x＝f(ρ)，则必须首先预测它：

式8

如果x确实是ρ的一个特征并且不依赖于哪一个C与ρ相兼容，则P(x)是常数，并且不需要在实际中计算P(x)。因此，如在式9中，即使对于一个接合模型，可以添加在给出的无序树中定位的条件特征，而不需要首先预测这些特征。

式9

在此描述的接合模型具有这种形式。为此，当描述一个分配P(C|x)时，如果没有明确地描述其他方式，则实际上我们描述该接合模型中感兴趣的部分。如上论证的，不需要去计算P(x)而将简单地给出P(C|x)的可选择的形式。

我们可以以许多不同的方式通过使用链式规则对分配P(x)(或P(C|x))进行因子分解。采用称为马尔可夫文法的模型类型作为出发点。“马尔可夫文法”是一个成分结构的模型，它开始于树的根结点并每次将概率分配给一个非终端的子代的扩展，而不是作为全部产生(productions)(见Charniak，E.，1997，AIMagazine(1997)中的“Statistical Techniques for Natural Language Parsing”；以及Charniak，E.，2000，Proceeding of ACL 2000中的“A Maximum-Entropy-InspiredParser”，132-139页。)

从左到右

我们还将焦点放在接合模型上，首先考虑序列j的从左到右的马尔可夫文法，它通过从左到右预测它的子代D₁，…，D_n来展开C，如图7所示，根据式11中的分配每次展开一个。

P (C | h) = Π_{i = 1}^{n} P (d_{i} | d_{i - 1}, . . ., d_{i - j}, h, c)

式11

为了将每个子节点D_I的另一个特征诸如的语义关系ψ_i限定到中心词成分H，也要首先根据链式法则来预测该特征。该结果为式12：

P (C | h) = Π_{i = 1}^{n} [P (ψ_{i} | d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, h, c) \times p (d_{i} | ψ_{i}, d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, h, c)]

式12

因此，该模型预测了语义关系ψ_i，然后预测了该语义关系的上下文中的标记dI。

作为上述模型的扩展，包括通过在已排序C的子节点的集合αi上的以下函数来计算特征：

●已排序的子节点数(αi的大小)

●在具有特殊标记的αi中用于每一个可能的成分标记{NP，AUXP，VP等。}的子节点数(德语为24个，法语为23)

这样，一个马尔可夫序列j的模型可能具有大于j的真实序列。在这一点上，术语“马尔可夫文法”的使用不同于该惯用语的常规解释。我们注意到特征集简写形式为f(α_i)：

P (C | h) = Π_{i = 1}^{n} [P (ψ_{i} | d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, h, c, f (α_{i})) \times p (d_{i} |

ψ_{i}, d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, h, c, f (α_{i}))]

式13

中心词-驱动

如图8所示，作为对于从左到右扩展的一种选择选择，可以将一个有序树π的每一个成分C描述为中心词子节点、已排序的前接修饰词(L₁，…，L_m)(H的)、以及已排序的后接修饰词(R₁，…，R_n)。我们称这为一个“中心词-驱动马尔可夫文法”。如果限定上下文(conditioning context)在在中心词处停止，则没有一般性的损失，扩展首先以随后跟有后接修饰词的前接修饰词开始。该分布为两部分，一部分用于前接修饰词的扩展，第二部分用于后接修饰词的扩展：

P (C | h) = Π_{i = 1}^{m} P (l_{i} | l_{i - 1}, . . ., l_{i - j}, h, c) \times Π_{i = 1}^{n} P (r_{i} | r_{i - 1}, . . ., r_{i - j}, h, c)

式14

如在该从左到右的例子中，我们将一个子节点的语义关系限定到该中心词成分H。对于一个更丰富的模型，以已排序子节点的全部集合α_I为条件(从而以跨越该中心词的特征为条件)。

现在考虑使用以下附加特征的更复杂的模型：C的中心词H、相应于C的无序成分B、它们的父节点P_B、以及它们的祖父节点G_B。如式13中的前后关系，B、P_B、以及G_B的每一个表示在它们各自的成分上的语言特征集：

P(C|ρ)＝P(C|h，B，P_B，G_B) 式15

因此，具有从左到右的方向的复杂模型如下构造：

P (C | h, B, P_{B}, G_{B}) = Π_{i = 1}^{n} [P (ψ_{i} | d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, c, h, B, P_{B}, G_{B}) \times

P (d_{i} | ψ_{i}, d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, c, h, B, P_{B}, G_{B})]

式16

此处，P(C|h，B，P_B，G_B)的每一个模型可以参考B的任意特征。同时也包括已排序C的子节点的集合α_i上的功能特征。例如：

●留待排序的子节点数(β_i的大小)

●具有一个特殊标签的β_i中子节点数

我们注意到这些特征集的简化形式为f(α_i)和f(β_i)：

P (C | h, B, P_{B}, G_{B}) = Π_{i = 1}^{n} [P (ψ_{i} | d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, c, h, B, P_{B}, G_{B}, f (α_{i}), f (β_{i})) \times

P (D_{i} | ψ_{i}, d_{i - 1}, ψ_{i - 1}, . . ., d_{i - j}, ψ_{i - j}, c, h, B, P_{B}, G_{B}, f (α_{i}), f (β_{i}))]

式17

与简单模型一样，我们也可以考虑相同形式的复杂中心词-驱动马尔可夫文法。

二元条件的模型

现在介绍称为二元条件模型的第三类型模型。该模型估计在具有值{yes，no}且称为“下一分类”的二元变量σ上的分布。如图9所示，它表示β_i(如上定义的，父节点C的仍为无序子节点的集合)的一个仍为无序的成员D应在下一次“分类”的事件。该条件特征和在以上讨论的从左到右的条件模型中的那些特征几乎是相同的，除了在条件上下文中出现的D和ψ(带有中心词D的语义关系)之外从不预测。在它的简单形式中，该模型估计以下分配：

P[σ|d，ψ，d_i-1，ψ_i-1，...，d_i-j，ψ_i-j，c，h，B，P_B，G_B，f(α_i)，g(β_i)] 式18

在此后的搜索部分中描述了怎样在一个从左到右“挑选”的搜索中直接应用这种模型。

估计

可以使用许多不同的技术来估计一个模型的分布。在本发明揭露的内容中，使用插入语言建模技术(此后缩写为LM)和概率的判定树(DTs)。即使在此揭露的内容中没有详细描述，本领域的技术人员将认识到也可以使用特征选择和分配估计的其他方法。

我们描述了在实验中使用的两种类型的模型。在此揭露的所有模型是带有除了之前定义的附加特征函数f(α_i)和f(β_i)之外的马尔可夫序列2。

语言建模

LM模型使用插入的Kneser-Ney作为一个平滑技术。见Kneser R.和Ney H.，1995，Proceedings of the IEEE International Conference on Acoustics，Speech，andSignal Processing中的“Improved backing-off for m-gram language modeling”，卷1，181-184页；以及Goodman J.T.，2001，“A Bit of Progress in LanguageModeling：Extended Version”，微Microsoft technical report MSR-TR-2001-72。这种方法(以及所使用的工具)的一个缺点是需要手动特征选择和手动指定后退(back-off)序列，该需求的实际结果是仅可以有效地使用少量的相关特征。在本实验中使用这种类型的单一连接中心词-驱动模型。

判定树

使用WinMine工具建立判定树(见Chickering D.M.，2002，“THE WinMineTookit”Microsoft Technical Report2002-103)。需要阐明的是，WinMine-识别判定树不仅仅是分类器；训练每一个叶节点都是目标特征值上的条件概率分布，在训练中给出所有可用特征；因此该树本身是一个相同条件分布的估计。使用判定树并且特别是使用概率DTs的主要优越性是在从很大的特征组合中的自动选择特征。本发明使用6个带有丰富的特征集的这种类型的模型。两个模型是接合的；两个是在已排序的子节点集(由f(α_i)表示)上带有特征的接合；两个是条件的。每一种类型是都是中心词-驱动，并且每一种类型都是从左到右的。另外，还利用一个从左到右的二元条件DT模型，既可以是标准化的，也可以不是。

特征和特征选择

为不同的判定树模型提取一个宽范围的语言特征。对于德语来说，选择的特征数数目为6到8(8之外)是适合于接合模型、选择的数量范围为7到16(33以外)是适合于带有f(α_i)的接合模型、选择特征的数目范围为21到107((中心词-驱动)487以外，494(从左到右))是适合于条件模型、以及在该二元条件模型中达到280(651以外)。对于法语来说，该接合模型所选择的特征数的范围是从6到8(8以外)，带有f(α_i)的接合模型所选择的数量范围是7到11(32以外)，条件模型的范围是从22到91((中心词-驱动)404以外，429(从左到右))，并且在该二元条件模型中达到218(550以外)，所有这些完全可以与德语模型相比较。该复杂的二元条件模型可以从可用特征的所有范围中描绘出：

●词汇的次范畴化特征，如带有传递性和具有从句补语的兼容性

●短语(或词干)

●语义特征，诸如语义关系和定量操作的存在性

●词中成分的长度

●语法信息，如标记和语法修饰词的表达

从语言的观点来说，即使具有德语和法语语法中特殊的详细语言知识，也不可能人工地执行这种特征选择。一些显著的基础语义特征诸如anicacy和确定性很明显与排序相关。然而，这些特征的交互作用通常太难于理解而不能在排序中使用它们的规则的说明性规约。

搜索-彻底搜索

给出一个无序树ρ和一个成分结构O的模型，依据该模型的复合状态并随着上下文的改变来寻找最大化为P_o(π|ρ)的最佳有序树π。每一个模型(除了二元条件模型)估计在π中给出的任何成分C的排序的概率，独立于π中其它成分的内部排序。完整的搜索是一动态可编程算法，根据模型，其即可以是C的子节点中的从左到右也可以是中心词一驱动。该搜索主张一个非统计约束：当并列成分出现在该“无序”树中时才考虑它们的序列。

搜索-对二元条件模型的期望搜寻

该二元条件在一个从左到右“分类”模式中应用。参照用于处理语义的图9。对于β_i中的每一个无序子节点D_j，针对σ_j＝yes的概率参考该模型，也就是说应将Dj放置在已排序姐妹节点的正确位置。在β_i中具有最高概率的子节点从β_i中移走，并且该节点扩展α_i到右边。该搜索处理剩余无序成分进行，直到无序成分列中所有的成分都以这种期望的方式进行排列排序。

为了应用这种模型应用到完全DP搜索中，在搜索的每一个阶段规范化该模型，并从而强制该模型成为β_i中的剩余子节点上的概率分布。式18简单的记为P(α|d，ψ，Г_i)，Г_i表示在搜索阶段i上给出的搜索假设的前后关系特征。因此，通过式19给出状态i的被规范化的分配。如同k，自由变量j表示β_i中无序子节点上的索引。

P (D_{j} | d_{j}, ψ, Γ_{i}) = \frac{P (σ_{j} = yes | d_{j}, ψ_{j}, Γ_{j})}{Σ_{k = 1}^{| | β_{i} | |} P (σ_{k} = yes | d_{k}, ψ_{k}, Γ_{i})}

式19

实验-训练

此处描述一组实验以来比较和对比上述不同的模型。为了训练，使用同时针对法语和德语的一个含有20,000个句子的训练集。数据从计算机领域中的技术规则中得到。对于一个在该训练集中给出的句子，首先使用NLPWin系统(发行于1999年10月12日，Heidorn等的美国专利No.5,966,686，题为METHODANDSYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAXTREES)将该句子作为一个语法树和一个语义从属性关系图进行分析。通过参考该语义从属性关系图和该语法树而在生成运行期异常(exception)产生一个树，所述树具有)Amalgam排序阶段所见的所有树形特征：这些训练树被完全排序。这种树包括全部重要特征，这些特征包括一个中心词和它的修饰词之间的语义关系。所使用的顺序模型根据从这些树的成分中而训练。

实验-估计

为了估计该模型，独立地估计该排序处理，不依赖于其余的Amalgam句子实现处理。对每一种语言也同样根据技术规则来使用其余1,000个句子的测试集。为了对一个给定的测试句子进行独立地排序，该句子作为训练来处理以产生一个有序树π(用于估计的参考)，并从该句子产生一个无序树ρ。给出的ρ，使用该讨论的模型为的最佳有序树进行一个搜索。然后进行π和

的对比。由于只执行了成分排序，π和

可以通过比较它们相应成分的排序来进行对比。通常用于比较本例中的两个成分的度量是一个编排距离，该距离作为在移动中参与的全部子节点的百分比来测量。该假定树的全部计数是每一成分编排距离的加权平均值。

同时，出于对误差分析和确定在关有重要语言上下文的给定模型的影响的目的，对每一个非终端类型计算平均的每一成分编排距离度量。

对于每一个模型，在图10的表中描述了用于给定语言的测试集上的的平均计算。对于德语和法语，该从左到右的二元条件DT模型(在一个期望的搜索中应用)胜过所有其它模型。规范化该二进制条件模型并且将其应用在完全搜索中是没有什么帮助的；实际上在精确性方式中细微量(slight drop)可以归于该表的偏差问题。见Lafferty等的，2001年，“Conditional Random Fields：Probabilisticmodels for segmenting and labeling sequence data”，Proc.of 18^th ICML，282-289页。

该插入语言模型对法语和德语执行是次好的。这种模型具有最简单的结构，但使用最完善的修匀。

需要引起注意的是，对德语和法语来说该从左到右的接合模型(不带有f(α_i)特征)胜于该中心词-驱动的接合模型。包括该f(α_i)特征的从左到右和中心词-驱动的接合模型对法语颠倒该特征的位置，但不对德语进行该颠倒。

还是对于德语来说，该从左到右的条件模型要胜于该中心词-驱动的条件模型。对于法语来说，侥幸不是这种情况。就条件比接合模型的问题来说，该简单模型(带有f(α_i)特征)一向胜过它们的复杂的对应模型。这可能是由于缺乏足够的联系数据。此时，该复杂模型的训练时间成为限制因素。

在该德语模型的性能和该法语模型的性能之间存在一个清楚的不同。最佳德语模型比最佳法语模型差两倍。

对于个别语法类别，该二元条件模型的长处主要在于动词成分中的成分顺序的正确建立。对于德语来说，该二元条件模型对动词成分计分为9.892％。任何其他最佳模型可以做到13.61％。(带有f(α_i)特征的从左到右的接合)。对法语来说，该二元条件模型对动词成分计分为3.602％。任何其他模型最佳可做到5.891％(LM中心词-驱动接合)。

德语动词成分中建立顺序的特殊困难很可能是由于动词位置的判断分析以及动词上下文中修饰词的更随意的顺序。为了处理动词顺序的问题，为实验在无序树中增加一个附加特征。在所有相关的成分上注释该动词的位置。通过将这个特征添加到条件模型上，可观察到在模型准确性中的一个真实的叶节点，如图11的表中所示。

此外最佳模型是该二元条件模型。此前，规范化是没有帮助的。通过动词位置特征的可用性而提供的改进使得全部排序误差率相对减少了13％。至于该动词成分，通过使用动词位置特征而使得积分提高到8.468％。下一个带有动词位置的最佳模型是12.59％的从左到右的条件模型。

虽然参考特定实施例而描述了本发明，本领域的技术人员将认识到在不脱离本发明精神和范围的情况下，可以进行形式和细节上的改变。

Claims

1.一种句子实现系统，它接收一个无序语法树并从该无序语法树产生一个可选择的有序语法树的计分和归类表，该句子实现系统包括：

一个以特征为条件的成分结构的生成统计模型，该模型具有形式的结构，并且使用统计估计技术来估计该模型的参数；

一个搜索部件，该部件接收无序语法树以生成句子，考虑有可能的可选有序语法树的集合，并根据该成分结构的生成统计模型确定具有最大概率的可选有序语法树，所述搜索部件提供一个用于生成句子的完全有序语法树作为输出；以及

一个树读取部件，用于从所述完全有序语法树生成句子。

2.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，通过一种自动特征选择技术来选择特征。

3.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，通过语言建模技术来估计该模型的参数。

4.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，通过最大平均信息量技术估计该模型的参数。

5.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，通过判定树学习技术估计该模型的参数。

6.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，模型的形式结构是一个具有特殊方向的马尔可夫语法。

7.如权利要求6所述的句子实现系统，其中在该成分结构的生成统计模型中，该具有马尔可夫语法结构的模型是一个成分结构的接合模型。

8.如权利要求6所述的句子实现系统，其中在该成分结构的生成统计模型中，该具有马尔可夫语法结构的模型是一个成分结构的条件模型。

9.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的形式结构是一个二元条件模型。

10.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括该无序语法树中成分的一个或多个词汇特征。

11.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括该无序语法树中成分的一个或多个语法特征。

12.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括该无序语法树中成分的一个或多个语义特征。

13.如权利要求12所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括无序语法树中一个给定成分的中心词与该成分的子节点之间的语义关系。

14.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括无序语法树的一个特定成分的词长度。

15.如权利要求1所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括如下定义的成分集的特征：对于该无序语法树的一个特定成分，在排序搜索过程中，相对于一个排序假设，所述成分的子节点已排序。

16.如权利要求15所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集的大小。

17.如权利要求15所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集中每个语法种类出现的总数。

18.如权利要求8所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括一个如下定义的成分集的特征：对于该无序语法树的一个持定成分，在排序搜索过程中，相对于一个排序假设，所述成分的子节点仍待排序。

19.如权利要求18所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集的大小。

20.如权利要求18所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集中每个语法种类出现的总数。

21.如权利要求9所述的句子实现系统，其中在该成分结构的生成统计模型中，该模型的特征集包括一个如下定义的成分集的特征：对于该无序语法树的一个特定成分，在排序搜索过程中，相对于一个排序假设，所述成分的子节点仍待排序。

22.如权利要求21所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集的大小。

23.如权利要求21所述的句子实现系统，其中在该成分结构的生成统计模型中，重要的成分集的特征包括所述重要的成分集中每个语法种类出现的总数。