CN1465018A

CN1465018A - 机器翻译技术

Info

Publication number: CN1465018A
Application number: CN01812317A
Authority: CN
Inventors: D·马库
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2000-05-11
Filing date: 2001-05-11
Publication date: 2003-12-31
Also published as: WO2001086489A3; WO2001086491A3; EP1352338A2; AU2001261506A1; CA2408819C; US20020046018A1; WO2001086489A2; CA2408819A1; JP2004501429A; US20020040292A1; WO2001086491A2; AU2001261505A1; US7533013B2

Abstract

机器翻译解码的完成是通过以下步骤来完成的，即接收在要被翻译成目标语言的源语言中的文本段作为输入，产生初始的翻译作为当前的目标语言翻译，对当前的目标语言翻译应用一个或多个改进操作符以产生一个或多个改进的目标语言翻译，确定一个或多个改进的目标语言翻译与当前的目标语言翻译相比是否代表改进的翻译，将改进的目标语言翻译设置为当前的目标语言翻译，以及重复所述的应用、所述的确定和所述的设置直到出现结束条件为止。自动产生树可通过以下步骤来完成，即接收对应于源语言文本段的树作为输入，并对接收到的输入应用一个或多个判决规则以产生对应目标语言文本段的树。

Description

机器翻译技术

相关申请

本申请要求结合于此的于2000年5月11日提交的美国临时专利申请第60/203,643号中的权益。

发明来源

在本申请中描述的研究和发展得到了在授予号MDA904-97-0262下的NSA和在授予号MDA904-99-C-2532下的DARPA/ITO的支持。美国政府可享有在所要求发明中的某些权利。

发明领域

本发明涉及计算语言，特别涉及机器翻译技术。更确切地说，本申请描述了完成将源文本段解码成目标文本段并将树形结构从第一语言空间改写成另一语言空间的技术。

背景和内容

机器翻译(MT)是自动的翻译，比如，使用计算机系统，将从第一语言(比如，法语)译成另一语言(比如，英语)。完成MT技术的系统描述成将源语言“解码”成目标语言。从终端用户的角度来说，MT过程是相对直接的。如图1A所示，MT102以接收源句子100比如法语(例如，“ce ne est pas juste”)作为输入，在处理输入句子之后，再以目标语言输出——在本例中为英语(″it is not fair″(那不公平))——等效的解码句子。

一种常规的MT解码器是诸如在题为“用于自然语言翻译的方法和系统”的美国专利第5,477,451号(Brown等人)中描述的“堆栈解码器”。在堆栈解码器中，可能的翻译全域被组织成图形结构并随后尽全力地寻找直到发现最佳的解决途径(翻译)。虽然堆栈解码器可以产生好的结果，但它们在完成的同时却要化去巨大的成本，也就是说，维护并搜索诸如被堆栈解码器使用的巨大的有可能解决的空间是昂贵的，既是计算上的又是空间上的(比如，从计算机存储器的角度来看)。因此，本发明人意识到，一种迭代式的增量解码技术可以在产生最佳的或接近最佳结果的同时显著地减少对计算和空间的要求。这种解码器在这里被称为“贪心”解码器，或者等效地被称为“快速解码器”。术语“贪心”是指根据近视优化产生解决方案的技术—也就是说，给定一部分解决方案，产生可以最大限度改进目标的新方案作为下一估算值。换言之，贪心算法通常用近视的解决方案开始，并随后尝试逐步地改进它，直到达到了满意的解决方案。

贪心解码器的实施可包括多种以下特征的组合。

在一个方面，机器翻译(MT)解码包括接收在要被翻译成目标语言的源语言中的文本段(比如，从句、句子、段落或论文)作为输入，产生初始的翻译(比如，词对词或短语对短语的注释)作为当前的目标语言翻译，对当前的目标语言翻译应用一个或多个改进操作符以产生一个或多个改进的目标语言翻译，确定一个或多个改进的目标语言翻译与当前的目标语言翻译相比是否表示改进的翻译，将改进的目标语言设置为当前的目标语言翻译，以及重复这些步骤直到出现结束条件为止。

应用一个或多个改进操作符可包括改变当前目标语言翻译中的一个或两个单词的翻译。另外，或者附加，应用一个或多个改进操作符可包括(i)改变当前目标语言翻译中一个单词的翻译和同时(ii)在源语言文本段和当前目标语言翻译之间产生最高概率对齐的位置上插入另一单词。插入的该单词具有高的零值多样性(zero-value fertility)概率。

应用一个或多个改进操作符可包括从当前的目标语言翻译删除一个具有零值多样性的单词；和/或通过交换当前目标语言翻译中的非重叠目标语言翻译单词段来改进源语言文本段和当前目标语言翻译之间的对齐；和/或通过(i)从当前目标语言翻译中除去目标语言单词并(ii)连接源语言文本段中的单词来改进源语言文本段和当前目标语言翻译之间的对齐。

在不同的实施例中，应用改进的操作符可包括应用以下多项中的两项或多项：(i)改变当前目标语言翻译中一个或两个单词的翻译；(ii)改变当前目标语言翻译中单词的翻译并同时在源语言文本段和当前目标语言翻译之间产生最高概率对齐的位置插入另一单词，插入的该单词具有高的零值多样性概率；(iii)从当前的目标语言翻译中删除一个具有零值多样性的单词；(iv)通过交换在当前目标语言翻译中的非重叠目标语言单词段来改进在源语言文本段和当前目标语言翻译之间的对齐；和/或(v)通过从当前的目标语言翻译除去一目标语言单词并连接源语言文本段中的单词来改进源语言文本段和当前目标语言翻译之间的对齐。

确定一个或多个改进的目标语言翻译与当前的目标语言翻译相比是否表示改进的翻译可包括，计算每个改进的目标语言翻译的准确性概率。

结束条件可包括确定，改进的目标语言翻译的准确性概率不大于当前目标语言翻译的准确性概率。结束条件可以是出现了完成预定次数的迭代和/或流逝了预定量的时间。

在另一方面，计算机-应用的机器翻译解码方法可以，比如，应用反复改进源语言文本段(比如，从句、句子、段落或论文)的目标语言翻译直到出现结束条件(比如，迭代预定次数的完成，预定时间的流逝，和/或确定改进翻译的准确性概率不大于先前翻译的准确性概率)的贪心解码算法。

MT解码方法可用近似的目标语言翻译开始并随着每个连续的迭代来反复改进翻译。近似目标语言翻译可以是，比如，单词对单词或短语对短语的注释，或者近似目标语言翻译可以是从多个预定翻译中选择的预定翻译。

反复地改进翻译可以包括用每个迭代法逐步改进翻译，比如，通过在翻译上应用一个或多个改进操作。

该一个或多个改进操作包含以下操作中的一项或多项：(i)改变翻译中的一个或两单词；(ii)改变一个单词的翻译并同时在源语言文本段和翻译之间产生最高概率对齐的位置上插入另一单词，该插入的单词具有高的零值多样性概率；(iii)从翻译中删除具有零值多样性的单词；(iv)通过交换翻译中的非重叠目标语言单词段来改进源语言文本段和翻译之间的对齐；以及(v)通过从翻译中删除目标语言单词并连接源语言文本段中的单词来改进源语言文本段和翻译之间的对齐。

在另一方面，机器翻译解码器可包括包含一个或多个被应用到当前目标语言翻译的改进操作符从而产生一个或多个改进目标语言翻译的解码引擎；以及反复使用一个或多个改进操作符来改进当前目标语言翻译的循环过程。该循环过程可在出现结束条件时终止。该循环过程可控制解码引起以逐步用每个迭代法来提高当前的目标语言翻译。

MT解码器还可包括用于确定翻译的准确性概率的模块(包括，比如语言模型和翻译模型)。

该循环过程可在一旦确定了改进翻译的准确性概率不大于先前翻译的准确性概率，和/或一旦完成了预定次数的迭代；和/或在流逝预定时间之后而终止。

可由此处所描述的贪心解码器提供一个或多个以下的优点。此处描述的技术和方法可得到用高准确度、高速度和相对较低的计算和空间成本来完成的MT解码器。贪心解码器可根据需要进行改进以完成完整句子组或它的任何分组的改进操作。这便向系统设计者和/或端用户提供了对解码器速度、准确度和/或其它性能特征进行调整的充分灵活性，从而匹配所需的目标或约束条件。对一系列基本改进操作的使用(其中每个操作都可用作独立的操作符或与其它操作符结合使用)将进一步提高它的灵活性。另外，将独立单独的操作符用作解码引擎的要素使得解码器可延伸并可缩放。也就是说，可使用不同或附件的改进操作符以匹配系统设计者和/或端用户的目标或约束条件。

研究人员已结合计算语言中的MT研究和相关领域进行了发展，而且他们经常使用不同类型的树形结构来用图形表示文本段(比如，从句、句子、段落或整个论文)的结构。两种基本树的类型包括(1)语法树，它可被用于用图形表示文本段成分之间的语法关系，和(2)修辞树(等同于修辞结构树(RST)或论述树)，它可被用于图解文本段成分之间的关系。修辞结构树(也被称为论述树)在William C.Mann和Sandra A.Thompson的“Rhetorical structure theory：Toward a functionaltheory of text organization(修辞结构理论：面向文本组织的功能性理论)”的本文8(3)：243-281(1988)中进行了详细讨论。

图6中所示的例子展示了可能会出现在文本碎片的修辞结构树中的结构类型。树的叶子对应于基本的论述单元(“edus”)，内部节点对应于邻近的文本跨度。修辞结构树中的每个节点都由“状态”(即，“核心”或“附属”)和“修辞关系”来表示其特征，该修辞关系是处于两个非重叠文本跨度之间的关系。在图6中，核心由直线表示，附属由弧表示。

本发明人意识到，不同语言(比如，日文和英文)中文本翻译的修辞结构之间出现了显著差异。因此，为了改进MT的质量，并作为大MT系统的部件，本发明人发展了用于自动将修辞结构从一种语言改写(比如，使用计算机系统)成另一种语言，例如，将日语文本段的修辞树改写成英语对应文本段的修辞结构的技术。

所披露的对树形改写技术的实现可包括以下特征的多种组合。

在一方面，自动产生树(比如，语法树或论述树)包括接收对应于源语言文本段的树作为输入，以及对所接收的输入应用一个或多个判决规则以产生对应于目标语言文本段的树。

在另一方面，计算机-实现的树的产生方法可包括接收对应于源语言文本段(比如，从句、句子、段落或论文)的树作为输入，以及接收到的输入应用一个或多个判决规则(比如，共同表示转换函数的判决规则序列)以产生对应于目标语言文本段的树，该文本段可能是不同于文本段的类型。

产生树的方法还可包括根据训练组，比如，多个输入-输出树对和每个输入-输出树对之间的映射，来确定一个或多个判决规则。每个输入-输出树对之间的映射可以是输入树的叶子和该对中输出树的叶子之间的映射。输入-输出树对叶子之间的映射可以是一个对一个、一个对多个、多个对一个或者多个对多个。

自动确定一个或多个判决规则可包括确定操作序列，该操作序列当被应用于同一对中的输入树时产生输出树。确定操作序列可包括使用多个预先定义的操作，该操作可足够将任何的输入树译成该输入树同一对中的输出树。多个预先定义的操作包含一个或多个以下的操作：将基本的论述树(edt)从输入列表转入到堆栈中的移位操作；从堆栈顶部弹出两个edt并将弹出的两个edt结合进新树随后将新树压入到堆栈顶部的减少操作；将一edt分解为预定量单元的分解操作；创建与源语言树无关的目标语言论述要素的创建-下一个的操作；将在堆栈顶部的一个edt熔入前一edt的熔合操作；交换输入列表中edt位置的交换操作；以及指定一个或多个以下类型edt的指定类型操作：单元、多重单元、句子、段落、多重段落以及文本。

多个预先定义的操作可表示包括移位操作、减少操作、分解操作、创建-下一个的操作、熔合操作、交换操作以及指定类型操作的闭合组。

确定序列操作可产生多种学习情况，一种学习情况对应一输入-输出树对。在该情况中，产生树的方法还可包括根据上下文将一个或多个特征与多个学习情况结合。结合的特征可包括以下一个或多个特征：操作的和论述特征，基于对应的特征和词汇特征。

产生树的方法还可包括对多种学习情况应用学习程序(比如，C4.5)从而产生一个或多个判决规则。

在另一方面，产生计算机实现的树的模块可包括预定系列的判决规则，这些规则当被应用于与源语言文本段对应的树(比如，语法或论述)时，产生与目标语言文本段对应的树。预定系列的判决规则可限定源语言树和目标语言树组件的转换函数。

在另一方面，确定不同类型树(比如，语法或论述)之间的转换函数可包括产生包含多个树对的训练组和在每个树对之间的映射，每个树对包含源树和对应的目标树，并通过确定产生多个学习情况，对于每个树对，有当被应用于源树时产生目标树的序列操作；并通过向多种学习情况应用学习算法来产生多个判决规则。

确定不同类型树之间的转换函数可包括，在产生多个判决规则之前根据上下文将一个或多个特征与每种学习情况结合。

在另一方面，基于计算机实现的论述的机器翻译系统可包括论述语法分析程序，该语法分析程序对源语言文本段的论述结构进行语法分析并产生文本段的源语言论述树；论述结构转换模块，该模块接收源语言论述树作为输入并产生目标语言论述树作为输出；以及映射模块，该模块将目标语言论述树映射为目标文本段。论述结构转换模块可包括多个从源语言-目标语言树对的训练组产生的判决规则。

可如这里所述的由树改写提供以下一个或多个优点。这里所述的技术和方法可产生树改写能力，这种能力使用户(比如，诸如语言研究者之类的人的端用户或诸如MT系统之类的计算机处理)自动在改写或被翻译成被译成目标语言文本段树的源语言中具有文本段的树。这种功能作为单独的形式和作为大系统，诸如基于论述的机器翻译系统的部件都是有用的。另外，因为这里描述的树改写器自动学习该怎样将树从一种语言改写成另一种，所以该系统使用起来是容易且方便的。

用于训练树改写器的映射配置还提供了几个优点。例如，通过允许源树和目标树中叶子之间的任何任意的分组(比如，一个对一个，一个对多个，多个对一个，多个对一个)，提高了所得到映射的灵活性、丰富性和稳定性。

提高的用于训练树改写器的移位减少操作还提供了几个优点。比如，总的来说足够将任何输入树译成其成对的输出树的一系列基本操作提供了改写树形结构的强大但紧凑的工具。

参考附图和以下的描述对一个或多个实施例作详细的阐述。本发明的其它特征、目的和优点将从描述、附图和权利要求变得更加明显。

附图说明

现在，将参考附图详细描述本发明的这些和其它方面，其中：

图1A从用户角度示出了机器翻译的框图。

图1B示出了单词级对齐的例子。

图2示出了贪心解码器一个实施例的操作流程图。

图3示出了完成法语句子的英语翻译的贪心解码器的一个例子。

图4示出了在贪心解码器完成法语句子的英语翻译时用户看到的输出的例子。

图5是示出使用三字母组语言模式的不同解码器之间比较的表。

图6示出了修辞结构树的一个例子。

图7是日语源句子的一个例子。

图8是图7中日语源句子的论述结构。

图9是从图11的日语源句子翻译成的英语目标句子的论述结构。

图10示出了树改写器的框图。

图11示出了树改写器如何被用作大系统的子系统的框图。

图12示出了带树改写器作为子系统的基于论述的机器翻译系统的框图。

图13是创建树改写器程序的流程图。

图14示出了增长的树形重建的例子。

图15是用于关系减少分级机的学习曲线的图表。

详细描述

贪心解码器

将比如，法语句子翻译成英语的统计MT系统，可被分成三部分：(1)向任何英语字符串分配概率P(e)的语言模型(LM)，(2)向任何英语法语字符串对分配概率P(f|e)的翻译模型(TM)，以及(3)解码器。解码器获取先前未看到的句子f并尝试寻找将P(f|e)最大化或等效地最大化P(e).P(f|e)的e。

Brown等人的1993年19(2)的计算语言中的″The mathematics of statisticalmachine translation：Parameter estimation(统计机器翻译的数学：参数预测)″中引入了一系列根据单词替换单词并重新排序的TM，但并未包括解码算法。如果约束源语言和目标语言具有相同的单词顺序(通过选择或经过合适的预处理)，则线性维特比(Viterbi)算法可如Tillmann等人在1997年In Proc.ACL中的″A DP-based search using monotone alignments in statistical translation(一种在统计翻译中使用单调对齐的基于DP的搜索″中所描述的那样使用。如果重新排序限制于二进制树中节点周围的旋转，则可通过多项式算法(Wu，″A polynomial-timealgorithm for statistical machine translation(统计机器翻译的多项时间算法″，In Proc.ACL，1996)进行优化解码。对于任意的单词排序，解码问题是NP完成的(不确定多项时间完成)(Knight，″Decoding complexity in word-replacementtranslation models(单词替换翻译模式中的解码复杂性)″，计算语言，25(4)，1999)。

一种策略(Brown等人，″Method and system for natural languagetranslation(用于自然语言翻译的方法和系统)″，美国专利5,477,451，1995年；Wang等人，″Decoding algorithm in statistical machine translation(统计机器翻译中的解码算法)″，In Proc.ACL，1997年)是检查一个可能的解码的大子集并从中选择合适的。当然，这种方法可能会遗漏好的翻译。

因此，虽然解码是明确优化的任务，其中每个问题例子都有正确的回答，但很难迅速得出好的回答。以下详细阐述了快速的贪心解码器并将其性能与传统的堆栈解码器进行了比较。

在发展贪心解码器的过程中，使用了IBM型号4，它在一对句子上的单词对齐的概念附近环绕(见图1B)。单词对齐为每个法语单词分配一个单独的原址(英语字符串位置)。如果两个法语单词分配到同一个英语单词，则就说该英语单词具有两个多样性。类似地，如果一个英语单词保持未分配，则它就具有零多样性。图1B中的单词对齐对于假设的随机过程是不够的，通过该假设的随机过程英语字符串被转换成法语字符串。制定了几组判定。

首先，每个英语单词被分配一个多样性。这些分配是根据表n(φ|e_i)随机制定的。任何具有零多样性的单词都将从字符串中删除，任何具有两个多样性的单词都被复制，等。如果一个单词具有大于一个的多样性，它就被称为非常多样。

在字符串中的每个英语单词之后，增加了带概率p₁(通常为0.02)的不可见英语NULL元素的多样性。NULL元素最终间产生″spurious″法语单词。

接下来，根据表t(f_j|e_i)完成用法语单词对英语单词(包括NULL)的单词对单词的替换。

最后，改变法语单词的排列。在改变中，IBM型号4在字头(从特定英语单词产生的最左边的法语单词)、非字头(非最左边的，只由非常多产的英语单词产生的)和产生NULL的法语单词之间是有区别的。

字头

根据分配给前一英语单词的位置给英语单词的字头分配法语字符串位置。如果英语单词E_e-1在法语位置j翻译成某个意思，则e_i的法语字头被随机地设置在失真概率为d₁(k-j|class(e_i-1)，class(f_k))的法语位置k上，其中″class″是指法语和英语词汇项自动确定的单词类别。该相对偏移k-j促使邻近的英语单词被译成邻近的法语单词。如果e_i-1是不多产的，则j取自e_j-2，等。如果e_i-1是非常多产的，则j是其法语翻译位置的平均值。

非字头

如果英语单词e_i的字头被设置在法语位置j上，则其第一个非字头根据另一个表d_＞1(k-j|class(f_k))被设置在法语位置k(＞j)上。下一个非字头被设置在概率为d_＞1(q-k|class(f_q))的位置q上，等等。

产生NULL的单词

在设置了字头和非字头之后，产生NULL的单词被随机地插入剩余的空隙中。如果有φ₀个产生NULL的单词，则选择任何概率为1/φ₀ ！的设置方法。

这些起始于e的随机判决产生了不同选择的f和带e的f的对齐。e被映射到带以下概率的特定<a，f>对：

P (a, f | e) = Π_{i = 1}^{l} n (φ_{i} | e_{i}) x Π_{i = 1}^{l} Π_{k = 1}^{φ_{i}} t (τ_{ik} | e_{i}) x

Π_{i = 1, φ_{i} > 0}^{l} d_{1} (π_{il} - c_{pi} | class (e_{pi}), class (τ_{il})) x

Π_{i = 1}^{l} Π_{k = 2}^{φ_{i}} d_{> 1} (π_{ik} - π_{i (k - 1)} | class (τ_{ik})) x

[\begin{matrix} m - φ_{0} \\ φ_{0} \end{matrix}] {p_{1}}^{θ_{0}} {(1 - p_{1})}^{m - 2 θ_{0}} x

Π_{k = 1}^{φ_{0}} t (τ_{0 k} | NULL)

其中，由x符号分离的因数表示多样性、翻译、字头排列、非字头排列、零多样性以及零翻译概率。在该公式中的符号是：l(e的长度)、m(f的长度)、e_i(e中第i个英语单词)、E₀(NULL单词)、φ_i(e_i的多样性)、φ₀(NULL单词的多样性)、τ_ik(由a中的e_i产生的第k个法语单词)、π_ik(f中的τ_ik位置)、ρ_I(a中e_i左边第一个多样性单词的位置)、c_ρI(如果ρ_i不确定时ρ_i所有π_ik平均值的上限或0)。

图2是完成MT的贪心解码器的一个实施例的操作流程图。如其中所示，第一步200是接收要翻译的输入句子。虽然在本例中，要翻译的文本段是句子，但实际上可使用任何其它的文本段，比如，从句、段落或完整的论文。

在步骤202中，作为翻译的第一近似，贪心解码器产生输入句子的“注释”，实质上是单词对单词的翻译。该注释通过将每个法语单词f_j与它最可能的英语翻译ef_j(ef_j＝argmax_et(e|f_j)对齐来构成。例如，在翻译法语句子“Bienentendu，il parle de une belle victoire”中，贪心解码器最初假设好的翻译是“Well heard，it talking a beautiful victory”，因为“bien”的最佳翻译是“well”，“entendu”的最佳翻译是heard”，依此类推。对应于该翻译的对齐在图3的顶部示出。

在步骤204中，解码器预测当前翻译的准确性概率P(c)。

在步骤202中产生初始对齐之后，贪心解码器在步骤206中试图改进该对齐。也就是说，贪心解码器试图通过应用一个或多个句子改进操作符来寻找更可能的对齐(隐含地说，就是翻译)，如下文所述。为该特定的实施例选择以下所描述的单词级对齐和特定操作符的使用。但是，使用不同统计模式的可替换实施例可从不同或附加的操作中受益。

以下的操作符共同构成了解码器的翻译引擎并包括以下：

translateOneOrTwoWords(j₁，e₁，j₂，e₂)(翻译一个或两个单词)

该操作将位于位置j₁和j₂的一个或两个法语单词的翻译从ef_j1和ef_j2改成e₁和e₂。如果ef_j是多样性为1的单词且e_k是NULL，则从翻译中删除ef_j。如果ef_j是NULL单词，则在翻译中产生最高概率对齐的位置上插入单词e_k。如果ef_j1＝e₁或者ef_j2＝e₂，则该操作相当于改变单个单词的翻译。

translateAndInsert(j，e₁，e₂)(翻译并插入)

该操作将位于位置j上的法语单词翻译从e_fj变成e₁，并同时在产生最大概率对齐的位置上插入单词e₂。单词e₂选自自动得到的多样性为0的最高概率的1024个单词的列表。当e_fj＝e₁，该操作相当于向对齐中插入多样性为0的单词。

removeWordOfFertilityO(i)(去除多样性为0的单词)

该操作除去了在当前对齐中位置i上多样性为0的单词。

swapSegments(i₁，i₂，j₁，j₂)(交换段)

该操作通过交换非重叠英语单词段[i₁，i₂]和[j₁，j₂]从旧的对齐创建了新的对齐。在交换操作中，保留了所有在英语和法语单词之间出现的连接。该段可与单词一样小或与|e|-1个单词一样长，其中|e|是英语句子的长度。

joinWords(i₁，i₂)(连接单词)

该操作在位置i₁(或i₂)上从对齐删除英语单词并连接由e_i1(或e_i2)到e_i2(或e_i1)产生的法语单词。

在步骤208，解码器为每个句子改进操作的结果预测准确性概率，P(M₁)…P(M_n)。也就是说，确定每个新得到翻译的概率。

在步骤210，解码器通过比较它们各自的准确性概率来确定是否有新的翻译好于当前的翻译。如果有任何新的翻译(即，准确性概率最高的翻译方法)表示比当前翻译好的结果，则在步骤214将最好的新翻译设置成当前的翻译，而且解码过程返回到步骤206以便在新的当前翻译方法上完成一个或多个句子改进操作。

重复步骤206、208、210和214直到改进操作停止(如在步骤210确定的)，从而产生具有较高准确性概率的翻译结果，在这点上，在步骤212解码过程停止，并输出当前的翻译作为最终的解码结果。另外，解码器可以在预定次数的选择迭代法之后停止，比如，将解码器用作翻译引擎的人类端用户或应用程序。

因此，通过逐步增加的方式，从初始的注释开始，贪心解码器使用循环过程(比如，图2所示的步骤206、208、210和214)在所有与考虑中的对齐相隔一个操作的对齐上尽全力地迭代。在每一步，解码器都选择最高概率的对齐，直到当前的对齐再也不能被改进为止。当它从法语句子“Bien entendu，ilparle de une belle victoire”的注释开始时，比如，贪心解码器如图3所示地逐步改变初始的对齐，最终产生了“Quite naturally，he talks about agreat victory”的翻译。在过程中，解码器总共搜寻了77421次不同的对齐/翻译，在其中，“Quite naturally，he talks about a great victory”具有最高的概率。

在解码过程的步骤206中，可根据系统设计者和/或端用户的喜好，使用所有五个句子改进的操作或者使用它们的任何子集以排除其它。例如，解码器中最消耗时间的操作是swapSegments，translateOneOrTwoWords和translateAndInsert。SwapSegment对能够在长度|e|的序列上创建的所有可能的非重叠跨度对进行迭代。TranslateOneOrTwoWords在|f|²×|t|²对齐上迭代，其中|f|是法语句子的大小，|t|是与每个单词相关的翻译数(在该实现中，这个数限制于最多10个翻译)。TranslateAndInsert在|f|×|t|×|z|对齐上迭代，其中|z|是高概率具有多样性为0的单词的列表的大小(在该实现中为1024个单词)。因此，可以设计解码器省略一个或多个这些较慢的操作从而提高解码的速度，但可能会以准确性为代价。另外，或者附加地，可设计解码器根据系统设计者和/或端用户来使用不同或附加的句子改进操作。

贪心解码器的一个优点就是它的速度。如上述试验所展示的，贪心解码器可产生快于任何其它解码器的翻译。贪心解码器是“任一时间算法”——它运行得越长，就能找到更好的翻译。贪心解码器的一个可能的折衷与它搜索的结果空间的大小有关，该空间相对较小。好的翻译离初始的注释越远，贪心解码器就越不可能找到它。

图4示出了在工作中的贪心解码器的另一个例子，其中用四个迭代完成可接受的结果。如其中所示，要翻译的输入句子是“ce ne est pas juste”。解码器使用初始注释“that not is not fair”并根据2.98457e-14的语言模式的概率(LMprob)以及3.79156e-09的翻译模式的概率(TMprob)来确定该翻译结果(迭代1)具有1.13162e-22的准确性概率(“Aprob”-LMprob和TMprob的乘积)。

在第二次迭代中，解码器通过应用TranslateOneOrTwoWords操作将翻译中的单词“not”改为“is”的第一种情况，得到了新的翻译结果“that is is not fair”，它具有如图4中迭代2所示的概率。在第三次迭代中，解码器应用了removeWordOfFertility0操作并省略了翻译中单词“is”的一种情况，得到“thatis not fair”的新的翻译结果，它具有图4中迭代3所示的概率。在第四次也是最后一次迭代中，解码器再次应用了TranslateOneOrTwoWords操作从而将翻译中的单词“that”改为“it”，得到“it is not fair”的最终翻译结果，它具有图4中迭代4的概率。

为了确定贪心解码器的性能，进行了一系列的试验。在所有的试验中，如在训练中所确定的，只使用一个单词的最多10次翻译以及同样自动从测试全集中抽取的多样性为0的1024个单词的列表来完成解码。

在确定准确性和将所述贪心解码器与传统堆栈解码器(诸如Brown等人在美国专利第5,477,451中所描述的)进行速度比较的试验中，使用了505个句子的测试合集，这些句子沿着长度6、8、10、15和20均匀分布。用(1)速度和(2)翻译准确性来评估解码器。

通过使用三字母组语言模型的解码器获得的在图5所示表中的结果显示，贪心解码算法是传统堆栈解码算法的有利替换。甚至当贪心解码器使用速度优化的操作系列(即，上述五个句子改进操作的总集的子集)，在其中，一次最多翻译、移动或插入一个单词—它在图5中标上“(greedy*)贪心*”—翻译准确性也只受轻微的影响。相反，翻译速度却增长至少一个数量级。根据应用的情况，可以选择使用提供优化结果的慢速解码器，或者提供非优化但可以接受的结果的快速贪心解码器。

可以有贪心解码器的可替换实施例。比如，贪心解码器可以从多个不同的初始翻译开始(例如，在用于图2中步骤202的注释上的不同变化)并随后并行地在每个不同的初始翻译上运行贪心解码器算法(也就是，图2中的步骤204-214)。比如，贪心解码器可以从选自多个存储在存储器中的翻译短语的初始且近似的翻译开始。最后，可选择最佳的翻译。该不同初始结果的并行翻译可带来更多的准确翻译。

树改写器

几乎所有的传统MT系统都一次处理文本一个句子。因为这个限制的集中，MT系统基本上不能对输入文本的从句和句子进行重组和重新排序从而在目标翻译中达到最自然的翻译。然而，就算在如英语和法语般接近的语言之间，在一些句子中仍有10％的不匹配—在一种语言中在两个句子中所述的内容在另一种语言中只用了一个句子或三个句子(Gale等人，″A program for aligningsentences in bilingual corpora(一种在两国语言全集中对齐句子的程序)″，计算语言，19(1)：75-102页，1993年)。对于差得很远的一对语言，诸如日语和英语，差异就更加明显了。

设想，比如，图7中所示的日语句子(“文本(1)”)。以下的(“文本(2)”)是文本(1)的单词对单词的“注释”：

(2)[The Ministry of Health and Welfare last year revealed¹(卫生福利部门去年披露)][population of future estimate according to²(根据…预测未来人口)][in future 1.499 persons as the lowest³(将来，1.499的人被认为是最低的)][that after *SAB* rising to turn that(那-以后[SAB]上升)⁴][*they* estimate but(他们预测，但是)⁵][already the estimate missesa point(虽然该预测遗漏了一点)⁶][prediction became(预测成为).⁷]相反，由职业翻译完成的两个句子的日语翻译(“文本(3)”)如下：

(3)[In its future population estimates(对于其未来人口的预测)¹][madepublic last year(去年公开作出的)，²][the Ministry of Health and Welfarepredicted that the SAB would drop to a new low of 1.499 in the future，(健康福利部分预测，SAB在未来将降至1.499的新低)³][but would make acomeback after that，(但在那以后会有反弹)⁴][increasing once again(将再次增长).⁵][However，it looks as if that prediction will be quicklyshattered(但是，看上去好像预测将很快被粉碎).⁶]

文本所标的跨度表示基本的论述单元(edus)，也就是具有明确论述功能的最小文本跨度(Mann等人，″Rhetorical structure theory：Toward afunctional theory of text organizaion(修辞结构理论：针对文本组织的功能理论)″本文，8(3)：243-281，1988年)。如果仔细分析文本碎片，则会发现，在翻译的文本(1)中，职业的翻译选择首先实现日语单元2中的信息(文本(1)中的单元2一般来说对应文本(3)中的单元1)；随后实现日语单元1中的某些信息(文本(1)中的部分单元1对应文本(3)中的单元2)；接下来不受理文本(1)中单元1、3和5给出的信息并将它如单元3一般以英语实现；依此类推。同样，翻译选择将原始日语句子中的信息重新组合成两个英语句子。

在基本单元的级别，文本(1)中日语句子和文本(3)中其英语翻译之间的对应关系可如以下映射(4)中地进行表示，其中，je表示，单元j的语义内容完全在单元e中实现；je表示单元e的语义内容完全在单j中实现；j＝e表示，单元j和e在语义上是一样的；以及

表示，在单元j和e之间有语义的重叠，但既不是正常的包含也不是正常的等同。(4)

j_{1} &Superset; e_{2}; j_{1} &cong; e_{3};

j₂＝e₁；

j₃e₃；

j_{4} &cong; e_{4}; j_{4} &cong; e_{5};

j_{5} &cong; e_{3};

j₆e₆；

j₇e₆；

因此，(4)中的映射提供了一种清楚的表示方法，当信息从日语翻译成英语的时候被重新排序并重新组合。但是，当翻译文本的时候，也会有修辞翻译发生变化的情况。使用CONTRAST(相反)关系在日语中实现的意思可使用，比如COMPARISON(比较)或CONCESSION(让步)关系在英语中实现。

图8和图9以Mann和Supra的形式呈现了以上文本碎片(1)和(3)的论述结构。每个论述结构是其叶子对应邻近文本跨度的树。每个节点由状态(核心或附属)以及修辞关系表述特征，修辞关系是在两个非重叠文本跨度之间的关系。核心和附属的差异来自于经验的观察，核心表示对作者的意图来说比附属更加必要的东西；而且修辞关系的核心是独立于附属就可以理解的，但反过来不是这样的。当跨度是同等重要的时候，关系就是多核心的；比如，在单元[3]和图8和图9的英语文本的修辞结构之间的跨度[4，5]之间的CONTRAST(相反)关系就是多核心的。以后缀“-e”结尾的修辞关系表示对应于嵌入的语法成分的关系。比如，在英语文本结构中单元2和1之间的ELABORATION-OBJECT-ATTRIBUTE-E(确立宾语属性)关系就对应于限制性的关系。

如果知道了在edu级别的映射，则也就能够确定在跨度(论述成分)级别的映射。比如，在(4)中使用基本的映射，可以确定日语跨度[1，2]对应于英语跨度[1，2]，日语单元[4]对应于英语跨度[4，5]，日语跨度[6，7]对应于英语单元[6]，日语跨度[1，5]对应于英语跨度[1，5]，依此类推。如图8和图9所示，在日语树中的跨度[1，5]和[6，7]之间的CONCESSION(让步)关系对应于英语树中的跨度[1，5]和单元[6]之间的类似关系(按模数计算，在日语中关系为句子碎片之间的，而在英语中却为完整句子之间的)。但是，在日语树中的单元[3]和[4]之间的TEMPORAL-AFTER(时间-以后)关系却是以英语树中的单元[3]和跨度[4，5]之间的CONTRAST(相反)关系实现的。并且因为日语单元[6]和[7]被熔入到英语中的单元[6]中，关系ELABORATION-OBJECT-ATTRIBUTE-E(确立宾语属性)在英语文本中不再明确。

图8和图9中两个论述树之间的某些差异已传统地在语法级别上被用于MT系统上。比如，可只用语法模型来处理单元1和单元2的重新排序。但是，如以上所述地，关于信息不仅在句子级别，在段落和文本级别也被修辞地组合并组织的方式，在日语和英语之间有巨大的差异。更加特别地，当人们将日语翻译成英语的时候，他们对日语文本的从句、句子和段落重新排序，他们将信息重新组合成不是原始日语单元中一一映射的从句、句子和段落，而且他们修辞地重新组织被翻译文本的结构从而反映对于英语特定的修辞约束。如果一种翻译系统产生既文法清晰有连贯的文本，则它必须保证，目标文本的论述结构是反映目标语言的自然翻译，而不是源语言的自然翻译。

在以下的试验部分中，经验显示，在日语文本和其对应的英语翻译的修辞结构之间有巨大的差异。这些差异进一步说明了发展论述结构改写的计算模型的需要和愿望。

试验

为了评定论述结构在MT中的动作，手工为40个日语文本和他们对应的翻译创建了论述树的全集。该文本从ARPA全集中随机地选取(White等人，″Evalution in the ARPA machine-translat ion program：1993 methodology(在ARPA机器翻译程序中的计算：1993方法″，在ARPA Human Language TechnologyWorkshop(ARPA人类语言技术工作会议)的会议记录中135-140页，1994年，华盛顿)。平均每个文本具有大约460个单词。日语文本总共具有335个段落和773个句子。英语文本总共具有337个段落和827个句子。

沿着Marcu等人在马里兰(1999)的ACL’99 Workshop on Standards andTools for Discourse Tagging(对论述标记的标准和工具的ACL的99工作会议)的会议记录第48-57页的″Experiments in constructing a corpus ofdiscourse trees(构建论述树的全集的试验)″的线索发展了一种论述注解协议。使用Marcu的论述注解工具(1999)从而手工地构建了全集中所有日语和英语文本的论述结构。日语和英语文本中的百分之十用两个注解进行修辞标注。该工具和注解协议可在以下获得

http：//www.isi.edu/～marcu/software/

该注解协议在2641个日语edus和2363个英语edus的整个全集上产生。

全集

k_u(3)

k_s(#)

k_n(#)

k_r(#)

日语	0.856(80)	0.785(3377)	0.724(3377)	0.650(3377)
日语	0.856(80)	0.785(3377)	0.724(3377)	0.650(3377)	英语	0.925(60)	0.866(1826)	0.839(1826)	0.748(1826)

表1：标记的可靠性

注解的可靠性是使用Marcu等人(1999)的用于在分级结构计算kappa统计(Siegel等人，Non-parametric Statistics for the Behavioral Sciences(行为科学的非参数统计)，McGraw-Hill，第二版，1988年)的方法。以上的表1显示了反映基本论述单元k_u、分级论述跨度k_s、分级核心分配k_n以及分级修辞关系分配k_r的注解可靠性的平均kappa统计。高于0.8的Kappa数对应好的一致性；高于0.6的kappa数对应可接受的一致性。所有的kappa统计在高于α＝0.01的级别上都是统计上有意义的。除了kappa统计，表1还在括号内显示了每个文件的数据指针的平均个数，在该数上计算kappa统计。

对于每对日语-英语论述结构，还手工创建了对齐文件，该文件在第一页上讨论的注解中规定了日语文本的edus和英语翻译的edus之间的对应关系。

使用标号的再调用和反映日语和英语论述结构类似处的精确数字，参考它们的edu范围、分级跨度、核心以及修辞关系的分配来计算英语和日语论述树之间的相似性。

因为从一种语言到另一种语言，所比较的树在基本单元的数目上、这些单元的顺序上以及单元递归地组成论述跨度的方式上都是不同的，所以要计算两种类型的再调用和查准数。在计算Position-Dependent(P-D)(位置独立)的再调用和查准数中，当日语跨度包含对应于英语跨度中edus的所有日语跨度时，而且当日语和英语跨度对于总体结构出现在同一位置中时，日语跨度被认为是匹配英语跨度的。例如，图8和图9中的英语树由10个子句的跨度表示：[1]、[2]、[3]、[4]、[5]、[6]、[1，2]、[4，5]、[3，5]和[1，5]。(跨度[1，6]包含了两个句子，所以它不是子句。)日语论述树只有4个可在同一位置中与英语跨度匹配的跨度，它们是跨度[1，2]、[4]、[5]和[1，5]。因此，对于日语树和英语树在句子级别下的论述，它们之间的相似性有4/10的再调用和4/11的查准数(在图8和图9中有11个子句日语跨度)。

在计算位置独立(P-I)的再调用和查准数的过程中，甚至当日语跨度在翻译中“浮动”到英语树中的一个位置时，P-I再调用和查准数也不会受影响。位置独立的数反映了两棵树t₁和t₂是否都有子树t的直观，以及如果它们不共享一棵树它们是否比原来更加相似的直观。在句子级别，假设比如，适当翻译了关系从句的语法结构(虽然它未被恰当地连接)，这就要好于错误地翻译该从句。位置独立的数为比较论述树提供了更加优化的度量。它们比位置不独立的数跨越更加宽的范围值，从而使在日语和英语论述结构之间有更好的差异特征。当取得一优化位置的时候，对于表1中树的子句上的跨度，再调用是6/10，查准是6/11，因为除了跨度[1，2]、[4]、[5]和[1，5]，也可以用日语跨度[1]匹配英语跨度[2]，用日语跨度[2]匹配日语跨度[1]。

为了提供对两棵树有多接近的较佳预测，对位置不独立和独立的再调用和查准数在句子级别(其中，单元由edus给定，跨度由单元组或单独的句子给定)；段落级别(其中，单元由句子给定，跨度由句子组或单独的段落给定)；以及文本级别(其中，单元由段落给定，跨度由段落组给定)进行计算。这些数从句子到文本提供了论述结构和关系是怎样在所有论述级别上从一种语言映射到另一种语言的详细情况。句子级别上的差异可由日语和英语语法结构之间的差异来解释。在段落和文本级别上的差异具有纯修辞的解释。

当对于核心和关系分配随再调用和查证数进行计算时，标上每对跨度的状态和修辞关系也是其中的因素。

级别	单元P-DR R-DP	跨度P-DR P-DP	状态/核心P-DR P-DP	关系P-DR P-DP
级别	单元P-DR R-DP	跨度P-DR P-DP	状态/核心P-DR P-DP	关系P-DR P-DP	句子段落文本	29.1 25.053.9 53.441.3 42.6	27.2 22.746.8 47.331.5 32.6	21.3 17.738.6 39.028.8 29.9	14.9 12.431.9 32.326.1 27.1
加权平均值	36.0 32.5	31.8 28.4	26.0 23.1	20.1 17.9	句子段落文本	29.1 25.053.9 53.441.3 42.6	27.2 22.746.8 47.331.5 32.6	21.3 17.738.6 39.028.8 29.9	14.9 12.431.9 32.326.1 27.1
加权平均值	36.0 32.5	31.8 28.4	26.0 23.1	20.1 17.9	全部	8.2 7.4	5.9 5.3	4.4 3.9	3.3 3.0

	P-IR P-IP	P-IR P-IP	P-IR P-IP	P-IR P-IR
	P-IR P-IP	P-IR P-IP	P-IR P-IP	P-IR P-IR	句子段落文本	71.0 61.062.1 61.674.1 76.5	56.0 46.653.2 53.854.4 56.5	44.3 36.943.3 43.848.5 50.4	30.5 25.435.1 35.541.1 42.7
加权平均值	69.6 63.0	55.2 49.2	44.8 39.9	33.1 29.5	句子段落文本	71.0 61.062.1 61.674.1 76.5	56.0 46.653.2 53.854.4 56.5	44.3 36.943.3 43.848.5 50.4	30.5 25.435.1 35.541.1 42.7
加权平均值	69.6 63.0	55.2 49.2	44.8 39.9	33.1 29.5	全部	74.5 66.8	50.6 45.8	39.4 35.7	26.8 24.3

表2：日语和英语论述树结构的相似性

以上的表2总结了每个级别(句子、段落和文本)的结果(P-D和P-I再调用(R)以及(P)查准数)。“加权平均值”行的数报告了根据每个级别的单元数加权的句子、段落和文本规定数的平均值。在“全部”行的数目反映了在整个树计算的再调用和查准数，并不考虑句子和段落的范围。

假设日语和英语有非常不同的语法结构，则再调用和查准结果低，反映了句子级别以下创建的论述树之间的相似性。但是，如表2所示，这些是段落级别和文本级别的论述树之间的巨大差异。例如，位置独立的数显示，只有大约62％的句子和大约53％的分级跨度创建的句子可在两个全集之间匹配。当看着状态和与在段落级别的句子上创建的跨度相关的修辞关系时，P-I再调用和查准数分别下降大约43％和35％。

再调用和查准数中的差异，都用在信息以两种语言被组织成段落的方式的差异，以及信息在段落级别内和附近修辞地构成方式中的差异进行解释。

这些结果明显说明，如果试图逐句逐句地将日语翻译成英语，则得到的文本从论述的角度看可能会不自然。例如，如果使用CONTRAST(相反)关系翻译的某些日语信息是使用英语中的ELABORATION(确立)关系翻译的，则它在英语翻译中使用论述标记像“but”就不太合适了，虽然那样可以与日语论述结构相一致。

对日语和英语之间的修辞映射的检查反映了，某些日语修辞翻译一贯地映射到英语中的一个或几个较佳翻译。例如，日语中115个中的34个CONTRAST(相反)关系映射到英语中的CONTRAST(相反)关系；27个成为诸如ANTITHESIS(对立)和CONCESSION(让步)之类关系的核心，14个被翻译COMPARISON(比较)关系，6个被翻译成CONCESSION(让步)关系的附属，5个被翻译成LIST(列表)关系，等。

基于论述的转移模型

图10是树改写器在被训练过程中的框图。如图所示，树改写器700将两种不同类型的树作为输入，比如，一种A型树和另一种B型树，并自动学习该怎样将A型树改写成B型树。树改写器700产生将A型树改写成B型树的转换函数H(A→B)作为输出。因此，假设A型对应于日语的树，B型对应于英语的树，H(A→B)使用户(比如，人的端用户或者调用树改写器的软件应用)能够将任何英语的树形结构转换成日语中对应的部分。

树改写器对语法树、修辞树以及几乎任何其它类型用于计算语言的树形结构进行动作。树改写器不仅在机器翻译上有应用，在概述、论述分析、语法分析、信息检索、自动测试记分和其它产生或使用树的场合都有应用。例如在机器翻译中，可使用树改写器将一种语言特定的语法/修辞树改写成另一种语言的语法/修辞树。总的来说，可使用树改写器将长文本或句子的论述/语法结构改写成短文本或句子的论述/语法结构。

在图11中示出了这种高度的总应用性，其中的树改写器801，在其被训练以学习转换函数H(树→树’)之后，可接受一棵树作为产生树作为输出的任何应用800的输入。在输出端，可将树改写器的输出(树’—输入树的改写版本)用作使用树作为输入的任何应用的输入。

图12示出了作为较大系统-即基于论述的机器翻译系统一部分的树改写器的特定应用的框图。不像传统的MT系统那样在实行中对翻译采用“平铺”的方法，比如，通过单独翻译较大工作量(比如，一篇论文)的各个句子那样，图12的基于论述的MT系统完整地翻译整个文本，可能会产生与原始相比的不同数目和/或排列的句子，但可以更好地捕捉原始文本的重点的论述或修辞。

如图12所示，基于论述的MT系统910接收源语言文本900作为输入并产生目标语言文本908作为输出，该系统是基于论述对源语言文本900进行的翻译。系统910包括三个基本部分—论述分析器902、论述结构转换模块904(即，已被训练成使用转换函数H(树→树’)改写树的树改写器的特定例子)以及目标语言树-文本映射器906。

论述分析器902初始地得到源语言文本的论述结构并产生对应的论述树作为其输出。在Daniel Marcu，″A Decision-Based Approach to RhetoricalParsing(基于判决的修辞分析方法)″，ACL的99(1999)的会议记录中，详细阐述了可被用作论述分析器902的论述分析器，将其结合于本文中。目标语言树-文本映射器906是将输入文本映射为使用翻译的目标语言的统计模块以及加入论述特定特征的语言模型，该论述指定特征从论述分析器902和论述结构转换模块904的输出提取。Ulrich Germann、Michael Jahr、Kevin Knight、DanielMarcu和Kenji Yamada的″Fast Decoding and Optimal Decoding for MachineTranslation(用于机器翻译的快速解码和优化解码)″，计算语言协会第39届年会的会议记录，7月6日到11日，2001年，对合适的映射器906作了详细的阐述，将其结合于本文中。

如上所提到的，论述结构转换模块904是已被训练成将需要输入类型的树改写成需要输出类型的树改写器的特定例子。更确切地说，论述结构转换模块904改写输入文本的论述结构，从而反映对目标文本自然的论述翻译。

图13是描绘过程1300的流程图，可使用该过程训练树改写器自动学习两种不同类型树形结构，比如A型树和B型树之间的转换函数。

如图13所示，第一步1301是产生输入-输出树对[T_s，T_t]和每个输入-输出树对的叶子之间的映射C的训练组。输出树对是需要转换的类型，换言之，是源树类型T_s。输出树对是转换后的类型，换言之，是目标树类型T_t。

输入树和其成对的输出树的叶子之间的映射C确定了源文本段和其对应的目标语言翻译之间的对应关系。这些映射既可如以下所述地手工产生，也可以自动产生，就如Kevin Knight和Daniel Marcu的“Statistics—BasedSummarization Conference On Artificial Intelligence”(在人工智能的第17届国家会议(AAAI--2000)第703到710页)中所描述的，将其结合于本文。

在以上的等式(4)中示出了可使用的日语-英语输入-输出对的叶子之间映射的可提供类型，其中j是指日语文本段，e是指该文本段的英语翻译。需要注意的是，由等式(4)所示表示的映射并非限制于一一映射，而可以是任何任一的映射—也就是说，不仅是一一对应，也有一对多，多对一和多对多。

这种在映射中的灵活性显著地提高了确定输入和输出树之间关系时的丰富性，并进一步提高了自动得到的转换函数H[]的灵活性。

在产生了训练组(输入-输出树对和它们之间的映射)之后，训练过程接下来在步骤1303确定操作的组和顺序，该操作以其成对的输入树起始产生给定的输出树。这个步骤基于以下的七个基本操作完成，它们被共同称为“延伸的移位-减少”操作—移位、减少、分解、创建下一个、熔合、交换以及分配类型—这在以下用“基于论述的转换模型”为段标题的段落中作详细的描述。这七步操作足够将任何给定的输入树改写成其成对的输出树。

步骤1303的输出是一组学习的情况—一个学习情况对应训练组中的每个输入-输出树对。实质上，每种学习情况都是延伸的移位-减少操作的预定组，当被应用于输入树的时候，将产生其成对的输出树。

接下来，在步骤1305，树改写器训练过程1300将特征(比如，操作性和论述的特征，基于对应的特征以及词汇的特征)与学习情况结合以反映在其中完成操作的上下文。在下面以“学习论述-转换模型的参数”为标题的段落中对1305步骤作详细描述。

接着，在步骤1307，树改写器训练过程1300应用学习算法，例如，如J.RossQuinlan，在Morgan Kaufmann出版社(1993)出版的″C4.5：Programs forMachine Learning(机器学习的程序)″中描述的C4.5算法，以从学习情况学习判决规则组。在下面以“学习论述转换模型的参数”为标题的段落中对步骤1307作详细的描述。该判决规则组共同构成了转换函数H(T_s→T_t)，用于将任何类型树T_s改写成T_t类型树。该转换函数可随后被用户、应用或其它将前不可见类型树T_s改写成T_t类型树的自动过程所用。

以下是对训练树改写器的更详细讨论。

为了学习怎样改写论述结构树，讨论以下在以下定义3.1中定义的相关问题。

定义3.1 给定两棵树T_s和T_t以及在叶子级别以术语

＝，，和

反动作在T_s和T_t之间定义的对应关系表

C，寻找将树T_s改写成T_t的一系列动作。

如果对于任何元组(T_s，T_t，C)，都能得到这样的一系列动作，则就可以使用(T_s，T_t，C)元组的全集从而自动学习以从与树T_s具有相同结构特性的不可见树T_si获得与树T_t具有类似结构特性的树T_tj。

解决定义3.1中的问题包括，部分地延伸由Mangerman的″Statisticaldecision-tree models for parsing(用于分析的统计判决-树模型)″ACL95的会议记录276-283页，剑桥，Massachusetts(1995)；Hermjakob等人的″Learning parse and translation decisions from examples with richcontext(从上下文丰富的例子学习分析和翻译判定)″ACL97的会议记录482-489页，马德里，西班牙(1997)；以及Marcu″A decision-based approach torhetorical parsing(基于判决的修辞分析的方法)″ACL99的会议记录365-372页，Maryland(1999)中应用的分析模式。在该延伸的模式中，转换过程从空的堆栈和包含一系列基本论述树edt的输入列表开始，其中一个edt对应作为输入给出的树T_s中的每个edu。与每个edt相关的状态和修辞关系未作定义。在每一步，转换模块应用旨在从T_s中的单元创建论述树T_t的操作。在论述转换模块的范围内，实现了7种类型的操作：

·SHIFT(移位)操作，将第一edt从输入列表转移到堆栈；

·REDUCE(减少)操作，将位于堆栈顶部的两个论述树弹出；将它们结合到新的树中，该新的树更新包括在该操作中树的状态和修辞关系名称；并将新的树推入到堆栈顶部。使用这些操作来创建目标语言中论述树的结构。

·BREAK(分解)操作，使用该操作从而将输入列表开头的edt分解为预定数量的单元。使用这些操作来保证，得到的数具有与T_t相同数目的edt。例如，当任何时候，日语edu映射为多个英语单元，使用BREAK操作。

·CREATE-NEXT(创建下一个)操作，比如，使用该操作从而创建与日语(源语言)树无关的英语(目标语言)论述成分。

·FUSE(熔合)操作，使用该操作从而将在堆栈顶部的edt熔合到随即先于它的树之中。比如，当任何时候多个日语edu映射到一个英语edu，使用该操作。

·SWAP(交换)操作，该操作将在输入列表开头的edt与在寻找到的一个或多个位置右边的edt进行交换。这些操作是用于对论述成分的重新排序。

·ASSIGHNTYPE(分配类型)操作，该操作将一个或多个以下类型分配给堆栈顶部的树t；单元、多单元、句子、段落、多段落以及文本。使用这些操作以保证对于目标语言特定的句子和段落范围。

例如，图9中英语树的第一个句子可通过后跟动作(5)的序列而从原始的日语序列获得，在图14中示出了以下动作(5)的效果。为了紧凑，图14未示出ASSIGNTYPE动作的效果。为了同样的目的，某些线对应超过一个的动作。(5)分解2；交换2；移位；分配单元类型；移位；

减少-NS-确立宾语树形-E；分配多单元类型；

移位；分配单元类型；移位；分配单元类型；熔合；

分配单元类型；交换2；移位；分配单元类型；熔合；

分解2；移位；分配单元类型；移位；分配单元类型；

减少-NS-确立附加；分配多单元类型；

减少-NS-相反；分配多单元类型；

减少-SN-背景；分配句子类型。

对于使用的全集，为了使基于论述的转换模块从任何日语论述树开始获得任何英语论述树，要充分实现：

·一次SHIFT(移位)操作；

·3×2×85次REDUCE(减少)操作；(对于核心分配的三种可能对，NUCLEUS-SATELLITE(NS)(核心-附加)，SATELLITE-NUCLEUS(SN)(附加-核心)和NUCLEUS-NUCLEUS(NN)(核心-核心)，有两种方式减少两棵邻近的树(一棵是得到的二进制树，另一棵得到的是非二进制树(Marcu，″A decision-basedapproach to rhetorical parsing(基于判决进行修辞分析的方法)″，在ACL99的会议记录365-372页，Maryland(1999))和85个关系名称。)；

·三种类型的BREAK(分解)操作；(在使用的全集中，将日语单元分解为两个、三个或最多四个单元。)；

·一种类型的CREAT-NEXT(创建下一个)操作；

·一种类型的FUSE(熔合)操作；

·十一种类型的SWAP(交换)操作；(在全集中，日语单元与它们在英语特定翻译中的位置至多相隔11个位置。)

·七种类型的ASSIGNTYPE(分配类型)操作：单元、多单元、句子、多句子、段落、多段落和文本。

这些动作对于将任何树T_s改写成任何树T_t来说是足够了，其中T_t可具有不同数目的edus，T_t的edus可具有不同于T_sedus的排序，而且两棵树的分级结构也可以不同。

学习论述转换模型的参数

转换模型的每一种结构都与学习情况有关。学习情况通过使用手工构建的基本单元级别上的对应关系由程序产生，该程序从将全集中的日语树映射到英语兄弟树的动作序列自动得到。总的来说，40对日语和英语论述树产生了14108种情况。

来自于以下类别的特征组结合到每种学习情况：

操作和论述特征反映了堆栈和输入列表中树的数量以及上五个操作的类型。它们对附属于部分树类型的信息进行编码，该部分树被创建成某个时间和处于这些树之间的修辞关系。

基于对应关系的特征反映了核心和修辞的关系，以及对应于被创建成给定时间的类似英语的部分树的日语树的类型。

词汇特征规定了，对应于被创建成给定时间的结构的日语跨度是否使用可能的论述标记，诸如dakara(because因为)和no ni(although虽然)。

论述转换模块使用了C4.5程序(Quinlan，C4.5：机器学习的程序，MorganKaufmann出版社(1993))从而学习规定日语论述树应怎样映射为类似英语树的判决树和规则。分级机的十倍交叉验证计算得到70.2％(±0.21)的准确性。

为了更好地理解分级机的优势和劣势，将问题分解为更小的部分。因此，代替一次学习所有的动作，它先确定改写工序是否应选择SHIFT(移位)、REDUCE(减少)、FUSE(熔合)、SWAP(交换)或ASSIGNTYPE(分配类型)操作(表3中的“主动作类型”分级机)，而且只有通过确定完成什么类型减少操作、要将日语单元分解成多少个单元、与SWAP(交换)的单元距离多大以及应该完成什么类型ASSIGNMENT(分配类型)操作才能定义该决定。以下的表3示出了如使用十倍交叉验证工序确定的每个数据组的大小和每个这些分级机的性能。为了比较，每个分级机与一主要的基线配对。

分级机	#情况	准确性(10倍交叉验证)	主要基线的准确性
分级机	#情况	准确性(10倍交叉验证)	主要基线的准确性	总的(马上学习所有的级别)	14108	70.20％(±0.21)	22.05％(在分配单元类型)
主要动作类型分配类型分解核心-减少关系-减少交换	14108641639423882388842	82.53％(±0.25)90.46％(±0.39)82.91％(±1.40)67.43％(±1.03)48.20％(±1.01)62.98％(±1.62)	45.47％(在分配类型)57.30％(在分配单元类型)82.91％(在分解2)50.92％(在NS)17.18％(在确立宾语属性)62.98％(在交换1)	总的(马上学习所有的级别)	14108	70.20％(±0.21)	22.05％(在分配单元类型)

表3：分级机的性能

表3中的结果显示，要学习的最难的子任务是确定日语单元应该被分解的单元数以及确定到要交换的单元的距离。使用的特征不能提炼这些动作类型的基线分级机。用于“主要动作类型”(见表4)分级机的含混矩阵显示，系统主要在识别BREAK(分解)和CREATE-NEXT(创建下一个)的动作上有麻烦。系统在学习偏向何种类型核心排序(“核心-减少”分级机)以及为类似英语的结构选择何种关系(“关系-减少”分级机)上有困难。

动作	(a)	(b)	(c)	(d)	(e)	(f)	(g)
动作	(a)	(b)	(c)	(d)	(e)	(f)	(g)	分配类型(a)	660
分解(b)		1			2	28	1	分配类型(a)	660
分解(b)		1			2	28	1	创建下一个(c)				1	8
熔合(d)				69	8	3		创建下一个(c)				1	8
熔合(d)				69	8	3		减少(e)		4	18	193	30	3
移位(f)	1	4		15	44	243	25	减少(e)		4	18	193	30	3
移位(f)	1	4		15	44	243	25	交换(g)		3	4	14	43	25

表4：用于主要动作类型分级机的含混矩阵

图15显示了典型的学习曲线，该曲线对应于“减少关系”的分级机。该学习曲线揭示了，更多的训练数据可改进性能。但是，它们也揭示了，为了显著地提高性能需要更好的特征。

以下的表5显示了某些学习规则。第一条规则说明了修辞映射，其中，ATTRIBUTION(属性)关系的核心和附属顺序，当从日语翻译成英语时被改变了。学习第二条规则是为了将EXAMPLE(例子)的日语附属映射为证据的英语附属。

if rhetRelOfStack-1InJapTree＝ATTRIBUTION

then rhetlOfTopStackInEngTree←ATTRIBUTION

if rhetoRelOfTopStackInJapTree＝EXAMPLE∧

isSentenceTheLastUnitinJapTreeOfTopStack＝false

then rhetReOfTopStackInEngTree←EVIDENCE表5：关系-减少分级机的规则例

基于论述的转换模块的估算

通过应用总的分级机或其它六个连续的分级机，可以将任何日语论述树映射为其结构接近于英语自然翻译的树。为了估算基于论述的转换模块，完成了十倍交叉验证的试验。也就是说，分级机以36对手工创建并对齐的论述结构进行训练，并随后使用该学习的分级机从而将4棵不可见日语论述树映射为类似英语的树。所得树和手工创建的英语树的相似性使用上述的度量进行测量。该工序被重复10次，每次都训练并测试不同子集的树对。

表2中报告的结果作为模型的基线。该基线对应于不应用论述的知识。以下的表6显示了当使用总的分级机以将日语树映射为像英语一样的树的时候，再调用和查准数中获得的绝对改进(百分点)。总的分级机产生最佳的结果。表6中的结果是十倍交叉验证试验的平均值。

级别	单元P-DR P-DP	跨度P-DR P-DP	状态/核心P-DR P-DP	关系P-DR P-DP
级别	单元P-DR P-DP	跨度P-DR P-DP	状态/核心P-DR P-DP	关系P-DR P-DP	句子段落文本	+9.1 +25.5-14.7 +1.4-9.6 -13.5	+2.0 +19.9-12.5 -1.7-7.1 -11.1	+0.4 +13.4-11.0 -2.4-6.3 -10.0	-0.01 +8.4-9.9 -3.3-5.2 -8.8
加权平均值	+1.5 +14.1	-2.1 +9.9	-3.1 +6.4	-3.0 +3.9	句子段落文本	+9.1 +25.5-14.7 +1.4-9.6 -13.5	+2.0 +19.9-12.5 -1.7-7.1 -11.1	+0.4 +13.4-11.0 -2.4-6.3 -10.0	-0.01 +8.4-9.9 -3.3-5.2 -8.8
加权平均值	+1.5 +14.1	-2.1 +9.9	-3.1 +6.4	-3.0 +3.9	全部	-1.2 +2.5	-0.1 +2.9	+0.6 +3.5	+0.7 +2.6

	P-IR P-IP	P-IR P-IP	P-IR P-IP	P-IR P-IR
	P-IR P-IP	P-IR P-IP	P-IR P-IP	P-IR P-IR	句子段落文本	+13.4 +30.4-15.6 +0.6-15.4 -23.3	+3.1 +36.1-13.5 -0.8-13.0 -20.4	-6.3 +18.6-11.7 -1.8-13.2 -19.5	-10.1 +3.9-10.3 -2.8-11.5 -17.0
加权平均值	+3.6 +15.5	-2.7 +17.1	-8.5 +7.3	-10.5 -0.4	句子段落文本	+13.4 +30.4-15.6 +0.6-15.4 -23.3	+3.1 +36.1-13.5 -0.8-13.0 -20.4	-6.3 +18.6-11.7 -1.8-13.2 -19.5	-10.1 +3.9-10.3 -2.8-11.5 -17.0
加权平均值	+3.6 +15.5	-2.7 +17.1	-8.5 +7.3	-10.5 -0.4	全部	+12.7 +29.6	+2.0 +28.8	-5.1 +13.0	-7.9 +2.2

表6：相对于表2中数字，对基于论述的转换模块的相对估算

表6中的结果显示，本文描述的模型，在创建句子的类似英语的论述结构方面做得比基线好，但在创建段落和文本级别的类似英语的结构方面没有基线做得好。该模型的一个可能缺点看来来自于其在分配段落范围时的低性能。因为分级机不能正确学习哪些跨度要考虑段落，哪些不要，所以再调用和查准在段落和文本级别的结果受到不利的影响。段落和文本级别的较差结果也可由误差来解释，这些误差的影响在树的逐步重建工序中积累；也可由这样的事实解释，即对于这些级别，从中学习了较少的数据。

但是，如果忽略了句子和段落的范围并总体地估算了论述结构，则会发现，该模型根据位置不独立的计算无论如何都比基线做得好；在根据位置独立估算的对基本单元、分级跨度以及核心状态的分配方面比基线做得好，而只是在根据位置独立估算的修辞关系分配方面稍微做得没有基线好。更加复杂的论述特征，诸如那些通过Maynard讨论的Principle of Japanese Discourse(日语论述的原理)：剑桥大学出版社(1998)的手册，并且与两种语言的词汇语法的更紧密结合可产生学习基于论述的翻译模型的更好提示。

树改写器可以有可替换的实施例。比如，可将概率加入到树改写工序中。另外，或者附加地，可并行地重写多棵树并最终选择最佳的树。在当前的实施例中，在一系列不带递归和分支的确定性步骤中产生了目标树T_t。另外，可以在每个单独的步骤结合概率并通过在同一时间搜索多个可替换的来重建目标树T_t。目标树T_t的概率由产生该树的所有步骤的概率的乘积给定。在这种情况下，将目标树T_t当作最终的概率最大的树。这种方法的优点是可以学习概率的转换函数H[]。

虽然以上只详细描述了几个实施例，但那些技术熟练人士将肯定能理解，在不脱离本发明宗旨的前提下对较佳实施例作出许多修改。所有这样的修改都包含在以下的权利要求中。

Claims

1.一种机器翻译解码的方法，包括：

接收在要被翻译成目标语言的源语言中的文本段作为输入；

产生初始的翻译作为当前的目标语言翻译；

对当前的目标语言翻译应用一个或多个改进操作符以产生一个或多个改进的目标语言翻译；

确定一个或多个改进的目标语言翻译，与当前的目标语言翻译相比，是否代表改进的翻译；

将改进的目标语言翻译设置为当前的目标语言翻译；以及

重复所述的应用、所述的确定和所述的设置，直到出现结束条件为止。

2.如权利要求1所述的方法，其特征在于，该文本段包含从句、句子、段落或论文。

3.如权利要求1所述的方法，其特征在于，产生初始翻译包含产生注释。

4.如权利要求3所述的方法，其特征在于，该注释为单词对单词的注释或短语对短语的注释。

5.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含改变在当前目标语言翻译中的一个或两个单词的翻译。

6.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含(i)改变在当前目标语言翻译中单词的翻译，以及同时(ii)在源语言文本段和当前目标语言翻译之间产生最高概率对齐的位置上插入另一个单词，插入的其它单词具有高的零值多样性概率。

7.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含从当前的目标语言翻译中删除具有零值多样性的单词。

8.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含通过交换当前目标语言翻译中的非重叠目标语言单词段来改进在源语言文本段和当前目标语言翻译之间的对齐。

9.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含通过(i)从当前目标语言翻译中删除目标语言单词并(ii)连接源语言文本段中的单词来改进在源语言文本段和当前目标语言翻译之间的对齐。

10.如权利要求1所述的方法，其特征在于，应用一个或多个改进操作符，包含应用两项或多项以下的操作：

(i)改变当前目标语言翻译中的一个或两个单词的翻译；

(ii)改变在当前目标语言翻译中单词的翻译并同时在源语言文本段和当前目标语言翻译之间产生最高概率对齐的位置上插入另一个单词，插入的该单词具有高概率的零值多样性；

(iii)从当前的目标语言翻译中删除具有零值多样性的单词。

(vi)通过交换当前目标语言翻译中的非重叠目标语言单词段来改进在源语言文本段和当前目标语言翻译之间的对齐；以及

(v)通过从当前目标语言翻译中删除目标语言单词并连接源语言文本段中的单词来改进在源语言文本段和当前目标语言翻译之间的对齐。

11.如权利要求1所述的方法，其特征在于，确定一个或多个改进的目标语言翻译与当前的目标语言翻译相比是否代表改进翻译，包含计算每个改进目标语言翻译的准确性概率。

12.如权利要求1所述的方法，其特征在于，该结束条件包含，确定改进的目标语言翻译的准确性概率不大于当前目标语言翻译的准确性概率。

13.如权利要求1所述的方法，其特征在于，该结束条件包含预定数目迭代的完成。

14.如权利要求1所述的方法，其特征在于，该结束条件包含预定量时间的流逝。

15.一种计算机实现的机器翻译解码方法，包括反复改进源语言文本段的目标语言翻译，直到出现结束条件。

16.如权利要求15所述的方法，其特征在于，该结束条件包含，确定改进翻译的准确性概率不大于前一翻译的准确性概率。

17.如权利要求15所述的方法，其特征在于，该结束条件包含预定数目迭代的完成。

18.如权利要求15所述的方法，其特征在于，该源语言文本段包含从句、句子、段落或论文。

19.如权利要求15所述的方法，其特征在于，该方法起始于近似的目标语言翻译并用每个连续的迭代反复改进翻译。

20.如权利要求19所述的方法，其特征在于，该近似的目标语言翻译包含注释。

21.如权利要求20所述的方法，其特征在于，该注释包含单词对单词的注释或短语对短语的注释。

22.如权利要求19所述的方法，其特征在于，该近似的目标语言翻译包含从多个预定翻译中选择的预定翻译。

23.如权利要求15所述的方法，其特征在于，该方法实现了贪心算法。

24.如权利要求15所述的方法，其特征在于，反复改进翻译包含用每次迭代逐步改进翻译。

25.如权利要求15所述的方法，其特征在于，反复改进翻译包含每次迭代在翻译上完成一次或多次的改进操作。

26.如权利要求25所述的方法，其特征在于，一个或多个改进操作包含一项或多项以下的操作：

(i)改变翻译中的一个或两个单词；

(ii)改变单词的翻译并同时在源语言文本段和翻译之间产生最高概率对齐的位置上插入另一个单词，插入的该单词具有高的零值多样性概率；

(iii)从翻译中删除具有零值多样性的单词。

(vi)通过交换翻译中的非重叠目标语言单词段来改进在源语言文本段和翻译之间的对齐；以及

(v)通过从翻译中删除目标语言单词并连接源语言文本段中的单词来改进在源语言文本段和翻译之间的对齐。

27.一种机器翻译解码器，包括：

解码引擎，它包含一个或多个改进操作符，该操作符被应用到当前的目标语言翻译以产生一个或多个改进的目标语言翻译；以及

循环过程，该过程使用一个或多个改进操作符来反复改进当前的目标语言翻译，循环过程一旦出现结束条件就终止。

28.如权利要求27所述的解码器，其特征在于，该循环过程控制解码引擎从而利用每次的迭代逐步改进当前的目标语言翻译。

29.如权利要求27所述的解码器，其特征在于，还包含确定翻译的准确性概率的模块。

30.如权利要求29所述的解码器，其特征在于，该确定翻译的准确性概率的模块包含语言模块和翻译模块。

31.如权利要求29所述的解码器，其特征在于，该循环过程一旦确定改进翻译的准确性概率不大于前一翻译的准确性概率时就终止。

32.如权利要求27所述的解码器，其特征在于，该循环过程一旦完成了预定数目的迭代后就终止。

33.如权利要求27所述的解码器，其特征在于，一个或多个改进操作符包含以下中的一项或多项：

(i)操作符，它改变当前目标语言翻译中的一个或两个单词的翻译；

(ii)操作符，它改变在当前目标语言翻译中单词的翻译并同时在源语言文本段和当前目标语言翻译之间产生最高概率对齐的位置上插入另一个单词，插入的该单词具有高的零值多样性概率；

(iii)操作符，它从当前的目标语言翻译中删除具有零值多样性的单词。

(vi)操作符，它通过交换当前目标语言翻译中的非重叠目标语言单词段来改进在源语言文本段和当前目标语言翻译之间的对齐；以及

(v)操作符，它通过从当前目标语言翻译中删除目标语言单词并连接源语言文本段中的单词来改进在源语言文本段和当前目标语言翻译之间的对齐。

34.一种计算机实现的树产生方法，包括：

接收对应于源语言文本段的树作为输入；以及

对接收的输入应用一个或多个判决规则以产生对应于目标语言文本段的树。

35.如权利要求34所述的方法，其特征在于，该一个或多个判决规则包含判决规则序列。

36.如权利要求34所述的方法，其特征在于，该一个或多个判决规则共同表示转换函数。

37.如权利要求34所述的方法，其特征在于，还包含自动根据训练组确定一个或多个判决规则。

38.如权利要求37所述的方法，其特征在于，该训练组包含多个输入-输出树对和在每个输入-输出树对之间的映射。

39.如权利要求38所述的方法，其特征在于，在每个输入-输出树对之间的映射包含在输入树的叶子和其成对的输出树叶子之间的映射。

40.如权利要求39所述的方法，其特征在于，在成对的输入-输出树的叶子之间的映射可以是一对一、一对多、多对一或多对多。

41.如权利要求38所述的方法，其特征在于，自动确定一个或多个判决规则，包含确定当被应用于其成对的输入树时产生输出树的操作序列。

42.如权利要求41所述的方法，其特征在于，确定操作序列包含，使用多个预定的操作，这些预定的操作总体上足够将任何输入树译成该输入树的成对输出树。

43.如权利要求42所述的方法，其特征在于，多个预定的操作包含以下中的一项或多项：

移位操作，将基本的论述树(edt)从输入列表转移到堆栈中；

减少操作，从堆栈的顶部弹出两个edt，将弹出的两个edt结合到新的树中，并将新的树推入到堆栈的顶部；

分解操作，将一个edt分解为预定数的单元；

创建下一个的操作，创建与源语言数无关的目标语言论述成分；

熔合操作，将在堆栈顶部的edt熔合到前一edt中；

交换操作，交换输入列表中edt的位置；以及

分配类型操作，为edt分配一个或多个以下的类型：单元、多单元、句子、段落、多段落以及文本。

44.如权利要求43所述的方法，其特征在于，多个预定的操作包含，包括移位操作、减少操作、分解操作、创建下一个的操作、熔合操作、交换操作以及分配类型操作的闭合组。

45.如权利要求41所述的方法，其特征在于，确定操作序列产生了多种学习情况，一种学习情况对应每个输入-输出树对。

46.如权利要求45所述的方法，其特征在于，还包含根据上下文将一个或多个特征与多种学习情况中的每一种进行结合。

47.如权利要求46所述的方法，其特征在于，结合的特征包含以下中的一项或多项：操作和论述特征、基于对应关系的特征以及词汇特征。

48.如权利要求45所述的方法，其特征在于，还包含对多种学习情况应用学习程序以产生一个或多个判决规则。

49.如权利要求48所述的方法，其特征在于，该学习程序包含C4.5。

50.如权利要求34所述的方法，其特征在于，该源语言文本段包含从句、句子、段落或论文。

51.如权利要求34所述的方法，其特征在于，该目标语言文本段包含从句、句子、段落或论文。

52.如权利要求34所述的方法，其特征在于，该源语言文本段和目标语言文本段是不同类型的文本段。

53.如权利要求34所述的方法，其特征在于，每个源语言树和目标语言树都包含语法树。

54.如权利要求34所述的方法，其特征在于，每个源语言树和目标语言树都包含论述树。

55.一种计算机实现的树产生模块包括，当被应用于对应源语言文本段的树时产生对应目标语言文本段的判决规则预定组。

56.如权利要求55所述的模块，其特征在于，该源语言文本段包含从句、句子、段落或论文。

57.如权利要求55所述的模块，其特征在于，该目标语言文本段包含从句、句子、段落或论文。

58.如权利要求55所述的模块，其特征在于，该源语言文本段和目标语言文本段是不同类型的文本段。

59.如权利要求55所述的模块，其特征在于，每个源语言树和目标语言树都包含语法树。

60.如权利要求55所述的模块，其特征在于，每个源语言树和目标语言树都包含论述树。

61.如权利要求55所述的模块，其特征在于，判决规则的预定组定义了源语言树和目标语言树之间的转换函数。

62.一种确定不同类型树之间转换函数的方法，该方法包括：

产生包含多个树对和每个树对之间映射的训练组，每个树对包含源树和对应的目标树；

通过为每对树确定当被应用于源树时产生的操作序列来产生多种学习情况；以及

通过将学习算法应用于多种学习情况来产生多个判决规则。

63.如权利要求62所述的方法，其特征在于，还包含，在产生多个判决规则以前，根据上下文将一个或多个特征与每种学习情况进行结合。

64.一种计算机实现的基于论述的机器翻译系统，包括：

论述分析器，它分析源语言文本段的论述结构并为文本段产生源语言论述树；

论述结构的转换模块，它接受源语言论述树作为输入并产生目标语言论述树作为输出；以及

映射模块，它将目标语言论述树映射为目标文本段。

65.如权利要求64所述的系统，其特征在于，该论述结构的转换模块，包含多个从源语言-目标语言树对的训练组产生的判决规则。