CN1643512A

CN1643512A - 统计机译中短语化联合概率模型的短语

Info

Publication number: CN1643512A
Application number: CNA038070189A
Authority: CN
Inventors: D·马库; K·奈特; W·王; P·科恩
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2002-03-27
Filing date: 2003-03-27
Publication date: 2005-07-20
Also published as: ES2343786T3; JP2005521952A; EP1488338B1; EP1488338A2; WO2003083710A2; HK1072987A1; AU2003220606A1; DE60332220D1; US20040030551A1; WO2003083710A3; AU2003220606A8; ATE465457T1; CA2480398C; US7454326B2; CA2480398A1

Abstract

机译(MT)系统利用基于短语的并集概率模型。所述模型用来同时生成源语言和目标语言。在一实施例中，所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。所述系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。

Description

统计机译中短语化联合概率模型的短语

对相关申请的交叉引用

本申请要求2002年3月27日提交的序号为60/368450的美国临时申请优先权，该临时申请通过引用包含于文中。

发明来源

本应用中描述的研发得到DARPA-ITO的授权号N66001-00-1-9814和NSF-STTR授权0128379的支持。美国政府对所述要求权利的发明有一些权利。

背景

大多数用于统计机译(MT)的基于噪声信道的模型是条件概率模型。在噪声信道框架中，假定并行语料库中的每个源句e通过随机过程(其参数用传统期望最大值(EM)技术估算)生成目标句f。该生成式模型说明源词如何映射进目标词及如何对目标词重排序以产生结构好的目标句。使用多种方法解决目标词的重排序，包括使用基于词、基于模板和基于句法的模型(这里只罗列几个)。尽管这些模型用不同的生成式过程说明所译的词是如何在目标语言中得到重排序的，在词汇层面上这些模型都假定源词是单个地译成目标词的。

概述

机译(MT)系统用一或更多双语语料库形成概率短语到短语翻译词典。例如，用并集概率方法、词到词条件方法或其他方法形成翻译词典。

机译系统用翻译词典翻译一或更多句子(或句子片断)。例如，机译系统用优先策略、用使用聚束解码器的方法或用其它方法对句子解码。

在用基于短语的并集概率模型形成翻译词典的实施例中，同时生成源语言句和目标语言句。该系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。

在使用单词到单词条件方法的实施例中，所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。

附图简述

图1是包括基于短语的并集概率翻译模型的机译(MT)系统的框图。

图2示出由基于短语的并集概率模型生成的校准和概率分布。

图3是描述基于短语的并集概率模型的训练算法的流程图。

图4示出一例基于短语的优先解码。

图5是根据一实施例描述基于短语的解码算法的流程图。

图6示出描述基于短语的解码算法的伪码。

图7示出前提假设间的弧的生成。

图8示出短语长度对性能的影响。

图9示出一例词法重量估算。

图10示出词法对性能的影响。

图11比较不同的启发式方法的性能。

详细描述

本说明中的系统和技术用来提供较有效精确的机译(MT)。在一些实施例中，机译系统形成短语到短语概率翻译词典。从双语语料库中用例如，并集概率模型或单词到单词条件模型自动学习概率翻译词典。

这些翻译词典便用来翻译新句。即，翻译词典用来翻译用来训练机译系统的语料库中没有的句子。翻译系统和技术包括优先策略、使用聚束解码器的方法或其它方法。

图1示出包括翻译模型105和解码器110的机译(MT)系统100。翻译模型105包括从双语语料库习得的翻译词典。翻译模型105假定可在单词层面及短语层面建立词汇对应。解码器110根据输入句用翻译词典提供译句。

短语到短语翻译词典形成。

根据一些实施例，模型105根据并集概率模型得到训练。即，模型105用包括并行的源语言串和目标语言串的并行语料库115自动生成翻译词典。模型105并不试图捕获源句如何映射进目标句，而是同时生成源句和目标句。换言之，翻译模型是并集概率模型，该并集概率模型可容易地边缘化以产生用于源至目标机译应用和目标至源机译应用的条件概率模型。

在一实施例中，模型105用以下随机过程生成句对：

1.生成一包概念C。

2.根据分配

对每个概念c_i∈C生成短语对

其中

和

各含至少一词。

3.对每种语言的短语排序以生成短语的两线性序列；序列对应双语语料库中的句对。

简便起见，假定该包概念和对所生成的短语的排序按照均匀分布建模。还假定

c_{i} = ({\overset{&RightArrow;}{e}}_{i}, {\overset{&RightArrow;}{f}}_{i}) .

在这些假定下，用概念c_i∈C生成句对(E，F)的概率即所有短语到短语翻译概率的乘积

Π c_{i} &Element; c ({\overset{&RightArrow;}{e}}_{i}, {\overset{&RightArrow;}{f}}_{i}),

该乘积产生数包短语，这些数包短语可线性排序以获得句子E和F。

表2说明一例。句对“abc”-“xy”可用两概念(“ab”:“y”)和(“c”:“x”)或一概念(“abc”:“xy”)生成，因为在这两种情况下，每种语言的短语可按产生原始句对的序列排列。然而，不能用概念(“ab”:“y”)和(“c”:“y”)生成同一句对，因为不能从两短语“y”和“y”重新生成序列“xy”。类似地，句对可用概念(“ac”:“x”)和(“b”:“y”)生成，因为不能通过并置短语“ac”和“b”生成序列“abc”。

如果E和F可通过排列具有所有概念c_i∈C的特点的短语和

而获得，则概念C集可线性为句对(E，F)。我们用谓词L(E，F，C)表示该特性。在此模型下，将生成可线性为(E，F)的数包概念c_i∈C的所有可能的方法相加而得到给定句对(E，F)的概率。

p (E, F) = \underset{c = c | L (E, F, C)}{Σ} \underset{c_{i} &Element; C}{Π} t ({\overset{&RightArrow;}{e}}_{i}, {\overset{&RightArrow;}{f}}_{i})

上述模型(模型1)可有相当好的校准。不过，该模型不适于翻译未见句，因为它对与给定概念相关的短语的排序无限制。为说明之，开发了改进模型(模型2)以说明失真。该模型的生成过程为：

1.生成一包概念C。

2.初始化E和F以清除序列。

3.根据分布 (其中和

各含至少一词)随机取概念c_i∈C并生成短语对

然后从C除去c_i。

4.在F端附加短语

把k当作F中的起始位

5.如果无其他短语占据位置1或位置 ( 是短语的长度)，将短语插于E中的位置1处。系统因而以概率(d(i，j)是基于位置的失真分布)生成两短语和

间的校准

Π_{p = k}^{k + | \overset{&RightArrow;}{f} |} d (p, (l + | {\overset{&RightArrow;}{e}}_{i} |) / 2) .

6.重复步骤3到5直至C为空。

在该模型中，生成句对(E，F)的概率由下式表示：

p (E, F) = \underset{C &Element; | L (E, F, C)}{Σ} \underset{c_{i} &Element; C}{Π} [t (e_{i}, f_{i}) \times Π_{k = 1}^{| {\overset{&RightArrow;}{f}}_{i} |} d (pos (f_{i}^{k}), {pos}_{cm} ({\overset{&RightArrow;}{e}}_{i}))]

其中，

表示句F中短语的词k的位置，表示海量短语e_i中心的句子E中的位置。

训练上述模型计算上具挑战性。由于有一指数个能生成句对(E，F)的校准，不能穷举地应用期望最大值(EM)训练算法。图3是将该问题考虑进去的基于短语的并集概率模型的训练算法300的流程图。

系统确定E和F中的高频(块305)。如果一开始便假定可从概念生成短语

{\overset{&RightArrow;}{e}}_{i} &Element; E^{*}

和

{\overset{&RightArrow;}{f}}_{i} &Element; F^{*},

则需一超级计算机以将对分布建模的表存储于存储器中。因为系统未接入有无限内存的计算机，系统起初只对经常出现在语料库中的短语和学习t个分布目录。然后，通过平滑，系统也学习出现少的短语的t个分布目录。为在下一步算法得到考虑，一短语至少须在语料库中出现五次。

下一步是初始化t分布表(块310)。在EM训练过程开始前，我们不知道怎样的词对或短语对极有可能共享同一意义。换言之，假定能生成句对(E，F)的所有校准有相同的概率。在此情况下，句对(E，F)有助于由同一概念c_i生成

的事实的证据是由校准数表示的，所述校准建于(E，F)间，且有一概念c_i加以链接以对句E中短语

的和句F中的短语

(按两句间能建立的校准总数划分)短语化。这两数字都很容易约计。

如果是一词的句E，有S(1，k)种方法可将该一词分成k个非空集/概念，S(1，k)是第二种的Stirling数。

S (l, k) = \frac{1}{k!} Σ_{i = 0}^{k - 1} {(- 1)}^{i} (\begin{matrix} k \\ i \end{matrix}) {(k - i)}^{n}

有S(m，k)种方法可将句F的m个词分成k个非空集。如果E中的词能映射到F中的词，则在长度分别为1和m的两句(E，F)间建立个校准

E_{k = 1}^{\min (l, m)} k! S (s (l, k) S (m, k)) .

当概念生成长度分别是a和b的两短语

时，只有1-a和m-b个词留待链接。因此，缺失任何其他信息，由同一概念c_i生成短语和

的概率由下式表示：

\frac{Σ_{k = 1}^{\min (l - a, m - b)} k! S (s (l - a, k) S (m - b, k)}{Σ_{k = 1}^{\min (l, m)} k! S (s (l, k) S (m, k)}

需注意的是，由该式得出的小数计数只是系统感兴趣的t分布的近似值，因为第二种的Stirling数未附加于与给定概念有关的词使其连续。但是，由于该式对分子和分母同样评估过高，该近似值实际中工作正常。

在算法的第二步中，系统应用公式以就语料库中每个句对(E，F)中的短语定义的Cartesian乘积收集所有unigram和高频n-gram对。系统将所有这些t计数相加并规格化以获得一起始并集分布t。该步骤相当于对语料库中所有可能的校准在一步骤中执行EM算法。

在算法的第三步，系统在Viterbi校准上执行EM训练(块315)。如果是非均匀t分布，短语到短语校准有不同的权重，且无其他策略来在多项式时间内收集所有可能的校准的小数计数。从图3的算法的块315开始，对语料库中的每个句对，系统通过将短语链接起来来优先产生初始校准以生成高t概率的概念。系统通过突破和合并概念、在概念间对换词以及在概念上移动词来向最高概率的Viterbi校准爬山。系统计算与系统在爬山过程中生成的所有校准有关的概率并收集这些校准中所有概念的t计数。

系统将该基于Viterbi的EM训练过程用于数个迭代。第一迭代用模型1估算校准概率。其余迭代用模型2估算校准概率。

在训练期间，系统应用平滑以使系统能将非零值与语料库中不常出现的短语对联系起来。

训练过程结束时，系统取并集概率分布t和d的边缘(块320)。这产生条件概率分布和d(posF|posE)，系统用它们来解码。

当系统在图2的语料库上执行图3的训练过程时，在四个模型1迭代后，系统获得校准205和并集条件概率分布210。初步印象是，第一句对的Viterbi校准看起来不正确，因为人类有在可能的最小短语间建立校准的本能。然而，注意：我们的模型所作的选择是相当有道理的。毕竟，在缺少附加信息的情况下，该模型要么假定“a”和“y”所指相同，要么假定短语“abc”和“xy”所指相同。该模型选择在保持第一假定的某一概率海量的同时给第二假定较大权重。

还要注意：尽管并集概率将第二假定优先，条件分布则不。条件分布210同我们的直觉一致，该直觉告诉我们：将“abc”翻译成“xy”及将“a”翻译成“y”都是合理的。条件分布反映我们的直觉。

在可选实施例中，诸如图1的系统100的系统从词对词校准学习短语到短语翻译。即，诸如模型105的模型通过扩展词对词模型学习的词对词翻译词典开发短语翻译词典。短语翻译模型基于噪声信道模型。该系统用贝斯规则如下重组将外语句f译成英语e的翻译概率：

argmax_ep(e|f)＝argmax_ep(f|e)p(e)

这考虑到语言模型p(e)和独立翻译模型p(f|e)。

解码(即翻译)期间，输入外语句f细分成I短语序列系统假定对所有可能的细分都是均匀概率分布。

中的每个外语短语译成英语短语

重新排序这些英语短语。短语翻译按概率分布

建模。因为贝斯规则，从建模观点看翻译方向得到逆转。

对输出英语短语的重新排序是按相对失真概率分布建模的，表示被译成第i个英语短语的外语短语的起始位，表示被译成第i-1个英语短语的外语短语的终止位。

用并集概率模型(诸如结合前述实施例所描述的)训练失真概率分布d(.)。或者，系统亦可使用参数α有一适当值的较简单失真模型

d (a_{i} - b_{i - 1}) = a^{| a_{i} - b_{i - 1} - 1 |} .

为校准输出长度，系统除三字母组外还为每个生成的英语词引入因子ω。这是优化性能的简单手段。通常，该因子大于1，偏离较长输出。

概括地说，输入英语句f按照该模型的最佳输出英语句是：

E_best＝argmax_ep(e|f)

＝argmax_ep(f|e)p_LM(e)ω^length(e)

其中，p(f|e)分解为：

p ({\overset{&OverBar;}{f}}_{1}^{I} | {\overset{&OverBar;}{e}}_{1}^{I}) = Π_{i = 1}^{I} φ ({\overset{&OverBar;}{f}}_{i} | {\overset{&OverBar;}{e}}_{i}) d (a_{i} - b_{i - 1})

开发工具包用来从并行语料库训练基于词的翻译模型。作为副产品，它生成该数据的词校准。系统用许多启发式改进该校准。系统收集与词校准一致的所有校准短语对。合法短语对中的词只相互校准，而不与外面的词校准。在所收集的短语对的情况下，系统用相对频率估算短语翻译概率分布：

φ (\overset{&OverBar;}{f} | \overset{&OverBar;}{e}) = \frac{count (\overset{&OverBar;}{f} | \overset{&OverBar;}{e})}{Σ_{\overset{&OverBar;}{f}} count (\overset{&OverBar;}{f} | \overset{&OverBar;}{e})}

在一些实施例中，执行平滑。

如果系统收集与词校准一致的所有短语对，则包括许多非直观短语。例如，学习诸如“house the”的短语的翻译。直观上系统会相信这样的短语无用。将可能的短语限定于受句法激励的短语可过滤掉这样的非直观对。

评价只包含句法短语的短语翻译模型的性能的另一动机来自近来建立句法翻译模型的努力。在这些模型中，将对词的重新排序限定于对构建良好的句法分析树的成分的重新排序。当向这样的模型增加短语翻译时，通常只能翻译跨整个句法子树的短语。了解这是否有益的限制是重要的。

系统将一句法短语定义为一由句法分析树中的单一子树覆盖的词序列。我们如下收集句法短语对：系统词校准并行语料库，如上述。然后系统用句法分析程序分析语料库的两侧。对与词校准一致的所有短语对，系统还查验这两个短语是否句法树的子树。这样的短语才包括在模型中。因此，所学受句法激励的短语对是不了解句法所学短语对的子集。短语翻译概率分布用相对频率估算。

图8显示不同最大短语长度的试验结果。使用与词校准一致的所有短语(AP)。如图8所示，将每个短语限定于最多三词的长度性能最佳。学习更长的短语不见改进。然而，将长度限制减至两词是有害的。考虑到更长的短语增加短语翻译表大小。该增加几乎与最大长度限制是线性的。这些模型大小未有导致存储问题的。

系统通过检验词互译的好坏来验证短语翻译对的质量。为此，使用词法翻译概率分布。该分布用根据与短语模型相同的词校准的相对概率来估算：

w (f | e) = \frac{count (f, e)}{Σ_{f^{'}} count (f^{'}, e)}

特别的英语零记号加于每个英语句并与每个未校准的外语词校准。

在给定短语对 f， e和外语词位I-1，……，n与英语词位j＝0、1、……、m间的词校准a的情况下，系统如下计算词汇权重p_w：

图9示出一例。

如果短语( f， e)对有多个校准，系统使用具最大词汇权重的校准：

p_w( f| e)＝max_ap_w( f| e，a)

系统在翻译期间将词汇权重P_w用作附加因子。这意味着模型p(f|e)扩展为：

p ({\overset{&OverBar;}{f}}_{1}^{I} | {\overset{&OverBar;}{e}}_{1}^{I}) = Π_{i = 1}^{I} φ ({\overset{&OverBar;}{f}}_{i} | {\overset{&OverBar;}{e}}_{i}) d (a_{i} - b_{i - 1}) p_{w} {({\overset{&OverBar;}{f}}_{i} | {\overset{&OverBar;}{e}}_{i}, a)}^{λ}

参数定义词汇权重的长度P_w。该参数的良好值是约0.25。

图10示出词汇权重对机译性能的影响。在我们的试验中，系统在BLEU计分表上有最高0.01的改进。

有词汇权重的短语翻译是每词有一词级的校准模板模型的特例。系统执行的简化的优点在于：词汇权重可事先作为因子进入短语翻译表，加快解码。与校准模板模型的束搜索解码器不同的是，图5和图6描述的解码方法能搜索输入句的所有可能的短语细分，而非在解码前选择一细分。

在试验中，系统根据按生成的词校准学习短语对。该工具包执行的IBM模型只允许一英语词至多与一外语词校准。系统用启发式方法矫正该问题。

首先，系统双向(即，外语到英语及英语到外语)校准并行语料库。这使得系统试图使两词校准和谐。如果系统横断这两校准，系统获得高置信度校准点的高精度校准。如果系统取这两校准的并集，系统获得有附加校准点的高查全率校准。

横断和并集间的空间是始于横断并添加附加校准点的扩展启发式。判定添加哪些点取决于许多范畴，例如：哪一个校准存在潜在校准点(外英或英外)吗，潜在点邻是否已建点，相邻是否意味直接紧邻(块距)抑或对角线紧邻，目前潜在点相连的英语词或外语词是否尚未校准，是否两者皆未得到校准及潜在点的词法概率。

系统始于所述两词校准的横断。系统只添加存在于两词校准的并集中的新校准点。系统亦一直要求一新校准点连接至少一之前未校准的词。

首先，系统扩展至只直接紧邻校准点。系统检验始于校准矩阵右上角的潜在点，检验第一英语词的校准点，并继续于第二英语词的校准点等等。这迭代地进行，直到不再添加校准点。在最后一步，系统添加非紧邻校准点，否则用相同的要求。

图11示出该启发式(基础)的性能，并与两单一方向校准(e2f，f2e)及其并集(union)相比。该图还包含基启发式的两修正：在第一(diag)系统还允许迭代扩张阶段中的对角线相邻。在其变体(diag-and)中，系统在最后一步要求两词都未得到校准。

这些不同的方法的排列因训练语料库大小的不同而不同。例如，校准f2e对10000句对语料库起初倒数第二，但最终对320000句对却是有竞争力的最好方法。基启发式起初最好，但随后衰落。最好与最差方法的不同相当大，大约是0.2BLEU(IBM计分系统)，这是对几乎所有训练语料库大小，虽然并非总是明显。

解码

一些实施例中的基于短语的解码器使用束搜索算法。以部分翻译(或假设)的形式从左至右生成英语输出。

在初始状态(未翻译输入外语词且未生成输出英语词)，系统开始搜索可能的译文。用对一些未译的输入外语词的短语翻译扩展英语输出来生成新状态。新状态的当前成本是随翻译倍增的原始状态、失真和所添加的短语翻译的语言模型成本。

每个搜索空间(假定)表示为：(a)对最佳此前状态的回链接，(b)目前覆盖的外语词，(c)生成的(计算未来语言模型成本所需)最后两英语词，(d)所覆盖的最后外语短语(计算未来失真成本所需)的终端，(e)最后添加的英语短语(从假定路径读译文所需)，(f)目前成本及(g)未来成本估算。

搜索中的最后状态是覆盖所有外语词的假定。其中成本最小的假定选为最佳译文。

两假定可合并，如果它们在以下一致：(a)目前覆盖的外语词，(b)生成的最后两英语词及(c)所覆盖的最后外语短语的终端。

如果有两个使两假定在这些特性上一致的路径，系统保存较便宜路径，例如目前成本较低的假定。其他假定不可能是至最佳译文的路径的部分，系统可安全地丢弃之。注意：较差假定可以是至第二最佳译文的路径的部分

图5是根据一实施例描述基于短语的解码操作500的流程图。描述该操作的算法见图6。系统始于初始空假定。用短语的译文从现有假定扩展新假定。选择一未译外语词序列及其可能的英语短语译文(块505)。英语短语附于现有英语输出序列(块510)。将外语词标记为已译并更新假定的概率成本(块515)。无未译外语词的最便宜(最高概率)最终假定是搜索的输出(块520)。

这些假定存于栈中。栈含有m个外语词得到翻译的所有假定。系统可重组搜索假定。尽管这某种程度上减少存于每个栈中的假定数量，栈大小随输入句长度成指数级增长。这使得穷尽搜索不可能。

这样，系统根据弱假定目前引发的成本和未来成本估算剪除弱假定。对每一个栈，系统只保存一束最佳的n个假定。由于未来成本估算不完美，导致搜索差错。我们的未来成本估算考虑估算的短语翻译成本，但未考虑预期失真成本。

对句中任一处的每一个可能的短语译文(称为译文选项)，系统将其短语翻译概率乘所生成的英语短语的语言模型概率。作为语言模型概率，系统对第一词使用单字母词概率，对第二词使用双字母词母字概率，对随后所有词使用三字概率。

有了翻译选项的成本，系统通过动态编程计算任一连续外语词序列的估算未来成本。注意：这只是可能性，因为系统忽略失真成本。由于长度为n的输入外语句只有n(n+1)/2个这样的序列，系统事先预计算这些成本估算并将其存于表中。

翻译期间，未覆盖外语词的未来成本可通过查询该表得到快速计算。如果一假定已突破未译外语词序列，系统查寻每个序列的成本并取其积。

束搜索期间生成的假定的空间形成路径格，各自表示一译文(翻译计分可容易地计算)。将n个最佳路径从这样的格中析取是一得到很好研究的问题。

当从中可导出多个新假定的一假定有多个译文选项时，路径扩展范围。合并假定时，路径交汇。如上所述，如果一假定在一些相同特性上与较低成本假定一致，系统丢弃之。为保存关于合并路径的信息，系统记录这样的合并：包含前一假定的识别符、较低成本假定的识别符及从前一假定到较高成本假定的成本。

图7给出生成这样一个弧的例子。在该例中，如上所详述，假定2和4在启发式搜索方面是等价的。因而，删除假定4。但为保留从假定3至假定2的路径的信息，系统存储对弧705的记录。该弧还含有从假定3至4所添加的成本。注意：从假定1至假定2的成本不必存储，因为可从假定数据结构重新计算之。

束大小，例如每栈中假定的最大数目，可定为某一数目。译文选项数目同句长成线性关系。因此，束搜索的时间复杂性与句长成二次关系，同束大小成线性关系。

由于束大小限制搜索空间并因而限制搜索质量，系统须在速度(低束大小)和性能(高束大小)间找到合适的平衡。在试验中，束大小只为100便足够。对于较大束大小，只有数个句子译地不同。解码器在2GHz Linux系统上约10分钟翻译长度为5至15词的句子1755个。系统在保证高质量的同时，实现了快速解码。

在一些实施例中，诸如图1的解码器110的解码器执行优先过程。以外语句F为例，解码器首先通过为中的短语选择概率P(E，F)对其注释。解码器随后迭代爬山，修改E和E与F间的校准以最大化规则。解码器通过经本地修改所建校准/翻译的一组操作而修改现有校准/翻译直至给定时间来爬山。这些操作将校准的英语侧用不同概率的短语替换，合并和突破现有概念，并在概念间互换词。概率p(E)用简单三字语言模型计算。语言模型在词(而非短语)级得到估算。图3示出解码器为发现句的译文而采取的步骤。图4中的每个中间译文405在其概率410后并后续以将其改变以产生较高概率的译文的操作。

已描述许多实施例。然而，可以理解的是，可不脱离本发明的精神和范围地做各种修改。例如，流程图中的块可跳过或打破顺序执行而结果仍理想。可使用不同的翻译方法。因此，其它实施例在下列权利要求的范围内。

Claims

1.一种方法，其特征在于，包括：

采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模型。

2.一种如权利要求1所述的方法，其特征在于，还包括：

确定包括E和F的句子对中的高频n字；

用校准初始化t分布表；

对多个迭代执行基于Viterbi的EM训练；及

导出并集概率模型和条件概率模型。