CN1643512A - 统计机译中短语化联合概率模型的短语 - Google Patents

统计机译中短语化联合概率模型的短语 Download PDF

Info

Publication number
CN1643512A
CN1643512A CNA038070189A CN03807018A CN1643512A CN 1643512 A CN1643512 A CN 1643512A CN A038070189 A CNA038070189 A CN A038070189A CN 03807018 A CN03807018 A CN 03807018A CN 1643512 A CN1643512 A CN 1643512A
Authority
CN
China
Prior art keywords
phrase
translation
model
speech
calibration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038070189A
Other languages
English (en)
Inventor
D·马库
K·奈特
W·王
P·科恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of CN1643512A publication Critical patent/CN1643512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

机译(MT)系统利用基于短语的并集概率模型。所述模型用来同时生成源语言和目标语言。在一实施例中,所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。所述系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。

Description

统计机译中短语化联合概率模型的短语
对相关申请的交叉引用
本申请要求2002年3月27日提交的序号为60/368450的美国临时申请优先权,该临时申请通过引用包含于文中。
发明来源
本应用中描述的研发得到DARPA-ITO的授权号N66001-00-1-9814和NSF-STTR授权0128379的支持。美国政府对所述要求权利的发明有一些权利。
背景
大多数用于统计机译(MT)的基于噪声信道的模型是条件概率模型。在噪声信道框架中,假定并行语料库中的每个源句e通过随机过程(其参数用传统期望最大值(EM)技术估算)生成目标句f。该生成式模型说明源词如何映射进目标词及如何对目标词重排序以产生结构好的目标句。使用多种方法解决目标词的重排序,包括使用基于词、基于模板和基于句法的模型(这里只罗列几个)。尽管这些模型用不同的生成式过程说明所译的词是如何在目标语言中得到重排序的,在词汇层面上这些模型都假定源词是单个地译成目标词的。
概述
机译(MT)系统用一或更多双语语料库形成概率短语到短语翻译词典。例如,用并集概率方法、词到词条件方法或其他方法形成翻译词典。
机译系统用翻译词典翻译一或更多句子(或句子片断)。例如,机译系统用优先策略、用使用聚束解码器的方法或用其它方法对句子解码。
在用基于短语的并集概率模型形成翻译词典的实施例中,同时生成源语言句和目标语言句。该系统将并集概率模型用于源语言到目标语言的翻译应用和目标语言到源语言的翻译应用。
在使用单词到单词条件方法的实施例中,所述模型根据单词到单词统计机译系统生成的单词到单词校准学习短语到短语校准。
附图简述
图1是包括基于短语的并集概率翻译模型的机译(MT)系统的框图。
图2示出由基于短语的并集概率模型生成的校准和概率分布。
图3是描述基于短语的并集概率模型的训练算法的流程图。
图4示出一例基于短语的优先解码。
图5是根据一实施例描述基于短语的解码算法的流程图。
图6示出描述基于短语的解码算法的伪码。
图7示出前提假设间的弧的生成。
图8示出短语长度对性能的影响。
图9示出一例词法重量估算。
图10示出词法对性能的影响。
图11比较不同的启发式方法的性能。
详细描述
本说明中的系统和技术用来提供较有效精确的机译(MT)。在一些实施例中,机译系统形成短语到短语概率翻译词典。从双语语料库中用例如,并集概率模型或单词到单词条件模型自动学习概率翻译词典。
这些翻译词典便用来翻译新句。即,翻译词典用来翻译用来训练机译系统的语料库中没有的句子。翻译系统和技术包括优先策略、使用聚束解码器的方法或其它方法。
图1示出包括翻译模型105和解码器110的机译(MT)系统100。翻译模型105包括从双语语料库习得的翻译词典。翻译模型105假定可在单词层面及短语层面建立词汇对应。解码器110根据输入句用翻译词典提供译句。
短语到短语翻译词典形成。
根据一些实施例,模型105根据并集概率模型得到训练。即,模型105用包括并行的源语言串和目标语言串的并行语料库115自动生成翻译词典。模型105并不试图捕获源句如何映射进目标句,而是同时生成源句和目标句。换言之,翻译模型是并集概率模型,该并集概率模型可容易地边缘化以产生用于源至目标机译应用和目标至源机译应用的条件概率模型。
在一实施例中,模型105用以下随机过程生成句对:
1.生成一包概念C。
2.根据分配
Figure A0380701800051
对每个概念ci∈C生成短语对
Figure A0380701800052
其中
Figure A0380701800053
Figure A0380701800054
各含至少一词。
3.对每种语言的短语排序以生成短语的两线性序列;序列对应双语语料库中的句对。
简便起见,假定该包概念和对所生成的短语的排序按照均匀分布建模。还假定 c i = ( e → i , f → i ) . 在这些假定下,用概念ci∈C生成句对(E,F)的概率即所有短语到短语翻译概率的乘积 Π c i ∈ c ( e → i , f → i ) , 该乘积产生数包短语,这些数包短语可线性排序以获得句子E和F。
表2说明一例。句对“abc”-“xy”可用两概念(“ab”:“y”)和(“c”:“x”)或一概念(“abc”:“xy”)生成,因为在这两种情况下,每种语言的短语可按产生原始句对的序列排列。然而,不能用概念(“ab”:“y”)和(“c”:“y”)生成同一句对,因为不能从两短语“y”和“y”重新生成序列“xy”。类似地,句对可用概念(“ac”:“x”)和(“b”:“y”)生成,因为不能通过并置短语“ac”和“b”生成序列“abc”。
如果E和F可通过排列具有所有概念ci∈C的特点的短语
Figure A0380701800058
而获得,则概念C集可线性为句对(E,F)。我们用谓词L(E,F,C)表示该特性。在此模型下,将生成可线性为(E,F)的数包概念ci∈C的所有可能的方法相加而得到给定句对(E,F)的概率。
p ( E , F ) = Σ c = c | L ( E , F , C ) Π c i ∈ C t ( e → i , f → i )
上述模型(模型1)可有相当好的校准。不过,该模型不适于翻译未见句,因为它对与给定概念相关的短语的排序无限制。为说明之,开发了改进模型(模型2)以说明失真。该模型的生成过程为:
1.生成一包概念C。
2.初始化E和F以清除序列。
3.根据分布 (其中
Figure A03807018000512
各含至少一词)随机取概念ci∈C并生成短语对
Figure A03807018000513
然后从C除去ci
4.在F端附加短语
Figure A03807018000514
把k当作F中的起始位
Figure A03807018000515
5.如果无其他短语占据位置1或位置 ( 是短语 的长度),将短语插于E中的位置1处。系统因而以概率(d(i,j)是基于位置的失真分布)生成两短语
Figure A0380701800063
间的校准
Π p = k k + | f → | d ( p , ( l + | e → i | ) / 2 ) .
6.重复步骤3到5直至C为空。
在该模型中,生成句对(E,F)的概率由下式表示:
p ( E , F ) = Σ C ∈ | L ( E , F , C ) Π c i ∈ C [ t ( e i , f i ) × Π k = 1 | f → i | d ( pos ( f i k ) , pos cm ( e → i ) ) ]
其中,
Figure A0380701800066
表示句F中短语 的词k的位置,表示海量短语ei中心的句子E中的位置。
训练上述模型计算上具挑战性。由于有一指数个能生成句对(E,F)的校准,不能穷举地应用期望最大值(EM)训练算法。图3是将该问题考虑进去的基于短语的并集概率模型的训练算法300的流程图。
系统确定E和F中的高频(块305)。如果一开始便假定可从概念生成短语 e → i ∈ E * f → i ∈ F * , 则需一超级计算机以将对 分布建模的表存储于存储器中。因为系统未接入有无限内存的计算机,系统起初只对经常出现在语料库中的短语和学习t个分布目录。然后,通过平滑,系统也学习出现少的短语的t个分布目录。为在下一步算法得到考虑,一短语至少须在语料库中出现五次。
下一步是初始化t分布表(块310)。在EM训练过程开始前,我们不知道怎样的词对或短语对极有可能共享同一意义。换言之,假定能生成句对(E,F)的所有校准有相同的概率。在此情况下,句对(E,F)有助于由同一概念ci生成
Figure A03807018000611
的事实的证据是由校准数表示的,所述校准建于(E,F)间,且有一概念ci加以链接以对句E中短语
Figure A03807018000612
的和句F中的短语
Figure A03807018000613
(按两句间能建立的校准总数划分)短语化。这两数字都很容易约计。
如果是一词的句E,有S(1,k)种方法可将该一词分成k个非空集/概念,S(1,k)是第二种的Stirling数。
S ( l , k ) = 1 k ! Σ i = 0 k - 1 ( - 1 ) i k i ( k - i ) n
有S(m,k)种方法可将句F的m个词分成k个非空集。如果E中的词能映射到F中的词,则在长度分别为1和m的两句(E,F)间建立个校准 E k = 1 min ( l , m ) k ! S ( s ( l , k ) S ( m , k ) ) . 当概念生成长度分别是a和b的两短语
Figure A0380701800072
时,只有1-a和m-b个词留待链接。因此,缺失任何其他信息,由同一概念ci生成短语
Figure A0380701800074
的概率由下式表示:
Σ k = 1 min ( l - a , m - b ) k ! S ( s ( l - a , k ) S ( m - b , k ) Σ k = 1 min ( l , m ) k ! S ( s ( l , k ) S ( m , k )
需注意的是,由该式得出的小数计数只是系统感兴趣的t分布的近似值,因为第二种的Stirling数未附加于与给定概念有关的词使其连续。但是,由于该式对分子和分母同样评估过高,该近似值实际中工作正常。
在算法的第二步中,系统应用公式以就语料库中每个句对(E,F)中的短语定义的Cartesian乘积收集所有unigram和高频n-gram对。系统将所有这些t计数相加并规格化以获得一起始并集分布t。该步骤相当于对语料库中所有可能的校准在一步骤中执行EM算法。
在算法的第三步,系统在Viterbi校准上执行EM训练(块315)。如果是非均匀t分布,短语到短语校准有不同的权重,且无其他策略来在多项式时间内收集所有可能的校准的小数计数。从图3的算法的块315开始,对语料库中的每个句对,系统通过将短语链接起来来优先产生初始校准以生成高t概率的概念。系统通过突破和合并概念、在概念间对换词以及在概念上移动词来向最高概率的Viterbi校准爬山。系统计算与系统在爬山过程中生成的所有校准有关的概率并收集这些校准中所有概念的t计数。
系统将该基于Viterbi的EM训练过程用于数个迭代。第一迭代用模型1估算校准概率。其余迭代用模型2估算校准概率。
在训练期间,系统应用平滑以使系统能将非零值与语料库中不常出现的短语对联系起来。
训练过程结束时,系统取并集概率分布t和d的边缘(块320)。这产生条件概率分布 和d(posF|posE),系统用它们来解码。
当系统在图2的语料库上执行图3的训练过程时,在四个模型1迭代后,系统获得校准205和并集条件概率分布210。初步印象是,第一句对的Viterbi校准看起来不正确,因为人类有在可能的最小短语间建立校准的本能。然而,注意:我们的模型所作的选择是相当有道理的。毕竟,在缺少附加信息的情况下,该模型要么假定“a”和“y”所指相同,要么假定短语“abc”和“xy”所指相同。该模型选择在保持第一假定的某一概率海量的同时给第二假定较大权重。
还要注意:尽管并集概率将第二假定优先,条件分布则不。条件分布210同我们的直觉一致,该直觉告诉我们:将“abc”翻译成“xy”及将“a”翻译成“y”都是合理的。条件分布反映我们的直觉。
在可选实施例中,诸如图1的系统100的系统从词对词校准学习短语到短语翻译。即,诸如模型105的模型通过扩展词对词模型学习的词对词翻译词典开发短语翻译词典。短语翻译模型基于噪声信道模型。该系统用贝斯规则如下重组将外语句f译成英语e的翻译概率:
argmaxep(e|f)=argmaxep(f|e)p(e)
这考虑到语言模型p(e)和独立翻译模型p(f|e)。
解码(即翻译)期间,输入外语句f细分成I短语序列 系统假定对所有可能的细分都是均匀概率分布。
中的每个外语短语 译成英语短语
Figure A0380701800084
重新排序这些英语短语。短语翻译按概率分布
Figure A0380701800085
建模。因为贝斯规则,从建模观点看翻译方向得到逆转。
对输出英语短语的重新排序是按相对失真概率分布建模的,表示被译成第i个英语短语的外语短语的起始位,表示被译成第i-1个英语短语的外语短语的终止位。
用并集概率模型(诸如结合前述实施例所描述的)训练失真概率分布d(.)。或者,系统亦可使用参数α有一适当值的较简单失真模型 d ( a i - b i - 1 ) = a | a i - b i - 1 - 1 | .
为校准输出长度,系统除三字母组外还为每个生成的英语词引入因子ω。这是优化性能的简单手段。通常,该因子大于1,偏离较长输出。
概括地说,输入英语句f按照该模型的最佳输出英语句是:
Ebest=argmaxep(e|f)
     =argmaxep(f|e)pLM(e)ωlength(e)
其中,p(f|e)分解为:
p ( f ‾ 1 I | e ‾ 1 I ) = Π i = 1 I φ ( f ‾ i | e ‾ i ) d ( a i - b i - 1 )
开发工具包用来从并行语料库训练基于词的翻译模型。作为副产品,它生成该数据的词校准。系统用许多启发式改进该校准。系统收集与词校准一致的所有校准短语对。合法短语对中的词只相互校准,而不与外面的词校准。在所收集的短语对的情况下,系统用相对频率估算短语翻译概率分布:
φ ( f ‾ | e ‾ ) = count ( f ‾ | e ‾ ) Σ f ‾ count ( f ‾ | e ‾ )
在一些实施例中,执行平滑。
如果系统收集与词校准一致的所有短语对,则包括许多非直观短语。例如,学习诸如“house the”的短语的翻译。直观上系统会相信这样的短语无用。将可能的短语限定于受句法激励的短语可过滤掉这样的非直观对。
评价只包含句法短语的短语翻译模型的性能的另一动机来自近来建立句法翻译模型的努力。在这些模型中,将对词的重新排序限定于对构建良好的句法分析树的成分的重新排序。当向这样的模型增加短语翻译时,通常只能翻译跨整个句法子树的短语。了解这是否有益的限制是重要的。
系统将一句法短语定义为一由句法分析树中的单一子树覆盖的词序列。我们如下收集句法短语对:系统词校准并行语料库,如上述。然后系统用句法分析程序分析语料库的两侧。对与词校准一致的所有短语对,系统还查验这两个短语是否句法树的子树。这样的短语才包括在模型中。因此,所学受句法激励的短语对是不了解句法所学短语对的子集。短语翻译概率分布用相对频率估算。
图8显示不同最大短语长度的试验结果。使用与词校准一致的所有短语(AP)。如图8所示,将每个短语限定于最多三词的长度性能最佳。学习更长的短语不见改进。然而,将长度限制减至两词是有害的。考虑到更长的短语增加短语翻译表大小。该增加几乎与最大长度限制是线性的。这些模型大小未有导致存储问题的。
系统通过检验词互译的好坏来验证短语翻译对的质量。为此,使用词法翻译概率分布。该分布用根据与短语模型相同的词校准的相对概率来估算:
w ( f | e ) = count ( f , e ) Σ f ′ count ( f ′ , e )
特别的英语零记号加于每个英语句并与每个未校准的外语词校准。
在给定短语对 f, e和外语词位I-1,……,n与英语词位j=0、1、……、m间的词校准a的情况下,系统如下计算词汇权重pw
Figure A0380701800101
图9示出一例。
如果短语( f, e)对有多个校准,系统使用具最大词汇权重的校准:
pw( f| e)=maxapw( f| e,a)
系统在翻译期间将词汇权重Pw用作附加因子。这意味着模型p(f|e)扩展为:
p ( f ‾ 1 I | e ‾ 1 I ) = Π i = 1 I φ ( f ‾ i | e ‾ i ) d ( a i - b i - 1 ) p w ( f ‾ i | e ‾ i , a ) λ
参数定义词汇权重的长度Pw。该参数的良好值是约0.25。
图10示出词汇权重对机译性能的影响。在我们的试验中,系统在BLEU计分表上有最高0.01的改进。
有词汇权重的短语翻译是每词有一词级的校准模板模型的特例。系统执行的简化的优点在于:词汇权重可事先作为因子进入短语翻译表,加快解码。与校准模板模型的束搜索解码器不同的是,图5和图6描述的解码方法能搜索输入句的所有可能的短语细分,而非在解码前选择一细分。
在试验中,系统根据按生成的词校准学习短语对。该工具包执行的IBM模型只允许一英语词至多与一外语词校准。系统用启发式方法矫正该问题。
首先,系统双向(即,外语到英语及英语到外语)校准并行语料库。这使得系统试图使两词校准和谐。如果系统横断这两校准,系统获得高置信度校准点的高精度校准。如果系统取这两校准的并集,系统获得有附加校准点的高查全率校准。
横断和并集间的空间是始于横断并添加附加校准点的扩展启发式。判定添加哪些点取决于许多范畴,例如:哪一个校准存在潜在校准点(外英或英外)吗,潜在点邻是否已建点,相邻是否意味直接紧邻(块距)抑或对角线紧邻,目前潜在点相连的英语词或外语词是否尚未校准,是否两者皆未得到校准及潜在点的词法概率。
系统始于所述两词校准的横断。系统只添加存在于两词校准的并集中的新校准点。系统亦一直要求一新校准点连接至少一之前未校准的词。
首先,系统扩展至只直接紧邻校准点。系统检验始于校准矩阵右上角的潜在点,检验第一英语词的校准点,并继续于第二英语词的校准点等等。这迭代地进行,直到不再添加校准点。在最后一步,系统添加非紧邻校准点,否则用相同的要求。
图11示出该启发式(基础)的性能,并与两单一方向校准(e2f,f2e)及其并集(union)相比。该图还包含基启发式的两修正:在第一(diag)系统还允许迭代扩张阶段中的对角线相邻。在其变体(diag-and)中,系统在最后一步要求两词都未得到校准。
这些不同的方法的排列因训练语料库大小的不同而不同。例如,校准f2e对10000句对语料库起初倒数第二,但最终对320000句对却是有竞争力的最好方法。基启发式起初最好,但随后衰落。最好与最差方法的不同相当大,大约是0.2BLEU(IBM计分系统),这是对几乎所有训练语料库大小,虽然并非总是明显。
解码
一些实施例中的基于短语的解码器使用束搜索算法。以部分翻译(或假设)的形式从左至右生成英语输出。
在初始状态(未翻译输入外语词且未生成输出英语词),系统开始搜索可能的译文。用对一些未译的输入外语词的短语翻译扩展英语输出来生成新状态。新状态的当前成本是随翻译倍增的原始状态、失真和所添加的短语翻译的语言模型成本。
每个搜索空间(假定)表示为:(a)对最佳此前状态的回链接,(b)目前覆盖的外语词,(c)生成的(计算未来语言模型成本所需)最后两英语词,(d)所覆盖的最后外语短语(计算未来失真成本所需)的终端,(e)最后添加的英语短语(从假定路径读译文所需),(f)目前成本及(g)未来成本估算。
搜索中的最后状态是覆盖所有外语词的假定。其中成本最小的假定选为最佳译文。
两假定可合并,如果它们在以下一致:(a)目前覆盖的外语词,(b)生成的最后两英语词及(c)所覆盖的最后外语短语的终端。
如果有两个使两假定在这些特性上一致的路径,系统保存较便宜路径,例如目前成本较低的假定。其他假定不可能是至最佳译文的路径的部分,系统可安全地丢弃之。注意:较差假定可以是至第二最佳译文的路径的部分
图5是根据一实施例描述基于短语的解码操作500的流程图。描述该操作的算法见图6。系统始于初始空假定。用短语的译文从现有假定扩展新假定。选择一未译外语词序列及其可能的英语短语译文(块505)。英语短语附于现有英语输出序列(块510)。将外语词标记为已译并更新假定的概率成本(块515)。无未译外语词的最便宜(最高概率)最终假定是搜索的输出(块520)。
这些假定存于栈中。栈含有m个外语词得到翻译的所有假定。系统可重组搜索假定。尽管这某种程度上减少存于每个栈中的假定数量,栈大小随输入句长度成指数级增长。这使得穷尽搜索不可能。
这样,系统根据弱假定目前引发的成本和未来成本估算剪除弱假定。对每一个栈,系统只保存一束最佳的n个假定。由于未来成本估算不完美,导致搜索差错。我们的未来成本估算考虑估算的短语翻译成本,但未考虑预期失真成本。
对句中任一处的每一个可能的短语译文(称为译文选项),系统将其短语翻译概率乘所生成的英语短语的语言模型概率。作为语言模型概率,系统对第一词使用单字母词概率,对第二词使用双字母词母字概率,对随后所有词使用三字概率。
有了翻译选项的成本,系统通过动态编程计算任一连续外语词序列的估算未来成本。注意:这只是可能性,因为系统忽略失真成本。由于长度为n的输入外语句只有n(n+1)/2个这样的序列,系统事先预计算这些成本估算并将其存于表中。
翻译期间,未覆盖外语词的未来成本可通过查询该表得到快速计算。如果一假定已突破未译外语词序列,系统查寻每个序列的成本并取其积。
束搜索期间生成的假定的空间形成路径格,各自表示一译文(翻译计分可容易地计算)。将n个最佳路径从这样的格中析取是一得到很好研究的问题。
当从中可导出多个新假定的一假定有多个译文选项时,路径扩展范围。合并假定时,路径交汇。如上所述,如果一假定在一些相同特性上与较低成本假定一致,系统丢弃之。为保存关于合并路径的信息,系统记录这样的合并:包含前一假定的识别符、较低成本假定的识别符及从前一假定到较高成本假定的成本。
图7给出生成这样一个弧的例子。在该例中,如上所详述,假定2和4在启发式搜索方面是等价的。因而,删除假定4。但为保留从假定3至假定2的路径的信息,系统存储对弧705的记录。该弧还含有从假定3至4所添加的成本。注意:从假定1至假定2的成本不必存储,因为可从假定数据结构重新计算之。
束大小,例如每栈中假定的最大数目,可定为某一数目。译文选项数目同句长成线性关系。因此,束搜索的时间复杂性与句长成二次关系,同束大小成线性关系。
由于束大小限制搜索空间并因而限制搜索质量,系统须在速度(低束大小)和性能(高束大小)间找到合适的平衡。在试验中,束大小只为100便足够。对于较大束大小,只有数个句子译地不同。解码器在2GHz Linux系统上约10分钟翻译长度为5至15词的句子1755个。系统在保证高质量的同时,实现了快速解码。
在一些实施例中,诸如图1的解码器110的解码器执行优先过程。以外语句F为例,解码器首先通过为中的短语选择概率P(E,F)对其注释。解码器随后迭代爬山,修改E和E与F间的校准以最大化规则。解码器通过经本地修改所建校准/翻译的一组操作而修改现有校准/翻译直至给定时间来爬山。这些操作将校准的英语侧用不同概率的短语替换,合并和突破现有概念,并在概念间互换词。概率p(E)用简单三字语言模型计算。语言模型在词(而非短语)级得到估算。图3示出解码器为发现句的译文而采取的步骤。图4中的每个中间译文405在其概率410后并后续以将其改变以产生较高概率的译文的操作。
已描述许多实施例。然而,可以理解的是,可不脱离本发明的精神和范围地做各种修改。例如,流程图中的块可跳过或打破顺序执行而结果仍理想。可使用不同的翻译方法。因此,其它实施例在下列权利要求的范围内。

Claims (2)

1.一种方法,其特征在于,包括:
采用包括多个两种语言间的并列文本的并列语料库训练基于短语的连接概率模型。
2.一种如权利要求1所述的方法,其特征在于,还包括:
确定包括E和F的句子对中的高频n字;
用校准初始化t分布表;
对多个迭代执行基于Viterbi的EM训练;及
导出并集概率模型和条件概率模型。
CNA038070189A 2002-03-27 2003-03-27 统计机译中短语化联合概率模型的短语 Pending CN1643512A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36845002P 2002-03-27 2002-03-27
US60/368,450 2002-03-27

Publications (1)

Publication Number Publication Date
CN1643512A true CN1643512A (zh) 2005-07-20

Family

ID=28675493

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038070189A Pending CN1643512A (zh) 2002-03-27 2003-03-27 统计机译中短语化联合概率模型的短语

Country Status (11)

Country Link
US (1) US7454326B2 (zh)
EP (1) EP1488338B1 (zh)
JP (1) JP2005521952A (zh)
CN (1) CN1643512A (zh)
AT (1) ATE465457T1 (zh)
AU (1) AU2003220606A1 (zh)
CA (1) CA2480398C (zh)
DE (1) DE60332220D1 (zh)
ES (1) ES2343786T3 (zh)
HK (1) HK1072987A1 (zh)
WO (1) WO2003083710A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
CN109564591A (zh) * 2016-09-09 2019-04-02 松下知识产权经营株式会社 翻译装置以及翻译方法

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
WO2006133571A1 (en) * 2005-06-17 2006-12-21 National Research Council Of Canada Means and method for adapted language translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8886514B2 (en) * 2006-08-18 2014-11-11 National Research Council Of Canada Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8788258B1 (en) * 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
TWI386822B (zh) * 2007-09-05 2013-02-21 Shing Lung Chen 建置多語翻譯資料庫內容之方法
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8407042B2 (en) * 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US8423349B1 (en) 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8768852B2 (en) 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
JP5407737B2 (ja) * 2009-10-16 2014-02-05 富士通セミコンダクター株式会社 モデル生成プログラム、モデル生成装置、およびモデル生成方法
CA2781547A1 (en) 2009-11-23 2011-05-26 The Ohio State University Materials and methods useful for affecting tumor cell growth, migration and invasion
US8229929B2 (en) 2010-01-06 2012-07-24 International Business Machines Corporation Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
US8589396B2 (en) * 2010-01-06 2013-11-19 International Business Machines Corporation Cross-guided data clustering based on alignment between data domains
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8612205B2 (en) 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8612204B1 (en) * 2011-03-30 2013-12-17 Google Inc. Techniques for reordering words of sentences for improved translation between languages
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8903707B2 (en) 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
CN104685065B (zh) 2012-01-20 2017-02-22 俄亥俄州立大学 浸润性和预后的乳腺癌生物标志物标签
US9465797B2 (en) 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130325436A1 (en) * 2012-05-29 2013-12-05 Wright State University Large Scale Distributed Syntactic, Semantic and Lexical Language Models
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9786269B2 (en) 2013-03-14 2017-10-10 Google Inc. Language modeling of complete language sequences
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10025778B2 (en) 2013-06-09 2018-07-17 Microsoft Technology Licensing, Llc Training markov random field-based translation models using gradient ascent
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9582499B2 (en) 2014-04-14 2017-02-28 Xerox Corporation Retrieval of domain relevant phrase tables
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US9836453B2 (en) 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3686758A4 (en) * 2017-10-09 2020-12-16 Huawei Technologies Co., Ltd. VOCAL AND TERMINAL INFORMATION PROCESS AND DEVICE
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111626064A (zh) * 2019-02-26 2020-09-04 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
CN116933802A (zh) * 2023-09-15 2023-10-24 山东信息职业技术学院 基于人工智能的自动翻译管理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
CN109564591A (zh) * 2016-09-09 2019-04-02 松下知识产权经营株式会社 翻译装置以及翻译方法

Also Published As

Publication number Publication date
ES2343786T3 (es) 2010-08-10
JP2005521952A (ja) 2005-07-21
EP1488338B1 (en) 2010-04-21
EP1488338A2 (en) 2004-12-22
WO2003083710A2 (en) 2003-10-09
HK1072987A1 (en) 2005-09-16
AU2003220606A1 (en) 2003-10-13
DE60332220D1 (de) 2010-06-02
US20040030551A1 (en) 2004-02-12
WO2003083710A3 (en) 2004-08-12
AU2003220606A8 (en) 2003-10-13
ATE465457T1 (de) 2010-05-15
CA2480398C (en) 2011-06-14
US7454326B2 (en) 2008-11-18
CA2480398A1 (en) 2003-10-09

Similar Documents

Publication Publication Date Title
CN1643512A (zh) 统计机译中短语化联合概率模型的短语
US7698124B2 (en) Machine translation system incorporating syntactic dependency treelets into a statistical framework
CN1591415A (zh) 机器翻译装置以及机器翻译计算机程序
CN101065746A (zh) 文件自动丰富的方法和系统
CN1171199C (zh) 基于语言模型的信息检索和语音识别
CN1134730C (zh) 用于减少预装类的脚印的系统和方法
JP5586817B2 (ja) ツリーレット翻訳対の抽出
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读系统和方法
CN1815477A (zh) 用于提供基于标记语言的限定词的方法和系统
CN1475907A (zh) 基于例子的机器翻译系统
CN1503161A (zh) 获悉词组之间的转换关系的统计方法和装置
CN1940915A (zh) 训练语料扩充系统和方法
CN1490744A (zh) 检索确认句的方法和系统
CN1387651A (zh) 词典、分段和语言模型联合优化的系统和迭代方法
CN1945562A (zh) 训练音译模型、切分统计模型以及自动音译的方法和装置
CN1801141A (zh) 一种基于现有译文的储存库的翻译方法及设备
CN1519751A (zh) 生成结构模式候选对象的方法、系统和程序
CN1661593A (zh) 一种计算机语言翻译方法及其翻译系统
CN1744087A (zh) 搜索文档的文档处理装置及其控制方法
CN1934565A (zh) 机器翻译系统、机器翻译方法和程序
CN1916889A (zh) 语料库制作装置及其方法
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
CN101075230A (zh) 一种基于语块的中文机构名翻译方法及装置
CN1256650C (zh) 一种中文整句输入法
CN1232920C (zh) 将文本输入与词汇知识库相匹配并利用匹配结果的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication