CN1647068A - 统计机器翻译 - Google Patents

统计机器翻译 Download PDF

Info

Publication number
CN1647068A
CN1647068A CNA038070278A CN03807027A CN1647068A CN 1647068 A CN1647068 A CN 1647068A CN A038070278 A CNA038070278 A CN A038070278A CN 03807027 A CN03807027 A CN 03807027A CN 1647068 A CN1647068 A CN 1647068A
Authority
CN
China
Prior art keywords
piece
instruction
sentence structure
word
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038070278A
Other languages
English (en)
Inventor
P·克伊赫恩
K·克奈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of CN1647068A publication Critical patent/CN1647068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

一种方法包括检测第一语言的源串中的句法块,将句法标签分配给源串中被检测的句法块,将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签,以及将源串翻译成第二语言的可能翻译。

Description

统计机器翻译
相关申请对照
本申请要求2002年3月28日提交的美国临时申请序号No.60/368851的优先权,在此全文并入以供参考。
发明起因
本申请中描述的研究和开发在准许号N66001-00-1-8914下由DARPA-ITO支持。美国政府可以具有所要求的本发明的某些权利。
背景
机器翻译(MT)是自动翻译,例如使用计算机系统从第一语言(“源”语言)翻译成另一种语言(“目标”语言)。执行MT过程的系统被称为将源语言“解码”成目标语言。从最终用户的观点来看,MT过程是相对直接的。MT过程接收作为输入的源句子(或者单词的“串”)并在处理该输入句子后输出目标语言的翻译句子。
一种类型的MT过程被称作统计MT解码器。常规统计MT解码器可以包括语言模型(LM)和翻译模型(TM)。
概述
根据本发明的一个方面,一种方法包括在第一语言的第一串中检测句法块,将句法标签分配给第一串中被检测的句法块,将第一串中被检测的句法块与第二语言串中的句法块对准,所述对准基于被分配的句法标签,以及将来自第一串的每个单词翻译成对应于第二语言中可能的翻译的第二单词。
还可以包括一个或多个以下特点。根据标记给至少两个单词的词性标识符来分组来自第一串的这至少两个单词。限定源串中被检测的句法块和第二串中的块之间的连接。根据块映射表确定连接,该块映射表使用基于句法块标签的预先限定的连接。限定第一串的被检测块与目标串中的至少两个非相邻块之间的连接。限定源串的至少两个被检测块到目标串中的单个块的连接。
附图概述
图1是语言统计翻译(LST)过程的流程图。
图2示出实例性的源和目标句子。
图3示出与图2的句子相对应的句子层次块重新排序表。
图4示出与图2-3相对应的块映射对准表。
图5示出与图1-4相对应的单词翻译。
图6示出LST过程的第二实施例。
具体实施方式
这里描述的统计MT系统可以被模拟成三个分开的部分:(1)将概率P(e)分配给单词的任何目标串的语言模型(LM),(2)将概率P(f|e)分配给目标和源串的任何对的翻译模型(TM),以及(3)根据LM和TM的被分配概率确定翻译的解码器。
常规MT系统可以通过进行一连串基于单词的判定将源句子翻译成目标句子。基于单词的判定可以包括翻译判定,其中每个源单词都被翻译成目标单词。也可以为每个被翻译单词执行映射(“对准”)判定,例如根据被翻译源单词的被确定的丰度将多个源单词映射到单个目标单词。也可以执行重新排列(“变形”)判定,例如将源句子的单词序列重新排列成相应的目标句子中的被翻译的单词。翻译、映射和变形判定基于在翻译过程期间确定的权重概率。
某些源句子引起翻译的挑战,它们不能通过常规基于单词的MT系统得到良好的处理。例如,翻译挑战包括短语的翻译、出于句法原因重新组织句子以及将非相邻单词翻译成目标句子中的单个单词或短语。
图1描述了一种语言统计翻译模型(LST)过程10,它包括接收要翻译源句子(15),为源句子中的每个源单词分配“词性”(POS)标记(20),以及检测源句子中包含的句法“块”(30)。LST过程10还包括动作(40)、(50)和(60),它们部分基于被分配的POS标记和/或被检测的句法块。过程10中POS标记和/或句法块的使用允许改善源到目标句子的翻译,以及部分改善前述翻译挑战的串翻译。
POS标记涉及表示单词类型的识别符号,例如“VVFIN”符号可以被标记为限定动词。可以用于过程10中的一组实例性POS标记被称作“Penn Treebank Tag set”,并描述于Mitchell P.Marcus,Beatrice Santorini和Mary Ann Marcinkiewicz:“Building a Large Annotated Corpus of English:The Penn Treebank”,inComputational Linguistics,卷19,号2(1993年6月),pp.313-330(SpecialIssue on Using Large Corpora),在此全文并入以供参考。
分块涉及非递归(non-recursive)的动词、名词、介词或句子中的其它短语的分组。分块可以包括检测源句子中的分组和目标句子中块组合的输出。在Abney,S.(1991)“Parsing by chunks(通过块分析)”Robert Berwick,Steven Abney和Carol Tenny:Principle-based Parsing(基于原理的分析).Kluwer AcademicPublishers中讨论了分块的概念。
仍旧参考图1,LST过程10包括接收要翻译的输入源句子(15),用POS标记来标记源句子中的每个单词(20),检测每个源句子中的句法块(例如,短语)(30),句子层次块的重新排序(40),将被检测的源块映射到目标句子中的目标块(50),以及将每个单词从源翻译到目标句子(60)。可以采用可选的目标语言模型(70)进一步改进通过动作(60)产生的单词翻译。
图2示出实例性的源句子100,其中每个单词都具有动作(20)中生成的相关POS标记110-116,以及动作(30)中生成的被检测句法块101-105。被检测的块101-105还分别包括句法标签,例如“N,V,N,V和!”。句法标签涉及用于被检测块的句子的句法部分,例如,“N”可以表示基本名词短语,“V”可以表示动词复合,“P”可以表示基本介词短语,“A”可以表示形容词,“F”可以表示功能词,而“!”可以表示标点。
句子层次块的重新排序(40)限定每个源块101-106和将包含于目标句子150中的相应目标块130-134之间的连接120-125。在许多情况下,相对于源块重新排序目标块。该重新排序可以基于限定被检测句法块和目标句子中相应的句法块之间可能连接的模板。连接可以是单值或多值的(例如,一对一、多对多、或者一对多等等)。图3示出块连接表160,它表示源块101-105与目标块130-134之间的连接120-125,与图2中示出的那些相对应。
图4示出块映射表170、180、190和200,它们表示通过过程10的活动(50)产生的块映射,如应用于实例性句子100的那样。块映射涉及每个源块到目标块的对准并可以按照源块中的单词和目标块中的单词的POS标记参考。例如,如表170所示,源POS标记110(“ART”)和111(“NN”)被对准到目标POS标记140(“DT”)和141(“NNP”)。块映射可以将多个块(“复合块”)映射到单个块或其它复合块。例如,如表190所示,源块103被对准到包含目标块130和131的复合块。来自源句子110的非相邻块可以被组合成单个块,例如,如表180所示,将块102和104组合成目标块132。
如前所述,可以用被分配的句法块标签来“标注”每个复合块。该标注可以允许改善句子层次的块重新排序,因为句法标签可以识别它们在句子中的句法作用。
随后,过程10将来自源语言句子的源单词翻译成目标语言句子的单词(60)。可以部分根据分配给相应源单词的词性(通过块映射选择)来确定单词翻译,例如限制与分配的POS标记相对应的单词的选择。图5描述了来自过程10的活动(60)的执行,例如描述了与图1-4所示的实例相对应的单词翻译。
在实施例中,代替通过单个单词翻译生成目标语言单词,可以通过准确的短语查找翻译复合块。更详细地,如果确定整个源块是已知短语,整个源块就可以被翻译为已知短语。例如,如图2所示,如果源块103“der Agrarausshuss”中包含的单词是已知短语,则可以将其直接翻译为目标块130-131“the sub-committeefor agriculture”中的单词。准确的短语查找允许使用惯用短语的翻译,这是基于单词的翻译所不容易翻译的。
过程10可以包括可选的目标语言模型(70),它被执行来提供对目标句子的附加的流畅性改善。
过程10的数学公式化
可以数学地模拟LST过程10的操作,例如基于一组概率判定来模拟。以下过程10的数学模型包括按照噪声信道模型(noisy channel model)的公式化。更详细地,这意味着代替直接估计p(e|f)(例如,用于输入串f的最佳翻译e),将贝斯法则应用于使p( f|e)xp(e)最大化。因此,这将模型分成两个部分:翻译部分p(f|e)和语言模型p(e)。对于语言部分,可以使用三字母组语言模型。
翻译部分被分解成句子层次重新排序(SLR)、块映射(CM)和单词翻译(W),并用以下的概率等式模拟:
P(f|e)=p(SLR|e)x∏ip(CMi|e,SLR)x∏jp(Wij|CMi,SLR,e)
由于POS标记和分块是确定性的,e不仅表示目标串的单词,还表示它们的POS和分组为块。可以使用模板执行句子层次块重新排序(SLR)和块内的单词重新排序(CM),例如使用表示来自图3和4所示的表的信息的模板。可以使用逐字翻译表来完成单词翻译(W)。
由于稀少的数据,直接应用以上三个概率等式是有问题的。因此,可以如下地简化三个附条件的概率分配:
p(SLR)可以仅以每个目标块标签序列为条件;
p(CMi)可以仅以有关源和目标块标签,以及目标POS标记为条件;
p(Wij)可以仅以有关目标POS标记和单词为条件。
块映射中的每个单词对准以单词翻译概率为因素。未对准的源单词以概率p(fk|ZFERT,fposk)为因素。未对准的目标单词以概率p(NULL|ek,fposk)为因素。
代替将块映射分解成单词翻译,可以执行直接短语查找,它是通过以下等式模拟的:
p(Wi1,...,Win|CMi,SLR,e)
可以使用所谓的相似文集(parallel corpus)方法确定用于单词对准的参数,在该方法中,源语言串中的文本(第一文集)被对准到目标语言串中的被翻译文本(第二文集)。这些对准建立了源串中的源单词和目标串之间的对应。相似文集的两侧也可以被POS标记或被分块。
可以使用相似文集方法确定块映射,例如如果源块和目标块包含相互对准的源单词和目标单词,则可以连接这两个块。没有包含对准单词的块可以根据一组规则被附着到其它块,例如如果未对准,副词被附加到以下的动词块,或者如果未对准,逗号被附着到以下的功能词,等等。
随后可以在任何块对准上执行传递闭包(transitive closure),例如使用以下的规则组:如果块fi与ex对准,fj与ex对准,且块fi与ey对准,则块fj就被认为与ey对准,即使它们没有包含任何相互对准的单词。传递闭包确保源句子和目标句子中复合块之间的一对一映射。
根据以上公式对应相似文集允许对单词翻译(包括p(fk|ZFERT,fposk)和p(NULL|ek,fposk))、复合块映射以及句子层次重新排序的要收集的统计。随后,通过最大可能性估计收集附条件的概率分配。由于用于准确的短语查找的数据是高度有噪声的,可以使概率平滑。
在实施例中,模型的翻译部分(例如,“解码”)可以以两个步骤执行:第一,生成用于每个句子层次块重新排序的句子层次模板(SLT)。第二,从左向右每次一个单词地构成目标翻译。对于每个给定的源块序列,为最高的n个SLT重复以上内容。最终,选择具有总的最好分数的翻译作为系统输出。
对于给定句子层次模板(SLT)的目标句子的构建可以通过使用动态编程的Viterbi查找实现。在这种情况中,按需要选择块映射模板。随后,使用逐字翻译表和语言模型填充单词空位。在每个复合块的末端,丢弃关于使用哪个块映射模板的信息。在某些实施中,目标串的构建可以包括NULL单词的插入。
但是,对于每个部分翻译(或假设),维持以下信息:
-创建的最近的两个单词(语言模型需要);
-如果未完成,当前块映射模板;
-当前分数(‘分数’涉及部分翻译判定、块映射判定等的组合的概率的乘积);
-到最佳路径的向后指针;
-最后块的位置;
-块内创建的最后单词的位置;
-“堆叠的块映射模板”
堆叠的块映射模板涉及当分离的复合块被填充到目标翻译中时所需的信息:例如,如果SLT要求创建“V+P”块,其中在“V”和“P”之间具有附加内容。在这种情况中,关于所选择的块映射模板的信息必须维持于“V”和“P”之间,直到它被完全填充。
目标句子中任何给定位置处假设空间的复合性可以表示为O(V2C1+s),其中V是词汇大小,C是可应用的块映射模板的数量,且s是堆叠的块映射模板的数量。
可以通过将翻译限制于目标语言中的邻接复合块来简化模型,它消除了对堆叠的块映射模板的需要。在任何给定位置处,这将复合性等式简化为O(V2C)。关于句子长度,这还确保解码具有线性的复合性。
图6示出LST过程100的实施例,它根据以上讨论的等式和公式模拟。在该实例中,LST过程100包括环(135、140、150、160和170),对于n个不同句子层次模板,该环重复n次。
已描述了大量实施例。然而,将理解,可以进行各种修改而不背离本发明的精神和范围。例如,翻译成多个目标单词的源单词会引起块映射错误。通过添加丰度特点或者进一步预先处理复合名词可以避免或减少这种类型的错误。作为另一个实例,通过使用概率单词翻译方法(例如,“T-Table”翻译方法)可以执行单词翻译。作为另一个实例,没有足够的统计来可靠地估计句子层次模板(SLT)。因此,可以使用其它估计,例如从句层次模板,或者使用将句子层次块翻译步骤分解成大量块分段和翻译判定的方法。
因此,其它实施例也在以下权利要求书的范围内。

Claims (22)

1.一种方法,其特征在于,包括:
检测第一语言的源串中的句法块;
将句法标签分配给源串中被检测的句法块;
将源串中被检测的句法块映射到第二语言的目标串中的句法块,所述映射基于所分配的句法标签;以及
将源串翻译成第二语言的可能的翻译。
2.如权利要求1所述的方法,其特征在于,分配句法标签的步骤包括根据标记给源串中的单词的词性标识符进行分配。
3.如权利要求1所述的方法,其特征在于,进一步包括限定源串中被检测的句法块和目标串中的块之间的连接。
4.如权利要求3所述的方法,其特征在于,限定连接的步骤包括根据块映射表确定连接,该块映射表使用根据句法块标签预先限定的连接。
5.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的被检测块与目标串中至少两个非相邻块之间的连接。
6.如权利要求3所述的方法,其特征在于,限定连接的步骤包括限定来自源串的至少两个被检测的块到目标串中的单个块的连接。
7.如权利要求1所述的方法,其特征在于,翻译包括纳入与源串中的单个单词相对应的目标串中的至少两个单词。
8.如权利要求1所述的方法,其特征在于,翻译包括翻译短语。
9.如权利要求1所述的方法,其特征在于,进一步包括:
将语言模型应用于源串,该语言模型基于目标串的语言。
10.如权利要求1所述的方法,其特征在于,进一步包括:
确定所述映射的概率。
11.如权利要求1所述的方法,其特征在于,翻译包括在目标串中插入至少一个NULL单词。
12.一种包括含机器可执行指令的机器可读介质的制品,该指令用于使得机器:
检测第一语言的源串中的句法块;
将句法标签分配给源串中的被检测句法块;
使源串中被检测的句法块与第二语言串中的句法块对准,所述映射基于所分配的句法标签;以及
将源串的每个单词翻译成与第二语言的可能翻译相对应的第二单词。
13.如权利要求12所述的制品,其特征在于,用于使得机器分配句法标签的指令包括用于根据标记给源串中的单词的词性标识符使得机器分配句法标签的指令。
14.如权利要求12所述的制品,其特征在于,进一步包括指令,它用于使得机器限定源串中被检测的句法块与目标串中的块之间的连接。
15.如权利要求14所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器根据块映射表确定连接的指令,该块映射表使用基于句法块标签的预先限定的连接。
16.如权利要求14所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器限定源串的被检测块与目标串中的至少两个非相邻块之间的连接的指令。
17.如权利要求3所述的制品,其特征在于,用于使得机器限定连接的指令包括用于使得机器限定源串的至少两个被检测块到目标串中的单个块的连接的指令。
18.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器包括与源串中的单个单词相对应的目标串中的至少两个单词的指令。
19.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器翻译短语的指令。
20.如权利要求12所述的制品,其特征在于,进一步包括指令,它们用于使得机器:
将语言模型应用于源串,该语言模型基于目标串的语言。
21.如权利要求12所述的制品,其特征在于,进一步包括指令,它们用于使得机器:
确定所述映射的概率。
22.如权利要求12所述的制品,其特征在于,用于使得机器翻译的指令包括用于使得机器在目标串中插入至少一个NULL单词的指令。
CNA038070278A 2002-03-28 2003-03-28 统计机器翻译 Pending CN1647068A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36885102P 2002-03-28 2002-03-28
US60/368,851 2002-03-28

Publications (1)

Publication Number Publication Date
CN1647068A true CN1647068A (zh) 2005-07-27

Family

ID=28675546

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038070278A Pending CN1647068A (zh) 2002-03-28 2003-03-28 统计机器翻译

Country Status (6)

Country Link
US (1) US7624005B2 (zh)
JP (1) JP2005527894A (zh)
CN (1) CN1647068A (zh)
AU (1) AU2003222126A1 (zh)
DE (1) DE10392450T5 (zh)
WO (1) WO2003083709A2 (zh)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) * 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US8600728B2 (en) * 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
EP1894125A4 (en) * 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US7827028B2 (en) * 2006-04-07 2010-11-02 Basis Technology Corporation Method and system of machine translation
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8209162B2 (en) * 2006-05-01 2012-06-26 Microsoft Corporation Machine translation split between front end and back end processors
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
US8407042B2 (en) 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8612205B2 (en) 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
KR101745349B1 (ko) * 2010-09-02 2017-06-09 에스케이플래닛 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
TWI434187B (zh) * 2010-11-03 2014-04-11 Inst Information Industry 文字轉換方法與系統
CN102486770B (zh) * 2010-12-02 2014-09-17 财团法人资讯工业策进会 文字转换方法与系统
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
US9836453B2 (en) 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US10769307B2 (en) 2018-05-30 2020-09-08 Bank Of America Corporation Processing system using natural language processing for performing dataset filtering and sanitization
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JP3345763B2 (ja) 1994-03-04 2002-11-18 日本電信電話株式会社 自然言語翻訳装置
JPH1011447A (ja) 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JP3430007B2 (ja) 1998-03-20 2003-07-28 富士通株式会社 機械翻訳装置及び記録媒体

Also Published As

Publication number Publication date
DE10392450T5 (de) 2005-04-21
US7624005B2 (en) 2009-11-24
WO2003083709A2 (en) 2003-10-09
JP2005527894A (ja) 2005-09-15
AU2003222126A1 (en) 2003-10-13
WO2003083709A3 (en) 2004-09-10
US20040024581A1 (en) 2004-02-05

Similar Documents

Publication Publication Date Title
CN1647068A (zh) 统计机器翻译
Seddah et al. Overview of the SPMRL 2013 shared task: A cross-framework evaluation of parsing morphologically rich languages
CA2408819C (en) Machine translation techniques
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
Och Statistical machine translation: From single word models to alignment templates
CN1770107B (zh) 提取小树转换对
Durrani et al. A joint sequence translation model with integrated reordering
KR101130457B1 (ko) 트리렛 번역쌍 추출
US20090106015A1 (en) Statistical machine translation processing
US7865352B2 (en) Generating grammatical elements in natural language sentences
CN108563629B (zh) 一种日志解析规则自动生成方法和装置
CN1877531A (zh) 一种嵌入式编译体系扫描器的实现方法
KR20080052282A (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
Simard Translation spotting for translation memories
CN1542648A (zh) 用于词分析的系统和方法
Callison-Burch et al. Co-training for statistical machine translation
Graën Exploiting alignment in multiparallel corpora for applications in linguistics and language learning
KR101777421B1 (ko) 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
Fishel et al. Automatic translation error analysis
Forcada et al. Documentation of the open-source shallow-transfer machine translation platform Apertium
Kuboň Problems of robust parsing of Czech
WO2022174495A1 (zh) 文本纠错方法、装置、电子设备及存储介质
Bisazza et al. Chunk-lattices for verb reordering in Arabic–English statistical machine translation: Special issues on machine translation for Arabic
Horvat Hierarchical statistical semantic translation and realization
Zaki et al. A survey of syntactic parsers of Arabic language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1078359

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1078359

Country of ref document: HK