CN101187923A

CN101187923A - 翻译系统中用于匹配双语文本和增加准确性的方法

Info

Publication number: CN101187923A
Application number: CNA2007101693248A
Authority: CN
Inventors: P·J·怀特洛克; V·波南斯基
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-11-23
Filing date: 2007-11-22
Publication date: 2008-05-28
Anticipated expiration: 2027-11-22
Also published as: GB0623360D0; GB2444084A; US20080126074A1; JP2008152768A; US8209165B2; CN101187923B

Abstract

本发明涉及翻译系统中用于匹配双语文本和增加准确性的方法。公开了一种使用包括多个源语言的实例句子的储存器将源语言的输入句子翻译为目标语言的输出句子的方法，所述多个源语言的实例句子与其目标语言的翻译成对。该方法通过使用组合双语字典和辞典的各方面的双语资源来分析储存器中的句子和输入句子以便确定输入句子和实例中的单词的意思和翻译，改善了输入文本和储存器的实例句子的匹配。

Description

翻译系统中用于匹配双语文本和增加准确性的方法

技术领域

本发明涉及机器翻译领域并且构建了一种翻译系统中用于匹配双语文本和增加准确性的方法。

背景技术

用于将一种自然语言翻译成另一种语言的自动翻译(机器翻译，MT)的许多技术基于使用现有的双语文本库，也就是文本和由人翻译到一种或多种其它语言的翻译。它们自动从这些文本和其翻译学习或归纳翻译规则，例如静态MT(SMT)的方法所做的，或者将这些文本和其翻译作为适当的实例、可以组合到新的翻译之中的片段(基于实例的MT或EBMT)。

一种EBMT的方法通过首先找到单个的最佳-匹配的双语实例来组合翻译，如在[美国专利申请20060004560，基于现有翻译库进行翻译的方法和设备(Method and apparatus for translation basedon a repository of existing translations)]和[Sumita，2003，基于实例的机器翻译的最新发展(Recent Advances in Example-Based Machine Translation)，M.Carl和A.Way(eds.)，KluwerAcademic]中所述。将输入的句子与实例近似匹配。该匹配的结果是在输入和实例之间的对齐(alignment)，所述对齐包括在相同的语段(stretch)(匹配的语段)之间的子对齐和在不相同的语段(不匹配的语段)之间的子对齐。随后可以用输入中的不匹配的语段的翻译替代实例的目标方中不匹配的语段的翻译。该实例作为模板，该模板是结构良好(well-formed)和消除歧义的并且可以用作构造翻译的其余部分的基本基础。但是，该技术的成功依赖于能够在所述现有翻译库中找到源方与输入很相似的实例。当前技术假定相似性能够单独根据源语言充分定义。但是存在很多在源语言中相似的表达翻译为另一种语言很不相同的实例。

开放文学作品包含EBMT系统的许多实例，该EBMT系统采用辞典信息来确定输入句子和所存实例的相似性。[Sumita，2003，op.cit]示出当匹配输入和实例的时候，即使源方句法和语意上接近，单语辞典也可能不够用。这是因为它们的翻译可能在目标语言方面显著不同。他的解决方案是改善辞典或增加实例。但是，他的辞典仍然基本上是单语的，并且是依照数据库中的特定实例进行的改善，而不是基于目标语言单词的相似性进行的改善。

已经找到最佳匹配之后，Sumita的方法依赖于具有明确的单个单词翻译的双语辞典以便替换不匹配的部分。它不能消除字典条目的歧义，也不允许包含若干单词或搭配的条目。

希望通过检测输入文本和所存翻译的源方中的那些尽管表面相似但是具有不同的翻译的元素来改进输入文本和现有翻译库的匹配。还希望使用所述实例的目标方中不匹配的语段的翻译来辅助确定输入中的不匹配的语段的翻译的范围和意义。

发明内容

依照本发明的第一方面，提供了一种机器翻译的方法，该方法使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该方法包括：(a)使用双语资源分析双语文本库以将来自双语资源的信息与所述库中至少一些双语文本的相应源语言方相关联，或至少使用已经用这样的方式预先分析过的双语文本库；(b)使用双语资源分析输入文本以便将来自双语资源的信息与该输入文本相关联；(c)从所述库中选择要用作确定输入文本的翻译的基础的双语文本；(d)使用与输入文本相关联的信息和与在步骤(c)中所选择的双语文本的源方相关联的信息，识别在步骤(c)中所选择的双语文本的源方的与对应的输入文本的相应部分不同的部分，将那些部分指定为不匹配部分；(e)识别在步骤(c)中所选择的双语文本的目标方中作为该双语文本的源方的所述不匹配部分的相应翻译的那些部分；(f)确定输入文本的所述不匹配部分的相应翻译；(g)用在步骤(f)中确定的翻译替换在步骤(e)中所识别的双语文本的目标方的所述部分；和(h)使用步骤(g)的结果作为输入文本的翻译，或者至少作为其基础。

依照本发明的第二方面，提供了一种选择双语文本作为机器翻译的基础的方法，该机器翻译使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该方法包括：(a)使用双语资源分析双语文本库以将来自双语资源的信息与该库中至少一些双语文本的相应源语言方相关联，或者至少使用已经以这样的方式分析过的双语文本库；(b)使用双语资源分析输入文本以便将来自双语资源的信息与输入文本相关联；(c)依赖于与输入文本相关联的信息和与相应双语文本的源方相关联的信息，从该库中选择将要用作确定该输入文本的翻译的基础的双语文本。

依照本发明的第三方面，提供了一种用于使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本的设备，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该设备包括：(a)用于使用双语资源分析双语文本库以将来自双语资源的信息与所述库中至少一些双语文本的相应源语言方相关联或至少使用已经用这样的方式预先分析过的双语文本库的装置；(b)用于使用双语资源分析输入文本以便将来自双语资源的信息与该输入文本相关联的装置；(c)用于从所述库中选择要用作确定输入文本的翻译的基础的双语文本的装置；(d)用于使用与输入文本相关联的信息和与通过装置(c)选择的双语文本的源方相关联的信息识别通过装置(c)选择的双语文本的源方的与对应的输入文本的相应部分不同的部分的装置，将那些部分指定为不匹配部分；(e)用于识别通过装置(c)选择的双语文本的目标方中作为该双语文本的源方的所述不匹配部分的相应翻译的那些部分的装置；(f)用于确定输入文本的所述不匹配部分的相应翻译的装置；(g)用于用通过装置(f)确定的翻译替换通过装置(e)识别的双语文本的目标方的所述部分的装置；和(h)用于使用装置(g)的结果作为输入文本的翻译或者至少作为其基础的装置。

依照本发明的第四方面，提供了一种用于选择双语文本作为机器翻译的基础的设备，该机器翻译使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该设备包括：(a)用于使用双语资源分析双语文本库以将来自双语资源的信息与该库中至少一些双语文本的相应源语言方相关联或者至少使用已经以这样的方式分析过的双语文本库的装置；(b)用于使用双语资源分析输入文本以便将来自双语资源的信息与输入文本相关联的装置；(c)用于依赖于与输入文本相关联的信息和与相应双语文本的源方相关联的信息从该库中选择将要用作确定该输入文本的翻译的基础的双语文本的装置。

在所附权利要求中阐述了本发明的优选实施例。

依照本发明的第五方面，提供了用于控制设备以执行依照本发明的第一或第二方面的方法的程序，或者当加载到设备中时使设备变成依照本发明的第三或第四方面的设备的程序。该程序可以装载在载体介质上。该载体介质可以是存储介质。该载体介质可以是传输介质。

依照本发明的第六方面，提供了由依照本发明的第五方面的程序编程的设备。

依照本发明的第七方面，提供了包含依照本发明的第五方面的程序的存储介质。

本发明的实施例使得可以更准确地确定在输入和所存翻译的源方之间的相似性，并且同时可以更精确地确定匹配的语段和不匹配的语段的范围，这将改进翻译的准确度。

另外，本发明的实施例使得可以确定关于在匹配的所存实例的源方没有出现的输入中的表达的意思的信息，并且从而改进该表达的翻译。

附图说明

图1是示出体现本发明的翻译设备的模块结构的示意图。

图2是示出由这个实施例中的翻译设备执行的步骤的流程图。

图3示出用于本发明的实施例中的算法。

图4是示出体现本发明的翻译设备的模块结构的示意图。

具体实施方式

现在将参考图1描述体现本发明的用于将源语言的输入句子翻译为目标语言的输出句子的设备。

双语文本的集合(S1)经历由双文本(bitext)注解器(S2)参考双语资源(S3)进行的处理，后者联合在字典或辞典中找到的表示特性的信息。所述信息包括多个字典条目，每个条目指定在两种语言的每一种中的一个或多个单词之间的翻译关系。该辞典信息是代码。所述代码使得任何代码对能够被比较以提供所述代码的相似性的数字测量。字典条目中的至少一些单词与一个或多个辞典代码相关联。相同代码可以与一方上的一个单词和另一方上的一个单词相关联。这样的字典条目的解释是该代码表示该单词在每种语言中的意思，并且当该单词的使用在所述语言之一中具有该意思的时候由该条目给出的翻译是合适的；相反，如果单词的实例在特定上下文中被以那种方式翻译，则它具有该意思。

所述双语文本的集合假定划分为多个片段(fragment)，每个片段包括两种语言的每一种中的一个句子或少量句子。为了简便，我们将为包括每种语言的单个句子的片段描述系统的操作。在双文本注解器(S2)对包括源句子和目标句子的双语实例的处理过程中，字典条目位于双语资源(S3)中，使得在该条目的源方的所有单词在源句子中找到并且在该条目的目标方的所有单词在目标句子中找到。然后使用与这个字典条目相关联的辞典代码来标注一个或多个源语言单词。在双语句子对中的源语言句子中的一个或多个单词与其在目标语言句子中的等价的一个或多个单词的关系称为对齐(alignment)。处理的结果是注解的双语库(S4)，其中每个双语句子中的单词用辞典代码标注并且与它们的翻译对齐或用它们的翻译标注。在单词和它们的翻译之间的对齐包括关于所述单词在两个字符串中的位置的信息。

当要翻译的输入句子通过输入设备(S5)进入系统时，它面临源语言注解器(S6)的处理。在这种情况下，不是总能够确定输入中单词的意思。但是假定匹配输入中多个项目的单个字典条目比匹配更少项目的字典条目更可能正确。因而可以通过一种优先权方案选择匹配输入的字典条目的子集，该方案诸如[美国专利5978798，访问数据库的设备和方法(Apparatus for and Method of Accessinga Database)]中所公开的。但是不必在与输入中相同数目的项目匹配的多个条目之间选择。这个阶段的结果是用代码和相应的可能翻译的子集来注解的输入句子。

输入句子被传递到比较器(S7)，比较器将之与注解的双语库(S4)中的实例的源方进行比较。通过只有当实例与输入共享一些数目的单词时才从库中检索实例的标准信息检索阶段，只需要考虑小的实例子集来比较。比较器将输入和与其进行比较的实例传递给不匹配的源部分检测器(S8)，该检测器确定一系列交织的匹配的和不匹配的语段。匹配的语段包括在输入和实例的源方相同的那些单词；另外，每个所标注的辞典代码和翻译必须具有非空的交集。

例如，假设英语-日语双语库包括片段：

双文本注解器用这个上下文中的其日语翻译hiku(照字面意思，to pluck)注解英语单词play。现在考虑包括下面片段的输入：

…learning how to play the flute

表面来看，该双语片段的源方出现好的匹配，只在单个单词flute和piano上不同。但是，源语言注解器定位翻译play the flute所需的字典条目，其在日语中需要不同的动词fuku(照字面意思，to blow)。因为英语中play的两个实例用不同的翻译标注，因此它们必须被分配给不匹配的语段，而不是匹配的语段，并且该匹配的总的优度必须相应调节。

不匹配的语段是那些在输入和SSE之间不同的语段。在不匹配的语段的项目之间建立关系(称为对应)。例如，如果不匹配的语段在每一方包括单个单词，则把这些单词放入对应；如果不匹配的语段包括单个成分(constituent)，那么在每个成分中有唯一的项目，称为头(head)，头是依照句法确定的，并且头也被放入对应。对于对应中的两个项目，将与该两个项目关联的辞典代码的交叉积提交给相似性计算。最相似的一个或多个对的相似性值被传递回比较器(S7)，以便在相似性的全局计算中使用。比较器基于匹配的和不匹配的语段的长度和不匹配的语段中的对应项目的辞典代码的相似性，确定最相似的实例(MSE)。

另外，不匹配的输入语段中的单词的可能翻译被限制到那些与具有最大相似性的一个或多个代码相关的翻译。

例如，假定日语-英语双语库包含文本：

日语单词suzuki在表示人的名字(具有辞典代码1220)和鱼的类型(具有辞典代码1430(食物)和1564(动物))之间是意思含糊的。双文本注解器将suzuki与英文单词sea bass(海鲈鱼)对齐，消除了人解释。现在假定输入是日语句子：

reizouko ni tumami wo hozon site kudasai

日语单词tumami在英语snack(快餐)(具有辞典代码1430(食物))和英语knob(圆形把手)(具有辞典代码14543，把手类型)之间是意思含糊的。在两方不匹配的语段中具有最大相似性的代码是1430。这样，确定输入单词tumami的翻译应该是snack(s)而不是knob(s)。

比较器和不匹配的源部分检测器的输出随后被传递到两个另外的模块。对齐的实例目标部分确定器(S9)确定所述MSE的目标方中哪些单词位置与该MSE的源方中的不匹配的语段中的单词对齐。不匹配的输入源部分翻译器(S10)随后依照目标语言的一些语法和模型将与不匹配的输入源部分相关联的剩余翻译组合。替换器(S11)用由不匹配的输入源部分翻译器计算的翻译替代由对齐的实例目标部分确定器所确定的MSE的目标方的位置中的单词。

图2是概述在具体实现本发明的方法中执行的步骤的流程图。在该方法的步骤X中，以源语言接收输入文本，其将被使用包括多个双语文本的库机器翻译成采用目标语言的输出文本，每个双语文本包括与其目标语言翻译成对的源语言文本。

在步骤A，使用双语资源分析双语文本库以将来自双语资源的信息与该库中至少一些双语文本的相应源语言方相关联。或者，使用已经以这种方式被预先分析过的双语文本库。

在步骤B，使用双语资源分析输入文本以将来自双语资源的信息与输入文本相关联。

在步骤C中，从所述库中选择双语文本以用作确定输入文本的翻译的基础。

在步骤D中，使用与输入文本相关联的信息和与在步骤C中选择的双语文本的源方相关联的信息，识别在步骤C中选择的双语文本的源方的与输入文本的对应的相应部分不同的部分，将那些部分指定为不匹配部分。

在步骤E中，识别步骤C中所选择的双语文本的目标方中是该双语文本的源方的所述不匹配部分的相应翻译的那些部分。

在步骤F中，确定输入文本的所述不匹配部分的相应翻译。

在步骤G中，用在步骤F中确定的翻译替换在步骤E中所识别的双语文本的目标方的所述部分。

在步骤H中，使用步骤G的结果作为输入文本的翻译，或者至少作为其基础。

应当理解，步骤A到C依照其自己的权利是有用的；例如一个设备可以执行步骤A到C，而另一设备可以使用步骤A到C的结果执行下面描述的步骤D到H。在这种情况下，在步骤C中，应当理解，根据与输入文本相关联的信息和与相应双语文本的源方相关联的信息进行选择。

图3描绘了一种作为翻译算法的算法。图3中所示的该算法呈现为伪码。该过程将输入文本、双语库和双语资源作为参数。

前两个步骤用必需的双语数据注解输入文本和双语库。在存在歧义的时候，注解输入文本的过程确定最合适的注解。这对与库一起使用的注解不太必要，因为已经确定了翻译。最佳注解可以使用[美国专利5978798，用于访问数据库的设备和方法(Apparatus for andMethod of Accessing a Database)]所述的区分优先次序的铺瓦(prioritised tiling)类型。

下一节找到与输入文本最相似的实例文本。在该算法中，搜索整个库。在实践中，首先使用在文字信息检索中通用的技术[信息检索(Information Retrieval)，Van Rijsbergen，Butterworth，1979]预取最可能的候选者，可能使用n-gram技术和语意接近。也可以通过包括来自此后描述的不匹配部分的信息计算分数。该相似性计算也可以使用在近似字符串匹配和生物信息学领域通用的动态编程过程。

我们接下来提取或计算输入文本中与实例不匹配的那些部分和因为不匹配而需要替代的example_target_parts。我们通过翻译unmatched_input_part，使用inner_translate来确定应该用什么替代example_target_parts。我们可以使用来自实例本身的额外知识帮助确定翻译，诸如已经正确翻译的其它单词来帮助确定正确的意思。我们还可以使用example_target_parts帮助确定对翻译的单词的合适选择和表达。双语资源已经被包括作为参数，但是可以在实例和输入文本的注解过程中已经包括所有必要的信息。

我们接下来通过为先前的实例目标部分替换新的translated_source_parts，从所述实例建立输出文本。应该强调，在用翻译的源部分中的多个语段替代的实例目标部分中可以有多个语段。实际上，如果用双语资源注解的源文本已经完全消除歧义，那么这个最后的翻译阶段可以只是提取该注解的事。

如果我们还想对替换之后的输出文本进行进一步的表面改善，诸如保证在翻译的源部分的边界中的单词与实例的剩余部分一致。我们可能还想改变文本格式以便与例如输入文本的格式一致。这样的改变可以用improve函数来进行。然后返回该操作的结果，即input_text的翻译。

应理解，一个或多个上述或下述部件的操作可以由在所述装置或设备上运行的程序控制。这样的操作程序可以存储在计算机可读的介质上，或者例如，可以在诸如从因特网站点提供的可下载的数据信号的信号中实现。所附权利要求可以解释为覆盖操作程序本身，或载体上的记录、信号或任何其它形式。

更详细地说，翻译设备的每个块可以由硬件逻辑电路构成，或者如下所述可以由利用中央处理单元(CPU)的软件构成。

也就是说，该翻译设备具有：(i)用于执行实现多种功能的控制程序的指令的CPU(中央处理单元)；(ii)存储所述程序的ROM(只读存储器)；(iii)用于扩展所述程序的RAM(随机存取存储器)；(iv)存储所述程序和各种数据的存储装置(存储介质)，例如存储器；和(v)等等。本发明的目的还可以通过以下步骤来实现：(i)为翻译设备提供以计算机可读方式存储用于本系统的控制程序的程序代码(可执行程序；中间代码；源程序)的存储介质，以及(ii)使计算机(CPU或MPU)读取并执行存储在存储介质中的程序代码，该程序代码是实现前述功能的软件。

存储介质的实例是：(i)带，诸如磁带和盒式带；(ii)磁盘，诸如软盘和硬盘；(iii)光盘，诸如致密盘只读存储器(CD-ROM)，磁光盘(MO)，迷你盘(MD)，数字视频盘(DVD)，可改写的CD(CD-R)；(iv)卡，诸如IC卡(包括存储卡)和光学卡；和(v)半导体存储器，诸如掩模ROM，EPROM(电可编程只读存储器)，EEPROM(电可擦除可编程只读存储器)，快闪ROM。

另外，翻译设备可连接到通信网络，通过该通信网络可以提供程序代码。该通信网络没有被特别限定。其具体实例是：因特网，内联网，以太网，LAN(局域网)，ISDN(综合业务数字网络)，VAN(增值网)，CATV(电缆TV)通信网络，虚拟专用网络，电话网络，移动通信网络，卫星通信网络，等等。另外，构成通信网络的传输介质没有被特别限定。其具体实例是：(i)使用IEEE 1394的有线通道，USB(通用串行总线)、功率线通信，电缆TV线，电话线，ADSL线，等等；或者(ii)使用下述的无线通信：IrDA，用于远程控制器的红外线，Bluetooth_，IEEE 802.11 HDR(高数据速率)，移动电话网络，卫星连接，地球数字网络，等等。注意，本发明可以通过下述实现：(i)由程序代码的电子传送实现的载波，或者(ii)一系列数据信号形式。

下面的附录以文章的形式呈现，并且提供本发明的实施例的替代描述。

附录：基于实例的翻译系统

摘要

在该文章中，我们描述了一种机器翻译的混合方法，其采用利用来自基于规则的MT的资源和技术扩充的实例翻译的语言资料库(corpus)。我们的主要目的是为一些具有好的时间和空间特性的子域实现合理的准确性。我们的结构相对确定并且因此在其计算资源的消耗上相当合适。同时，由在字符串编辑方面的翻译观点启发的算法允许我们采用一些所述语言资料库中可用的信息以在其它模型中可能较困难的方式改善准确性。我们描述该系统，说明它如何采用句法和语意分析来改善匹配和消除多义性，并且分析我们的竞争性结果。

1.引言

该文章描述了用于基本的旅行会话的日语-英语系统。我们已经追踪MT方面的研究和发展超过二十年，尽管主要是英语翻译为日语的方向。主要为了可用的结果而不是理论纯度，我们已经广泛使用了我们在这段时期积累的资源。尽管如此，我们的方法不能满足在我们认为可能有更广兴趣的领域上的一些新颖观点。这些包括在实例匹配和含义不确定的解决方案采用可能的明确实例的过程中辞典和字典信息的相互影响。

我们近来的工作集中在适用于嵌入在用于英语-日语双向会话的类似PDA的设备中的相对轻量级的MT系统上。在这个公式化的领域(formulaic domain)中，我们将现有的翻译实例视为大的、不连续的、口语的和通常特殊的模式的无价资源。我们的方法将Nagao(1984)的工作作为开始点，该工作大致1特征在于‘通过类推翻译(translation by ahalogy)’，并且沿着Sumita(2003)追求的线继续。我们认为这条研究线是“基于编辑的翻译”。我们确定源编辑抄本(一组替换、插入和删除)，其将实例库(base)中的实例的源方转换为输入字符串(查询(query))。我们随后翻译这个编辑抄本的输入和输出，以给出目标语言的相似抄本，并且将这个目标编辑抄本应用到该实例的目标方。

所述编辑抄本的输入中的源项目的翻译只是在所述实例(如离线确定的)中它们被与之对齐的那些目标语言项目(单词加位置)。该编辑抄本的输出的翻译基于双语字典和轻量级依赖性解析。我们以典型的基于规则的方式使用这些资源分析整个查询，但是使用最佳匹配实例辅助消除歧义。我们随后提取表示目标编辑抄本的输出的子部分。

我们选择通过利用语意相似性强化的编辑距离函数确定的单个最相似实例。该方法与组合的较大消耗(extravagant)的方法形成对比，所述组合的较大消耗的方法诸如在SMT(Brown等人，1990)和EBMT(Brown，1996)中找到的那些方法，在这些方法中翻译由片段汇编(assemble)。

图4示出了我们的系统的主要模块结构。

所述系统将采用源语言的字符串作为输入，并且从实例库获取一组候选实例，我们将所述字符串称为查询。下一个阶段，对应(correspondence)，为该查询和每个候选实例计算源编辑抄本，并且使用该抄本按照相似性对实例排序(节2)。还由基于规则的翻译系统分析该查询，并且最佳匹配实例可以用于在这个阶段帮助解决歧义(节3)。最佳匹配实例的目标方(基础)和所述查询的翻译被传送给替代阶段(replacement phase)，该替代阶段计算目标编辑抄本的精确范围并且将之应用到所述基础(节4)。

在该文章的剩余部分，我们提供了每个模块的更详细的描述，并且做出关于我们的竞争性结果的描述和讨论。

2.对应

所述源编辑抄本在我们称为对应的阶段确定，该阶段执行源语言中两个字符串的有序对齐。通过使用标准向量-空间检索技术(Rijsbergen，1979)从实例库获取用于与查询对应的候选字符串。对应计算匹配的和不匹配的语段交替的序列并且基于这些的长度确定分数。每个不匹配的语段包括实例方(UXS)和查询方(UQS)，实例方是源编辑的输入，查询方是源编辑的输出。因而编辑抄本是形式为UXS＝＞UQS的操作集合。空的UXS表示插入，空的UQS表示删除。

作为典型的EBMT系统，所述分数还包括基于树结构的辞典的用于语意相似度的分量。单词可以与一个或多个语意代码相关联；两个单词的代码越相似，用一个单词替代另一个的代价就越小。

例如，给定输入：

この階に喫茶店がぁりますか。 (1)

this floor NI coffee shop GA be POL Q

和两个存储的实例：

この階にレストランがぁりますか。 (2)

Is there a restaurant on this floor？

この階に子供服がぁりますか。 (3)

Is this the floor for children’s clothes？

由于“喫茶店”(coffee shop(咖啡店))和“レストラン”(restaurant(饭店))的语意相似性，这些实例中的第一个将是优选的，给出结果Is thoro a coffee shop on this floor？另一方面，

给定诸如下述的输入：

この階にコ一トがありますか。 (4)

其与先前的输入不同之处在于单个单词“コ一ト”(coat或court(外套或球场))，我们优选第二个，给出输出Is this the floorfor coats？(下文我们将看到翻译coat如何选择和变词形。)

3.基于规则的翻译

我们已经研究了几种方式来实现不匹配的查询语段的翻译。例如，表现为Sharp’s Power EJ Translation Package的一部分的系统版本使用对齐的实例库本身。但是，该策略需要更大的实例库，并且在该系统的竞争版本中，翻译基于独立的双语字典。我们使用的字典从各种资源收集，尽管我们可以通过将字典应用到我们的实例库的对齐而采用自动导出的翻译频率，大部分资源最终是手编码的。

我们使用轻量级依赖性解析器分析输入；所述字典条目可以涉及依赖性结构和项目线性顺序的任何组合。双语字典条目也利用辞典代码标注。

我们确定可以应用到所述查询的任何部分的所有字典条目。我们为什么不将自己限制到只考虑不匹配的语段(US)的原因是，单个字典条目可能用于翻译横跨匹配/不匹配边界的材料。因为我们通过单个最不频繁项目鉴别字典条目，并且因为条目可以包含变量，使用US中的材料的条目的关键可以位于该US之外。实际上，我们需要扩展该US以便包括与其一起翻译的任何内容。例如，给定输入和实例：

彼は 3時に

ります。 (5)

He TOP 3 o′clock NI return POL

彼は月曜日に

ります。 (6)

He’ll be back on Monday

我们需要认识到榆入将使用字典条目：

并且将不匹配的语段扩展到包括虚词に，从而得到正确的翻译(8)而不是(9)：

He’ll be back at 3 o’clock. (8)

*He’ll be back on 3 o’clock. (9)

因而我们依照在Poznanski等(1998)中使用的区分优先次序的铺瓦(tiling)机制计算词汇条目的子集。覆盖更多源语言项目的条目得到优选权。可以使用翻译频率作为连接断路器(tiebreaker)。与试图孤立确定正确的词汇条目的情况不同，在语意歧义的情况下匹配实例的存在可以起帮助作用。例如，在上述的(4)中，我们可以为有歧义的“コ一ト”优选翻译coat(外套)，因为我们的辞典告诉我们，coat(外套)比(网球)court(球场)更像孩子的衣服(另外，记住所述两个相似的实例(2)和(3)，coat像孩子的衣服的程度要大于(网球)court(球场)像饭店的程度)。

为了完成翻译模块的操作，我们可以组合区分了优先顺序的词汇条目的目标方，反映源的依赖性结构，然后线性化目标结构并且提取不匹配的语段的翻译。实际上，因为接下来的阶段可以调节不匹配的语段的精确范围，我们将所述词汇条目的组合推迟到这个阶段之后。

4.替代

在这个阶段，我们应用我们已经计算的目标语言编辑抄本，通过UQS的翻译替代与UXS对齐的目标项目。我们的实例库是使用我们的字典离线对齐的单词-对-单词。顺便提及，这允许我们很大程度上确定在所述实例中使用的不确定的单词的意思。该对齐通常不是全部-如果该不匹配的语段不对齐，我们可能在基于这个实例的计划上失败并且使用下一个最高分数的实例。

该模块也使用轻量级依赖性解析，允许我们确定在任何语段(在两种语言中)的单词中的头-内部头，和在句子的剩余部分中该语段所附着到的-外部头。

从实例删除是最容易处理的编辑。删除的材料的对齐被从实例的目标方(基础)删除。如果删除的是名词短语的头，那么还删除相关的语法元素，诸如前置限定词和介词。

替换可以更复杂。对于每个UXS，我们在基础中找到在该UXS中的所有项目的对齐之下的图像。在基础中这些可以是不连续的，但是如果它们只由普通单词隔开，则将这些语段合并。如果剩余多个语段，则我们查明每个的头，计算与源方中该UXS的头的反向对齐，并且试图找到在该输入(或查询)不匹配的语段(UQS)中的对应项目。

例如，当句子：

[明日フツトボ一ル]の試合が当地

tomorrow football NO game GA here

でぁりますか。 (10)

DE be POL Q

与实例：

[今夜₁野球₂]の試合が当地でぁりますか。 (11)

Will there be a baseball₂ game here tonight₁？匹配时，不匹配的实例语段(在[]内指明)与目标中的不连续的语段对齐(由共同下标所示)。使用语意近似，我们能够检测到在明日(tomorrow)和今夜(tonight)之间的(子)对应，并且正确的放置翻译，得到：

Will there be a football game here tomorrow？ (12)

如果没有发现语意近似元素，我们可以使用句法相似性作为语段分裂的依靠策略。

最后，在编辑中插入最难解决。这是因为我们不知道在哪放置UQS的翻译。我们根据输入的材料是副词(renyou)还是形容名词(rentai)而以两种不同的方式对待插入。副词插入再次分为两种情况。感叹词、主题和相似物放置在基础的开始位置，其它副词放置在结尾。在形容名词的插入的情况下，将它们的外部头推入US，将插入转化为替代并且给予我们用于翻译的材料的位置。

实际上，将外部头推入US的策略用于解决另一个问题。日语一律是中心语后置(head-final)，而英语名词短语具有混合的中心语特性(headedness)(an open door，但a door open to all)。形容名词的替换可能导致诸如下述的问题：

次の電車はこのホ一ムで合ってぃますか。 (13)

next train TOP this platform DE be right

ロンドン行きの電車はこのホ一ム合ってぃますか。

Is this the right platform for the train to London？ (14)

给定输入(13)和所存储的实例(14)，我们获得翻译(15)：

^*Is this the right platform for the train next？ (15)

将头名词推入US意味着我们将它与它的修饰成分一起翻译，并且允许得到的翻译按照英语的规则正确排序。即使头是含义模糊的，重新翻译也不是问题，因为这个单词已经具有与查询和实例源中相同的语意代码，这将导致我们选择相同的翻译。

现在已经确定每个编辑操作的确切范围，我们计算在该基础中将插入/替换的目标字符串。应用到(可能是扩展的)UQS中的任何项目的词汇条目的目标方通过反映该源的依赖性关系被组合，然后依照英语生成语法被线性化。当它们被放置到实例的目标方的位置中，采取各步骤以便‘在裂缝上糊纸(paper over the cracks’²)。这些包括进行替换，移除代名词前的多个前置词、限定词等，产生变化的比较级和最高级等。

这个最后的表达阶段的一个特别有趣的方面是从被替代的东西向替代的东西拷贝特征。例如，如果被替代的语段以名词起头，但是该替代已经翻译为以动词作为头，我们使用关于英语的单语言的信息名词化该动词。例如，给定输入(16)和实例对(17)：

この電車は定刻に出発の予定ですか。 (16)

this train TOP on-time departure NO plan be Q

この便は定刻に到着の予定ですか。 (17)

Will this flight arrive on time

我们获得翻译的计划，其可以表示为：

Will thist(電車)t(出発)on time？ (18)

出凳(departure)在日语句子里显然是名词(其后跟随名词性后缀の)。我们认识到该翻译被替换为基础中的动词，并且根据单语字典获得departure的等价动词，得到：

Will this train depart on time？ (19)

除了主要的类别变化，我们还可以拷贝句法特征，这就是在上文讨论的Is this the floor for coats？中我们如何得到翻译coats的。

这可以与标准SMT系统形成对照，在标准SMT系统中这些语句的部分替代被植入翻译模型并且目标语言模型将在正确的一个上建立。但是因为这样的翻译模型包含词汇的和语句的部分替代的交叉积(cross-product)，显然其尺寸和搜索空间的时间比我们的系统中所要求的单语言规则的数目增加得快。

5.结果

我们的EBMT系统只有在它的实例库包含充分紧密匹配的实例的时候才能够翻译输入。当情况并非如此时我们使用另一个系统来翻译。尽管正在发展来使用EBMT系统自己的基于规则的翻译系统，为了本文章的目的，我们使用完全独立的系统，我们称其为黑盒系统(BBS)。

表1示出了我们的系统在不同配置下在不同测试集上的结果。我们在第一列给出BBS的结果，然后是用于两个实例库配置中每一个的三列：我们自己的实例库(欧洲敏锐实验室(Sharp Laboratoriesof Europe)或SLE)，有11,913个实例(为该文章的目的提供的训练集，有相同内容的175,000日语字符和380,000英语单词，其是关于IWSLT 2006 Evaluation运动的竞争)；并且该实例库与竞争训练集组合，给出总共56,531个实例(1.7m日语字符，1.93m英文单词)。标题为‘EBMT Only’的列给出了EBMT系统试图翻译的输入的子集的分数，在下一列给出了总输入的百分比。最后一列给出了使用BBS来翻译我们的系统没有能够为其找到足够相似的实例的那些句子的结果。

考虑质量，结果落入两类中，在devset2(IWSLT 2004)和devset3(IWLST 2005)上的结果很大程度上好于在devset4(IWSLT 2006)和测试集上的结果。这个差别可能部分由于基准翻译的数目(16对7)并且部分由于整体难度。后面的结果在参与者中位于中间，但是devset3的结果好于在实际2005竞争(Eck和Hori2005)中实现的任何结果。我们将这样的结果归因于当前的SMT(在2005中)中不能找到的两个因素。第一是在翻译模型中有效作为大的不连续的元素的实例的使用。但是，SMT中最近的工作已经开始直接解决该问题，eg Chiang(2005)。第二是将被替代的目标语言语段有可能影响将替代它们的翻译，这种因果关系的交互在SMT中没有对应物。

	BBS	SLE实例			SLE+IWSLT实例库
		SLE实例			SLE+IWSLT实例库			EBMTOnly	％age	+BBS	EBMTOnly	％age	+BBS
		devset2(IWSLT2004)	.3524[7.7607]	.4910[7.6240]	70.5	.4063[8.2176]	.5610[8.927]	EBMTOnly	％age	+BBS	EBMTOnly	％age	+BBS	75.3	4663[8.8784]
devset3(IWSLT2005)	.3137[7.5425]	devset2(IWSLT2004)	.3524[7.7607]	.4910[7.6240]	70.5	.4063[8.2176]	.5610[8.927]	.4994[7.8347]	66.0	.3930[8.1415]	.5450[8.1934]	72.7	.4411[8.5965]	75.3	4663[8.8784]
devset3(IWSLT2005)	.3137[7.5425]	devset4(IWSLT2006)	.1917[5.5127]	.1537[2.1997]	38.7	.1828[5.5208]	.1313[1.4768]	.4994[7.8347]	66.0	.3930[8.1415]	.5450[8.1934]	72.7	.4411[8.5965]	74.2	.1835[5.6189]
测试(asr 1最佳)		devset4(IWSLT2006)	.1917[5.5127]	.1537[2.1997]	38.7	.1828[5.5208]	.1313[1.4768]					59.4	.1599[5.3393]	74.2	.1835[5.6189]
测试(asr 1最佳)		测试(正确)	.1797[5.4599]									59.4	.1599[5.3393]	60.6	.1726[5.6497]

表1 BLEU[NIST]具有两个实例库配置的基于规则的系统

(RBS)和EBMT的分数

我们的系统配置适合于具有更小存储器的更低功率的机器。对于小的实例库，总的数据大小在10Mb以下，对于包括100,000条目词汇的大的实例库，总的数据大小在17Mb以下。在具有128Mb RAM的500MHz处理器上翻译速度大约每个句子一秒。

6.参考文献

Brown，P.F.，Cocke，J.，Della Pietra，S.A.，Della Pietra，V.J.，Jelinek，F.，Lafferty，J.D.，Mercer，R.L.，Roossin，P.S.机器翻译的统计学方法(Astatistical approach to machinetranslation)，计算语言学(Computation Linguistics)第16卷，第2期(1996年6月)，MIT Press Cambridge，MA，USA，pp.79-85，1990。

Brown，R.D.“Pang loss系统中的基于实例的机器翻译(Example-Based Machine Translation in the PanglossSystem)”，Proceedings of the 16th Coling，Copenhagen，1996。

Chiang，D.“用于统计学机器翻译的分层的基于短语的模型(Ahierarchical phrase-base model for statistical MachineTranslation)”，Proceedings of the 43rd Annual Meeting of theACL，2005。

Eck，M.和C.Hori“IWSLT 2005演化运动的概览(Overview ofthe IWSLT 2005 Evaluation Campaign)”，Carnegie-MellonUniversity，Pittsburgh，2005。

Lepage，Y和E.Denoual“建立的最纯粹的EBMT系统：没有变量，没有模板，没有训练实例，只有实例，仅仅有实例(The purestEBMT system ever built：no variables，no templates，notraining，examples，just examples，only examples)”，inProceedings of the 2nd Workshop on Example-Based MachineTranslation，Phuket 2005。

Nagao，M“根据相似原则的在日语和英语之间的机器翻译的框架(A Framework of a Mechanical Translation between Japanese andEnglish by Analogy Principle)”In A.Elithorn and R.Banerji(eds.)人工和人类智能(Artificial and Human Intelligence)，Amsterdam：North Holland，pp.173-180.1980。

Nirenburg，S.，C.Domashnev和D.J.Grannes“在基于实例的机器翻译中的两种匹配方法(Two approaches to matching inexample-based machine translation)”，in 5^th TMI，Kyoto，1993。

Poznanski，V.，P.Whitelock，J.Ijdens，S.Corley“通过区分优先次序的铺瓦的实际注释(Practical Glossing byPrioritised Tiling)”，Proceedings of the 17th COLING，Montreal，1998。

Rijsbergen，C.J.“信息检索(Information Retrieval)”，London：Butterworths，1979。

Sumita，E.“使用单词序列之间的DP匹配的EBMT(EBMT UsingDP-Matching Between Words Sequences)”，in Recent Advances inExample-based Machine Translation.Carl，M.and Way，A.(eds).Kluwer Academic Publishers，Dordrecht，pp.189-209，2003。

——————————————————

¹As opposed to the pure analogical approach of Lepage and Denouval(1995)

²The‘boundary friction’of Nirenburg et al.(1993)

Claims

1.一种机器翻译的方法，该方法使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该方法包括：

(a)使用双语资源分析双语文本库以将来自双语资源的信息与所述库中至少一些双语文本的相应源语言方相关联，或至少使用已经用这样的方式预先分析过的双语文本库；

(b)使用双语资源分析输入文本以便将来自双语资源的信息与该输入文本相关联；

(c)从所述库中选择要用作确定输入文本的翻译的基础的双语文本；

(d)使用与输入文本相关联的信息和与在步骤(c)中所选择的双语文本的源方相关联的信息，识别在步骤(c)中所选择的双语文本的源方的与对应的输入文本的相应部分不同的部分，将那些部分指定为不匹配部分；

(e)识别在步骤(c)中所选择的双语文本的目标方中作为该双语文本的源方的所述不匹配部分的相应翻译的那些部分；

(f)确定输入文本的所述不匹配部分的相应翻译；

(g)用在步骤(f)中确定的翻译替换在步骤(e)中所识别的双语文本的目标方的所述部分；以及

(h)使用步骤(g)的结果作为输入文本的翻译，或者至少作为其基础。

2.如权利要求1所述的方法，其中步骤(c)包括依赖于与输入文本相关联的信息和与相应双语文本的源方相关联的信息从所述库中选择双语文本。

3.如权利要求2所述的方法，包括(i)使用与输入文本相关联的信息和与相应双语文本的源方相关联的信息，为库中的至少一些双语文本确定分数；并且其中步骤(c)包括依赖于步骤(i)中所确定的分数从库中选择双语文本。

4.如权利要求3所述的方法，其中步骤(i)包括比较与输入文本相关联的信息和与相应双语文本的源方相关联的信息。

5.如权利要求3所述的方法，包括在步骤(i)中为存在关联信息的库中的每个双语文本确定分数。

6.如权利要求3所述的方法，其中步骤(c)包括选择具有步骤(i)中所确定的最高分数的双语文本。

7.如权利要求1所述的方法，其中步骤(c)包括依赖于步骤(d)的结果从库中选择双语文本。

8.如权利要求7所述的方法，包括(i)使用与输入文本相关联的信息和与相应双语文本的源方相关联的信息，为库中的至少一些双语文本确定分数；其中步骤(c)包括依赖于步骤(i)中所确定的分数从库中选择双语文本；并且依赖于步骤(d)的结果确定步骤(i)中的至少一些分数。

9.如权利要求1所述的方法，包括使用与在步骤(c)中选择的双语文本相关的信息来执行步骤(f)。

10.如权利要求1所述的方法，包括使用与在步骤(c)中所选择的双语文本的匹配部分相关的信息来执行步骤(f)以提供将要翻译不匹配的输入部分的上下文。

11.如权利要求1所述的方法，包括使用与在步骤(c)中选择的双语文本的不匹配的目标部分相关的信息来执行步骤(f)以影响不匹配的输入部分的翻译。

12.如权利要求1所述的方法，包括使用来自双语资源的信息执行步骤(f)以实现所述翻译。

13.如权利要求1所述的方法，在步骤(a)中使用的双语资源与在步骤(b)中使用的双语资源相同或相似。

14.如权利要求1所述的方法，其中与步骤(a)中的该至少一些双语文本的每一个相关联的信息和与步骤(b)中的输入文本相关联的信息是相同类型的或相似性质的。

15.如权利要求1所述的方法，其中与双语文本的源方相关联的信息包括该双语文本中的单词的翻译，并且与输入文本相关联的信息包括该输入文本中的项目的一个或多个可能的翻译。

16.如权利要求1所述的方法，其中与双语文本的源方相关联的信息包括表示该双语文本中的单词的可能意思的一个或多个代码，并且与输入文本相关联的信息包括表示该输入文本中的单词的可能意思的一个或多个代码。

17.如权利要求16所述的方法，包括(i)使用与输入文本相关联的信息和与相应双语文本的源方相关联的信息，为库中的至少一些双语文本确定分数；并且其中步骤(c)包括依赖于步骤(i)中所确定的分数从库中选择双语文本；并且确定步骤(i)中的分数以反映表示输入文本和所述双语文本的源方中的单词的意思的最相似代码的相似性。

18.如权利要求16所述的方法，包括当单词具有与和在步骤(c)中所选择的双语文本的源方中的单词相关联的一个或多个代码最相似的代码时，确定步骤(f)中的所述翻译是那些合适的翻译。

19.如权利要求16所述的方法，包括基于双语文本的源方的那些部分被认为是不同的来执行步骤(d)，所述那些部分的翻译或其代码之一不是与输入文本的部分相关联的翻译或代码之一。

20.如权利要求1所述的方法，其中每个文本包括多个数据项目并且源和目标语言是所述数据项目的源和目标数据格式，从而提供一种使用包括多个源格式的实例序列的储存器来将源格式的数据项目的输入序列机器翻译为目标格式的数据项目的输出序列的方法，所述多个源格式的实例序列每一个与其第二格式的翻译成对。

21.一种选择双语文本作为机器翻译的基础的方法，该机器翻译使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该方法包括：

(a)使用双语资源分析双语文本库以将来自双语资源的信息与该库中至少一些双语文本的相应源语言方相关联，或者至少使用已经以这样的方式分析过的双语文本库；

(b)使用双语资源分析输入文本以便将来自双语资源的信息与输入文本相关联；

(c)依赖于与输入文本相关联的信息和与相应双语文本的源方相关联的信息，从该库中选择将要用作确定该输入文本的翻译的基础的双语文本。

22.一种用于使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本的设备，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该设备包括：

(a)用于使用双语资源分析双语文本库以将来自双语资源的信息与所述库中至少一些双语文本的相应源语言方相关联或至少使用已经用这样的方式预先分析过的双语文本库的装置；

(b)用于使用双语资源分析输入文本以便将来自双语资源的信息与该输入文本相关联的装置；

(c)用于从所述库中选择要用作确定输入文本的翻译的基础的双语文本的装置；

(d)用于使用与输入文本相关联的信息和与通过装置(c)选择的双语文本的源方相关联的信息识别通过装置(c)选择的双语文本的源方的与对应的输入文本的相应部分不同的部分的装置，将那些部分指定为不匹配部分；

(e)用于识别通过装置(c)选择的双语文本的目标方中作为该双语文本的源方的所述不匹配部分的相应翻译的那些部分的装置；

(f)用于确定输入文本的所述不匹配部分的相应翻译的装置；

(g)用于用通过装置(f)确定的翻译替换通过装置(e)识别的双语文本的目标方的所述部分的装置；和

(h)用于使用装置(g)的结果作为输入文本的翻译或者至少作为其基础的装置。

23.一种用于选择双语文本作为机器翻译的基础的设备，该机器翻译使用包括多个双语文本的库将采用源语言的输入文本翻译成采用目标语言的输出文本，所述多个双语文本每一个包括的源语言文本与其目标语言的翻译成对，该设备包括：

(a)用于使用双语资源分析双语文本库以将来自双语资源的信息与该库中至少一些双语文本的相应源语言方相关联或者至少使用已经以这样的方式分析过的双语文本库的装置；

(b)用于使用双语资源分析输入文本以便将来自双语资源的信息与输入文本相关联的装置；

(c)用于依赖于与输入文本相关联的信息和与相应双语文本的源方相关联的信息从该库中选择将要用作确定该输入文本的翻译的基础的双语文本的装置。

24.一种用于控制设备执行如权利要求1或21所述的方法的程序。

25.一种包含如权利要求24所述的程序的存储介质。