CN1801141A - 一种基于现有译文的储存库的翻译方法及设备 - Google Patents

一种基于现有译文的储存库的翻译方法及设备 Download PDF

Info

Publication number
CN1801141A
CN1801141A CNA2005100922768A CN200510092276A CN1801141A CN 1801141 A CN1801141 A CN 1801141A CN A2005100922768 A CNA2005100922768 A CN A2005100922768A CN 200510092276 A CN200510092276 A CN 200510092276A CN 1801141 A CN1801141 A CN 1801141A
Authority
CN
China
Prior art keywords
translation
match
input
data item
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100922768A
Other languages
English (en)
Other versions
CN100550008C (zh
Inventor
P·J·惠特洛克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN1801141A publication Critical patent/CN1801141A/zh
Application granted granted Critical
Publication of CN100550008C publication Critical patent/CN100550008C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

根据输入句子和每例句的比较,选择基础例句,并且对应译文用作翻译基础。识别输入句子的不同于基础例句相应部分的部分(S3),指定为输入和基础实例不匹配部分。查找与基础实例不匹配部分对准的译文基础部分(S4)。输入的不匹配部分用于选择辅助例句(S5)。相应于输入的不匹配部分的可能译文的备选项从一组辅助例句中确定(S6)。基于预先确定的选择算法从备选项中选择译文(S7),并且所选择的译文被用于替换(S9)先前查找的翻译基础部分。替换结果被用作输出句子的基础。该方法也可应用于翻译数据项序列。

Description

一种基于现有译文的储存库的翻译方法及设备
技术领域
本发明涉及一种用于将第一格式的数据项输入序列翻译为第二格式的数据项输出序列的方法和设备。特别是但不唯一地,本发明涉及到将一个源语言中的句子翻译为目标语言中的句子。
背景技术
在机器翻译或者机器辅助翻译领域内有多种技术为人所知,它们使用现有的翻译材料存储库来完成辅助翻译或自动翻译。一个翻译存储器(TM)系统具有一个源语言句子储存库,该储存库中的每个源语言句子都和与其相关的目标语言句子相配对,并通过在储存库中查找在结构和内容上与输入句相近的句子来操作被呈现给翻译者的与其相关的目标语言句子,以进行人工的事后编辑(post-editing)。一个基于实例的机器翻译(EBMT)系统试图完全自动翻译,并通过以下步骤来操作:将输入的句子分解为片段,并在储存库中为每个片段查找一个译文,而后将这些断续的译文合并为目标句。
翻译存储器系统非常准确,但是往往覆盖范围有限。在输入句子和检索得到的句子之间的区别通常局限于在词序、词法形式和拼写上的的微小变化。实例经常对实例配对的目标句不做任何改变;仅仅将其作为最佳匹配句子而呈现给翻译者。
在更多改进的TM系统中,目标实例中的某些成分可以由它们的“译文”所替换。然而,这样的成分被限定在“可确定成分”,如在WO99/57651中讨论的那样。在本文中,可确定成分是诸如名字或者数字之类不需要翻译但能够复制,或者其格式能够简单地被对准(align)以符合目标语言或局部标准的成分。
EBMT系统具有较宽的覆盖范围,但是准确度较低。这是因为,象其它的全自动翻译技术一样,这些系统依赖于合并在该系统中的大量的语言学或统计学的知识,并且难于以穷举的方式采集和编码。在EBMT系统中这样的知识是必要的,使得能够将输入句子分解为相关的片段并随后将翻译过的片段结合为句子,该句子是根据目标语言的语法而被适当的形成。
上面提到的机器辅助翻译系统利用公知的技术来检索并将源语言输入与储存库中源语言方的实例相匹配,并将实例的源语言和目标语言方实例之间的单词进行对准(align)。
匹配技术公开在GR1002453中描述了编辑距离的使用的“Intelligent device for retrieving multilingual texts”(用于检索多语文本的智能装置),以及US6161083“Example-basedtranslation method and system which calculates wordsimilarity degrees,a priori probability,and transformationprobability to determine the best example for translation”(基于实例的翻译方法和系统,该系统计算词的相似度、先验概率和转换概率以确定翻译的最佳实例)中。参考文献:“Example-basedMachineTranslation in the Pangloss System”(在Pangloss系统中基于实例的机器翻译),Brown,R.D.,学报第16期coling,Copenhagen,1996;US 2003/0125928“Method for retrievingsimilar sentence in translation aid system”(在翻译辅助系统中用于检索相似句子的方法);以及US 2004/0002849“System andmethod for automatic retrieval of example senstences basedupon weighted editing distance”(基于权重的编辑距离用于自动检索实例句子的系统和方法),其描述了二个阶段方案的使用,其中在基于标准信息检索技术的第一阶段确定一个小的实例集合,在第二阶段,使该集合进行基于编辑距离等的更高代价的相似度计算。其他的索引技术公开在US5724593“Machine assisted translationtools”(机器辅助翻译工具)中,其中描述了用于索引的字符n-grams的使用,以及US6473729“word phrase translation usinga prase index”(使用短语检索的单词短语翻译)。
当找到一个或者更多的匹配实例时,然后确定它们可能的译文是必要的。如果与一个完整的实例相匹配,那么其译文恰好是与其配对的目标语言字符串。但是,如果仅仅是部分匹配,就需要通过把一种语言中每一匹配部分完全匹配于另一语言中相应的匹配部分,以及不把一种语言中不匹配的部分与另一语言中的任何部分不相比配,来确定源语言字符串的哪一部分与目标语言字符串的哪一部分相对准(align)。
将在两种语言的配对句子中的单词和/或短语进行对准的技术在文献中得到广泛描述。US5659765“Machine TranslationSystem”(机器翻译系统)描述了一个接口以允许用户指定这样的对准。US5907821“Method of computer-based automaticextraction of trahslation pairs of words from a bilingualtext”(从两种语言文本中基于计算机自动提取译文词对的方法)描述了一个基于相互出现频率的统计方法。US6345244“System,method,and product for dynamically aligningtranslation in a translation-memory system”(用于在翻译存储器系统中动态地匹配译文的系统、方法和产品)描述了一个基于译文中单词之间的共享特征的方法。US6598015“Context basedcomputer-assisted language translation”(基于计算机辅助语言翻译的语境(context))描述了在配对之间的普通格式信息的使用。US6535842“Automatic bilingual translation memorysystem”(自动的两种语言翻译存储器系统)描述了一个分级对准的结合以产生所有大小的短语的对准。对准可以发生在对给定的输入句子进行处理的期间,或者通常的情况是在处理之前的离线期间。如在US2004/0002848“Example based machine translationsystem”(基于实例的机器翻译系统)中描述的那样,对准也可以是两个阶段的处理过程,包括离线的单词对准和在线的较大短语的对准。
EBMT系统公开在:Sato和Nagao的,“Towards Memory-BasedTranslation”(面向基于存储器的翻译),学报第13期coling,Helsinki(1990);Maruyama和Watanabe,“Tree Cover SearchAlgorithm for EBMT”(用于EBMT的树形覆盖搜索算法)学报第四期《技术会议索引》,蒙特利尔(1992);US6161083“Example-basedtranslation method and system which calculates wordsimilarity degrees,a priori probability,and transformationprobality to determine the best example for translation”(基于实例的翻译方法和系统,该系统计算词的相似度、先验概率和转换概率以确定翻译的最佳实例);Brown,R.D.,“Example-basedMachineTranslation in the Pangloss System”(在Pangloss系统中基于实例的机器翻译),学报第16期,哥本哈根(1996);以及在其他文献中的US2004/0002848。这些系统都使用一个匹配短语以及一个对准短语,区别于TM系统可以确定几个实例并且每个实例仅匹配输入的一个片段。他们公开了将句子划分成片段,选择每个片段的最佳译文,以及将译文片段合并成为相关的目标语言文本的各种解决方法。
这里有两个主要方法以确定并且合并片段。通常来说,在与结构不同的语言(就是说,词序很不相同)之间的EBMT有关的现有技术中,所述语言例如英语和日语(参见上面参考的Sato和Nagao,Maruyama和Watanabe,以及US6161083的文献),分段和合并是基于实例的源语言和目标语言双方之间的完全语法分析和树形结构对准。在具有相似词序的语言间的EBMT中,所述语言例如英语和法语(参见上面参照的R.D.Brown的文献)或者英语和汉语(参见US2004/0002848),译文片段可以根据在源语言中的次序而被结合。
关于选择每个片段的最佳译文,通常假定是在实例中的最佳配对于片段的对准。在Sato和Nagao(上面所参照的)以及US2004/0002848中,根据在输入以及整个的包含片段的实例间的相似性来确定最佳实例。R.D.Brown的论文(参照上面)公开了一种方法,其中“翻译概率仅仅是对于特定的源语言短语,使用对准每个特定的可替换的译文相对所有成功对准的次数比例”。
通过扩展在输入句子和存储的实例之间元素的类型的范围,改进翻译存储器系统的覆盖范围是所希望的。允许输入句子和存储句子通过任何元素而有所区别是所希望的,所述元素可以被用来将一个替换为其他的而不改变涉及到的句子的良好结构。如果翻译可替换的部分是必要的话,那么提供一种在可选择的译文间进行选择的方法是所希望的,其中在不同的语境中所述元素具有上述可选择的译文。也希望提供一种方法,在其中可以确定语境任意的可替换元素的正确译文,而不需要大量的语言学知识或者深奥的语言分析。
发明内容
根据本发明的第一方面,提供了一种方法,使用一个存储器,其包括大量的第一格式的实例序列每个实例序列与第二格式的译文相配对,将第一格式的数据项输入序列翻译为第二格式的数据项输出序列,该方法包括:(a)根据输入序列和存储器中大量实例序列中的每一个的比较,从存储器中选择基础实例序列,并使用相配对的译文作为译文基础;(b)识别输入句子的不同于基础实例序列的相应部分的那一部分,这些部分分别被指定为输入以及基础实例不匹配的部分;(c)查找相应于基础实例不匹配的部分的译文基础的那一部分;(d)使用输入的不匹配的部分来从存储器中选择一组辅助实例序列;(e)从该组辅助实例序列中确定相应于输入的不匹配部分的可能译文备选项;(f)基于预先确定的选择算法从备选项中选择译文,并使用所选择的译文来替换在步骤(c)中查找的那一部分;以及(g)使用步骤(f)的结果作为数据项输出序列的基础。
对于在输入序列中识别的多个输入的不匹配部分,可以重复步骤(b)到步骤(f)。对于在输入序列中识别的每个不匹配部分,可以重复步骤(b)到步骤(f)。在步骤(a)中选择的基础实例序列可以是来自存储器的实例序列,根据预先确定的紧密方法该实例序列最紧密地匹配输入序列。
在步骤(b)中识别的基础实例不配对部分,以及在步骤(c)中查找的其相应的翻译基础部分,可以是位于两个相邻的数据项之间的一个空序列,以使在步骤(f)中的替换是一个在该位置上的有效的插入。
在步骤(f),根据语境,所选择的译文的词法变化可以被用于替换在步骤(c)中查找的那一部分。
在用做数据项输出序列之前,可以对从步骤(f)中得到的序列执行进一步的处理。
数据项可以是单词。第一和第二格式可以分别是第一种和第二种语言。数据项的输入序列可以形成一个语法上完整的短语。数据项的输入序列可以形成一个句子。
在步骤(c)中,可以在基础实例序列的部分和与其配对的译文的各个部分之间使用对准来查找该部分。对准可以被预先确定。
如果在实例序列中至少一个数据项匹配或者相应于在输入的不匹配部分中的至少一个数据项,那么步骤(d)可以包括选择包括在该组中的该实例序列。
步骤(e)可以包括对于在该组中的辅助实例,识别辅助实例的相应于输入不匹配部分的那一部分,以及使用与辅助实例配对的相应的译文部分,以在备选项中形成可能的译文之一。
预先确定的选择算法可以包括为备选项中至少一个译文中的每一个都分配给译文一个优选值,该优选值依赖于至少一个从中导出译文的辅助实例而确定。
可以依赖于在输入序列和至少一个辅助实例中的每一个之间的比较来确定优选值。
可以通过向这样的比较或每一个这样的比较分配一个权重,以及以预先确定的方式合并一个(或多个)所分配的权重来确定优先值。
可以依赖于数据项或者在比较中的输入序列和辅助实例所共有的变化的数目来分配权重。
可以依赖于一个或者多个下面的输入序列和辅助实例所共有的数据项属性来分配权重:共同的数据项在序列中的位置;在预先确定的语言资料库中共同数据项的频率;共同数据项和输入的不匹配的部分的共同出现频率;共同出现频率与由共同数据项的频率预测的频率之间的偏差。
可以依赖于相对于不匹配的部分的共同数据项在序列中的位置来分配权重。
一个(或多个)分配的权重可以通过求和而进行合并。
在一个实例中,在输入的不匹配部分中的一个(或多个)数据项不包括在比较中。
可以依赖于翻译基础和与至少一个辅助实例中的每一个配对的译文之间的比较来确定优选值。
预先确定的选择算法还可以包括根据一个(或多个)分配的优选值,从备选项中选择译文。
优选值可以被分配给备选项中的译文或每一个译文。
可以依赖于从中导出译文的辅助实例或每一个辅助实例来确定优选值。
预先确定的选择算法可以允许人工干预以影响所选择的译文。
该方法可以包括,其中在步骤(f)不能选择合适的译文,将输入的不匹配的部分细分为大量的输入不匹配部分,以及识别相应的各个基础实例不匹配部分,并对每个不匹配部分执行步骤(c)到(f)。
该方法可以包括,其中在步骤(a)不能查找到合适的基础实例,将输入序列细分为大量的输入子序列,对于每个这样的子序列执行步骤(a)到(f),并且合并从步骤(f)中得到的结果以在步骤(g)中产生输出序列。
该存储器可以包括分别应用在步骤(a)和步骤(d)中的分离存储器。在根据下面所描述的本发明的第二方面的装置中,这些存储器的第一个可以形成或者不形成该装置的一部分。
根据本发明的第二方面,提供了一种设备,通过使用一个存储器,其包括大量第一格式的实例序列每一个实例序列与第二格式的译文相配对,将第一格式的数据项输入序列翻译为第二格式的数据项输出序列,该设备包括:用于根据输入序列和存储器中大量实例序列中的每一个的比较,从存储器中选择基础实例序列,并使用相配对的译文作为译文基础的装置;用于识别输入序列的不同于基础实例序列的相应部分的那一部分的装置,这些部分分别被指定为输入以及基础实例不匹配的部分的装置;用于查找相应于基础实例不匹配的部分的译文基础的那一部分的装置;用于使用输入的不匹配的部分来从存储器中选择一组辅助实例序列的装置;用于从该组辅助实例序列中确定相应于输入的不匹配部分的可能译文备选项的装置;用于基于预先确定的选择算法从备选项中选择译文,并使用所选择的译文来替换由查找装置查找的那一部分的装置;用于使用选择装置的结果作为数据项输出序列的基础的装置。
根据本发明的第三方面,提供了一种翻译存储器系统,其包括根据本发明第二方面的设备。
根据本发明的第四方面,提供了一种计算机程序,当在计算机上运行该程序时,使得计算机执行根据本发明第一方面的方法。
根据本发明的第五方面,提供了一种计算机程序,当将其装载到计算机上时,使得计算机分别成为根据本发明第二方面或第三方面的设备或系统。
计算机程序可以被装载在一个载体介质上。载体介质可以是一个传送介质。载体介质可以是存储介质。
附图描述
将通过实施例,给出附图的参考,其中:
图1是一个说明具体实施本发明的翻译设备的示意图;
图2是一个示出由图1中的翻译设备执行的步骤的流程图;
图3是一个说明用在本发明实施例中幂集数据结构的示意图;
图4说明在本发明实施例中,在输入和基础例句之间进行相应的确定的实例;
图5说明在图4中所示的实例的翻译计划;
图6是一个详细说明在本发明实施例中执行的步骤的流程图,以确定输入的不匹配的语段的合适的译文;以及
图7说明本发明实施例的操作的另一个例子。
具体实施例详细描述
这里将描述具体实施本发明的一种方法和设备,用于将源语言的输入句子翻译为目标语言的输出句子。图1是一个示意图,用于说明具体实施本发明的翻译设备1的模块结构,以及图2是一个显示在该实施例中由翻译设备1执行的步骤的流程图。
翻译设备1包括用于接收源语言中的输入句子的输入部分3,以及用于输出翻译后的目标语言中的输出句子的输出部分15。如下面将要解释的,执行翻译所用到的存储器17包括大量的与其目标语言译文配对的源语言例句。翻译设备1也包括一个归类器(lemmatiser)/标记器(tagger)部分5,一个检索部分7,一个对应器部分9,一个翻译计划器部分11以及一个按顺次安置在输入部分3和输出部分15之间的翻译器部分13。如下面进一步所解释的那样,翻译设备1也包括一个索引器部分19,其中含有一组索引21,以及一个含有一组对准25的单词对准器部分24。
在步骤S1,一个源语言句子被引入到输入部分3,继而被传送到归类器/标记器部分5,该归类器/标记器部分5分析该句子以及基于上述分析执行各种预处理。如果源语言不是通过空格来分隔单词,那么对输入句子进行分段。在这个阶段也对输入句子进行词法分析。词法分析包括设置标记,其中每一个片段被分配一个或者多个与片段相关的词性(例如名词、过去分词、从属连词)的可能部分,以及确定每个单词的引用或词典形式。在这个阶段的末尾,输入句子已经被变换为一个查询项的列表,它包括:单词、引用形式或者词条(后者是词典形式和词类的结合)、或者它们的一些结合。
在步骤S2,根据输入句子和来自存储器17的大量例句的每一个的比较,从存储器17中选择基础实例,并且与其相配对的译文被用作在下面将要描述的处理过程中的后续步骤的译文基础。该确定基础实例的方法对于本发明实施例的整个操作来说不是重要的,但是,在本实施例中采用了一个两个阶段的方案,由查找部分7和对应器部分9分别来执行步骤S2的两个阶段。
不同于上面所描述的现有技术中的两个阶段方案,本实施例中第一阶段借助于布尔检索方案实现。不同于在US2004/0002848中公开的内容,没有使用以下的概念,诸如单词频率(TF),它是一个单词在给定文档中出现的频率,以及逆文档频率(IDF),它是一个单词出现在多个文档的倒数的度量。由于检索单位通常很小以致于除了停顿词之外TF很少和整数(unity)不同,因此TF通常是不必要的。即使当在特定的实例中,给定的输入单词的TF超过整数,那么这也是一个典型的不希望的复杂的源,而不是一个更好的相似性指示。由于共享高频项的句子(在同样的配置中)和由IDF强调的共享低频项的句子都有可能是一个好的译文基础,因此IDF在确定基础实例中通常也是不重要的。
在步骤S2选择基础实例的第一阶段,检索部分7查阅索引21,所述索引21为输入句子中的每一个查询项目指定一个存储器17中的包含该查询项目的实例列表。这个列表被称作记录列表。索引21由索引器部分19创建并保持。一些称作停顿词的术语,在许多实例中出现,被用作索引项,但在这个阶段可以忽略。出现在任何记录列表中的所有实例的联合被确定,并且对于这些示例的每个实例确定其出现在哪一个记录列表,也就是说其包含哪一个查询项。从输入查询项的子集映射到包含该子集的实例的数据结构被构建。该数据结构被称作“幂集”数据结构。
图3说明了为输入短语“electronics engineering degree”而构建的幂集数据结构。幂集数据结构包括链接到各个记录列表25-1到25-7的大量的幂集元素23-1到23-7。一个幂集元素指定出现在输入短语中的一个或多个单词的子集,并且该幂集元素相关的记录列表包含存储器17中的所有实例的一个列表,其包含在幂集元素中指定的以任意词序并且不必要相邻的所有单词。
例如,在图3中幂集元素23-1包括单个单词“electronics”,与其相关的记录列表25-1包括存储器17中包含单词“electronics”的所有实例的列表。幂集元素23-5包含单词“electronics”和“engineering”,与其相关的记录列表25-5包括存储器17中包含单词“electronics”和单词“engineering”的所有实例的列表(不论这两个单词在该词序上是否相邻)。幂集元素23-7包含单词“electronics”、“engineering”以及“degree”,与其相关的记录列表25-7包括存储器17中包含每个单词“electronics”、“engineering”以及“degree”的所有实例的列表(不论这三个单词在该词序上是否相邻)。
在图3中也说明了包括了单词“electronics”的幂集元素的子集27。如同下面较详细解释的,当试图确定该单词“electronics”的译文时,检查该子集。通常,在幂集元素中其他的单词(如果有的话)作为语境术语,并且幂集元素越大,对最终译文的影响程度就越大。
最后,在步骤S2的第一阶段,通过使用输入句子的幂集数据结构,为了更加详细的计算输入句子的相似性而选择大量的实例。以查询项的最大集合开始(即,最大的幂集元素),选择在相关的记录列表中的实例以进行更详细的分析。考虑查询项的日益较小的子集(即:日益较小的幂集元素),直到为了更详细分析而选择的实例的数量超过某阈值,或者子集的基数(cardinality)低到某阈值以下。在这个阶段,子集仅通过其基数而不是例如IDF之类的其他值进行排序。
而后,每一个所选择的实例被传送到步骤S2的第二阶段,该阶段是由对应器部分9执行。对于每一个接收到的实例,对应器部分9计算输入句子和实例之间的最长共同子序列(LCS)。两个符号串的LCS(这里“术语”包括停顿词)是在两个字符串中以同样的顺序出现的最长的符号序列,尽管不是必须相邻(参见:例如,Gusfeld的“Algorithms on Strings,Trees and Sequences”(在字符串、树形和序列上的算法),CUP1997)。通过使用在其它句子中与匹配的语段相配对的在一个句子中的每一个匹配的语段,或者使用在其它句子中与不匹配的语段相配对的在一个句子中的每一个不匹配的语段,LCS定义在输入和例句中的可替换的“匹配”和“不匹配”语段的一个序列。
因此,与现有技术相对比,确定相似性的第二阶段是基于LCS的计算而不是编辑距离。LCS相对于编辑距离以及其他字符串相似性的度量的一个优点是:LCS定义一个在输入字符串和实例字符串之间的对应,对应是在两个字符串中的一对语段从而使得两个字符串沿它们的长度划分为可替换的匹配/不匹配语段。在文献中对应(correspondence)经常被称作对准(alighment),但是在这里不同的术语被用来在不同语言的句子间将它和对准进行区别。空字符串被允许出现在任何一方。
在图4中示出了实例的对应,其中输入句子是“Mr.Sharp wasawarded a degree from Oxford University”,而所选择的例句是“he was awarded a doctorate from Cambridge University in1972”。匹配的语段是“was awarded a”、“from”和“University”,其他的部分是不匹配的语段(在图4中标记为29-1到29-4)。不匹配语段间的对应显示在图4中。
可替换的匹配和不匹配语段的序列而后被输入到一个计分函数,该函数量化两个句子的相似度。一个可能的计分函数,其优选长的匹配语段以及短的不匹配语段,如下所示:
similarity ( Q , X ) = Σ i = 1 m ( length ( q i ) ) 2 - Σ j = 1 u ( length ( q i ) + length ( x i ) 2 ) 2 length ( Q )
其中:
Q是输入句子;
X是例句;
m是对应中匹配语段的数量;
qi是第i个匹配语段;
u是对应中不匹配语段的数量;
qj是第j个输入的不匹配语段;以及
xj是第j个不匹配语段的实例;
这样的度量也可以被改变以利于各种对应的特征。例如,一项也可以被包括在上面的等式中,该项提供了一个较高相似性的分数,这里两方面的不配对语段具有相似长度。也存在几种途径,其中能够使得相似性计算对于输入句子和例句的语言学内容更加敏感。利于在句法结构上相似的不匹配语段的一个项能够被包括。如果查询项是词条,那么能够在一个词类序列中进行不匹配的语段相似性比较。如果可以获得词典,那么也可以包括语义的相似性或者近似性的度量。
如果没有能够查找到十分相近的实例,例如,相似性分数没有超过任何例句的确定阈值,那么系统可以不返回应答。在一个交互性环境中(典型的用于翻译存储系统),或者另一个翻译模块可以在多引擎环境中提供译文,这是一个可以接受的响应。可以选择的是,系统可以应用各种操作以将输入句子划分为能够被独立翻译的部分。例如,在上面的相似性表达式的一个微小的变化中,第一个和最后的不匹配语段排除在外(“末端自由”(ends-free)变化),允许局部相似的实例的检测,这些局部相似的实例能够被独立地被翻译并利用EMBT技术合并。
如上面所提到的,选择最高分数的例句,并且如同参照图2中步骤S3到S9将描述的那样,与其配对的目标语言译文被用做由翻译计划器部分11和翻译器部分13分别执行的翻译计划以及译文的译文基础。
在步骤S3,译文计划器部分11识别输入句子的不同于基础例句的相应部分的那一部分,这些部分分别被称作输入以及基础实例的不匹配语段。在这个实施例中,为输入句子和基础实例进行识别不匹配语段的任务将由如上面所述的对应器部分9来执行,并且由此这个任务不需要由翻译计划器部分11重复。因此,在步骤S3中,基于对应器部分9的先前分析,翻译计划器部分11识别一个输入不匹配语段以及相应的基础实例不匹配语段。如果对应器部分9已经先前识别了多于一个的不匹配语段,那么一个单个的这样的不匹配语段被选择以进行当前的迭代,在后续的迭代该语段移到另外的不配对语段。
在步骤S4,翻译计划器部分11查找在步骤S2中选择的目标语言翻译基础的部分,该部分对准于基础实例不匹配语段。翻译计划器部分11把该部分由输入不匹配语段的译文来替换记录在译文计划中。使用单词对准器24将源语言句子中的单词或短语与目标语言句子中的单词或短语进行对准的方法是不重要的,并且完成该方法的技术易于在上面参照的现有技术中查找到。实例在比单词更高的单元上被对准的程度越大,准确性和覆盖范围将被高的越多。
在这个阶段,不匹配的语段被扩展以包括发生在同一个对准中的任意相邻的匹配片段。例如,如果输入是“railway strike”并且基础实例包括“general strike”,那么在翻译基础中与单个的日文单词“genesuto”对准,后者必定由不匹配的“railway”和匹配的“strike”的翻译替换。因此,根据步骤S4的对准分析,步骤S4和步骤S3一起有效地操作以修正在步骤S3中识别的输入句和基础实例的不匹配语段。
翻译计划器部分11也可以用于确定在更复杂或者特殊的情况下所采取的行为,并且能够配置该行为作为可获得的什么知识、在特定的用法中(例如:交互性TM、多引擎等等)什么输出是合适的以及其他的参数的基础。
如下面参照步骤S8描述的那样,对每一个不匹配语段重复步骤S3和步骤S4,并且这导致完全翻译计划产生最终译文,所述完整翻译计划陈述如何处理在翻译基础中与输入不匹配语段对准的所有部分。在图5中说明了这样的一个完整翻译计划,其是基于上面参照图4说明的实例。显示在图5中的是译文基础的四个部分31-1到31-4,其各自对应于输入句以及基础例句的四个不匹配语段29-1到29-4。由翻译计划器部分13创建的翻译计划指示:翻译基础的31-1部分(“彼”,其相应于来自基础实例不匹配语段29-1中的“he”)将要被来自相应的输入不匹配语段29-1中的“Mr Sharp”的译文替换;翻译基础的31-2部分(“博士号”,其相应于来自基础实例不匹配语段29-2中的“doctorate”)将要被来自相应的输入不匹配语段29-2中的“degree”的译文替换;翻译基础的31-3部分(“ケンブリツシ”,其相应于来自基础实例不匹配语段29-3中的“Cambridge”)将要被来自相应的输入不匹配语段29-3中的“Oxford”的译文替换;由于相应的输入不匹配语段29-4为空,因而翻译基础的31-4部分(“1972年”,其相应于来自基础实例不匹配语段29-3中的“in 1972”)将要被删除。
尽管步骤S3和S4进行到由翻译器部分13翻译之前,对于每个不匹配语段,如图中说明的那样,重复步骤S3和S4以创建一个整体的翻译计划,然而在本实施例中,在步骤S3和步骤S4中为每个迭代设置一个涉及单个不匹配语段的“部分”翻译计划,而后立即使其传送到翻译器部分13以在步骤S5到S7中进行处理(下面将要描述)。由此图5示出了四个这样的“部分”翻译计划。
对于传送到翻译器部分13的特定的部分翻译计划,首先寻求对于整个的输入不匹配语段的译文,并且如果有一个语段不能够被查找到那么该语段被划分为子集并按顺序独立地查找这些子集的译文。为了方便,当前被翻译的输入不匹配语段的子集在这里被称作“焦点语段(focus stretch)”,其包括一个或者多个“焦点项”。“焦点语段”可以是整个输入不匹配语段。
在步骤S5,翻译器部分13使用输入焦点语段以从存储器17中选择一组“辅助实例”的句子。一个辅助实例是一个在存储器17中的包括一个或者多个焦点项的例句。存储器17中包含焦点项的例句在上面描述的与步骤2相关的初始检索阶段期间已经被确定,并且所述例句反映在如参考图3所说明的幂集数据结构中,这将在下面参考图6的步骤T1得到解释。
在步骤S6,根据辅助例句组来确定对应于输入焦点语段的可能的译文T的备选项,例如根据焦点语段和辅助实例之间的对应和辅助实例与其相关的目标语言译文之间的对准。在步骤S7,根据预先确定的选择算法(下面所描述的)来从译文T的备选项中选择译文,并且所选择的译文被用在步骤S9以替换在步骤S4中查找的部分。
现在,将参照图6中的流程图提供步骤S5到S7进一步的细节。
图6的步骤T1相应于步骤S5,并且包括检索包含焦点语段中的焦点项FT在内的幂集元素。例如,参考图3中示出的实例,如果焦点语段包括单个的焦点项“electronics”,那么幂集元素23-1、23-5、23-6和23-7的子集27将被选择,以使一组辅助例句被限定在相关的记录列表25-1、25-5、25-6和25-7中。如上面参照步骤S6所提及的,这些辅助例句限定可能译文T的备选项。
在备选项中的译文T是一个在输入句子中的焦点项的译文,其是由焦点语段和辅助实例之间的对应以及辅助实例和与其相关的目标语言译文之间的对准来确定。例如,一个焦点项“atmosphere”可以导致一些在环绕地球的物质的意义上包含单词“atmosphere”的辅助实例,以及在语气或者感情的意义上包含该单词的一些其它的实例;这两个意义有可能将与不同的译文相关,导致对于焦点项“atmosphere”的译文T的备选项。在备选项中的译文称作“辅助译文”。
现在将说明上面参照步骤S7提到的预先确定的选择算法。首先将提出该算法的一个全面的解释,接着将参照图6中所示的步骤给出在该实施例中该算法如何被实现的一个更加详细的解释。
一些辅助例句可以包括来自查询的其他项,所述项出现在最佳实例中并且在基础中具有译文。即使当这些在输入句子中的检索项自身不被翻译,通在输入句子和辅助例句之间共有的检索项的出现进一步证明了与辅助例句相关的译文是正确的。这样的检索项在输入句子中甚至可以与被翻译的焦点语段相去很远。
对于这样的证据所给的权重依赖于检索词是如何共有以及在句子中以及在焦点语段中要被翻译的原文是如何接近的结合。例如,在试图翻译单词“speech”(具有可选择的意义,如公开行为或者语言现象)时,通用单词“make”仅在非常接近时是一个公开行为意义的好的指示器,而一个更少见的单词例如“phonetic”是一个即使更远时其他意义的更好的指示。但是任何特定的一条证据都能够被误导(考虑‘his speech mentioned phonetics’)。为了最高的精度,多种来源的证据将被结合起来。
在本实施例中,对于具有焦点项FT的特定的焦点语段,通过为一个或者更多的的辅助实例的每一个分配权重来实现对于那些焦点项FT的特定的译文T的证据的结合,该辅助实例其特征是在其目标语言方的译文T,将这些权重相加:
goodness ( T , FT , s i ) = Σ s e ∈ S ( T ) weight ( s e , s i , FT ) ,
其中:
good(T,FT,si)是对于输入字符串si中焦点项FT的译文T的优良的度量;
S(T)是在其目标语言方的具有译文T的实例的子集;并且
weight(se,si,FT)是给予关于焦点术语FT的实例se和输入si的权重。
权重本身是关于在输入句子和实例的源语言方中的焦点项的语境中项的分布函数:
weight ( s e , s i , FT ) = Π ct ∈ C ( s e , s i ) term _ weight ( ct , FT , s e ) × term _ weight ( ct , FT , s i ) ,
其中,C(se,si)是由输入句子和例句共享的语境项的集合;
term_weight(ct,FT,s)是在关于FT的字符串s中由语境项‘ct’提供的权重,如下:
term _ weight ( ct , FT , s ) = d ( ct , FT , s ) 1 / ( k 1 * log ( freq ( ct ) / N ) + K 2 )
其中:
term_weight(ct,FT,s)是在字符串‘s’中在距最近的焦点项FT的距离为d(ct,FT,s)的单词位置上的的语境项‘ct’的权重;
freq(ct)是在N个文档的集合中语境项‘ct’的频率;并且
k1和k2是用来精调项权重的权重因子。
任何频率的语境项具有一个2个相邻于焦点项的权重,但是所述权重对于高频率项随着距离迅速下降。一个组语境项的权重是在输入句和实例中的权重的乘积。
返回图6的流程图,如上面解释的那样,已经在步骤T1中选择了一组幂集元素。在输入的情况下,对于在幂集元素中的每个语境项‘ct’,term_weight(ct,FT,si)的值仅需要被计算一次。参考作为一个实例的在图3中所示的幂集元素的子集27,对于每个幂集元素,焦点项FT是“electronics”,其中幂集元素中的任何其他单词构成语境项‘ct’。例如,对于幂集元素23-7,语境项‘ct’是“engineering”和“degree”。使用上面用于term_weight(ct,FT,si)的公式,在步骤T1中选择的幂集元素在步骤T2通过给予它们的语境项的权重,按照权重递减的顺序被排序。
而后按照在步骤T2中分配的顺序来选择这些幂集元素,并且考虑所述幂集元素所映射到的记录列表中个别实例的权重。在步骤T3,选择下一个幂集元素以进行分析(或者用于第一个迭代的第一个幂集元素),并且在步骤T4中,检索在与其相关的记录列表中的下一个辅助实例(或者用于第一个迭代的第一个辅助实例)。
在计算用于每个实例的表达式weight(se,si,FT)之前,首先确定实例是否被排除在考虑之外,或者至少是延迟考虑。这在步骤T5中通过计算在实例和输入的焦点项的配置之间的相似度来确定。除非这两者是接近相似的,否则其中一个的译文不太可能是另一个的好的译文。为了确定相似度,使用上面描述的“末端自由”公式来计算在实例和包括焦点项的最小语段之间的对应。这能够服从于一个相当高的阈值,而放弃任何低于阈值的实例以使处理返回到步骤T4以检索下一个实例。如果没有实例通过阈值,那么焦点项将在子集中被翻译,并且如每个这样子集所考虑的一样,将来自输入未匹配语段的其它项当作语境项。
如果一个实例超过阈值,那么处理继续进行到步骤T6,其中考虑语境项的作用。使用上面的公式获得一个用于实例的整体权重,并且这个权重被添加到相应于该实例的目标语言方的对于焦点项的译文T的权重。
确定不配对语段译文的处理能够停止在各个点。例如,在步骤T7,确定其权重已经被增加的译文是否已经达到或者超过了某一阈值。如果是,那么在步骤T8中选择该译文并且处理转到步骤T13。如果不是,处理继续到步骤T9。
在T9中,确定所考虑的实例的数量是否到达了某一阈值。如果不是,那么处理返回到步骤T4以处理下一个实例。如果是,进而确定在步骤T10中译文是否已经被查找到。如果是,那么在步骤T11中根据哪一个具有最高的权重来选择最好的译文并且处理转到步骤T13;如果不是处理转到步骤T12。
由于通常来说一起翻译两个或者更多项的事实是有利的,因而如果找到了对于给定的焦点组的任意译文,那么在考虑这个而不处理焦点项的较小子集之后,处理通常停止。然而,如果没有较大的焦点组的译文,将考虑较小的子集,并且这里语境项的作用将变得更为重要。如上面提到的,如果在查询和实例之间的相似度不足,那么在一个迭代中的焦点项可以成为后一个迭代中的语境项。
在步骤T12,确定是否存在任何进一步的幂集元素需要处理。如果是,处理返回到步骤T3以选择下一个幂集元素,并且如果不是,处理继续到步骤T13。(如果在要被处理的不匹配语段内存在进一步的焦点语段,那么在步骤T13执行之前对于这些进一步的焦点语段重复步骤T1到T12。)步骤T13对应于图2中的步骤S8,其中确定是否已经考虑了所有的不匹配语段。如果不是,则处理返回到图2的步骤S3,为下一个不匹配语段做准备。如果是,那么焦点语段的译文完成。
对于每个不匹配语段,在步骤S7中为不匹配语段选择的译文被用来替换在步骤S4中查找的部分,导致在步骤S10一个完整的输出目标语言句子,其由输出部分15提供。如果存在任何不能完整被翻译或者完全不能被翻译的不匹配语段,那么就需要人工介入以根据适当的考虑编辑输出句子。如果必要,在任何情况下句子都能够被提出以检查和编辑。在这样的编辑之后,输出目标语言句子本身能够和源语言输入句子一起被添加到存储器17中以便以后使用;这由图1中的从输入部分15到存储器17的返回路径16来表示。
图7说明了一个实例,其中具体实施本发明的翻译系统1已经被用于查找输入句子“That restaurrant offers a good atmosphere”的译文。在步骤S2中选择基础例句“That restaurant offers a goodservice”,以及与其配对的被用作翻译基础的译文“そのレストランはサ一ビスがいい”。在步骤S 3确定单个的输入不匹配语段以及相应的基础实例不匹配语段分别是“atmosphere”和“service”。在步骤S4中,在相应于基础实例不匹配语段“service”的翻译基础中查找对准部分“サ一ビス”,并且在翻译计划中对该对准部分进行标记以作为输入不匹配语段中的“atmosphere”的合适译文的替换。在步骤S5和S6中,“atmosphere”的译文的备选项(辅助译文)被确定包括“雾阱气”和“大气”。在步骤S7,根据上面描述的算法给这些辅助译文分配优选值,并选择具有最高优选值的“雾阱气”作为译文。在步骤S9,所选择译文“雾阱气”被用于替换在步骤S4中查找的译文基础的对准部分“サ一ビス”,使得输出目标句子“そのレストランは雾阱气がいい”。
可以对上面描述的实施例进行各种修改。例如,用于term_weight的公式能够通过参数k1和k2以及在训练组上的优选而得到精调。翻译系统也包括简单的分析程序,其中通过将单词位置的距离替换为相关图中距离的度量来修改用于term_weight的公式。用于term_weight的公式也可以通过用语境项和一个或多个焦点项的共同出现的度量来替换语境项的原始的正常频率而得到修改。辅助实例的权重也可能依赖于语境项是否以同样的方式在基础实例和辅助实例中被翻译,其中在两种情况下不同译文的出现指示该辅助实例的权重应当降低。
尽管在上面描述了在步骤S2中,选择单个的基础实例,给予最高的相似性分数,但是选择超过一个的基础实例以进行进一步的分析当然也是可能的,例如给予的最高的相似性分数的这些实例。在这样的情况下,每一个这样选择的基础实例将经历参照步骤S3到S9描述的相同的翻译处理,并且无论是给予最佳译文的输出句子将被选择以用作步骤S10的输出目标语言句子,或者是能够向翻译系统1的用户呈现译文的备选项,这些备选项按顺序排列以进行选择和/或者进一步的编辑。
本发明的实施例通过允许检索的例句在较多种方式上不同于输入句子,对现有技术中的翻译存储器系统(例如:WO99/57651)做了改进。名称和数量的种类被扩展到任意成分,所述成分的译文可以通过语境来确定,并且在整个译文中所确定的译文在恰当的点被取代。这增加了TM可应用的输入的范围并且减少了将翻译基础转化为正确的输入译文所需要的人工介入的总量。这些因素都改进了TM对于翻译器的实用性。
很明显,在上面的实施例和现有技术的基于实例的MT系统中建立的翻译过程是不同的。尽管如此,本发明的各个方面适用于一个具有有益效果的基于实例的MT系统,这也是很明显的。例如,用于结合辅助译文的框架的不连续的对应的使用将是一种用于避免依赖于对于输入和实例的完全语法分析以及实例对的源语言和目标语言方的基于语法的对准的有益的方式。此外,用来确定最佳译文的频率和语境相似性的结合可以被应用于在EBMT系统的操作内的任何片段的翻译并具有有益的效果。
在本发明实施例中,对应的概念允许单个最佳实例作为语法模板。这限制了调用一些内容但是保持高的精确度。该模板内不匹配语段的译文在适当的点被替换。即使当在具有不同词序的语言间翻译时,例如,英语和日语,实例的完全的语法分析的提出是不必要的。然而,不匹配语段的语法分析在保持精确度的同时扩展了该技术的应用性。
本发明的一个实施例也提供了以下问题的解决办法:通过将关于特定译文频率的信息与确定每个译文的语境适当性的证据相结合,来选择每个片段的最佳译文。现有技术没有进行这样的结合:即把关于用于给定的源语言短语的特定译文频率的信息与关于输入和实例的相似性的信息进行的结合,其中它按顺序出现以获得译文的质量因数的度量。
应该理解的是,具体实施本发明的翻译系统能够以硬件或者软件或其结合来实现。例如,本发明的实施例能够在计算机程序的控制下执行。这样的程序能够存储在计算机可读介质中,或者能够使用信号来具体实施,例如由因特网站点提供的可下载数据信号。所附的权利要求将解释作为独立地覆盖计算机程序、或者作为在载波上的记录、或者作为信号、或者以任何其他形式。
尽管上面描述的实施例涉及一种翻译装置,其中输入是一个第一(源)语言的单词序列(句子),输出是一个第二(目标)语言的单词序列(句子),但是应该理解的是,该发明具有更宽阔的应用,而不限于口语之间的翻译。输入可以是第一格式的数据项序列并且输出可以是第二格式的数据项序列,其中数据项可以是任意类型的数据。
也应该理解的是,用于确定基础实例的实例存储器可以不同于用于确定辅助实例的实例存储器。例如,前者可能是一个独立的、通用的TM系统的一部分,用来提供如上面描述的由翻译计划器部分11和翻译器部分13使用的基础实例。

Claims (38)

1.一种使用一个存储器(17),其包括第一格式中的大量实例序列,每一个实例句子都与第二格式的其译文相配对,把第一格式的数据项输入序列(3)翻译为第二格式的数据项输出序列(15)的方法,该方法包括:
(a)根据输入序列(15)和存储器(17)中大量的实例序列中的每一个的比较,从存储器(17)中选择(S2)一个基础实例序列,并使用与其配对的译文作为翻译基础;
(b)识别(S3)输入序列的不同于基础实例序列的相应部分(29-1到29-4)的那些部分(29-1到29-4),这些部分分别被指定为输入和基础实例不匹配部分;
(c)查找(S4)相应于基础实例不匹配部分(29-1到29-4)的翻译基础的部分(31-1到31-4);
(d)使用(S5)输入不匹配部分来从存储器(17)中选择一组辅助实例序列;
(e)从一组辅助实例序列确定(S6)相应于输入不匹配部分(29-1到29-4)的可能译文的备选项;
(f)根据预先确定的选择算法从备选项中选择(S7)一个译文,并且使用(S9)所选择的译文来替换在步骤(c)中查找的部分;
(g)使用(S10)步骤(f)的结果作为数据项输出序列(15)的基础。
2.如权利要求1所述的方法,其中对于在输入序列中识别的大量的输入不匹配部分,重复(S8)步骤(b)到(f)。
3.如权利要求2所述的方法,其中对于在输入序列中识别的每个不匹配部分,重复(S8)步骤(b)到(f)。
4.如权利要求1、2或3所述的方法,其中在步骤(a)选择的基础实例序列是一个来自于存储器(17)的、根据预先确定的紧密度量最紧密匹配于输入序列(3)的实例序列。
5.如前述任意权利要求所述的方法,其中在步骤(b)中识别的基础实例不匹配部分(29-1到29-4),以及在步骤(c)中查找的与其相应的译文基础部分(31-1到31-4),可以是位于两个相邻的数据项之间的空序列,以便在步骤(f)中的替换是一个在该位置上的有效的插入。
6.如前述任意权利要求所述的方法,其中在步骤(f)中根据语境,所选择译文的词法变体被用来替换在步骤(c)查找的部分。
7.如前述任意权利要求所述的方法,其中在用作数据项的输出序列(15)之前,对从步骤(f)产生的序列执行进一步的处理。
8.如前述任意权利要求所述的方法,其中数据项是单词。
9.如权利要求8所述的方法,其中第一和第二格式分别是第一和第二语言。
10.如权利要求9所述的方法,其中数据项的输入序列形成一个语法上完整的短语。
11.如权利要求10所述的方法,其中数据项的输入序列形成一个句子。
12.如前述任意权利要求所述的方法,其中在步骤(c)中使用在基础实例序列的部分和与其配对的译文的各个部分之间的对准来查找部分(31-1到31-4)。
13.如权利要求12所述的方法,其中对准是预先确定的。
14.如前述任意权利要求所述的方法,其中步骤(d)包括,如果在实例序列中至少一个数据项匹配或者对应于输入不配对部分(29-1到29-4)中至少一个数据项,那么选择一个实例序列以包含在该组中。
15.如前述任意权利要求所述的方法,其中步骤(e)包括,为该中的辅助实例,识别该辅助实例的相应于输入不匹配部分(29-1到29-4)的部分,并且使用与辅助实例配对的译文的相应部分来形成备选项中的可能译文之一。
16.如前述任意权利要求所述的方法,其中预先确定的选择算法包括,为备选项中的至少一个译文的每一个分配给译文一个优选值,该优选值依赖于导出译文的至少一个辅助实例而确定。
17.如权利要求16所述的方法,其中优选值依赖于输入序列和至少一个辅助实例中的每一个之间的比较而确定。
18.如权利要17求所述的方法,其中优选值通过向这样的比较或每一个这样的比较分配权重并且将一个(或多个)所分配的权重以预先确定的方式合并而确定。
19.如权利要求18所述的方法,其中权重依赖于所比较的输入序列和辅助实例之间共有的数据项或者变量的数量而分配。
20.如权利要求18或19所述的方法,其中权重依赖于输入序列和辅助实例之间共有的数据项的下列属性中的一个或多个而分配:在共有数据项的序列中的位置;在预先确定的语言资料库中共有数据项的频率;共有数据项和输入不匹配部分共同出现的频率;以及共同出现的频率和由共有数据项以及输入不匹配部分(29-1到29-4)的频率预测的频率之间的偏差。
21.如权利要求20所述的方法,其中权重依赖于相对于不匹配部分(29-1到29-4)在共有数据项的序列中的位置而分配。
22.如权利要求18到21中任意一个所述的方法,其中一个(或多个)所分配的权重通过求和相合并。
23.如权利要求17到22中任意一个所述的方法,其中在输入不匹配部分(29-1到29-4)中的一个(或多个)数据项没有包括在比较中。
24.如权利要求16到23中任意一个所述的方法,其中优选值依赖于在翻译基础和与至少一个的辅助实例的每一个配对的译文之间的比较而确定。
25.如权利要求16到24中任意一个所述的方法,其中预先确定的选择算法进一步包括根据一个(或多个)分配的优选值从备选项选择译文。
26.如权利要求16到25中任意一个所述的方法,其中优选值被分配给配选项中的译文或备选项中的每一个译文。
27.如权利要求16到26中任意一个所述的方法,其中优选值依赖于导出译文的辅助实例或每一个辅助实例而确定。
28.如前述任意权利要求所述的方法,其中预先确定的选择算法允许人工介入以影响所选择的译文。
29.如前述任意权利要求所述的方法,包括,其中在步骤(f)未能选择合适的译文,将输入不匹配部分(29-1到29-4)细分为大量的输入不匹配部分并识别相应的各个基础实例不匹配部分,并且对每个不匹配部分执行步骤(c)到(f)。
30.如前述任意权利要求所述的方法,包括,其中在步骤(a)未能查找到合适的基础实例,将输入序列(3)细分为大量的输入子序列,对每个这样子序列执行步骤(a)到(f),并将步骤(f)的结果相合并以在步骤(g)产生输出序列。
31.如前述任意权利要求所述的方法,其中存储器(17)包括分别用于步骤(a)和步骤(d)的分离存储器。
32.一种使用一个存储器,其包括第一格式中的大量实例序列,每个实例序列都与第二格式的其译文相配对,把第一格式的数据项的输入序列(3)翻译为第二格式的数据项的输出序列(15)的设备,包括:
装置(7,9),用于根据输入序列(15)和存储器(17)中大量的实例序列中的每一个的比较,从存储器(17)中选择一个基础实例序列,并使用与其配对的译文作为翻译基础;
装置(9,11),用于识别输入序列(15)的不同于基础实例序列的相应部分(29-1到29-4)的那些部分(29-1到29-4),这些部分分别被指定为输入和基础实例不匹配部分;
装置(11),用于查找相应于基础实例不匹配部分(29-1到29-4)的翻译基础的部分(31-1到31-4);
装置(13),用于使用输入不匹配部分(29-1到29-4)来从存储器(17)中选择一组辅助实例序列;
装置(13),用于从该组辅助实例序列中确定相应于输入不匹配部分(29-1到29-4)的可能译文的备选项;
装置(13),用于根据预先确定的选择算法从备选项中选择一个译文,并且使用所选择的译文来替换在查找装置(13)中查找的部分;
装置(13),用于使用选择装置(13)的结果作为数据项的输出序列(15)的基础。
33.一种翻译存储器系统包括如权利要求32所述的设备。
34.一种计算机程序,当在一个计算机上运行时,使得计算机执行如权利要求1到31中任意一个所述的方法。
35.一种计算机程序,当下载到计算机上时,使得计算机成为如权利要求32所述的设备或者如权利要求33所述的系统。
36.一种如权利要求34或35中所述的计算机程序,在一个载体介质上执行。
37.一种如权利要求36中所述的计算机程序,其中载体介质是传输介质。
38.一种如权利要求36中所述的计算机程序,其中裁体介质是存储介质。
CNB2005100922768A 2004-06-24 2005-06-24 一种基于现有译文的储存库的翻译方法及设备 Expired - Fee Related CN100550008C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0414180.0 2004-06-24
GB0414180A GB2415518A (en) 2004-06-24 2004-06-24 Method and apparatus for translation based on a repository of existing translations

Publications (2)

Publication Number Publication Date
CN1801141A true CN1801141A (zh) 2006-07-12
CN100550008C CN100550008C (zh) 2009-10-14

Family

ID=32800129

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100922768A Expired - Fee Related CN100550008C (zh) 2004-06-24 2005-06-24 一种基于现有译文的储存库的翻译方法及设备

Country Status (4)

Country Link
US (1) US7707025B2 (zh)
JP (1) JP2006012168A (zh)
CN (1) CN100550008C (zh)
GB (1) GB2415518A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
CN102135957A (zh) * 2010-01-22 2011-07-27 阿里巴巴集团控股有限公司 一种翻译短句的方法及装置
CN102163192A (zh) * 2010-02-24 2011-08-24 英业达股份有限公司 翻译例句生成与播放系统及其方法
CN103020042A (zh) * 2011-09-22 2013-04-03 株式会社东芝 机器翻译装置及机器翻译方法
CN104412256A (zh) * 2012-07-02 2015-03-11 微软公司 生成本地化用户界面
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
CN107391494A (zh) * 2017-03-24 2017-11-24 庄世丞 翻译辅助系统
CN110909552A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 翻译方法及装置
WO2022242535A1 (zh) * 2021-05-21 2022-11-24 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214196B2 (en) * 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
CN1894688A (zh) * 2003-12-15 2007-01-10 有限会社言语技术研究所 对译判断装置、方法及程序
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
JP3984642B2 (ja) * 2005-07-06 2007-10-03 松下電器産業株式会社 対話支援装置
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
FR2896603B1 (fr) * 2006-01-20 2008-05-02 Thales Sa Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel
EP2511833B1 (en) * 2006-02-17 2020-02-05 Google LLC Encoding and adaptive, scalable accessing of distributed translation models
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
GB2444084A (en) * 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
KR100893129B1 (ko) * 2007-10-24 2009-04-15 엔에이치엔(주) 멀티 미디어 컨텐츠의 추천 키워드 추출 시스템 및 그 방법
WO2009107456A1 (ja) 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
WO2011011777A2 (en) * 2009-07-24 2011-01-27 Discovery Engine Corporation Pre-computed ranking using proximity terms
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8983850B2 (en) 2011-07-21 2015-03-17 Ortsbo Inc. Translation system and method for multiple instant message networks
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8983825B2 (en) * 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US8874428B2 (en) * 2012-03-05 2014-10-28 International Business Machines Corporation Method and apparatus for fast translation memory search
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9424360B2 (en) * 2013-03-12 2016-08-23 Google Inc. Ranking events
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
CN104731776B (zh) * 2015-03-27 2017-12-26 百度在线网络技术(北京)有限公司 翻译信息的提供方法及系统
CN106372053B (zh) * 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
US9558182B1 (en) * 2016-01-08 2017-01-31 International Business Machines Corporation Smart terminology marker system for a language translation system
JP6631930B2 (ja) * 2017-02-07 2020-01-15 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
US10275462B2 (en) * 2017-09-18 2019-04-30 Sap Se Automatic translation of string collections
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
US20220374614A1 (en) * 2021-05-18 2022-11-24 International Business Machines Corporation Translation verification and correction

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0672989A3 (en) 1994-03-15 1998-10-28 Toppan Printing Co., Ltd. Machine translation system
EP0834139A4 (en) 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
GR1002453B (el) 1995-10-20 1996-10-15 Εξυπνη συσκευη για ανακτηση πολυγλωσσων κειμενων.
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
US7020601B1 (en) 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6345244B1 (en) 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6535842B1 (en) * 1998-12-10 2003-03-18 Global Information Research And Technologies, Llc Automatic bilingual translation memory system
JP2000250913A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
US6598015B1 (en) 1999-09-10 2003-07-22 Rws Group, Llc Context based computer-assisted language translation
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
JP2002278963A (ja) 2001-03-15 2002-09-27 Logo Vista Corp 事例翻訳装置
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
KR100453227B1 (ko) 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
US20040002849A1 (en) 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
CN102135957A (zh) * 2010-01-22 2011-07-27 阿里巴巴集团控股有限公司 一种翻译短句的方法及装置
CN102163192A (zh) * 2010-02-24 2011-08-24 英业达股份有限公司 翻译例句生成与播放系统及其方法
CN103020042A (zh) * 2011-09-22 2013-04-03 株式会社东芝 机器翻译装置及机器翻译方法
CN104412256A (zh) * 2012-07-02 2015-03-11 微软公司 生成本地化用户界面
CN104412256B (zh) * 2012-07-02 2017-08-04 微软技术许可有限责任公司 生成本地化用户界面
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN105808528B (zh) * 2016-03-04 2019-01-25 张广睿 一种文档文字的处理方法
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN105760368B (zh) * 2016-03-11 2019-02-12 张广睿 一种文档文字的深度处理方法
CN107391494A (zh) * 2017-03-24 2017-11-24 庄世丞 翻译辅助系统
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
CN110909552A (zh) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 翻译方法及装置
CN110909552B (zh) * 2018-09-14 2023-05-30 阿里巴巴集团控股有限公司 翻译方法及装置
WO2022242535A1 (zh) * 2021-05-21 2022-11-24 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Also Published As

Publication number Publication date
US7707025B2 (en) 2010-04-27
GB0414180D0 (en) 2004-07-28
CN100550008C (zh) 2009-10-14
JP2006012168A (ja) 2006-01-12
GB2415518A (en) 2005-12-28
US20060004560A1 (en) 2006-01-05

Similar Documents

Publication Publication Date Title
CN1801141A (zh) 一种基于现有译文的储存库的翻译方法及设备
US8341112B2 (en) Annotation by search
CN101271452B (zh) 生成译文和机器翻译的方法及装置
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
US7295963B2 (en) Adaptive machine translation
US20150051896A1 (en) Method and apparatus to construct program for assisting in reviewing
CN1661593A (zh) 一种计算机语言翻译方法及其翻译系统
CN1475907A (zh) 基于例子的机器翻译系统
CN1623146A (zh) 用于超链接名称的系统、方法和软件
CN1094618C (zh) 机器翻译中的语法自纠正方法
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1629833A (zh) 实现问与答功能和计算机辅助写作的方法及装置
CN1617134A (zh) 使用机器翻译技术处理释义的系统
CN101065746A (zh) 文件自动丰富的方法和系统
CN1744087A (zh) 搜索文档的文档处理装置及其控制方法
CN1908935A (zh) 一种自然语言的搜索方法及系统
CN105677725A (zh) 一种用于旅游垂直搜索引擎的前置解析方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
CN101075230A (zh) 一种基于语块的中文机构名翻译方法及装置
US7593844B1 (en) Document translation systems and methods employing translation memories
US20050256698A1 (en) Method and arrangement for translating data
Nazarenko et al. Evaluating term extraction
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
Martínez-Santiago et al. A merging strategy proposal: The 2-step retrieval status value method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091014

Termination date: 20140624

EXPY Termination of patent right or utility model