CN1110882A - 处理两种文字对照的数据库的方法与装置 - Google Patents

处理两种文字对照的数据库的方法与装置 Download PDF

Info

Publication number
CN1110882A
CN1110882A CN94190391A CN94190391A CN1110882A CN 1110882 A CN1110882 A CN 1110882A CN 94190391 A CN94190391 A CN 94190391A CN 94190391 A CN94190391 A CN 94190391A CN 1110882 A CN1110882 A CN 1110882A
Authority
CN
China
Prior art keywords
word
corpus
measured value
proposes
aligning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN94190391A
Other languages
English (en)
Other versions
CN1110757C (zh
Inventor
T·F·奥唐诺休
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CANONG Co Ltd
Original Assignee
European Canon Co ltd
Canon Research Centre Europe Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Canon Co ltd, Canon Research Centre Europe Ltd filed Critical European Canon Co ltd
Publication of CN1110882A publication Critical patent/CN1110882A/zh
Application granted granted Critical
Publication of CN1110757C publication Critical patent/CN1110757C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Abstract

生成或从外部源接收对准的语料库(206, CORPE,CORPF)。各语料库包括与另一语料库的 相应部分对准的部分,它们是两种自然语言的互为译 文。编制一个统计数据库(210),估计模块(212)为 从各语料库中选出一个字的字对计算相互关联评 分。给定一个正文部分对(每一种语言中一个部分), 估计模块(212)组合字对相互关联评分以得出该正 文部分的对准评分。这些对准评分可用于检验一个 译文(230)与/或修正对准的语料库(206)以消除不 可信的对准。

Description

处理两种文字对照的 数据库的方法与装置
技术领域
本发明涉及处理包括对准的语料库的两种或多种文字对照的数据库的方法与装置,用这种数据库自动翻译的方法与装置。背景技术
对准的语料库为分成对准的部分的两种(或以上)正文体,使第一种语言语料库中的各部分映射到第二种语言语料库的对应部分上。各部分通常可包括一个单句或短语,但也可包括一个字或者甚至整个段。对准的语料库可用作自动翻译系统中的一个数据库,其中给定了第一种语言中的一个字、短语或句子时,如果它与已经存在在数据库中的一个部分匹配或以某种方式相似时,便能自动地得出第二种语言中的对应译文。这一原理可扩展到使两种以上的语料库对准,以便翻译成多种语言。
在五六十年代,普遍认为在不久的将来研制通用翻译系统是可能的。但由于需要大量背景信息与“智能”,所以稍后便意识到这种系统是甚为遥远的甚至有可能是根本不能实现的。但也意识到对准的语料库可用于小型专业化领域内的自动翻译。这是因为具有许多不同意义的“问题字”在一个专业化的活动领域的范围内,会趋于具有十分有限的意义范围。
然而,在建立这种专业化翻译系统中,尤其是假定为一种活动领域生成的数据库是理想地依据大量以前翻译的文件而可能不适用于另一领域的应用时,生成高质量的对准的语料库的问题仍然是第一位的。首先,要求工作在各领域中的用户生成他们自己的数据库,而这倾向于否定这种自动化系统的使用,从而仍然依赖于人类翻译人员。例如,美国专利5,140,522描述了一种机器翻译系统,其中在使用过程中建立起一个以前翻译过的句子的数据库,但并未公开不用人类翻译人员的初始努力而得到这一数据库的任何方法。
为了论述上述问题,现在作为GB-A-2272091公布的共同未决英国专利申请描述了生成对准的语料库的一种自动化系统。在这里引入GB-A-2272091的内容。该自动化系统响应字处理装置在大多数文件中插入的格式码,诸如指明新的一章的标题或表中的新项。对于包含诸如电子装置的使用说明书等在内的各种文本,这些格式码之间的正文部分小到足以用作对准语料库中的对准部分。从而,在上述申请中所描述的系统比较简单,这在于无需判断字的意义,也无需将正文剖析成句子或更小的单元。另一方面,由于种种原因,得到的对准是不完美的,使得数据库中包含不正确的对准的形式的“噪声”。
在计算语言学会第29次年会(Berkeley,Caliqornia)会报中,诸如W A Gale与K W Church在“两种文字对照的语料库中对准句子的程序”,以及P.F.Brown等人在“在并行语料库中对准句子”中已经描述了自动化生成对准的语料库的替代方法。Brown等人提出的系统在欧洲专利申请EP A-0525470中有更全面的描述。在这些系统中,所使用的部分对应于句子,并且对准是通过比较句子的长度,或者以字数(Brown等人)或者以字符数(Gale与Chureh)来进行的。当然,用这些方法得出的对准语料库也会包含错误的对准,根据文献,至少达到百分之几的水平。
Brown等人的文献描述了在自动生成的对准语料库的一个小的抽样(一百万对句子中的一千对)上人工进行的一次随机检验。这一工作揭示存在着一定观察到的概率的错误,但是在假定人工检验整个数据库是不现实的情况下,并未提出检测与纠正任何明显的错误部分的任何可实行的方法。再者,由于“锚定点”的一次比较揭示了节之间的不匹配,已经丢弃了大量的节(大约语料库的10%)。由于Gale与Church提出的自动对准方法是基于句子长度的或然相关性的,所以这两位作者建议只需简单地略去最小可能性的对准便能消除许多错误的对准。这种取舍可能是有价值的,但数据库的质量仍然受到句子长度的相互关联是对准的唯一关键这一假设的限制。
Brown等人的翻译系统(EP-A-0525470)利用在其间进行翻译的源与目标语言的相对地复杂的统计模型,使得数据库中低程度的“噪声”是能够容忍的。然而,对于在US 5,140,522及GB-A-2272091中所描述的那种较简单的基于存储器的系统,对于一个给定的句子中的各种不正确对准可以导致输出完全不正确的译文。发明的公开
本发明采用统计技术来检测对准正文部分中可能存在的错误。可在使用前用于消除数据库中的错误对准,与/或应用一个“有噪声的”数据库或某种其它方法来排除已得出的错误译文。在特定的实施例中,本发明能够推导出一个评分来测定两种文字对照的字对的相互关联。然后可将字对的评分综合以推导出对准部分的任何提出的对的评分。这些部分可以是从外部接收的,或者是来自数据库本身的对准部分。与作为一个整体的数据库的统计数字相比,可以从数据库中消除呈现为错误的对准。
因此,本发明能以最少的人工干预及处理要求改进包含对准的语料库的数据库。特别是,即使所实现的处理是基于统计的,并且处理器对语料库的语义与语法保持不注意的情况,在实践中也发现能用相对廉价的处理设备快捷地进行高质量的对准语料库的生成。
因为不论用什么技术从前面翻译的文件生成对准语料库时都能独立地实现本技术,它便能用于改进现存的数据库,及检测出执行原始对准的装置不能提示的错误。
注意到EP-A-0499366(英国与外国圣经协会)描述了一种检验由翻译生成的两种文字对照的语料库的过程。这一过程计算字对的评分,并通过一个重复的过程,建立一个翻译“字典”。然后用它来突出某些字的翻译中的可能不符合性。
本发明还提供翻译方法与装置、经过处理的数据库之类,如从属权利要求中所提出的。
下面参照附图用实例的方法描述本发明的实施例,附图中:
图1示出体现本发明的一种翻译系统的硬件;
图2示出图1的系统的操作结构;
图3示出包括一对对准的语料库的数据库结构;
图4示出用于图3的数据库的字频表;
图5示出用于图3的数据库的配对频率表;
图6为该系统的统计分析程序的操作的示意性流程图;
图7为该系统中的一个估计模块的部分操作的流程图;
图8为该估计模块的另一部分操作的流程图;
图9为使用该估计模块的数据库的改型的流程图;
图10为使用该改型后的数据库翻译一个正文的流程图;以及
图11为一个示例数据库中的对准评分的直方图。
具有部分A至G的附录提出英文与荷兰文的对准语料库的一个实例,以及分析程序与估计模块对该实例的操作结果。
在图1的系统中,用户的人机对话是用键盘10与显示屏12进行的,处理器单元14包括全都是传统构造的一个中央处理器(CPU)、半导体存储器(RAM与ROM)与接口电路。一个磁与/或光盘存储器16为存储多种文字对照的数据库、要翻译的正文及用于控制整个系统的操作的程序的大容量存储器。设置了一个可装卸的盘存储器18用于与系统进行新的数据与程序的通信。
本实施例的一个优点是该系统的上述硬件是可以从个人计算机或工作站型计算机购买的。图2示出图1的系统的操作结构。该系统存储有包含已经存在的两种或两种以上语言的一篇或多篇参照正文的源数据。例如,图2中200所示的一篇正文REFTEXT1E为存储在202的一个注文文件REFTEXT1F的一篇英文译文。提供了一个对准模块204,它能读取这种正文对并生成对应的对准的语料库对,如图2中206所示。对准的语料库206构成一个供翻译新文件用的两种文字对照数据库的主要部分。
提供了一个为对准语料库206生成一个统计数据库210的分析程序模块208。提供了一个用统计数据库210中的信息来测定对准语料库或其它正文中的对准质量的估计模块212。提供了一个读取一个输入正文(例如通过磁盘驱动器18)来生成一个输出正文文件218的翻译模块214。对于任何模块,与一位操作人员的人机对话是可能的,例如,使翻译模块214能够咨询一位熟练的人类翻译家。
应当理解,在实践中各种结构都是可能的,例如,翻译模块及分析与估计模块204、208与212可设置在分立的装置中,而数据库信息206与/或210则生成在一个装置中并与翻译用的一个第二装置进行通信。这在实践中的用处在于可在中心生成与估计及维护对准的语料库,然后将要翻译的文件分配给想要用个人计算机之类在他们家中或小型办公室中用诸如翻译模块214远程地工作的熟练的翻译家与编辑。
如上所述,对准语料库发生器204可具有已知的设计,诸如前面的申请GB-A-2272091或者在Gale与Church或Brown等人的论文中所描述的。再者,生成原始对准语料库的方法与对本发明的理解无关,因此不再详述。图3示意性地示出在包含一对对准语料库的情况下的两种文字对照的数据库206的结构。图3的例子是小的并且只是示意性地提出的,但是一个小而全的实例将参照附录在以下描述。
在图3中,一个英文语料库CORPE包括正文的多个部分,它们是可用数字寻址的并称作“块”CORPE [I],其中I=1,2,3等。取决于生成对准语料库的方法,各块可大致上对应于一个原始源文件的一个句子,或正文的一个或长或短部分。两种情况中,各块CORPE[I]包括用CORPE[I][J]参照的可变数量的较小基元。在本例中,这些较小的基元为英文正文中的单字。从而,诸如块CORPE[1]包括两个字:CORPE[1][1]为“Good”而CORPE[1][2]为“day”。CORPE[3][1]为字“No”,而CORPE [6][1]为字“Yes”。字CORPE[5][2]与CORPE[4][3]在图中加上了标号供进一步示例。
在图3的另一侧为一个第二(法语)语料库CORPF,它包含相等数目的块CORPF[I],每一个对应于英文语料库中的相同编号的块CORPE[I]。特别是,一个关系REL至少在某种名义的意义上,确定各英文块CORPE[I]为对应的法文块CORPF[I]的一种译文。虽然各块是与对方语料库中正好一块对准的,但对准的块内的字数则不必要相等。例如,法文语料库中第一块包括单字“Bonjour”但英文语料库中第一块则包括两个字“Good”与“Day”,如所示。对比文件中还描述了包括一个句子的一个部分与包含两个句子的一个部分对准的实例。
应能理解,在对准的语料库CORPE与CORPF中的块的对准仅此而已。这些对准尚未经过一位熟练的翻译人员逐条核对,并且只是对比文件中所描述的那种自动化比较的“推测”。很清楚,这种对准并不表明两个块互为译文,甚至并不开始表示对准的块中的单个字之间的任何特定关系。因此,在数据库中并不意味字“Yes”与“Oui”互为译文,只是它们两者碰巧作为第一个字出现在对准的语料库中的对应块中。
图4与5示出统计分析程序208的输出,在本实施例中它们生成下述频率表。表FREQE(图4)为英文语料库CORPE的字频表。表FREQE中一项的索引为来自英文语料库中的一个单字。而在这一字下存储的项则是该字在语料库中出现的次数。已知有若干种传统的程序设计语言提供这种所谓的“关联寻址”。这些语言中包括Lisp、POP-11、PERL、AWK。当然,在不提供关联寻址的环境中,可以由系统设计员明确地实现。
第二字频表FREQF中包含法文语料库CORPF的字频。这些表在本实施例中并不是大小写敏感的,因此“Yes”与“yes”作为同一个字对待。这里用“大括号”即波形括号{}表示关联寻址。
第三表PAIRFREQ(图5)存储对准语料库的字对频率。这是一张概念上的二维表,其各项可用一个字对关联寻址:一个字来自英文语料库CORPE而另一个字来自法文语料库CORPF。对于一个给定的字对,诸如“good”与“bonjour”,表项PAIRFREQ{good,boujour}存储这两个字出现在对准的语料库的对应块中的次数。
图5中加影线的框表示对应于图3的示例语料库中所示的少数字的项。由于这两个字出现在对准的块CORPE[1]与CORPF[1]的第一对中,因此项PAIRFREQ{good,bonjour}中包含一个至少为1的值。类似地,由于这一字对也出现在第一对对准的块中,因此PAIRFREQ{day,bonjour}中包括至少为1的一个值。
对于各语料库,存储了字的总数,它等于本例中表FREQE或FREQF的所有项的和。类似地,记录了所有字对的总数,它自然是二维对频率表PAIRFREQ中的所有项之和。
熟悉本技术的人员会理解,为了将表PAIRFREQ真正地实现为一个二维表会得出一个非常稀疏的数组。可采用更有效的实现方法,其中该表为相似于数组FREQE与FREQF的一个一维关联数组。这可以通过将一对中的字连接成一个单一的串来检索该表而容易地做到。因而,例如不将“good”与“bonjour”作为一个二维地址{good,bonjonr}的独立成分,而将整个串“good-bonjour”作为用于关联寻址表PAIRFREQ的对应项的一个单一的一维项对待。
图6示意性地示出在统计,分析程序208从对准语料库CORPE与CORPF中生成统计数据库210时的操作的流程图。在一个初始化步骤600中,为对频率表PAIRFREQ保留空间,并归零其所有项。类似地为字频表FREQE与FREQF保留空间,并且也将它们的项归零。建立一个对计数变量PAIRTOTAL并将其设置为0,同样建立和归零字计数变量ETOTAL与FTOTAL。
进程的其余部分包括一系列嵌套的循环。为每一对对准的块CORPE[1]与CORPF[1]执行一次主循环602,其中I每通过该循环一次便从1向上增加1,直到考虑了每一对对准的块为止。在主循环602内一个深层循环604为英文语料库的当前块内的各字CORPE[I][J]执行一次。在循环604内,一个更深层的循环606为法文语料库CORPF中的对应块的各字CORPF[I][K]执行一次。在这一内循环606中,将对应于对频率表PAIRFREQ中的当前字对的一个项增加1。如上面所指出的,数组PAIRFREQ是可以通过参照一个英文-法文字对关联地寻址的。还在循环606内,将计数器变量PAIRTOTAL增加1。
在循环604与606之外,但仍在主循环602之内,为英文语料库的当前块中每一个字CORPE[I][J]执行一次另一个循环608。将字频表FREQE中的一个项增加1,并同时将英文语料库的总的字计数ETOTAL增加1,完成循环608之后,为法文语料库内的每一个字CORPF[I][K]执行一次主循环602内的另一个循环610。在这一循环中,将字频表FREQF中的项增加1来记录字CORPF[I][K]的出现,并同时将法文语料库的总的字计数FTOTAL增加1。
因此,一旦为对准的语料库CORPE与CORPF中每一对对准的块执行过主循环602之后,表PAIRFREQ中包含对准的块中每一个唯一的字对的出现次数的记录,表FREQE记录了英文语料库中各唯一的字的出现次数,而表FREQF则记录了法文语料库中各唯一的字的出现次数。同时,字对的总数则记录在变量PAIRTOTAL中,英文语料库中的字的总数记录在变量ETOTAL中而法文语料库CORPF中的字的总数则记录在变量FTOTAL中。
图7与8示出图1中所示的估计模块212的操作,具体地,图7示出了各字对的相互关联测定值或“评分”的计算,而图8则示出使用包含在块中的字对的对评分,计算对准的各块对的评分。
在图7中,操作从步骤700开始,在其中接收到一对字WORDE与WORDF。在步骤702中,使用统计数据库210的表计算三个概率值。通过将记录在对频表(图5)中的一个字对频率PAIRFREQ{WORDE,WORDF}除以该表中所记录的字对的总数PAIRTOTAL为该字对计算一个对概率值PAIRPROB。从而,PAIRPROB测定所接收的字对出现在数据库的对准的语料库中任何两个对准的块中的观测到的概率。
通过将英文语料库中单独的英文字WORDE的出现频率除以英文语料库中的总字数而计算一个值EPROB。这便是,将表项FREQE{WORDE}除以值ETOTAL。从而,值EPROB测定接收的对的英文字单独出现在英文语料库中的概率。类似地通过将表项FREQF{WORDF}除以法文语料库中的字的总数FTOTAL,而为所接收的字对的法文字WORDF计算概率值FPROB。值FPROB根据法文语料库CORPF的内容测定字WORDF的出现概率。
最终,在步骤704中,通过将对概率值PAIRPROB除以各个字概率值EPROB与FPROB而为所接收字对WORDE,WORDF计算一个估计值PAIRSCORE。等于1的值PAIRSCORE表示这一字对出现在对准的块中的频率不大于根据单个的字出现在它们各自的语料库中观测概率的随机概率所期望的频率。反之,大于1的值PAIRSCORE表示这对字的出现频率大于从单个字频所期望的。从而,对评分是对中的两个字之间的相互关系的一种度量。
参见图8,统计数据库与图7的对评分方法可用于测定各包括对应的语言(诸如英文与法文)中的一个或多个字的两块正文的对准质量,图8的操作从步骤800开始,其中为模块212接收两块正文CHUNKE与CHUNKF以估计它们的对准评分。在初始化步骤802中,将评分变量S设置成1,并将计数变量N设置成0。
一旦为S与N建立了初始值,这些变量便由一对嵌套的循环804与806修改。外循环804为在步骤800中所接收的正文的英语块中的每一个字CHUNKE[J]执行一次内循环806为在步骤800中所接收的法语块中的第一个字CHUNKF[K]执行一次。因此,在嵌套的循环806与804内,将英文块中的第一个字与法文块中的每一个字一起考虑。将值S乘以各个考虑的字对的对评分PAIRSCORE(CHUNKE[J],CHUNKF[K])。这一对评分是用图7的步骤计算的。此时,将计数变量N增加1,以维护组合在变量S中的评分的数目的计数。
考虑了两个接收块中的各字对并将其对评分组合进乘积S之后,在步骤808中通过求乘积S的N次根计算对准评分ALSCORE。用数学语言讲,对准评分ALSCORE为所接收的块中的全体字对的对评分PAIRSCORE的“几何平均”值。从而,一对正文块的对准评分ALSCORE是组合这两块中的所有可能的字对的对评分的一个“似然”测定。由于在步骤808中求出了几何平均值,便用类似于对评分的方法正规化值ALSCORE,使得为1的值ALSCORE,根据记录在统计数据库210中的字频与字对频率,表示在800中接收的两块只是从单个字概率所期望的那样可能对应。反之,大于1的对准评分提示在两块的字之间存在着平均上大于随机概率与观测到的单独字频所提示的相互关联程度。
乘积S可能达到很大的值,并且在一个自动处理装置中计算许多乘法与除法通常是烦琐的。在实践中,对于步骤808中的几何平均值的计算,用对评分的对数的算术平均值来计算可能是有利的。可用对数的加减来实现乘除。可将S的对数除以N来计算S的N次根的对数。
应当注意,虽然统计数据库210的频率表与计数值是从源语料库200与202以及表示它们之间的对准中推导出的,但在步骤700中接收的字对及在步骤800中接收的块对可以从它们本身的对准语料库,或者从正在估计其对准的任何正文对中推算出。从而,所接收的块CHUNKE可以是诸如一位翻译所接收的CHUNKF的翻译人员的成果,并用对准评分ALSCORE将其与现存的对准语料库CORPE与CORPF的统计数据库相比较。大于1的一个值表示翻译人员广泛地与现存的对准语料库相符,而一个比1小得多的评分则表示不符合,例如,由于语料库的对准中的错误,翻译人员的错误、或者只是在现存的数据库与翻译人员头脑中所考虑的主题的两种领域中的差别。存在着估计模块212的许多应用,图6、7与8的技术将作为下述实例示出。
图9示出利用估计模块212来改进或“过滤”现存的数据库,即对准的语料库206与统计数据库210的一种方法。这一进程表示一种反锁方式,并用图2中的虚线箭头230与232指示。在步骤900中,为了与对准评分值进行比较而设置一个阈值,有许多种选择该阈值的方法,如下所述。对于现在的描述,简单地将阈值设定为1便足够了,但是一般地说,最佳的阈值是取决于实际数据的,进程接着执行一个循环902,对于在法文语料库中存在着一个对准的块CORPF[I]的英文语料库中的每一个块CORPE[I]执行一次。在循环902中,步骤904读取对准的块CORPF[I],并在步骤904中利用图8的过程为当前的块对估计对准评分ALSCORE(CORPE[I],CORPF[I]。
在步骤908中,将这一对准评分每步骤900中设定的阈值进行比较。如果这一对准评分超过阈值,控制便进行到912,在其中为下一个I值执行循环902,即对准的语料库206中的下一对对准的块。如果在步骤908中,对准评分低于阈值,控制进行到步骤910,并从对准的语料库中删除对准的块的当前对,或者至少作上可疑的标记供以后删除。后一种选择在一种给定的实现中可能是方便的,并且在采取最后的决定之前,可允许与一位翻译人员对话。
完成步骤910之后,控制再一次进入点912,在其中将I增加1并为下一对块执行循环902。当在循环902中考虑过对准的语料库206中所有的对准块之后,控制进入步骤914,在其中计入步骤910中执行的删除(如果有的话)来更新统计数据库210。
注意,图9的方法可以在数据库上重复任意次数,逐步过滤掉存在在某些快上的不精确对准中的“噪声”。噪声源是多种多样的,但通常是实现在模块204中用来生成对准的语料库206的自动进程对它正在处理的语言缺少知识,以及在选择正文中哪些块该对准时不注意语法与语义这些事实的后果。并且,即使对于正确地对准的块,原始译文也不总是严格的译文,并且毫无疑问,即使将一个短的句子翻译成一种给定的语言,也有若干种译法。
在从诸如照相复印机与传真机等电子设备的操作手册中导出的语料库的情况中,通常存在着完全不对应的部分,这是因为不同国家中的法律要求提供不同的安全信息。另一种常见的噪声源在于各语料库的一部分是按字母表次序排列的项目的一张表时。在两种不同的语言中,这些项目的次序将不相同,即使项目的数目及其总的外观对于对准模块204可能是难区分的。
然而,假定这些问题局限于源文件的相对地小的部分,则已经发现统计数据库是仍然有用的,并且由估计模块212生成的对准评分将会成功地标识出有问题的区。
除了过滤对准的语料库之外,在利用对准的语料库翻译一个新的正文时,也能使用一对块的对准评分,如图10中所示。
在图10中步骤1000上接收到要由翻译模块214从英文译成法文的一个新的正文ETEXT(图2中216)。步骤1002中标识英文正文的第一块ECHUNK,并在步骤1004中搜索现存的英文语料库CORPE是否出现这一块。如果发现对于某一值I,英文对准的语料库中的块CORPE[I]等于接收的块ECHUNK,控制进入在步骤1006,读取法文语料库中的对应块CORPF[I]。在步骤1010中,保存该块作为所需要的法文译文(输出正文218)的一个对应的块FCHUNK。
如果在步骤1004中未找到当前块ECHUNK的等价物,则控制进入一个用户对话步骤1008。在此要求一位翻译人员提供英文块ECHUNK的译文,并在步骤1010中作为译文FCHUNK保存之。在步骤1012中,在接收的正文ETEXT中标识下一个英语块,并将控制返回到搜索步骤1004。当翻译完整个输入正文ETEXT时,便在步骤1014中将在步骤1010中保存的所有块FCHUNK连接在一起作为经过翻译的法语正文FTEXT输出。
注意,用户在步骤1008中提供的译文也可用来扩大现存的数据库,这是通过将不熟悉的英语块CHUNKE与用户提供的法文译文加入对准的语料库206中而实现的。这种性能在诸如US 5,140,522中有所描述,在这一阶段还可以更新统计数据库210,同时注意,作为在执行图10的方法中的“现场”用户对话的一种替代,也可简单地在输出文件FTEXT中加入某些问题,供翻译人员以后去考虑。此外,在保存翻译后的块FCHUNK的步骤1010中可包含诸如为块ECHUNK与FCHUNK估计一个对准评分的一个步骤,以便确认这的确是一个可能的译文。如果对准评分下降到一个预定的阈值以下,可以“现场”进入用户对话或者在输出文件FTEXT中加入适当的问题。这可起到校正未被图9中的过滤进程消除的错误对准的作用。
熟悉本技术的读者能够在上述实施例上发现许多变型,以及本公开中所建议的分析与估计装置的许多其它应用。
适用于大型数据库(尤其是块中包括相对大数量的字时)的一种变型通过考虑比所有可能的字对少的字对而限制处理工作量。这可用若干方法做到,但一种简单的步骤便是限制图6的流程图中最内层循环606的范围K,例如对于某一整数d,使K从J-d变化到J+d。
然后,不是计数每一个与当前英文字CORPE[I][J]成对的法文块的字,而是只考虑与计数字CORPF[I][K]的一个有限的“窗口”。当当前的英文字下标J随每次外循环604的重复而前进时,法文字的“窗口”也随之前进。当然这一实现最适用于典型句子中的字的次序服从类似规则的一对语言。对于对准部分中的字数明显地不同的语言,可以用适当速率来安排窗口(K值的范围)的前进,使其相对于K的最大值的位置粗略地与相对于J的最大值的J值匹配。
另一种减少所考虑的对的数目的技术为省略诸如“the”、“and”等极为常用的字。低频度的字假定为携带较大量的信息。作为一个例子,英文句子:“The man killed a big dog”可缩减为“mankilled big dog”而损失很少的含义。
为了在图6的流程图中实现这一变化,在字对频率表(PAIRFREQ,步骤602、604、606)之前生成两个语料库的字频表(FREQE、FREQF步骤602、608、610)是较为方便的。然后,便能用这两个字频表来标识要在生成对频率表中省略的最常用的字。作为替代,可以利用对相同的语料库或对整个相关语言的事先存在的字频表。
如果愿意,可以将这两种(及其它)变化组合在一起。对应的技术可实现在图8的内循环806中,以减少组合字对评分去得到一对正文块的对准评分的工作量。
下面用对附录的讨论来结束本说明,在部分A至G中提出了两个相对地小的对准的语料库的一个实例,并且其估计是由上述系统执行的。附录中的语料库包括一种传真装置的操作手册的内容清单,第一是英语的,而第二则是荷兰语的。这两个语料库分别提出在附录的A与B中,行号1至30表示两个语料库中对准的块对1至30。在行30中出现一个不正确的对准,其中“sending documents”不是荷兰短语“problemen oplossen”的英文译文。通常是这样的,对准语料库中别处包含字“problemen”与“oplossen”的全部都是正确对准的,即“troubleshooting”(块对23与27)。
在附录的C中,提供了英文语料库的字频。可以看出,例如字“sending”出现7次而字“confidential”只出现一次。英文语料库中的总字数为118 。因此,英文语料库中字“sending”的出现概率为7除以118或0.059322。
在附录的D中,提供了荷兰文语料库的字频表。在荷兰文语料库中总共有106个字。从而,诸如字“problemen”,具有106个字中4个的频率,即观测概率0.037736。注意,在示例系统中,统计数据库不是对大小写敏感的。这便是,在语料库的块23中的“Problemen”与块6中的“problemen”之间没有差别。
在附录中E-1至E-4处,提供了对准的语料库的字对频率表,其中总共有427个唯一的字对。所有字对频率的总数为510。注意,在正常情况中采用较大词汇表的语料库中,出现的字对的数目会惊人地上升。
附录D的字对频率表示出的例子如有4对块,其中英文块中包含字“part”而对应的荷兰文块中则包含字“en”。对两个语料库(附录中的A与B)的一次快速检视发现这一对字出现在对准的块2、3、5与6中。但是注意,数据库并不表示字“part”与“en”互为译文。这两个字只是偶然同时出现在它们各自的语料库中,因此,存在着在任何一对块中的纯粹随机出现两个字的合理的概率。
在附录中F-1至F-4处,为该示例性语料库中的427个不同的字对计算与示出了测定两个字之间的相互关联的字对评分。而在附录的部分D中,字对是按对频率的次序排列的,在部分E中。它们是按对评分的降序排列的。与频率表进行比较,便可注意到对于实际上互为译文的字有十分大的趋势得到高的评分。评分从24.525490下降到0.383211。然而,并无利用来自附录的部分A的单个字对的评分来检验任何逐字翻译的精确性的可能性。
反之,在附录中的G-1至G-2处,独立地提供了对准的块以及各块的对准评分。这些块对准评分是以图8的方法通过累计各块对中的所有字对的对评分而得到的。块1具有10.071629的评分,表示与整个数据库的统计相比,看起来这两个对准的块作为互为译文是真正有用的。能够看出,所有的对准的块对,除了最后一个以外,都具有显著地超过1的评分。反之,读者已知其为错误的块对号30只有0.819339的评分。从而,即使在包含至少一个不正确对准的块对的这一非常小的数据库中,这里所提出的估计技术与装置也已提供了对不正确译文的清楚的突出指示。
图11为用图形示出该示例性语料库的30个块的对准评分的分布的直方图。垂直轴标出频率,而水平轴则为了方便而标出对准评分的对数(以2为底)。例如,对准评分的对数中的3至4的范围(水平轴)对应于对准评分本身8至16的范围。垂直虚线1100表示以对准评分的对数表示的阈值0,它对应于上面提到的对准评分本身的阈值1(log 1=0)。在阈值线1100的右方,频率分布的主体清楚地与阈值左方的一个较小的峰值1102分开,这一峰值标示块对号30的低对准评分。
熟悉本技术的人会理解,取决于统计数据库的内容,其它的阈值可能是理想的甚至是必要的。在许多情况中,如在本实例中,有可能区分出对准语料库中的一个对准评分的分布主体及起因于错误的对准的一个次要分布。如果这两种密度明显地分离,如在本例中那样,在两者之间设置阈值便是一件简单的工作。
在其它情况中,可能有必要采用更精细的方法来设定阈值。这种方法之一为设定一个百分比的阈值,例如,通过选择最少可能性的5个百分点的对准加以拒绝。然后,相应地设定对准评分阈值,或者可以简单地蕴含在删除最坏的5个百分点的对准的操作中。
在某些情况中。甚至希望完全不设置一个硬性的阈值,而采用与一位翻译人员的对话来决定哪些对准是正确的。然后,系统通过向翻译人员提出从具有最底的对准评分的块开始的对准的块对来进行操作。通常,提出的第一对将是容易地作为错误的而加以拒绝的。然后,当提出的块的对准评分达到较高的值时,便开始向翻译人员提出虽然正确但碰巧具有相对地低的对准评分的对(例如附录中G处的例子中的对号2)。
在这一过程中继续下去,提出给用户的大多数对将是正确的,而这是系统设计员与/或操作员的一种选择,在哪一点上作出切割,并认为其余的对准是正确的。在任何情况下,利用本发明,实际上由一位翻译人员检验的数据库的比例已经减少到容易处理的一小部分,而检验整个数据库则是不现实地昂贵与费时的。
对于剩下的那些错误,使用修正后的语料库及一个更新后的统计数据库的另一次迭代可能比为少数剩下的错误而强制操作员在搜索中去检验多得多的对来消除它们更有效。此外,在消除了少数错误并更新了统计数据库之后,正确但起先评分低的对的对准评分,可在随后的迭代中改进,因为这时的统计数据库本身是一个较少噪声的数据库的产物。从而,在第二次迭代上,较少可能向翻译人员提出实际上正确地对准的对。
再者,上述实现上的许多变型是在熟悉本技术的人员的能力与想象力范围内的。例如,作为体现在图6与7中用于获得字对评分的方法的一种替代,可采用诸如EP-A-0499366所用的方法来得到类似的效果。取决于用来得到字对评分的实际方法,还可能需要适用的组合字对评分以得出对准的句子的评分的方法,例如上述涉及对数的方法。类似地,在统计学或词法知识的基础上,标识具有共同“词干”的字的预处理技术也可采用,如各种对比文献中所描述的。上述实例仅供例示之用。[附录如下]
APPENDIX A            THE  ENGLISH  CORPUS1   Part 1 Before Starting2   Part 2 Sending and Receiving Documents3   Part 3 Using the Telephone and Copying Features4   Part 4 Using the Memory and Network Features5   Part 5 Reports and User Switches6   Part 6 Maintenance and Troubleshooting7   Installing Your FAX8   A Look at the FAX-260E9   Identifying the Documents You Send10   Before Sending Documents11   Sending Documents12   Receiving Documents13   Different Ways of Dialling14   Using the Telephone with the FAX-260E15   Sending at a Preset Time16   Sending through a Relay Unit17   Sending Confidential Documents18   Polling (Requesting documents from other units)19   Printing Reports and Registration Lists20   Setting the Operating Guidelines21   Caring for Your Fax22   Error Messages and Codes23   Troubleshooting24   Specifications25   Index26   Error Messages and Codes27   Troubleshooting28   Index29   Setting the Operating Guidelines30   Sending DocumentsAPPENDIX  B           THE  DUTCH  CORPUS1  Deel 1 Voordat u begint2  Deel 2 Verzenden en ontvangen3  Deel 3 De FAX-260E gebruiken als telefoonkiezer en copier4  Deel 4 FAX-functies5  Deel 5 Rapporten en gebruikersschakelaars6  Deel 6 Onderhoud en problemen oplossen7  Installatie van uw FAX-260E8  De onderdelen van uw FAX-260E9  Identificatie van uw verzonden documenten10  Originelen11  Verzenden12  Ontvangen13  Snel en eenvoudig kiezen14  Gebruik van de FAX-260E als telefoonkiezer15  Verzenden op ingesteld tijdstip16  Verzenden via transit fax-apparaat17  Vertrouweijk verzenden18  Polling(op verzoek documenten van andere fax-apparaten ontvangen)19  Afdrukken van rapporten en lijsten20  Instellen van gebruikersschakelaars21  Onderhoud22  Foutmeldingen en codes23  Problemen oplossen24  Technische gegevens25  Trefwoordenlijst26  Foutmeldingen en codes27  Problemen oplossen28  Trefwoordenlijst29  Vastleggen van gebruikersinstellingen30  Problemen oplossenAPPENDIX C       ENGLISH WORD FREQUENCIES8     and8     documents8     the                            (TOTAL=1l8)7     sending6     part3     a3     troubleshooting3     using2     at2     before2     codes2     error2     fax2     fax-260e2     features2     guidelines2     index2     messages2     operating2     receiving2     reports2     setting2     telephone2     your1     11     21     31     41     51     61     caring1     confidential1     copying1     dialling1     different1     for1     from1     identifying1     installing1     lists1     look1     maintenance1     memory1     network1     of1     other1     polling1     preset1     printing1     registration1     relay1     requesting1     send1     specifications1     starting1     switches1     through1     time1     unit1     units1     user1     ways1     with1     youAPPENDIX  D          DUTCH   WORD   FREQUENCIES8      en8      van6      deel                           (TOTAL=106)5      verzenden4      fax-260e4      oplossen4      problemen3      de3      ontvangen3      uw2      als2      codes2      documenten2      foutmeldingen2      gebruikersschakelaars2      onderhoud2      op2      rapporten2      telefoonkiezer2      trefwoordenlijst1      11      21      31      41      51      61      afdrukken1      andere1      begint1      copier1      eenvoudig1      fax-apparaat1      fax-apparaten1      fax-functies1      gebruik1      gebruiken1      gebruikersinstellingen1      gegevens1      identificatie1      ingesteld1      installatie1      instellen1      kiezen1      lijsten1      onderdelen1      originelen1      polling1      snel1      technische1      tijdstip1      transit1      u1      vastleggen1      vertrouweijk1      verzoek1      verzonden1      via1      voordatAPPENDIX  E-WORD PAIR FREQUENCIES7         and en6         part deel
                                (TOTAL=510)6         the van5         and deel5         sending verzenden4         part en4         the de4         the fax-260e3         documents ontvangen3         documents verzenden3         the als3         the telefoonkiezer3         troubleshooting oplossen3         troubleshooting problemen2         a verzenden2         and codes2         and foutmeldingen2         and rapporten2         codes codes2         codes  en2         codes foutmeldingen2         documents documenten2         documents van2         error codes2         error en2         error foutmeldingen2         fax-260e de2         fax-260e fax-260e2         fax-260e van2         features deel2         guidelines van2         index trefwoordenlijst2         messages codes2         messages en2         messages foutmeldingen2         operating van2         receiving ontvangen2         reports en2         reports rapporten2         setting van2         telephone als2         telephone de2         telephone fax-260e2         telephone telefoonkiezer2         the deel2         the gebruik2         the uw2         using als2         using de2         using deel2         using fax-260e2         using telefoonkiezer1         1 11         1 begint1         1 deel 1         1 u1         1 voordat1         2 21         2 deel1         2 en1         2 ontvangen1         2 verzenden1         3 31         3 als1         3 copier1         3 de1         3 deel1         3 en1         3 fax-260e1         3 gebruiken1         3 telefoonkiezer1         4 41         4 deel1         4 fax-functies1         5 51         5 deel1         5 en1         5 gebruikersschakelaars1         5 rapporten1         6 61         6 deel1         6 en1         6 onderhoud1         6 oplossen1         6 problemen1         a de1         a fax-260e1         a fax-apparaat1         a ingesteld1         a onderdelen1         a op1         a tijdstip1         a transit1         a uw1         a van1         a via1         and 21         and 31         and 41         and 51         and 61         and afdrukken1         and als1         and copier1         and de1         and fax-260e1         and fax-functies1         and gebruiken1         and gebruikersschakelaars1         and lijsten 1         and onderhoud1         and ontvangen1         and oplossen1         and problemen1         and telefoonkiezer1         and van1         and verzenden1         at de1         at fax-260e1         at ingesteld1         at onderdelen1         at op1         at tijdstip1         at uw1         at van1         at verzenden1         before 11         before begint1         before deel1         before originelen1         before u1         before voordat1         caring onderhoud1         confidential vertrouweijk1         confidential verzenden1         copying 31         copying als1         copying copier1         copying de1         copying deel1         copying en1         copying fax-260e1         copying gebruiken1         copying telefoonkiezer1         dialling eenvoudig1         dialling en1         dialling kiezen1         dialling snel1         different eenvoudig1         different en1         different kiezen1         different sneli         documents 21         documents andere1         documents deel1         documents en1         documents fax-apparaten1         documents identificatie1         documents op1         documents oplossen1         documents originelen1         documents pollingi         documents problemen1         documents uw1         documents vertrouweijk 1         documents verzoek1         documents verzonden1         fax fax-260e1         fax installatie1         fax onderhoud1         fax uw1         fax van1         fax-260e als1         fax-260e gebruik1         fax-260e onderdelen1         fax-260e telefoonkiezer1         fax-260e uw1         features 31         features 41         features als1         features copier1         features de1         features en1         features fax-260e1         features fax-functies1         features gebruiken1         features telefoonkiezer1         for onderhoud1         from andere1         from documenten1         from fax-apparaten1         from ontvangen1         from op1         from polling1         from van1         from verzoek1         guidelines gebruikersinstellingen1         guidelines gebruikersschakelaars1         guidelines instellen1         guidelines vastleggen1         identifying documenten1         identifying identificatie1         identifying uw1         identifying van1         identifying verzonden1         installing fax-260e1         installing installatie1         installing uw1         installing van1         lists a fdrukken1         1ists en1         lists lijsten1         lists rapporten1         lists van1         look de1         look fax-260e1         look onderdelen1         look uw1         look van1         maintenance 6 1         maintenance deel1         maintenance en1         maintenance onderhoud1         maintenance oplossen1         maintenance problemen1         memory 41         memory deel1         memory fax-functies1         network 41         network deel1         network fax-functies1         of eenvoudig1         of en1         of kiezen1         of snel1         operating gebruikersinstellingen1         operating gebruikersschakelaars1         operating instellen1         operating vastleggen1         other andere1         other documenten1         other fax-apparaten1         other ontvangen1         other op1         other polling1         other van1         other verzoek1         part 11         part 21         part 31         part 41         part 51         part 61         part als1         part begint1         part copier1         part de1         part fax-260e1         part fax-functies1         part gebruiken1         part gebruikersschakelaars1         part onderhoud1         part ontvangen1         part oplossen1         part problemen1         part rapporten1         part telefoonkiezer1         part u1         part verzenden1         part voordat1         polling andere1         polling documenten1         polling fax-apparaten1         polling ontvangen1         polling op 1         polling polling1         polling van1         polling verzoek1         preset ingesteld1         preset op1         preset tijdstip1         preset verzenden1         printing afdrukken1         printing en1         printing lijsten1         printing rapporten1         printing van1         receiving 21         receiving deel1         receiving en1         receiving verzenden1         registration afdrukken1         registration en1         registration lijsten1         registration rapporten1         registration van1         relay fax-apparaat1         relay transit1         relay verzenden1         relay via1         reports 51         reports afdrukken1         reports deel1         reports gebruikersschakelaars1         reports lijsten1         reports van1         requesting andere1         requesting documenten1         requesting fax-apparaten1         requesting ontvangen1         requesting op1         requesting polling1         requesting van1         requesting verzoek1         send documenten1         send identificatie1         send uw1         send van1         send verzonden1         sending 21         sending deel1         sending en1         sending fax-apparaat1         sending ingesteld1         sending ontvangen1         sending op1         sending oplossen1         sending originelen1         sending problemen1         sending tijdstip 1         sending transit1         sending vertrouweijk1         sending via1         setting gebruikersinstellingen1         setting gebruikersschakelaars1         setting instellen1         setting vastleggen1         specifications gegevens1         specifications technische1         starting 11         starting begint1         starting deel1         starting u1         starting voordat1         switches 51         switches deel1         switches en1         switches gebruikersschakelaars1         switches rapporten1         telephone 31         telephone copier1         telephone deel1         telephone en1         telephone gebruik1         telephone gebruiken1         telephone van1         the 31         the 41         the copier1         the documenten1         the en1         the fax-functies1         the gebruiken1         the gebruikersinstellingen1         the gebruikersschakelaars1         the identificatie1         the instellen1         the onderdelen1         the vastleggen1         the verzonden1         through fax-apparaat1         through transit1         through verzenden1         through via1         time ingesteld1         time op1         time tijdstip1         time verzenden1         troubleshooting 61         troubleshooting deel1         troubleshooting en1         troubleshooting onderhoud1         unit fax-apparaat1         unit transit1         unit verzenden 1         unit via1         units andere1         units documenten1         units fax-apparaten1         units ontvangen1         units op1         units polling1         units van1         units verzoek1         user 51         user deel1         user en1         user gebruikersschakelaars1         user rapporten1         using 31         using 41         using copier1         using en1         using fax-functies1         using gebruik1         using gebruiken1         using van1         ways eenvoudig1         ways en1         ways kiezen1         ways snel1         with als1         with de1         with fax-260e1         with gebruik1         with telefoonkiezer1         with van1         you documenten1         you identificatie1         you uw1         you van1         you verzonden1         your fax-260e1         your installatie1         your onderhoud1         your uw1         your vanAPPENDIX F-WORD PAIR CORRELATION SCORES24.525490      1 124.525490      1 begint24.525490      1 u24.525490      1 voordat24.525490      2 224.525490      3 324.525490      3 copier24.525490      3 gebruiken24.525490      4 424.525490      4 fax-functies24.525490      5 524.525490      6 624.525490      confidential vertrouweijk24.525490      copying 324.525490      copying copier24.525490      copying gebruiken24.525490      dialling eenvoudig24.525490      dialling kiezen24.525490      dialling snel24.525490      different eenvoudig24.525490      different kiezen24.525490      different snel24.525490      from andere24.525490      from fax-apparaten24.525490      from polling24.525490      from verzoek24.525490      identifying identificatie24.525490      identifying verzonden24.525490      installing installatie24.525490      lists afdrukken24.525490      lists lijsten24.525490      look onderdelen24.525490      maintenance 624.525490      memory 424.525490      memory fax-functies24.525490      network 424.525490      network fax-functies24.525490      of eenvoudig24.525490      of kiezen24.525490      of snel24.525490      other andere24.525490      other fax-apparaten24.525490      other polling24.525490      other verzoek24.525490      polling andere24.525490      polling fax-apparaten24.525490      polling polling24.525490      polling verzoek24.525490      preset ingesteld24.525490      preset tijdstip24.525490      printing afdrukken24.525490      printing lijsten24.525490      registration afdrukken24.525490      registration lijsten24.525490      relay fax-apparaat   24.525490       relay transit24.525490       relay via24.525490       requesting andere24.525490       requesting fax-apparaten24.525490       requesting polling24.525490       requesting verzoek24.525490       send identificatie24.525490       send verzonden24.525490       specifications gegevens24.525490       specifications technische24.525490       starting 124.525490       starting begint24.525490       starting u24.525490       starting voordat24.525490       switches 524.525490       through fax-apparaat24.525490       through transit24.525490       through via24.525490       time ingesteld24.525490       time tijdstip24.525490       unit fax-apparaat24.525490       unit transit24.525490       unit via24.525490       units andere24.525490       units fax-apparaten24.525490       units polling24.525490       units verzoek24.525490       user 524.525490       ways eenvoudig24.525490       ways kiezen24.525490       ways snel24.525490       with gebruik24.525490       you identificatie24.525490       you verzonden12.262745       3 als12.262745       3 telefoonkiezer12.262745       5 gebruikersschakelaars12.262745       5 rapporten12.262745       6 onderhoud12.262745       at ingesteld12.262745       at onderdelen12.262745       at tijdstip12.262745       before 112.262745       before begint12.262745       before originelen12.262745       before u12.262745       before voordat12.262745       caring onderhoud12.262745       codes codes12.262745       codes foutmeldingen12.262745       copying als12.262745       copying telefoonkiezer12.262745       error codes12.262745       error foutmeldingen12.262745       fax installatie   12.262745      fax-260e gebruik12.262745      fax-260e onderdelen12.262745      features 312.262745      features 412.262745      features copier12.262745      features fax-functies12.262745      features gebruiken12.262745      for onderhoud12.262745      from documenten12.262745      from op12.262745      guidelines gebruikersinstellingen12.262745      guidelines instellen12.262745      guidelines vastleggen12.262745      identifying documenten12.262745      index trefwoordenlijst12.262745      lists rapporten12.262745      maintenance onderhoud12.262745      messages codes12.262745      messages foutmeldingen12.262745      operating gebruikersinstellingen12.262745      operating instellen12.262745      operating vastleggen12.262745      other documenten12.262745      other op12.262745      polling documenten12.262745      polling op12.262745      preset op12.262745      printing rapporten12.262745      receiving 212.262745      registration rapporten12.262745      reports 512.262745      reports afdrukken12.262745      reports lijsten12.262745      reports rapporten12.262745      requesting documenten12.262745      requesting op12.262745      send documenten12.262745      setting gebruikersinstellingen12.262745      setting instellen12.262745      setting vastleggen12.262745      switches gebruikersschakelaars12.262745      switches rapporten12.262745      telephone 312.262745      telephone als12.262745      telephone copier12.262745      telephone gebruik12.262745      telephone gebruiken12.262745      telephone telefoonkiezer12.262745      time op12.262745      units documenten12.262745      units op12.262745      user gebruikersschakelaars12.262745      user rapporten12.262745      with als12.262745      with telefoonkiezer   12.262745      you documenten12.262745      your installatie8.175163       2 ontvangen8.175163       3 de8.175163       a fax-apparaat8.175163       a ingesteld8.175163       a onderdelen8.175163       a tijdstip8.175163       a transit8.175163       a via8.175163       copying de8.175163       fax-260e de8.175163       from ontvangen8.175163       identifying uw8.175163       installing uw8.175163       look de8.175163       look uw8.175163       other ontvangen8.175163       polling ontvangen8.175163       receiving ontvangen8.175163       requesting ontvangen8.175163       send uw8.175163       telephone de8.175163       troubleshooting 68.175163       units ontvangen8.175163       using 38.175163       using 48.175163       using als8.175163       using copier8.175163       using fax-functies8.175163       using gebruik8.175163       using gebruiken8.175163       using telefoonkiezer8.175163       with de8.175163       you uw6.131373       3 fax-260e6.131373       6 oplossen6.131373       6 problemen6.131373       at op6.131373       copying fax-260e6.131373       fax onderhoud6.131373       fax-260e als6.131373       fax-260e fax-260e6.131373       fax-260e telefoonkiezer6.131373       features als6.131373       features telefoonkiezer6.131373       guidelines gebruikersschakelaars6.131373       installing fax-260e6.131373       look fax-260e6.131373       maintenance oplossen6.131373       maintenance problemen6.131373       operating gebruikersschakelaars6.131373       reports gebruikersschakelaars6.131373       setting gebruikersschakelaars6.131373       telephone fax-260e   6.131373       the gebruik6.131373       troubleshooting oplossen6.131373       troubleshooting problemen6.131373       with fax-260e6.131373       your onderhoud5.450109       using de4.905098       2 verzenden4.905098       confidential verzenden4.905098       preset verzenden4.905098       relay verzenden4.905098       through verzenden4.905098       time verzenden4.905098       unit verzenden4.598529       the als4.598529       the telefoonkiezer4.087582       1 deel4.087582       2 deel4.087582       3 deel4.087582       4 deel4.087582       5 deel4.087582       6 deel4.087582       a op4.087582       at de4.087582       at uw4.087582       copying deel4.087582       fax uw4.087582       fax-260e uw4.087582       features de4.087582       features deel4.087582       maintenance deel4.087582       memory deel4.087582       network deel4.087582       part 14.087582       part 24.087582       part 34.087582       part 44.097582       part 54.087582       part 64.087582       part begint4.087582       part copier4.087582       part deel4.087582       part fax-functies4.087582       part gebruiken4.087582       part u4.087582       part voordat4.087582       starting deel4.087582       switches deel4.087582       the de4.087582       troupleshooting onderhoud4.087582       user deel4.087582       usinp fax-260e4.097582       your uw3.503641       sending 23.503641       sending fax-apparaat3.503641       sending ingesteld   3.503641       sending originelen3.503641       sending tijdstip3.503641       sending transit3.503641       sending vertrouweijk3.503641       sending verzenden3.503641       sending via3.270065       a verzenden3.065686       2 en3.065686       3 en3.065686       5 en3.065686       6 en3.065686       and 23.065686       and 33.065686       and 43.065686       and 53.065686       and 63.065686       and afdrukken3.065686       and codes3.065686       and copier3.065686       and fax-functies3.065686       and foutmeldingen3.065686       and gebruiken3.065686       and lijsten3.065686       and rapporten3.065686       at fax-260e3.065686       codes en3.065686       copying en3.065686       dialling en3.065686       different en3.065686       documents 23.065686       documents andere3.065686       documents documenten3.065686       documents fax-apparaten3.065686       documents identificatie3.065686       documents ontvangen3.065686       documents originelen3.065686       documents polling3.065686       documents vertrouweijk3.065686       documents verzoek3.065686       documents verzonden3.065686       error en3.065686       fax fax-260e3.065686       fax-260e van3.065686       features fax-260e3.065686       from van3.065686       guidelines van3.065686       identifying van3.065686       installing van3.065686       litsts en3.065686       lists van3.065686       look van3.065686       maintenance en3.065686       messages en3.065686       of en3.065686       operating van   3.065686       other van3.065686       polling van3.065686       printing en3.065686       printing van3.065686       registration en3.065686       registration van3.065686       reports en3.065686       requesting van3.065686       send van3.065686       setting van3.065686       switches en3.065686       the 33.065686       the 43.065686       the copier3.065686       the fax-260e3.065686       the fax-functies3.065686       the gebruiken3.065686       the gebruikersinstellingen3.065686       the identificatie3.065686       the instellen3.065686       the onderdelen3.065686       the vastleggen3.065686       the verzonden3.065686       units van3.065686       user en3.065686       ways en3.065686       with van3.065686       you van3.065686       your fax-260e2.725054       a de2.725054       a uw2.725054       using deel2.682475       and en2.554739       and deel2.452549       at verzenden2.452549       receiving verzenden2.299265       the van2.043791       a fax-260e2.043791       before deel2.043791       part als2.043791       part en2.043791       part gebruikersschakelaars2.043791       part onderhoud2.043791       part rapporten2.043791       part telefoonkiezer2.043791       receiving deel2.04379l       reports deel2.043791       telephone deel2.043791       the uw1.839412       documents verzenden1.751821       sending op1.532843       and als1.532843       and gebruikersschakelaars1.532843       and onderhoud1.532843       and telefoonkiezer   1.532843       at van1.532843       documents op1.532843       fax van1.532843       features en1.532843       receiving en1.532843       reports van1.532843       telephone en1.532843       telephone van1.532843       the documenten1.532843       the gebruikersschakelaars1.532843       your van1.362527       part de1.362527       part ontvangen1.362527       troubleshooting deel1.167880       sending ontvangen1.021895       a van1.021895       and de1.021895       and ontvangen1.021895       documents uw1.021895       part fax-260e1.021895       part oplossen1.021895       part problemen1.021895       the deel1.021895       troubleshooting en1.021895       using en1.021895       using van0.875910       sending oplossen0.875910       sending problemen0.817516       part verzenden0.766422       and fax-260e0.766422       and oplossen0.766422       and problemen0.766422       documents oplossen0.766422       documents problemen0.766422       documents van0.613137       and verzenden0.583940       sending deel0.510948       documents deel0.437955       sending en0.383211       and van0.383211       documents en0.383211       the enAPPENDIX  G-1          SCORES   FOR  ALIGNED  CHUNKSPart 1 Before StartingDeel 1 Voordat u begintscore=10.071629Part 2 Sending and Receiving DocumentsDeel 2 Verzenden en ontvangenscore=2.285732Part 3 Using the Telephone and Copying FeaturesDeel 3 De FAX-260E gebruiken als telefoonkiezer en copierscore=4.727727Part 4 Using the Memory and Network FeaturesDeel 4 FAX-functiesscore=6.443163Part 5 Reports and User SwitchesDeel 5 Rapporten en gebruikersschakelaarsscore=5.372271Part 6 Maintenance and TroubleshootingDeel 6 Onderhoud en problemen oplossenscore=3.598853Installing Your FAXInstallatie van uw FAX-260Escore=4.935864A Look at the FAX-260EDe onderdelen van uw FAX-260Escore=4.253443Identifying the Documents You SendIdentificatie van uw verzonden documentenscore=5.746231Before Sending DocumentsOriginelenscore=5.087975Sending DocumentsVerzendenscore=2.538629Receiving DocumentsOntvangenscore=5.006244Different Ways of DiallingSnel en eenvoudig kiezenscore=14.582943Using the Telephone with the FAX-260EGebruik van de FAX-260E als telefoonkiezerscore=5.621435Sending at a  Preset TimeVerzenden op ingesteld tijdstipscore=7.327703Sending through a Relay UnitVerzenden via transit fax-apparaatscore=10.009936APPENDIX G-2Sending Confidential DocumentsVertrouweijk verzendenscore=4.502135Polling(Requesting documents from other units)Polling(op verzoek documenten van andere fax-apparaten ontvangen)score=10.322900Printing Reports and Registration ListsAfdrukken van rapporten en lijstenscore=6.270169Setting the Operating GuidelinesInstellen van gebruikersschakelaarsscore=4.751194Caring for Your FaxOnderhoudscore=8.671070Error Messages and CodesFoutmeldingen en codesscore=6.063523TroubleshootingProblemen oplossenscore=6.131373SpecificationsTechnische gegevensscore=24.525490IndexTrefwoordenlijstscore=12.262745Error Messages and CodesFoutmeldingen en codesscore=6.063523TroubleshootingProblemen oplossenscore=6.131373IndexTrefwoordenlijstscore=12.262745Setting the Operating GuidelinesVastleggen van gebruikersinstellingenscore=5.986130Sending DocumentsProblemen oplossenscore=0.819339

Claims (35)

1.一种操作用于处理一个两种文字对照的数据库的处理装置的方法,包括下述步骤:
在该装置中存储一个包括第一与第二对准的语料库(正文信息本体)的数据库,各语料库是分成多个部分的,使得第一语料库的部分的至少一个子集是用与第二语料库的对应部分的一种对应关系标识的,各部分是进一步分成一个或多个基元部分(“字”)的;以及
分析对准的语料库以得出一个统计数据库;
其特征在于:
使用该统计数据库,为选自对准的语料库的对准部分估计一个相互关联测定值:
从对准的部分的相互关联测定值中,标识未必可信的对准的事例;以及
通过修正对准的语料库来至少消除最不可信的对准,而纠正所标识的不正确对准。
2.权利要求1中提出的一种方法,还包括按照对准的语料库的修正,更新统计数据库。
3.一种处理一个两种文字对照的数据库的方法,包括:
用根据权利要求2的一种方法修正对准的语料库,以及
重复该方法至少一次,用更新后的统计数据库再一次修正经过修正的语料库。
4.权利要求1、2或3中提出的一种方法,其中的修正步骤包括与一位翻译人员的交互对话,来检验标识的未必可信的对准是不正确的。
5.前面任何一项权利要求中所提出的一种方法,还包括接收正文的更多的对准的部分对,并扩大对准的语料库与统计数据库,将接收的部分包括进来。
6.权利要求5中提出的一种方法,其中为各更多的部分对估计所述相互关联的测定值,并且取决于所述估计的结果,有条件地扩大对准的语料库。
7.前面任何一项权利要求中所提出的一种方法,其中所述估计步骤包括:
利用统计数据库,为从每一个语料库中选取一个字的一个字对推算出观测到的相互关联的一个测定值;以及
通过组合包含在该部分对中的字对的推算出的相互关联测定值,估计这两个部分的相互关联的所述测定值。
8.权利要求7中提出的一种方法,其中所述字对相互关联测定值是在不推算该对中的任一个字是另一个的真实译文的概率的情况下推算的。
9.权利要求7或8中提出的一种方法,其中字对的相互关联测定值的组合是不考虑一对中的字在它们各自的部分中的位置而执行的。
10.权利要求7或8中提出的一种方法,其中字对的相互关联测定值的组合是限制在出现在它们各自的正文部分中的大致上对应的位置上的字对的。
11.权利要求7、8、9或10中提出的一种方法,其中为了字对相互关联测定值的组合,标识及略去了某些常用字。
12.权利要求7至11中任何一项所提出的一种方法,其中推算字对相互关联测定值的步骤包括:
为一对中的各字推算在其各自的语料库中找到该字的观测概率的测定值;
为各选择的字对推算在语料库的对准部分中找到该字对的观测概率的测定值;以及
用单个字的概率组合对的概率,以推算对中的字之间的相互关联的所述测定值。
13.前面的任何权利要求中所提出的一种方法,其中该统计数据库包括:
用于各语料库的一张字频表:
用于作为一个整体的对准的语料库的一张字对频率表,计数一个给定的字对(各语料库一个字)出现在语料库的对准部分中的次数。
14.权利要求13中提出的一种方法,其中所述字对频率是不考虑各部分中字的位置,而对各对正文部分的所有字对计数的。
15.权利要求13中提出的一种方法,其中的字对的计数是限制在出现在语料库的它们各自的对准部分中的大致上对应的位置上的那些字对的。
16.权利要求13、14或15中提出的一种方法,其中为了字对的计数,而标识与略去某些常用字。
17.一种操作一个处理装置将一篇源正文从一种源语言自动翻译成一种目标语言的方法,包括:
在该装置中存储一个包括源与目标语言的对准的语料库的两种文字对照的数据库:
用根据权利要求1-16中任何一项的的一种方法修正对准的语料库;
将源正文划分成部分;
在源语言的对准的语料库中搜索与源正文部分匹配的部分;以及
(i)对于找到匹配的源正文部分,输出目标语言语料库中的对应部分,作为供包含进一个输出正文中的译文;以及(ii)对于找不到匹配的部分,输出一则查询报文,表示未进行翻译。
18.一种操作用于处理一个两种文字对照的数据库的处理装置的方法,包括下述步骤:
在该装置中存储一个包括第一与第二对准的语料库(正文信息本体)的数据库,各语料库是分成部分的,使得第一语料库的部分的至少一个子集被与第二语料库的对应部分的一种对应关系所标识,各部分是进一步分成一个或多个基元部分(“字”)的;
分析对准的语料库以得到一个统计数据库:以及
利用该统计数据库,为从各语料库中选出一个字的一个字对,推算观测的相互关联的一个测定值,
其特征在于该方法还包括通过组合包含在各部分对中的字对的推算出的相互关系测定值,为一个给定的正文部分对(两种自然语言中每种一个部分)估计部分的相互关联的一个测定值。
19.权利要求18中提出的一种方法,其中所述字对相互关联测定值是在不推算一对中的任一字真实地是另一个字的译文的概率的情况中推算的。
20.权利要求18或19中提出的一种方法,其中的字对相互关联测定值的组合是在不考虑一对中的字在它们各自的部分中的位置的情况中执行的。
21.权利要求18或19中提出的一种方法,其中的字对相互关联测定值的组合是限制在出现在它们各自的正文部分中大致上对应的位置上的那些字对的。
22.权利要求18至21中任何一项中提出的一种方法,其中为了组合字对相互关联的测定值,标识与略去了某些常用字。
23.权利要求18至22中任何一项中提出的一种方法,其中的推算字对相互关联测定值的步骤包括:
为一对中的各字推算在其各自语料库中找到该字的观测到的概率的一个测定值;
为各选择的字对,推算在语料库的对准部分中找到该字对的观测到的概率的一个测定值;以及
用单个字的概率组合对的概率,以推算对中的字之间的相互关联的所述测定值。
24.权利要求18至23中任何一项中提出的一种方法,其中的统计数据库包括:
各语料库的一张字频表;
作为一个整体的对准语料库的一张字对频率表,计数一个给定的字对(每一个语料库一个字)出现在语料库的对准部分中的次数。
25.权利要求24中提出的一种方法,其中所述字对频率是在不考虑各部分内的字的位置的情况中,为各正文部分对的所有字对计数的。
26.权利要求24中提出的一种方法,其中的字对计数是限制在出现在它们各自的语料库的对准部分中大致上对应的位置上的字对的。
27.权利要求24、25或26中提出的一种方法,其中为了字对的计数,标识与略去了某些常用字。
28.一种操作一个处理装置将一个源正文从一种源语言自动翻译成一种目标语言的方法,包括:
在该装置中存储包含源与目标语言的对准的语料库的两种文字对照的数据库;
将源正文划分成部分;
得出一个候选目标语言部分形式的各源正文部分的候选译文;
通过用按照权利要求18至27中任何一项的方法,为源语言部分与候选目标语言部分估计一个相互关联测定值,而检验该译文;
输出经过检验的候选部分,供包含进一个目标正文中。
29.权利要求28中提出的一种方法,其中的检验步骤包含将一个阈值作用在一个候选部分的相互关联测定值上。
30.权利要求28或29中提出的一种方法,还包括输出一则表示并未为源语言部分作出经过检验的译文的查询报文。
31.权利要求17、28、29或30中提出的一种方法,其中翻译部分与查询报文(如果有的话)是作为一个单一的输出正文的一部分连接与一起输出的,以供其它装置定稿。
32.一种处理装置,包括用于实现按照前面的任何一项权利要求的一种方法的步骤的装置。
33.一种存储设备,其中存储了经过按照权利要求1至16中任何一项所提出的操作的一种处理装置修正过的一个两种文字对照的数据库。
34.一种自动化翻译系统,包括权利要求32中所提出的一种装置。
35.一种自动化翻译系统,其中存储了经过按照权利要求1至16中任何一项操作的一个装置修正过的数据库。
CN94190391A 1993-06-18 1994-06-17 处理两种文字对照的数据库的方法与装置 Expired - Lifetime CN1110757C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9312598.7 1993-06-18
GB9312598A GB2279164A (en) 1993-06-18 1993-06-18 Processing a bilingual database.

Publications (2)

Publication Number Publication Date
CN1110882A true CN1110882A (zh) 1995-10-25
CN1110757C CN1110757C (zh) 2003-06-04

Family

ID=10737376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94190391A Expired - Lifetime CN1110757C (zh) 1993-06-18 1994-06-17 处理两种文字对照的数据库的方法与装置

Country Status (7)

Country Link
US (1) US5867811A (zh)
EP (1) EP0804767B1 (zh)
JP (1) JPH08500691A (zh)
CN (1) CN1110757C (zh)
DE (1) DE69429881T2 (zh)
GB (1) GB2279164A (zh)
WO (1) WO1995000912A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100392642C (zh) * 2002-12-18 2008-06-04 株式会社理光 翻译支持系统
CN100452025C (zh) * 2002-06-28 2009-01-14 微软公司 自动检测文件中搭配错误的系统和方法
CN1916889B (zh) * 2005-08-19 2011-02-02 株式会社日立制作所 语料库制作装置及其方法
CN102227723A (zh) * 2008-11-27 2011-10-26 国际商业机器公司 辅助误译的检测的装置及方法
CN103164390A (zh) * 2011-12-15 2013-06-19 富士通株式会社 文档处理方法和文档处理装置

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
WO1999000789A1 (en) * 1997-06-26 1999-01-07 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US7574649B1 (en) * 1997-08-14 2009-08-11 Keeboo Sarl Book metaphor for modifying and enforcing sequential navigation of documents
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6195631B1 (en) * 1998-04-15 2001-02-27 At&T Corporation Method and apparatus for automatic construction of hierarchical transduction models for language translation
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US6535842B1 (en) * 1998-12-10 2003-03-18 Global Information Research And Technologies, Llc Automatic bilingual translation memory system
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US6278969B1 (en) * 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US7533013B2 (en) * 2000-05-11 2009-05-12 University Of Southern California Machine translation techniques
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US7155517B1 (en) 2000-09-28 2006-12-26 Nokia Corporation System and method for communicating reference information via a wireless terminal
US6782356B1 (en) * 2000-10-03 2004-08-24 Hewlett-Packard Development Company, L.P. Hierarchical language chunking translation table
US20020069049A1 (en) * 2000-12-06 2002-06-06 Turner Geoffrey L. Dynamic determination of language-specific data output
US6996518B2 (en) * 2001-01-03 2006-02-07 International Business Machines Corporation Method and apparatus for automated measurement of quality for machine translation
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
US20030093261A1 (en) * 2001-03-16 2003-05-15 Eli Abir Multilingual database creation system and method
US20030083860A1 (en) * 2001-03-16 2003-05-01 Eli Abir Content conversion method and apparatus
US20030135357A1 (en) * 2001-03-16 2003-07-17 Eli Abir Multilingual database creation system and method
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
JP4574047B2 (ja) * 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
EP1271341A3 (en) * 2001-06-30 2005-11-30 Unilever N.V. System for analysing textual data
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7361881B2 (en) * 2002-03-13 2008-04-22 Oy Ajat Ltd Ganged detector pixel, photon/pulse counting radiation imaging device
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
AU2003220606A1 (en) * 2002-03-27 2003-10-13 Universiity Of Southern California Phrase- based joint probability model for statistical machine translation
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
AU2002346060A1 (en) * 2002-07-03 2004-01-23 Iotapi.Com, Inc. Text-processing code, system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
CN100380373C (zh) * 2002-10-29 2008-04-09 埃里·阿博 知识系统方法和装置
US7249012B2 (en) 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7283949B2 (en) * 2003-04-04 2007-10-16 International Business Machines Corporation System, method and program product for bidirectional text translation
US20040243391A1 (en) * 2003-05-28 2004-12-02 Nelson David D. Apparatus, system, and method for multilingual regulation management
US20100070265A1 (en) * 2003-05-28 2010-03-18 Nelson David D Apparatus, system, and method for multilingual regulation management
JP3943582B2 (ja) * 2003-05-30 2007-07-11 富士通株式会社 対訳文対応付け装置
JP2004362249A (ja) * 2003-06-04 2004-12-24 Advanced Telecommunication Research Institute International 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
AU2004202391A1 (en) * 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US7383542B2 (en) * 2003-06-20 2008-06-03 Microsoft Corporation Adaptive machine translation service
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
US7287027B2 (en) * 2004-03-01 2007-10-23 Sap Ag System and method for entering a default field value through statistical defaulting
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
WO2006042321A2 (en) * 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US7774192B2 (en) * 2005-01-03 2010-08-10 Industrial Technology Research Institute Method for extracting translations from translated texts using punctuation-based sub-sentential alignment
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
WO2006133571A1 (en) * 2005-06-17 2006-12-21 National Research Council Of Canada Means and method for adapted language translation
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US8700383B2 (en) * 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
US7653531B2 (en) * 2005-08-25 2010-01-26 Multiling Corporation Translation quality quantifying apparatus and method
KR100739726B1 (ko) * 2005-08-30 2007-07-13 삼성전자주식회사 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
JP2007233486A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
CN101443759B (zh) * 2006-05-12 2010-08-11 北京乐图在线科技有限公司 多语言信息检索的方法和系统
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
JP2008090555A (ja) * 2006-09-29 2008-04-17 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびコンピュータプログラム
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
GB2444084A (en) 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8175864B1 (en) * 2007-03-30 2012-05-08 Google Inc. Identifying nearest neighbors for machine translation
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
JP5105513B2 (ja) * 2007-07-20 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 処理対象として適切なテキストを選択する技術
WO2009097459A1 (en) * 2008-01-29 2009-08-06 Educational Testing Service System and method for disambiguating the effect of text document length on vector-based similarit scores
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
US8594992B2 (en) * 2008-06-09 2013-11-26 National Research Council Of Canada Method and system for using alignment means in matching translation
US20100070482A1 (en) * 2008-09-12 2010-03-18 Murali-Krishna Punaganti Venkata Method, system, and apparatus for content search on a device
US8818992B2 (en) 2008-09-12 2014-08-26 Nokia Corporation Method, system, and apparatus for arranging content search results
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9767095B2 (en) 2010-05-21 2017-09-19 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
US8954447B1 (en) * 2011-02-07 2015-02-10 Amazon Technologies, Inc. Annotation-based content rankings
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US9256597B2 (en) * 2012-01-24 2016-02-09 Ming Li System, method and computer program for correcting machine translation information
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9081762B2 (en) * 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
JP6328409B2 (ja) * 2013-11-28 2018-05-23 シャープ株式会社 翻訳装置
JP5843117B2 (ja) * 2013-12-04 2016-01-13 国立研究開発法人情報通信研究機構 学習装置、翻訳装置、学習方法、翻訳方法、およびプログラム
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
CN106462579B (zh) * 2014-10-15 2019-09-27 微软技术许可有限责任公司 为选定上下文构造词典
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
JP6607482B2 (ja) * 2015-02-02 2019-11-20 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、およびプログラム
US9836457B2 (en) * 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5140522A (en) * 1988-10-28 1992-08-18 Kabushiki Kaisha Toshiba Method and apparatus for machine translation utilizing previously translated documents
GB9103080D0 (en) * 1991-02-14 1991-04-03 British And Foreign Bible The Analysing textual documents
JPH04264971A (ja) * 1991-02-20 1992-09-21 Nippon Computer Kenkyusho:Kk 学習型共起辞書作成装置
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452025C (zh) * 2002-06-28 2009-01-14 微软公司 自动检测文件中搭配错误的系统和方法
CN100392642C (zh) * 2002-12-18 2008-06-04 株式会社理光 翻译支持系统
CN1916889B (zh) * 2005-08-19 2011-02-02 株式会社日立制作所 语料库制作装置及其方法
CN102227723A (zh) * 2008-11-27 2011-10-26 国际商业机器公司 辅助误译的检测的装置及方法
CN102227723B (zh) * 2008-11-27 2013-10-09 国际商业机器公司 辅助误译的检测的装置及方法
US8676791B2 (en) 2008-11-27 2014-03-18 International Business Machines Corporation Apparatus and methods for providing assistance in detecting mistranslation
CN103164390A (zh) * 2011-12-15 2013-06-19 富士通株式会社 文档处理方法和文档处理装置

Also Published As

Publication number Publication date
CN1110757C (zh) 2003-06-04
US5867811A (en) 1999-02-02
DE69429881T2 (de) 2002-07-04
DE69429881D1 (de) 2002-03-21
GB2279164A (en) 1994-12-21
EP0804767A1 (en) 1997-11-05
GB9312598D0 (en) 1993-08-04
WO1995000912A1 (en) 1995-01-05
EP0804767B1 (en) 2002-02-13
JPH08500691A (ja) 1996-01-23

Similar Documents

Publication Publication Date Title
CN1110882A (zh) 处理两种文字对照的数据库的方法与装置
US11016966B2 (en) Semantic analysis-based query result retrieval for natural language procedural queries
Chowdhury et al. Plagiarism: Taxonomy, tools and detection techniques
US20200050638A1 (en) Systems and methods for analyzing the validity or infringment of patent claims
US9754076B2 (en) Identifying errors in medical data
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US7346487B2 (en) Method and apparatus for identifying translations
US7209875B2 (en) System and method for machine learning a confidence metric for machine translation
US8548794B2 (en) Statistical noun phrase translation
US20070265825A1 (en) Machine translation using elastic chunks
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN109062912B (zh) 一种翻译质量评价方法及装置
Deléger et al. Translating medical terminologies through word alignment in parallel text corpora
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
Huynh et al. When to use OCR post-correction for named entity recognition?
US8224642B2 (en) Automated identification of documents as not belonging to any language
JP2004355224A (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
RU2643438C2 (ru) Обнаружение языковой неоднозначности в тексте
CN111814493A (zh) 机器翻译方法、装置、电子设备和存储介质
Pal et al. Word Alignment-Based Reordering of Source Chunks in PB-SMT.
de Souza et al. Mt quality estimation for e-commerce data
US20230081042A1 (en) Apparatus and method for processing natural language
Kessikbayeva et al. Impact of Statistical Language Model on Example Based Machine Translation System between Kazakh and Turkish Languages
JP2000250914A (ja) 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体
Suchomel et al. Approaches for candidate document retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: CANON CO., LTD.

Free format text: FORMER OWNER: EUROPEAN CANON RESEARCH CENTER CO., LTD.

Owner name: NONE

Free format text: FORMER OWNER: ENGLAND GILFORD; EUROPE CANON CO., LTD.

Effective date: 20021204

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20021204

Address after: Japan, Tokyo, Tian Di, 3 meatballs, 30-2

Applicant after: Canong Co., Ltd.

Address before: British Guilford County

Applicant before: Canon Research Centre Europe Ltd.

Co-applicant before: British Guilford County

Co-applicant before: Canon Europe Ltd

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CX01 Expiry of patent term

Expiration termination date: 20140617

Granted publication date: 20030604