CN100452025C - 自动检测文件中搭配错误的系统和方法 - Google Patents

自动检测文件中搭配错误的系统和方法 Download PDF

Info

Publication number
CN100452025C
CN100452025C CNB031452337A CN03145233A CN100452025C CN 100452025 C CN100452025 C CN 100452025C CN B031452337 A CNB031452337 A CN B031452337A CN 03145233 A CN03145233 A CN 03145233A CN 100452025 C CN100452025 C CN 100452025C
Authority
CN
China
Prior art keywords
language
speech
sentence
translation
data bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031452337A
Other languages
English (en)
Other versions
CN1471029A (zh
Inventor
周明
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1471029A publication Critical patent/CN1471029A/zh
Application granted granted Critical
Publication of CN100452025C publication Critical patent/CN100452025C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

本发明提供了一种可供应用第一种语言进行写作、但其本国语言为第二种语言的人使用的语言搭配错误模式数据库的构筑方法和计算机可读媒体。该方法包括获得一由第一语言句子和第二语言句子组成的双语语言资料库,从该语言资料库的第二语言句子中提取第二语言词对。对从语言资料库中提取的每个第二语言词对,从语言资料库中相应第一语言句子中提取相应的第一语言词对,为第二语言词对确定一正确的第一语言译文。同样,对从语言资料库中提取的每个第二语言词对,建立一与第二语言词对相应的、由第一语言翻译词构成的集合。最后,对从语言资料库中提取的每个第二语言词对,从由第一语言翻译词构成的集合中去除正确的第一语言翻译,使得该集合代表与第二语言词对相应的搭配错误的第一语言词对的集合。

Description

自动检测文件中搭配错误的系统和方法
发明背景
本发明涉及机助写作系统和方法,特别涉及帮助用非本国语言写作的用户的系统和方法。
随着全球经济的不断增长和国际因特网迅速发展,世界各国人民越来越熟悉用非本国语言进行写作。令人遗憾的是,对文化和写作风格具有很大差异的的某些朋友来说,用某些非本国语言进行写作的能力是一直存在的缺陷。当用非本国语言(如英语)进行写作时,讲非本国语言的人(例如,讲中文、日语、朝鲜语和其它语言的人)常常会犯语言使用的错误。这种错误可以包括语法错误和不当搭配如动宾搭配、形容词名词搭配、副词动词搭配等的错误。
许多人具有能用正确语法使用非本国语言进行写作的能力,但是他们仍然可能与两词间的搭配的错误作斗争。其它人仍然要与语法错误和诸如两词间搭配的其它错误作斗争。虽然拼写校对和语法校对程序和系统对纠正语法错误是有用的,但是检测和/或纠正词间搭配错误会是困难的,尤其是这些困难可以是在语法上是正确的情况下。因此,语法检验程序通常对检测词间搭配错误只能提供很少的帮助,如果能的话,也是检测涉及词间搭配错误。在下面的讨论中,英语作为非本国语言的例子,但这些问题也会出现在其它语言中。
举例来说,考虑以下句子,其包含搭配错误,从而造成该句子即使在语法上正确也不是标准英语的状况。
1.Open the light(开灯)。
2.Everybody hates the crowded traffic on weekends(每个人讨厌周末的拥挤交通)。
3.This is a check of US $ 500(这是500美元的支票)。
4.I congratulate you for your success(我对您的成功表示祝贺)。
这些句子的标准英语应该如下:
1.Turn on light.
2.Everybody hates the heavy traffic on weekends.
3.This is a check for US $ 500.
4.I congratulate you on your success.
作为讲非本土英语的人所面临的困难的例子,我们来考虑中国用户的境况。由于文化、背景和思维习惯的原因,中国人常常写出符合语法但不是标准的英语句子。例如,中国人会把中文的主语直接翻译成英文的主语,并以同样的方法处理宾语和动词。当用英语写作时,中国人在处理动词和介词、形容词和名词、动词和名词等之间的搭配时,常常会有困难。而且,在特殊领域如商业领域,需要专门的写作技巧和风格。
普通辞典主要用来给非本国语言说话人作阅读之用(一种译码过程),但是这些辞典不能对写作提供足够的支持(一种编码过程)。它们只提供一单词的解释,而它们通常不提供解释相关词组和搭配的足够信息。而且,即使这些辞典提供了某些信息,也没有简便的方法来得到这种信息.另一方面,目前广泛使用的语法检验工具局限于检测容易发生的语法错误,但不能检测搭配的错误。
尽管上述问题是结合讲本土中文的人进行英文写作来说的,但是,这些问题,对用第一(非本国)语言进行写作,而讲第二(本国)语言的人来说,是共有的。针对这些问题,用来帮助讲非本国语言人没有搭配错误地准备文件的系统和方法,在这个领域将是一个很大的进步。进一步来说,供这种系统和方法使用的一种构筑搭配错误模式或样板的数据库的改良方法,也是个很大的进步。
发明概述
本发明提供了一种可供应用第一种语言进行写作、但其本国语言为第二种语言的人使用的语言搭配错误模式数据库的构筑方法和计算机可读媒体。该方法包括获得一由第一语言句子和第二语言句子组成的双语语言资料库,从该语言资料库的第二语言句子中提取第二语言词对。对从语言资料库中提取的每个第二语言词对,从语言资料库中相应第一语言句子中提取相应的第一语言词对,为第二语言词对确定一正确的第一语言译文。同样,对从语言资料库中提取的每个第二语言词对,建立一组与第二语言词对相应的、由第一语言翻译词构成的组合。最后,对从语言资料库中提取的每个第二语言词对,从由第一语言翻译词构成的组合中去除正确的第一语言译文,使得该组合代表与第二语言词对相应的一组搭配错误的第一语言词对。
附图的简要说明
图1是可以实施本发明的一种计算环境的方框图。
图2是可以实施本发明的另一种计算环境的方框图。
图3是用于纠正搭配错误的错误模式或样板数据库的构筑方法的流程图。
图4是说明词调整的数据流程图。
图5是用来构筑搭配错误模式或样板数据库的一系统的方框图。
图6是用按照本发明建造的错误模式或样板数据库来纠正搭配错误的一系统的方框图。
实施例的详细说明
本发明直接有关检测非本国语言人进行非本国语言写作时经常出现的典型语言用法错误的系统和方法。本发明包括用于此过程的构筑搭配错误数据库的系统和方法。本发明是结合其本国语言不是英语(如中文、日语、朝鲜语等),但用英语进行写作的人来介绍的。但是,本发明可应用于其它语言范围中所遇到的类似问题。这些错误包括诸如动词和宾语、形容词和名词、副词和动词等的不当搭配的使用。与在字处理系统中广泛使用的拼写校验和语法校验不同,本发明旨在检测两词间的搭配错误。这些错误可以是语法的,也可以是非语法的。
图1表示可以实施本发明的一合适的计算系统环境100的例子。该计算系统环境100仅是合适计算环境的一个例子,并不是用来限制本发明的使用范围或功能。也不能把计算环境100解释为对例示的操作环境100中任何组件或其组合有依赖关系或要求。
本发明可与许多其它通用或专用计算系统环境或配置一起运行。适用于本发明的众所周知的计算系统、环境和/或配置的例子,包括但不局限于:个人计算机、服务器计算机、手持设备或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子品、网络PC、小型机、大型机、电话系统、包括上述系统和设备之一的分布式计算环境和类似的计算机。
本发明可以在计算机可执行指令诸如由计算机执行的程序模块的一般情况下进行描述。程序模块通常包括例行程序、程序、目标、组件、数据结构等,可执行特殊任务或实现特别抽象数据类型。本发明也可在分布式计算环境中实施,在该环境中,任务是由通过一通信网络与之相连的远程处理装置来执行的。在分布式计算环境中,程序模块可以设置在包括存储器存储装置在内的本地和远程的存储介质中。
参考图1,实施本发明的一示例系统包括以计算机110方式的通用计算装置。计算机110的组件可包括,但不局限于,处理单元120,系统存储器130,把各种系统组件包括系统存储器至处理单元120相连的系统总线121。该系统总线121可以是几种总线结构中的一种,包括存储器总线或存储器控制器,外围总线和使用多种总线结构中一种总线结构的本地总线。作为例子但不局限于此,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA(EISA)总线、视频电子产品标准协会(VESA)本地总线和被称为曼赞宁总线的外围部件互连(PCI)总线。
计算机110通常包括各种计算机可读媒体。计算机可读媒体可以是由计算机110存取的任何现有媒体,包括任何易失和非易失媒体,可擦除和不可擦除媒体。作为例子,但不局限于此,计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体包括:用任何方法或信息存储技术如计算机可读指令、数据结构、程序模块和其它数据可实现的任何易失和非易失媒体,可擦除和不可擦除媒体。计算机存储媒体包括,但不局限于此,RAM、ROM、EEPROM、快速存储器或其它存储技术、CD-ROM、数字通用磁盘(DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁性存储装置、或者其它可用来存储所需信息并可用计算机110存取的任何其它媒体。通信媒体通常包括计算机可读指令、数据结构、程序模块或其它以调制数据信号如载波或其它运载机制形式表示的数据,并包括任何信息传送媒体。所谓“经调制的数据信号”,指其一种或多种特性被设置或改变成可在信号中编码的信号。作为例子,但不局限于此,通信媒体包括有线媒体,例如有线网络或直接有线网络连接,和无线媒体,例如声的、射频的、红外的和其它无线媒体。所述的任何结合也应包括在计算机可读媒体的范围中。
系统存储器130包括以易失和/或非易失存储器方式的计算机存储媒体,如只读存储器(ROM)131和随机存取存储器(RAM)132。一基本输入/输出系统133(BIOS)包含可帮助在计算机110内部件间如在启动时传递信息的基本例行程序,通常储存在ROM131中。RAM132通常包含可即时对其存取和/或用处理单元120在其上面进行操作的数据模块和/或程序模块。作为例子,但不局限于此,图1用图说明操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可擦除/不可擦除、易失/非易失的计算机存储媒体。仅作为例子,图1示出了可对不可擦除、非易失磁性媒体进行读写的硬盘驱动器141、可对可擦除、非易失磁盘152进行读写的磁盘驱动器151和可对可擦除、非易失光盘156如CD ROM或其它光存储媒体进行读写的光盘驱动器155。其它可用于所示操作环境的可擦除/不可擦除、易失/非易失的计算机存储媒体包括,但不局限于此,盒式磁带、快速存储卡、数字多用途光盘、数据视频带、固态RAM、固态ROM等,或类似的计算机存储媒体。硬盘驱动器141通常,通过一不可擦除存储器接口如接口140,与系统总线121相连,磁盘驱动器151和光盘驱动器155通常,通过一可擦除存储器接口如接口150,与系统总线121相连。
上述讨论并示于图1中的这些驱动器及其相关的计算机存储媒体,为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的储存。例如,在图1中,硬盘驱动器141表示用来存储操作系统144、应用程序145、其它程序模块146和程序数据147。请注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。操作系统144、应用程序145、其它程序模块146和程序数据147在此给予不同的编号,至少说明它们是不同的复制品。
用户可通过输入设备如键盘162、话筒163和诸如鼠标、轨迹球或触摸板的指点器161,把指令和信息输入到计算机110。其它输入设备(未示出)可包括控制杆、游戏板、卫星盘、扫描器等,或类似的装置。这些和其它输入设备通常通过与系统总线相连的用户输入接口160,与处理单元120连接,但也可经由其它接口和总线结构,例如并行端口、游戏端口或通用串行总线(USB),进行连接。监示器191或其它类型的显示器也可通过诸如视频接口190接口连接到系统总线121。除监视器外,计算机也可包括其它外围输出装置,如扩音器197和打印器196,它们通过输出外围接口190相连。
计算机110利用与一个和几个远程计算机如远程计算机180的逻辑连接,可在一网络环境中运行。远程计算机180可以是个人计算机、手持装置、服务器、路由器、网络PC、同级设备或其它普通网络节点,一般包括上述与计算机110有关的许多或所有器件。图1中所所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这种网络工作环境常见于办公室、全企业的计算机网络、局内网和国际互联网。
当应用于LAN网络环境时,计算机110通过网络接口或适配器170与LAN171相连。当应用于WAN网络环境时,计算机110一般包括调制解调器172或可在WAN173如国际互联网上建立通信的其它装置。可以是内部的也可以是外部的调制解调器172,通过用户输入接口160或其它合适的机制,可与系统总线121相连接。在网络环境中,与所述计算机110及其构成部分相关的程序模块,可储存在远程存储器存储装置中。作为例子,但不局限于此,图1说明远程应用程序185留驻在远程计算机180上。可以理解成,所示的网络连接是例示性质的,也可采用可在计算机之间建立通信链路的其它装置。
图2是作为示例的计算环境的移动设备200的方框图。移动设备200包括微处理器202、存储器204、输入/输出(I/O)器件206和用来与远程计算机或其它移动装置进行通信的通信接口208。在一实施例中,上述器件在一合适总线210互相进行通信相连。
存储器204可用诸如带电池后备模块(未示出)的随机存取存储器(RAM)的非易失电子存储器来实施,使储存在存储器204中的信息在移动设备200的总电源关闭时不会丢失。存储器204的一部分最好配置成程序执行用的可寻址存储器,而存储器204的另一部分最好用于储存,如模拟磁盘驱动器的储存。
存储器204包括一操作系统212、应用程序214和目标存储器216。在操作中,操作系统212最好由处理器202从存储器204来执行。在一较佳实施例中,操作系统212是来自微软公司的商用
Figure C0314523300101
CE牌操作系统。操作系统212最好为移动设备设计的,提供数据库特点,该特点是通过一组外露应用编程接口和方法由应用程序214来使用。目标存储器216中目标由应用程序214和操作程序212来维持,至少部分地响应对外露应用编程接口和方法的呼叫。
通信接口208代表可使移动设备200发送和接收信息的许多设备和技术。这些设备包括有线和无线调制解调器、卫星接收器和广播调谐器等等。移动设备200也能直接和与其交换数据的计算机连接。在这种情况下,通信接口208可以是红外接收器或串行或并行通信连接,这些都能发送流式信息。
输入/输出器件206包括各种输入设备,如触敏屏幕、按钮、滚轮和话筒以及包括声音发生器、振动装置和显示器在内的各种输出设备。上述设备作为例子,并不需要全部出现在移动设备200上。此外,可附属在移动设备上或出现在移动设备上的其它输入/输出设备,都在本发明的范围中。
根据本发明的各种情况,提出申请的是可自动检测用第一语言(如英语)书写的文件中的搭配错误的系统和方法,该文件由其第一语言为非本国语言的用户(如中国用户,或更一般的由其本国语言为不同于第一语言的第二语言的用户)用第一语言书写的。本发明的一个方面揭示了构筑搭配错误的检测/推荐模式数据库的一改进方法。本发明的另一方面,使用匹配算法和数据库来检测书写文件中的搭配错误,并提供纠正搭配错误的建议。
1.构筑一检测/推荐模式数据库
数据库的构筑或采集过程是用大型句子调整双语(本例为中文-英文)资料库的应用来支持的。对在双语资料库中的中文句子进行语法分析,以得到词间的依赖关系。对资料库中的中文词来说,词调整技术被用来从资料库中的相应英文句子中确定它们的正确的英文译文词。然后,抽取特殊依赖结构的词对及其相应的译文。例如,可以从资料库中抽取具有动-宾依赖关系和形容词-名词关系的所有词对及其相应的英文译文。一个例子示于表1中。
  依赖关系   说明   例子
  动词-宾语   包含动词-宾语的中文词对及其英文译文   开+灯turn on+the light
  形容词-名词   包含主项-谓项的中文词对及其英文译文   拥挤的+交通heavy+traffic
表1
用这种方法,可得到一描述中文词组及其正确译文的大型数据库。中文词对和其正确的英文译文的对应是附带注释的。然后,英文词由该相应中文词的各种可能的英文译文来替代。对每个有特定依赖结构的中文词对来说,英文译文词的所有可能的组合,除用句子和词调整标出的正确译文的相应组合外,被储存在错误模型数据库中。上面一般介绍的构筑搭配错误模式数据库的过程,用图3所示的流程图300作更详细的说明。错误模式数据库的构筑方法,不仅从种属上结合可帮助讲第二语言的本国人进行第一语言书写之用的数据库构筑,而且更具体地结合可帮助讲中文的本国人纠正用英文书写的搭配错误之用的数据库构筑,在图3中加以说明。
如在305所示,获得一句子已调整的双语资料库。一般来说,一大型双语资料库在产生搭配错误模式数据库方面,比一较小的资料库更有用。同样,双语资料库应进行句子调整,使两种语言的每个句子中包含的词和短语相关联。该句子调整双语资料库既可用现有技术来构筑,也可从其它来源来获得。
然后,词调整技术被用来调整第一种语言(如英文)的句子和第二种语言(如中文)的句子之间的词和短语,如310所示。只要构筑或获得了句子和词调整双语资料库,步骤305和210就可在各种实施例中结合起来。第一语言(如英语)中句子和第二语言(如汉语)中句子间的词调整,可使用多种词调整技术或手法来实现。通常,这些手法使第一语言中句子中的词或词组与在双语资料库中的第二语言中句子中相应的词或词组相互关联。结合图4,对词调整手法的例子进行简短讨论,但是,本发明的方法不是用来对任何特殊的词调整手法作限制。
现在参考图4,示出的是一数据流程图,说明应用于本发明中一些实施例中的词调整手法。图4表示在一词调整过程中,源语言输入句子350和研究中的例子360输入到作为双语辞典调整器362运行的第一调整组件。调整器362说明不同语言中二个词如何能相互被翻译。存在着多种不同方法来加以实施。评价这种翻译的一些尺度包括如在布朗等人在《Computational Linguistics》第19卷第2期第263-311页(1993年)上发表的“统计机器翻译的数学:参数估计”文章中出现的翻译概率,如在克尔等人在在《Computational Linguistics》第23卷第2期第313-343页(1997年)上发表的“词调整的一种分类为基础方法”文章中出现的子系数,如在布朗等人在《COULING-88》第1卷第71-76页(1998年)上发表的“语言翻译的一种统计方法”文章中出现的交互信息,如在帕斯卡尔等人在《Computational Linguistics》第21卷第4期第226-233页(1995年)上发表的“从噪声平行资料库中寻找名词和正确名词译文的一种模式匹配方法”文章中出现的t-记分。
这样,双语辞典调整器362建立了高置信度单词锚点,它们是从源语言输入句子350到例子句子360的直接词翻译。这些可在以后的词组调整时使用。
下一步,在例子句子360为非分段语言(如中文)情况时,例子句子360进行词分段。这可用多种不同的公知方法来进行,本发明不局限于这些特殊的词分段手法。例子句子360的词分段在图4中用方框364表示。
然后,使用一失真模型调整器366。失真模型调整器366说明在源语言句子350中一个位置如何可被调整到目标语言例子句子360中的另一个位置。如同与双语辞典调整器362一样,存在着可实施的多种失真模型调整器366。某些这类模型包括绝对失真(如上述的布朗文章中)、相对偏移(如布朗文章中)、以隐式划线模型(HMM)为基础的系统和结构约束系统(也在布朗文章中)。
甚至在词调整和失真模型化后,仍然有可能存在一些输入句子的非调整部分。因此,访问一单语辞典,把字符合并成词,把词合并成短语。这在图4中用方框368来表示。换句话说,即使双语辞典非常大,因为语言的固有的复杂性其覆盖面仍然非常有限。使用一单语辞典,一些分离的词(本不应分离,因为它们是短语的一部分)可被标识为短语。因此,可实现短语合并。
同样,可使用任何已知的统计调整组件,来调整未调整的词。这用方框370表示。这种统计调整手法是已知的,仅配置一阈值来约束统计调整空间。
考虑所有这些项目,词调整结果372是词调整系统的输出。
虽然在图4所示的实施例中,词调整机制包括来自双语辞典调整器362的翻译信息、失真调整器模型366、短语合并组件368和统计调整组件370,也可以使用其它信息源。例如,上述的t-记分可用来作为上下文信息。总之,该词调整结果372可提供锚点,以反映源语言输入句子350和例子句子360之间的高置信度调整。这些锚点可在短语调整中使用。
现再参考图3,在获得或建立了一句子和词的调整双语资料库后,第二语言(如中文)中的句子进行依赖语法分析,以获得资料库的句子中词间依赖结构。这在图3中用步骤315表示。在资料库中第二语言(如中文)句子的词间依赖结构被标识后,从资料库中第二语言(如中文)句子中抽取具有特殊依赖结构(如动词-宾语、宾语-名词等)的词对。这在图3中表示为步骤320。对从双语资料库中第二语言(如中文)句子中抽取的词对,从双语资料库中第一语言(如英文)句子中抽取相应的翻译词。对一特殊的依赖结构,这产生了第一语言词对的数据库和它们正确的词对翻译。这在图3中表示在步骤325处。
为了构筑匹配错误模式数据库,对第二语言(如中文)的每个词对,必须标识一组相应的第一语言(如英文)匹配错误词对。这在图3中表示为步骤330处。为了实现这个目的,对具有一特殊依赖结构的每个第二语言的词对,把词对的每个词翻译成所有相应的第一语言的翻译词。这不是局限于步骤325中标识的来自正确翻译词对的翻译词,而应是把第一语言中词对的每个词单独翻译成其所有可能的翻译词。这可用例如一机读双语辞典来实现。
如果有第二语言(如中文)的一词对,相应的第一语言(如英文)的匹配错误词对集合,可通过建立来自该第二语言词对的词翻译组合的一集合来进行标识。例如,如果一中文词对的第一词有三个不同的英文翻译词,且该中文词对的第二词有四个不同的英文翻译词,则在该集合中包括十二个独立的来自该中文词对的词的翻译组合。
下一步,对与第二语言(如中文)中一词对相对应的第一语言(如英文)中词组翻译组合的每个集合,从该集合中去除步骤325中标识的正确的词对翻译,来建立该错误模式数据库。这在图3中在步骤335处表示。该数据库使中文(或第二语言)词对、正确的英文(或第一语言)翻译词对和匹配错误的英文(或第一语言)翻译词对相关联。
本发明也揭示了构筑错误模式数据库的系统。结合例子,图5所示的系统500说明了上述错误模式数据库的构筑方法。在此例中,该过程是针对动词-宾语关系来讨论的。但是,该过程也能重复用于其它依赖结构。
1.准备一大型中-英双语资料库
如上结合图3讨论那样,可获得一句子调整双语资料库502。但是,可获得一还未进行句子调整的双语资料库,句子调整如果需要可在资料库上进行。
2.在双语资料库上进行句子调整和词调整
如果该资料库已经进行句子调整,则仅需进行词调整。词调整组件504使用一调整工具506来调整资料库502中中文句子和其相应英文句子之间的词。该词调整组件可以是任何程序、子程序、模块等,它们利用如图4所述的调整工具来进行词调整。虽然介绍了一特定的调整工具,但可使用任何合适的手法进行词调整。
对本例来说,假定有双语句对:
中文:他在教室里开灯。
英文:He turned on the light in the classroom.
3.依赖语法分析中文句子
利用一中文语法分析器508(或更一般的为第二语言语法分析器),在所示的步骤510处,对资料库中的中文句子(更一般的为第二语言句子)进行语法分析,以便获得句子内词间的依赖结构。在上述例示的句子中,依赖语法分析产生下列词对。
对中文句子的依赖语法分析:
(主语-动词,他,开)
(副词-动词,在教室里,开)
(动词-宾语,开,灯)
4.从中文句子中,抽取具有动词-宾语关系的词对
在上述的例子中,词对,他,开,在中文句子中有主语-动词关系。
他在教室里开灯。
(主语-动词,他,开)
这对任何和所有的所需依赖结构词对(包括短语和词对)都能做的。
5.从英语句子中,抽取与主语-动词中文词对相对应的主语-动词的翻译词对
翻译抽取器511是一程序、子程序、模块等,对双语资料库中的每个主语-动词的中文词对,从经调整的句子中抽取正确的主语-动词英文翻译词对。因此,翻译抽取器构筑或包括一动词-名词中文词对及其正确的英文词对翻译的数据库。例如,对本例所用的中文句子来说,其相应的英文依赖关系是:
(主语-动词,他,开)
(主语-动词,he,turn on)
(副词-动词,在教室里,开)
(副词-动词,in the classroom,turn on)
(动词-宾语,开,灯)
(动词-宾语,turn on,light)
因此,在本例中,我们获得了正确的英文动词-名词匹配:
(动词-宾语,开,灯)
(动词-宾语,turn on,light)
抽取组件511同样能抽取其它依赖结构词对的翻译。
6.对每个动词-名词中文词对,构筑一组错误动词-名词英文词对
如图5所示,一英文翻译替代组件512构筑一组错误英文词对,该组词对储存在错误模式数据库514中。此过程可结合图5所示的步骤330和335来加以说明。下面提供的是以伪代码格式的这些步骤的说明。对每个动词-名词中文词对,做:
6.1从一中英文辞典中,得到中文动词的前M个英文翻译(Ev1,Ev2,..Evm)和中文名词前M个英文翻译(En1,En2,..Enm).本例的英文动词和名词翻译如下所示:
开:                  灯:
open                  light
drive                 lamp
turn  on
start
可以看出,如果小于M个翻译可用,只有可用的翻译将被找到。
6.2得到中文动词V翻译和中文名词N翻译的所有组合的集合Q:
Q={(Evi,Enj)|1<=I,j<=n,}
然后,我们得到集合Q:
{(open,light),(drive,light),(turn on,light),(start,light)
 (open,lamp),(drive,lamp),(turn on,lamp),(start,lamp)}
由于在本例中开有四个英文翻译词或短语(open,drive,turn on,start),在本例中灯有二个英文翻译词或短语(light,lamp),所以有八种可能的组合。
6.3从集合Q中删除英文动词或动词短语和英文名词或名词短语的正确组合。正确词对(Vv,Nn)标识如本例的步骤5和图3所示步骤325中所讨论那样。
去除正确的词对(turn on,light),集合Q变成:
{(open,light),(drive,light),(start,light),(open,lamp),
(drive,lamp),(turn on,lamp),(start,lamp)}
6.4对留在Q集合中每个词对或每个项(Vx,Ny),定义一模式:
模式种类:动词-名词匹配
错误说明:(Vx,Ny)
正确:(Vv,Nn).
然后,我们可得到一系列的模式,例如:
模式种类:动词-名词匹配
错误说明:(open,light)
正确:(turn on,light).
在构筑了搭配错误模式数据库后,用它可在书写过程中检测搭配错误并利用模式提供建议。结合图3-5在上述数据库构筑过程中获得的模式被很好地分类和组织,使它们被有效地使用。图6中给出了例示系统,该系统应用错误模式或模板数据库514来纠正书写英文(或更一般的是第一语言)文件过程中的搭配错误。
图6所示的系统600可以在如图1和图2中所示的计算环境中实施。如图6所示,虽然输入句子605输入到该系统。在本例中,该输入句子605是一个包含搭配错误的英文句子。该句子可用任何所需的手段,包括使用示于图1的键盘162或话筒163(和语音-文本转换程序),输入到该系统。输入的句子,也可用其它方法例如从其它系统转入或从存储器中检索句子,输入到系统中。
如在组件或步骤607处所示,英文语法分析器609被用来分析输入英文句子,以确定句子内的依赖结构。由于句子太复杂而不能进行整句语法分析时,可采用部分语法分析。英文语法分析器609可以是该领域中已知的多种语法分析器中任何一种。
然后,如在步骤611处所示,把具有在分析时所标识的依赖结构的词对或短语,与使用上述方法构筑的数据库514中的错误模式作比较。如在组件或步骤613处所示,如果一词对(包括短语)被发现与数据库中的搭配错误词对相匹配,被认为搭配错误的词对的区域,可用某种方式在书写句子中突出出来,同时把与数据库中的特定错误词对模式相关的正确搭配建议提供给用户。在一些实施例中,系统不会自动纠正翻译,但会给写作者提供供考虑的建议。使用用户接口615如键盘162、指点器161等,用户确认或接受建议,或拒绝建议并保留原来得体的句子。这示于614处。
对下述作为例子的具有动词-宾语关系依赖结构的(动词,名词)词对进行搭配错误的核对。此过程同样可用于其它依赖结构。
1.输入一英文句子;
He opened the light in the classroom.
2.英文依赖关系语法分析
(主语-动词,he,open)
(副词-动词,in the classroom,turn on)
(动词-宾语,open light)
3.为具有(动词-宾语)关系的(动词,名词)词对(open,light)扫描句子
例子:(open,light)
4.为被标识(动词-名词)词对(open,light)1和一错误模式集合之间的匹配查找错误模式数据库。如果一模式匹配,则:
突出英文句子中的(动词,名词),且
从错误模式数据库中输出正确建议。
在此特殊的例子中,动词-名词搭配(open,light),被发现有以下匹配:
模式种类:动词-名词搭配
错误说明:(open,light)
正确:(turn on,light)
因此,该系统会以某种方式突出搭配错误的区域,并建议正确的搭配。
虽然本发明是结合特定的实施例来加以说明的,但是,本行业的熟练技术人员认为,在不脱离本发明的精神和范围下,可以在形式和细节上进行变化。例如,结合讲中文的人进行英文书写的例子,对其本国语言为不同于第一语言的第二语言的人进行第一语言书写的情况,在理论上是可行的。同样,本发明介绍了对第二语言的一词标识和储存第一语言的翻译词,这种介绍也包括标识和储存与第二语言中词相对应的第一语言的短语,和标识和储存与第二语言中短语相对应的第一语言的词。

Claims (12)

1.一种用于自动检测用户使用非本国语言的第一语言所写的文档中的搭配错误的方法,所述方法包括:
接收可能存在搭配错误的第一语言的输入句子;
分析所述输入句子以确定其中的依赖结构;
将构成所述依赖结构的第一语言词对和搭配错误模式数据库中的错误模式进行匹配;
如果构成所述依赖结构的第一语言词对与搭配错误模式数据库中的错误模式匹配,根据所述正确的第一语言翻译自动更正该错误的词对,或高亮显示可疑的搭配错误区域并向用户呈现正确的第一语言翻译;
其中,所述搭配错误模式数据库通过下述步骤形成:
获得一具有第一语言句子和第二语言句子的句子和词已调整双语资料库;
从所述资料库中的第二语言句子中抽取第二语言词对;
对从所述资料库中抽取的每个第二语言词对,从资料库中相应的第一语言句子中,抽取相应的第一语言词对,为所述第二语言词对确定正确的第一语言翻译;
对从所述资料库中抽取的每个第二语言词对,建立与第二语言词对相对应的第一语言翻译词组合的一集合;
对从所述资料库中抽取的每个第二语言词对,从所述第一语言翻译词组合的集合中,去除正确的第一语言翻译,使得所述组合的集合代表与第二语言词对相对应的搭配错误的第一语言词对的集合。
2.如权利要求1所述的方法,其特征在于,获得所述句子和词已调整的双语资料库包括下述步骤:
获得具有第一语言句子和第二语言句子的句子已调整的双语资料库;且
在所述双语资料库上进行词调整,使第一语言中句子中的词与第二语言中相应句子中的词对齐。
3.如权利要求1所述的方法,其特征在于,从所述资料库中第二语言句子中抽取第二语言词对进一步包括:
对所述资料库中第二语言句子进行分析,获得词间的依赖结构;
从所述资料库中第二语言句子中抽取具有所获得的依赖结构的第二语言词对。
4.如权利要求3所述的方法,其特征在于,建立与每个第二语言词对相对应的第一语言翻译词组合的一集合进一步包括:
对每个从所述资料库中抽取的第二语言词对,单独把第二语言词对的每个词翻译成相应的第一语言翻译词;
通过把第二语言词对的第一个词的每种翻译与第二语言词对的第二个词的每种翻译相结合的方法,建立与每个第二语言词对相对应第一语言翻译词的组合的集合。
5.如权利要求3所述的方法,其特征在于,对搭配错误的第一语言词对的集合中每个搭配错误的第一语言词对,进一步包括:定义一模式,使搭配错误的第一语言词对与相应的正确第一语言翻译相关联。
6.如权利要求5所述的方法,其特征在于,其中,所述模式进一步使搭配错误的第一语言词对和相应的正确第一语言翻译与一模式种类相关联。
7.如权利要求1所述的方法,其特征在于,其中,第一语言是英语,第二语言是汉语。
8.一种用于自动检测用户使用非本国语言的第一语言所写的文档中的搭配错误的系统,所述系统包括:
用于接收可能存在搭配错误的第一语言的输入句子的装置;
用于分析所述输入句子以确定其中的依赖结构的装置;
用于将构成所述依赖结构的第一语言词对和搭配错误模式数据库中的错误模式进行匹配的装置;
如果构成所述依赖结构的第一语言词对与搭配错误模式数据库中的错误模式匹配,用于根据所述正确的第一语言翻译自动更正该错误的词对,或高亮显示可疑的搭配错误区域并向用户呈现正确的第一语言翻译的装置;
其中,所述搭配错误模式数据库由下述装置形成:
用于从一双语资料库中第二语言句子中抽取第二语言词对的装置;
对从所述资料库中抽取的每个第二语言词对,用于从资料库中相应的第一语言句子中,抽取相应的第一语言词对,为所述第二语言词对确定正确的第一语言翻译的装置;
对从所述资料库中抽取的每个第二语言词对,用于建立与第二语言词对相对应的第一语言翻译词组合的一集合的装置;
对从所述资料库中抽取的每个第二语言词对,用于从所述第一语言翻译词组合的集合中,去除正确的第一语言翻译的装置,使得所述组合的集合代表与第二语言词对相对应的搭配错误的第一语言词对的集合。
9.如权利要求8所述的系统,其特征在于,其中,用于从所述资料库中第二语言句子中抽取第二语言词对的装置进一步包括:
用于对所述资料库中第二语言句子进行分析以获得词间的依赖结构的装置;
用于从所述资料库中第二语言句子中抽取具有所获得的依赖结构的第二语言词对的装置。
10.如权利要求8所述的系统,其特征在于,用于建立与每个第二语言词对相对应的第一语言翻译词组合的一集合的装置进一步包括:
对每个从所述资料库中抽取的第二语言词对,用于单独把第二语言词对的每个词翻译成相应的第一语言翻译词的装置;
通过把第二语言词对的第一个词的每种翻译与第二语言词对的第二个词的每种翻译相结合,用于建立与每个第二语言词对相对应第一语言翻译词的组合的集合的装置。
11.如权利要求8所述的系统,其特征在于,对搭配错误的第一语言词对的集合中每个搭配错误的第一语言词对,进一步包括:用于定义一模式使搭配错误的第一语言词对与相应的正确第一语言翻译相关联的装置。
12.如权利要求8所述的系统,其特征在于,其中,第一语言是英语,第二语言是汉语。
CNB031452337A 2002-06-28 2003-06-25 自动检测文件中搭配错误的系统和方法 Expired - Fee Related CN100452025C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/185,430 US7031911B2 (en) 2002-06-28 2002-06-28 System and method for automatic detection of collocation mistakes in documents
US10/185,430 2002-06-28

Publications (2)

Publication Number Publication Date
CN1471029A CN1471029A (zh) 2004-01-28
CN100452025C true CN100452025C (zh) 2009-01-14

Family

ID=29999261

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031452337A Expired - Fee Related CN100452025C (zh) 2002-06-28 2003-06-25 自动检测文件中搭配错误的系统和方法

Country Status (3)

Country Link
US (1) US7031911B2 (zh)
JP (1) JP4237001B2 (zh)
CN (1) CN100452025C (zh)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
AU2003269808A1 (en) * 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7584092B2 (en) 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US20070005345A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Generating Chinese language couplets
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US7574348B2 (en) 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8549492B2 (en) * 2006-04-21 2013-10-01 Microsoft Corporation Machine declarative language for formatted data processing
US20070250528A1 (en) * 2006-04-21 2007-10-25 Microsoft Corporation Methods for processing formatted data
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US8078451B2 (en) * 2006-10-27 2011-12-13 Microsoft Corporation Interface and methods for collecting aligned editorial corrections into a database
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
EP2132657A4 (en) * 2007-03-06 2018-01-03 Google LLC Machine learning for transliteration
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US7962507B2 (en) * 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
CA2727046A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
US8521761B2 (en) * 2008-07-18 2013-08-27 Google Inc. Transliteration for query expansion
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US20100204977A1 (en) * 2009-02-09 2010-08-12 Inventec Corporation Real-time translation system that automatically distinguishes multiple languages and the method thereof
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8930176B2 (en) * 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
CN102262621A (zh) * 2010-05-26 2011-11-30 钟长林 译文检查装置及译文检查方法
CN103154936B (zh) * 2010-09-24 2016-01-06 新加坡国立大学 用于自动化文本校正的方法和系统
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9342503B1 (en) * 2013-03-12 2016-05-17 Amazon Technologies, Inc. Correlation across languages
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
CN104794110B (zh) * 2014-01-20 2018-11-23 腾讯科技(深圳)有限公司 机器翻译方法及装置
CN105320650B (zh) * 2014-07-31 2019-03-26 崔晓光 一种基于语料匹配和语法分析的机器翻译方法及其系统
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
CN107315732B (zh) * 2016-04-27 2021-03-23 科大讯飞股份有限公司 一种中式英语的发现方法及系统
US20180032499A1 (en) * 2016-07-28 2018-02-01 Google Inc. Automatically Generating Spelling Suggestions and Corrections Based on User Context
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
CN108595410B (zh) * 2018-03-19 2023-03-24 小船出海教育科技(北京)有限公司 手写作文的自动批改方法及装置
CN110457676B (zh) * 2019-06-26 2022-06-21 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US11657229B2 (en) * 2020-05-19 2023-05-23 International Business Machines Corporation Using a joint distributional semantic system to correct redundant semantic verb frames
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
WO2022047252A1 (en) 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1110882A (zh) * 1993-06-18 1995-10-25 欧洲佳能研究中心有限公司 处理两种文字对照的数据库的方法与装置
CN1123432A (zh) * 1993-09-15 1996-05-29 Citac计算机股份有限公司 机器翻译中的语法自纠正方法
CN1195142A (zh) * 1997-03-28 1998-10-07 松下电器产业株式会社 汉语文档自动校正方法及其装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203273A (ja) * 1986-03-04 1987-09-07 Toshiba Corp 機械翻訳システム
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5528491A (en) * 1992-08-31 1996-06-18 Language Engineering Corporation Apparatus and method for automated natural language translation
JP3377290B2 (ja) * 1994-04-27 2003-02-17 シャープ株式会社 イディオム処理機能を持つ機械翻訳装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1110882A (zh) * 1993-06-18 1995-10-25 欧洲佳能研究中心有限公司 处理两种文字对照的数据库的方法与装置
CN1123432A (zh) * 1993-09-15 1996-05-29 Citac计算机股份有限公司 机器翻译中的语法自纠正方法
CN1195142A (zh) * 1997-03-28 1998-10-07 松下电器产业株式会社 汉语文档自动校正方法及其装置

Also Published As

Publication number Publication date
US20040006466A1 (en) 2004-01-08
JP4237001B2 (ja) 2009-03-11
US7031911B2 (en) 2006-04-18
JP2004038969A (ja) 2004-02-05
CN1471029A (zh) 2004-01-28

Similar Documents

Publication Publication Date Title
CN100452025C (zh) 自动检测文件中搭配错误的系统和方法
US7319949B2 (en) Unilingual translator
US8170868B2 (en) Extracting lexical features for classifying native and non-native language usage style
US8365070B2 (en) Spelling correction system and method for misspelled input
US20060282255A1 (en) Collocation translation from monolingual and available bilingual corpora
CN102084417B (zh) 现场维护语音到语音翻译的系统和方法
US7672832B2 (en) Standardized natural language chunking utility
KR101682207B1 (ko) 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
DeNero et al. Inducing sentence structure from parallel corpora for reordering
US20100179803A1 (en) Hybrid machine translation
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US20100088085A1 (en) Statistical machine translation apparatus and method
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
US7328404B2 (en) Method for predicting the readings of japanese ideographs
CN100361124C (zh) 用于词分析的系统和方法
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
US20070016397A1 (en) Collocation translation using monolingual corpora
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
AiTi et al. Input normalization for an english-to-chinese sms translation system
Ehsan et al. Statistical Machine Translation as a Grammar Checker for Persian Language
Dinh Building an annotated English-Vietnamese parallel corpus
Gispert Ramis Introducing linguistic knowledge into statistical machine translation.
Zajac et al. Customizing complex lexical entries for high-quality MT

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090114

Termination date: 20170625