CN101361064A

CN101361064A - 文本编辑装置和方法

Info

Publication number: CN101361064A
Application number: CNA2006800512018A
Authority: CN
Inventors: 休·劳森-坦克雷德
Original assignee: EMIL Ltd
Current assignee: EMIL Ltd
Priority date: 2005-12-16
Filing date: 2006-12-18
Publication date: 2009-02-04
Also published as: WO2007068960A2; GB0525657D0; GB2433403A; GB2433403B; US20090076792A1; WO2007068960A3; JP2009519534A; EP1969490A2

Abstract

一种用于管理表示从第一语言被翻译成第二语言的文本的信息的计算机设备，该设备包括：用于贮存表示从第一语言被翻译成第二语言的文本的第一组信息的信息贮存装置；用于接收对所述第一组信息所表示的文本进行选择和/或编辑的用户指令的用户输入装置；用于以接收到的用户指令为基础对所述第一组进行编辑的文本数据控制装置；和以可操作的方式生成显示数据的显示数据发生装置，所述显示数据以可操作的方式在显示介质上定义第一显示区域和第二显示区域，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的第一文本信息，并且所述第二显示区域包含对应于所述第二组信息的第二文本信息，所述第二组信息要么包括从所述第一语言翻译之前的所述文本，要么对应于被所述文本数据控制装置编辑之前的所述第一组；其中所述显示数据发生装置进一步以可操作的方式在所述显示数据中包括区分信息，所述区分信息以可操作的方式使所述第一文本信息的一部分和所述第二文本信息的对应部分分别与所述第一文本和所述第二文本中的剩余部分可视地区分开。

Description

文本编辑装置和方法

技术领域

本发明涉及文本编辑装置和方法，并且具体来说，涉及用于在从一种语言向另一种语言的翻译过程之后对文本进行后编辑的装置和方法，或用于对任何机器生成的文本进行后编辑的装置和方法。

背景技术

翻译服务的需求日益增多，超过了世界贸易增长的速度，而世界贸易增长的速度又高于世界经济的增长速度。如今，互联网总通信量的半数以上使用非英语的语言，而且有证据表明英语在商业活动中更普遍地占支配地位的趋势变得缓慢下来。翻译职业的征聘虽然日益增加，但仍然供不应求。同时，自然语言处理的新技术带来了在进行翻译时使计算机更多地参与的前景。

在自然语言翻译中，软件的使用在传统上有两种主要的方法。第一是机器翻译(MT)，机器翻译自从二十世纪九十年代起就一直存在，但到目前为止它也未能被确立为主流翻译的可信基础。随着对统计和随机技术使用的增多，在未来几年，这种情况可能会有一定程度的改变，MT尽管在互联网上得到广泛地使用，但是仍需获得普遍的认同。MT解决方案之所以被认为不可行的主要原因在于，对许多用途来说，机器翻译的质量不够高。由于MT系统与技术翻译相比，相对不得要领，所以性能往往较差。这有许多原因。未被识别的单词没有被翻译，而是仅仅被复制到翻译后的文本中；对多义词的翻译可能给出对上下文来说是错误的意思，而且当源语句的句法结构的复杂性提高时，MT系统的效率也随之降低。相似地，在语句结构相差很大的成对语言之间，MT系统的效率会比较低。这就导致有必要对机器翻译后的文本进行后编辑，以便将质量提高到可接受的标准。使用目前的机器翻译系统，可能需要花费大量的时间和精力来将MT系统的输出转换为具有人工质量的翻译。

通常，机器翻译软件提供用户界面，该用户界面具有计算机屏幕上的第一区域和该屏幕上的第二区域，用户可以在该第一区域通过打字或粘贴来输入待翻译的文本，并且机器翻译的输出在该第二区域显示。当前使用最为普及的(也是最老的)MT系统之一是称为“Systran”的软件包，“Systran”允许选择多种语言之间的互译。

另一种主要的技术是翻译记忆(TM)系统。翻译记忆系统通过将所有的实际翻译留给参与人员，并且仅提供用于(在某些文本或系列文本中可能会广泛地)重用先前翻译过的材料的有效系统，来避免MT的传统问题，从而实现有时所说的机器辅助人工翻译(MAHT)。现在可用的TM系统效率很低，因为它们要求对很多材料“首次”进行人工翻译，然后才能由软件有效地自动处理。

现今市场上有多种TM系统可用。例如，“Trados”TM系统是在使用中的最普及的TM系统之一。“Trados”通过提供“工作台(workbench)”窗口来重复使用翻译过的语句，从而避免用户重复打字，所述“工作台”窗口自动呈现相关源文本语句并将其与可用的任何相匹配的先前语句进行匹配。与Trados类似的系统允许用户设置一“模糊匹配”的期望级别，如单个数值，其中100％表示只接受严格匹配。如果将模糊级别设置为100％以下，则系统将显示先前翻译过的与源文本部分匹配或严格匹配的语句，所述匹配的级别高于用户所设置的门限值。有用的模糊匹配级别是90％以上。如果低于这个门限值，则编辑模糊匹配的工作量将高得惊人。然而，该系统仅对，例如被标识为由句号隔开的文本块的完整语句进行匹配，并且不提供逐单词或逐短语级别上的任何翻译。

发明内容

本发明的一个方面提供一种至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑方法或设备。该装置包括用于接收对文本进行选择和/或编辑的用户指令的用户输入装置。该装置包括用于生成待在显示介质上显示的显示数据的显示数据发生装置。该装置还包括控制器，该控制器以可操作的方式控制该显示器来在第一显示区域显示用户可编辑的翻译后的文本，并在第二区域显示预翻译后的文本或用户预编辑后的翻译后的文本之一。该控制器被配置为在第一显示区域中加亮文本的被选择部分，在第二显示区域中加亮该文本的对应部分，并且如果经由该用户输入装置获得新的文本选择，则更新所述加亮。加亮可以包括最好在不扰乱对源文本的格式编排的情况下，使用粗体类型、斜体、下划线、文本颜色、背景色、字体类型、字体大小等来将被加亮的文本与周围的文本区分开。

该控制器可以被配置为在第三显示区域中显示所述预翻译后的文本和用户预编辑后的翻译后的文本中的另一者，并且加亮第三显示区域中的在与该第一显示区域中的文本的被选择部分相对应的所述文本的部分。该控制器可以被配置为显示原始的预翻译后的文本和错误校正后的预翻译后的文本中的一项或两项，这两项可以各自在所述第二显示区域或第三显示区域显示，也可以在另外的显示区域显示。所述控制器可以被配置为在子语句级别上加亮该文本的个别部分。所述控制器可以被配置为加亮第一窗口中的第一短语，和第二窗口中的对应第二短语以及与所述被加亮单词的翻译相对应的附加单词，其中所述附加单词位于与该第一被加亮短语或第二被加亮短语不同的短语中。

本发明的另一方面提供用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置；以及控制器，该控制器适于对预翻译后的文本和/或后翻译后的文本的语言进行标识，并使用该语言的所述标识来自动选择用于后编辑该翻译后的文本的后编辑过程和/或对该选择进行验证。

该控制器可以被配置为对用来将所述文本至少从第一语言翻译成第二语言再翻译成第三语言而翻译过的语言的顺序进行标识，并且使用所述顺序来进行选择后编辑过程或对该选择进行验证。

本发明的再一方面提供用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括用户输入装置；以及控制器，该控制器适于通过标识该文本的输入源类型并根据所述输入源类型来选择校正过程，从而在该预翻译后的文本中校正错误。

该控制器可以被配置为根据该预翻译后的文本的输入源类型来实施预翻译校正。作为补充或作为替代地，该控制器可以被配置为根据该翻译后的文本的输入源类型来实施后翻译校正。该控制器可以被配置为利用将输入源类型标识为光学字符识别(OCR)、音频听写或键盘之一来选择一个以上处理规则。

本发明的又一方面提供用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括用于在所述文本内对短语和/或短语边界进行自动标识的模式检测装置，以及这样一种装置，即一旦接收到预定用户指令，就对个别短语进行自动选择，以允许在句法属性和/或词法属性方面对所述短语进行重构或修改、或者将所述短语移至该文本的不同部分，例如在同一语句中的不同部分。这种短语标识和/或这种改变可以被记录并在以后重用。这种模式检测功能可以通过句法分析支持。例如，可以检测单词的预定语法排列并在对短语进行标识期间使用。在一些实施例中，该用户可以通过选择用来选择或以优先顺序排列句法单元的参数来配置句法分析过程。可选地，该用户还可以选择排序准则。该用户还可能能够指定个性化设置，例如加亮以词法方式预先设定而确定的短语-中心成分/补语关系。该短语的中心成分是该短语在语法上所依赖的单词：例如，举一个非常简单的例子，在“bank of investment(投资银行)”中，单词bank(银行)为中心成分，而成分of investment(投资的)是补语。这样，可能的设置是可能与所有带有中心词“证书(certificate)”的短语相关，规定补语的介词(从标准上来说是“of”，而仅就范畴上而言是潜在地被标识的)应该被删除并且(仅仅由语法范畴标识的)补语的名词或名词短语应该被移至作为该短语的首个单词或成分。当然，也有可能将这种标志单词放在补语自身内部，以便不考虑中心词的词法内容而进行改变。

本发明的另一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括用于对短语和/或短语边界进行标识的装置以及用于实施指定语言所特有的自动短语排序规则的装置。在一些实施例中，该短语排序规则的应用顺序可以由用户指定或改变。这些短语排序规则还可以具有特定上下文调整的能力，例如利用标志单词准则来设置特定排序规则。标志单词或措辞可以是，在短语中的存在和位置将该短语标志为适合于宏的应用的单词或措辞，其中该宏不考虑词法内容而对该短语的语法结构进行重新排序。这使得能够在特定上下文中使用由该标志标识的强大的重新排序程序，并阻止自动化结构改变被过度推广的风险。

控制器可以被配置为通过根据短语类型对所标识的短语进行分类来构建语句结构模型。该控制器可以被配置为对所标识的短语进行标记以指示所述短语类型。该控制器可以被配置为根据该短语类型在所述显示器上展示对短语的加亮。

本发明的再一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括用于在所述预翻译后的文本和翻译后的文本内对短语和/或短语边界进行自动标识的模式检测装置，以及用于对在该预翻译后的文本的第一短语中出现的单词和在该翻译后的文本的非对应第二短语中出现的对应单词进行标识的装置。这些可以由该控制器通过将出现的短语模式与模板短语模式纲要进行匹配并且对差异进行标记来完成，以便方便进行手动校正干预。可以使该用户能够改变局部短语或者模板短语。

本发明的又一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器被配置为允许用户所指令的拖放编辑，以及将编辑后的文本的格和/或标点自动更正为对应于在语句中所述文本的新位置，该自动更正可包括对空格的适当处理。

本发明的另一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器被配置为对短语进行标识，并在个别短语内对单词的数、格和/或性的一致性进行验证。

本发明的再一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括用于实施自动文本功能以向用户提供用于替换选择的短语或单词的多个选项的装置。

可以向存在多种可能的备选翻译的单词提供该自动文本功能。该自动文本可以被配置为允许该用户利用用户界面针对选择的单词的所述选项进行循环。该自动文本功能可以是用户可定制的，从而允许用户预定义所述选项。该自动文本被配置为从外部源获取所述选项。该自动文本可以完全与在线词典访问相结合，使得在线词典条目可以要么用于全局替换，或者被输入至所贮存的概要中或者被分配给自动文本标志以方便在特定场合使用。自动文本条目可以根据一系列任意选择的搜索准则而完全可搜索。

本发明的又一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本该控制器包括对具有多个可用意思的翻译后的单词进行标识的装置，以及供给备选的可用意思的替换以供用户选择的装置。用户选择可以通过局部下拉列表来实现，并且针对个别单词或短语，可以禁止用户选择。

本发明另一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本该控制器包括用于在该翻译后的文本中自动插入语法结构的装置，该语法结构为该第二语言的特性而不是第一语言的特性。这可以近似地根据传统文体检查器的原理进行，但是文体参数被明确地设为与机器文本输出的特定问题相关。

本发明的又一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本该控制器包括用于从该翻译后的文本中自动移除语法结构的装置，该语法结构为该第一语言的特性而不是第二语言的特性。该处理方法可以与前一段落所描述的方法正好相反。

该控制器可以被配置为实施带有模糊匹配的字符串替换功能。该控制器可以被配置为实施语法分析模式识别和替换功能。

本发明的再一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本该控制器包括用于在接收到指示用户编辑完成的输入后实施的语法和文体调整的自动装置。该过程还可以对用户监视或可能的用户干预开放。语法、文体和可读性工具可以类似于现有的“著作软件(authoring software)”，但是更接近于专门针对可能来自原始源语言的文体问题。它还可以在更大程度上可由用户可能按照客户请求来定制。在一个实施例中，可以向该用户供给文体概要，提供以相同的方式翻译的文本可能针对不同的接收方在文体上以不同的方式呈递的可能性。这与先前讨论的结构重新排列的区别在于，意在促进多样性和可读性而非简单的可理解性。

本发明的另一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于贮存多个文本编辑程序并编译和保存所述程序的列表以供不同的输入文本使用的装置。该程序可以称为“概要”。

本发明的再一方面提供一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于对定义文本编辑程序的信息进行贮存、积累、编辑并组合的装置，以及用于在多个用户之间共享所贮存的定义文本编辑程序的信息的装置。该多个用户可以在本地或通过一个以上网络来访问该信息。

在本发明的这些方面中的任一方面中，该控制器可以被配置为选择并实施自动编辑过程以将所选择的正字法应用于翻译后的文本。而且，该控制器可以被配置为实施所选择的自动编辑过程以对图和/或日期进行格式编排。该控制器可以被配置为将所选择的自动编辑过程应用于多个文档。在本发明的这些方面中的任一方面中，该文本编辑设备可以是计算机设备。该控制器可以是被配置为执行本发明所描述的方面中的任一方面的功能的计算机处理器。

本发明的另一方面提供一种用于管理包括用于对翻译后的文本进行后编辑的规则组的概要的概要管理系统或方法。根据特定类型的文本或语言的使用的适宜性对列表各自进行分类。该软件的使用的优选主要特点为对概要进行编辑和组合以形成新概要用以加强对在先前没有处理过的领域进行后编辑。可以设想在某些情况下，概要的巧妙组合将逐渐从全然取代进行人工后编辑的需要。这些概要也将能够构成独立的知识产权。

这些概要可以通过由多个用户并行使用，利用对这些概要的合并和核对而得到发展。该概要管理系统可以提供登记概要之间的差异的简单装置，并且可以以可配置的方式对概要内容进行系统的编辑改变。也可能对组成概要的宏进行分组并且以粘合任意选择的组合进行设置。

本发明的另一方面提供用于管理表示计算机生成的文本的信息的方法和设备。该设备包括用于贮存表示所述计算机生成的文本的第一组信息的信息贮存装置；用于接收对在所述第一组信息所所表示的文本进行选择和/或编辑的用户指令的用户输入装置；用于以所接收的用户指令为基础来对所述第一组进行编辑的文本数据控制装置；和以可操作的方式生成显示数据的显示数据发生装置，所述显示数据以可操作的方式在显示介质上定义第一显示区域和第二显示区域，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的第一文本信息，并且所述第二显示区域包含对应于所述第二组信息的第二文本信息，所述第二组信息对应于被所述文本数据控制装置编辑之前的所述第一组。所述显示数据发生装置进一步以可操作的方式在所述显示数据中包括区分信息，所述区分信息以可操作的方式使所述第一文本信息的一部分和所述第二文本信息的对应部分分别与所述第一文本和所述第二文本中的剩余部分可视地区分开。与所描述的与涉及翻译后的文本的本发明方面相关的任何特征还可以应用于或适于在针对管理计算机生成的文本的实施例中使用。

根据本发明的任何方面，标点可以包括：句号、逗号、冒号、分号、连字号、破折号、空格、省略号、大写等等。

在一些实施例中，编辑过程以机器翻译过程为前提。不过，还可以通过对从其它源获得的翻译的后编辑来获得相当多的利益。例如，本发明的实施例可以与人工翻译一起使用，例如来翻译成翻译人员不太流利的语言，或对翻译人员不太流利的语言进行翻译。也可能类似地用于非母语者创作的原始文本，其中可以系统地禁止某些反复出现的语言学上的异常。重要的系列实施例是那些与由要么是当前可用的要么是有待将来开发的各种文本处理软件在一种语言内通过机器或计算机生成的文本相关的实施例。这种软件的实例是从(可能很大的)文档中获得指定信息的“文本挖掘(text-mining)”。例如，“文本挖掘”软件可以自动地生成文档的总结，总结的长度由用户指定。这样所生成的文本可以适当地作为机器语言学合成的结果，并且要么需要要么能够从与机器翻译的后编辑类似的后编辑中受益。

用户输入装置可以是用户输入设备，例如定点设备(例如鼠标、轨迹板、轨迹球、笔、指点杆(trackpoint)设备)、触摸板、游戏键盘、游戏控制器、操纵杆、远程控制、触摸屏、键盘或(可以具有用户定制按钮的)小键盘。该显示器可以是监视器、TV屏幕、带按钮的触摸屏、听写输入、任何其它类型的显示器或任何将来的设备。

本发明可以利用适合编程的可编程数字控制器，也可以利用硬件和软件的组合，来在专用的硬件中实施。

作为替代地，本发明可以通过软件或可编程计算设备进行实施。这包括任何计算机，例如台式计算机、膝上型计算机、手持式计算机、PDA(个人数字助理)、移动电话等等或任何将来的设备。根据本发明的方法中的每个过程的代码可以是模块化的，也可以以作为替代的方式被布置为施行同样的功能。根据本发明的方法和设备可应用于带有网络连接的任何计算机。

这样，本发明包括承载用于控制如本发明的设备的可编程控制器、计算机、或若干计算机的机器可读指令或计算机代码的载体介质。载体介质可以包括诸如软盘、CD ROM、DVD ROM、硬盘、磁带、可编程存储设备或任何将来设备之类的任何贮存介质，或者诸如电、光、微波、RF、电磁、磁或声信号之类的瞬时介质。例如，这种信号的实例是在通信网络上承载计算机代码编码信息，例如，在如国际互联网、企业内部互联网或局域网之类的IP网络上承载的计算机代码的TCP/IP信号。

本发明的实施例为翻译者提供了使他可以使将MT输出后编辑成具有人工质量的、输出所涉及的劳动最小化的环境。本发明的实施例使用TM系统的一些技术，但是本发明提供的改编使这些技术更加通用和强大。

附图说明

将参见附图，仅以实例的方式来描述本发明的实施例，在附图中：

图1是示出用于实施本发明实施例的装置的框图；

图2是示出根据本发明一个实施例的文本对齐窗口的计算机屏幕截图；

图3是示出根据本发明一个实施例的编辑和翻译过程的概要的流程图；

图4是示出根据本发明另一个实施例的字符串替换窗口的计算机屏幕截图；

图5是示出根据本发明再一个实施例的替换映射窗口的计算机屏幕截图；

图6是示出根据本发明又一个实施例的用于创建新宏的编辑模式的计算机屏幕截图；

图7是示出根据本发明另一个实施例的短语重新排列窗口的计算机屏幕截图；

图8是示出根据本发明又一个实施例的宏概要管理器的计算机屏幕截图；

图9是示出根据本发明再一个实施例的概要执行管理器的计算机屏幕截图；

图10是示出根据本发明另一个实施例的概要执行细节的计算机屏幕截图；

图11是示出根据本发明又一个实施例的将宏复制到一不同概要的宏选择框的实例的屏幕截图；并且

具体实施方式

图1是示出用于实施本发明实施例的装置的框图。该装置包括连接至显示器101、键盘102和定点设备103这三项中的各项的计算机100。计算机100包括中央处理单元(CPU)104、工作存储器105、贮存应用系统106、显示驱动器107。计算机系统100还包括用于在CPU 104、工作存储器105、贮存应用系统106和显示驱动器107之间传输数据的内部总线108。计算机100被配置为从键盘102和定点设备103接受用户输入信号。利用CPU 104，该计算机可以运行贮存在工作存储器105和/或贮存应用系统106中的软件，并且利用显示驱动器107来生成控制信号，从而操纵显示器。

在一个实施例中，计算机100被配置为在显示驱动器上生成控制信号，以使显示器101显示被加亮选择的预翻译后的文本和对应的被加亮选择的翻译后的文本。在另一个实施例中，计算机100被配置为实施自动或部分自动编辑过程选集中的至少一个编辑过程，以减轻翻译人员所必需的工作量。在再一个实施例中，计算机100被配置为贮存和组织这些编辑过程的集合，以便将来在新的输入文本中再使用。该计算机可以被配置为运行可由贮存在工作存储器中的计算机软件代码来实施的机器翻译引擎，并运行可贮存在贮存应用系统106中的带有对应翻译的单词的词法。

本发明的实施例可以包括一套程序，其中各程序可以被设计为处理后编辑功能的特定方面，也可以是带有多个不同功能的单个程序。

优选地，提供下列功能性中的一些或全部功能性：

文本对齐、预翻译、规则化

局部编辑

字符串处理

词法分析和模式处理

概要管理

后编辑

现在详细描述解释这些功能性中的各功能性，以说明它如何工作以及如何将它并入一般的处理流程。

针对MT系统输入外国文本的准备一般称为预翻译，而且它可以潜在地使MT输出的质量存在明显的差异。

在本发明的优选实施例中，提供了文本对齐功能，从而以最优方式为后编辑处理呈递文本。可以尽可能按人体工程学来协调这两个并列文本的呈递，以便翻译者能够最方便地在这两个文档中沿着自己的位置进行下去。应该注意的是即使翻译者并不进一步使用本发明的一些实施例中所提供的附加功能，对齐功能也非常有用。使源材料和目标材料相关的需要是所有翻译的一般要求。

翻译的重要人体工程学因素是需要同时沿着两个文本进行。这要求相当多的视觉交叉参照，这样做的结果显示，翻译人员的输出速度明显变慢。Trados TM系统直接解决了该问题，提供自动呈递相关源文本语句并将其与可用的任何相匹配的先前语句进行匹配的“工作台”窗口。这意味着翻译者在对源语句进行翻译前，根本不必查找该源语句。Systran MT系统也通过提供对齐模式来解决这个问题，在所述对齐模式中，两个文本出现在分屏上，并且屏幕的一部分中所选择的语句会自动加亮在另一部分中对应的翻译后的语句。

这两种现有系统都存在不足之处。Trados型的系统在语句到语句的移动方面相当不灵活，这是因为每当选取一个语句时，必须刷新工作台，并且该刷新可能会花费一些时间。Systran型方法避免了这个问题，但是所付出的代价是，在这种模式中，必需利用html文件来进行工作，而不能利用微软的Word文档或其它用户可编辑文档来进行工作。本发明的一个实施例提出一种使后编辑的输出既与MT输出结果相关又与原始源相关的系统。这使得翻译者能够使他在任何给定时间对文本的干预与在原始文档中的位置相关，并能够监视MT运行以后所作出的后编辑的变化。另外，可以加亮翻译后的文本和后编辑后的文本之间的差异，例如通过对文本的剩余部分，用不同的颜色显示这两种文本。这使得能够非常精确地将对宏的编辑作为目标，编辑的结果在各种上下文中予以加亮。一般而言，在所有实施例中，对字符串和模式宏的上下文敏感性是该系统的主要优势。

图2示出根据本发明一个实施例的文本对齐窗口排列的计算机屏幕截图。应用窗口内显示两个文本窗口，应用窗口的顶部具有控制按钮，以提供用于接受用户指令而保存文本和/或实施各种其它编辑和/或显示功能的用户界面。两个文本窗口中的一个文本窗口可以被配置为显示翻译之前的文本，也可以被配置为显示在翻译者做出任何后编辑改变之前的翻译后的文本。另一个文本窗口可以被配置为显示可编辑的翻译后的文本，使得翻译者可以直接对这个窗口中显示的文本进行编辑。

在所示的实例中，第一窗口显示英语的机器翻译输出，第二窗口显示该机器翻译输出的后编辑后的版本。用户已经将第一窗口中第二段的前两条语句加亮。机器翻译后的输出文本显示出一些瑕疵，例如第一被加亮语句中的“the foretold principles and criteria(预言的原理和准则)”。这种缺陷已经在第二窗口中显示的文本的后编辑后的版本中由翻译者校正。对翻译者来说，使这两个文本相关是很容易的，因为与第一窗口中的被加亮部分相对应的文本已经在第二窗口中被自动加亮。

用户可以通过，例如利用鼠标或其它用户输入设备来选择文本的特定部分，从而手动加亮该文本的特定部分。作为替代地，可以采用每次一部分的方式来自动加亮部分文本。当用户满足于对特定部分所做的编辑时，他可以决定选择下一部分。在一些实施例中，用户可以有权重新选择先前的部分以供进一步编辑。在一些实施中，用户可以选择确定被自动加亮部分的长度或特性的参数。当用户通过这些选择方法中的任意方法在第一窗口中选择不同的语句时，在第二窗口中的加亮将被更新为与新选择的文本相对应。

在优选实施例中，后编辑特征可以对利用任何类型的输入和输出文本的文件起作用，例如，rtf(富文本格式)文件、微软Word文档、其它普通单词处理器文档格式、html(超文本标记语言)、pdf(可移植文档格式)等。编辑和保存功能可用，且与“工作台”系统的情况不同，翻译者可以容易地参照周围的上下文语句，而非仅仅参照当前的语句。如果翻译者不希望与中间MT输出文本相关(而是将后编辑后的输出文本专门与原始的源文本相关，以方便参考)，他将能够通过可选项设定来禁止该功能。该对齐方法还具有这样的优势，即比诸如DejàVu之类的其它TM系统以及诸如Reverso/Promt(反面/提示)之类的其它MT系统所使用的并列分栏文本呈递系统更加符合人体工程学。这种系统还包括将翻译文件重新并入最终输出文档的需要。

本发明的一些实施例中提供的另一个有用的预备性功能是标识所创建的MT输出源自的语言的能力。然后该语言可以作为属性指派给待使用的概要，其中该概要定义了一组自动编辑过程，例如宏。这种对概要进行的语言指派允许验证是否相关概要中的所有宏(包括字符串匹配宏和模式匹配宏)都针对它们的最终源语言做出标志，从而使得立即可以检测那些通过混合错误到达与一不同语言相关的概要的宏。由于概要的尺寸在增大并且跨个别翻译者或组织使用，或者说在个别翻译者之间或组织之间使用，所以这种危险变得越来越真实。通过对基本源语言的标识，可以像仅仅跨两种不同的自然语言进行语句匹配的传统TM翻译记忆一样，保护概要免受这种威胁。概要可以被配置为既指示源语言又指示翻译后的语言。如果文本被翻译的次数不止一次，则概要可以包含系列翻译中所涉及的各种语言的细节。概要还可以指示语言类型，例如，东方语系、日尔曼语系、计算机编程语言等。概要还可以包括用于MT的设定。

MT系统的困难的明显来源在于源文本自身存在各种形式的瑕疵。这些可以被概括地分成“软”电子文档所固有的瑕疵和明确归因于例如通过OCR过程或通过语音识别过程而产生的可编辑文档的瑕疵。

软文本的特性问题主要落入许多传统系统已覆盖的拼写错误和语法不规则这两个领域。没有必要为了准备针对MT输入的外语文档而进行诸如在标准单词处理包中可用的拼写和语法检查的交互过程。该过程可以在很大程度上被自动化。这在拼写情况下是很容易理解的(不确定的情况留给翻译人员在整个过程的后期进行整理)，并且还可以利用依据非常简单的语法错误(例如，零散的空格或所谓的破碎文本，尤其是位于表的栏中)指定列表进行的语法校正，来或多或少地自动运行。可能需要比认为正当的干预范围更为广泛的干预来获得“完美的”源文本。然而，消除相当数量的使随后处理变慢的低级错误是可能的。

使用源自OCR的输出文本引起进一步的困难。OCR技术正在快速改进，而且它们显然为大幅度增加MT的使用提供了机会，但是，除了在非常有利的情况下之外，在相当长的时期内，它们可能仍然易于存在各种问题。在这个阶段可能要提到的两个实例是，与使用软文本的情况相比，拼写检查功能必需更加广泛并且必需处理不同特性模式的错误，并且OCR经常以使语句流中断的换行符的形式来产生破碎文本。这在对涉及单词次序重新排列工作特别繁重的语言进行翻译的情况下，是特别严重的问题。本发明的实施例可以供给用于比如消除没有被标点证明是正当的换行符的功能性。在一些情况下，这可能导致过度推广，但过度推广可以包含在例外中，也可以在后期的处理中被去除。

使用语音识别引入了不同类型的错误，例如，发音相似的单词可能被不正确地标识。在本发明的一些实施例中，简单的语法检查可以自动去除这些错误中的一些错误。语音识别可以用于产生原始的源文本，或者翻译人员可以使用语音识别软件来输入他对源文本的翻译。无论哪种情况，通过将语音识别过程标识为特定类型错误的潜在来源，可以进行自动校正，从而改进总体性能。

图3是示出根据本发明一个实施例的依赖于待翻译文本源类型的编辑和翻译过程的流程图。该过程开始于步骤S300，其中计算机100标识待翻译文本的源语言。计算机100可以通过例如分析该源文本的词汇，可以通过作为替代的统计分析或模式分析，可以通过读取与该文本相关联的标识该语言的信息，也可以通过接受标识该语言的用户输入，来标识待翻译文本的源语言。

接下来，在步骤S301，计算机100标识源类型。例如，可以通过在键盘上打字，可以通过光学字符识别(OCR)，也可以通过音频语音识别，来将源文本输入至该计算机(或至另一台计算机并被传输)。计算机100可以通过对源文本进行统计分析和/或模式分析来标识源文本的类型，例如，从而尝试检测特定形式的输入所预料的错误类型。作为替代地，源类型可以通过用户输入来标识，也可以通过计算机读取与包含关于源类型的信息的文本文件相关联的信息来标识。

例如，OCR输入可能导致在文本中发现许多附加的空格和/或特定类型的读取错误，例如由于某些字符相对于其它字符更容易被OCR设备不正确地检测，因此某些字符以比所预期的比例更高的比例被检测。语音识别输入可以包含不同类型的错误，例如，发音相似的单词以高发频率被不正确地识别。同样，背景声可以导致识别出实际上并不存在的附加单词，从而在一些实施例中，可以通过对文本进行语法分析来识别语音识别输入类型。

在图3的实施例中，假定任何没有被标识为OCR输入或听写输入的文本是通过打字输入的——它的意思可能是经由键盘102在计算机100上通过打字输入，它的意思也可能作为替代地是在另一台计算机上打字并且，例如经由网络或磁盘传输到计算机100。不过，打字文本中也可能出现特性错误，例如相邻字符的意外置换。在本发明的另一个实施例中，可以明确地标识打字文本，并且第四类的源类型“其它”可以用于不具有可用特性描述的错误的文本，也可以用于源类型未知的文本。可能对于计算机100来说，在标识源类型之前就标识语言是有利的，这是因为对语言的认识可以有助于标识很可能是真实的源类型。

在图3的实施例中，如果在步骤S301，将源标识为通过打字输入的文本，那么在步骤S302，在计算机100上运行的软件接收打字文本，在步骤S305，校正打字中的错误，并且过程继续进行到步骤S308，其中计算机100进行语言专用校正。如果在步骤S301，将源类型标识为OCR，那么在步骤S303，在计算机100上运行的软件接收OCR数据。下一步是在步骤S306，计算机100执行OCR专用校正，接下来是在步骤S308的语言专用校正。如果在步骤S301，将源类型标识为话音识别，那么在步骤S304，在计算机100上运行的软件接收话音识别数据。接下来的步骤是在步骤S307，计算机100进行话音识别专用校正，接下来在步骤S308，进行语言专用校正。在一些实施例中，软件提供了创建OCR专用概要的可能性，OCR概要从单个OCR源中去除持久性缺陷，例如，去除由特定传真机的打印特性所引起的错误。这可能，例如在OCR供应商改变或者使用多种形式的OCR软件的组织改变的情况下，比使用外部OCR引擎的编辑功能更方便。在步骤S308，进行语言专用错误校正之后，在步骤S309，计算机100进行文本的机器翻译。接下来，在步骤S310，计算机100进行任何自动后编辑过程。然后在步骤S311，计算机100向翻译人员供给后编辑工具的使用，用以对文本进行后编辑。最后，在步骤312，计算机100进行后后编辑(post post-editing)，例如，对相邻的重复单词或其它错误进行检查。

在作为替代的实施例中，可以省略或者以不同的次序施行图3的一些步骤。例如，在一些实施例中，语言专用错误校正一直到机器翻译过程之后才进行。

在本发明的另外的实施例中，可以从独立的或作为替代的源而非经由机器翻译过程所跟随的任何预翻译过程来获得翻译后的文本。例如，根据本发明的后编辑系统可以用于对从诸如人工翻译之类的其它源获得的翻译后的文本进行后编辑，例如，如果人工翻译是要翻译成翻译者具备一些认识但并不十分流利的语言，那么使用根据本发明的系统来允许另一个翻译人员检查和编辑该翻译，或者允许原始的翻译人员对他的翻译进行错误检查例程可能是有利的。

除了被应用于将源语言输入至MT引擎的过程之外，在一些实施例中，编辑过程还可以在由翻译人员进行的后编辑开始之前，针对MT输出而自动进行。这些过程可处理MT输出的某些特点，使MT输出可以被自动地规则化而无需人工干预。例如，这对于选择正字法以及处理图和日期来说可能是很有用的。

在正字领域，最有把握的转变是从US英语向UK英语(或其它英语)的改变。可以针对预设的规范来进行这种转变。这种转变还可以覆盖其它的、更为局部的正字惯例的使用。当然，类似的规则也可以用于其它语言之间的相似性，例如两种形式的挪威语或希腊语的相似性，或者欧洲葡萄牙语和南美葡萄牙语之间的差异。

规则化有用的另一个领域是编号和日期惯例的领域。本发明的实施例可以为号码的标点以及日期的组成顺序提供“现成的”概要。可以按照最终客户的要求来从文档到文档地设定期望的格式，并且还可以使输入规范具有一定量的模糊度，以供由MT输出产生的日期/编号在语义上的微小变化之用。

在一些实施例中，在这种规则化通过之后，按照标准，下一阶段对MT输出结果的处理将包括在文本上对一个以上概要的应用，所述概要包含不定数量的字符串宏和模式宏。这些概要基于与翻译的最终用户所输入的文本相关的参数或针对特定客户设置为缺省的参数，既可以被手动选择也可以被自动确定。这将使得概要通过的发生可能完全符合远程实时确定的参数。用户可以通过环球网入口递交文本，并且接着投入参数和/或选项的规范来指导概要选择过程。在一些实施例中，在有利的情况下，这种文本专用概要选择本身将能够进行所需要的整个后编辑工作中的大部分工作，并且能够进行的工作越来越多。在完成概要运行之后，当前增强的文本可根据需要或期望而用于进一步的后编辑，并且这种后编辑的结果还可以贮存在现有概要或新概要中。

在本发明的优选实施例中，对于所有三种文本被清楚且同时呈递的场合，可以在这个阶段给予翻译人员一系列的工具以方便和有效地进行后编辑。这些工具中的一些工具可以用于当前的位置而不会对同一文本后面的部分或对将来的文本有任何进一步的影响，其它工具可以正好是要么用于整个文档的全局应用，要么(以TM的方式)为将来的重用创建材料。

关于MT输出的重要问题是，即使语句的单独短语被正确地再现，短语的总体排列和顺序也可能不适合于目标语言。对这个问题的处理包括移动基本的文本块，这要求首先选择然后拖放。在本发明的实施例中更容易进行这个过程，这是因为相关短语已被标识并加亮。然后可以利用单击“拾取”相关片段并轻松地将其移动到期望位置。在其它实施例中，这个过程本身可以通过当前的短语顺序优选规则，例如按照德语短语次序的TMP(时间-方式-地点)规则，来部分地自动操作。

该软件对MT输出语句进行短语分割，并根据颜色代码来加亮分割结果，例如，红色＝名词短语(NP)，黄色＝介词短语(PP)，蓝色＝动词短语(VP)，等等。这样立即显示出语句的短语结构。也可以对形容词短语(AP)和副词短语(AdvP)进行标识和颜色编码。也可以采用其它形式的编码显示。然后，可以重新排列被自动当作块的短语。字符串和模式处理功能可以尽可能自动操作短语内部的单词次序错误，而总体语句结构更有可能服从增强的局部干预(依据上面所指示的部分自动操作的可能性而定)。

这种短语重新排列功能面临的一个困难是MT输出的分割并不总是反映原始的源文本的真实分割。除了(有待通过字符串/模式替换来应对的)短语内部单词的顺序失真问题以及(有待通过刚刚描述的短语重新排列功能来应对的)短语本身的连续次序问题之外，个别单词在由它们的原始短语翻译成相邻短语时，有时也有可能被置换。在后期的版本中，可以开发加亮功能以在(主)短语结构中对异常加入语作标记。然后，编辑人员会将被置换的单词重新分派到合适的短语上下文。不可能使对零散部分的检测完全自动化，但是可以使用宏识别功能来加亮存在零散部分的风险较高的短语上下文。可以基于对单独文档的正在进行的处理结果来设定这些模式的准则。这些零散的元素是MT输出结果中最令后编辑人员为难的缺陷之一，因为它们表示过分依赖人工实践来去除的错误模式。在本发明的一些实施例中，通过使该问题透明化来使该问题不太严重。

局部一次性单词次序重新排列是所有目前不能完全自动操作的MT后编辑的主要元素。对于这个问题，本发明的实施例可以提供通过智能格(intelligent case)和标点改变补充的标准下拉(drop-and-drag)功能。例如，当单词被移动到语句的开头时，它的首字母能自动变成大写，而当它从开头移进句体内时，它的首字母能自动变成小写。诸如与句号相邻的逗号之类的零散标点和空格也可以被自动清除。在另外的实施例中，这些功能可以由用户增强和定制，可能包括号码、(用非英语)格和性的自动一致功能。

后编辑中的另一个主要局部因素是，普遍为同形异音异义词的单词的使用贯穿单个文本。合适的例子是德语单词Anlage，Anlage的意思(至少)可以是investment(投资)、system(系统)或annex(附件)。在这种情况下，执行全局替换功能是不利的，而且需要针对各种情况进行单独处理。然而，利用(与标准单词处理器中的自动文本功能相似的)自动文本功能可以使这个过程更加容易，自动文本功能提供用于查找和设置文本以替换待排除的单词的增强功能。例如，如果MT输出持续将Anlage译为system，则例如在用户按下合适的热键后，自动文本可以容易被训练为提供investment或system作为替换。另一种处理同形异音异义词的术语的方法是暂停一般化替换的使用，下面在交叉文本(cross-text)和贯通文档(trans-document)编辑的场景中讨论该方法。

在对这种方法的扩展中，提供了辞典型功能，其中按照标准提供了可能的备选翻译。例如，在文本自身的反面提供备选项(例如针对法文的comprendre是include/understand(包括/理解))，但是，因为它涉及选择和删除，所以这相当不方便。在优选实施例中，由于编辑人员可以仅仅点击比如说include(包括)的一种词形，并且观察它被understand(理解)在语形学上的对应词形所替换，这样更有效率(并且如果替换不是自动的，则可以采用辞典的方式来提供一系列选择)。

可以进一步扩展右击辞典功能的概念。编辑人员可以定制自动文本替换选项。可以自动供给优选的备选项，而且使用点击顺序或可能的热键设置来选择优选条目。对自动文本条目的定制可以不仅在文档与文档之间不同而且是在一个文档内部分与部分之间也不同。编辑人员可能能够将置换文本提示和提示顺序改变任意次。同样，可以将通常可用的专门名词源插入辞典功能。原则上，这些可以从私有的词汇表延伸到公用在线词典或商用软件词典应用系统。后一功能特别有助于应对MT过程之后残存的个别源语言单词。

这种现象的特殊情况是介词，介词针对自动翻译表现出众所周知的困难。例如，法语介词à的意思从“to”可以延伸到“on”，可以延伸到“for”，还可以延伸到“with”(无疑，有时还有其它可能性)。在优选实施例中，这个问题可以由在所有可能的目标介词和(在经过MT过程成为后编辑输入之后有时还会残存的)近源语言介词之间供给颠倒的热键功能来处理。为了用户的方便，这可以是完全可定制的。还可以通过如下讨论的锚定模式替换来有效解决介词短语的难题。

对于实际上占据后编辑工作量的相当大百分比的常见微小改变(例如，(在斯拉夫语中)插入或(在罗曼语中)去除冠词)，可能具有用于特定范围的单词(例如，冠词和/或介词)的自动插入器/去除器。类似的功能还可用于颠倒局部单词的次序。一种重要的情况是名词跟随形容词和分词的情况，但将该功能扩展到不仅允许两个单词之间的颠倒，而且允许单词与短语之间的颠倒或甚至两个短语之间的颠倒也是可能的。例如，如果来自法语文本的机器翻译输出是：“policies and strategies national and international(政策和策略国内和国际的)”，则次序颠倒器可以利用单击或敲键将其移动成“national and international policies and strategies(国内和国际的政策和策略)”。换句话说，该颠倒器能有内置的局部分割功能。

颠倒器还可以被进一步开发为在相关语句树内具有分层结构尺度。编辑者将有机会在语言符号级别、连词级别、直接短语级别或更高的短语级别或从句级别上对结构进行颠倒。这将有效地使作为翻转的输入的分割过程自动化，从而使任务的工作量减半。用户可以通过右击下拉用户界面来使进行层次转换级别的选择可用。

在不可能全面自动的情况下，可以在局部级别上使用上述工具来大大提高翻译者进行操作的方便性。然而本发明的另外实施例提供了强大的全局改变特点，可能包括对未来文档的规划。可以在字符串替换级别和/或语法分析模式替换级别上进行全局改变。后者是更强大的技术，它扩展到超出标准TM系统的所能及的范围。前者与传统的TM相比也具有明显的优势。

在这个领域中，本发明的实施例所提供的两个主要优势是字符串替换工作在子语句级别上，而TM系统仅标准地供给整个语句的再使用。另外这些改变可以提前贯穿文档被规划，而非被贮存起来用以重新提交，这意味着不需要对明显的改变进行确认。

传统TM的另一个特点是它供给“模糊匹配”，这意味着即使替换语句并非精确匹配，而是非常/相当接近的匹配(依据用户设定)，也被提出。这样提高了TM系统的能力，使其超出单词处理器的查找和替换功能的能力。不过，在任何方式下，这些功能纯粹是统计学的，而非语义学的。在传统TM中，模糊替换功能以预定比率的数据等同为基础，虽然也可用更复杂的工具。除了有待在接下来的部分讨论的语法分析模式替换功能之外，本发明的实施例还在字符串级别上供给语形学上的敏感替换功能，其中保证模糊改变是合适的。这也减少了翻译者必须要做的“官僚主义的”工作，并且可以对这些工作进行定制以适合特定的要求。

在优选的实施例中，另一种可能性是针对锚定模式替换，其中模式仅仅在它与特定的单词相关联的情况下才会被替换。这种替换很明显比与之匹敌的TM方法更加有效，因为它是对合适的替换所在的上下文进行亚分类，而非简单地向一系列上下文供给有瑕疵的匹配，这种改变在一些上下文中是适当的，而在其它上下文中是不适当的，所以达到正确的最终结果需要相当多的进一步工作。

在本发明的一些实施例中，可以通过在选择文本并右击时弹出的字符串替换器窗口来实行字符串替换。图4示出本发明一个实施例的字符串替换器窗口的实例。

在本实施例中，该字符串的最大长度可以由下拉列表选项设定，但当字符串长达五个单词时，该功能的优势被最佳地实现。该窗口具有可以插入新的字符串的替换条目框。它具有用于根据现有的已替换的字符串库来提示与被替换的字符串尽可能近似的字符串的功能，而且如果用户愿意进一步查找合适的替换字符串，则提供带有简单查找功能的下拉列表。这样增强了操作和一致性的简易性。如果没有字符串可用，用户可以仅通过打字或听写输入它所选择的字符串。一旦字符串已经被输入，用户就可以决定它应该在不超出该文档范围的情况下在该文档内进行全局替换，还是应该被记录为宏，用以每当相同的字符串在将来的文档中重现时可能的将来使用。这可以利用格的标准规范以及全部单词的敏感性和用法来进行。在这里还可以应用语形学识别特点。例如，如果法语短语formulaire de registration待变成registrationform(注册形式)，则这还可以根据多种情况自动进行。图5是示出本发明实施例中的替换映射窗口的计算机屏幕截图。

语形学替换功能更加强大，这是由于它包含短语内对齐的特点。这使得后编辑人员能够选择任意长度的短语(在实践中长达大约十个单词)，并且短语中的任何或者，原则上所有单词与替换短语进行系统化对齐，使得在使用语形学调整功能来进行改变之后，每个替换词将应用在同一短语中。例如，如果MT输出文本读取如下：The body grants permits to seekers half-yearly(机关每半年向探索者授予执照)，通过使用对齐功能，我们可以将单词body(机关)与authority(政府)、单词grants(授予)与issues(发布)、单词permits(执照)与licences(许可证)、单词seekers(探索者)与applicants(申请人)、以及单词half-yearly(每半年地)与semi-annually(半年一度地)进行匹配。这意味着不仅精确短语的重现将被适当地替换(如用MT)，而且语形学上的同类词也将如此。例如，The body granted permits to seekershalf-yearly(机关每半年向探索者授予执照)将适当地变成The authorityissued licences to applicants semi-annually(政府半年一度地向申请人发布许可证)。

对齐功能还有另一种重要和强大的特点，已经在上面提及，利用这个特点可以暂停全面替换。这意味着这种改变在通篇文档中起作用，而且在特殊情况下，如果这种改变是不合适的，则可以将它取消，也可以做出另一种替换，例如使用“调试模式”。在将概要施加于新的文档时，这还可以应用于点亮合适标记的宏，如下面所讨论的。

当贯穿文档进行全局改变时，可以提供度量特点来直接指示实际上进行了多少改变。这对于经验丰富的用户是非常有利的，因为一个短语改变的级别经常作为一个以上其它改变的级别的指导，使得有可能决定全局改变是否有利。度量结果可能能够以各种格式呈递，以使随后的宏计划的效用最大化。

如果这种改变待被规划给将来的文档，则它可以作为宏被输入，其中该宏被包括在用户针对这个特定的文档或针对一系列文档所创建的概要中。这些概要的创建、编辑以及使用如下所述。

在字符串以及，可能地，模式处理中，(根据标准TM模糊矩阵-或利用规则词形概念的增强用法)将替换功能扩展成包括接近错过。这对OCR输出文本特别有用，并且有助于大体上应对源文本中的非语义缺陷(例如，打字稿、标点差异以及零散空格)。可以设定模糊的级别和/或可以选择模糊尺度(例如对语音特定部分的敏感性、对标点的更高加权、语句、短语或动词权重的选择等)，可以提供交互框以使编辑人员能够基于具体情况来对包含、排斥或个别替换作出响应。图6示出可以创建和编辑新宏的编辑状态的屏幕截图。

以短语级别进行操作的潜在弱点在于可能错过语句级别的(模糊)再现。这是传统TM系统的强项。出于这个原因，存在这样的危险，即第一次出现相关语句时所做的局部编辑工作将不会被恢复，从而无法供后来的再现使用。可以通过提供TM备份功能来解决这个问题，该TM备份功能在语句的编辑完成时将该编辑后的语句与对应的MT输出语句相关，并允许将字符串应用于该语句。因此TM备份将最终编辑后的输出与仅仅经过一般化处理(而非局部编辑)的MT输出结果配对。以这种方式，如果局部编辑有机会重现，则它能够被自动恢复，从而消除了TM系统的可能存在的残留优势。

TM备份还有可能记录标注的模式和纯粹的字符串相似性。因此，该系统可能不仅能够提出传统的TM匹配，而且能够基于早先的但并没有作为模式宏被输入的模式改变来建议模式替换。这是非常有用的，因为编辑人员有可能确定哪种模式最有可能发生并且因此哪些模式最好地证明了建立模式宏的合理性。增强的TM功能将允许提示被错过的重要模式。然后帮助编辑人员在新的局部上下文中实施模式改变并且还可以将做好的宏给予编辑人员，其中该做好的宏被保留至新的模式宏以在不确定的将来使用。

出于已指示的原因，上面讨论的字符串模式替换比传统的TM更强大，但在语法分析的顺序级别上而非仅仅是字符串级别上，自动替换仍然有更大的可能性。这是因为语法分析的顺序供给挑选脱离实际语义填充的句法模式的可能性。以下对此进行讨论。

以先前的法语短语formulaire de registration为例，这还可以推广到多种情况。不过，更强大形式的推广还可以扩展到诸如formulaire de déclaration或formulaire d’attstation之类的相关短语。在这些情况下，可以充分利用本发明的实施例(不像传统TM)理解短语的句法结构的事实来获得大致具有下列结果的规则：如果发现＝formulaire d(e)[名词]，则用[名词]form(形式)来替换。这是很基本的例子，而模式替换的使用可以被无限扩展，这仅仅依赖于使用该系统的翻译者的专业知识以及特定文本的顺从性。

上面的实例受到两种主要约束。首先，所采用的短语非常短。实际上，除了纯粹的名词和形容词的次序颠倒外，它是可能存在的最短的短语。第二，它仅考虑一个特定的短语(虽然该短语在每次出现时可能会被改变)。

这可以被进一步推广。选择任意长度的序列并同样对它进行改变是可能的，同时具有至少某些与我们刚才一直在考虑的简单情况一样的有益效果。这里的困难之一在于过度推广变得越来越有问题。例如，我们可以利用与之前一样的规则将“activities of insurance and reinsurance(再保险和保险的活动)”转换成“insurance and reinsurance activities(保险和再保险活动)”，但是现在存在这样的风险，即我们还将接纳and(和)后的单词不是该短语的一部分的情况。

可以通过在字符串或较大的模式内“锚定”该模式改变来回避这个困难，以便跟随连词之后的名词属于单独短语的上下文可以被排除在一般自动改变之外。在随后的实施例中，可以建立用于加亮短语的短语边界识别功能，以便将短语边界标记并入模式/句法替换宏自身。

原则上，短语的长度并没有限制。它可以包括按照传统上被称为从句或者甚至扩大到整个语句的情况。它仅仅意味着出于语法目的而组合的一组单词，该组单词将需要以某种方式重新排列。

针对日尔曼语系语言中的一种语言，来自MT引擎的典型输出如下：

The(i)[on the account](ii)[credited](iii)amount(iv)

在这种情况下，等价的英语翻译为“The amount credited on the account(账户上所赊的量)”。这种转换要求两种改变：首先，必须将(iv)提到(ii)的前面，并且然后，必须将(iii)放到(iv)的后面。在这种情况下，我们可以忽略添加或删除小单词的需要，并且还可以忽略大写的问题(虽然处置标点，特别是逗号的并列问题很可能会出现)。

这里可能具有简化的下拉的优势，但是可以将该功能性修改为考虑到必须被拖动的不是单独的单词而是附属短语的事实。人体工程学的优势关键可能取决于对(ii)进行选择的简易性。

接着将精确合成的转换后的短语输入至全局宏。图7示出用于建立短语重新排列宏的短语重新排列窗口的屏幕截图。短语重新排列宏可以类似于已经针对字符串替换功能所考虑的宏，除了它的应用和再使用会由于结构的信息复杂度更大而要求更大程度的处理。它可以用于概括贯穿新文本的运行，而且还可以用于向刚刚所讨论的这种将来的下拉备选项提出建议。

也可以由较早所描述的语形学差异同化器来进行操作。这对于非英语的其它语言更为重要，但是即使在英语中至少也存在单数和复数之间的语形学差异。因此，至少下面的短语将会尾随第一个短语进行自动转换：

The(i)[on the account](ii)[credited](iii)amounts(iv)

The(i)[on the accounts](ii)[credited](iii)amount(iv)

The(i)[on the accounts](ii)[credited](iii)amounts(iv)

然而一个重要的优势产生自对具有近似结构平行关系的短语的扩展。

考虑以下情况：

The(i)[from the account](ii)[debited](iii)amounts(iv)(当然以及它的所有直系语形学同类)。被包括在自动转换中明显也是该实例的主要优势，首先是在当前文档的剩余部分内，然后是在所有随后的文档内。发生这种情况时，“debited(记入借方的)”应该被识别为与“credited(所赊的)”相同的POS，因此，在该上下文中，它应该仅仅以严格平行的并列的方式移动。另外，也应该发生合适的介词改变。

利用目前可用的统计MT来以某种使这种改变可行的方式将动词与短语介词连接起来，也许是不可能的，也许在人体工程学上是没有正当理由的。然而，如果debited短语随后以(ii)、(iii)和(iv)的正确次序而不对代词进行改变的方式在该文档中(或者在某个随后的文档中)出现，则仍然会存在显而易见的人体工程学的益处，因为接下来将仅需要手动输入介词的改变，然后该系统将自动更新转换词法。

这样做的一个结果是超时，即概括操作会比原始MT处理花费的时间长得多。在许多方式中，这可能代表相当大比例的劳动。MT可以立即继续生成或多或少的可用要旨(gisting)输出，然而，模式替换宏的应用可能花费长得多的时间，虽然仍然允许后编辑过程在专业翻译的周转时间上得到改进。

我们现在讨论贯穿文本(以及语言)更加广泛地规划重构模式的可能性。当用户逐渐熟悉该系统时，这些选项可以设置为对用户可用。

现在描述这样做的两种可能性。一方面，存在纯POS短语重构器。它可以对带有根据POS标注的某种优选基础所表述的相同句法结构(或缺乏这种相同句法结构)的任何短语起作用。这显然是一种非常强大的工具，但是危险在于它很可能产生与有用结果一样多的相反情况。

更实际的资源可能是一种混合的或锚定的短语重新排列器，其在相关短语中的应用可以达到相关短语包含一个以上在原型中使用的实际单词的程度。这些实际的单词将替换仅锚定到存在过度推广的危险可以被最小化的上下文中。因此，例如回到我们最早的和最简单的实例，有可能建立与单词form相关的结构转换的一般模式。

这可以以两种方式进行扩展。首先，有必要利用一种快速且高效的方法来引入诸如“采用形式”或“单词形式”之类的例外。最终还应该有可能以某种有用的可有效规划的方式对例外本身进行分组。两种特别合适的分组方式是通过利用布尔操作符来指示不适合推广的特定上下文和通过在宏中预指定突出的例外。由于例外的数量很可能是语言符号的多而打字的少，这种例外不会在语形学上效率低下。例外建立过程还可以通过系统选项广泛地定制。

扩展的第二条途径向着在转换中被相似地对待的单词的引入的方向。例如，翻译者可能决定任何可能围绕单词“form(形式)”建立的模式也可以被规划为单词“certificate(证书)”或甚至有可能为“document(文档)”。后者可能是翻译者可能很想指定该翻译被推广到该文档而不是整个语言的情况。

在本发明的一些实施例中，可能加亮某些非句法误构而不会实际上对它们作出或提出改变。以这种方式，它们作为值与在文本中前进的总体速度成反比关系增加的函数，可能会引起翻译者的注意。

可以有选择性地将基本重构设备的这些扩展提供给，例如具有更高技能和专业级别的用户。然而，它们展示了MT输出和后编辑技术之间关系的渐进发展，这将随着成熟的统计MT的到来而变得尤其显著。

本发明的一些实施例提供后后编辑(PPE)语法和文体检查器作为进一步的工具来消除机器生成的特性差错或者其它翻译后的文本的特性差错。这可以在交互基础上进行工作，作为对输出文本的最后通读。该模块可以拾取后编译人员所遗漏的任何明显的单词重新排列，例如重复的短语和/或有关尔曼语系语言的主语-动词错位等。语法检查器工具与本发明提供的其它特点类似，可以配合编辑人员的个性要求，在某种程度上由调节整个后编辑处理的源语言标识来引导。

除了消除剩余的语法和句法错误外，该引擎还能够提供文体上的干预。再一次，后编辑人员将规定(最显而易见的是有关介词或形容词短语的次序的)某些参数。可以标记对这些参数的违背，而且可以给予编辑人员一系列工具来进行干预，从而恢复与缺省规范的相容性。这个功能可以建立在现有的文本检查技术之上，并使它适应MT后编辑的特殊要求。

字符串替换器和模式替换器都产生宏，并且这些宏可以贮存在概要中。因此概要为一组宏。概要随着时间的推移而发展，并且对应于TM系统中的翻译记忆。因此，它们将变成有价值的自主知识产权。概要可以变成两种形式：针对字符串宏的概要和针对模式宏的概要。两者基本上以相同的方式进行操作，但是字符串宏的处理量较轻并且因此速度快得多。在优选的实施例中，也可以对这些概要进行没有限制的混合和组合，以创建对未开发的文本来说也是合适的概要。

在本发明的一些实施例中，概要管理器的重要补充功能是语言识别模块(LRM)。这种功能(甚至在输入至MT引擎之前)标识源文本的语言。这种功能对非语言学用户来说是很有用的，这些用户由此将能够挑选合适的MT引擎或请求机器翻译的设定，并且接着选择合适的概要以浏览输出。这将意味着一个完全不懂比方说中文的人将能够通过在他的系统中进行一些设定而得到对文档的工作草稿翻译。

图8示出本发明实施例中的宏概要管理器的屏幕截图。该宏概要管理器在窗口内运行，带有控制按钮和选择按钮以及一个用于显示宏列表的列表显示区域。概要选择按钮允许针对特定概要显示宏列表。该列表中所显示的每个宏具有宏名称以及指示该宏的颜色代码的框。当对特定宏点击指针光标时，出现弹出宏选项菜单。在这个实例中，给出的选项有运行(run)、展示(show)、改变优先级(change priority)、重命名(rename)、复制至(copyto)、移至(move to)、移除(remove)以及关闭(close)。还可以针对宏或宏部件在概要内提供各种搜索选项，以便可以以宽的观察范围方式清晰地向读者显示积累的材料。

当打开新文档时，概要管理器选项可以为用户供给在概要管理器上运行一个以上概要的可能性。这意味着概要中的每个宏查找需要替换的地方并适时地对它进行替换，这遵守已制定的格敏感性、分割和语形学参数。

图9示出本发明的一个实施例中的概要执行管理器的屏幕截图。第一窗口示出概要列表，在本实例中，包括“default profile(缺省概要)”、“dutchtaxation”、“firsthol”“tnt”、“Germancompute”、“germtaxleg”以及“septfrench”。在本实例中，该“Germancompute”概要已被选择，并且被加亮。第二窗口示出可在该被选择的概要中使用的宏列表。每个宏具有相关联的颜色标志，以允许它被选择或取消选择。第三窗口示出待使用这些宏处理的文档列表。第四窗口示出针对被选择的概要所选择的宏列表。进度条示出在执行该选择的宏时本系统的进度。

该过程完成之后，以一种度量呈现出前进的结果，这是所选择的概要的适宜性以及还必须对该文本进行的工作量两者的有用指示。图10是示出概要执行细节的屏幕截图。第一窗口示出替换列表和每个替换进行的次数。这对翻译者来说是有用信息，来让他们知道是否进行了未预料到的次数的替换，这需要做进一步的调查。第二窗口区域中示出包括替换在内的编辑后的文本。

然后，用户可以继续使用上述工具对该文本进行编辑。如果翻译了几个相似内容的文本，可以预料的是在已经使用了一定数量的相似文本来建立相关概要之后，后编辑的工作基本上只限于不易受字符串或模式替换影响的局部改变。

对于系列紧密相关的文档来说，概要明显是最有效的——合适的实例是债券发行简介、银行的贷款通知单或保险合同。但是为了在新文档中最有效地使用，概要管理功能还根据概要供给重用宏和重新组合宏的可能性。例如，假设你拥有针对电信部门的成熟德语概要，以及针对德国银行合同的成熟概要。你现在需要翻译德国电信合同。可以从这两个概要中选择那些最可能有用的宏，并将它们组合成专用于德国电信合同的新宏。非常重要的是，也可以产生配合特定客户或特定方案的概要。由于合适的术语将在运行阶段就已经被自动指定，因此这是确保术语相容性的特别有效的方式，不会在词法应用中出现人为错误。图11示出用于将宏复制到一不同概要的用户界面的屏幕截图。第一窗口区域示出宏列表，并且在本实例中，这些宏中的三个宏已经被选择。第二窗口区域示出后编辑后的文本。弹出窗口示出所选择的宏可以被复制到的可能目标(即其它宏)列表。提供“复制(copy)”按钮以接受启动复制过程的用户指令，并且提供关闭按钮来退出复制过程。这仅仅是一个可能的实施例，而且例如，带有用户界面特点和/或用于管理概要的工具的另外实施例也是可能的。

仅仅在新文本上运行这两个概要也是可能的，并且在许多情况下，这可能是继续进行的最佳方式。但是在某些场合下，情况可能是这样的，即在一个上下文中有用的宏实际上在另一个上下文中是有害的。这可以应用于字符串替换(如实例Anlage(原基)带来的启示)，而对于模式识别来说仍然更为恰当。

“修剪(prune)”概要的能力提高了模块宏结构的力量，其中一基本组的概要可以以无限次组合被重新组合，以便为任何新文本提供最佳的初始输入。这个功能可以由标记宏的系统进行保护。例如，可以使用颜色编码系统。宏在被创建时即可以被作标志为很有可能是：在别处有害(红)、在别处可能有害(黄)或者无害(绿)。这种颜色编码易于在接下来的编辑过程中删除可能有害(或者操作可能花费的时间长得不合理)的宏。当用户开发了一组概要时，他会发现后编辑自身的功能越来越多地转变为对概要进行恰当的选择和编辑，这就生产率增长而言具有明显的优势。优选地，概要内容显示还能够被设定成显示所有或一些被选择的颜色已编码条目的子组或组。

上述的语言识别功能还将大大增强宏从当前的概要向新概要的组合。这将使得确保对从一种外国源语言得到的MT输出结果进行处理所得到的宏与对从其它外国源语言所得到的MT输出结果进行处理所得到的宏相混淆成为可能。这种添加的安全级别将使编辑人员能够对宏的颜色编码采用较不谨慎的策略，从而增强宏在合适语言内的杠杆作用。

翻译者在从传统的TM系统转变为使用根据本发明的系统时所遇到的可能障碍是失去积累翻译记忆的优势的机会，而在某些情况下积累翻译记忆相当于巨大的资产。优选地，在本发明的实施例中，可以将翻译记忆直接导入概要来避免这种困难。翻译记忆由源语句和目标语句的相关性组成(连同关于两个文本的格式编排和其它细节的一定量的进一步信息)。在本发明的实施例中，宏不是与源文本字符串和目标文本字符串相关联，而是与MT输出和目标字符串相关联。然而，将MT输出语句与原始源语句相关联(即通过在包含在翻译记忆中的源文本上运行MT引擎)。假设相同的MT引擎然后用于翻译新文档，任何重现的语句然后将以与在使用翻译记忆系统的情况下出现的完全一样的方式被拾取并替换。这样，在本发明的实施例中，可以容易和自动地将关于可用于翻译记忆的交叉语言语句相关性的信息交叉传送给概要。通过把宏从概要直接送入MT用户字典以便优化MT引擎和后编辑者之间的协同工作能力，可以获得类似的优势。

总之，MT终于正在被建成为主流的翻译工具，并且随着统计MT的来临，这种趋势无疑将在未来几年里得到延续。然而，MT与FHQT(全人工质量翻译)之间的差距将在无限期的未来继续存在。经典的实例是“最后一英里(last mile)”问题。对MT系统来说，在没有人工干预的情况下充分接近针对要旨目的(如当前根据互联网使用而适当建立的)的文本是相对容易的。但是实现人工质量的决定性步骤仍然需要有经验的翻译人员。一般的MT与TM或仍然不能被接受的简单传统翻译相比，生命力的差距还是很大的。促进改进型MT类型技术发展的另一个关键因素是OCR技术的稳定改进。

本发明的实施例通过供给用于对MT输出结果进行有效的局部干预以达到人工质量的一系列工具和/或通过在字符串和语法分析模式级别上使重现结构的有效重用最大化，来提供桥接这种差距的完美环境。

这代表了MT和TM的最好方面的组合。充分利用了机器已经可以对翻译做出的有用贡献，并且也比在传统TM统中更为有效地充分利用了积累重复的可能性。结果是即使使用最近似的相关系列的文本(这是TM的拿手领域)，本发明的实施例也能够在性能上胜过Trados及其同属产品，并且能够为完全“未开发”的文本的翻译做出重大的贡献(一旦该系统对给定翻译者来说已经成熟)，对这种“未开发”的文本来说，不仅TM没有做出任何贡献，而且它还要求首先输入语句匹配的这种有些辛苦的过程。

本发明的一些实施例提供了产生可以被无限重用和重新设置的概要的明显优势(而且再次达到超过TM翻译记忆的优势的程度)。这些实施例本身将发展成可以在特制基础上投入生产并与软件本身合作出售的巨大资产。

本发明的优选实施例与，例如包括微软件办公软件(Microsoft Office)格式的所有主要现有文件类型相兼容。本发明的实施例既可以以单机模式来独立操作，又可以作为MS word或其它文本编辑应用程序的插件程序来操作。在后一种情况下，Word的大部分编辑功能性也是自动可用的。本发明的实施例还可以可用于其它文件格式，例如MS office以及其它各种桌面排版系统和环球网环境内的其它格式。以宏的形式贯穿文档保存的信息可以不考虑格式而等同地设置在任何文件中，而如何。本发明的实施例就使用不同Office格式的一组文档与使用MS word格式的文档的简单集合，可以具有相等的效果。

虽然上面的实例涉及对人类交流语言的翻译和后编辑，所述人类交流语言例如英语、法语、德语、俄语、西班牙语、汉语、日语、意大利语等，但本发明还可以用于对计算机编程语言翻译的编辑工作，所述计算机编程语言例如C++、可视基础(Visual Basic)、爪哇脚本(Javascript)、爪哇(Java)等。例如，计算机程序员可以具有用第一语言书写的源代码，但是希望用一不同的语言来改写该程序。例如该不同的语言可以运行得更快，或者可以是最新的，或者比第一语言更容易使用。如果是那样的话，上面描述的特点还可以用于或适于促进计算机编程语言的自动翻译。在这种实施例中，还可以提供专用的特点，例如与计算机编程开发包结合。可以开发专用于以上任务的宏并且可用作单独的附件。在一些实施例中，该软件可以用于支持现有的或未来的系统以与在对机器翻译自然语言的后编辑的使用完全相同的方式来对计算机语言进行自动互相翻译。

本发明的实施例还可以用于多种文档的格式转换，或者用于从二进制文件、已编码文件或其它数据文件中提取可读文本。

虽然已经针对目前所认为的优选实施例描述了本发明，对本领域技术人员显而易见的是，在不偏离权利要求所限定的本发明的范围的情况下，可以对所述优选实施例进行各种改变。

Claims

1、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

用户输入装置，用于接收对文本进行选择和/或编辑的用户指令；和

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括：用于对所述文本内的短语和/或短语边界进行自动标识的模式检测装置，以及用于一旦接收到预定的用户指令，即自动选择个别短语，以允许仅在句法属性方面或仅在词法属性方面或者既在句法属性方面又在词法属性方面对所述短语进行重构或修改、或者将所述短语移至该文本的不同部分的装置。

2、根据权利要求1所述的文本编辑设备，其中该控制器被配置为根据用户指令或者所贮存的修改程序对单词的个别字符串的词法内容进行修改，并且重用所述用户指令或修改程序以对单词的附加字符串进行修改，其中所述重用可以包括语形学上的改变。

3、根据权利要求1所述的文本编辑设备，其中所述控制器适于对该文本进行句法分析，并且所述用户输入装置被配置为接收指定待在所述句法分析中使用的句法单元的用户指令。

4、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器包括用于对短语和/或短语边界进行标识的装置以及用于实施特定语言所特有的自动短语排序规则的装置，

5、根据权利要求4所述的文本编辑设备，其中短语排序规则包括上下文专用规则，各所述上下文专用规则是根据一个以上标志单词或标志措辞准则而设置的。

6、根据前述任一项权利要求所述的文本编辑设备，其中所述控制器被配置为根据短语的类型来在所述显示器上展示对这些短语的加亮。

7、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来显示用户可编辑的翻译后的文本，其中所述控制器包括用于在所述预翻译后的文本和翻译后的文本内对短语和/或短语边界进行自动标识对应的模式检测装置，以及用于对出现于该预翻译后的文本的第一短语中的中在该预翻译后的文本的第一短语中出现的单词和在该翻译后的文本的非对应第二短语中出现的对应单词的进行标识的装置。

8、根据权利要求7所述的文本编辑设备，其中该控制器被配置为将该文本中的短语模式与模板短语模式进行比较，并且对差异进行标记。

9、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器被配置为允许用户所指令的拖放编辑，并且自动更正编辑后的文本的格和/或标点，以在语句中对应于所述文本的新位置，该自动更正可包括对空格的适当处理。

10、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，其中所述控制器被配置为对短语进行标识，并在个别短语内对单词的数、格和/或性的一致进行验证。

11、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于在该翻译后的文本中自动生成语法结构的装置，该语法结构是该第二语言的特性而非该第一语言的特性。

12、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于从该翻译后的文本中自动移除语法结构的装置，该语法结构是该第一语言的特性而非该第二语言的特性。

13、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于在接收到指示用户编辑完成的输入后实施语法和文体调整的自动装置。

14、根据权利要求13所述的文本编辑设备，其中该用于语法和文体调整的自动装置被配置为使用用于调整语法或文体的文体概要，所述文体概要是用户可选择的。

15、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于贮存多个文本编辑程序并编译和保存所述程序的列表以供不同的输入文本使用的装置。

16、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑设备，该设备包括：

控制器，适于控制显示器来展示用户可编辑的翻译后的文本，该控制器包括用于贮存、积累、编辑并组合文本编辑程序的装置，以及用于在多个用户之间共享所贮存的文本编辑程序的装置。

17、根据前述任一项权利要求所述的文本编辑设备，其中所述控制器被配置为选择并实施自动编辑过程，以将所选择的正字法应用于翻译后的文本。

18、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的计算机设备，该设备包括：

信息贮存装置，用于贮存表示从第一语言被翻译成第二语言的文本的第一组信息；

用户输入装置，用于接收用于选择和/或编辑所述第一组信息所表示的文本的用户指令；

文本数据控制装置，用于以所接收的用户指令为基础来对所述第一组进行编辑；和

显示数据发生装置，以可操作的方式生成显示数据，所述显示数据以可操作的方式在显示介质上定义第一显示区域和第二显示区域，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的第一文本信息，并且所述第二显示区域包含对应于第二组信息的第二文本信息，所述第二组信息要么包括从所述第一语言翻译之前的所述文本，要么对应于被所述文本数据控制装置编辑之前的所述第一组；其中所述显示数据发生装置进一步以可操作的方式将区分信息包括在所述显示数据中，所述区分信息以可操作的方式使所述文本信息的一部分和所述第二文本信息对应部分分别与所述第一文本和第二文本的剩余部分可视地区分开来。

19、根据权利要求18所示的设备，其中所述显示数据发生装置以可操作的方式第三显示区域中显示所述预翻译后的文本和用户预编辑后的翻译后的文本，并且以可操作的方式加亮该第三显示区域中的与该第一显示区域中的文本的所选择部分相对应的所述文本的部分。

20、根据权利要求18或19所述的设备，其中该显示数据发生装置以可操作的方式显示各自位于所述第二显示区域或第三显示区域或位于另外的显示区域的原始的预翻译后的文本和错误校正后的预翻译后的文本中的一项或两项。

21、根据前述任一项权利要求所述的设备，其中所述显示数据发生装置以可操作的方式在子语句级别上加亮该文本的个别部分。

22、根据权利要求21所述的设备，其中该显示数据发生装置以可操作的方式加亮该第一窗口中的文本的第一短语，并且加亮该第二窗口中的文本的对应的第二短语，以及一个或多个与所述加亮文本的翻译对应的附加单词，其中所述附加单词位于与该第一被加亮短语或第二被加亮短语不同的短语中。

23、根据前述任一项权利要求所述的设备，进一步包括：标识该预翻译后的文本和/或后翻译后的文本的语言，并且使用对该语言的标识来自动选择用于对该翻译后的文本进行后编辑的后编辑过程和/或对该选择进行验证的装置。

24、根据权利要求23所述的设备，进一步包括：标识用来将所述文本至少从第一语言翻译成第二语言再翻译成第三语言而翻译过的语言的顺序，并且使用所述顺序来选择后编辑过程或对该选择进行验证的装置。

25、根据前述任一项权利要求所述的设备，进一步包括用于通过标识该文本的输入源类型并根据所述输入源类型选择校正过程，来在该预翻译后的文本中校正错误的装置。

26、根据权利要求25所述的设备，其中所述校正错误的装置被配置为根据该预翻译后的文本的输入源类型来实施预翻译校正。

27、根据权利要求25或26所述设备，其中所述校正错误的装置被配置为根据该翻译后的文本的输入源类型来实施后翻译校正。

28、根据权利要求25至27所述的装置，其中所述用于校正错误的装置被配置为利用将输入源类型标识为光学字符识别(OCR)、音频听写、或键盘之一来选择一个以上处理规则。

29、根据权利要求26至28所述的设备，其中所述校正错误的装置被配置为利用统计分析来标识所述文本的输入源类型。

30、根据前述任一项权利要求所述的设备，进一步包括选择和实施自动编辑过程以将所选择的正字法应用于翻译后的文本的装置。

31、根据前述任一项权利要求所述的设备，进一步包括实施所选择的自动编辑过程以对图和/或日期进行格式编排的装置。

32、根据前述任一项权利要求所述的设备，进一步包括用于在所述文本内对短语和/或短语边界进行自动标识的装置，和用于在接收到预定用户指令后，对单独短语进行自动选择以允许所述短语被移至该文本的不同部分的装置。

33、根据前述任一项权利要求所述的设备，进一步包括用于对短语和/或短语边界进行标识的装置和用于实施指定语言所特有的自动短语排序规则的装置。

34、根据权利要求33所述的设备，进一步包括通过根据短语类型对所标识的短语进行分类来构建语句结构模型的装置。

35、根据权利要求34所述的设备，进一步包括对所标识的短语进行标记以指示所述短语类型的装置。

36、根据权利要求34或35所述的设备，进一步包括根据该短语类型在所述显示器上显示对短语的加亮。

37、根据前述任一项权利要求所述的设备，进一步包括用于在所述预翻译后的文本和翻译后的文本内对短语和/或短语边界进行自动标识的模式检测装置，以及用于对在该预翻译后的文本的第一短语中出现的单词和在该翻译后的文本的非对应第二短语中出现的对应单词进行标识的装置。

38、根据前述任一项权利要求所述的设备，进一步包括用于允许用户所指令的拖放编辑的装置，以及用于在语句中将所编辑文本的格和/或标点自动更正为对应于所述文本的新位置的装置。

39、根据前述任一项权利要求所述的设备，进一步包括标识短语并在个别短语内验证单词的数、格和/或性的一致的装置。

40、根据前述任一项权利要求所述的设备，进一步包括用于实施自动文本功能以向用户提供所选短语或单词的多个替换选项的装置。

41、根据权利要求40所述的设备，其中所述自动文本功能被提供给具有多种可用备选项的翻译的单词。

42、根据权利要求40或41所述的设备，其中所述自动文本被配置为允许该用户利用用户界面对所选择的单词的所述选项进行循环。

43、根据权利要求40至42中的任一项权利要求所述的设备，其中所述自动文本功能是用户可定制的，以允许用户预定义所述选项。

44、根据权利要求40至43中的任一项权利要求所述的设备，其中所述自动文本被配置为从外部源获取所述选项。

45、根据前述任一项权利要求所述的设备，进一步包括将所选择的自动编辑过程应用于多个文档的装置。

46、根据前述任一项权利要求所述的设备，进一步包括用于标识具有多种可用意思的被翻译单词的装置，以及用于供给备选可用意思的替换以供用户选择的装置。

47、根据前述任一项权利要求所述的设备，进一步包括用于从该翻译后的文本自动插入语法结构的装置，该语法结构存在于该第二语言而非第一语言中。

48、根据前述任一项权利要求所述的设备，进一步包括用于从该翻译后的文本自动删除语法结构的装置，该语法结构存在于该第一语言而非第二语言中。

49、根据前述任一项权利要求所述的设备，进一步包括实施带有模糊匹配的字符串替换功能的装置。

50、根据前述任一项权利要求所述的设备，进一步包括实施语法分析模式识别和替换功能的装置。

51、根据前述任一项权利要求所述的设备，进一步包括用于进行自动语法和文体调整以在接收到指示用户编辑完成的输入后实施的装置。

52、根据前述任一项权利要求所述的设备，进一步包括用于贮存多个文本编辑程序并且编译和保存所述程序的列表以供不同的输入文本使用的装置。

53、一种用于管理概要的概要管理系统，包括用于对翻译后的文本进行后编辑的规则组。

54、一种承载表示概要的计算机可读代码的信号或载体介质，包括根据权利要求52所述的多个规则。

55、根据权利要求54所述的信号或载体介质，其中所述规则根据特定类型的文本或语言的使用的适宜性被各自分类。

56、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的文本编辑装置，该装置包括：

用户输入接收器，用于接收对文本进行选择和/或编辑的用户指令；至少一个显示器；和

控制器，适于控制显示器来在第一显示区域展示用户可编辑的翻译后的文本，并且在第二显示区域显示预翻译后的文本或用户预编辑后的翻译后的文本中的一者，

其中该控制器被配置为加亮在该第一显示区域中的该文本的选择部分，加亮在该第二显示区域中的该文本的对应部分，并且如果经由该用户输入接收器获得新的文本选择，则更新所述加亮。

57、一种用于管理表示计算机生成文本的信息的计算机设备，该设备包括：

用于贮存表示所述计算机生成文本的第一组信息的信息贮存装置；

用于接收对所述第一组信息所表示的文本进行选择和/或编辑的指令的用户输入装置；

用于以接收到的用户指令为基础对所述第一组进行编辑的文本数据控制装置；和

以可操作的方式生成显示数据的显示数据发生装置，所述显示数据以可操作的方式在显示介质上定义第一显示区域和第二显示区域，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的第一文本信息，并且所述第二显示区域包含对应于所述第二组信息的第二文本信息，所述第二组信息对应于被所述文本数据控制装置编辑之前的所述第一组；其中所述显示数据发生装置进一步以可操作的方式在所述显示数据中包括区分信息，所述区分信息以可操作的方式使所述第一文本信息的一部分和所述第二文本信息的对应部分分别与所述第一文本和所述第二文本中的剩余部分可视地区分开。

58、一种承载计算机可读代码的信号或载体介质，用于将计算机配置为根据权利要求1至53、权利要求56或权利要求57中任一项所述的设备。

59、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

贮存表示从第一语言被翻译成第二语言的文本的第一组信息；

接收用于对所述第一组信息中表示的文本进行选择和/或编辑的用户指令；

以所接收的用户指令为基础对所述第一组进行编辑；

生成在显示介质上定义第一显示区域和第二显示区域的显示数据，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的所述第一文本信息，并且所述第二显示区域包含对应于第二组信息的第二文本信息，所述第二组信息要么包括从所述第一语言被翻译之前的所述文本要么对应于由所述文本数据控制装置对其进行编辑之前的所述第一组；其中所述生成显示数据包括将区分信息包括在所述显示数据中，所述区分信息以可操作的方式使所述第一文本信息的一部分和所述第二文本信息的对应部分分别与所述第一文本和所述第二文本中的剩余部分可视地区分开。

60、根据权利要求59所述的方法，进一步包括：

生成在所述显示介质中定义第三显示区域的显示数据，所述第三显示区域包含对应于第三组信息的第三文本信息，所述第三组信息或者包括从所述第一语言被翻译之前的所述文本或者对应于由所述文本数据控制装置对其进行编辑之前的所述第一组，其中所述生成显示数据包括将区分信息括在所述显示数据中，所述区分信息以可操作的方式使与所述第一文本信息的所述部分相对应的第三文本信息的一部分与所述第三文本的剩余部分可视地区分开。

61、根据权利要求59或60所述的方法，其中所述生成显示数据进一步包括生成显示原始的预翻译后的文本和错误校正后的预翻译后的文本中的一项或两项的显示数据，这两项可以各自在所述第二显示区域或第三显示区域显示，也可以在另外的显示区域显示。

62、根据权利要求59至61中任一项权利要求所述的方法，其中所述区分信息在子语句级别上区分该文本的个别部分。

63、根据权利要求62所述的方法，其中所述区分信息区分第一窗口中的该文本的第一短语，和第二窗口中的该文本的对应的第二短语，以及对应于所区分的文本的翻译的一个以上附加单词，其中所述附加单词位于与该第一区分的短语或第二区分的短语不同的短语上。

64、根据权利要求59至63中任一项所述的方法，进一步包括标识该预编译后的文本的语言和/或后翻译后的文本的语言，并使用该语言的所述标识来自动选择用于后编辑该翻译后的文本的后编辑过程/或对该选择进行验证。

65、根据权利要求64所述的方法，进一步包括对用来将所述文本从第一语言翻译成第二语言再翻译成第三语言而翻译过的语言的顺序进行标识，并且使用所述顺序来进行选择后编辑过程或对该选择进行验证。

66、根据权利要求59至65中任一项权利要求所述的方法，进一步包括通过标识该文本的输入源类型并根据所述输入源类型来选择校正过程，从而在该预翻译后的文本中校正错误。

67、根据权利要求66所述的方法，进一步包括根据该预翻译后的文本的输入源类型来实施预翻译校正。

68、根据权利要求66或权利要求67所述的方法，进一步包括根据该翻译后的文本的输入源类型来实施后校正。

69、根据权利要求66至68中任一项权利要求所述的方法，进一步包括利用将输入源类型标识为光学字符识别(OCR)、音频听写或键盘之一来选择一个以上处理规则。

70、根据权利要求67至69中任一项权利要求所述的方法，进一步包括利用统计分析来标识所述文本的输入源类型。

71、根据权利要求59至70中任一项权利要求所述的方法，进一步包括选择并实施自动编辑过程以将所选择的正字法应用于翻译后的文本。

72、根据权利要求59至71中任一项权利要求所述的方法，进一步包括实施所选择的自动编辑过程以对图和/或日期进行格式编排。

73、根据权利要求59至72中任一项权利要求所述的方法，进一步包括实施模式检测以在所述文本内对短语和/或短语边界进行自动识别，并且一旦接收到预定的用户指令，即对个别短语进行自动选择以允许所述短语被移至该文本的不同部分。

74、根据权利要求59至73中任一项权利要求所述的方法，进一步包括对短语和/或短语边界进行标识并实施指定语言所特有的自动短语排序规则。

75、根据权利要求74所述的方法，进一步包括通过由短语类型对所述标识的短语进行分类来构造语句结构模型。

76、根据权利要求75所述的方法，进一步包括对所述标识的短语进行标记以指示所述短语类型。

77、根据权利要求75或权利要求76所述的方法，进一步包括生成区分信息以根据该短语类型对短语进行区分，并将所述区分信息包括在该显示数据中。

78、根据权利要求59至77中任一项所述的方法，进一步包括模式检测，以在所述预翻译后的文本和翻译后的文本内对短语和/或短语边界进行自动标识，并对在该预翻译后的文本的第一短语中出现的单词和在该翻译后的文本的非对应第二短语中出现的对应单词进行标识。

79、根据权利要求59至78中任一项权利要求所述的方法，进一步包括允许用户所指令的拖放编辑，以及自动修正编辑文本的格和/或标点为对应于在语句中所述文本的新位置。

80、根据权利要求59至79中任一项所述的方法，进一步包括标识短语并在个别短语内验证单词的数、格和/或性的一致。

81、根据权利要求59至80中任一项所述的方法，进一步包括实施自动文本功能以向用户提供多个选项用以供替换所选择的短语或单词。

82、根据权利要求81所述的方法，其中所述自动文本功能被提供给存在多种可用备选项翻译的单词。

83、根据权利要求81或82所述的方法，所述自动文本功能通过接收用户指令允许针对所选择的单词对所述选项进行用户控制的循环。

84、根据权利要求81至83中任一项权利要求所述的方法，其中所述自动文本功能是用户可定制的，以允许用户对所述选项进行预定义。

85、根据权利要求81至84中任一项权利要求所述的方法，其中所述自动文本被配置为从外部源获取所述选项。

86、根据权利要求59至85中任一项权利要求所述的方法，进一步包括将所选择的自动编辑过程应用于多个文档。

87、根据权利要求59至86中任一项所述的方法，进一步包括对具有多个可用意思的翻译后的单词进行标识，并供给备选的可用意思的替换以供用户选择。

88、根据权利要求59至87中任一项所述的方法，进一步包括在翻译的文本中自动地插入语法结构，该语法结构存在于该第二语言中而非该第一语言中。

89、根据权利要求59至88中任一项所述的方法，进一步包括从该翻译的文本自动地删除语法结构，该语法结构存于该第一语言中而非该第二语言中。

90、根据权利要求59至89中任一项所述的方法，进一步包括实施带有模糊匹配的字符串替换功能。

91、根据权利要求59至90中任一项所述的方法，进一步包括实施语法分析模式识别和替换功能。

92、根据权利要求59至91中任一项所述的方法，进一步包括在接收到指示用户编辑完成的输入之后实施自动语法和文体调整过程。

93、根据权利要求59至92中任一项所述的方法，进一步包括贮存多个文本编辑程序并且编译和保存所述过程的列表以供不同的输入文本使用。

94、一种用于管理概要的概要管理方法，包括用以对翻译的文本进行后编辑的规则组，所述方法包括提供用户界面以允许用户能够选择规则用以包括在选择的概要中。

95、一种用于对至少从第一语言被翻译成第二语言的文本进行编辑的方法，该方法包括：

接收选择和/或编辑文本的用户指令；

生成以控制显示介质、使其在第一显示区域中显示用户可编辑的翻译后的文本的控制信号，并且在第二显示区域中显示预翻译后的文本或用户预编辑后的翻译后的文本中的一者；

加亮在第一显示区域中的该文本的选择部分，加亮在第二显示区域中的该文本的对应部分，并且如果通过用户输入装置获得新的文本选择，则更新所述加亮。

96、一种管理表示计算机生成文本的信息的方法，该方法包括：

贮存表示所述计算机生成文本的第一组信息；

接收对所述第一组信息中表示的文本进行选择和编辑的用户指令；

以所接收的用户指令为基础对所述第一组进行编辑；以及

生成显示数据，所述显示数据以可操作的方式在显示介质上定义第一显示区域和第二显示区域，所述第一显示区域在所述文本数据控制装置的控制下包含对应于所述第一组信息的第一文本信息，并且所述第二显示区域包含对应第二组信息的第二文本信息，所述第二组信息对应于由所述文本数据控制装置对其进行编辑之前的所述第一组；

其中所述显示数据发生装置进一步以可操作的方式在所述显示数据中包括区分信息，所述区分信息以可操作的方式使所述第一文本信息的一部分和所述第二文本信息的对应部分分别与所述第一文本和所述第二文本中的剩余部分可视地区分开。

97、一种用于对从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

访问表示从第一语言被翻译成第二语言的文本的第一组信息；

接收用于对所述第一组信息中表示的文本进行选择和编辑的用户指令；

在接收到预定的用户指令后执行模式检测，用以在所述预翻译后的文本和/或翻译后的文本内对短语和/或短语边界进行自动标识，并且对个别短语进行自动选择以允许要么在句法属性方面要么在词法属性方面要么在这两项方面对所述短语进行重构或修改，或者将所述短语移至该文本的不同部分；以及

生成用于控制显示器使其展示用户可编辑的翻译后的文本的显示数据。

98、根据权利要求97所述的方法，进一步包括根据用户指令或所贮存的修改程序，对单词的个别字符串的词法内容进行修改，并且重用用于对单词的另外字符串进行修改的所述用户指令或修改程序，其中所述重用可包括语形学上的改变。

99、根据权利要求97所述的方法，进一步包括接收用于指定待在句法分析中使用的句法单元的用户指令，并且对该文本进行所述句法分析。

100、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

对短语和/或短语边界进行标识，并实施指定语言所特有的自动短语排序规则；以及

101、根据权利要求100所述的方法，其中所述短语排序规则包括上下文特有规则，各所述上下文特有规则是根据一个以上标志单词或标志措辞准则而设置的。

102、根据权利要求97至101中任一项所述的方法，进一步包括根据该短语类型在所述显示器上展示对短语的加亮。

103、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

施行模式检测来在所述预翻译后的文本和翻译后的文本内对短语和/或短语边界进行自动标识，以及对在该预翻译后的文本的第一短语中出现的单词和在该翻译后的文本的非对应第二短语中出现的对应单词进行标识；以及

104、根据权利要求103所述的方法，进一步包括将该文本中的短语模式与模板短语模式进行比较，并对差异进行标记。

105、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

允许用户所指令的拖放编辑，并且在语句中将编辑文本的格和/或标点自动更正为对应于所述文档的新位置，该自动更正可包括对空格的适当处理；以及

106、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

对短语进行标识，并验证在个别短语内单词的数、格和/或性的一致性；以及

107、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

在翻译后的文本中自动生成语法结构，该语法结构为该第二语言的特性而非该第一语言的特性；以及

108、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

从翻译的文本中自动移除语法结构，该语法结构为该第一语言的特性而非该第二语言的特性；以及

109、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

在接收到指示用户编辑完成的输入之后，自动调整语法和文体；以及

110、根据权利要求109所述的方法，其中该自动调整语法和文体使用文体概要来调整语法或文体，所述文体概要是用户可选择的。

111、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

贮存多个文本编辑程序，并编译和保存所述程序的列表以供不同的输入文本使用；以及

112、一种用于管理表示从第一语言被翻译成第二语言的文本的信息的方法，该方法包括：

接收用于对所述第一组信息中所表示的文本进行选择和编辑的用户指令；

贮存、积累、编辑和组合文本编辑程序，并在多个用户之间共享所贮存的文本编辑程序；以及

113、根据权利要求97至112中任一项所述的方法，进一步包括选择并实施自动编辑过程，来将所选择的正字法应用于翻译后的文本。

114、一种承载用来施行根据权利要求59至113中任一项所述的方法的计算机可读代码的信号或载体介质。