CN105210056A

CN105210056A - 混合式、离线/在线语音翻译系统

Info

Publication number: CN105210056A
Application number: CN201480027313.4A
Authority: CN
Inventors: 娜奥米·奥基·魏贝尔; 亚历山大·魏贝尔; 克里斯蒂安·菲根; 凯·罗特曼
Original assignee: Facebook Inc
Current assignee: Meta Platforms Inc
Priority date: 2013-05-13
Filing date: 2014-05-01
Publication date: 2015-12-30
Anticipated expiration: 2034-05-01
Also published as: AU2014265782B2; MX348169B; MX2015015799A; KR20160006682A; AU2017210631A1; AU2017210631B2; US20160364385A1; CA2907775C; WO2014186143A1; CA2907775A1; US10331794B2; BR112015028622A2; IL242230A; CN105210056B; AU2014265782A1; KR101729154B1; US20140337007A1; JP2016527587A; US9430465B2; JP6157725B2

Abstract

一种混合式语音翻译系统，借此，无线启动客户端计算设备可以在离线模式下将输入语音话语本地从一种语言翻译成另一种，并且还在存在无线网络连通性时的在线模式下，使远程计算机执行翻译并且将其经由无线网络发送回到客户端计算设备以便由客户端计算设备可听地输出。客户端计算设备的用户可以在模式之间转换，或者转换可以是基于用户偏好或设置自动的。后端语音翻译服务器系统可以基于随时间的用户数据的分析适配由客户端计算设备在离线模式下使用的各个识别和翻译模型，从而利用比后端语音翻译服务器系统更小的，但是更高效和更快速的模型配置客户端计算设备，同时仍然适合于用户的领域。

Description

混合式、离线/在线语音翻译系统

背景技术

语音到语音翻译(STS)系统通常以两个不同的形式中的一个递送：通过互联网在线地或者嵌入用户的设备上离线地(例如，智能手机或者其他合适的计算设备)。在线版本具有以下优势，其可以得益于大型服务器(云)上的重要处理资源，并且提供馈送至服务供应商的数据使得改进和用户化成为可能。然而，在线处理需要持续的网络连通性，由于漫游成本或者隐私/安全性担忧使得不能在所有地点保证网络连通性或者在有些情况下不希望存在网络连通性。如可替换的配置，语音到语音翻译器，诸如Jibbigo语音翻译应用，可以在嵌入在智能手机本身上的软件本地运行时递送，并且在翻译app的初始下载之后不需要网络连通性。这样的离线嵌入语音翻译能力对于以下许多情形是优选的配置，即如果大部分实际情况不需要语言支持，当网络不可用、间歇性的或者过于昂贵时。大部分旅行者会经历这样的间歇性的或者不存在的连通性，例如，在航线飞行期间、远距离的地理位置、建筑物、或者仅仅因为数据漫游被关闭以避免在外国旅行时的相关联的漫游费用。

这样的语音翻译服务或软件递送的方式还具有以下含义，即软件可以/必须以领域相关或者领域独立的方式操作的程度以及其是否可以适应于用户的环境。STS系统通常将对于一个领域相当好地工作，但是对于另一个领域不太好(领域相关的)，如果它们已紧密优化并且调谐为特定使用领域，或者它们通过对于所有领域不相上下地良好地工作来试图领域独立。任何一个解决方案都限制所有特定情况的性能。

用户通常在他的/她的计算设备上运行在线客户端程序。这个设备通常数字化并且能编码语音，然后将样本或者系数通过通信线路发送至服务器。然后服务器执行繁重的计算的语音识别和/或翻译并且将结果经由通信线路发送回用户，并且结果显示在用户设备上。不同的在线设计已建议将处理链的不同的部分移出至服务器并且在设备上进行或多或少的计算工作。在语音识别、翻译和翻译系统中，用户的设备可以简单到仅为麦克风，或者模数转换器，或者提供更复杂的功能，诸如噪声抑制、编码为系数、一个或多个语音识别途径、或者一个或多个语言处理步骤。相反离线设计的全部应用在设备本身上作为嵌入式应用运行。所有的计算在设备本地完成并且在使用期间不需要客户端和服务器之间的传输。

通常，在线设计具有以下优势，即其仅需要非常简单的客户端并且因此应用可以在非常简单的计算设备或者移动电话上运行，同时所有繁重的计算和处理在大型计算服务器上完成。对于语音和机器翻译，这意味着可以使用更高级的但是计算密集的算法，并且可以使用最新的背景信息。其还具有以下优势，即服务的开发者或操作者可以在服务器上维护/改善服务或能力，不需要用户下载或升级新系统版本。

在线设计的缺点是其关键取决于网络连通性的事实。然而，当用户移动和旅行至远距离的地点时，连接性会是间歇性的和/或非常昂贵的(漫游)，并且因此在许多方面不可用。对于语音和语音翻译系统，这个需要经常是不可接受的。与文本或电子邮件传输不同，语音不允许连通性的临时失效，因为其不允许在没有丢失信息或者实时性能的情况下的语音流的相应的中断。因此在线设计必须确保连续的、实时的传输并且因此必须确保使用期间的连续的连通性。

发明内容

在一个总体方面中，本发明针对一种混合式语音翻译系统，借此无线启动客户端计算设备(例如，智能手机或平板电脑)可以将输入单词短语(例如，输入语音话语或输入文本)本地地从一种语言翻译成另一种，例如，在“离线”模式，以及在有无线网络连通性时的“在线”模式下，使远程计算机(例如，后端语音翻译服务器系统)执行翻译并且将其经由无线网络发送回到客户端计算设备以便由客户端计算设备输出(例如，经由扬声器和/或经由文本显示字段能听见地)。在各种实施方式中，客户端计算设备的用户可以在模式之间转换或者转换可以是基于用户偏好或设置对于用户自动的和显而易见的。此外，后端语音翻译服务器系统可以基于随时间的用户数据的分析适配由客户端计算设备在离线模式下使用的各个识别和翻译模型，从而利用比后端语音翻译服务器系统更小的，但是更高效和更快速的同时还要适合于用户的领域的模型配置客户端计算设备。

根据本发明的实施方式具体地在针对语音翻译系统和语音翻译方法的所附权利要求中公开，其中一个权利要求种类中提到的任何特征，例如，方法，可以在另一个权利要求种类中被要求保护并且以下列出的实施方式是仅出于形式原因选择的。然而从慎重参考回任何先前的权利要求或实施方式得到的任何主题(具体地，多个从属关系)同样可以被要求保护，使得公开权利要求和其特征的任何组合并且可以与所附权利要求中选择的从属关系无关地要求保护。还公开了以下列出的实施方式的特征的任何组合，与在其中提到的反向引用无关。

在根据本发明的实施方式中，一种语音翻译系统包括：

-后端语音翻译服务器系统；以及

-客户端计算设备，被配置为经由无线网络与后端语音翻译服务器系统通信，其中客户端计算设备包括：

-麦克风；

-处理器，连接至麦克风；

-存储器，连接至处理器，存储由处理器执行的指令；以及

-扬声器，连接至处理器，其中：

-客户端计算设备用于经由扬声器输出输入单词短语从第一语言至第二语言的翻译；并且

-存储器存储指令使得：

在第一操作模式下，当处理器执行指令时，处理器将输入单词短语翻译成第二语言以便输出至用户；并且

在第二操作模式下：

-客户端计算设备经由无线网络将有关由客户端计算设备接收的第一语言的输入单词短语的数据发送至后端语音翻译服务器系统；

-后端语音翻译服务器系统基于经由无线网络从客户端计算设备接收的数据确定第一语言的输入单词短语的第二语言的翻译；并且

-后端语音翻译系统经由无线网络发送有关第一语言的输入单词短语的第二语言的翻译的数据到客户端计算系统，使得客户端计算设备输出第一语言的输入单词短语的第二语言的翻译。

客户端计算设备可具有允许用户在第一操作模式和第二操作模式之间切换的用户界面。

客户端计算设备可以基于无线网络的连接状态自动选择使用第一操作模式或第二操作模式。

可替换地，客户端计算设备可以基于客户端计算设备的用户的用户偏好设置自动选择使用第一操作模式或第二操作模式。

在根据本发明的另一实施方式中，输入单词短语通过以下中的一个被输入至客户端计算：

-由客户端计算设备的麦克风获取的输入语音话语；或者在客户端计算设备的用户界面上经由文本输入字段输入的文本。

客户端计算设备可以经由扬声器能听见地输出翻译。

在本发明的语音翻译系统中，在第一操作模式下，客户端计算设备可以将用于识别第一语言的语音话语并且将识别的语音话语翻译成第二语言以便经由客户端计算设备的扬声器输出的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型存储在存储器中。

在第二操作模式下，后端语音翻译服务器系统可包括用于基于经由无线网络从客户端计算设备接收的数据确定第一语言的语音话语的第二语言的翻译的后端声音模型、后端语言模型、后端翻译模型和后端语音合成模型。

优选地，本地声音模型可以不同于后端声音模型；

本地语言模型可以不同于后端语言模型；

本地翻译模型可以不同于后端翻译模型；并且

本地语音合成模型可以不同于所述后端语音合成模型。

此外，后端语音翻译服务器系统可以被编程为：随时间检测由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语，并且基于随时间监测的由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语更新客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个，其中对客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个的更新经由无线网络从后端语音翻译服务器系统发送至客户端计算设备。

客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型可以基于用户的翻译查询的分析更新。

客户端计算设备可包括用于确定客户端计算设备的位置的GPS系统。

后端语音翻译服务器系统可以进一步被编程为基于客户端计算设备的位置更新客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个，其中对客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个的更新经由无线网络从后端语音翻译服务器系统发送至客户端计算设备。

此外，后端语音翻译服务器系统可以是是多个后端语音翻译服务器系统中的一个，并且客户端计算设备可被配置为经由无线网络与多个后端语音翻译服务器系统中的每个通信。

在第二操作模式下，多个后端语音翻译服务器系统中的每个可以基于经由无线网络从客户端计算设备接收的数据确定第一语言的语音话语的第二语言的翻译；并且多个后端语音翻译服务器系统中的一个从多个后端语音翻译服务器系统中选择翻译中的一个以便发送至所述客户端计算设备。

可替换地，多个后端语音翻译服务器系统中的一个将来自多个后端语音翻译服务器系统的翻译中的两个或多个合并以生成合并的翻译以便发送至客户端计算设备。

根据本发明的另一方面，公开了一种语音翻译方法，该语音翻译方法包括：

-在第一操作模式下：

-由客户端计算设备接收第一语言的第一输入单词短语；

-由客户端计算设备将第一输入单词短语翻译成第二语言；并且

-由客户端计算设备输出第二语言的第一输入单词短语；

-由客户端计算设备从第一操作模式转换成第二操作模式；

-在第二操作模式下：

-由客户端计算设备接收第一语言的第二输入单词短语；

-由客户端计算设备经由无线网络将有关第二输入单词短语的数据发送至后端语音翻译服务器系统；

-由客户端计算设备经由无线网络从后端语音翻译服务器系统接收有关第二输入单词短语从第一语言至第二语言的由后端语音翻译服务器系统完成的翻译的数据；并且

-由客户端计算设备输出第二语言的第二输入单词短语。

在本发明的另一实施方式中，在第一操作模式下，客户端计算设备将用于识别第一语言的输入语音话语并且将识别的输入语音话语翻译成第二语言以便经由扬声器输出的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型存储在存储器中，并且在第二操作模式下，后端语音翻译服务器系统优选地包括用于基于经由无线网络从客户端计算设备接收的数据确定第一语言的输入语音话语的第二语言的翻译的后端声音模型、后端语言模型、后端翻译模型和后端语音合成模型。

该方法可以进一步包括以下步骤

-后端语音翻译服务器系统随时间监测由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语；并且

-由后端语音翻译服务器系统基于随时间监测的由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语更新客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个，其中对客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个的更新经由无线网络从后端语音翻译服务器系统发送至客户端计算设备。

语音翻译方法可包括由客户端计算设备下载包括第一语言和第二语言的语言翻译对的应用软件的步骤。

下载语言翻译对的应用软件的步骤可包括当客户端计算设备和后端语音翻译服务器系统之间的合适的连通性经由无线网络可用时下载语言翻译对的应用软件。

在本发明的另一实施方式中，语音翻译方法可以包括：

-由客户端计算设备确定客户端计算设备的位置；并且

-由客户端计算设备基于客户端计算设备的确定位置并且当客户端计算设备和后端语音翻译服务器系统之间的合适的连通性经由无线网络可用时下载语言翻译对的应用软件。

优选地，客户端计算设备可包括具有同时显示的第一语言显示部分和第二语言显示部分的图形用户界面；并且

-第一语言显示部分和第二语言显示部分中的每个可包括用户能访问的多个语言的列表。

方法可进一步包括由客户端计算设备经由图形用户界面接收来自所述第一语言显示部分中的列表的第一语言和来自所述第二语言显示部分中的列表的第二语言步骤的选择，从而使得客户端计算设备被配置为将输入语音话语从第一语言翻译成第二语言。

第一操作模式下可用的语言可以在图形用户界面的第一语言显示部分和第二语言显示部分中与在第一操作模式下不可用的语言不同地可视地指定。

由客户端计算设备从第一操作模式至第二操作模式的转换的步骤响应于经由客户端计算设备的用户界面的输入从第一模式转换成第二模式。

本发明的这些以及其他益处将从以下描述清晰可见。

附图说明

在本文中，通过结合下列附图的实例的方式来描述本发明的各个实施方式，其中：

图1和图8是根据本发明的各个实施方式的混合式语音翻译系统的框图；

图2A-2B和图4A-4B提供根据本发明的各个实施方式的图形用户界面的示例屏幕截图，通过该图形用户界面客户端计算设备的用户可以选择期望的语言翻译对，并且可以从离线模式转换成在线模式，反之亦然；

图3是根据本发明的各个实施方式的客户端计算设备的框图；

图5是示出根据本发明的各个实施方式的离线模式和在线模式之间的自动转换的客户端计算设备的过程的流程图；

图6是示出根据本发明的各个实施方式的更新客户端计算设备的离线语音翻译的各个模型和表的过程的流程图；以及

图7是示出根据本发明的各个实施方式的离线模式和在线模式下的语音翻译过程的流程图。

具体实施方式

本发明总体上针对语音翻译系统，其中能够无线连接的(wireless-enabled)客户端计算设备(例如，智能手机或平板电脑)具有在线(例如，通过远程计算机系统处理语音翻译)和离线(例如，嵌入客户端计算设备的语音翻译处理)能力两者。图1是根据本发明的各种实施方式的语音翻译系统10的示例性实施方式的框图。如在图1中示出的，系统10包括能够无线连接的客户端计算设备12、无线网络14、数据通信网络15(例如，互联网)、后端语音翻译服务器系统16、以及应用存储服务器系统(“app商店”)18。客户端计算设备12由用户使用以将由客户端计算设备12接收的第一语言的语音话语翻译成第二(乃至其他)语言。客户端计算设备12可以是任何合适的计算设备，诸如台式计算机或便携式计算机，但是更优选地是移动、手提式计算设备，诸如智能手机或平板电脑。有关示例性客户端计算设备12的更多细节在以下结合图3描述。

客户端计算设备12还优选地能够经由无线网络14无线数据通信(即，客户端计算设备12是“能够无线连接的”)。无线网络14可以是任何合适的无线网络，诸如使用IEEE802.11WLAN标准的无线LAN(WLAN)，诸如WiFi网络。无线网络14还可以包括移动电信网络，诸如3G或4GLTE移动电话移动通信网络，尽管也可以使用其他合适的无线网络。无线网络14优选地提供至互联网15的连接，诸如通过接入点或基站。后端语音翻译服务器系统16和app商店18被连接至互联网15并且，因此，经由无线网络14与客户端计算设备12通信。

如本文中描述的，客户端计算设备12设置有软件(包括模型)，该软件允许客户端计算设备12执行离线语音翻译或者执行在线语音翻译，后端语音翻译服务器系统16提供计算密集的语音识别和/或翻译处理步骤。因此后端语音翻译服务器系统16可以包括一个或多个网络计算机服务器，该服务器基于经由无线网络14从客户端计算设备12接收的数据执行语音翻译。因此后端语音翻译服务器系统16可以包括，例如：自动语音识别(ASR)模块20，用于识别输入语音话语数据的第一语言的语音；机器翻译(MT)模块22，将识别的第一语言转换/翻译成选择的第二语言；以及语音合成模块24，将第二语言的翻译合成为第二语言的可听输出的信号。ASR模块20可以采用，例如，(i)语言模型，包含巨大的单词列表和给定顺序的它们的出现概率，以及(ii)声音模型，包含组成语言模型中的每个单词的截然不同的声音。MT模块可以采用，例如，合适的翻译表(或者模型)和语言模型。语音合成模块24可以采用合适的语音合成模型。相似地，客户端计算设备12的语音翻译软件可包括ASR模块(具有语言和声音模型)、MT模块(具有翻译表/模型和语言模型)、以及语音合成模块(具有语音合成模型)。对于在线和离线模式的ASR、MT、和合成模块(或引擎)的更多细节，可以在美国专利8，090，570和8，204，739中找到，它们的全部内容通过引用结合在本文中。

客户端计算设备12的用户可以经由app商店18购买语音翻译软件(或者应用程序或“app”)。在各种实施方式中，在线版本的翻译app，其中后端语音翻译服务器系统16执行大部分的语音翻译处理，假定与客户端计算设备12连接经由app商店18自由下载而变得可用。在线翻译app为客户端计算设备12提供用户界面、收集待翻译的输入单词短语的能力，诸如语音话语(通过客户端计算设备12上的麦克风获取的)或者文本(经由用户界面提供的文本字段)，并且(经由客户端计算设备12的扬声器和/或经由用户界面文本地)输出翻译。在这样的实施方式中，客户端计算设备12可以经由无线网络14将以下数据发送至后端语音翻译服务器系统16，即通过客户端计算设备12的麦克风记录或者经由文本输入字段输入的有关第一语言的将要转换的输入短语的数据，作为预处理输入语音之后的包括例如数字、编码样本或者特征向量的数据。基于所接收的输入数据，后端语音翻译服务器系统16将语音话语翻译成选择的第二语言，并且经由无线网络14将表示翻译的数据发送回至客户端计算设备12以便经由客户端计算设备12的扬声器处理、合成并可听输出。

语音翻译app还可以以离线模式操作，其中客户端计算设备12在没有至后端语音翻译服务器系统16的连接的情况下执行本地语音翻译。在各种实施方式中，客户端计算设备12的用户，在具有与无线网络14的连通性的同时，下载选择的语言对(例如，英语-西班牙语等)的离线app软件，使得离线系统可以在网络连通性停止的情况下运行。图2A-图2B示出允许用户选择所希望的语言对的显示在使用app的客户端计算设备12上的示例用户界面。示出的示例用户界面还示出用户可以经由用户控制器选择在线模式或离线模式。例如，在图2A中，用户将用户控制器40切换为在线，如通过云和/或“在线翻译器”的描述示出的；在图2B中，用户将用户控制器40切换为离线，如通过穿过云的对角线和“离线翻译器”的描述示出的。在图2A-图2B的实例中，用户可以在第一列42和第二列44中上下滚动语言(非常像滚动轮)直至用户设定期望的语言对，通过在突出选择区域46处的第一列和第二列中的语言指出。在图2A的实例中，所选择的语言对是英语(国际版本)和西班牙语(墨西哥版本)。在图2B的实例中，所选择的语言对是英语(国际版本)和西班牙语(西班牙版本)。

在在线模式下，用户可以访问提供的任何语言对。这可以通过示出两个列42、44中的可用语言的图标(例如，国旗)颜色来向用户指出。然后用户可以向上/向下滚动两个列使得所希望的语言对显示在选择区域46中。当无线网络连通性不可用时(诸如因为其由用户经由用户控制器40关闭或者自动关闭，如以下描述的)，仅先前安装在客户端计算设备12上的语言对在各种实施方式中是可用的。相似地，对于离线模式可用的语言，如图2B所示，可以通过示出两个列42、44中的安装语言的图标(例如，旗)的颜色，同时将所有未安装的语言示出为灰色向用户指出。

图7是示出根据各种实施方式的混合式在线/离线处理的流程图。客户端计算设备12(例如，它们的麦克风)在步骤70获取第一语言的输入语音话语。如果在步骤72使用在线模式，则在步骤74客户端计算设备12经由无线网络14将有关输入语音话语的数据(例如，输入语音话语的样本或系数)发送至后端语音翻译服务器系统16，在步骤76将话语翻译成第二语言。在步骤77后端语音翻译服务器系统16将翻译的数据经由无线网络14发送回至客户端计算设备12使得，在步骤79，客户端计算设备12(例如，它们的扬声器)可以能听见地输出输入话语的第二语言的翻译。如果在步骤72使用离线模式，则在步骤78客户端计算设备12执行存储器中存储的下载的离线语音翻译软件，将话语翻译成第二语言，并且在步骤79将其输出。

图3是根据各种实施方式的客户端计算设备12的框图。如图3的实例所示，设备12可包括多个处理器202、204。基带处理器202可处理根据任何合适的通信技术(例如，3G、4G等)的经由移动电信网络(例如，蜂窝网络)的通信。基带处理器202可包括专用随机存取存储器(RAM)214。在各种实施方式中，基带处理器202可与收发器206通信。随后，收发器206可与一个或多个功率放大器208和天线210通信。移动电信网络的外发(outgoing)信号可在基带被基带处理器202处理并且被提供至收发器206。收发器206和/或基带处理器206可将外发信号调制到载波频率。一个或多个放大器208可放大外发信号，该外发信号随后经由天线210发送。移动通信网络的进入(incoming)信号可通过天线210接收，通过一个或多个放大器208放大并且提供至收发器206。收发器206或基带处理器202可将进入信号解调到基带。

应用处理器204可以执行操作系统以及软件应用(例如，经由app商店18下载的)，包括本文中描述的离线和在线语音识别和/或翻译功能。应用处理器204还可以执行触摸屏界面232的软件。应用处理器204也可与应用RAM212和非易失性数据存储器(例如，ROM)216通信。RAM212可以存储，由处理器204执行的，尤其，经由app商店18下载的离线和在线语音翻译的应用软件，包括离线处理的必要的自动语言识别、机器翻译和语音合成模块，以及在线处理的与后端语音翻译服务器系统16通信的软件。

应用处理器204可另外与诸如组合的WI-FI/蓝牙收发器218的其他硬件设备通信。WI-FI/蓝牙收发器218可处理与LAN的射频(RF)通信(例如，根据WI-FI标准、或者任何合适的标准)或者处理设备200与另一无线设备之间的直接RF通信(例如，根据蓝牙标准或者任何合适的标准)。在各种实施方式中，设备200还可包括全球定位系统(GPS)222，其经由GPS天线223与基于卫星的GPS系统通信以为应用处理器204提供描述设备12的地理位置的信息。触摸屏232既可以可视形式提供对设备12的用户的输出，又可接收来自用户的输入。输入可以以表示用户的屏幕触摸的信号的形式。音频编解码器模块224可提供用于解码和播放音频信号的硬件和/或软件。在某些实施方式中，编解码器224还可包括数模转换器。音频输出信号可被提供至设备扬声器16和/或可接收一组耳机的插口(未示出)和/或用于播放音频输出信号的扬声器。可经由设备麦克风18提供音频输入信号。设备还可包括数码相机240。

在特定实施方式中，可包括各种其他传感器。磁传感器226可感测设备附近的磁场。例如，各种app和/或系统功能可使用磁传感器226来实现罗盘(compass)。加速计(accelerometer)228和陀螺仪230可提供描述设备的运动的数据。例如，来自加速计228和陀螺仪230的数据可用于确定触摸屏232的显示器的方位(例如，纵向对比横向)。设备200可由电池234供电，电池234可以进而由电源管理集成电路(PMIC)236来管理。例如，I/O收发器238可根据通用串行总线(USB)或者任何其他合适的标准管理设备与其他设备之间的有线通信。连接器239可便于有线连接。在某些实施方式中，经由连接器239和I/O收发器238的连接可提供用于为电池234充电的电源。

如上所述，在各种实施方式中，用户可以在在线模式和离线模式之间切换，诸如通过激活用户控制器40，如图2A和图2B的实例所示。在线处理优选地提供比在线处理更大量语言模型中的词汇，但是在线处理可以提供提高的用户保密和安全，因为用户输入话语的数据不经由无线网络14和互联网发送。翻译app软件还可以允许客户端计算设备12根据各种实施方式自动在在线和离线模式之间切换。例如，用户可以规定app的设定使得如果无线网络14可用(例如，具有合适的数据速率/连接速度的网络连通性)，则使用在线操作模式；否则使用离线操作模式。因此，对于这样的实施方式，如图5的示例性流程图中所示，如果客户端计算设备14处于无线通信模式(例如，WIFI或手机网络，诸如3G或4G)(步骤50)，则执行存储器中存储的app软件的客户端计算设备12的处理器，可以检查WiFi网络的数据速率/连接转速(步骤52)，并且如果其在临界数据速率/连接速度以上，则使用在线模式(步骤54)；否则使用离线模式(步骤56)。这样，用户具有自动连续翻译能力并且离线模式或在线模式中的任意一种的使用对于用户是显而易见的。客户端计算设备12可以可视地显示在给定时间使用的模式(诸如利用上述云和非云图标)。

在其他实施方式中，执行存储器中存储的app软件的客户端计算设备12的处理器可以基于其他因素在在线操作模式和离线操作模式之间自动切换，诸如：成本(例如，如果适用漫游收费，或者如果没有网络连通性，则使用离线操作模式；否则使用在线模式)；质量(例如，更好的翻译、声音或语言模型，例如，使用特定离线扬声器或者使用在线一般领域独立模型)；位置(例如，基于GPS坐标，如通过GPS系统222确定的)；隐私(例如，只要确保无线网络可用则使用在线模式)；和/或时间(例如，一天中的规定时间期间的规定模式)。在各种实施方式中，客户端计算设备14的用户可以通过其设置配置app以建立在在线操作模式和离线操作模式之间自动转换的可适用的标准。例如，根据各种实施方式，用户可以选择：总是使用离线模式(在这样的情况下从未使用在线模式)；优选最快速的服务(在这样的情况下只要无线网络的连接转速超过阈值则使用在线模式)；最精确的翻译(在这样的情况下每当在线模式可用时则使用在线模式)；限制成本(在这样的情况下，例如，当可适用漫游收费时使用离线模式)。这样的用户偏好会受到隐私(数据传输)、质量(语音翻译模型的大小和性能)、或者成本(数据漫游)因素的影响。

混合式离线/在线翻译系统的另一方面是使得在离线模式的客户端计算设备12上可用的语言对。因为客户端计算设备12的存储容量限制，所以在大多数情况下将所有可用语言对下载至客户端计算设备12是不切实际的。因此，客户端计算设备12的用户优选地仅将用户需要的选择的语言对下载至客户端计算设备12。例如，在各种实施方式中，用户可以通过app商店18选择或购买可用的离线语言对。在各种实施方式中，用户可以购买包括几个语言对的包(诸如地理区域的语言，诸如欧洲、东南亚等，或者相同的语言的不同版本，诸如西班牙语的墨西哥版本和西班牙版本，葡萄牙语的葡萄牙版本和巴西版本等)，在这样的情况下包中的所有语言对的软件app是下载至客户端计算设备18的可用的。例如，图4A示出用户可以选择购买的各个翻译语言对的示例屏幕镜头；并且图4B示出翻译语言对的包的示例屏幕镜头(在这个实例中，世界包)。如果用户希望将语言对从客户端计算设备移动至相同的存储器，则用户能够，在各种实施方式中，在不损失它们的可用性的情况下移动那个语言对和与其相对应的模型。就是说，用户可以日后再次下载模型。

在一个实施方式中，选择下载的语言对在用户的左边，并且用户选择将要安装在离线翻译的客户端计算设备上的语言对。如果用户期望安装选择的语言对，但是没有令人满意的网络连通性，则客户端计算设备存储该语言对并且当网络连通性下一次可用时向用户请求并且公布提醒消息以下载该语言对。提醒消息询问用户是否他/她希望下载所选择的语言对的离线版本并且如果由用户确认，则开始下载。

在另一个实施方式中，客户端计算设备12本身可以管理用户的离线翻译对。例如，客户端计算设备12可以保留有关全世界使用的语言的数据，并且可以自动下载与用户的位置有关的离线语言对。例如，如果GPS系统22示出用户处于西班牙，则可以下载西班牙语的西班牙版本等。另外，离线语言对可以基于，例如，用户的日历数据(例如，旅行)或者指示用户对世界的特定区域有兴趣或者打算去世界的特定区域旅行的网络搜索数据自动下载。

对用户的位置(例如，基于GPS数据)和/或兴趣(例如，基于互联网搜索数据和/或语音翻译查询)的访问还提供其语言行为中的语音翻译系统的用户化。可以优选某些单词、位置名和食物类型。具体地，名字(位置名，个人名)很可能是或多或少相关的并且可能取决于位置(例如，日本的川崎和山本，对照西班牙的马丁尼兹或冈萨雷斯等)。识别和翻译模型的模型参数，最主要的它们的词汇和可能的翻译，可以因此基于用户的位置和兴趣调整。在在线模式下，这些均可以使用建立的自适应算法在使用期间动态地完成。但是在离线系统中，不是所有的单词都应当被存储并且存储器必须被保留以实现移动设备上的效率。因此，在各种实施方式中，当网络连通性可用时，系统可以从后端语音翻译系统16下载用户化的参数模型即使对于离线/嵌入式系统，并且转入和转出词汇条目、语言模型以及修改的概率声音参数。

语音翻译系统的最大存储密集方面通常由机器翻译引擎的翻译表和语言模型、识别引擎的声音和语言模型以及语音合成引擎的语音参数给出。至减少客户端计算设备12上的本地化的离线翻译app的模型的大小，可以使用根据模型类型的不同的技术。具有作为诸如声音模型和语言模型的模型参数的概率的模型可以通过量化概率的值范围使得值范围可以仅利用固定数量的值点从连续空间映射至离散空间来减少。根据量化因数，存储器需求可以减少至仅一个字节或者几位。存诸如翻译表和语言模型的存储单词的短语的模型，可以使用诸如前缀树的存储技术有效实现。此外，可以使用存储器映射技术，该技术仅在要求时将模型的小部分动态地加载到RAM212/214中，而不需要的部分仍然在非易失性存储器216中未触动过。

另外，用于将语言模型和/或翻译模型减少至规定大小使得它们在离线客户端计算设备上运行的更复杂的方法是使用特定修剪/扩展直观推断，该直观推断或者消除词汇和单词N元语法或者通过添加附加信息扩大基本模型。消除可以以机会主义的方式完成使得用户的很可能的单词和表述仍然被表示即使资源限制，例如，通过将词汇限制为仅用户特定的子集并且仅选择由这些词汇覆盖或者由从用户的查询自动收集的用户特定信息覆盖的一般模型的那些部分并且选择与用户的查询紧密相关的一般模型的那些部分。在另一方面的扩展可以通过仅选择特定用户来完成-例如，基于用户说话风格-和/或领域特定-例如，旅游使用或者人道主义使用和/或特定情况-例如，基于GPS位置-和/或通常与服务器上的任何以上特定信息无关，仅将这些(delta德耳塔△)信息从服务器传递至设备并且将这些信息应用至设备上存储的基本模型。

例如，参考图6的流程图，在步骤60后端语音翻译服务器系统16可以分析用户数据以确定，在步骤62，是否用户的离线语言模型和/或翻译表应当被更新，例如除去很少使用的单词或表达，同时保留用户普遍使用的单词和表达或者在服务器上提取普遍使用的翻译和表达并且将它们应用至客户端计算设备上存储的基本模型。如上所述的，后端语音翻译服务器系统16可以分析用户的翻译查询(例如，要翻译的表述)和/或互联网浏览历史，以确定普通(和不普遍)使用的单词和表达。因此，在各种实施方式中，离线模式中的用户的翻译查询可以由客户端计算设备12保存和存储，并且在网状连通时段期间上传至后端语音翻译服务器系统16使得它们可以由后端语音翻译服务器系统16分析。相似地，用户的互联网浏览历史(例如，收藏夹数据)可以在网状连通时段期间上传端语音翻译服务器系统16使得它们可以由后端语音翻译服务器系统16分析以确定用户普遍(和不普遍)使用的单词和表达。如果，通过后端语音翻译服务器系统对于用户数据的分析，后端语音翻译服务器系统16确定客户端计算设备的离线处理软件的语言模型和/或翻译表应当更新，则更新软件(例如，模型)在步骤64被下载至客户端计算设备(例如，从后端语音翻译服务器系统16)。同样可以仅下载更新客户端计算设备上的模型所需要的(德耳塔△)信息，而不是下载全部模型。

相似地，用户特定信息还可以具有减少声音模型的大小的用途，例如，通过由更小的特定用户的一个代替更多的一般声音模型。根据特定用户数据的量，这可以，例如，通过或者使用诸如MLLR的声音模型适配技术或者使用另外的新数据完全地重新训练声音模型来实现。因此，例如，再次参考图6，如果在步骤66后端语音翻译服务器系统16确定用户的客户端计算设备12的离线模式声音模型应当基于用户数据的分析被修改，则更新的软件(例如，声音模型)在步骤68下载至客户端计算设备(例如，从后端语音翻译服务器系统16)。

在语音到语音翻译系统中，最大速度限制元素是语音识别算法，因为它们执行对语音信号的许多声学假定(acoustichypotheses)以及许多次片段的搜索。算法搜索的速度主要受设置的声音模型的大小的影响。当在客户端计算设备12上执行语音到语音翻译时为了保持离线系统的速度，可以使用几种技术。例如，在一个实施方式中，根据模型的大小，查询表可以使用于计算模型和输入语音之间的马哈拉诺比斯距离而不是计算在要求时的距离。另外，高斯选择技术可以用于离线模式以减少需要评估的模型参数的全部量。一旦用户特定信息可用，则如上结合图6所述，可以使用更小的、更高效的特定用户模型来代替。

另外，根据各种实施方式，在线模式期间，后端语音翻译系统16可以使用和结合多个语音识别和翻译引擎(模块)。这些后端引擎可以由相同的语音翻译供应商提供并且在相同的服务器上运行，例如，或者在其他实施方式中，可以由在不同位置处的独立的语音翻译供应商提供，如在图8的实例中示出的，该实例示出三个分开的和独立的后端语音翻译系统16，尽管在其他实施方式中，可以使用更少或更多的后端语音翻译系统16。在这样的实施方式中，每个后端语音翻译系统16均可以被要求通过互联网15同时执行翻译。在这样的实施方式中，后端语音翻译系统16处于通信中(例如，通过互联网15)并且后端语音翻译系统16中的一个或者选择更好的翻译或者选择将它们结合。可以使用ASR中的置信测度(confidencemeasures)和MT的置信测度在多个系统/翻译之间判定和/或判定在结合中任意一个系统的权重程度。这样的置信测度用于确定ASR或者MT假定的可靠性。如果两个或多个ASR或MT引擎在这样的实施方式中被合并，则可以使用系统结合，诸如ASR输出的“ROVER”方法(参见例如，J.G.Fiscus，“Apost-processingsystemtoyieldreducederrorwordrates:Recognizeroutputvotingerrorreduction(ROVER)”)自动语音识别和理解IEEE研讨会，pp.347-354，1997)，一个系统与另一个的交叉适配，或者MT系统结合技术(参见，例如，Rosti等，“CombiningOutputsfromMultipleMachineTranslationSystems”，Proc.ofNAACLHLT，pp.228-235，2007以及K.Heafield等，“CombiningMachineTranslationOutputwithOpenSource”，PragueBulletinofMathematicalLinguistics，No.93，pp.27-36，2010)。在这样的实施方式中，所选择的和结合的假定可以在后端中竞争以产生对于用户的最好的输出。一旦这些已在在线模式中完成，则系统将记以这种方式得到的最好选择以便引入离线系统中。对于离线系统的学习，结合的在线系统16可以将多个ASR引擎的识别假定和/或来自多个MT引擎的翻译假定保留在存储器中并且使用这些假定的结合或者这些假定中的更好的来适配或训练新的离线系统。当无线网络可用时，这样的重新训练的或适配的系统可以随后在离线系统上交换回。

因此，在一个总体方面，本发明针对语音翻译系统和混合式、离线和在线语音翻译的方法。根据各种实施方式，系统可包括后端语音翻译服务器系统和客户端计算设备，该客户端计算设备被配置为经由无线网络与后端语音翻译服务器系统通信。客户端计算设备可包括：麦克风；处理器，连接至麦克风；存储器，连接至处理器，存储由处理器执行的指令；扬声器，连接至处理器。客户端计算设备例如，经由扬声器或文本显示字段输出输入单词短语的翻译以便实现从第一语言到第二语言的翻译(例如，语音话语或输入文本)。存储器存储指令使得，在第一操作模式(离线模式)下，当处理器执行指令时，处理器将输入单词短语翻译成第二语言以便(例如，经由扬声器)输出。在第二操作模式(在线模式)下：(i)客户端计算设备经由无线网络将由麦克风接收到的有关第一语言的输入单词短语的数据发送至后端语音翻译服务器系统；(ii)后端语音翻译服务器系统基于经由无线网络从客户端计算设备接收的数据确定第一语言的输入单词短语的第二语言的翻译；以及(iii)后端语音翻译系统经由无线网络发送有关第一语言的输入单词短语的第二语言的翻译的数据到客户端计算设备，使得客户端计算设备输出第一语言的语音话语的第二语言的翻译。

根据各个实施方式，客户端计算设备具有允许用户在第一操作模式和第二操作模式之间切换的用户界面。可替换地，客户端计算设备基于客户端计算设备的连接或用户的用户偏好设置自动选择使用第一操作模式或第二操作模式。另外，第一操作模式下，客户端计算设备可以将用于识别第一语言的语音话语并且将识别的语音话语翻译成第二语言以便经由扬声器输出的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型存储在存储器中。另外，在第二操作模式下，后端语音翻译服务器系统包括用于基于经由无线网络从客户端计算设备接收的数据确定第一语言的语音话语的第二语言的翻译的后端声音模型、后端语言模型、后端翻译模型和后端语音合成模型。本地模型不同于后端模型(例如，子集或其他变化)。

另外，后端语音翻译服务器系统可以编程为：(i)随时间监测由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语；以及(ii)基于随时间监测的由客户端计算设备接收的用于从第一语言翻译成第二语言的语音话语更新客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个。客户端计算设备还可以包括用于确定客户端计算设备的位置的GPS系统。在这样的实施方式中，后端语音翻译服务器系统还可以被编程为基于客户端计算设备的位置更新客户端计算设备的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型中的至少一个。对客户端计算设备的模型中的至少一个的任何这样的更新可以经由无线网络从后端语音翻译服务器系统发送至客户端计算设备。

另外，客户端计算设备可被配置为下载包括第一语言和第二语言的语言翻译对的应用软件(包括模型)，尤其是当客户端计算设备和后端语音翻译服务器系统之间的合适的连通性经由无线网络可用时。另外，对于客户端计算设备包括GPS系统的实施方式，客户端计算设备可被配置为基于客户端计算设备的确定的位置并且当客户端计算设备和后端语音翻译服务器系统之间的合适的连通性经由无线网络可用时下载语言翻译对的应用软件。

此外，客户端计算设备可包括具有同时显示的第一语言显示部分和第二语言显示部分的图形用户界面。每个第一语言显示部分和第二语言显示部分可包括用户能访问的多个语言的列表，使得当客户端计算设备的用户从第一语言显示部分中的列表选择第一语言并且从第二语言显示部分中的列表选择第二语言时，客户端计算设备从而被配置为将输入语音话语从第一语言翻译成第二语言。第一(离线)操作模式下可用的语言可以在与第一操作模式下不可用的语言不同的第一语言显示部分和第二语言显示部分中指定。

另外，在各种实施方式中，后端语音翻译服务器系统是多个后端语音翻译服务器系统中的一个，并且客户端计算设备被配置为经由无线网络与多个后端语音翻译服务器系统中的每个通信。在第二(在线)操作模式下，多个后端语音翻译服务器系统中的每个基于经由无线网络从客户端计算设备接收的数据确定第一语言的输入单词短语的第二语言的翻译。在这样的情况下，多个后端语音翻译服务器系统中的一个从多个后端语音翻译服务器系统选择翻译中的一个以便发送至客户端计算设备，或者从多个后端语音翻译服务器系统中选择翻译中的两个或多个进行合并以生成合并的翻译以便发送至客户端计算设备。

在一个总体方面，语音翻译方法包括，在第一(离线)操作模式下：(i)由客户端计算设备接收第一语言的第一输入单词短语；(ii)由客户端计算设备将第一输入单词短语翻译成第二语言；并且(iii)由客户端计算设备输出第二语言的第一语音话语(例如，经由扬声器能听见和/或经由文本显示字段可视)。方法进一步包括由客户端计算设备从第一操作模式转换成第二操作模式，然后，在第二(在线)操作模式下：(iv)由客户端计算设备接收第一语言的第二输入单词短语；(v)由客户端计算设备经由无线网络将有关第二输入单词短语的数据发送至后端语音翻译服务器系统；以及(vi)由客户端计算设备经由无线网络从后端语音翻译服务器系统接收有关第二输入单词短语从第一语言至第二语言的由后端语音翻译服务器系统完成的翻译的数据；并且由客户端计算设备输出第二语言的第一语音话语。

对本领域普通技术人员将显而易见的是，在本文中所描述的至少某些实施方式可实施为软件、固件和/或硬件的多种不同实施方式。软件和固件代码可通过处理器电路或者任何其他相似的计算设备来执行。可用于实施实施方式的软件代码或者专门的控制硬件并不受限制。例如，本文中所描述的实施方式可以以使用任何合适的计算机软件语言类型的计算机软件来实施，例如，使用传统的或者针对对象的技术。这种软件例如可存储在任何合适类型的计算机可读介质或者媒介上，诸如，磁或光存储介质。可在不特定参考具体软件代码或者专门的硬件部件的情况下，来描述实施方式的操作和特点。因为可以清晰理解的是，普通领域技术人员将能够在不付出大量努力和过度实验的情况下基于本发明描述来设计软件和控制硬件来实现实施方式，所以可缺少这种具体的参考。

而且，与本实施方式相关联的过程可通过可编程的设备来执行，诸如，计算机或者计算机系统、移动设备、智能电话和/或处理器。可以使得可编程设备执行各种过程的软件可以存储在任何存储设备中，诸如，计算机系统(非易失性)存储器、RAM、ROM、瞬时存储器等。而且，当制造计算机系统或者存储在各种类型的计算机可读介质上时可对至少某些过程进行编程。

“计算机”、“计算机系统”、“主机”、“服务器”或者“处理器”可以是，例如但不限于，处理器、微处理器、微计算机、服务器、大型机、膝上型电脑、个人数据助理(PDA)、无线电子邮件设备、蜂窝电话、智能电话、平板电脑、移动设备、寻呼机、处理器、传真机、扫描仪或者被配置为经由网络发送和/或接收数据的任何其他可编程的设备。本文中所公开的计算机系统和基于计算机的设备可包括用于存储特定软件模块的存储器或者用于获得、处理以及传送信息的引擎。可以理解，这种存储器相对于所公开的实施方式的操作可以是内部的或者外部的。存储器还可包括用于存储软件的任何器件，包括硬盘、光盘、软盘、ROM(只读存储器)、RAM(随机存取存储器)、PROM(可编程的ROM)、EEPROM(电可擦除PROM)和/或其他计算机可读介质。本文中所描述的软件模块和引擎可通过访问存储模块的存储器的计算机设备的处理器(或者多个处理器，视情况而定)来执行。

在本文中所公开的各种实施方式中，单个部件可被多个部件取代，并且多个部件可被单个部件取代，以执行给定的功能或者多个功能。除了这种取代不可操作的情况之外，这种取代落在实施方式的预期范围内。例如，本文中所描述的任何服务器可被定位成并且配置为用于协作功能的“服务器农场(serverfarm)”或者其他网络服务器群(诸如，刀片式服务器)取代。可以认识到，服务器农场可用于分配农场的各个部件之间/之中的工作量并且通过利用多个服务器的集中的和协作的利用可加快计算过程。这种服务器农场例如可采用完成诸如下列任务的负载平衡软件：用于处理来自不同机器的功率的跟踪需求、基于网络需求优先化和调度任务和/或在部件发生故障或操作性降低的情况下提供备份应急功能。

尽管本文中已经描述了各种实施方式，但显而易见的是，对于本领域技术人员来说，在实现至少某些优点的情况下，可出现对这些实施方式的各种修改、变更以及适配。因此，所公开的实施方式旨在包括在不背离本文中所阐述的实施方式的范围的情况下的所有这些修改、变更以及适配。

Claims

1.一种语音翻译系统，包括：

后端语音翻译服务器系统；以及

客户端计算设备，被配置为经由无线网络与所述后端语音翻译服务器系统通信，其中，所述客户端计算设备包括：

麦克风；

处理器，连接至所述麦克风；

存储器，连接至所述处理器，存储由所述处理器执行的指令；以及

扬声器，连接至所述处理器，其中：

所述客户端计算设备用于经由所述扬声器输出输入单词短语从第一语言至第二语言的翻译；并且

所述存储器存储指令使得：

在第一操作模式下，当所述处理器执行所述指令时，所述处理器将所述输入单词短语翻译成所述第二语言以便输出至用户；并且

在第二操作模式下：

所述客户端计算设备经由所述无线网络将有关由所述客户端计算设备接收的所述第一语言的所述输入单词短语的数据发送至所述后端语音翻译服务器系统；

所述后端语音翻译服务器系统基于经由所述无线网络从所述客户端计算设备接收的数据确定所述第一语言的所述输入单词短语的所述第二语言的翻译；并且

所述后端语音翻译系统经由所述无线网络发送有关所述第一语言的所述输入单词短语的所述第二语言的翻译的数据到所述客户端计算设备，使得所述客户端计算设备输出所述第一语言的所述输入单词短语的所述第二语言的翻译；

其中，所述客户端计算设备具有允许用户在所述第一操作模式和所述第二操作模式之间切换的用户界面和/或

其中，所述客户端计算设备基于所述无线网络的连接状态或者基于所述客户端计算设备的所述用户的用户偏好设置自动选择使用所述第一操作模式或所述第二操作模式。

2.根据权利要求1所述的语音翻译系统，其中，所述输入单词短语通过以下中的一个输入至所述客户端计算：

由所述客户端计算设备的所述麦克风获取的输入语音话语；或者在所述客户端计算设备的用户界面上经由文本输入字段输入的文本。

3.根据权利要求1或2所述的语音翻译系统，其中，所述客户端计算设备经由所述扬声器能听见地输出翻译。

4.根据权利要求1至3中任一项所述的语音翻译系统，其中：

在所述第一操作模式下，所述客户端计算设备将用于识别所述第一语言的所述语音话语并且将所识别的语音话语翻译成所述第二语言以便经由所述客户端计算设备的所述扬声器输出的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型存储在存储器中；

在所述第二操作模式下，所述后端语音翻译服务器系统包括用于基于经由所述无线网络从所述客户端计算设备接收的数据确定所述第一语言的所述语音话语的所述第二语言的翻译的后端声音模型、后端语言模型、后端翻译模型和后端语音合成模型；

所述本地声音模型不同于所述后端声音模型；

所述本地语言模型不同于所述后端语言模型；

所述本地翻译模型不同于所述后端翻译模型；并且

所述本地语音合成模型不同于所述后端语音合成模型。

5.根据权利要求1至4中任一项所述的语音翻译系统，其中，所述后端语音翻译服务器系统被编程为：

随时间监测由所述客户端计算设备接收的用于从所述第一语言翻译成所述第二语言的语音话语；并且

基于随时间监测的由所述客户端计算设备接收的用于从所述第一语言翻译成所述第二语言的语音话语，更新所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个，其中，对所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个的更新经由所述无线网络从所述后端语音翻译服务器系统发送至所述客户端计算设备。

6.根据权利要求1至5中任一项所述的语音翻译系统，其中，所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型基于所述用户的翻译查询的分析更新。

7.根据权利要求1至6中任一项所述的语音翻译系统，其中：

所述客户端计算设备包括用于确定所述客户端计算设备的位置的GPS系统；并且

所述后端语音翻译服务器系统被编程为基于所述客户端计算设备的所述位置更新所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个，其中对所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个的更新经由所述无线网络从所述后端语音翻译服务器系统发送至所述客户端计算设备。

8.根据权利要求1至7中任一项所述的语音翻译系统，其中：

所述后端语音翻译服务器系统是多个后端语音翻译服务器系统中的一个，并且所述客户端计算设备被配置为经由无线网络与所述多个后端语音翻译服务器系统中的每个通信；并且

在所述第二操作模式下：

所述多个后端语音翻译服务器系统中的每个用于基于经由所述无线网络从所述客户端计算设备接收的数据确定所述第一语言的所述语音话语的所述第二语言的翻译；并且

所述多个后端语音翻译服务器系统中的一个从所述多个后端语音翻译服务器系统中选择翻译中的一个以便发送至所述客户端计算设备，或者

将来自所述多个后端语音翻译服务器系统的翻译中的两个或多个合并以生成合并的翻译以便发送至所述客户端计算设备。

9.一种语音翻译方法，包括：

在第一操作模式下：

由客户端计算设备接收第一语言的第一输入单词短语；

由所述客户端计算设备将所述第一输入单词短语翻译成第二语言；并且

由所述客户端计算设备输出所述第二语言的所述第一输入单词短语；

由所述客户端计算设备从所述第一操作模式转换成第二操作模式；

在所述第二操作模式下：

由客户端计算设备接收第一语言的第二输入单词短语；

由所述客户端计算设备经由无线网络将有关所述第二输入单词短语的数据发送至后端语音翻译服务器系统；

由所述客户端计算设备经由所述无线网络从所述后端语音翻译服务器系统接收有关所述第二输入单词短语从所述第一语言至所述第二语言的由所述后端语音翻译服务器系统完成的翻译的数据；并且

由所述客户端计算设备输出所述第二语言的所述第二输入单词短语。

10.权利要求9所述的语音翻译方法，其中：

在所述第一操作模式下，所述客户端计算设备将用于识别所述第一语言的输入语音话语并且将所识别的输入语音话语翻译成所述第二语言以便经由扬声器输出的本地声音模型、本地语言模型、本地翻译模型和本地语音合成模型存储在存储器中；

在所述第二操作模式下，所述后端语音翻译服务器系统包括用于基于经由所述无线网络从所述客户端计算设备接收的数据确定所述第一语言的所述输入语音话语的所述第二语言的翻译的后端声音模型、后端语言模型、后端翻译模型和后端语音合成模型；

所述方法进一步包括以下步骤

所述后端语音翻译服务器系统随时间监测由所述客户端计算设备接收的用于从所述第一语言翻译成所述第二语言的语音话语；并且

由所述后端语音翻译服务器系统基于随时间监测的由所述客户端计算设备接收的用于从所述第一语言翻译成所述第二语言的语音话语更新所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个，其中，对所述客户端计算设备的所述本地声音模型、所述本地语言模型、所述本地翻译模型和所述本地语音合成模型中的至少一个的更新经由所述无线网络从所述后端语音翻译服务器系统发送至所述客户端计算设备。

11.根据权利要求1至10中任一项所述的语音翻译方法，进一步包括，由所述客户端计算设备下载包括所述第一语言和所述第二语言的语言翻译对的应用软件，具体地，

其中，下载所述语言翻译对的所述应用软件包括当所述客户端计算设备和所述后端语音翻译服务器系统之间的合适的连通性经由所述无线网络可用时下载所述语言翻译对的所述应用软件。

12.根据权利要求11所述的语音翻译方法，进一步包括：

由所述客户端计算设备确定所述客户端计算设备的位置；并且由所述客户端计算设备基于所述客户端计算设备的确定的位置并且当所述客户端计算设备和所述后端语音翻译服务器系统之间的合适的连通经由所述无线网络可用时下载所述语言翻译对的所述应用软件。

13.根据权利要求9至12中任一项所述的语音翻译方法，其中：

所述客户端计算设备包括具有同时显示的第一语言显示部分和第二语言显示部分的图形用户界面；并且

所述第一语言显示部分和所述第二语言显示部分中的每个包括用户能访问的多个语言的列表，并且

所述方法进一步包括由所述客户端计算设备经由所述图形用户界面接收来自所述第一语言显示部分中的列表的所述第一语言和来自所述第二语言显示部分中的列表的所述第二语言的选择的步骤，从而使得所述客户端计算设备被配置为将所述输入语音话语从所述第一语言翻译成所述第二语言。

14.权利要求13所述的语音翻译方法，其中，所述第一操作模式下可用的语言在所述图形用户界面的所述第一语言显示部分和所述第二语言显示部分中与在所述第一操作模式下不可用的语言不同地可视地指定。

15.根据权利要求9至14中任一项所述的语音翻译方法，其中，由所述客户端计算设备从所述第一操作模式至所述第二操作模式的转换响应于经由所述客户端计算设备的用户界面的输入从所述第一模式转换成所述第二模式。