CN105989840A

CN105989840A - 自然语言语音服务环境中的混合处理的系统及方法

Info

Publication number: CN105989840A
Application number: CN201610183358.1A
Authority: CN
Inventors: 罗伯特·A·肯纳威克; 林恩·伊莉斯·阿姆斯壮
Original assignee: VoiceBox Technologies Corp
Current assignee: VoiceBox Technologies Corp
Priority date: 2009-11-10
Filing date: 2010-09-16
Publication date: 2016-10-05
Also published as: CN102792294B; US20110112827A1; KR20170091797A; KR20170126023A; US9171541B2; EP2499582A4; WO2011059562A1; US20160049152A1; KR101912058B1; EP2499582A1; KR101798828B1; JP5663031B2; EP3809406A1; JP2013510341A; KR20120120163A; CN102792294A

Abstract

本发明可以提供一种自然语言语音服务环境中的混合处理的系统及方法，该自然语言语音服务环境包括多个多模式设备。具体地，混合处理通常可以包括多个多模式设备合作地解释和处理包括在一个或多个多模式请求中的一个或多个自然语言发声。例如，虚拟路由器可以接收包括自然语言发声所对应的编码的音频的各种消息，该自然语言发声包含在提供给设备中的一个或多个设备的多模式交互中。然后虚拟路由器可以分析编码的音频以选择自然语言发声的最干净的样本，并与环境中的一个或多个其它设备通信以确定多模式交互的目的。接着虚拟路由器可以根据多模式交互的目的协调解析多模式交互。

Description

自然语言语音服务环境中的混合处理的系统及方法

本申请是申请日为2010年9月16日、申请号为201080061105.8、发明名称为“自然语言语音服务环境中的混合处理的系统及方法”的中国专利申请的分案申请。

技术领域

本发明涉及包括多个多模式设备的自然语言语音服务环境中的混合处理，其中，自然语言语音服务环境中的混合处理可以包括多个多模式设备合作地解释和处理包括在一个或多个多模式请求中的一个或多个自然语言发声。

背景技术

近年来，随着技术的进步，在许多人的日常生活中，消费性电子设备已变得几乎无处不在。为了满足手机、导航设备、嵌入式设备及其它这样的设备的功能性和移动性的发展而引起的日益增长的需求，许多设备除了核心应用之外，还提供丰富的特性和功能。然而，更强大的功能性也带来了折中，包括通常抑制用户充分利用其电子设备的所有性能的学习曲线(learning curve)。例如，许多现有的电子设备包括可能不是特别方便用户使用的复杂的人机界面，这会妨碍许多技术的大规模市场采用。此外，繁琐的界面还经常会导致难以发现或使用所需的特性(例如，因为菜单复杂或导航起来很冗长繁琐)。因此，许多用户往往不使用或甚至不知道其设备的许多潜在性能。

因此，电子设备的增加的功能性经常倾向于被浪费，正如市场调查表明，许多用户只使用给定设备上的可用特性或应用的仅一小部分。此外，在无线联网和宽带接入越来越普遍的社会中，消费者自然倾向于要求其电子设备具有无缝移动性能。因此，随着消费者对更简单的与电子设备交互的机制的需求加强，妨碍快速和集约化交互的繁琐界面成为重点关注的问题。然而，对使用以直观方式的技术的机制的日益增长的需求仍未得到充分满足。

一种趋于简化电子设备中的人机交互的方法已包括使用语音识别软件，该语音识别软件具有使用户利用不熟悉的、未知的或难以使用的特性的潜力。例如，最近由Navteq公司进行的提供各种应用(例如汽车导航和基于网络的应用)中所使用的数据的一项调查表明，语音识别通常在电子设备的消费者所最期望的特性中占首位。即便如此，现有的语音用户界面在实际工作时，仍要求用户大量学习。

例如，许多现有的语音用户界面只支持根据特定的命令与控制序列或语法所制定的请求。此外，许多现有的语音用户界面因为不准确的语音识别而导致用户受挫或不满。类似地，通过迫使用户提供预先建立的命令或关键字来以系统能理解的方式传递请求，现有的语音用户界面未有效地使用户参与富有成效的、合作的对话中来解析请求并促进会话朝着令人满意的目标进行(例如，当用户可能对特定需要、可用信息、设备性能等不确定时)。因此，现有的语音用户界面往往遭受各种各样的缺点，包括对使用户以合作和会话的方式参与对话有很大的局限性。

另外，许多现有的语音用户界面达不到利用分布在不同领域、设备和应用程序中的信息以解析基于自然语言语音的输入。因此，现有的语音用户界面遭受到局限于一组有限的应用程序(所述语音用户界面针对所述应用程序设计)或局限于存在有所述语音用户界面的设备。尽管技术进步已使用户经常使用几个设备来满足其各种需要，但现有的语音用户界面未使用户充分摆脱设备限制。例如，用户可能对与不同应用程序和设备相关的服务感兴趣，但现有的语音用户界面往往限制用户访问其认为合适的应用程序和设备。此外，在任一给定时间，用户通常只能实际携带有限数量的设备，而在各种情况下，可能会需要用户设备所关联的、与当前正使用的内容或服务不同的内容或服务。

因此，虽然用户往往具有不同需要，其中在各种背景或环境中可能需要与不同设备相关的内容或服务，但现有的语音技术往往不足以提供这样的综合环境：用户可请求几乎与任何设备或网络相关的内容或服务。因此，现有的语音服务环境中对信息可用性和设备交互机制的限制往往妨碍用户以直观的、自然的且有效的方式体验技术。例如，当用户希望使用给定电子设备执行给定功能、但不一定知道如何去执行该功能时，用户通常不能参与与设备的合作的、多模式的交互以仅发出自然语言的词来请求该功能。

此外，使用不具有语音识别性能的电子设备执行相对简单的功能通常是很繁琐的。例如，购买新的手机铃音往往是相对简单的过程，但用户通常必须导航几个菜单和按许多不同的按钮来完成该过程。因此，很显然，如果用户能够使用自然语言来利用隐藏的或难以使用的功能，则与电子设备的交互可以有效得多。现有的系统具有这些问题和其它问题。

发明内容

根据本发明的一个方面，一种自然语言语音服务环境中的混合处理的系统及方法可以解决现有系统的前述问题中的一个或多个问题。特别地，自然语言语音服务环境中的混合处理通常可以包括多个多模式设备合作地解释和处理包括在一个或多个多模式请求中的一个或多个自然语言发声，如本申请中更详细地描述。

根据本发明的一个方面，自然语言语音服务环境中的混合处理通常可以包括多个多模式设备合作地解释和处理包括在一个或多个多模式请求中的一个或多个自然语言发声。例如，虚拟路由器可以接收包括自然语言发声所对应的编码的音频的各种消息，自然语言发声包含在提供给所述设备中的一个或多个设备的多模式交互中。然后虚拟路由器可以分析编码的音频以选择自然语言发声的最干净的样本，并与环境中的一个或多个其它设备通信以确定多模式交互的目的。然后虚拟路由器可以根据多模式交互的目的协调解析多模式交互。

根据本发明的一个方面，一种自然语言语音服务环境中的混合处理的方法可以包括电子设备检测至少一个多模式交互，其中，所述多模式交互至少包括自然语言发声。然后可以将包含与所述多模式交互相关的信息的一个或多个消息传递给与所述电子设备通信的虚拟路由器，其中，所述电子设备通过消息传送接口将所述一个或多个消息传递给所述虚拟路由器。该方法还可以包括所述电子设备通过消息传送接口接收包含与所述多模式交互的目的相关的信息的一个或多个消息。因此，所述电子设备可以根据包含在从所述虚拟路由器所接收的一个或多个消息中的信息解析所述多模式交互。

根据本发明的一个方面，一种自然语言语音服务环境中的混合处理的方法可以包括与虚拟路由器通信的一个或多个电子设备。具体地，所述电子设备可以配置为检测至少一个至少包括自然语言发声的多模式交互，并通过消息传送接口将包含与所述多模式交互相关的信息的一个或多个消息传递给虚拟路由器。然后所述电子设备可以通过所述消息传送接口从所述虚拟路由器接收包含与所述多模式交互的目的相关的信息的一个或多个消息，且所述电子设备根据包含在从所述虚拟路由器所接收的一个或多个消息中的信息解析所述多模式交互。

根据以下附图和详细的描述，本发明的其它目的和优势将变得明显。

附图说明

图1示出根据本发明的一个方面的可用于自然语言语音服务环境中的混合处理的示例性语音支持设备的框图；

图2示出根据本发明的一个方面的自然语言语音服务环境中的混合处理的示例性系统的框图；

图3示出根据本发明的一个方面的初始化合作执行自然语言语音服务环境中的混合处理的各种设备的示例性方法的流程图；

图4到图5示出根据本发明的一个方面的自然语言语音服务环境中的混合处理的示例性方法的流程图。

具体实施方式

根据本发明的一个方面，图1示出可用于自然语言语音服务环境中的混合处理的示例性语音支持(voice-enabled)设备100的框图。从本申请所要提供的进一步描述中将了解到，图1所示的语音支持设备100通常可包括输入设备112或输入设备112的组合，输入设备112可以使用户以多模式方式与语音支持设备100交互。具体地，输入设备112通常可包括至少一个语音输入设备112(例如，麦克风)和至少一个非语音输入设备112(例如，鼠标、触摸屏显示器、滚轮选择器(wheel selector)等)的任一适当组合。因此，输入设备112可以包括具有接收基于语音的输入和基于非语音的输入的机构的电子设备的任一适当组合(例如，连接到车载通信设备、个人导航设备、手机、VoIP(互联网语音传输协议)节点、个人电脑、媒体设备、嵌入式设备、服务器或其它电子设备中的一个或多个设备的麦克风)。

在一个实现中，语音支持设备100可以使用户参与各种多模式会话性交互，该语音支持设备100可以以形式自由且合作的方式处理所述多模式会话交互，以执行各种任务、解析各种查询或者解析多模式交互中所包括的各种自然语言请求。例如，在一个实现中，语音支持设备100可以包括各种自然语言处理部件，所述自然语言处理部件至少包括连接到一个或多个输入设备112的语音点击模块，如在2009年2月20日提交的、名称为“System and Method for ProcessingMulti-Modal Device Interactions in a Natural Language Voice ServicesEnvironment”、序号为12/389,678的共同代决的美国专利申请中的更详细描述，该美国专利申请的全部内容通过引用结合在本申请中。因此，在本申请中将进行更详细地描述，一个或多个输入设备112和语音点击模块可以共同配置为处理用户和语音支持设备100之间的各种多模式交互。

例如，在一个实现中，多模式交互可以包括至少一个自然语言发声，其中，可将自然语言发声转换为电子信号。然后可将该电子信号提供给自动语音识别器(ASR)120，ASR 120也可以被称为语音识别引擎120和/或多通道语音识别引擎120。响应于接收该发声所对应的电子信号，ASR 120可以产生该发声的一个或多个初步解释，并将该初步解释提供给会话语言处理器130。此外，在一个实现中，多模式交互可以包括与一个或多个输入设备112的一个或多个非语音交互(例如，按钮推动、多点触控手势、焦点或关注的焦点选择等)。因此，语音点击模块可以从非语音交互中提取上下文，并将上下文提供给会话语言处理器130(即通过图1中所示的虚线)以在产生发声的解释中使用。因此，如以下更详细描述的，会话语言处理器130可以分析发声和任何伴随的非语音交互，以确定与语音支持设备100的多模式交互的目的。

在一个实现中，如上所述，语音支持设备100可以包括各种可支持形式自由的发声和/或其它形式的非语音设备交互的自然语言处理部件，这可将用户从与制定命令、查询或其它请求的方式有关的限制中解放出来。因此，用户可使用任一说话方式来将发声提供给语音输入设备112，且还可将其它非语音交互提供给非语音输入设备112，以通过语音支持设备100请求可用的任何内容或服务。例如，在一个实现中，响应于语音输入设备112接收到发声，可使用在2008年7月8日被授权为第7,398,209号美国专利的、名称为“Systems and Methods forResponding to Natural Language Speech Utterance”的序号为10/452,147的美国专利申请和在2003年6月15日提交的、名称为“Mobile Systems and Methods forResponding to Natural Language Speech Utterance”的序号为10/618,633的共同代决的美国专利申请中所描述的技术来处理该发声，上述美国专利申请的全部内容通过引用结合在本申请中。此外，用户可以与非语音输入设备112中的一个或多个进行交互，以提供按钮推动、多点触控手势、焦点或关注的焦点选择或其它非语音设备交互，这可以提供与自然语言发声和/或所请求的内容或服务相关的进一步上下文信息或其它信息。

在一个实现中，语音支持设备100可以连接到一个或多个附加系统，该一个或多个附加系统可以配置为与语音支持设备100合作以解释或处理包括自然语言发声和/或非语音设备交互的组合的多模式交互。例如，如下文结合图2的更详细的描述，所述一个或多个附加系统可以包括一个或多个具有与语音支持设备100相似的自然语言处理性能的多模式语音支持设备、一个或多个具有数据检索和/或任务执行性能的非语音设备以及协调语音支持设备100和所述附加系统之间的交互的虚拟路由器。因此，语音支持设备100可以包括到包括多个多模式设备的综合自然语言语音服务环境的接口，其中，用户可以通过任一多模式设备来请求可用内容或服务。

例如，在一个实现中，会话语言处理器130可以包括星座模型132b，星座模型132b提供与语音服务环境中可用的内容、服务、应用程序、目的确定性能和其它特性相关的知识，如在2008年5月27日提交的、名称为“System andMethod for an Integrated，Multi-Modal，Multi-Device Natural Language VoiceServices Environment”、序号为12/127,343的共同代决的美国专利申请中所述的，该美国专利申请的全部内容通过引用结合在本申请中。因此，语音支持设备100可以利用各种系统和多模式设备所共享的与自然语言处理性能、上下文、在前交互、领域知识、短期知识、长期知识和认知模型相关的知识，为解析语音支持设备100所接收的多模式交互提供合作环境。

在一个实现中，输入设备112及其连接的语音点击模块可以配置为持续监控语音支持设备100所接收的一个或多个多模式交互。特别地，输入设备112和语音点击模块可以持续监控一个或多个自然语言发声和/或一个或多个可区别的非语音设备交互，所述一个或多个自然语言发声和/或一个或多个可区别的非语音设备交互可以共同提供用以检索内容、执行任务、调用服务或命令、或处理任何其它合适请求的相关上下文。因此，响应于检测到一个或多个多模式交互，输入设备112和/或语音点击模块可以发信号来向该语音支持设备100通知已接收到发声和/或非语音交互。例如，在一个实现中，非语音交互可以提供用以增强识别、解释和理解所伴随的发声的上下文，此外，该发声可以提供用以提高所伴随的非语音交互的解释的进一步的上下文。因此，发声和非语音交互可以共同提供相关上下文，各种自然语言处理部件可以使用该相关上下文来确定包括发声和非语音交互的多模式交互的目的。

在一个实现中，如上所述，可以在ASR 120上发起处理包括在多模式交互中的发声，其中，ASR 120可以产生该发声的一个或多个初步解释。在一个实现中，为了产生该发声的初步解释，ASR 120可以配置为利用一种或多种动态识别语法和/或声学模型识别来自该发声的一个或多个音节、词、语段或其它声学特性。例如，在一个实现中，ASR 120可以根据语音听写技术来使用动态识别语法和/或声学模型识别来自发声的一连串音位，如在2009年12月15日被授权为第7,634,409号美国专利的、名称为“Dynamic Speech Sharpening”、序号为11/513,269的美国专利申请所述的，该美国专利申请的全部内容通过引用结合在本申请中。此外，动态识别语法和/或声学模型可以包括不重读的中元音(例如，“弱读元音”)，所述不重读的中元音可以减小用于识别发声的一连串音位的搜索空间。

此外，在一个实现中，ASR 120可以配置为多通道语音识别引擎120，如在2009年12月29日被授权为第7,640,160号美国专利的、名称为“Systems andMethods for Responding to Natural Language Speech Utterance”、序号为11/197,504的美国专利申请所述的，该美国专利申请的全部内容通过引用结合在本申请中。多通道语音识别引擎120可以配置为首先调用初级语音识别引擎以产生发声的第一转译，且还可选地随后调用一个或多个次级语音识别引擎以产生发声的一个或多个第二转译。在一个实现中，可利用一大列表的听写语法产生第一转译，而可利用虚拟听写语法或其它动态识别语法产生第二转译，该虚拟听写语法具有词汇表外的字、源自会话历史的减少的词汇表的诱导词。例如，在一个实现中，如果第一转译的可信度不能达到或超过一阈值，则可以调用次级语音识别引擎以增强初级语音识别引擎的解释。然而，显然，多通道语音识别引擎120可利用技术的任一适当组合来解释该发声，该任一适当组合形成用于该发声的源自多个转译通道的初步解释(例如，可以不管第一转译的可信度如何，都调用次级语音识别引擎，或者初级语音识别引擎和/或次级语音识别引擎可以使用相同的或针对特定的解释上下文优化的识别语法，等等)。

因此，在一个实现中，可以针对不同的语言、上下文、领域、内存限制和/或其它合适的标准，优化ASR 120中所使用的动态识别语法。例如，在一个实现中，语音支持设备100可以包括一个或多个为特定上下文或领域提供内容或服务的应用程序134，例如导航应用程序134。因此，响应于ASR 120将导航确定为发声的最可能的上下文，可以针对各种物理的、时间的、方向的或其它地理的特性，优化动态识别语法(例如，如在2007年12月11日提交的、名称为“System and Method for Providing a Natural Language Voice User Interface in anIntegrated Voice Navigation Services Environment”、序号为11/954,064的共同代决的美国专利申请所述，该美国专利申请的全部内容通过引用结合在本申请中)。在另一示例中，包含词“交通(traffic)”的发声可能有不同的解释，这取决于用户是否意指导航上下文(即路面交通)、音乐上下文(即二十世纪六十年代的摇滚乐队)或电影上下文(即Steven Soderbergh的电影)。因此，在ASR 120中所使用的识别语法可以动态地适用于优化任何给定发声的准确识别(例如，响应于错误地解释包含特定词或语句的发声，可将错误解释从识别语法中去除，以防止重复发生该错误解释)。

在一个实现中，响应于ASR 120使用一种或多种上述技术产生包括在多模式交互中的发声的初步解释，ASR 120可以将初步解释提供给会话语言处理器130。会话语言处理器130通常可包括各种自然语言处理部件，所述各种自然语言处理部件可以配置为对人与人的会话或交互建模。因此，会话语言处理器130可调用自然语言处理部件中的一个或多个来进一步分析发声的初步解释和任何伴随的非语音交互，以确定语音支持设备100所接收的多模式交互的目的。

在一个实现中，会话语言处理器120可以调用目的确定引擎130a，该目的确定引擎配置为确定语音支持设备100所接收的多模式交互的目的。在一个实现中，目的确定引擎130a可调用为确定目的而提供长期和短期语义知识的知识增强的语音识别引擎，如在2005年8月29日提交的、名称为“Mobile Systemsand Methods of Supporting Natural Language Human-Machine Interactions”、序号为11/212,693的共同代决的美国专利申请所述，其全部内容通过引用结合在本申请中。例如，在一个实现中，语义知识可以基于：源自一个或多个与用户的在前交互的个性化认知模型，源自一个或多个与各种不同用户的在前交互的一般认知模型，和/或源自与用户、语音支持设备100相关的环境和/或语音服务环境(例如，环境噪声特性、位置敏感信息等)的环境认知模型。

此外，目的确定引擎132a可调用上下文跟踪引擎132d，以确定多模式交互的上下文。例如，可将源自多模式交互中的自然语言发声和/或非语音交互的任何上下文推送到与上下文跟踪引擎132d相关的上下文堆栈，其中，该上下文堆栈可以包括各种条目，可根据一个或多个从认知模型所确定的上下文和当前多模式交互的上下文加权或排列所述各种条目。因此，上下文跟踪引擎132d可以确定上下文堆栈中的一个或多个与当前多模式交互所相关的信息匹配的条目，以确定当前多模式交互的最可能的上下文。然后上下文跟踪引擎132d可将该最可能的上下文提供给目的确定引擎132a，该目的确定引擎可以基于最可能的上下文确定多模式交互的目的。

此外，根据最可能的上下文，目的确定引擎132a可以参考星座模型132b，以确定是否调用语音服务环境中的各种系统或多模式设备中的任何一种。例如，如上所述，星座模型132b可以提供通过所述各种系统和多模式设备可用的目的确定性能、领域知识、语义知识、认知模型和其它信息。因此，目的确定引擎132a可以参考星座模型132b，以确定其它系统和/或多模式设备中的一个或多个是否应当参与确定多模式交互的目的。例如，响应于星座模型132b指示其它系统和/或多模式设备中的一个或多个具有针对最可能的上下文的优化的自然语言处理性能，目的确定引擎132a可将与多模式交互相关的信息转发给这样的系统和/或多模式设备，这样的系统和/或多模式设备然后可确定多模式交互的目的并将目的确定返回到语音支持设备100。

在一个实现中，会话语言处理器130可配置为使用户参与一个或多个合作性会话中以解析目的或处理多模式交互，如在2006年10月16日提交的、名称为“System and Method for a Cooperative Conversational Voice User Interface”、序号为11/580,926的共同代决的美国专利申请所述，该美国专利申请的全部内容通过引用结合在本申请中。特别地，会话语言处理器130通常可确定多模式交互的会话目标，其中，该会话目标可以从分析发声、非语音交互、最可能的上下文和/或确定的目的而确定。因此，针对多模式交互所确定的的会话目标通常可控制会话语言处理器130和用户之间的合作性会话。例如，会话语言处理器130通常可使用户参与一个或多个查询会话、教导会话和/或探索性会话中以解析或处理多模式交互。

具体地，响应于确定出会话目标涉及检索离散信息或执行特定功能，则会话语言处理器130可以使用户参与查询回话。因此，在合作性查询会话中，用户可以将会话导向实现特定会话目标，而会话语言处理器130可以发起一个或多个查询、任务、命令或其它请求以实现该目标，从而支持会话中的用户。响应于多模式交互的目的的歧义性或不确定性，会话语言处理器130可以使用户参与教导会话以解决歧义性或不确定性(例如，噪声或用词错误干扰解释发声，无法对多个可能的上下文消除歧义，等等)。因此，在合作性教导会话中，会话语言处理器130可以将会话导向弄清多模式交互的目的(例如，产生通过输出设备114所提供的反馈)，而用户可以调节会话并提供附加的多模式交互以弄清目的。响应于确定具有适当可信度的多模式交互的目的，其中该目的指示歧义的或不确定的目标，则会话语言处理器130可使用户参与探索性会话以解析该目标。在合作性的探索性会话中，会话语言处理器130和用户可以共享领导者和支持者的角色，其中，在会话过程中可以改进或完善歧义的或不确定的目标。

因此，会话语言处理器130通常可参与到一个或多个合作性会话中以为语音支持设备100所接收的多模式交互确定目的和解析特定目标。然后，会话语言处理器130可以发起一个或多个促成针对多模式交互所确定的目的和目标的查询、任务、命令或其它请求。例如，在一个实现中，会话语言处理器130可以调用：一个或多个代理132c，所述一个或多个代理具有处理特定领域或应用程序134中的请求的性能；语音搜索引擎132f，所述语音搜索引擎具有检索多模式交互中请求的信息的性能(例如，从一个或多个数据存储库136、网络或连接到语音支持设备100的其它信息源)；或者一个或多个其他系统或多模式设备，所述其他系统或多模式设备具有用于促进多模式交互的目的和目标(例如，如从星座模型132b所确定的)的合适的处理性能。

此外，在一个实现中，会话语言处理器130可以调用涉及发起以处理多模式交互的查询、任务、命令或其它请求的广告应用程序134，其中，广告应用程序134可以配置为选择一个或多个可能与多模式交互的目的和/或目标相关的广告，如在2007年2月6日提交的、名称为“System and Method for Selecting andPresenting Advertisements Based on Natural Language Processing of Voice-BasedInput”、序号为11/671,526的共同代决的美国专利申请所述，该美国专利申请的全部内容通过引用结合在本申请中。

在一个实现中，响应于接收来自针对多模式交互所处理的查询、任务、命令或其它请求的任一合适组合的结果，会话语言处理器130可将该结果格式化以通过输出设备114显示给用户。例如，该结果可被格式化为自然语言发声，该自然语言发声可转换成电信号并通过连接至输出设备114的扬声器提供给用户，或者该结果可以被可视地呈现在连接至输出设备114的显示器上，或者该结果可以采用任何其它合适的方式(例如，该结果可以指示是否成功地执行了特定任务或命令，或者该结果可以包括响应于一个或多个查询而检索到的信息，或者如果该结果是歧义的或不完整的，则其可包括制定随后的多模式交互的请求，等等)。

此外，在一个实现中，会话语言处理器130可以包括错误识别引擎132e，该错误识别引擎配置为确定会话语言处理器130是否错误地确定了多模式交互的目的。在一个实现中，响应于在时间上接近于在前的多模式交互提供的一个或多个随后的多模式交互，错误识别引擎132e可以确定会话语言处理器130错误地确定了目的，如在2009年11月17日被授权为第7,620,549号美国专利的、名称为“System and Method of Supporting Adaptive Misrecognition inConversational Speech”、序号为11/200,164的美国专利申请所述的，该美国专利的全部内容通过引用结合在本申请中。例如，错误识别引擎132e可以监控包括停用词的一个或多个随后的多模式交互、推翻当前请求、或者指示未识别或误识别的事件。然后错误识别引擎132e可以为与ASR 120和/或会话语言处理器130相关的各种部件确定一个或多个调整参数，以改进随后的解释。

因此，如上文更详细的描述，语音支持设备100通常可以包括可用于自然语言语音服务环境中的混合处理的各种自然语言处理部件和性能。具体地，语音支持设备100可以配置为确定包括自然语言发声和/或非语音交互的任一适当组合的各种多模式交互的目的，并根据所确定的目的处理一个或多个查询、任务、命令或其它请求。此外，如上所述和如下更详细的描述，一个或多个其它系统和/或多模式设备可以参与为多模式交互确定目的和处理查询、任务、命令或其它请求，以提供混合处理方法，其中，语音支持设备100与各种其它系统和多模式设备可以各执行部分处理以确定目的，以及以合作的方式处理多模式交互。例如，在一个实现中，合作处理的多模式交互可以包括致力于内容(例如，到特定的人物或实体)的请求，其中，可以使用在2009年11月10日提交的、名称为“System and Method for Providing a Natural Language ContentDedication Service”、序号为61/259,820的美国临时专利申请中所描述的技术处理多模式交互，该美国临时专利申请的全部内容通过引用结合在本申请中。

根据本发明的一个方面，图2示出自然语言语音服务环境中的混合处理的示例性系统的框图。具体地，图2中所示的系统通常可以包括类似于上文结合图1描述的语音支持设备的语音支持客户端设备210。例如，语音支持客户端设备210可以包括分别用于接收自然语言多模式交互和提供自然语言多模式交互的响应的输入设备和输出设备215a的任一适当组合。此外，语音支持客户端设备210可以包括自动语音识别器(ASR)220a，ASR 220a配置为产生输入设备215a所接收的自然语言发声的一个或多个初步解释且还配置为将所述初步解释提供给会话语言处理器230a。

在一个实现中，语音支持客户端设备210上的会话语言处理器230a可以包括一个或多个自然语言处理部件，可调用所述一个或多个自然语言处理部件以确定语音支持客户端设备210所接收的多模式交互的目的。然后会话语言处理器230a可以发起一个或多个查询、任务、命令或其它请求以解析所确定的目的。例如，会话语言处理器230a可以调用一个或多个应用程序234a以处理特定领域中的请求，查询一个或多个数据存储库236a以检索多模式交互中请求的信息，或参与一个或多个与语音支持客户端设备210的用户的合作性会话以解析所确定的目的。此外，如上文结合图1所述，语音支持客户端设备210还可与一个或多个具有用于发起查询、任务、命令或其它请求以解析多模式交互的目的的适当的处理性能的其它系统或多模式设备合作。

具体地，为了在混合处理环境中与其它系统或多模式设备合作，语音支持客户端设备210可以使用消息传送接口250a来与虚拟路由器260进行通信，其中，消息传送接口250a通常可包括轻客户端(或瘦客户端)，轻客户端为语音支持客户端设备210提供向虚拟路由器260发送输入和从虚拟路由器260接收输出的机制。此外，虚拟路由器260还可以包括消息传送接口250b，消息传送接口250b提供用以与一个或多个附加的语音支持设备270a-n、一个或多个非语音设备280a-n和语音支持服务器240通信的机制。另外，尽管图2将消息传送接口250a和消息传送接口250b示为与其所通信地连接的设备分开的部件，但是显然，这样的图示仅为了便于描述，因为可将消息传送接口250a-b设置为实施在图2中所示的各种设备上的板上部件，以促进混合处理环境中的各种设备之间的通信。

例如，在一个实现中，实施在语音支持客户端设备210上的消息传送接口250a可以将来自语音支持客户端设备210的输入在一个或多个XML消息内发送给虚拟路由器260，其中，所述输入可以包括自然语言发声所对应的编码的音频、自然语言发声的初步解释、多点触控手势、焦点或关注的焦点选择和/或其它多模式交互所对应的数据。在一个实现中，然后虚拟路由器260可以使用会话语言处理器230c进一步处理该输入，会话语言处理器230c具有语音识别、目的确定、适应性错误识别和/或其它自然语言处理的性能。此外，会话语言处理器230c可以包括与通过混合处理环境中的各种设备可用的内容、服务、应用程序、自然语言处理性能和其它特性相关的知识。

因此，在一个实现中，虚拟路由器260还可以通过消息传送接口250b来与语音支持设备270、非语音设备280和/或语音支持服务器240通信，以协调处理从语音支持客户端设备210所接收的输入。例如，根据与混合处理环境中的各种设备的特性和性能相关的知识，虚拟路由器260可以确定设备中具有用于解析从语音支持客户端设备210所接收的输入的目的的合适的特性和/或性能的一个或多个设备。然后虚拟路由器260可通过相应的消息传送接口250b来将该输入的一个或多个要素转发给所确定的设备，其中，可以调用所确定的设备以对从虚拟路由器260所转发的输入的要素进行任何适当的处理。在一个实现中，然后所确定的设备可通过相应的消息传送接口250b将任何处理结果返回给虚拟路由器260，其中，虚拟路由器260可以校对处理结果并通过消息传送接口250a将结果返回给语音支持客户端设备210。

因此，虚拟路由器260可通过消息传送接口250a-b与混合处理环境中的任何可用设备通信，以协调多模式交互或从语音客户端设备210所接收的其它自然语言输入的合作性混合处理。例如，在一个实现中，合作性混合处理可用于提高嵌入式处理架构中的性能，在该嵌入式处理架构中，语音支持客户端设备210包括有限数量的资源(例如，语音支持客户端设备210可以为具有有限数量的内存储器或用于自然语言处理的其他专用资源的移动设备)。因此，当语音支持客户端设备210具有嵌入式处理架构时，语音支持客户端设备210的一个或多个部件可以配置为优化板上自然语言处理的效率，以减少或消除瓶颈、长响应时间或性能降级。

例如，在一个实现中，优化板上自然语言处理的效率可以包括将ASR 220a配置成使用具有词汇表外的字、源自会话历史的减少的词汇表的诱导词的虚拟听写语法或其它动态识别语法(例如，为特定语言、上下文、领域、内存限制和/或其它合适的标准而优化的语法)。在另一示例中，板上应用程序234a和/或数据存储库236a可以与为语音支持客户端设备210提供特定特性和性能的嵌入式应用程序组相关联。例如，可以将语音支持客户端设备210嵌入在汽车车载通信系统、个人导航设备、全球定位系统、手机或用户经常请求基于位置的服务的另一设备中。因此，在这种情况下，可以优化嵌入式应用程序组中的板上应用程序234a和数据存储库236a，以提供可在板上有效处理的某些基于位置的服务(例如，目的地输入、导航、地图控制、音乐搜索、免提拨号等)。

此外，尽管可针对嵌入式架构中的效率优化语音支持客户端设备210的部件，但用户可以请求混合处理环境中可用的任何合适的内容、服务、应用程序和/或其它特性，且在混合处理环境中的其它设备可以共同提供自然语言处理性能，以为语音支持客户端设备210补充嵌入式自然语言处理性能。例如，语音支持客户端设备210可使用嵌入式自然语言处理性能，对特定的多模式交互进行初步处理(例如，板上ASR 220a可以进行高级虚拟听写以部分地转译多模式交互中的发声，板上会话语言处理器230a可以确定多模式交互的初步目的等)，其中，可将初步处理的结果提供给虚拟路由器260以进一步处理。

在一个实现中，响应于确定出板上性能不能适当地解释交互(例如，如果部分转译的可信度不满足特定阈值)，或者响应于确定出应在板外处理交互(例如，如果初步解释指示交互涉及要求在语音支持服务器240上进行大型计算的本地搜索请求)，语音支持客户端设备210还可以将多模式交互所对应的输入传送给虚拟路由器260。因此，虚拟路由器260可以捕获从语音支持客户端设备210所接收的输入，并协调提供自然语言处理性能的语音支持设备270和语音支持服务器240以及提供检索数据或执行任务的性能的非语音设备280之间的进一步处理。此外，响应于虚拟路由器260调用语音支持设备270中的一个或多个，可以优化提供给语音支持设备270的输入，以适应从被调用的语音支持设备270所请求的处理(例如，为了避免过度征用处理资源，特定的语音支持设备270可被提供部分转译或初步解释，且针对给定上下文或领域解析目的)。

可替选地，响应于虚拟路由器260调用语音支持服务器240，提供给语音支持设备270的输入还可以包括自然语言发声所对应的编码的音频和任何其它与多模式交互相关的数据。具体地，如图2所示，除了语音支持服务器240可包括消除了语音支持客户端设备210所经受的限制的大量处理资源之外，语音支持服务器240可以具有类似于语音支持客户端设备210的自然语言处理架构。因此，当语音支持服务器240在多模式交互的混合处理中协作时，可以将自然语言发声所对应的编码的音频和任何其它与多模式交互相关的数据提供给语音支持服务器240，以最大化语音支持服务器240正确确定多模式交互的目的的可能性(例如，ASR 220b可以进行多通道语音识别，以产生自然语言发声的准确转译，会话语言处理器230b可以在任意数量的不同上下文或领域中所进行的目的确定之间进行仲裁，等等)。因此，总之，在图2所示的环境中所进行的混合处理技术通常可以包括各种不同的设备，这些设备可以包括或不包括自然语言性能、合作地确定特定多模式交互的目的以及采取行动以解析该目的。

尽管已在嵌入式处理架构的背景下具体地描述了上述的合作性混合处理技术，但这种技术不一定局限于嵌入式处理架构。具体地，同样的技术可以应用在具有各种设备的任何适当的语音服务环境中，所述各种设备可以协作以发起查询、任务、命令或其它请求以解析多模式交互的目的。此外，在一个实现中，语音支持客户端设备210可以包括适当数量的存储器或可致力于自然语言处理的其它资源(例如，语音支持客户端设备210可以为台式电脑或可处理自然语言而基本不降低性能的其它设备)。在这种情况下，语音支持客户端设备210的部件中的一个或多个部件可以配置为以可以在嵌入式架构中导致瓶颈、长响应时间或性能降级的方式优化板上自然语言处理。例如，在一个实现中，优化板上自然语言处理可以包括将ASR 220a配置成：除了和/或替代在嵌入式处理架构中所使用的虚拟听写语法，使用一大列表的听写语法。

尽管如此，如下文参照图3～图5的更详细的描述，合作性混合处理技术可以是基本相似的，不管语音支持客户端设备210是具有嵌入式架构还是具有非嵌入式架构。具体地，不管语音支持客户端设备210的架构如何，合作性混合处理都可以包括语音支持客户端设备210可选地执行自然语言多模式交互的初步处理以及通过消息传送接口250a将多模式交互所对应的输入传送给虚拟路由器260以进一步处理。可替选地(或另外)，合作性混合处理可以包括虚拟路由器260通过消息传送接口250b协调混合环境中的各种设备间的输入的进一步处理以及随后通过消息传送接口250a将任何处理结果返回给语音支持客户端设备210。

根据本发明的各个方面，图3示出用于初始化合作执行自然语言语音服务环境中的混合处理的各种设备的示例性方法的流程图。具体地，如上所述，混合处理环境通常可以包括可合作处理自然语言多模式交互的各种不同设备间的通信。例如，在一个实现中，在混合处理环境中的各种设备可以包括虚拟路由器，该虚拟路由器具有用于与一个或多个语音支持设备、一个或多个非语音设备和/或语音支持服务器通信的一个或多个消息传送接口。因此，在一个实现中，图3所示的方法可以用于初始化混合处理环境中的通信，以开启随后的在混合处理环境中的任一特定设备上所接收的一个或多个自然语言多模式交互的合作处理。

在一个实现中，在混合处理环境中的各种设备可以配置为连续地监听或监控相应的输入设备，以确定自然语言多模式交互是否发生。因此，图3所示的方法可以用于校准、同步或初始化连续监听自然语言多模式交互的各种设备。例如，如上文参照图2所述，混合处理环境中的虚拟路由器、语音支持设备、非语音设备、语音支持服务器和/或其它设备可以配置为提供各种不同的性能或服务，其中，图3所示的初始化方法可以用于确保混合处理环境获得适当的信号，以处理任一特定的自然语言多模式交互并适当调用设备中的一个或多个设备来合作处理自然语言多模式交互。此外，可以调用图3所示的且本申请所述的方法，以注册混合处理环境中的各种设备、注册添加到混合处理环境的新设备、公布领域、服务、目的确定性能和/或其它在注册的设备上所支持的特性、同步注册的设备的本地计时和/或初始化混合处理环境中的设备的任何其它适当的方面。

在一个实现中，初始化混合处理环境中的各种设备可以包括操作310，其中，可以为混合处理环境中的每个设备建立设备监听器。在操作310中所建立的设备监听器通常可以包括可在各种设备上执行的指令、固件或其它例程的任一适当组合，以确定性能、特性、所支持的领域或其它与设备相关的信息。例如，在一个实现中，在操作310中所建立的设备监听器可以配置为使用针对辅助计算机设备所设计的通用即插即用协议与相应的设备通信，但很显然，可合适地替代与各种设备通信的任一适当机制。

响应于为混合处理环境中所注册的每个设备建立设备监听器(或响应于为混合处理环境中所新注册的任一设备建立设备监听器)，在操作320中，可以同步设备监听器。具体地，每个注册设备可以具有为输入的自然语言多模式交互指示本地计时的内部时钟或其它计时机制，其中，操作320可以用于根据相应设备的内部时钟或计时机制来同步操作310中所建立的设备监听器。因此，在一个实现中，在操作320中的使设备监听器同步可以包括每个设备监听器公布与相应设备的内部时钟或本地计时相关的信息。例如，设备监听器可以向虚拟路由器公布与内部时钟或本地计时相关的信息，从而虚拟路由器可以随后协调在混合处理环境中的设备中的一个或多个设备上所接收的自然语言多模式交互的合作混合处理。然而，显然，可将与混合处理环境中的各种设备的内部时钟或本地计时相关的信息公布给其它语音支持设备、其它非语音设备、语音支持服务器和/或任何其它可参与提供给混合处理环境的自然语言多模式交互的合作处理的适当设备。

在一个实现中，响应于为在混合处理环境中所注册的各种设备建立和同步设备监听器，在操作330中，设备监听器可以连续地监听或监控相应地所注册设备上的相应设备，以检测与一个或多个自然语言多模式交互相关的信息。例如，设备监听器可以配置为：响应于检测输入的自然语言发声、与输入的自然语言发声相关的焦点或关注的焦点选择和/或与输入的自然语言多模式交互相关的另一交互或交互序列，来检测自然语言多模式交互的发生。此外，操作330还可以包括适当的设备监听器捕获自然语言发声和/或与自然语言发声相关的非语音设备交互。

在一个实现中，接着在操作340中，可以分析捕获的自然语言发声和相关的非语音设备交互，以管理混合处理环境中的随后的合作处理。在一个实现中，例如，操作340可以确定是一个设备监听器还是多个设备监听器捕获与在操作330中所检测的自然语言多模式交互相关的信息。具体地，如上所述，混合处理环境通常可以包括合作处理自然语言多模式交互的各种不同设备，从而可将与自然语言多模式交互相关的信息提供给混合处理环境中的一个或多个设备。因此，操作340可以确定是一个设备监听器还是多个设备监听器捕获与自然语言多模式交互相关的信息，以便确定混合处理环境是否需要使信号在捕获与多模式交互相关的信息的各种设备监听器之间同步。

例如，与混合处理环境进行交互的用户可以浏览呈现在非语音显示设备上呈现的网页，并提供请求更多关于购买网页上所显示的产品的信息的自然语言多模式交互。然后用户可以使用鼠标、键盘或其它非语音输入设备来在该网页上选择包含该产品名称的文本，并将自然语言发声提供给麦克风或其它语音支持设备，例如“这在亚马逊网站上有售吗？”在本示例中，在操作330中，与非语音显示设备相关的设备监听器可以检测关于该产品名称的文本选择，且在操作330中，与语音支持设备相关的设备监听器可以进一步检测询问产品可购性的自然语言发声。此外，在一个实现中，用户可能在多个语音支持设备的适用范围内，这可导致多个设备监听器捕获自然语言发声所对应的不同信号(例如，交互可以发生在语音支持手机、语音支持车载设备和/或其它语音支持设备的范围内，这取决于混合处理环境中的各种设备的布置和配置)。

因此，如本申请更详细的描述，响应于操作340确定多个设备监听器捕获与自然语言多模式交互相关的信息，可以发起使与多个设备监听器所接收的多模式交互相关的不同信号同步的一系列操作。另一方面，响应于操作340确定仅一个设备监听器捕获与自然语言多模式交互相关的信息，可在操作390中处理自然语言多模式交互，而不执行使不同信号同步的一系列操作(即，该一个设备监听器提供与多模式交互相关的全部输入信息，使得可在操作390中发起交互的混合处理，而不使不同的输入信号同步)。然而，在一个实现中，响应于一个设备监听器捕获自然语言发声和一个或多个非语音交互，也可发起该系列同步操作，以将与自然语言多模式交互相关的不同信号对齐，如本申请更详细的描述。

如上所述，接收到与在操作330中所检测的自然语言多模式交互相关的输入的设备监听器可以具有内部时钟或其它本地计时机制。因此，响应于在操作340中确定一个或多个设备监听器捕获与自然语言多模式交互相关的不同信号，可在操作350中发起针对不同信号的该系列同步操作。具体地，操作350可以包括一个或多个设备监听器根据与相应设备监听器相关的内部时钟或其它本地计时机制确定相应信号的本地计时信息，其中，接着可以同步针对相应信号所确定的本地计时信息。

例如，在一个实现中，可在操作360中发起使相应信号的本地计时信息同步。具体地，操作360通常可以包括向接收到与多模式交互相关的输入的每个设备监听器通知针对每个相应信号所确定的本地计时信息。例如，在一个实现中，每个设备监听器可以将相应信号的本地计时信息提供给虚拟路由器，然后虚拟路由器可以将所有信号的本地计时信息提供给每个设备监听器。因此，在一个实现中，操作360可以引起每个设备监听器接收到一通知，该通知包括与在操作330中所检测的自然语言多模式交互相关的每个不同信号的本地计时信息。可替选地(或另外)，虚拟路由器可以从每个设备监听器收集每个不同信号的本地计时信息，并进一步同步不同信号的本地计时信息，以启动自然语言多模式交互的混合处理。

在一个实现中，任一具体的自然语言多模式交互可以至少包括自然语言发声，且还可以包括一个或多个与自然语言发声相关的附加设备交互。如上所述，通常可以在附加设备交互之前、同时或之后接收发声。因此，可以在操作370中同步不同信号的本地计时信息，以启动自然语言多模式交互的混合处理。具体地，操作370可以包括将自然语言发声所对应的一个或多个信号的本地计时信息和/或任何与自然语言发声相关的附加设备交互所对应的一个或多个信号的本地计时信息对齐。此外，操作370还可以包括将自然语言发声信号和附加设备交互所对应的信号的本地计时信息对齐。

因此，在匹配发声信号和非语音设备交互信号时，可以向参与自然语言多模式交互的混合处理的任何设备提供彼此对齐的语音成分和/或非语音成分。例如，在一个实现中，可以在虚拟路由器上执行操作370，然后虚拟路由器可将对齐的计时信息提供给在混合处理中可以被调用的任何其它设备。可替选地(或另外)，参与混合处理的其它设备中的一个或多个可以本地地对齐计时信息(例如，响应于虚拟路由器调用混合处理中的语音支持服务器，可以利用与语音支持服务器相关的资源对齐计时信息并保留虚拟路由器上的通信带宽)。

此外，在一个实现中，在操作380中，虚拟路由器和/或混合处理环境中的其它设备可以分析自然语言发声所对应的信号，以选择最干净的样本来进一步处理。具体地，如上所述，虚拟路由器可以包括用以从一个或多个语音支持设备接收自然语言发声所对应的编码的音频样本的消息传送接口。例如，虚拟路由器所接收的音频样本可以包括以MPEG-1音频层3(MP3)格式或另一有损格式所编码的自然语言发声，以保留混合处理环境中的通信带宽。然而，显然，可替选地(或另外)，响应于混合处理环境具有足够的通信带宽用于处理可提供更好的自然语言发声样本的无损音频，可以使用无损音频压缩编码(FLAC)格式或另一无损格式编码音频样本。

不管是以有损格式还是以无损格式编码音频样本，在操作380中，可以选择自然语言发声所对应的提供最干净的样本的信号。例如，一个语音支持设备可以在噪音环境中或与干扰产生干净的音频样本的条件相关，而另一语音支持设备可以包括麦克风阵列或配置为采用使编码的语音的保真度最大化的技术。因此，响应于在操作330中接收自然语言发声所对应的多个信号，在操作380中可以选择最干净的信号，然后在操作390中可以发起自然语言发声的混合处理。

因此，在图3中所示出的且在本申请中所描述的同步和初始化技术可以确保混合处理环境同步自然语言多模式交互所对应的每个信号且产生用以在操作390中进一步处理的输入，以最可能形成正确的目的确定。此外，在使信号同步和选择最干净的音频样本以在操作390中进一步处理时，在图3中所示出的且在本申请中所描述的技术可以确保混合处理环境中没有设备对自然语言多模式交互采取行动，直到识别出在操作390中所要使用的适当信号。因此，在操作390中可以发起自然语言多模式交互的混合处理，如本申请中更详细地描述的。

根据本发明的一个方面，图4示出在自然语言语音服务环境中的一个或多个客户端设备上执行混合处理的示例性方法的流程图。具体地，如下文将参照图5进行更详细的描述的，一个或多个客户端设备可以通过消息传送接口来与虚拟路由器合作执行混合处理，该消息传送接口通信地连接客户端设备和虚拟路由器。例如，在一个实现中，消息传送接口通常可以包括轻客户端(或瘦客户端)，轻客户端为客户端设备提供用以向虚拟路由器发送与自然语言多模式交互相关的输入的机制，且轻客户端还为客户端设备提供用以从虚拟路由器接收与自然语言多模式交互相关的输出的机制。

例如，在一个实现中，响应于在操作410中客户端设备中的一个或多个接收自然语言多模式交互，可以发起客户端设备上的混合处理。具体地，自然语言多模式交互通常可以包括在连接至接收了自然语言多模式交互的客户端设备的麦克风或其它语音支持输入设备上所接收的自然语言发声，且还可以包括一个或多个与自然语言发声相关的其它附加输入形式(例如，文本选择、按钮按下、多点触控手势等)。因此，在操作410中所接收的自然语言多模式交互可以包括提供给客户端设备的一个或多个查询、命令或其它请求，其中，然后可以在操作420中发起自然语言多模式交互的混合处理。

如上文更详细地描述的，自然语言语音服务环境通常可以包括一个或多个语音支持客户端设备、一个或多个非语音设备、语音支持服务器和虚拟路由器，该虚拟路由器布置成与语音支持客户端设备、非语音设备和语音支持服务器中的每一个通信。在一个实现中，因此，虚拟路由器可以协调语音支持客户端设备、非语音设备和语音支持服务器之间的针对自然语言多模式交互的混合处理。因此，本申请所描述的混合处理技术通常可以指虚拟路由器以涉及在多个阶段中解析自然语言多模式交互的目的的方式，协调自然语言多模式交互的合作处理。

具体地，如上文参照图3的描述，可以初始化合作执行混合处理的各种设备，以启动自然语言多模式交互的合作处理。因此，在一个实现中，在操作420中，响应于初始化各种设备，接收与自然语言多模式交互相关的输入的每个客户端设备可以进行相应输入的初步处理。例如，在一个实现中，在操作420中，接收包括在多模式交互中的自然语言发声的客户端设备可以执行初始处理，该初始处理包括编码发声所对应的音频样本、部分或完全转译发声、确定发声的初步目的、或针对发声执行任何其它合适的初步处理。此外，也可以在接收与发声相关的附加输入形式中的一个或多个的客户端设备上执行操作420中的初始处理。例如，在操作420中为附加输入形式所执行的初始处理可以包括识别选择的文本、选择的焦点或关注的焦点，或者产生任何其它可用于进一步解释发声的合适的数据。在一个实现中，接着操作430可以包括确定混合处理环境是否已被配置为自动地将与自然语言多模式交互相关的输入路由至虚拟路由器。

例如，在一个实现中，响应于在操作410中多个客户端设备接收包括在多模式交互中的自然语言发声，操作430可以确定已配置发生自动路由。在本示例中，操作420中所执行的初始处理可以包括多个客户端设备编码发声所对应的相应的音频样本，其中，然后在操作460中，可将包括编码的音频样本的消息发送给虚拟路由器。然后虚拟路由器可以选择一个提供最干净的信号的编码的音频样本并协调随后的针对自然语言多模式交互的混合处理，如下文参照图5的更详细的描述。在另一示例中，响应于引起确定多模式交互涉及可能最适合于在语音支持服务器上处理的请求的初始处理(例如，该请求可以涉及基于位置的搜索查询或者另一命令或任务，该另一命令或任务要求语音支持服务器上所管理的资源、内容、应用程序、领域或存在于与接收请求的客户端设备不同的一个或多个设备上的其它信息等)，操作430可以确定已配置发生自动路由。然而，显然，混合处理环境可以酌情配置为响应于其它条件和/或不管任何附加条件是否存在而自动路由。

在一个实现中，响应于虚拟路由器协调自然语言多模式交互的混合处理，在操作470中，虚拟路由器可将混合处理的结果提供给客户端设备。例如，在操作470中提供给客户端设备的结果可以包括自然语言多模式交互的最终目的确定、在交互中所请求的信息、响应于执行交互中所请求的命令或任务而产生的数据和/或使客户端设备在操作480中完成自然语言请求的处理的其它结果。例如，在一个实现中，操作480可以包括：客户端设备根据从虚拟路由器返回的最终目的确定来执行查询、命令、任务或其它请求，呈现从虚拟路由器返回的所请求的信息，确认已执行所请求的命令或任务，和/或执行任何附加处理以解析自然语言请求。

回顾操作430，响应于确定出未满足触发自动路由的条件或者未配置自动路由器，则在操作440中客户端设备可以进一步处理自然语言多模式交互。在一个实现中，在操作440中的进一步处理可以包括客户端设备使用本地自然语言处理性能试图确定自然语言多模式交互的目的。例如，客户端设备可将包括在多模式交互中的任何非语音输入形式合并在包括在多模式交互中的发声的转译中。接着客户端设备上的会话语言处理器可以利用与上下文、领域、共享知识、标准值或其它信息相关的本地信息确定多模式交互的目的。然后客户端设备可以产生发声的一个或多个解释，以确定多模式交互的目的(例如，识别会话类型、包含在交互中的一个或多个请求等)。

在一个实现中，操作440还可以包括确定在客户端设备上所产生的目的确定的可信度(例如，可以响应于客户端设备是否包括多通道语音识别引擎、发声是否包含任何有歧义的词或语句、目的是否随上下文而不同等，得出可信度)。在一个实现中，接着操作450可以根据在操作440中所确定的可信度确定是否调用板外处理。例如，操作450通常可以包括确定在操作440中所确定的目的是否满足特定阈值，该特定阈值指示对确定的目的采取行动的可接受的可信度。因此，响应于目的确定的可信度满足阈值，操作450可以确定不调用板外处理。特别地，可信度满足阈值可以指示客户端设备具有足够的信息对确定的目的采取行动，从而在操作480中，客户端设备可以处理一个或多个查询、命令、任务或其它请求以解析多模式交互。

可替选地，响应于目的确定的可信度不满足阈值，操作450可以调用板外处理，板外处理可以包括在操作460中发送一个或多个消息给虚拟路由器。该一个或多个消息可以使虚拟路由器以上述类似的方式调用多模式交互的附加混合处理，且本申请将参照图5进行更详细地描述。

根据本发明的一个方面，图5示出在自然语言语音服务环境中的虚拟路由器上执行混合处理的示例性方法的流程图。具体地，虚拟路由器可以协调在一个或多个客户端设备上所接收的自然语言多模式交互的混合处理。在一个实现中，在操作510中，虚拟路由器可以接收与在语音服务环境中的客户端设备中的一个或多个客户端设备上所接收的自然语言多模式交互相关的一个或多个消息。例如，虚拟路由器可以包括将虚拟路由器通信地连接到客户端设备和语音支持服务器的消息传送接口，其中，该消息传送接口通常可以包括轻客户端(或瘦客户端)，轻客户端为虚拟路由器提供用以从一个或多个客户端设备和/或语音支持服务器接收输入、且还向一个或多个客户端设备和/或语音支持服务器发送输出的机制。在操作510中所接收的消息通常可以包括多模式交互的任何合适的处理结果，从而虚拟路由器可以以包括可发生在虚拟路由器、客户端设备中的一个或多个客户端设备、语音支持服务器或其任一合适组合上的多个处理阶段的方式协调混合处理。

在一个实现中，虚拟路由器可以分析在操作510中所接收的消息以确定是否调用点对点模式的混合处理。例如，消息中的一个或多个消息可以包括初步目的确定，虚拟路由器可以使用该初步目的确定来确定是否调用客户端设备中的一个或多个客户端设备、语音支持服务器或其各种组合，以便执行多模式交互的多个处理阶段中的一个或多个处理阶段。在另一示例中，消息中的一个或多个消息可以包括编码的音频样本，虚拟路由器将该编码的音频样本转发给混合处理环境中的各种设备中的一个或多个设备。因此，在一个实现中，虚拟路由器可以分析在操作510中所接收的消息以确定是否调用语音支持服务器来处理多模式交互(例如，消息可以包括初步目的确定，该初步目的确定指示多模式交互包括需要存在于服务器上的资源的基于位置的请求)。

响应于虚拟路由器确定调用语音支持服务器，在操作530中，虚拟路由器可以将消息转发给服务器。具体地，转发给服务器的消息通常可以包括自然语言发声所对应的编码的音频和涉及其它与发声有关的输入形式的任何附加信息。例如，如上文参照图2的更详细地描述，语音支持服务器可以包括可适当地确定多模式交互的目的的各种自然语言处理部件，从而发送给语音支持服务器的消息可以包括编码的音频，以便允许语音支持服务器独立于客户端设备上的可能不准确或不完全的任何初步处理来确定目的。响应于语音支持服务器处理从虚拟路由器所接收的消息，在操作570中，接着可将处理结果返回给虚拟路由器。例如，很明显，结果可以包括：自然语言多模式交互的目的确定，响应于确定的目的所执行的任何查询、命令、任务或其它请求的结果，或者任何其它合适的结果。

可替选地，响应于操作520中的虚拟路由器确定出调用点对点模式，虚拟路由器可以协调一个或多个客户端设备、语音支持服务器或其任一适当组合之间的混合处理。例如，在一个实现中，在操作540中，虚拟路由器可以确定自然语言多模式交互的上下文，且在操作550中，根据确定的上下文选择一个或多个对等设备。例如，客户端设备中的一个或多个可以配置为提供按照确定的上下文的内容或服务，从而在操作560中，虚拟路由器可以将一个或多个消息发送给这种设备，以便请求这种内容和/或服务。在另一示例中，多模式交互可以包括涉及不同设备上所支持的多个上下文的复合请求，从而在操作560中，虚拟路由器可以将消息转发给每个这种设备，以便请求按照不同的上下文的适当内容和/或服务。

在又一示例中，交互可以包括将要在语音支持服务器上处理的请求，然而该请求可要求存在于客户端设备中的一个或多个客户端设备上的内容和/或服务(例如，涉及客户端设备中的一个或多个客户端设备上的地址簿中的条目的基于位置的查询)。因此，在操作560中，虚拟路由器通常可以将各种消息转发给所选的对等设备，以管理本申请中所描述的混合处理技术中的多个阶段。例如，虚拟路由器可将消息发送给一个或多个具有按照特定上下文的目的确定性能的语音支持客户端设备、一个或多个使用内容、服务和/或处理多模式交互所需的其它资源的非语音客户端设备、或其任一适当组合。因此，虚拟路由器可在操作560中发送消息给客户端设备和/或语音支持服务器，且在操作570中以任一适当方式(例如，并行地、顺序地、迭代地等)从客户端设备和/或语音支持服务器接收响应消息。然后在操作580中，虚拟路由器可以校对在响应消息中所接收的结果，且将结果返回给客户端设备中的一个或多个，用以结果的任何最终处理和/或呈现。

可以以硬件、固件、软件或其各种组合的方式进行本发明的实现。也可将本发明实现为存储在机器可读介质上的可通过一个或多个处理器读取和执行的指令。机器可读介质可以包括用以存储或发送机器(例如，计算设备)可读形式的信息的各种机制。例如，机器可读存储介质可以包括只读存储器、随机存取存储器、磁盘存储介质、光学存储介质、闪存设备或其它存储介质，机器可读发送介质可以包括各种形式的传播信号，例如载波、红外信号、数字信号或其它发送介质。此外，可以在以上公开内容中就本发明的具体示例方面和实现方式以及执行某些动作这些方面来描述固件、软件、程序或指令。然而，显然，这些描述仅是为了方便，且这些动作实际上由执行所述固件、软件、程序或指令的计算设备、处理器、控制器或其他装置产生。

因此，本发明的方面和实现方式可以在本文中描述为包括具体的特征、结构或性质，但将明显的是，每一方面或实现方式可以或者可以不一定包括具体的特征、结构或性质。此外，当具体的特征、结构或者性质已结合一给定的方面或实现方式予以描述时，应当理解，无论是否明确描述，这样的特征、结构或性质也可以包括在其他的方面或实现方式中。因此，可以对以上描述进行各种改变或修改，而不脱离本发明的精神或范围，因此，本说明书和附图应当仅看作示例性的，本发明的范围仅由所附权利要求确定。

Claims

1.一种用于自然语言语音服务环境中的混合处理的方法，所述方法是在计算机系统中实现的，所述计算机系统包括编程有计算机程序指令的一个或多个物理处理器，所述计算机程序指令在被所述一个或多个物理处理器执行时将所述计算机系统编程为执行所述方法，所述方法包括：

所述计算机系统接收多个音频编码，其中，所述多个音频编码至少包括第一音频编码和第二音频编码，所述第一音频编码对应于第一电子设备所捕获的用户的自然语言发声，所述第二音频编码对应于第二电子设备所捕获的所述用户的所述自然语言发声；

所述计算机系统确定所述第一音频编码的音频特性的第一值；

所述计算机系统确定所述第二音频编码的音频特性的第二值；

所述计算机系统基于所述第一值和所述第二值选择所述第一音频编码或所述第二音频编码；以及

所述计算机系统基于所述第一音频编码和所述第二音频编码中所选择的一者来获得所述自然语言发声的目的。

2.如权利要求1所述的方法，其中，获得所述自然语言发声的所述目的包括：

所述计算机系统提供所述第一音频编码和所述第二音频编码中所选择的一者作为语音识别引擎的输入；

响应于接收作为所述语音识别引擎的输出的、从所述自然语言发声识别的词语或短语，所述计算机系统提供所述词语或短语作为会话语言处理器的输入；以及

所述计算机系统基于作为所述会话语言处理器的输入的所述词语或短语的提供来解释所述自然语言发声，以确定所述自然语言发声的所述目的。

3.如权利要求1所述的方法，其中，获得所述自然语言发声的所述目的包括：

所述计算机系统向至少第一设备提供所述第一音频编码和所述第二音频编码中所选择的一者；以及

所述计算机系统从所述第一设备接收所述自然语言发声的所述目的的第一指示。

4.如权利要求3所述的方法，其中，向至少所述第一设备提供所述第一音频编码和所述第二音频编码中所选择的一者包括：

所述计算机系统确定所述第一设备具有自然语言处理能力；以及

所述计算机系统基于所述第一设备的所述自然语言处理能力来识别所述第一设备。

5.如权利要求4所述的方法，所述方法还包括：

所述计算机系统确定所述自然语言发声的语境，其中，所述第一设备还基于所述自然语言发声的所述语境来选择。

6.如权利要求1所述的方法，所述方法还包括：

所述计算机系统确定与第一目的确定相关联的第一可信度；以及

所述计算机系统确定所述第一可信度是否满足与目的预测精度有关的可信度阈值，其中，响应于确定出所述第一可信度不满足所述可信度阈值，向第二设备提供所述第一音频编码和所述第二音频编码中所选择的一者。

7.如权利要求6所述的方法，所述方法还包括：

所述计算机系统从所述第二设备接收基于所述第一音频编码和所述第二音频编码中所选择的一者对所述发声的第二目的确定；

所述计算机系统确定与所述第二目的确定相关联的第二可信度；以及

所述计算机系统基于所述第一可信度和所述第二可信度将一个或多个消息传送至一个或多个客户端设备，所述一个或多个消息包含与所述发声的所述第一目的确定或所述发声的所述第二目的确定有关的信息。

8.如权利要求1所述的方法，所述方法还包括：

所述计算机系统将一个或多个消息传送至一个或多个客户端设备，所述一个或多个消息包含与所述发声的第一目的确定有关的信息。

9.如权利要求8所述的方法，所述方法还包括：

所述计算机系统确定所述自然语言发声的语境，其中，所述一个或多个消息还包括所述自然语言发声的所述语境。

10.如权利要求1所述的方法，所述方法还包括：

所述计算机系统从多个电子设备接收所述发声的一个或多个初步目的确定，其中，基于所述一个或多个初步目的确定将所述第一音频编码和所述第二音频编码中所选择的一者提供给第一设备。

11.如权利要求8所述的方法，所述方法还包括：

所述计算机系统从多个电子设备接收所述发声的一个或多个初步目的确定，其中，还基于所述一个或多个初步目的确定将所述一个或多个消息传送至所述一个或多个客户端设备。

12.一种用于自然语言语音服务环境中的混合处理的系统，所述自然语言语音服务环境包括一个或多个电子设备，所述系统包括：

编程有计算机程序指令的一个或多个物理处理器，所述计算机程序指令在被所述一个或多个物理处理器执行时将所述一个或多个物理处理器编程为：

接收多个音频编码，其中，所述多个音频编码至少包括第一音频编码和第二音频编码，所述第一音频编码对应于第一电子设备所捕获的用户的自然语言发声，所述第二音频编码对应于第二电子设备所捕获的所述用户的所述自然语言发声；

确定所述第一音频编码的音频特性的第一值；

确定所述第二音频编码的音频特性的第二值；

基于所述第一值和所述第二值选择所述第一音频编码或所述第二音频编码；以及

基于所述第一音频编码和所述第二音频编码中所选择的一者来获得所述自然语言发声的目的。

13.如权利要求12所述的系统，其中，获得所述自然语言发声的所述目的还被编程为：

提供所述第一音频编码和所述第二音频编码中所选择的一者作为语音识别引擎的输入；

响应于接收作为所述语音识别引擎的输出的、从所述自然语言发声识别的词语或短语，提供所述词语或短语作为会话语言处理器的输入；以及

基于作为所述会话语言处理器的输入的所述词语或短语的提供来解释所述自然语言发声，以确定所述自然语言发声的所述目的。

14.如权利要求12所述的系统，其中，获得所述自然语言发声的所述目的还被编程为：

向至少第一设备提供所述第一音频编码和所述第二音频编码中所选择的一者；以及

从所述第一设备接收所述自然语言发声的所述目的的第一指示。

15.如权利要求14所述的系统，其中，向至少所述第一设备提供所述第一音频编码和所述第二音频编码中所选择的一者还被编程为：

确定所述第一设备具有自然语言处理能力；以及

基于所述第一设备的所述自然语言处理能力来识别所述第一设备。

16.如权利要求15所述的系统，其中，所述一个或多个物理处理器还被编程为：

确定所述自然语言发声的语境，其中，所述第一设备还基于所述自然语言发声的所述语境来选择。

17.如权利要求12所述的系统，其中，所述一个或多个物理处理器还被编程为：

确定与第一目的确定相关联的第一可信度；以及

确定所述第一可信度是否满足与目的预测精度有关的可信度阈值，其中，响应于确定出所述第一可信度不满足所述可信度阈值，向第二设备提供所述第一音频编码和所述第二音频编码中所选择的一者。

18.如权利要求17所述的系统，其中，所述一个或多个物理处理器还被编程为：

从所述第二设备接收基于所述第一音频编码和所述第二音频编码中所选择的一者对所述发声的第二目的确定；

确定与所述第二目的确定相关联的第二可信度；以及

基于所述第一可信度和所述第二可信度将一个或多个消息传送至一个或多个客户端设备，所述一个或多个消息包含与所述发声的所述第一目的确定或所述发声的所述第二目的确定有关的信息。

19.如权利要求12所述的系统，其中，所述一个或多个物理处理器还被编程为：

将一个或多个消息传送至一个或多个客户端设备，所述一个或多个消息包含与所述发声的第一目的确定有关的信息。

20.如权利要求19所述的系统，其中，所述一个或多个物理处理器还被编程为：

确定所述自然语言发声的语境，其中，所述一个或多个消息还包括所述自然语言发声的所述语境。

21.如权利要求12所述的系统，其中，所述一个或多个物理处理器还被编程为：

从所述多个电子设备接收所述发声的一个或多个初步目的确定，其中，基于所述一个或多个初步目的确定将所述第一音频编码和所述第二音频编码中所选择的一者提供给第一设备。

22.如权利要求19所述的系统，其中，所述一个或多个物理处理器还被编程为：

从所述多个电子设备接收所述发声的一个或多个初步目的确定，其中，还基于所述一个或多个初步目的确定将所述一个或多个消息传送至所述一个或多个客户端设备。

23.一种用于自然语言语音服务环境中的混合处理的方法，所述方法是在计算机系统中实现的，所述计算机系统包括编程有计算机程序指令的一个或多个物理处理器，所述计算机程序指令在被所述一个或多个物理处理器执行时将所述计算机系统编程为执行所述方法，所述方法包括：

所述计算机系统接收自然语言发声；

所述计算机系统执行语音识别以确定所述自然语言发声的一个或多个词语；

所述计算机系统基于所述一个或多个词语来确定对所述自然语言发声的目的的预测；

所述计算机系统将所述自然语言发声的音频编码和对所述自然语言发声的所述目的的所述预测发送至虚拟路由器；

所述计算机系统从所述虚拟路由器接收所述自然语言发声的最终目的确定；以及

所述计算机系统基于所述最终目的确定提供对于所述自然语言发声的响应。