CN1532807A

CN1532807A - 块同步译码

Info

Publication number: CN1532807A
Application number: CNA2004100286448A
Authority: CN
Inventors: W��H��޿ϱ��; W·H·罗肯贝克; ��ŷ�; J·J·欧戴尔
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-03-04
Filing date: 2004-03-03
Publication date: 2004-09-29
Also published as: EP1455341A2; JP2004272251A; EP1455341A3; US7529671B2; US20040176956A1; KR20040078595A

Abstract

本发明涉及块同步译码，提供了模式识别系统和方法。本发明的各方面在与多状态隐式马尔可夫模型结合时尤其有用。通过处理隐式马尔可夫模型块来实现模式识别。这个块处理允许处理器当数据在高速缓存存储器中时执行更多的这样数据上操作。通过这样增加高速缓存局部性，本发明的各方面提供显著改善的模式识别速度。

Description

块同步译码

背景技术

本发明涉及模式识别。本发明尤其涉及处理用于模式识别中的信号。

诸如语音识别系统这样的模式识别系统获取输入信号并试图对该信号进行译码，以发现由该信号表示的模式。例如，在语音识别系统中，语音信号(通常指测试信号)由识别系统接收，并且对该语音信号进行译码以识别由该语音信号所表示的词串。

为对引入的测试信号进行译码，绝大多数的识别系统利用一个或多个模型，该模型描述部分测试信号表示特定模式的可能性。这样模型的例子包括神经网络、动态时间翘曲(Dynamic Time Warping)、段模型(segment models)，以及隐式马尔可夫模型(HMM)(Hidden Markov Models)。

绝大多数的可商用(commercially-available)语音识别系统使用HMM来匹配语音中的语音模式，语音被分割为搭接的“帧”，这些帧之间通常间隔约10毫秒。将语音分解为这些10毫秒的帧仅为被转换为一系列时序帧(time-sequenced frames)输入的一个例子。传统上，这些帧的估算每次进行1帧；在继续前进到下一帧之前，以循环(round-robin fashion)的方式对单帧更新所有的HMM。

图3阐明HMM的基本表示法，这在许多教科书中详细说明，包括例如由Huang，Acero和Hon所著的口语处理的第八章。在任何指定的时间处，该模型具有处于任何不同状态的特定概率。每个状态具有输出概率分布和到其它状态的转移概率。就语音来说，输出分布模拟从被分为10毫秒帧的原始语音波形中导出的声音特征组。这些转移和输出概率依照已知技术由训练步骤(training step)来产生。

对HMM的译码问题是指定HMM和观察序列，产生该观察序列的最有可能性的状态序列是什么？解决这个问题的标准方法被称为动态规划法，并且该方法图示在图4中。关于图3说明的六状态HMM已经初露端倪，而且时间沿着水平轴进行。指定观察，在这个栅格中的每个“点”(状态和时间的组合)代表HMM在给以观察的时间处于那种状态的概率。一条通过DP矩阵的可能路径以粗体突出显示(1-8-14-21-27-33-40-47-53-59-66)，代表特定的排列或状态序列。对点的概率根据先前点的概率，转移概率和在那个时间步的输出概率。既然每个点依靠几个先前点，那么计算对那个点的概率就需要已经首先计算了先前点，从而设置计算顺序的限制。图4中通过点中的数字示出“时间同步”估算顺序；该系统在再次开始下一时间步骤之前，对指定时间步估算所有的状态。注意，由于可允许仅在已计算前任点之后来计算点的任何顺序，所以这个不是仅有的可能估算顺序。灰色的点表明或者为不可达到的或者为不导至可能的结束状态的状态，因此不需要被估算，尽管许多实施例无论如何还是对它们进行估算。

在实时系统中，可能有好几万这样的HMM同时运行。这些模型消耗足够的计算机存储器，以至每次通过整个模型组通常耗尽CPU高速缓存容量。由于仅使用CPU高速缓存的存储器操作比使用较高级的存储器的存储器操作快许多倍，这就大大减慢了语音处理。

解决该问题的另一个方法在由Tony Robinson和James Christie所著的题名为对大量词汇语音识别的时间第一搜索(Time-First Search For LargeVocaburary Speech Recognition)的论文中描述。这个方法本质上将HMM估算的顺序从对指定时间帧估算多模型转换到对指定模型估算多时间帧。这个方法意味着在与标准CPU存储器高速缓存操作协同工作的同时减少处理存储器需求，这是因为许多操作落入相同的物理存储器范围。

为提供对大量词汇应用的实时连续语音识别，需要进一步的改进以便不仅改善CPU高速缓存使用的效率，而且改善处理例程本身的效率。这样，不仅至关紧要的处理速度得到了改善，而且处理准确度也得到了提高。

发明内容

提供模式识别系统和方法。当本发明的诸方面结合多状态隐式马尔可夫模型尤其有用。模式识别可通过处理隐式马尔可夫模型块来实现。这个模块处理允许处理器在数据处于高速缓存存储器中的同时执行更多的这样数据上操作。通过这样增加高速缓存局部性，本发明的各方面提供对模式识别速度的显著改善。

附图说明

图1是其中可实施本发明的一个计算环境的框图。

图2是其中可实施本发明的另选的计算环境的框图。

图3是六状态HMM的图解视图。

图4是用时间作为水平轴的表示的图3六状态HMM的图解视图。

图5是三状态HMM三个一组的图解视图。

图6是依照本发明实施例的隐式马尔可夫模型块(HMMB)的图解视图。

具体实施方式

图1阐明其中可实施本发明的合适计算系统环境100的例子。该计算系统环境100仅为一个合适计算环境的例子，而且并非试图对本发明的使用或功能的范围提出任何限制。计算环境100也不应被解释为对在范例操作环境100中示出的任何一个组件或其组合具有任何依赖或需求。

本发明可用于许多其它通用或专用计算系统环境或配置。可适用于本发明的熟知计算系统、环境和/或配置的例子包括，但不局限于，个人计算机、服务器计算机、手持式或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子装置、网络PC、小型计算机、大型计算机、电话系统、包括任何上述系统或装置的分布计算环境等。

可用由计算机执行的诸如程序模块这样的计算机可执行指令的通用上下文来说明本发明。一般，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特定的任务或实现特定的抽象数据类型。本发明也可用于分布计算环境中，那里通过由通信网络链接的远程处理装置来执行任务。在分布计算环境中，程序模块可位于包括存储器存储装置的本地或者远程计算机存储媒体中。

参考图1，用于实施本发明的范例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括，但不局限于，中央处理单元120，它包括高速缓存存储器122(1级高速缓存)和高速缓存存储器123(2级高速缓存)、系统存储器130、以及将包括系统存储器的不同系统组件联结到处理单元120的系统总线121。高速缓存存储器通过允许数据块从速度较低的系统存储器转移到较高速度的高速缓存存储器而增加处理速度。当前有两个主要类型的高速缓存存储器。1级高速缓存存储器是位于微处理器本身的存储器的部分。这个存储器一般比系统中所有其它的存储器速度快，但是由于这个存储器是直接加到微处理器的硅涵盖表面上的，所以也较昂贵。2级高速缓存一般位于微处理器的附近，但不在其上。这个存储器通常也比系统存储器的速度快，但是比1级高速缓存存储器的速度慢。按照很粗略的指导方针，可认为1级高速缓存的工作速度大约比水平2级高速缓存快一个数量级，且2级高速缓存的工作速度大约比整个系统RAM的工作速度快一个数量级。这样，当高速缓存被最有效率的使用时，系统处理速度就被最大化了。

系统总线121可为几种类型的总线结构的任何一种，包括存储总线或存储器控制器、外围总线，以及使用多种总线体系结构的任何一种的本地总线。作为例子，但非限制，这样的体系结构包括工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线，以及也已知为小背板总线(Mezzanine bus)的外围组件互连(PCI)总线。

计算机110通常包括各种计算机可读媒体。计算机可读媒体可为能够被计算机110存取的任何可用媒体，而且既包括易失性媒体，又包括非易失性媒体，既包括可取走媒体，又包括不可取走媒体。作为例子，但非限制，计算机可读媒体可包含计算机存储媒体和通信媒体。计算机存储媒体包含以任何方法或技术来实现的易失性或者非易失性、可取走或者不可取走的媒体用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息。计算机存储媒体包括，但不局限于，RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CDROM、数字多用途盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁存储装置，或者可用来保存所需信息且可由计算机110存取的任何其它媒体。通信媒体通常包含计算机可读指令、数据结构、程序模块或在诸如载波或其它传送机制这样的调制数据信号中的其它数据，而且包括任何信息传递媒体。术语“调制数据信号”意指具有一个或多个特征组或以对信号中的信息进行编码的方式改变的信号。作为例子，但非限制，通信媒体包括诸如有线网络或直线连接这样的有线媒体，以及诸如声音、RF、红外线的，以及其它无线媒体这样的无线媒体。任何上述的组合也应被包括在计算机可读媒体的范围之内。

系统存储器130包括以诸如只读存储器(ROM)131和随机存取存储器(RAM)132这样的易失性和/或非易失性存储器形式的计算机存储媒体。基本输入/输出系统133(BIOS)，它包含帮助(诸如在启动阶段)，在计算机110中的元件之间传递信息的基本例程通常被代表性的被保存在ROM 131中。RAM 132通常包含可由处理单元120直接存取和/或目前正由处理单元120操作的数据和/或程序模块。作为例子，但非限制，图1示出操作系统134、应用程序135、其它程序模块136，以及程序数据137。

计算机110也可包括其它可取走/不可取走、易失性/非易失性计算机存储媒体。仅作为例子，图1示出读写到不可取走、非易失性磁性媒体的硬盘驱动器141、读写到可取走、非易失性磁盘152的磁盘驱动器151，以及读写至可取走、非易失性光盘156的光盘驱动器155，该可取走、非易失性光盘156如CD ROM或其它光媒体。可用在范例操作环境中的其它可取走/不可取走、易失性/非易失性计算机存储媒体包括，但不局限于，盒式磁带、闪速存储器卡、数字多用途盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器141通常是通过诸如接口140这样的不可取走存储器接口与系统总线121相连，而磁盘驱动器151和光盘驱动器155通常是通过诸如接口150这样的可取走存储器接口与系统总线121相连。

上面讨论并在图1中示出的驱动器和相关联的计算机存储媒体提供计算机可读指令、数据结构、程序模块和对计算机110的其它数据的存储。在图1中，例如，硬盘驱动器141被示作为保存操作系统144、应用程序145、其它程序模块146，以及程序数据147。注意这些组件既可与操作系统134、应用程序135、其它程序模块136，以及程序数据137相同，也可与其不同。操作系统144、应用程序145、其它程序模块146，以及程序数据147在这里被指定不同的序号，以阐明至少它们是不同的拷贝。

用户可通过诸如键盘162、话筒163以及像鼠标、跟踪球或触摸垫这样点击设备161这样的输入装置将命令和信息输入到计算机110中。其它的输入装置(未示出)可包括操纵杆、游戏垫(game pad)、圆盘式卫星电视天线、扫描仪等。这些和其它的输入装置一般通过与系统总线121联结的用户输入接口160与处理单元120相连，但其也可通过诸如并行口、游戏口或通用串行总线(USB)这样的其它接口和总线连接。监视器191或其它类型的显示装置也通过诸如视频接口190这样的接口与系统总线121相连。除监视器之外，计算机也可包括诸如扬声器197和打印机196这样的其它外围输出装置，它们可通过输出外围接口190进行连接。

计算机110可在使用到诸如远程计算机180这样的一个或多个远程计算机的逻辑连接的网络化环境中工作。远程计算机180可为个人计算机、手持装置、服务器、路由器、网络PC、对等装置(a peer device)或其它公共网络节点，而且通常包括许多或所有上述相对于计算机110示出的元件。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这样的网络环境常见于办公室、企业范围的计算机网络、内联网和国际互联网。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170与LAN171相连。在WAN网络环境中使用计算机110时，计算机110通常包括调制解调器172或用于在诸如因特网这样的WAN 173上建立通信的其它装置。调制解调器172可为内置或外置，它可通过用户输入接口160或其它合适的机制与系统总线121相连。在网络化环境中，相对于计算机110示出的程序模块，或其部分，可被保存在远程存储器存储装置中。作为例子，但非限制，图1示出驻留在远程计算机180中的远程应用程序185。应当认识到所示网络连接是范例性的，而且可使用在计算机之间建立通信链路的其它装置。

图2是移动装置200的框图，它是范例计算环境。移动装置200包括微处理器202(包含高速缓存存储器203)、存储器204、输入/输出(I/O)组件206，以及用于与远程计算机或其它移动装置进行通信的通信接口208。在一个实施例中，上述组件联结在一起，以通过合适的总线210互相通信。

存储器204被实施为诸如随机存取存储器(RAM)这样的非易失性电子存储器，它具有电池备份模块(未示出)，这样以使当关闭到移动装置200的通用电源时，不丢失保存在存储器204中的信息。部分存储器204更适宜被分配作为用于程序执行的可寻址存储器，而存储器204的另一部分更适宜用于存储，比如模拟磁盘驱动器中的存储。

存储器204包括操作系统212、应用程序214以及对象存储器216。在操作期间，最好由处理器202从存储器204来执行操作系统212。在一个较佳实施例中，操作系统212是来自微软公司可商用的商标为WINDOWS^CE的操作系统。最好对移动装置来设计操作系统212，而且该操作系统212实现这样的数据库特征，即应用214可通过一组展现的应用编程界面和方法来利用该数据库特征。对象存储216中的对象由应用214和操作系统212来保持，至少部分响应对展现的应用编程接口和方法的调用。

通信接口208代表允许移动装置200发送和接收信息的许多装置和技术。该装置包括有线和无线调制解调器、卫星接收器和广播调谐器，这里列举了一些。移动装置200也可直接与计算机相连以与之交换数据。在这样的情况下，通信接口208可为红外线收发器或者串行或并行通信连接，所有这些都能传送流动信息。

输入/输出组件206包括多种输入装置，如触敏屏、按钮、滚动条(rollers)，以及话筒，还有多种输出装置，包括音频发生器、振动装置，以及显示器。上面列出的装置是作为例子，不必所有的装置都出现在移动装置200上。另外，在本发明的范围内，其它的输入/输出装置可被加到移动装置200中，或在移动装置200中找到。

在本发明的一个方面，提供适用(adapt)HMM处理以显著增加系统高速缓存局部性的系统和方法。因此，在刷新系统高速缓存之前，执行更大量的HMM操作。这样，就对普通系统存储器进行比过去需求少的调用。从而显著提高了处理速度。虽然我们将关于语音处理来说明这些改进，本发明的实施例可被应用来改进对使用HMM的任何形式模式识别的处理。

对语音建模有用的某些模型使用所知为“三状态从左至右不跳跃”(“three-state left-to-right without skipping)的特定HMM拓扑结构。这个拓扑结构在图5和6中阐明。本发明的实施例本质上重新安排HMM估算，使得在估算另一个HMM之前，对单个HMM估算3个帧。这就显著改善高速缓存局部性，从而增加处理速度。

图6表示了被归类到隐式马尔可夫模型块(HMMMB)中的图5模型。每个粗体菱形400示出相应语音单元(即音素(phoneme))的HMMB。在每个HMMB中，提供每个状态的同样数量的帧。这样，在HMMB#1中有3个状态0的帧、3个状态1的帧，以及3个状态2的帧。虽然我们相信可用HMM中不同于状态数量的帧的数量来实现本发明实施例的优点，但是帧的数量最好与HMM状态的数量相等。另外，因为如上面所讨论的，一旦任何指定点的先前点被估算，则该指定点只能被估算，所以出现菱形。选择图6中所示的HMMB的大小以匹配所使用的状态(三状态左-右HMM)的数量。我们预期，不同的HMM拓扑结构可导至不同形状的HMMB，这也落入本发明的精神和范围。例如，十状态左-右HMM(潜在对诸如手写体识别这样的某些其它形式的模式识别有用)将依照十帧HMMB。此外，具有五状态的有时使用的拓扑结构可在每个帧上转移到本身、下一状态，或在其后的状态。在这样情况，三帧HMMB仍旧是可用的(由于任何到HMM的输入要采用至少3帧才能到达输出)，但是HMMB的形状将为3帧“宽”，五状态“高”。

依照本发明的实施例，每个HMMB作为一个单元被估算。如这里用到的，HMMB是HMM处理系统中所有点的子集。该块至少包括在时间和状态上均不同的两点。每个HMMB的估算仅依靠先前HMMB的输出。

每个HMMB包括块间进入点(inter-block entry points)、块内进入点(intra-block entry points)、块间退出点(inter-block exit points)，以及块内退出点(intra-block exit points)。参考图6，点402、408和414是块间进入点，这是因为它们可接收来自其它HMMB的分数(scores)或数值。点402、404和406是块内进入点，这是因为它们可接收来自相同HMM中先前块的分数。相对于块4，块1将被认为是相同HMM中的先前块。注意，点402不仅是块间进入点，而且也是块内进入点。点406、412和418是块间退出点，这是由于它们可将它们的数值提供到诸如块5这样的其它块的块间进入点。最后，点414、416和418可被认为是块内退出点。

在块处理开始之前，对在块间进入点以及块内进入点处结束的最佳路径的分数已经被预先决定了。另外，到沿着这条最佳路径的以前状态的指针已经被保存在该进入点中。

块处理从第一时间点处(the point that is first in time)开始。在图6中，那个点编号为402。通过用对每个可从点402(404、406)转移的点的转移概率乘点402的分数来处理点402。然后这个分数与被转移点的现有数值进行比较，以决定通过点402的分数是否比被转移点的现有分数高。如果这样，则就更新被转移点以反映新的最大值，而且设置与点402相关联的指针。

一旦处理了点402，点404就可被处理。点404的处理较直截了当，这是因为点404开始被设置成来自相同HMM中紧接前面的块的相应块内退出点和来自块402分数的较大者。类似于点404地处理点406。然而，由于点406是块间退出点，所以其分数将被用来更新其它块的某些块间进入点。

一旦处理了点402，则也可处理点408。点404和点408之间的相对处理顺序是设计选择的问题。处理点408有点类似于点402，这是因为在处理前，结合其转移概率，在点402以及可能连接到点404的所有退出点之中，取最大分数。此外，指针，或者其它合适的记录，被设置为指出产生最大分数的点。处理点408的工作包括用它能够转移的转移概率乘该处理点408的分数以便潜在地更新点410和414的数值。

类似于点404和406来处理点410、412、416和418。而且，点414的处理类似于上述关于点408的处理。

一旦完成块1中的所有处理，则执行退出分数处理。明确的说，对每个块间退出点，参考语言模型。语言模型列出哪些转移是可允许的，以及对在语音单元之间转移的转移概率。这样，例如，语言模型将指出从块1的语音单元到其它语音单元的转移的可允许性和概率。这个概率然后与诸如点406这样的块间退出点的分数结合，以决定该组合是否比现存于下一时间帧内任何可允许(依靠该语言模型)块间进入点的分数大。若该组合确实较大，则更新块间进入点以反映新的最大量，而且设置相关联的指针，或者其它合适的记录。对块间退出点412和418重复这个过程。注意，如图6中虚线所示，块间退出点也可与对相同语音单元时间中下一块的块间进入点相连(即406连接到420)。

点416和418将它们的分数提供到对相同语音单元时间中下一块的块间进入点。最后，如上面说明的关于点402来处理点420，而且处理继续前进到下一块。

一旦完成块1的处理，最好开始对应另一个语音单元的块的处理。图6中按块1-2-3-4-5-6-7-8-9的顺序列出范例块处理顺序。然而，可使用其它顺序而不背离本发明的范围。注意，某些点被变成灰色的，这表明它们或者是不能达到的，或者是不导至可能的结束状态。可通过不实际处理这样的点而获取附加处理效率。

尽管已经参考特定实施例说明了本发明，但是本领域中熟练的技术人员会认识到在不背离本发明主旨和范围的前提下可在形式上和细节上作出改变。

Claims

1.连续模式识别系统包含：

输入装置，适合于提供输入的数字表示；

存储器，操作上与所述输入装置联结，以存储所述数字表示以及相对于所述数字表示的多个多状态模型；

处理器，与所述输入装置和所述存储器联结，所述处理器包括高速缓存存储器，并且适合于将所示数字表示转换为多个时间序列帧；以及

其中所述处理器适合基于处理所述时间序列帧和存储在所述高速缓存存储器中的所述多状态模型的块而产生识别的模式的输出。

2.如权利要求书1所述的系统，其特征在于所述多状态模型是三状态隐式马尔可夫模型。

3.如权利要求书1所述的系统，其特征在于所述输入装置是话筒。

4.如权利要求书1所述的系统，其特征在于识别的模式的所述输出包括单词。

5.如权利要求书1所述的系统，其特征在于所述系统具体体现在计算机内。

6.如权利要求书1所述的系统，其特征在于所述系统具体体现在移动装置中。

7.识别由时序帧形成输入中模式的方法，所述方法包含：

用多个多状态隐式马尔可夫模型对模式进行建模；

处理隐式马尔可夫模型块(HMMB)，以识别在所述时间序列帧中的所述建模的模式，以产生识别的建模的模式的序列。

8.如权利要求书7所述的方法，其特征在于所述时间序列帧对应于语音。

9.如权利要求书7所述的方法，其特征在于所述多状态隐式马尔可夫模型是三状态隐式马尔可夫模型。

10.如权利要求书9所述的方法，其特征在于当在状态-时间图表上描述时，每个HMMB是3乘3菱形。

11.如权利要求书9所述的方法，其特征在于处理每个块包括仅与系统高速缓存存储器交互操作。

12.如权利要求书7所述的方法，其特征在于处理所述HMMB包括访问语言模型。

13.模式识别方法包含：

将输入描绘为一连串时间序列帧；以及

处理HMMB和所述序列以产生对应所述输入的识别的模式的输出序列。

14.如权利要求书13所述的方法，其特征在于所述输入对应于语音。

15.如权利要求书13所述的方法，其特征在于每个HMMB包括3个状态。

16.识别由时间序列帧形成输入中模式的方法，所述方法包含：

a)对具有多个多状态隐式马尔可夫模型的模式进行建模；

b)处理第一个多状态隐式马尔可夫模型的第一点；

c)处理所述第一多状态隐式马尔可夫模型的第二点，所述第二点在状态和时间上均与所述第一点不同；以及

d)处理所述第一隐式马尔可夫模型的余下点，以及所述多个多状态隐式马尔可夫模型的另外的点，以识别所述时间序列帧内的所述建模模式，以产生识别的建模模式的序列。

17.如权利要求书16所述的方法，其特征在于所述第一点和所述第二点包含HMMB。