CN1532807A - 块同步译码 - Google Patents

块同步译码 Download PDF

Info

Publication number
CN1532807A
CN1532807A CNA2004100286448A CN200410028644A CN1532807A CN 1532807 A CN1532807 A CN 1532807A CN A2004100286448 A CNA2004100286448 A CN A2004100286448A CN 200410028644 A CN200410028644 A CN 200410028644A CN 1532807 A CN1532807 A CN 1532807A
Authority
CN
China
Prior art keywords
hidden markov
pattern
point
hmmb
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004100286448A
Other languages
English (en)
Inventor
W��H���޿ϱ���
W·H·罗肯贝克
���ŷ�
J·J·欧戴尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1532807A publication Critical patent/CN1532807A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • A41D19/0068Two-dimensional gloves, i.e. obtained by superposition of two sheets of material
    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • A41D19/0082Details
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L17/00Apparatus or implements used in manual washing or cleaning of crockery, table-ware, cooking-ware or the like

Abstract

本发明涉及块同步译码,提供了模式识别系统和方法。本发明的各方面在与多状态隐式马尔可夫模型结合时尤其有用。通过处理隐式马尔可夫模型块来实现模式识别。这个块处理允许处理器当数据在高速缓存存储器中时执行更多的这样数据上操作。通过这样增加高速缓存局部性,本发明的各方面提供显著改善的模式识别速度。

Description

块同步译码
背景技术
本发明涉及模式识别。本发明尤其涉及处理用于模式识别中的信号。
诸如语音识别系统这样的模式识别系统获取输入信号并试图对该信号进行译码,以发现由该信号表示的模式。例如,在语音识别系统中,语音信号(通常指测试信号)由识别系统接收,并且对该语音信号进行译码以识别由该语音信号所表示的词串。
为对引入的测试信号进行译码,绝大多数的识别系统利用一个或多个模型,该模型描述部分测试信号表示特定模式的可能性。这样模型的例子包括神经网络、动态时间翘曲(Dynamic Time Warping)、段模型(segment models),以及隐式马尔可夫模型(HMM)(Hidden Markov Models)。
绝大多数的可商用(commercially-available)语音识别系统使用HMM来匹配语音中的语音模式,语音被分割为搭接的“帧”,这些帧之间通常间隔约10毫秒。将语音分解为这些10毫秒的帧仅为被转换为一系列时序帧(time-sequenced frames)输入的一个例子。传统上,这些帧的估算每次进行1帧;在继续前进到下一帧之前,以循环(round-robin fashion)的方式对单帧更新所有的HMM。
图3阐明HMM的基本表示法,这在许多教科书中详细说明,包括例如由Huang,Acero和Hon所著的口语处理的第八章。在任何指定的时间处,该模型具有处于任何不同状态的特定概率。每个状态具有输出概率分布和到其它状态的转移概率。就语音来说,输出分布模拟从被分为10毫秒帧的原始语音波形中导出的声音特征组。这些转移和输出概率依照已知技术由训练步骤(training step)来产生。
对HMM的译码问题是指定HMM和观察序列,产生该观察序列的最有可能性的状态序列是什么?解决这个问题的标准方法被称为动态规划法,并且该方法图示在图4中。关于图3说明的六状态HMM已经初露端倪,而且时间沿着水平轴进行。指定观察,在这个栅格中的每个“点”(状态和时间的组合)代表HMM在给以观察的时间处于那种状态的概率。一条通过DP矩阵的可能路径以粗体突出显示(1-8-14-21-27-33-40-47-53-59-66),代表特定的排列或状态序列。对点的概率根据先前点的概率,转移概率和在那个时间步的输出概率。既然每个点依靠几个先前点,那么计算对那个点的概率就需要已经首先计算了先前点,从而设置计算顺序的限制。图4中通过点中的数字示出“时间同步”估算顺序;该系统在再次开始下一时间步骤之前,对指定时间步估算所有的状态。注意,由于可允许仅在已计算前任点之后来计算点的任何顺序,所以这个不是仅有的可能估算顺序。灰色的点表明或者为不可达到的或者为不导至可能的结束状态的状态,因此不需要被估算,尽管许多实施例无论如何还是对它们进行估算。
在实时系统中,可能有好几万这样的HMM同时运行。这些模型消耗足够的计算机存储器,以至每次通过整个模型组通常耗尽CPU高速缓存容量。由于仅使用CPU高速缓存的存储器操作比使用较高级的存储器的存储器操作快许多倍,这就大大减慢了语音处理。
解决该问题的另一个方法在由Tony Robinson和James Christie所著的题名为对大量词汇语音识别的时间第一搜索(Time-First Search For LargeVocaburary Speech Recognition)的论文中描述。这个方法本质上将HMM估算的顺序从对指定时间帧估算多模型转换到对指定模型估算多时间帧。这个方法意味着在与标准CPU存储器高速缓存操作协同工作的同时减少处理存储器需求,这是因为许多操作落入相同的物理存储器范围。
为提供对大量词汇应用的实时连续语音识别,需要进一步的改进以便不仅改善CPU高速缓存使用的效率,而且改善处理例程本身的效率。这样,不仅至关紧要的处理速度得到了改善,而且处理准确度也得到了提高。
发明内容
提供模式识别系统和方法。当本发明的诸方面结合多状态隐式马尔可夫模型尤其有用。模式识别可通过处理隐式马尔可夫模型块来实现。这个模块处理允许处理器在数据处于高速缓存存储器中的同时执行更多的这样数据上操作。通过这样增加高速缓存局部性,本发明的各方面提供对模式识别速度的显著改善。
附图说明
图1是其中可实施本发明的一个计算环境的框图。
图2是其中可实施本发明的另选的计算环境的框图。
图3是六状态HMM的图解视图。
图4是用时间作为水平轴的表示的图3六状态HMM的图解视图。
图5是三状态HMM三个一组的图解视图。
图6是依照本发明实施例的隐式马尔可夫模型块(HMMB)的图解视图。
具体实施方式
图1阐明其中可实施本发明的合适计算系统环境100的例子。该计算系统环境100仅为一个合适计算环境的例子,而且并非试图对本发明的使用或功能的范围提出任何限制。计算环境100也不应被解释为对在范例操作环境100中示出的任何一个组件或其组合具有任何依赖或需求。
本发明可用于许多其它通用或专用计算系统环境或配置。可适用于本发明的熟知计算系统、环境和/或配置的例子包括,但不局限于,个人计算机、服务器计算机、手持式或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子装置、网络PC、小型计算机、大型计算机、电话系统、包括任何上述系统或装置的分布计算环境等。
可用由计算机执行的诸如程序模块这样的计算机可执行指令的通用上下文来说明本发明。一般,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。本发明也可用于分布计算环境中,那里通过由通信网络链接的远程处理装置来执行任务。在分布计算环境中,程序模块可位于包括存储器存储装置的本地或者远程计算机存储媒体中。
参考图1,用于实施本发明的范例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括,但不局限于,中央处理单元120,它包括高速缓存存储器122(1级高速缓存)和高速缓存存储器123(2级高速缓存)、系统存储器130、以及将包括系统存储器的不同系统组件联结到处理单元120的系统总线121。高速缓存存储器通过允许数据块从速度较低的系统存储器转移到较高速度的高速缓存存储器而增加处理速度。当前有两个主要类型的高速缓存存储器。1级高速缓存存储器是位于微处理器本身的存储器的部分。这个存储器一般比系统中所有其它的存储器速度快,但是由于这个存储器是直接加到微处理器的硅涵盖表面上的,所以也较昂贵。2级高速缓存一般位于微处理器的附近,但不在其上。这个存储器通常也比系统存储器的速度快,但是比1级高速缓存存储器的速度慢。按照很粗略的指导方针,可认为1级高速缓存的工作速度大约比水平2级高速缓存快一个数量级,且2级高速缓存的工作速度大约比整个系统RAM的工作速度快一个数量级。这样,当高速缓存被最有效率的使用时,系统处理速度就被最大化了。
系统总线121可为几种类型的总线结构的任何一种,包括存储总线或存储器控制器、外围总线,以及使用多种总线体系结构的任何一种的本地总线。作为例子,但非限制,这样的体系结构包括工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线,以及也已知为小背板总线(Mezzanine bus)的外围组件互连(PCI)总线。
计算机110通常包括各种计算机可读媒体。计算机可读媒体可为能够被计算机110存取的任何可用媒体,而且既包括易失性媒体,又包括非易失性媒体,既包括可取走媒体,又包括不可取走媒体。作为例子,但非限制,计算机可读媒体可包含计算机存储媒体和通信媒体。计算机存储媒体包含以任何方法或技术来实现的易失性或者非易失性、可取走或者不可取走的媒体用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息。计算机存储媒体包括,但不局限于,RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CDROM、数字多用途盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁存储装置,或者可用来保存所需信息且可由计算机110存取的任何其它媒体。通信媒体通常包含计算机可读指令、数据结构、程序模块或在诸如载波或其它传送机制这样的调制数据信号中的其它数据,而且包括任何信息传递媒体。术语“调制数据信号”意指具有一个或多个特征组或以对信号中的信息进行编码的方式改变的信号。作为例子,但非限制,通信媒体包括诸如有线网络或直线连接这样的有线媒体,以及诸如声音、RF、红外线的,以及其它无线媒体这样的无线媒体。任何上述的组合也应被包括在计算机可读媒体的范围之内。
系统存储器130包括以诸如只读存储器(ROM)131和随机存取存储器(RAM)132这样的易失性和/或非易失性存储器形式的计算机存储媒体。基本输入/输出系统133(BIOS),它包含帮助(诸如在启动阶段),在计算机110中的元件之间传递信息的基本例程通常被代表性的被保存在ROM 131中。RAM 132通常包含可由处理单元120直接存取和/或目前正由处理单元120操作的数据和/或程序模块。作为例子,但非限制,图1示出操作系统134、应用程序135、其它程序模块136,以及程序数据137。
计算机110也可包括其它可取走/不可取走、易失性/非易失性计算机存储媒体。仅作为例子,图1示出读写到不可取走、非易失性磁性媒体的硬盘驱动器141、读写到可取走、非易失性磁盘152的磁盘驱动器151,以及读写至可取走、非易失性光盘156的光盘驱动器155,该可取走、非易失性光盘156如CD ROM或其它光媒体。可用在范例操作环境中的其它可取走/不可取走、易失性/非易失性计算机存储媒体包括,但不局限于,盒式磁带、闪速存储器卡、数字多用途盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器141通常是通过诸如接口140这样的不可取走存储器接口与系统总线121相连,而磁盘驱动器151和光盘驱动器155通常是通过诸如接口150这样的可取走存储器接口与系统总线121相连。
上面讨论并在图1中示出的驱动器和相关联的计算机存储媒体提供计算机可读指令、数据结构、程序模块和对计算机110的其它数据的存储。在图1中,例如,硬盘驱动器141被示作为保存操作系统144、应用程序145、其它程序模块146,以及程序数据147。注意这些组件既可与操作系统134、应用程序135、其它程序模块136,以及程序数据137相同,也可与其不同。操作系统144、应用程序145、其它程序模块146,以及程序数据147在这里被指定不同的序号,以阐明至少它们是不同的拷贝。
用户可通过诸如键盘162、话筒163以及像鼠标、跟踪球或触摸垫这样点击设备161这样的输入装置将命令和信息输入到计算机110中。其它的输入装置(未示出)可包括操纵杆、游戏垫(game pad)、圆盘式卫星电视天线、扫描仪等。这些和其它的输入装置一般通过与系统总线121联结的用户输入接口160与处理单元120相连,但其也可通过诸如并行口、游戏口或通用串行总线(USB)这样的其它接口和总线连接。监视器191或其它类型的显示装置也通过诸如视频接口190这样的接口与系统总线121相连。除监视器之外,计算机也可包括诸如扬声器197和打印机196这样的其它外围输出装置,它们可通过输出外围接口190进行连接。
计算机110可在使用到诸如远程计算机180这样的一个或多个远程计算机的逻辑连接的网络化环境中工作。远程计算机180可为个人计算机、手持装置、服务器、路由器、网络PC、对等装置(a peer device)或其它公共网络节点,而且通常包括许多或所有上述相对于计算机110示出的元件。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这样的网络环境常见于办公室、企业范围的计算机网络、内联网和国际互联网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170与LAN171相连。在WAN网络环境中使用计算机110时,计算机110通常包括调制解调器172或用于在诸如因特网这样的WAN 173上建立通信的其它装置。调制解调器172可为内置或外置,它可通过用户输入接口160或其它合适的机制与系统总线121相连。在网络化环境中,相对于计算机110示出的程序模块,或其部分,可被保存在远程存储器存储装置中。作为例子,但非限制,图1示出驻留在远程计算机180中的远程应用程序185。应当认识到所示网络连接是范例性的,而且可使用在计算机之间建立通信链路的其它装置。
图2是移动装置200的框图,它是范例计算环境。移动装置200包括微处理器202(包含高速缓存存储器203)、存储器204、输入/输出(I/O)组件206,以及用于与远程计算机或其它移动装置进行通信的通信接口208。在一个实施例中,上述组件联结在一起,以通过合适的总线210互相通信。
存储器204被实施为诸如随机存取存储器(RAM)这样的非易失性电子存储器,它具有电池备份模块(未示出),这样以使当关闭到移动装置200的通用电源时,不丢失保存在存储器204中的信息。部分存储器204更适宜被分配作为用于程序执行的可寻址存储器,而存储器204的另一部分更适宜用于存储,比如模拟磁盘驱动器中的存储。
存储器204包括操作系统212、应用程序214以及对象存储器216。在操作期间,最好由处理器202从存储器204来执行操作系统212。在一个较佳实施例中,操作系统212是来自微软公司可商用的商标为WINDOWSCE的操作系统。最好对移动装置来设计操作系统212,而且该操作系统212实现这样的数据库特征,即应用214可通过一组展现的应用编程界面和方法来利用该数据库特征。对象存储216中的对象由应用214和操作系统212来保持,至少部分响应对展现的应用编程接口和方法的调用。
通信接口208代表允许移动装置200发送和接收信息的许多装置和技术。该装置包括有线和无线调制解调器、卫星接收器和广播调谐器,这里列举了一些。移动装置200也可直接与计算机相连以与之交换数据。在这样的情况下,通信接口208可为红外线收发器或者串行或并行通信连接,所有这些都能传送流动信息。
输入/输出组件206包括多种输入装置,如触敏屏、按钮、滚动条(rollers),以及话筒,还有多种输出装置,包括音频发生器、振动装置,以及显示器。上面列出的装置是作为例子,不必所有的装置都出现在移动装置200上。另外,在本发明的范围内,其它的输入/输出装置可被加到移动装置200中,或在移动装置200中找到。
在本发明的一个方面,提供适用(adapt)HMM处理以显著增加系统高速缓存局部性的系统和方法。因此,在刷新系统高速缓存之前,执行更大量的HMM操作。这样,就对普通系统存储器进行比过去需求少的调用。从而显著提高了处理速度。虽然我们将关于语音处理来说明这些改进,本发明的实施例可被应用来改进对使用HMM的任何形式模式识别的处理。
对语音建模有用的某些模型使用所知为“三状态从左至右不跳跃”(“three-state left-to-right without skipping)的特定HMM拓扑结构。这个拓扑结构在图5和6中阐明。本发明的实施例本质上重新安排HMM估算,使得在估算另一个HMM之前,对单个HMM估算3个帧。这就显著改善高速缓存局部性,从而增加处理速度。
图6表示了被归类到隐式马尔可夫模型块(HMMMB)中的图5模型。每个粗体菱形400示出相应语音单元(即音素(phoneme))的HMMB。在每个HMMB中,提供每个状态的同样数量的帧。这样,在HMMB#1中有3个状态0的帧、3个状态1的帧,以及3个状态2的帧。虽然我们相信可用HMM中不同于状态数量的帧的数量来实现本发明实施例的优点,但是帧的数量最好与HMM状态的数量相等。另外,因为如上面所讨论的,一旦任何指定点的先前点被估算,则该指定点只能被估算,所以出现菱形。选择图6中所示的HMMB的大小以匹配所使用的状态(三状态左-右HMM)的数量。我们预期,不同的HMM拓扑结构可导至不同形状的HMMB,这也落入本发明的精神和范围。例如,十状态左-右HMM(潜在对诸如手写体识别这样的某些其它形式的模式识别有用)将依照十帧HMMB。此外,具有五状态的有时使用的拓扑结构可在每个帧上转移到本身、下一状态,或在其后的状态。在这样情况,三帧HMMB仍旧是可用的(由于任何到HMM的输入要采用至少3帧才能到达输出),但是HMMB的形状将为3帧“宽”,五状态“高”。
依照本发明的实施例,每个HMMB作为一个单元被估算。如这里用到的,HMMB是HMM处理系统中所有点的子集。该块至少包括在时间和状态上均不同的两点。每个HMMB的估算仅依靠先前HMMB的输出。
每个HMMB包括块间进入点(inter-block entry points)、块内进入点(intra-block entry points)、块间退出点(inter-block exit points),以及块内退出点(intra-block exit points)。参考图6,点402、408和414是块间进入点,这是因为它们可接收来自其它HMMB的分数(scores)或数值。点402、404和406是块内进入点,这是因为它们可接收来自相同HMM中先前块的分数。相对于块4,块1将被认为是相同HMM中的先前块。注意,点402不仅是块间进入点,而且也是块内进入点。点406、412和418是块间退出点,这是由于它们可将它们的数值提供到诸如块5这样的其它块的块间进入点。最后,点414、416和418可被认为是块内退出点。
在块处理开始之前,对在块间进入点以及块内进入点处结束的最佳路径的分数已经被预先决定了。另外,到沿着这条最佳路径的以前状态的指针已经被保存在该进入点中。
块处理从第一时间点处(the point that is first in time)开始。在图6中,那个点编号为402。通过用对每个可从点402(404、406)转移的点的转移概率乘点402的分数来处理点402。然后这个分数与被转移点的现有数值进行比较,以决定通过点402的分数是否比被转移点的现有分数高。如果这样,则就更新被转移点以反映新的最大值,而且设置与点402相关联的指针。
一旦处理了点402,点404就可被处理。点404的处理较直截了当,这是因为点404开始被设置成来自相同HMM中紧接前面的块的相应块内退出点和来自块402分数的较大者。类似于点404地处理点406。然而,由于点406是块间退出点,所以其分数将被用来更新其它块的某些块间进入点。
一旦处理了点402,则也可处理点408。点404和点408之间的相对处理顺序是设计选择的问题。处理点408有点类似于点402,这是因为在处理前,结合其转移概率,在点402以及可能连接到点404的所有退出点之中,取最大分数。此外,指针,或者其它合适的记录,被设置为指出产生最大分数的点。处理点408的工作包括用它能够转移的转移概率乘该处理点408的分数以便潜在地更新点410和414的数值。
类似于点404和406来处理点410、412、416和418。而且,点414的处理类似于上述关于点408的处理。
一旦完成块1中的所有处理,则执行退出分数处理。明确的说,对每个块间退出点,参考语言模型。语言模型列出哪些转移是可允许的,以及对在语音单元之间转移的转移概率。这样,例如,语言模型将指出从块1的语音单元到其它语音单元的转移的可允许性和概率。这个概率然后与诸如点406这样的块间退出点的分数结合,以决定该组合是否比现存于下一时间帧内任何可允许(依靠该语言模型)块间进入点的分数大。若该组合确实较大,则更新块间进入点以反映新的最大量,而且设置相关联的指针,或者其它合适的记录。对块间退出点412和418重复这个过程。注意,如图6中虚线所示,块间退出点也可与对相同语音单元时间中下一块的块间进入点相连(即406连接到420)。
点416和418将它们的分数提供到对相同语音单元时间中下一块的块间进入点。最后,如上面说明的关于点402来处理点420,而且处理继续前进到下一块。
一旦完成块1的处理,最好开始对应另一个语音单元的块的处理。图6中按块1-2-3-4-5-6-7-8-9的顺序列出范例块处理顺序。然而,可使用其它顺序而不背离本发明的范围。注意,某些点被变成灰色的,这表明它们或者是不能达到的,或者是不导至可能的结束状态。可通过不实际处理这样的点而获取附加处理效率。
尽管已经参考特定实施例说明了本发明,但是本领域中熟练的技术人员会认识到在不背离本发明主旨和范围的前提下可在形式上和细节上作出改变。

Claims (17)

1.连续模式识别系统包含:
输入装置,适合于提供输入的数字表示;
存储器,操作上与所述输入装置联结,以存储所述数字表示以及相对于所述数字表示的多个多状态模型;
处理器,与所述输入装置和所述存储器联结,所述处理器包括高速缓存存储器,并且适合于将所示数字表示转换为多个时间序列帧;以及
其中所述处理器适合基于处理所述时间序列帧和存储在所述高速缓存存储器中的所述多状态模型的块而产生识别的模式的输出。
2.如权利要求书1所述的系统,其特征在于所述多状态模型是三状态隐式马尔可夫模型。
3.如权利要求书1所述的系统,其特征在于所述输入装置是话筒。
4.如权利要求书1所述的系统,其特征在于识别的模式的所述输出包括单词。
5.如权利要求书1所述的系统,其特征在于所述系统具体体现在计算机内。
6.如权利要求书1所述的系统,其特征在于所述系统具体体现在移动装置中。
7.识别由时序帧形成输入中模式的方法,所述方法包含:
用多个多状态隐式马尔可夫模型对模式进行建模;
处理隐式马尔可夫模型块(HMMB),以识别在所述时间序列帧中的所述建模的模式,以产生识别的建模的模式的序列。
8.如权利要求书7所述的方法,其特征在于所述时间序列帧对应于语音。
9.如权利要求书7所述的方法,其特征在于所述多状态隐式马尔可夫模型是三状态隐式马尔可夫模型。
10.如权利要求书9所述的方法,其特征在于当在状态-时间图表上描述时,每个HMMB是3乘3菱形。
11.如权利要求书9所述的方法,其特征在于处理每个块包括仅与系统高速缓存存储器交互操作。
12.如权利要求书7所述的方法,其特征在于处理所述HMMB包括访问语言模型。
13.模式识别方法包含:
将输入描绘为一连串时间序列帧;以及
处理HMMB和所述序列以产生对应所述输入的识别的模式的输出序列。
14.如权利要求书13所述的方法,其特征在于所述输入对应于语音。
15.如权利要求书13所述的方法,其特征在于每个HMMB包括3个状态。
16.识别由时间序列帧形成输入中模式的方法,所述方法包含:
a)对具有多个多状态隐式马尔可夫模型的模式进行建模;
b)处理第一个多状态隐式马尔可夫模型的第一点;
c)处理所述第一多状态隐式马尔可夫模型的第二点,所述第二点在状态和时间上均与所述第一点不同;以及
d)处理所述第一隐式马尔可夫模型的余下点,以及所述多个多状态隐式马尔可夫模型的另外的点,以识别所述时间序列帧内的所述建模模式,以产生识别的建模模式的序列。
17.如权利要求书16所述的方法,其特征在于所述第一点和所述第二点包含HMMB。
CNA2004100286448A 2003-03-04 2004-03-03 块同步译码 Pending CN1532807A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/379,244 2003-03-04
US10/379,244 US7529671B2 (en) 2003-03-04 2003-03-04 Block synchronous decoding

Publications (1)

Publication Number Publication Date
CN1532807A true CN1532807A (zh) 2004-09-29

Family

ID=32824766

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004100286448A Pending CN1532807A (zh) 2003-03-04 2004-03-03 块同步译码

Country Status (5)

Country Link
US (1) US7529671B2 (zh)
EP (1) EP1455341A3 (zh)
JP (1) JP2004272251A (zh)
KR (1) KR20040078595A (zh)
CN (1) CN1532807A (zh)

Families Citing this family (214)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
JP4801108B2 (ja) * 2008-03-06 2011-10-26 日本電信電話株式会社 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) * 2008-03-06 2011-10-26 日本電信電話株式会社 音声認識装置、方法、プログラム及びその記録媒体
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
WO2013033119A1 (en) 2011-08-29 2013-03-07 Accumente, Llc Utilizing multiple processing units for rapid training of hidden markov models
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH071435B2 (ja) * 1993-03-16 1995-01-11 株式会社エイ・ティ・アール自動翻訳電話研究所 音響モデル適応方式
JPH0792676B2 (ja) * 1993-03-26 1995-10-09 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識方法
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP3531198B2 (ja) * 1994-02-18 2004-05-24 松下電器産業株式会社 言語識別装置
JP3033514B2 (ja) * 1997-03-31 2000-04-17 日本電気株式会社 大語彙音声認識方法及び装置
JP3039634B2 (ja) * 1997-06-16 2000-05-08 日本電気株式会社 音声認識装置
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
EP1055227B1 (en) * 1998-12-21 2004-09-01 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
US7269558B2 (en) * 2000-07-31 2007-09-11 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
AU2000276394A1 (en) 2000-09-30 2002-04-15 Intel Corporation Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition

Also Published As

Publication number Publication date
EP1455341A2 (en) 2004-09-08
JP2004272251A (ja) 2004-09-30
EP1455341A3 (en) 2007-06-20
US7529671B2 (en) 2009-05-05
US20040176956A1 (en) 2004-09-09
KR20040078595A (ko) 2004-09-10

Similar Documents

Publication Publication Date Title
CN1532807A (zh) 块同步译码
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
CN1304941C (zh) 用于自主硬件辅助的线程栈跟踪的装置与方法
US9142209B2 (en) Data pattern analysis
US11107461B2 (en) Low-power automatic speech recognition device
CN1680935A (zh) 通过用户建模的有效大写化
CN1726532A (zh) 基于传感器的语音识别器选择、自适应和组合
CN1725212A (zh) 指数模型的自适应
CN1156820C (zh) 使用词汇树的识别系统
CN1866206A (zh) 利用马尔可夫链根据uml规范生成性能测试
Ding Jr et al. Developments of machine learning schemes for dynamic time-wrapping-based speech recognition
US8886535B2 (en) Utilizing multiple processing units for rapid training of hidden markov models
CN111444719A (zh) 一种实体识别方法、装置和计算设备
CN112652306A (zh) 语音唤醒方法、装置、计算机设备和存储介质
US20080133237A1 (en) Speech Recognition System, Speech Recognition Method and Speech Recognition Program
CN112015473A (zh) 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN1667614A (zh) 语言数据日志的压缩
Zweig et al. Boosting gaussian mixtures in an LVCSR system
US10878806B1 (en) System and computer-executable program code for accelerated rescoring with recurrent neural net language models on hybrid CPU/GPU machines using a frame-wise, delayed dispatch of RNNLM score computation tasks to the GPU(s)
US20220383121A1 (en) Dynamic activation sparsity in neural networks
CN111832815A (zh) 科研热点预测方法及系统
US20190034342A1 (en) Cache design technique based on access distance
CN111199156B (zh) 命名实体识别方法、装置、存储介质及处理器
CN113254104B (zh) 一种用于基因分析的加速器及加速方法
CN113628215B (zh) 图像处理方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20040929