CN105229726A - 用于关键字检测的自适应音频帧处理 - Google Patents

用于关键字检测的自适应音频帧处理 Download PDF

Info

Publication number
CN105229726A
CN105229726A CN201480025428.XA CN201480025428A CN105229726A CN 105229726 A CN105229726 A CN 105229726A CN 201480025428 A CN201480025428 A CN 201480025428A CN 105229726 A CN105229726 A CN 105229726A
Authority
CN
China
Prior art keywords
sound
characteristic
sound characteristic
statistics
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480025428.XA
Other languages
English (en)
Other versions
CN105229726B (zh
Inventor
李敏秀
金泰殊
黄奎雄
金圣雄
真珉豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105229726A publication Critical patent/CN105229726A/zh
Application granted granted Critical
Publication of CN105229726B publication Critical patent/CN105229726B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明揭示一种从输入声音检测目标关键字来激活移动装置中的功能的方法。在此方法中,从输入流提取声音特征,并生成(340)包含特定声音特征的均值和方差的统计。基于所述统计,当当前值与先前值之间的差异不显著时,所述方法自适应地跳过一声音特征的标准化,这具有降低进程负载的效果。详细地说,在缓冲器(330)中接收第一多个声音特征,且在所述缓冲器(330)中接收第二多个声音特征。当在所述缓冲器中接收到所述第二多个声音特征中的每一者时,从所述缓冲器处理第一数目个所述声音特征。所述第一数目个所述声音特征包含两个或多个声音特征。另外,所述方法包含为所述经处理的声音特征中的每一者确定关键字得分(360),以及在所述关键字得分中的至少一者大于阈值得分的情况下,将所述输入声音检测为所述目标关键字(370)。

Description

用于关键字检测的自适应音频帧处理
优先权的主张
本申请案主张共同拥有的2013年5月7日申请的第61/820,464号美国临时专利申请案、2013年7月26日申请的第61/859,048号美国临时专利申请案以及2013年12月10日申请的第14/102,097号美国非临时专利申请案的优先权,上述申请案中的每一者的内容以全文引用的方式明确地并入本文中。
技术领域
本发明大体上涉及移动装置中的语音辨识,且更明确地说,涉及处理输入声音来检测移动装置中的目标关键字。
背景技术
最近,例如智能电话和平板计算机等移动装置的使用已变得普遍。这些装置通常提供经由无线网络的话音和数据通信功能性。另外,此类移动装置通常包含提供为增强用户方便而设计的多种功能的其它特征。
正越来越多地使用的所述特征中的一者为话音助理功能。话音助理功能允许移动装置接收话音命令,并响应于所述话音命令而运行各种应用程序。举例来说,来自用户的话音命令允许移动装置呼叫所要的电话号码,播放音频文件,拍摄图片,搜索因特网,或获得天气信息,而无对移动装置的物理操纵。
在常规移动装置中,通常响应于从输入声音检测到目标关键字而激活话音助理功能。目标关键字的检测通常涉及从输入声音提取声音特征,以及一次使所述声音特征中的一个标准化。然而,以此方式循序地使所述声音特征标准化可能导致从输入声音检测目标关键字的延迟。另一方面,在具有有限电力供应的移动装置中,可立刻执行声音特征的标准化。然而,在此情况下,此标准化通常导致大量的进程负载,这要花费一些时间来返回到正常进程负载,同时耗尽电源。
发明内容
本发明提供用于从移动装置中的输入声音检测目标关键字的方法和设备。
根据本发明的一个方面,揭示一种从输入声音检测目标关键字以激活移动装置中的功能的方法。在此方法中,在缓冲器中接收第一多个声音特征,且在所述缓冲器中接收第二多个声音特征。当在所述缓冲器中接收到所述第二多个声音特征中的每一者时,从所述缓冲器处理第一数目个所述声音特征。所述第一数目个所述声音特征包含两个或多个声音特征。另外,所述方法可包含为所述经处理的声音特征中的至少一者确定关键字得分,以及在所述关键字得分中的至少一者大于阈值得分的情况下,将所述输入声音检测为目标关键字。本发明还描述设备、装置、系统、装置组合以及与此方法有关的计算机可读媒体。
根据本发明的另一方面,一种移动装置包含缓冲器、特征处理单元、关键字得分计算单元以及关键字检测单元。所述缓冲器经配置以存储第一多个声音特征和第二多个声音特征。所述特征处理单元经配置以处理来自缓冲器的第一数目个声音特征,而所述缓冲器接收第二多个声音特征中的每一者。所述第一数目个所述声音特征包含两个或多个声音特征。关键字得分计算单元经配置以为所述经处理的声音特征中的每一者确定关键字得分。如果所述关键字得分中的至少一者大于阈值得分,那么关键字检测单元经配置以将输入声音检测为目标关键字。
附图说明
当结合附图阅读时,将参考以下详细描述来理解本发明的发明性方面的实施例。
图1说明根据本发明一个实施例响应于从输入声音检测到目标关键字而激活移动装置中的话音助理应用程序。
图2说明根据本发明一个实施例的经配置以从输入声音流检测目标关键字并激活话音助理单元的移动装置的框图。
图3说明根据本发明一个实施例的经配置以通过处理来自特征缓冲器的多个声音特征,同时在所述特征缓冲器中接收下一个声音特征来检测目标关键字的话音激活单元的框图。
图4说明根据本发明一个实施例的将输入声音流分段成多个帧并从所述帧提取多个声音特征的图。
图5说明根据本发明一个实施例的展示在从T1到TM的时间周期内从特征提取器接收到且输出到特征处理单元的声音特征的特征缓冲器的图。
图6A是根据本发明一个实施例的在移动装置中执行以从输入声音流检测目标关键字来激活移动装置中的功能的方法的流程图。
图6B是根据本发明一个实施例的在移动装置中执行的用于在已检索并标准化先前的声音特征之后,在特征缓冲器包含小于第一数目个声音特征时,循序地接收和标准化一序列声音特征的方法的流程图。
图7是根据本发明一个实施例的在移动装置中执行的用于基于移动装置的资源信息来调整将由特征处理单元标准化的若干声音特征的方法的流程图。
图8说明其中基于移动装置的可用资源来调整指示将由特征处理单元标准化的若干声音特征的第一数目的示例性图表。
图9说明根据本发明一个实施例的经配置以跳过在从特征缓冲器检索到的第一数目个声音特征之中的一或多个声音特征的标准化的特征处理单元的图。
图10是根据本发明一个实施例的用于基于当前声音特征与先前声音特征之间的差异来确定是否对当前声音特征执行标准化的方法的流程图。
图11是根据本发明一个实施例的在移动装置中执行的用于基于移动装置的资源信息来调整第一数目个声音特征之中将标准化的声音特征的数目的方法的流程图。
图12说明根据本发明另一实施例的其中根据移动装置的可用资源来调整指示第一数目个声音特征之中将标准化的声音特征的数目的示例性图表。
图13说明其中可根据一些实施例来实施用于从输入声音检测目标关键字来激活功能的方法和设备的示例性移动装置的框图。
具体实施方式
图1说明根据本发明一个实施例的响应于从输入声音检测到目标关键字来激活移动装置120中的话音助理应用程序130。为了激活话音助理应用程序130,用户110说出目标关键字,其由移动装置捕获。当移动装置120检测到目标关键字时,激活话音助理应用程序130以在显示器单元上或通过移动装置120的扬声器单元输出消息,例如“需要帮助吗?”。
作为响应,用户110可通过激活说出其它话音命令,经由话音助理应用程序130来激活移动装置120的各种功能。举例来说,用户可通过说出话音命令“播放音乐”来激活音乐播放器140。尽管所说明的实施例响应于检测到目标关键字而激活话音助理应用程序130,但其也可响应于检测相关联的目标关键字来激活任何其它应用程序或功能。在一个实施例中,移动装置120可通过从缓冲器检索多个声音特征以供处理,同时产生和接收下一个声音特征到所述缓冲器中,来检测目标关键字,如下文将更详细地描述。
图2说明根据本发明一个实施例的经配置以从输入声音流210检测目标关键字并激活话音助理单元238的移动装置120的框图。如本文所使用,术语“声音流”指代一序列一或多个声音信号或声音数据。另外,术语“目标关键字”指代可用来激活移动装置120中的功能或应用程序的一或多个字或声音的任何数字或模拟表示。移动装置120包含声音传感器220、处理器230、I/O单元240、存储单元250和通信单元260。移动装置120可为配备有声音捕获和处理能力的任何合适装置,例如蜂窝式电话、智能电话、膝上型计算机、平板个人计算机、游戏装置、多媒体播放器等。
处理器230包含数字信号处理器(DSP)232和话音助理单元238,且可为用于管理和操作移动装置120的应用程序处理器或中央处理单元(CPU)。DSP232包含语音检测器234和话音激活单元236。在一个实施例中,DSP232为用于减少处理声音流时的电力消耗的低电力处理器。在此配置中,DSP232中的话音激活单元236经配置以在输入声音流210中检测到目标关键字时,激活话音助理单元238。尽管在所示出的实施例中,话音激活单元236经配置以激活话音助理单元238,但其也可激活可与目标关键字相关联的任何功能或应用程序。
声音传感器220可经配置以接收输入声音流210,并将其提供给DSP232中的语音检测器234。声音传感器220可包含可用来接收、捕获、感测和/或检测输入声音流210的一或多个麦克风或任何其它类型的声音传感器。另外,声音传感器220可使用任何合适的软件和/或硬件来执行此类功能。
在一个实施例中,声音传感器220可经配置以根据工作周期来周期性地接收输入声音流210。在此情况下,声音传感器220可确定输入声音流210的接收到的部分是否大于阈值声音强度。当输入声音流210的接收到的部分大于阈值声音强度时,声音传感器220激活语音检测器234,并将所述接收到的部分提供给DSP232中的语音检测器234。或者,在不确定接收到的部分是否超过阈值声音强度的情况下,声音传感器220可周期性地接收输入声音流的一部分,并激活语音检测器234以将所述接收到的部分提供给语音检测器234。
为了在检测目标关键字中使用,存储单元250存储目标关键字以及关于与目标关键字的多个部分相关联的多个状态的状态信息。在一个实施例中,可将所述目标关键字分为多个基本声音单元,例如音子、音位或其子单元,且可基于所述基本声音单元产生表示所述目标关键字的多个部分。接着在马尔可夫链模型(例如隐马尔可夫模型(HMM)、半马尔可夫模型(SMM)或其组合)下使目标关键字的每一部分与状态相关联。状态信息可包含从所述状态中的每一者到包含其本身的下一状态的转变信息。存储单元250可使用任何合适的存储或存储器装置来实施,例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或固态驱动器(SSD)。
DSP232中的语音检测器234在被激活时,从声音传感器220接收输入声音流210的所述部分。在一个实施例中,语音检测器234从接收到的部分提取多个声音特征,并通过使用任何合适的声音分类方法(例如基于高斯混合模型(GMM)的分类器、神经网络、HMM、图形模型以及支持向量机(SVM))来确定所提取的声音特征是否指示所关注的声音,例如人类语音。如果确定接收到的部分为所关注的声音,那么语音检测器234激活话音激活单元236,且将输入声音流的所述接收到的部分以及其余部分提供给话音激活单元236。在一些其它实施例中,DSP232中可省略语音检测器234。在此情况下,当接收到的部分大于阈值强度时,声音传感器220激活话音激活单元236,并将输入声音流210的所述接收到的部分和其余部分直接地提供给话音激活单元236。
话音激活单元236在被激活时经配置以连续地接收输入声音流210,并从输入声音流210检测目标关键字。当接收到输入声音流210时,话音激活单元236可从输入声音流210循序地提取多个声音特征。另外,话音激活单元236可处理多个所提取的声音特征中的每一者,获得包含多个状态的状态信息,并转变来自存储单元250的用于目标关键字的信息。对于每一经处理的声音特征,可通过使用任何合适的概率模型,例如GMM、神经网络和SVM,为所述状态中的每一者确定观察得分。
从所述转变信息,话音激活单元236可获得从所述状态中的每一者到对于所述目标关键字来说可能的多个状态序列中的下一状态的转变得分。在确定观察得分并获得转变得分之后,话音激活单元236为可能的状态序列确定得分。在一个实施例中,所确定的得分之中的最大得分可用作经处理的声音特征的关键字得分。如果经处理的声音特征的关键字得分大于阈值得分,那么话音激活单元236将输入声音流210检测为目标关键字。在特定实施例中,阈值得分可为预定阈值得分。在检测到目标关键字后,话音激活单元236产生并发射激活信号来接通话音助理单元238,其与目标关键字相关联。
响应于来自话音激活单元236的激活信号来激活话音助理单元238。一旦被激活,话音助理单元238可接通话音助理应用程序130来在触摸显示器单元上和/或通过I/O单元240的扬声器单元输出消息,例如“需要帮助吗?”。作为响应,用户可说出话音命令来激活移动装置120的各种相关联功能。举例来说,当接收到用于因特网搜索的话音命令时,话音助理单元238可将话音命令辨识为搜索命令,并通过网络270经由通信单元260执行网络搜索。
图3说明根据本发明一个实施例的经配置以通过处理来自特征缓冲器330的多个声音特征,同时在所述特征缓冲器330中接收下一声音特征来检测目标关键字的话音激活单元236的框图。话音激活单元236包含分割单元310、特征提取器320、特征缓冲器330、特征统计生成器340、特征处理单元350、关键字得分计算单元360和关键字检测单元370。当话音激活单元236中的关键字检测单元370检测到目标关键字时,其产生激活信号来接通话音助理单元238。
当语音检测器234确定输入声音流210为人类语音时,分割单元310接收输入声音流210,并将其分割成相等时间周期的多个循序帧。举例来说,可接收输入声音流210,并将其分割成10ms的帧。特征提取器320循序地接收来自分割单元310的经分割帧,并从所述帧中的每一者提取声音特征。在一个实施例中,特征提取器320可使用任何合适的特征提取方法(例如MFCC(梅尔频率倒谱系数)方法)来从所述帧提取声音特征。举例来说,在MFCC方法的情况下,从所述经分割帧中的每一者计算n维向量的分量,并将所述分量用作声音特征。
特征缓冲器330经配置以从特征提取器320循序地接收所提取的声音特征。在10ms帧的情况下,特征缓冲器330可以10ms的间隔接收所述声音特征中的每一者。在一个实施例中,特征缓冲器330可为FIFO(先入先出)缓冲器,其中以接收声音特征的次序将所述声音特征循序地写入到缓冲器并从中读出。在另一实施例中,特征缓冲器330可包含两个或多个存储器,其经配置以接收和存储声音特征,并以接收次序输出一或多个声音特征。举例来说,可使用特征缓冲器330乒乓缓冲器或双重缓冲器来实施特征缓冲器330,其中一个缓冲器接收声音特征,而其它缓冲器输出先前写入的声音特征。在一些实施例中,可在存储单元250中实施特征缓冲器330。
特征统计生成器340存取特征缓冲器330中接收到的声音特征,并生成声音特征的特征统计。特征统计可包含以下各项中的中的至少一者:用于在特征处理单元350中处理声音特征的均值μ、方差σ2、最大值、最小值、噪声功率、信噪比(SNR)、信号功率、熵、峰态、高阶动量等。在一个实施例中,可为特征缓冲器330中最初接收到的多个声音特征生成初始特征统计,并用特征缓冲器330中接收到的后续声音特征中的每一者来更新,以生成经更新的特征统计。举例来说,可为特征缓冲器330中接收到的最初三十个声音特征生成初始特征统计一次,且接着用特征缓冲器330中接收到的后续声音特征中的每一者来更新。
一旦特征统计生成器340为所述多个最初接收到的声音特征生成初始特征统计,特征缓冲器330就接收下一声音特征。当特征缓冲器330接收下一声音特征时,特征处理单元350以接收次序(例如,先入先出)从特征缓冲器330接收第一数目个声音特征,并处理预定数目个声音特征中的每一者。在特定实施例中,第一数目个声音特征可为预定数目个声音特征。举例来说,第一数目个声音特征可为两个或多个声音特征。在一个实施例中,特征处理单元350可基于相关联的特征统计来使第一数目个声音特征中的每一者标准化,所述特征统计包含均值μ和方差σ2。在其它实施例中,特征处理单元350可基于相关联的特征统计,对所述第一数目个声音特征中的每一者执行噪声抑制、回声消除等中的一或多者。
可基于可用处理资源来调整(例如,改进)第一数目个声音特征(例如,两个或多个声音特征)。举例来说,特征处理单元350可在单个时间帧(例如,时钟循环)期间处理多个声音特征,与在单个时间帧期间处理单个声音特征相反。在特定实施例中,可基于资源的可用性来确定特征处理单元350在单个时间帧期间处理的声音特征的数目,如相对于图7到8所述。在此特定实施例中,特征处理单元350所处理的声音特征的数目可基于资源的可用性从时间帧到时间帧变化。作为非限制实例,随着中央处理单元(CPU)的更多资源变为可用,特征处理单元350在时间帧期间可处理较大数目的声音特征。在另一特定实施例中,特征处理单元350在单个时间帧期间所处理的声音特征的数目可从时间帧到时间帧保持大体上恒定。作为非限制实例,特征处理单元350可每时间帧处理两个声音特征,每时间帧处理四个声音特征等。
在一些实施例中,由于已在特征缓冲器330中接收到声音特征的次序来处理所述声音特征,因此特征处理单元350从第一声音特征开始检索和标准化第一数目个声音特征。以此方式,在特征缓冲器330接收下一声音特征所花费的时间期间,特征处理单元350从特征缓冲器330存取并标准化第一数目个声音特征。在特征处理单元350基于初始特征统计完成使最初接收到的声音特征标准化之后,特征处理单元350基于用下一声音特征更新的特征统计来使下一声音特征标准化。关键字得分计算单元360从特征处理单元350接收第一数目个经标准化的声音特征,并为所述经标准化的声音特征中的每一者确定关键字得分。可以入上文参考图2所述的方式来确定关键字得分。
关键字检测单元370接收第一数目个经标准化的声音特征中的每一者的关键字得分,并确定所述关键字得分中的任何一者是否大于阈值得分。作为非限制实例,所述阈值得分可为预定阈值得分。在一个实施例中,如果所述关键字得分中的至少一者大于阈值得分,那么关键字检测单元370可将输入声音流210检测为目标关键字。可将所述阈值得分设定为用于在所要置信等级内检测目标关键字的最小关键字得分。当所述关键字得分中的任何一者超过阈值得分时,关键字检测单元370产生激活信号来接通话音助理单元238。
图4说明根据本发明一个实施例的将输入声音流210分割成多个帧并分别从所述帧提取多个声音特征的图。在话音激活单元236中,当接收到输入声音流210时,分割单元310循序地分割输入声音流210以产生多个帧R1到RM。在此过程中,可根据固定时间周期来分割输入声音流210,使得所述多个帧R1到RM具有相等的时间周期。
当产生多个帧R1到RM中的每一者时,特征提取器320循序地接收帧R1到RM,并分别从帧R1到RM提取多个声音特征F1到FM。在一个实施例中,可以MFCC向量的形式提取声音特征F1到FM。接着将所提取的声音特征F1到FM循序地提供给特征缓冲器330,以供存储和处理。
图5说明根据本发明一个实施例的展示在从T1到TM的时间周期内从特征提取器320接收并输出到特征处理单元350的声音特征的特征缓冲器330的图。在一些实施例中,时间周期T1到TM中的每一者指示在特征缓冲器330中接收当前声音特征和下一声音特征之间的时间周期。特征处理单元350经配置以在已生成了N个声音特征(例如,30个声音特征)的初始特征统计SN之后,开始使来自特征缓冲器330的声音特征标准化。在时间周期T1到TN-1期间,尚未接收到N个声音特征来生成初始特征统计SN。因此,特征处理单元350等待,直到特征缓冲器330接收到N个声音特征来使特征统计生成器340能够生成初始特征统计SN为止。
在时间周期T1到TN期间,特征缓冲器330循序地接收并分别存储声音特征F1到FN。一旦特征缓冲器330接收到N个声音特征F1到FN,特征统计生成器340就从特征缓冲器330存取声音特征F1到FN,以生成初始特征统计SN。在所示出的实施例中,在时间周期T1到TN期间,特征处理单元350不使来自特征缓冲器330的任何声音特征标准化。
在时间周期TN+1期间,当特征缓冲器330接收到声音特征FN+1时,特征处理单元350从特征缓冲器330检索若干声音特征(例如,预定数目的声音特征)并使其标准化。在所示出的实施例中,在时间周期TN+1期间,特征处理单元350基于初始特征统计SN,从特征缓冲器330检索前两个声音特征F1和F2,并使其标准化。或者,特征处理单元350可经配置以在时间周期TN期间,基于初始特征统计SN来使声音特征F1和F2标准化。将特征缓冲器330中由特征处理单元350检索和标准化的声音特征指示为具有点线的框。
由于特征处理单元350在时间周期TN+1期间使声音特征F1和F2标准化,因此接收与标准化声音特征F1和F2之间的时间延迟分别大约为N个时间周期和N-1个时间周期。当特征缓冲器330接收到声音特征FN+1时,特征统计生成器340从特征缓冲器330存取声音特征FN+1,并在时间周期TN+1期间,用声音特征FN+1来更新初始特征统计SN,以生成经更新的特征统计SN+1。或者,在特征处理单元350使声音特征FN+1标准化之前,特征统计生成器340可在任何时间用声音特征FN+1来更新初始特征统计SN,以生成经更新的特征统计SN+1
在时间周期TN+2期间,当特征缓冲器330接收到声音特征FN+2时,特征处理单元350基于初始特征统计SN来从特征缓冲器330检索接下来的两个声音特征F3和F4,并使其标准化。当特征缓冲器330接收声音特征FN+2,特征统计生成器340从特征缓冲器330存取声音特征FN+2,并在时间周期TN+2期间用声音特征FN+2来更新先前特征统计SN+1,以生成经更新的特征统计SN+2。以此方式,特征处理单元350基于初始特征统计SN来使声音特征F1到FN中的每一者标准化,并通过递归地更新特征统计来使包含FN+1的后续声音特征中的每一者标准化。
在时间周期TN+3到TM-1中,存储在特征缓冲器330中的声音特征的数目在每一时间周期减少一,因为当检索和标准化两个声音特征时,一个声音特征被写入到特征缓冲器330中。在这些时间周期期间,特征统计生成器340存取声音特征FN+3到FM-1,并用声音特征FN+3到FM-1来更新先前特征统计,以分别生成经更新的特征统计SN+3到SM-1。举例来说,在时间周期TN+3期间,特征统计生成器340存取声音特征FN+3,并用声音特征FN+3来更新特征统计SN+2,以生成经更新的特征统计SN+3。在所示出的实施例中,在时间周期TM-1期间,当特征缓冲器330接收到声音特征FM-1时,特征处理单元350分别基于特征统计SM-3和SM-2来从特征缓冲器330检索声音特征FM-3和FM-2并使其标准化。
如图5中所说明,在时间周期TM-1结束时,声音特征FM-1是存储在特征缓冲器330中的唯一声音特征,因为特征处理单元350已从特征缓冲器330检索到声音特征FM-3和FM-2并使其标准化。因此,特征缓冲器330在每一时间周期期间包含一个声音特征。因此,在时间周期TM期间,当特征缓冲器330接收到声音特征FM时,特征处理单元350基于特征统计SM-1来从特征缓冲器330检索声音特征FM-1,并使其标准化。当特征缓冲器330包含一个以上声音特征时,通过使多个声音特征标准化,可实质上减少接收和标准化此类声音特征之间的延迟。
图6A是根据本发明一个实施例的在移动装置120中执行的用于从输入声音流检测目标关键字以激活移动装置120中的功能的方法的流程图。在移动装置120中,特征缓冲器330在602处,从特征提取器320循序地接收输入声音流的第一多个声音特征。如参考图5所述,可接收N个声音特征F1到FN(例如,30个声音特征),并将其存储在特征缓冲器330中,以用于生成初始特征统计SN。在一个实施例中,接收第一多个声音特征可包含将输入声音流的第一部分分割成第一多个帧,以及从所述第一多个帧提取所述第一多个声音特征。
当已在特征缓冲器330中接收到第一多个声音特征时,特征统计生成器340在604处为所述第一多个声音特征生成初始特征统计SN,例如,均值μ和方差σ2。对于以MFCC向量的形式提取的声音特征,每一声音特征包含多个分量。在此情况下,所述特征统计可包含所述声音特征的分量中的每一者的均值μ和方差σ2。在一个实施例中,在特征缓冲器330已接收到第一多个声音特征之后,特征统计生成器340可存取所述第一多个声音特征。在另一实施例中,当特征缓冲器330接收到所述声音特征之后,特征统计生成器340可存取所述第一多个声音特征中的每一者。
在所说明的方法中,在时间周期T期间,当在606处将第二多个声音特征的下一声音特征写入到特征缓冲器330中时,特征处理单元350在610和612处,从特征缓冲器330的输出接收第一数目个声音特征,并使其标准化。在输入侧,特征缓冲器330在606处接收第二多个声音特征的下一声音特征(例如,FN+1)。当在特征缓冲器330中接收到下一声音特征(例如,FN+1)时,特征统计生成器340在608处从特征缓冲器330存取下一声音特征(例如,FN+1),并用所述下一声音特征(例如,FN+1)来更新先前特征统计(例如,SN),以生成经更新的特征统计(例如,SN+1)。举例来说,特征统计生成器340通过计算声音特征F1到FN+1的新的均值μ和新的方差σ2来生成经更新的特征统计SN+1
在特征缓冲器330的输出侧,特征处理单元350在610处从特征缓冲器330检索包含两个或多个声音特征的第一数目个声音特征。特征处理单元350接着在612处,基于所述特征统计(例如,SN)来使检索到的第一数目个声音特征(例如,F1和F2)标准化。在一个实施例中,如果检索到的声音特征是来自第一多个声音特征,那么特征处理单元350可基于初始特征统计来使检索到的声音特征中的每一者标准化。对于后续声音特征(例如,FN+1),特征处理单元350可基于经递归更新的特征统计(例如,SN+1)来使所述检索到的声音特征中的每一者标准化。在使用MFCC方法来提取声音特征的情况下,声音特征可呈MFCC向量的形式,且基于MFCC向量的每一分量的均值和方差值而标准化。
在614处,关键字得分计算单元360接收经标准化的声音特征,并为所述经标准化的声音特征中的每一者确定关键字得分,如上文参考图2所描述。在616处,关键字检测单元370接收经标准化的声音特征的关键字得分,并确定所述关键字得分中的任何一者是否大于阈值得分。在一个实施例中,如果所述关键字得分中的至少一者大于阈值得分,那么关键字检测单元370可检测输入声音流中的目标关键字。如果所述关键字得分中的任何一者大于阈值得分,那么关键字检测单元370在618处激活话音助理单元238。
另一方面,如果所述关键字得分中无一者大于阈值得分,那么方法进行到620,以确定特征缓冲器330是否包含少于第一数目个声音特征。如果特征缓冲器330包含少于第一数目个声音特征,那么方法进行到图6B中的622和626,以在特征缓冲器330中接收到下一声音特征时,使来自特征缓冲器330的其余声音特征标准化。否则,方法返回进行到606和610。
图6B是根据本发明一个实施例的在移动装置120中执行的方法,所述方法用于在已检索并标准化先前声音特征之后,在特征缓冲器330包含少于第一数目个声音特征时,循序地接收和标准化一序列声音特征。最初,如果在620处确定特征缓冲器330包含少于第一数目个声音特征(例如,FM-1),那么特征处理单元350在626处,从特征缓冲器330检索其余声音特征(例如,FM-1),并在628处,基于相关联的特征统计(例如,SM-1)使声音特征(例如,FM-1)标准化。当检索和标准化其余声音特征时,在622处,在特征缓冲器330中接收第二多个声音特征的下一声音特征(例如,FM)。当在特征缓冲器330中接收到下一声音特征(例如,FM)时,特征统计生成器340在624处从特征缓冲器330存取所述下一声音特征(例如,FM),并用下一声音特征(例如,FM)来更新先前特征统计(例如,SM-1),以生成经更新的特征统计(例如,SM)。
在特征处理单元350已在628处使声音特征标准化之后,关键字得分计算单元360接收所述经标准化的声音特征,并在630处,为经标准化的声音特征确定关键字得分,如上文参考图2所描述。接着在632处,关键字检测单元370接收经标准化的声音特征的关键字得分,并确定所述关键字得分是否大于阈值得分。如果关键字得分大于阈值得分,那么关键字检测单元370在634处激活话音助理单元238。另一方面,如果关键字得分不超过阈值得分,那么方法返回进行到622和626。
图7是根据本发明一个实施例的在移动装置120中执行的用于基于移动装置120的资源信息来调整将由特征处理单元350标准化的声音特征的数目的方法的流程图。在710处,特征处理单元350接收第一数目,其指示将从特征缓冲器330检索并标准化的声音特征。特征处理单元350在720处接收移动装置120的当前资源信息,例如关于处理器资源的可用性的信息、处理器温度、其余电量信息等。处理器可为图2中所示的DSP232或处理器230。特征处理单元350接着在730处基于接收到的资源信息来确定移动装置120的当前资源是否足以在特征缓冲器330中接收下一声音特征的时间周期期间使第一数目个声音特征标准化。
如果移动装置120的当前资源不足以使第一数目个声音特征标准化,那么特征处理单元350在740处减小第一数目。另一方面,如果移动装置120的当前资源是足够的,那么特征处理单元350在750处确定移动装置120的当前资源是否足以使更多的声音特征标准化。如果移动装置120的资源不足以使更多的声音特征标准化,那么特征处理单元350在760处维持第一数目。否则,特征处理单元350可使更多的声音特征标准化,并进行到770以增加第一数目。
图8说明本发明的另一实施例中的示例性图表800,其中在一时间周期内,基于移动装置120的可用资源来调整指示将由特征处理单元350标准化的声音特征的数目的第一数目。在第一时间周期P1期间,第一数目为二,且当特征缓冲器330接收单个声音特征时,特征处理单元350检索并标准化两个声音特征。接着,在第二时间周期P2期间,移动装置120的可用资源增加,以允许四个声音特征的标准化。因此,将第一数目调整为四。在下一时间周期P3,移动装置120的可用资源减少,以允许三个声音特征的标准化。因此,将第一数目调整为三。
图9说明根据本发明一个实施例的特征处理单元350的图,特征处理单元350经配置以跳过从特征缓冲器330检索到的第一数目个声音特征之中的一或多个声音特征的标准化。如结合图5所述,特征处理单元350经配置以在已生成N个声音特征(例如,30个声音特征)的初始特征统计SN之后,开始使来自特征缓冲器330的声音特征标准化。因此,在时间周期T1到TN期间,特征缓冲器330循序地接收和存储声音特征F1到FN。一旦特征缓冲器330接收到N个声音特征F1到FN,特征统计生成器340就从特征缓冲器330存取声音特征F1到FN,以生成初始特征统计SN。因此,在时间周期T1到TN期间,特征处理单元350不使来自特征缓冲器330的任何声音特征标准化。
在时间周期TN+1期间,特征处理单元350从特征缓冲器330检索第一数目个声音特征,并在特征缓冲器330接收到声音特征FN+1时,使第一数目个声音特征中的一或多个声音特征标准化。如图所示,特征处理单元350从特征缓冲器330检索前三个声音特征F1、F2和F3,跳过声音特征F3的标准化,并基于初始特征统计SN来使两个声音特征F1和F2标准化。将特征缓冲器330中由特征处理单元350检索的声音特征指示为具有点线的框,且将特征处理单元350中接收到但未标准化的声音特征也指示为点线的框。或者,声音特征F3的跳过可通过特征处理单元350仅从特征缓冲器330检索未经标准化的声音特征(即,F1和F2)来实施。
在一个实施例中,关键字得分计算单元360通过使用声音特征F2的经标准化的声音特征作为声音特征F3的经标准化的声音特征,来为声音特征F3的经标准化的声音特征计算关键字得分。可针对从特征缓冲器330接收到的后续声音特征(例如,F6)重复跳过过程。因此,可通过使用先前声音特征的经标准化声音特征以及观察得分作为所跳过的声音特征的经标准化声音特征和观察得分,来实质上减少进程负载。另外,由于所跳过的声音特征与代替于所跳过的声音特征来确定关键字得分的先前声音特征之间的差异通常不大,因此跳过不会使检测目标关键字的性能显著降级。
图10是根据本发明一个实施例用于基于当前声音特征与先前声音特征之间的差异来确定是否对当前声音特征执行标准化的方法的流程图。特征处理单元350在610处从特征缓冲器330检索两个或多个声音特征。对于所述两个或多个声音特征中的每一者,特征处理单元350在1010处确定作为将经标准化的当前声音特征的声音特征与先前声音特征之间的差异。可通过使用任何合适的距离度量计算所述声音特征之间的距离,来确定所述声音特征之间的差异,所述距离度量例如为欧几里得(Euclidean)距离、马氏(Mahalonobis)距离、p-范距离、汉明(Hamming)距离、曼哈顿(曼哈顿)距离、切比雪夫(Chebyshev)距离等。
如果在1020处确定所述差异小于阈值差异,那么特征处理单元350跳过当前声音特征的标准化,并在1030处,使用先前经标准化的声音特征作为当前经标准化的声音特征。举例来说,如果当前声音特征F3与先前声音特征F2之间的差异小于阈值差异,那么特征处理单元350可跳过声音特征F3的标准化,并使用声音特征F2的经标准化的声音特征作为声音特征F3的当前经标准化的声音特征。
如果在1020处确定差异等于或大于阈值差异,那么特征处理单元350在1040处,基于相关联的特征统计来使当前声音特征标准化。特征处理单元350接着将当前经标准化的声音特征提供给关键字得分计算单元360,来为当前声音特征确定关键字得分。通过在声音特征与先前声音特征之间的差异不大时,通过自适应地跳过所述声音特征的标准化,可显著减少进程负载,而不使检测目标关键字的性能实质上降级。
图11是根据本发明一个实施例的在移动装置120中执行的用于基于移动装置120的资源信息来调整第一数目个声音特征之中将标准化的声音特征的数目的方法的流程图。在1110处,特征处理单元350接收将从特征缓冲器330检索的第一数目个声音特征。特征处理单元350接着在1120处接收第一数目个声音特征之中将标准化的声音特征的数目。
特征处理单元350在1130处接收移动装置120的当前资源信息。特征处理单元350接着在1140处,基于接收到的资源信息来确定移动装置120的当前资源是否足以在特征缓冲器330中接收声音特征的时间周期期间,使第一数目个声音特征之中的所述数目的声音特征标准化。如果移动装置120的当前资源不足以使所述数目的声音特征标准化,那么特征处理单元350在1150处减小将标准化的声音特征的数目。就是说,增加从特征缓冲器330检索到但未由特征处理单元350标准化的声音特征的数目,使得进程负载减少。
另一方面,如果在1140处,确定移动装置120的当前资源是充足的,那么特征处理单元350在1160处,确定移动装置120的当前资源是否足以使更多声音特征标准化。如果移动装置120的资源不足以使更多声音特征标准化,那么特征处理单元350在1170处,维持将标准化的声音特征的数目。否则,移动装置120可使更多声音特征标准化,并进行到1180,以增加将标准化的声音特征的数目,使得检测目标关键字的性能得以增强。
图12说明本发明的另一实施例中的示例性图表1200,其中在连续时间周期P1到P3内,根据移动装置120的可用资源来调整指示第一数目个声音特征之中将标准化的声音特征的数目。如图所示,将从特征缓冲器330检索的声音特征的第一数目为四。在第一时间周期P1期间,一旦特征处理单元350检索到四个声音特征,其就使所述声音特征中的两个标准化,同时跳过另外两个声音特征的标准化。
接着,在第二时间周期P2期间,移动装置120的可用资源增加,以允许四个声音特征的标准化。因此,将标准化的声音特征的数目调整为四,且特征处理单元350进行到使所有四个声音特征标准化。在下一时间周期P3处,移动装置120的可用资源减少,以允许三个声音特征的标准化。因此,将经标准化的声音特征的数目调整为三,且特征处理单元350进行到跳过一个声音特征的标准化。
图13说明根据本发明的一些实施例的无线通信系统中的移动装置1300的框图,在所述无线通信系统中,可实施用于从输入声音检测目标关键字来激活功能的方法和设备。移动装置1300可为蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信系统可为码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等。
移动装置1300可能够经由接收路径和发射路径提供双向通信。在接收路径上,基站所发射的信号由天线1312接收,并提供给接收器(RCVR)1314。接收器1314调节并数字化接收到的信号,并将经调节和数字化的信号提供给数字部分1320,来进行进一步处理。在发射路径上,发射器(TMTR)接收将从数字部分1320发射的数据,处理并调节所述数据,并产生经调制的信号,其经由天线1312发射到基站。接收器1314和发射器1316是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的部分。
所述数字部分1320包含各种处理、接口和存储器单元,例如调制解调器处理器1322、精简指令集计算机/数字信号处理器(RISC/DSP)1324、控制器/处理器1326、内部存储器1328、一般化音频编码器1332、一般化音频解码器1334、图形/显示处理器1336,和/或外部总线接口(EBI)1338。调制解调器处理器1322执行用于数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP1324为移动装置1300执行一般和专门处理。控制器/处理器1326控制数字部分1320内的各种处理和接口单元的操作。内部存储器1328存储用于数字部分1320内的各种单元的数据和/或指令。
一般化音频编码器1332对来自音频来源1342、麦克风1343等的输入信号执行编码。一般化音频解码器1334为经译码的音频数据执行解码,并将输出信号提供给扬声器/头戴式耳机1344。应注意,不一定要求一般化音频编码器1332和一般化音频解码器1334与音频来源、麦克风1343和扬声器/头戴式耳机1344介接,且因此在移动装置1300中未展示。图形/显示处理器1336对呈现给显示单元1346的图形、视频、图像和文本执行处理。EBI1338促进数字部分1320与主存储器1348之间的数据传送。
用一或多个处理器、DSP、微处理器、RISC等来实施数字部分1320。数字部分1320也制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
一般来说,本文所描述的任何装置指示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道进行通信的装置,等等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动装置、远程台、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文所描述的任何装置可具有用于存储指令和数据的存储器,以及硬件、软件、固件或其组合。
本文所描述的技术由各种装置实施。举例来说,这些技术可在硬件、固件、软件或其组合中实施。所属领域的技术人员将进一步了解,结合本文的揭示内容而描述的各种例示性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件,或两者的组合。为了清楚地说明硬件与软件的这种可互换性,上文已大体上依据其功能性描述了所述各种例示性组件、块、模块、电路和步骤。将此功能性实施为硬件还软件取决于特定应用,以及强加于整个系统上的设计约束。熟练的技术人员可针对每一特定应用,以不同方式来实施所描述的功能性,但此类实施决策不应被解释为导致脱离本发明的范围。
对于硬件实施例,用于执行所述技术的处理单元是在经设计来执行本文所述的功能的一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、其它电子单元、计算机或其组合内实施。
因此,结合本文的揭示内容而描述的各种例示性逻辑块、模块和电路可用经设计以执行本文所描述的功能的通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可为微处理器,但在替代方案中,处理器可为任何处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的联合、结合DSP核的一个或一个以上微处理器,或任何其它此类配置。
如果在软件中实施,所述功能可存储在计算机可读媒体处。计算机可读媒体包含计算机存储媒体和通信媒体两者,所述通信媒体包含促进计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。作为实例,且不限于此,此计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于以指令或数据结构的形式运载或存储所要程序代码且可由计算机存取的任何其它媒体。另外,任何连接均可适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术,从网站、服务器或其它远程来源传输所述软件,那么所述同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。磁盘和光盘,如本文所使用,包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘以及蓝光光盘,,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。举例来说,计算机可读存储媒体可为包含可由处理器执行的指令的非暂时性计算机可读存储装置。因此,计算机可读存储媒体可不是信号。
提供对本发明的先前描述,来使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员将容易明白对本发明的各种修改,且在不脱离本发明的范围的情况下,本文所定义的一般原理适用于其它变化。因此,本发明无意限于本文所描述的实例,而是被赋予与本文所揭示的原理和新颖特征一致的最宽范围。
尽管示例性实施例涉及在一或多个独立计算机系统的上下文中利用本发明所揭示标的物的方面,但所述标的物不限于此,而是可结合任何计算环境,例如网络或分布式计算环境来实施。更进一步,可在多个处理芯片或装置中或跨多个处理芯片或装置来实施本发明所揭示标的物的方面,且存储可类似的跨多个装置完成。此类装置可包含PC、网络服务器和手持式装置。
尽管已用结构特征和/或方法动作特定的语言描述了标的物,但将理解,所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。相反,将上文所描述的特定特征和动作揭示为实施所附权利要求书的实例形式。

Claims (30)

1.一种从输入声音检测目标关键字来激活移动装置中的功能的方法,所述方法包括:
在缓冲器中接收第一多个声音特征;
在所述缓冲器中接收第二多个声音特征;
当在所述缓冲器中接收到所述第二多个声音特征中的至少一个声音特征时,处理来自所述缓冲器的第一数目个声音特征,所述第一数目个声音特征包含两个或多个声音特征;
为所述经处理的声音特征中的至少一个声音特征确定关键字得分;以及
如果所述关键字得分大于阈值得分,那么将所述输入声音检测为所述目标关键字。
2.根据权利要求1所述的方法,其中处理所述第一数目个声音特征包括:
从所述缓冲器检索所述第一数目个声音特征;以及
基于特征统计来处理所述检索到的声音特征。
3.根据权利要求2所述的方法,其中所述特征统计包含均值和方差,且其中处理所述检索到的声音特征包括基于所述特征统计来使所述检索到的声音特征标准化。
4.根据权利要求2所述的方法,其中处理所述检索到的声音特征包括基于所述第一多个声音特征的所述特征统计,来处理所述第一多个声音特征中的声音特征。
5.根据权利要求2所述的方法,其中处理所述检索到的声音特征包括:
用所述第二多个声音特征中的声音特征来更新所述特征统计;以及
基于所述经更新的特征统计来处理所述第二多个声音特征中的所述声音特征。
6.根据权利要求2所述的方法,其中处理所述检索到的声音特征包括基于所述特征统计来处理选定数目个所述检索到的声音特征。
7.根据权利要求6所述的方法,其中基于所述移动装置的资源信息来调整所述选定数目。
8.根据权利要求2所述的方法,其中处理所述检索到的声音特征包括:
将所述检索到的声音特征之中的一声音特征识别为当前声音特征;
确定所述当前声音特征与先前声音特征之间的差异;以及
如果所述差异小于阈值,那么使用所述先前声音特征的经处理的声音特征作为所述当前声音特征的经处理的声音特征。
9.根据权利要求1所述的方法,其中基于所述移动装置的资源信息来调整所述第一数目。
10.根据权利要求1所述的方法,其中为所述经处理的声音特征中的所述至少一个声音特征确定所述关键字得分包括使用马尔可夫链模型来计算所述关键字得分。
11.根据权利要求1所述的方法,其中处理所述第一数目个声音特征包括:如果所述缓冲器中的所述声音特征的特定数目小于所述第一数目,那么处理位于所述缓冲器中的所述特定数目个声音特征。
12.根据权利要求1所述的方法,
其中在所述缓冲器中接收所述第一多个声音特征包括:
将所述输入声音的第一部分分割为第一多个帧;以及
从所述第一多个帧中的至少一个帧提取第一声音特征,
其中在所述缓冲器中接收所述第二多个声音特征包括:
将所述输入声音的第二部分分割为第二多个帧;以及
从所述第二多个帧中的至少一个帧提取第二声音特征。
13.根据权利要求1所述的方法,其进一步包括响应于将所述输入声音检测为所述目标关键字,激活与所述目标关键字相关联的所述功能。
14.一种移动装置,其包括:
缓冲器,其经配置以存储第一多个声音特征和第二多个声音特征;
特征处理单元,其经配置以在所述缓冲器接收到所述第二多个声音特征中的每一者时,处理来自所述缓冲器的第一数目个声音特征,所述第一数目个所述声音特征包含两个或多个声音特征;
关键字得分计算单元,其经配置以为所述经处理的声音特征中的每一者确定关键字得分;以及
关键字检测单元,其经配置以在所述关键字得分中的至少一者大于阈值得分的情况下,将输入声音检测为目标关键字。
15.根据权利要求14所述的移动装置,其中所述特征处理单元进一步经配置以:
从所述缓冲器检索所述第一数目个所述声音特征;以及
基于特征统计来处理所述检索到的声音特征。
16.根据权利要求15所述的移动装置,其中所述特征统计包含均值和方差,且其中所述特征处理单元进一步经配置以基于所述特征统计来使所述检索到的声音特征标准化。
17.根据权利要求15所述的移动装置,其中所述特征处理单元进一步经配置以基于特征统计来处理所述第一多个声音特征中的声音特征。
18.根据权利要求15所述的移动装置,其中基于所述第二多个声音特征中的声音特征的统计来更新所述特征统计,且其中所述特征处理单元进一步经配置以基于所述经更新的特征统计来处理所述第二多个声音特征中的所述声音特征。
19.根据权利要求15所述的移动装置,其中所述特征处理单元进一步经配置以基于所述特征统计来处理选定数目的所述检索到的声音特征。
20.根据权利要求19所述的移动装置,其中基于所述移动装置的资源信息来调整选定数目。
21.根据权利要求15所述的移动装置,其中所述特征处理单元进一步经配置以:
将所述检索到的声音特征之中的一声音特征识别为当前声音特征;
确定所述当前声音特征与先前声音特征之间的差异;以及
如果所述差异小于阈值,那么使用所述先前声音特征的经处理的声音特征作为所述当前声音特征的经处理的声音特征。
22.根据权利要求14所述的移动装置,其中基于所述移动装置的资源信息来调整所述第一数目。
23.根据权利要求14所述的移动装置,其中所述特征处理单元进一步经配置以在所述缓冲器中的所述声音特征的所述数目小于所述第一数目的情况下,处理位于所述缓冲器中的所述声音特征。
24.根据权利要求14所述的移动装置,其中所述关键字检测单元进一步经配置以基于所述输入声音被检测为所述目标关键字而激活与所述目标关键字相关联的功能。
25.一种移动装置,其包括:
用于存储声音特征的装置,其中所述声音特征包含第一多个声音特征和第二多个声音特征;
用于在所述用于存储所述声音特征的装置接收到所述第二多个声音特征中的每一者时,处理来自所述用于存储所述声音特征的装置的第一数目个声音特征的装置,所述第一数目个所述声音特征包含两个或多个声音特征;
用于为所述经处理的声音特征中的每一者确定关键字得分的装置;以及
用于在所述关键字得分中的至少一者大于阈值得分的情况下,将输入声音检测为目标关键字的装置。
26.根据权利要求25所述的移动装置,其中所述用于处理所述第一数目个所述声音特征的装置经配置以:
从所述用于存储所述声音特征的装置检索所述第一数目个所述声音特征;以及
基于特征统计来处理所述检索到的声音特征。
27.根据权利要求26所述的移动装置,其中所述特征统计包含均值和方差,且其中所述用于处理所述第一数目个所述声音特征的装置进一步经配置以基于所述特征统计来使所述检索到的声音特征标准化。
28.一种存储用于从输入声音检测目标关键字来激活移动装置中的功能的指令的非暂时性计算机可读存储媒体,所述指令致使处理器执行操作,所述操作包括:
在缓冲器中接收第一多个声音特征;
在所述缓冲器中接收第二多个声音特征;
当在所述缓冲器中接收到所述第二多个声音特征中的每一者时,处理来自所述缓冲器的第一数目个所述声音特征,所述第一数目个所述声音特征包含两个或多个声音特征;
为所述经处理的声音特征中的每一者确定关键字得分;以及
如果所述关键字得分中的至少一者大于阈值得分,那么将所述输入声音检测为所述目标关键字。
29.根据权利要求28所述的非暂时性计算机可读存储媒体,其中基于所述移动装置的资源信息来调整所述第一数目。
30.根据权利要求28所述的非暂时性计算机可读存储媒体,其中处理所述第一数目个声音特征包括:如果所述缓冲器中的声音特征的特定数目小于所述第一数目,那么处理位于所述缓冲器中的所述特定数目个声音特征。
CN201480025428.XA 2013-05-07 2014-04-24 用于关键字检测的自适应音频帧处理 Expired - Fee Related CN105229726B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361820464P 2013-05-07 2013-05-07
US61/820,464 2013-05-07
US201361859048P 2013-07-26 2013-07-26
US61/859,048 2013-07-26
US14/102,097 US20140337030A1 (en) 2013-05-07 2013-12-10 Adaptive audio frame processing for keyword detection
US14/102,097 2013-12-10
PCT/US2014/035244 WO2014182459A1 (en) 2013-05-07 2014-04-24 Adaptive audio frame processing for keyword detection

Publications (2)

Publication Number Publication Date
CN105229726A true CN105229726A (zh) 2016-01-06
CN105229726B CN105229726B (zh) 2019-04-02

Family

ID=51865435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480025428.XA Expired - Fee Related CN105229726B (zh) 2013-05-07 2014-04-24 用于关键字检测的自适应音频帧处理

Country Status (6)

Country Link
US (1) US20140337030A1 (zh)
EP (1) EP2994911B1 (zh)
JP (1) JP2016522910A (zh)
KR (1) KR20160005050A (zh)
CN (1) CN105229726B (zh)
WO (1) WO2014182459A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
TWI690919B (zh) * 2017-05-27 2020-04-11 大陸商騰訊科技(深圳)有限公司 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10460722B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Acoustic trigger detection
US10460729B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Binary target acoustic trigger detecton
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
WO2020171809A1 (en) 2019-02-20 2020-08-27 Google Llc Utilizing pre-event and post-event input streams to engage an automated assistant
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
EP4134842A1 (en) * 2019-07-17 2023-02-15 Google LLC Systems and methods to verify trigger keywords in acoustic-based digital assistant applications
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
US20210225366A1 (en) * 2020-01-16 2021-07-22 British Cayman Islands Intelligo Technology Inc. Speech recognition system with fine-grained decoding
US11269592B2 (en) * 2020-02-19 2022-03-08 Qualcomm Incorporated Systems and techniques for processing keywords in audio data
US11778361B1 (en) * 2020-06-24 2023-10-03 Meta Platforms Technologies, Llc Headset activation validation based on audio data

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
CN1231469A (zh) * 1998-01-30 1999-10-13 摩托罗拉公司 语音识别系统中评估发声的方法
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
CN1302056A (zh) * 1999-12-28 2001-07-04 索尼公司 信息处理设备,信息处理方法和存储介质
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
CN1662955A (zh) * 2002-04-22 2005-08-31 松下电器产业株式会社 借助压缩分配和定域格式存取的大词汇量语音识别的模式匹配
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器
CN102118886A (zh) * 2010-01-04 2011-07-06 中国移动通信集团公司 一种语音信息的识别方法和设备
US20120010890A1 (en) * 2008-12-30 2012-01-12 Raymond Clement Koverzin Power-optimized wireless communications device

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
JP3079006B2 (ja) * 1995-03-22 2000-08-21 シャープ株式会社 音声認識制御装置
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6778961B2 (en) * 2000-05-17 2004-08-17 Wconect, Llc Method and system for delivering text-to-speech in a real time telephony environment
US6671699B1 (en) * 2000-05-20 2003-12-30 Equipe Communications Corporation Shared database usage in network devices
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US7824455B2 (en) * 2003-07-10 2010-11-02 General Motors Corporation High activity water gas shift catalysts based on platinum group metals and cerium-containing oxides
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
KR101733205B1 (ko) * 2010-04-05 2017-05-08 삼성전자주식회사 오디오 디코딩 시스템 및 그것의 오디오 디코딩 방법
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US8914285B2 (en) * 2012-07-17 2014-12-16 Nice-Systems Ltd Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
CN1231469A (zh) * 1998-01-30 1999-10-13 摩托罗拉公司 语音识别系统中评估发声的方法
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
CN1302056A (zh) * 1999-12-28 2001-07-04 索尼公司 信息处理设备,信息处理方法和存储介质
CN1465043A (zh) * 2001-06-08 2003-12-31 索尼公司 语音识别装置和语音识别方法
CN1662955A (zh) * 2002-04-22 2005-08-31 松下电器产业株式会社 借助压缩分配和定域格式存取的大词汇量语音识别的模式匹配
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器
US20120010890A1 (en) * 2008-12-30 2012-01-12 Raymond Clement Koverzin Power-optimized wireless communications device
CN102118886A (zh) * 2010-01-04 2011-07-06 中国移动通信集团公司 一种语音信息的识别方法和设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN108630200B (zh) * 2017-03-17 2022-01-07 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
TWI690919B (zh) * 2017-05-27 2020-04-11 大陸商騰訊科技(深圳)有限公司 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品

Also Published As

Publication number Publication date
KR20160005050A (ko) 2016-01-13
EP2994911B1 (en) 2018-08-22
JP2016522910A (ja) 2016-08-04
WO2014182459A1 (en) 2014-11-13
EP2994911A1 (en) 2016-03-16
CN105229726B (zh) 2019-04-02
US20140337030A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
CN105229726A (zh) 用于关键字检测的自适应音频帧处理
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN105210146B (zh) 用于控制语音激活的方法和设备
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
CN107112017B (zh) 操作语音识别功能的电子设备和方法
WO2020024885A1 (zh) 一种语音识别的方法、语音断句的方法及装置
JP2019185011A (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN110634507A (zh) 用于语音唤醒的音频的语音分类
KR20160145766A (ko) 스피치 입력에 의해 애플리케이션을 활성화하는 방법 및 장치
CN107430870A (zh) 低功率语音命令检测器
CN109036396A (zh) 一种第三方应用的交互方法及系统
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
CN110503944B (zh) 语音唤醒模型的训练和使用方法及装置
US11367443B2 (en) Electronic device and method for controlling electronic device
US20200342853A1 (en) Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication
CN110570857A (zh) 语音唤醒方法、装置、电子设备及存储介质
US20230317078A1 (en) Systems and methods for local interpretation of voice queries
CN110086941B (zh) 语音播放方法、装置及终端设备
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN109584877B (zh) 语音交互控制方法和装置
CN110970032A (zh) 一种音箱语音交互控制的方法及装置
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN110556099B (zh) 一种命令词控制方法及设备
CN111128166A (zh) 连续唤醒识别功能的优化方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190402

CF01 Termination of patent right due to non-payment of annual fee