CN100430929C - 词典、分段和语言模型联合优化的系统和迭代方法 - Google Patents

词典、分段和语言模型联合优化的系统和迭代方法 Download PDF

Info

Publication number
CN100430929C
CN100430929C CNB008152942A CN00815294A CN100430929C CN 100430929 C CN100430929 C CN 100430929C CN B008152942 A CNB008152942 A CN B008152942A CN 00815294 A CN00815294 A CN 00815294A CN 100430929 C CN100430929 C CN 100430929C
Authority
CN
China
Prior art keywords
segmentation
dictionary
language model
corpus
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB008152942A
Other languages
English (en)
Other versions
CN1387651A (zh
Inventor
王海峰
黄常宁
李凯夫
狄硕
蔡东峰
秦立峰
郭建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1387651A publication Critical patent/CN1387651A/zh
Application granted granted Critical
Publication of CN100430929C publication Critical patent/CN100430929C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Abstract

提供一种优化语言模型的方法,包括利用最大匹配技术,根据由接收的语料库获得的词典和分段建立初始语言模型,并且通过根据统计原理,动态更新词典和对语料库进行重新分段,反复改进初始语言模型,直到达到预测能力的阈值为止。

Description

词典、分段和语言模型联合优化的系统和迭代方法
本申请要求由本申请的发明人于1999年11月5日提出的临时专利申请No.60/163850,“An iterative method for lexicon,wordsegmentation and language model joint optimization”的优先权。
技术领域
本发明涉及语言建模,更具体地说涉及词典、文字分段和语言模式联合优化的系统和迭代方法。
背景技术
近来计算能力和相关技术的发展促进了新一代强大的应用软件的发展,包括web浏览器、字处理和语音识别应用程序。例如,在输入域名的两三个最初字符之后,最新一代的web浏览器预料统一资源定位符(URL)地址输入。字处理器提供改进的拼写和语法检查能力、字预测和语言转换。较新的语音识别应用程序类似地提供具有令人佩服的识别和预测精度的各种特征。为了对终端用户有用,必须基本实时地实现这些特征。为了提供这种性能,许多应用程序依赖树状数据结构来建立简单的语言模型。
简单地说,语言模式测量任意指定句子的似然性。即,语言模型可获取任意条目的序列(文字、字符、字母等)并估计该序列的可能性。建立现有的语言模式的一种常见途径是根据已知的文本语料库(textual corpus)的训练集合,利用前缀树状数据结构建立N-gram(N字母组)语言模型。
前缀树状数据结构(也叫作后缀树或者PAT树)的使用使高级应用程序能够快速遍历语言模型,提供上面描述的基本实时的性能特征。简单地说,N-gram语言模型计数整个文本中在一个串(大小为N的)内特定项目(文字、字符等)的出现次数。计数值被用于计算该项目串的使用概率。通常,tri-gram(N-gram,这里N=3)方法包括下述步骤:
(a)把文本语料库分成若干项目(字符、字母、数字等);
(b)根据较小的预定词典和简单的预定分段算法,对所述若干项目(例如字符(C))分段(例如分成词(W)),这里在树状数据结构中各个W被映射成一个或多个C;
(c)通过计数字符串的出现次数,根据分离的语料库(corpus)训练语言模型,籍此由前两个词预测一系列词(W1,W2,...WM)的概率:
P(W1,W2,W3,...WM)≈∏P(Wi|Wi-1,Wi-2)    (1)
N-gram语言模型在若干方面存在局限。首先,构造前缀树中使用的计数程序非常耗时。从而实际上只能实现较小的N-gram模型(一般为2-gram或者3-gram)。其次,随着N-gram语言模型的串长度(N)的增大,存储前缀树所需的存储器按2N增加。从而,对于大于3(即3-gram)的N-gram来说,存储N-gram语言模型所需的存储器,以及利用较大的N-gram语言模型所需的访问时间非常大。
现有技术的N-gram语言模型倾向于使用固定(较小)的词典,过分简单的分段算法,一般只依赖于前两个单词来预测当前的单词(就3-gram模型而论)。
固定的词典限制了模型选择通用或者专用于任务的最佳单词的能力。如果某一单词不存在于词典中,则就所涉及的模型来说,该单词不存在。从而,较小的词典不可能覆盖预期的语言内容。
分段算法通常较为特别,并且不是以任何统计或语义原理为基础。过于简单的分段算法一般错误地放弃较小的单词而采用较大的单词。从而该模型不能准确地预测包含在语义上可接受的较大字符串内的较小单词。
由于上述限制的结果,使用现有技术词典和分段算法的语言模型往往易于出错。即,在词典或分段阶段中产生的任意错误被传播到整个语言模型内,从而限制了语言模型的准确性和预测属性。
最后,把模型局限于上下文的最多两个在先单词(就3-gram语言模型而论)同样是有限制性的,因为要准确地预测单词的可能性或许需要更多的上下文。语言模型这三方面的局限性通常导致该语言模型的预测质量较差。
从而,需要一种不受通常与现有技术的语言建模技术相关的缺陷和局限性的妨碍,用于词典、分段算法和语言模型联合优化的系统和方法。下面提供恰好如此的一种解决方案。
发明内容
本发明涉及词典、分段和语言模型联合优化的系统和迭代方法。为了克服与现有技术相关的局限性,本发明不依赖于预定的词典或分段算法,相反在优化语言模型的迭代过程中,动态生成词典和分段算法。根据一种实现,提供一种改善语言模型性能的方法,包括根据利用最大匹配技术接收的文本语料库获得的词典和分段形成初始的语言模型,通过按照统计原理动态更新词典并且对文本语料库重新分段,反复精炼初始的语言模型,直到达到预测能力阈值为止。
根据本发明的一个方面,提供一种用于词典、分段和语言模型优化的方法,所述方法包括:根据从接收的语料库获得的词典和分段建立初始的语言模型;通过根据统计原理,动态地更新词典和对语料库重新分段,反复精炼初始语言模型,直到达到预测能力阈值为止;其中反复精炼初始语言模型包括:通过针对每个分段确定该分段的出现概率,对所述语料库重新分段;以及从重新分段的语料库更新词典;更新词典包括:标识词典的各个单词在接收的语料库中的出现频率;和从词典中删除标识频率最低的单词;以及该方法还包括把删除的单词重新分段成两个或更多的较小单词,并且利用重新分段的单词更新词典
根据本发明的另一个方面,提供一种用于词典、分段和语言模型优化的系统,所述系统包括:根据从接收的语料库获得的词典和分段建立初始的语言模型的装置;通过根据统计原理,动态地更新词典和对语料库重新分段,反复精炼初始语言模型,直到达到预测能力阈值为止的装置;其中反复精炼初始语言模型的装置包括:通过针对每个分段确定该分段的出现概率,对所述语料库重新分段的装置;以及从重新分段的语料库更新词典的装置;更新词典的装置包括:标识词典的各个单词在接收的语料库中的出现频率的装置;和从词典中删除标识频率最低的单词的装置;以及该系统还包括把删除的单词重新分段成两个或更多的较小单词,并且利用重新分段的单词更新词典的装置。
附图说明
附图中相同的索引数字被用于代表相同的组件和特征。
图1是体现本发明教导的计算机系统的方框图;
图2是根据本发明的一种实现的迭代形成词典、分段和语言模型的例证建模代理的方框图;
图3是根据本发明一个方面的DOMM树的图形表示;
图4是建立DOMM树的例证方法的流程图;
图5是根据本发明教导的用于词典、分段和语言模型联合优化的例证方法的流程图;
图6是详细说明根据本发明的一种实现的产生初始词典,并且反复改变动态产生的词典、分段和语言模型,直到会聚为止的方法步骤的流程图;
图7是根据本发明备选实施例的具有若干可执行指令的存储介质,所述若干可执行指令当被执行时,实现本发明的创新建模代理。
具体实施方式
本发明涉及词典、分段和语言模型联合优化的系统和迭代方法。在说明本发明的过程中,引用了创新的语言模型,动态排序Markov模型(DOMM)。在同时待审的Lee等的美国专利申请No.09/608,526,“A Method and Apparatus for Generating and Managing aLanguage Model Data Structure”中给出DOMM的详细说明,该专利申请的公开内容作为参考包含于此。
在这里的讨论中,在诸如程序模块之类计算机可执行的指令被一个或多个常规计算机执行的一般情况下说明本发明。一般来说,程序模块包括执行特殊任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。此外,本领域的技术人员要认识到可利用其它计算机系统结构,包括手持式装置、个人数字助理、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、微型计算机、大型计算机等实践本发明。在分布式计算机环境中,程序模块既可位于本地存储装置中又可位于远程存储装置中。但是要指出的是在不脱离本发明的精神和范围的情况下,也可对这里说明的体系结构和方法进行修改。
例证的计算机系统
图1图解说明包括根据本发明的教导联合优化词典、分段和语言模型的创新语言建模代理104的例证计算机系统102。要认识到虽然在图1中被描述为单独的应用程序,不过语言建模代理104也可被实现为应用程序,例如字处理器、web浏览器、语音识别系统等的一种功能。此外,虽然被描述为软件应用程序,不过本领域中的技术人员将认识到也可在硬件中实现该创新建模代理,例如可编程的逻辑阵列(PLA)、专用处理器、专用集成电路(ASIC)、微控制器等。
根据下面的说明,显然计算机102是用来代表任意类别的通用或者专用计算平台,所述计算平台当被赋予创新的语言建模代理(LMA)104时,实现根据上面介绍的第一例证实现的本发明的教导。要认识到虽然这里把语言建模代理描述为应用软件,不过计算机系统102可选择地支持LMA 104的硬件实现。在这方面,对于LMA 104的说明,下述计算机系统102的描述仅仅是例证性的,因为在不脱离本发明的精神和范围的情况下,可用性能更好或较弱的计算机系统替换。
如图所示,计算机102包括一个或多个处理器132、系统存储器134和使包括系统存储器134在内的各种系统组件和处理器132耦接的总线136。
总线136代表几种总线结构中的任意一种或者多种总线结构,包括存储器总线或存储器控制器,外围总线,加速图形端口和使用各种总线结构中的任意一种总线结构的处理器或本地总线。系统存储器包括只读存储器(ROM)138和随机存取存储器(RAM)140。包含例如在起动过程中,有助于在计算机102内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)142保存在ROM 138中。计算机102还包括对硬盘(图中未表示)进行读写的硬盘驱动器144,对可移除的磁盘148读写的磁盘驱动器146,和对诸如CD ROM、DVD ROM或者其它光学介质之类可移除光盘152进行读写的光盘驱动器150。硬盘驱动器144、磁盘驱动器146和光盘驱动器150通过SCSI接口154或者其它一些适当的总线接口与总线136相连。这些驱动器及它们相关的计算机可读介质为计算机102提供计算机可读指令、数据结构、程序模块及其它数据的非易失性存储。
虽然这里描述的例证环境采用硬盘144、可移动的磁盘148和可移动的光盘152,但是本领域的技术人员应认识到在例证的操作环境中也可使用能够保存计算机可存取的数据的其它类型的计算机可读介质,例如盒式磁带、快速存储卡、数字视频盘、随机存取存储器(RAM)只读存储器(ROM)等等。
若干程序模块可保存在硬盘144、磁盘148、光盘152、ROM 138或RAM 140上,包括操作系统158、包括体现本发明教导的创新LMA104在内的一个或多个应用程序160、其它程序模块162和程序数据164(例如最后得到的语言模型数据结构等)。用户可通过诸如键盘166和定点设备168之类的输入装置把命令和信息输入计算机102。其它输入装置(图中未示出)可包括麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪等等。这些及其它输入装置通过与总线136耦接的接口170与处理器132连接。监视器172或者其它类型的显示装置也通过诸如视频适配器174之类的接口与总线136相连。除了监视器172之外,个人计算机通常包括诸如扬声器和打印机之类的其它外围输出装置(图中未示出)。
如图所示,计算机102在利用与一个或多个远程计算机,例如远程计算机176的逻辑连接的网络化环境中工作。远程计算机176可以是另一个人计算机、个人数字助理、服务器、路由器或者其它网络设备、网络“瘦客户机(thin-client)”PC、对等设备或者其它常见网络节点,并且一般包括上面相对于计算机102说明的一些或者所有元件,不过在图1中只图解表示了存储器178。
如图所示,图1中描述的逻辑连接包括局域网(LAN)180和广域网(WAN)182。在办公室、企业范围计算机网络、企业内部互联网和因特网中这种网络化环境很平常。在一个实施例中,远程计算机176执行诸如由Washington,Redmond的Microsoft Corporation生产并供销的“Internet Explorer”之类的因特网Web浏览器程序,以便访问并利用在线服务。
当用在LAN网络环境中时,计算机102通过网络接口或适配器184与局域网180相连。当用在WAN网络环境中时,计算机102一般包括与诸如因特网之类的广域网182建立通信的调制解调器186或者其它装置。调制解调器186(可以是内置的也可以是外置的)通过输入/输出(I/O)接口156与总线136相连。除了网络连通性之外,I/O接口156还支持一个或多个打印机188。在网络化环境中,相对于个人计算机102或其各个部分说明的程序模块可保存在远程存储器中。要认识到所表示的网络连接是例证性的,可使用在计算机之间建立通信连接的其它手段。
一般来说,借助在不同时间保存到计算机的各种计算机可读存储介质中的指令对计算机102的数据处理器编程。程序和操作系统一般分布在例如软盘或CD-ROM上。程序和操作系统从软盘或CD-ROM上被安装或者加载到计算机的辅助存储器中。执行时,它们至少被部分加载到计算机的主电子存储器中。当这些及其它各种类型的计算机可读存储介质和微处理器或者其它数据处理器一起包含实现下面说明的创新步骤的指令或程序时,这里描述的发明包括这样的计算机可读存储介质。当计算机本身按照下面说明的方法和技术编程时,本发明还包括该计算机。此外,可对计算机的某些子部件编程,以便执行下面描述的功能和步骤。当按照所述对这些子部件编程时,本发明还包括这样的子部件。另外,这里描述的发明包括下面说明的包含在各种存储介质上的数据结构。
为了便于说明,这里把程序和其它可执行的程序组件,例如操作系统表示为分离的程序块,不过要认识到这样的程序和组件在不同时候驻留在计算机的不同存储部件上,并且由计算机的数据处理器执行。
例证的语言建模代理
图2图解说明体现本发明教导的例证语言建模代理(LMA)(104)的方框图。如图所示,语言建模代理104由一个或多个控制器202、创新的分析引擎204、存储器206和可选的一个或多个辅助应用程序(例如图形用户界面、预测应用程序、验证应用程序、估计应用程序等)208组成。它们如图所示通过通信相连。要认识到虽然在图2中被描述成若干不同的部分,不过LMA 104的一个或多个功能元件也可结合在一起。在这方面,在不脱离本发明的精神和范围的情况下,可采用更复杂或者较简单的迭代联合优化动态词典、分段和语言模型的建模代理。
如上间接所示,虽然被描述成单独的功能元件,LMA 104也可被实现成更高级应用程序,例如字处理器、web浏览器、语音识别系统或者语言转换系统的一种功能。在这方面,LMA 104的控制器202对来自父应用程序的一个或多个指示命令作出反应,有选择地调用LMA104的特征。另一方面,LMA 104也可被实现为单独的语言建模工具,向用户提供有选择地实现下面所述的LMA 104的特征的用户界面(208)。
在任一种情况下,LMA 104的控制器202有选择地调用分析引擎204的一个或多个功能,从而根据动态产生的词典和分段算法优化语言模型。从而除了被配置成实现本发明的教导之外,控制器202用来代表本领域中已知的若干备选控制系统中的任意一种控制系统,包括(但不局限于)微处理器、可编程的逻辑阵列(PLA)、微型机、专用集成电路(ASIC)等等。在备选实现中,控制器202用来代表实现上述控制逻辑的一系列可执行的指令。
如图所示,创新的分析引擎204由Markov概率计算器212、包括频率计算子例程213、动态词典生成子例程214和动态分段子例程216的数据结构生成器210及数据结构存储管理器218构成。当接收外部指示时,控制器202有选择地调用分析引擎204的某一实例形成、修改并优化统计语言模型(SLM)。更具体地说,和现有的语言建模技术相反,分析引擎204基本根据文本语料库(例如一组或多组文本)的单个项目(例如字符、字母、数字等)之间的Markov转移概率产生统计语言模型数据结构。此外,如同将说明的一样,分析引擎204利用尽可能多的数据(称为“语境(context)”或“排序(order)”)来计算项目串的概率。在这方面,本发明的语言模型被恰如其分地称为动态排序Markov模型(DOMM)。
当被控制器202调用以建立DOMM数据结构时,分析引擎204有选择地调用数据结构生成器210。作为响应,数据结构生成器210建立由若干节点(与若干项目中的各个项目相关)组成,并且表示节点间的从属性的树状数据结构。如上所述,这里把树状数据结构称为DOMM数据结构或者DOMM树。控制器202接收文本语料库,并且至少把文本语料库的一个子集作为动态训练集合222保存到存储器206中,将根据动态训练集合222产生语言模型。要认识到在备选实施例中,也可使用预定的训练集合。
一旦收到动态训练集合,频率计算子例程213至少取回训练集合222的一个子集以供分析。频率计算子例程213确定训练集合子集中各个项目(字符、字母、数字、单词等)的出现频率。根据节点间的从属性,数据结构生成器210把各个项目分配给DOMM树的适当节点,并有频率值(Ci)的指示和比较位(bi)。
Markov概率计算器212根据相关项目的语境(j)计算项目(字符、字母、数字等)的概率。更具体地说,根据本发明的教导,特定项目的Markov概率(Ci)依赖于数据“允许”的尽可能多的在先字符,换句话说:
P(C1,C2,C3,...,CN)≈∏P(CI|CI-1,CI-2,CI-3,...,CJ)(2)
Markov概率计算器212用作语境(j)的字符数不同于字符Ci,Ci-1,Ci-2,Ci-3等的各个序列的“动态”数量。根据一种实现,Markov概率计算器212计算的依赖于语境(j)的字符数至少部分取决于各个字符的频率值,即它们在整个文本语料库内出现的比率。更具体地说,如果在确定文本语料库的项目的情况下,Markov概率计算器212至少不确定特定项目的最小出现频率,则由于与统计不相关,可能从树状数据结构中将其剪除(即排除)。根据一个实施例,最低频率阈值为三(3)。
如上间接所示,分析引擎204不依赖固定词典或者简单的分段算法(它们均易于出错)。相反,分析引擎204有选择地调用动态分段子例程216把项目(例如字符或字母)分成串(例如单词)。更准确地说,分段子例程216把训练集合222分成子集(大块),并且计算内聚度(即子集内项目间的相似性的一种量度)。分段子例程216反复进行分段及内聚性计算,直到各个子集的内聚度达到预定阈值为止。
词典生成子例程214被调用,从而动态生成词典220并将其保存到存储器206中。根据一种实现,词典生成子例程214分析分段结果,并根据Markov转移概率超过阈值的项目串产生词典。在这方面,词典生成子例程214根据超过从由分析引擎204产生的一个或多个语言模型获得的预定Markov转移概率的项目串产生动态词典220。因此,不同于依赖于易于出错的已知固定词典的现有语言模型,分析引擎204根据在一段时间内形成的一个或多个语言模型,产生统计意义更重要、统计准确的项目串的词典。根据一个实施例,词典220包括在形成后续语言模型中,Markov概率计算器212所依赖的“虚拟语料库”(除动态训练集合之外)。
当被调用从而修改或利用DOMM语言模型数据结构时,分析引擎204有选择地调用数据结构存储管理器218的一个实例。根据本发明的一个方面,数据结构存储管理器218利用系统存储器及扩展存储器保存DOMM数据结构。更具体地说,如下下面将参考图6和7更详细说明的那样,数据结构存储管理器218采用WriteNode子例程和ReadNote子例程(图中未示出)把最近使用的DOMM数据结构的节点子集保存到系统存储器206的一级高速缓冲存储器224中,同时把最近很少使用的节点转移到扩展存储器(例如硬盘驱动器144或者某些远程驱动器中的磁盘文件)中,从而提供改进的性能特征。另外,系统存储器206的二级高速缓冲存储器被用于集合写入命令,直到达到预定的阈值为止,在该阈值点,数据结构存储管理器向存储器中的适当位置发出一个集合WriteNode命令。虽然被描述成独立的功能元件,不过本领域的技术人员将认识到在不脱离本发明的精神和范围的情况下,数据结构存储管理器218也可被组合成控制器202的功能元件。
例证的数据结构-动态排序Markov模型(DOMM)树
图3表示根据本发明教导的例证动态排序Markov模型树状数据结构300的原理图。为了从原理上说明DOMM树状数据结构300是如何构成的,图3给出了由英文字母表,即A、B、C、…Z形成的语言模型的例证DOMM数据结构300。如图所示,DOMM树300包括一个或多个根节点302和一个或多个从属节点304,这些节点与文本语料库的一个项目(字符、字母、数字、单词等)相关,并被逻辑连接以表示节点之间的从属性。根据本发明的一个实现,根节点302由一个项目和一个频率值(例如该项目在文本语料库中出现多少次的计数值)组成。在根节点层302下的某一层,从属节点被布置成二叉子树,其中每个节点包括一个比较位(bi),该节点与之相关的项目(A、B、…)和该项目的频率值(CN)。
从而,从与项目B 306相关的根节点开始,二叉子树由表示节点之间的关系的从属节点308-318及它们的出现频率组成。给定该原理性例子,应认识到从根节点,例如节点306开始,DOMM树的搜索复杂性接近log(N),N是要搜索的节点的总数。
如上间接所示,DOMM树300的大小可超过LMA 104的存储器206和/或计算机系统102的主存储器中的可用空间。因此,数据结构存储管理器218便于跨越主存储器(例如140和/或260)把DOMM树数据结构300保存到扩展的存储空间,例如诸如计算机系统102的硬盘驱动器144之类主存储装置上的磁盘文件中。
例证的操作和实现
已参考图1-3介绍了本发明的功能和概念元件,下面将参考图5-10说明创新的语言建模代理104的操作。
建立DOMM树数据结构
图4是根据本发明的一方面,建立动态排序Markov模型(DOMM)的例证方法的流程图。如上间接所示,语言建模代理104可直接被用户或高级应用程序调用。作为响应,LMA 104的控制器202有选择地调用分析引擎204的一个实例,文本语料库(例如一个或多个文档)作为动态训练集合222被加载到存储器206中,并被分成子集(例如句子,诗句等),方框402。作为响应,数据结构生成器210把该子集的各个项目分配给数据结构中的节点,并计算该项目的频率值,方框404。根据一种实现,一旦数据结构生成器已利用该子集填充该数据结构,则调用频率计算子例程213确定训练集合子集内各个项目的出现频率。
在方框406中,数据结构生成器确定是否存在训练集合的其它子集,如果是,则在方框408读取下一子集,并在方框404继续该过程。在备选实现中,在调用频率计算子例程213之前,数据结构生成器210每次一个子集地填充该数据结构。在备选实施例中,频率计算子例程只计数当其被放入数据结构的相关节点时的各个项目。
如果在方框406中,数据结构生成器210已完全给数据结构300加上训练集合222的各个项目,则数据结构生成器210可随意地删除数据结构,方框410。可采用若干种机制删除作为结果得到的数据结构300。
词典、分段和语言模型联合优化的例证方法
图5是根据本发明教导的词典、分段和语言模型联合优化的例证方法的流程图。如图所示,该方法开始于方框400,在方框400中,调用LM 104,并且建立至少接收的文本语料库的一个子集的前缀树。更具体地说,如图4中所示,建模代理104的数据结构生成器210分析接收的文本语料库,并且至少选择一个子集作为训练集合,根据该训练集合建立DOMM树。
在方框502中,根据前缀树建立一个很大的词典,对该词典进行预处理,从而除去某些明显不合逻辑的单词。更具体地说,调用词典生成子例程214,根据前缀树建立初始词典。根据一种实现,利用其长度小于某一预定值,比方说十(10)个项目的所有子串(即从根节点到最大的从属节点,该子串为10个节点或小于10个节点),根据前缀树建立初始词典。一旦汇编完成初始词典,词典生成子例程214通过删除某些明显不合逻辑的单词精减该词典(例如参见下面的方框604)。根据一种实现,词典生成子例程214把至少根据接收的文本语料库的训练集合产生的新的初始词典附加到预定的词典上。
在方框504中,利用初始词典至少对接收的文本语料库的训练集合分段。更具体地说,调用动态分段子例程216至少对接收的文本语料库的训练集合分段,产生初始的分段文本语料库。本领域的技术人员将认识到存在各种对训练文本语料库分段的方法,例如固定长度分段,最大匹配等等。为此在还没有根据接收的文本语料库产生统计语言模型(SLM)的情况下,动态分段子例程216利用最大匹配技术提供初始的分段文本语料库。因此,分段子例程216开始于项目串(或者DOMM树的分支)的起点,并且搜索词典,查看初始的项目(I1)是否是一个(one-item)“单词”。分段子例程随后把该项目与串中的下一项目进行组合,以了解在该词典中是否以“单词”的形式找到组合结果(例如I1I2),依次类推。根据一种实现,在词典中找到的项目的最长串(I1,I2,…IN)被认为是该串的正确分段。要认识到在不脱离本发明的精神和范围的情况下,分段子例程216可利用更复杂的最大匹配算法。
在根据训练文本语料库形成初始词典和分段之后,进入迭代过程,其中词典、分段和语言模型被联合优化,方框506。更具体地说,如同下面将更详细说明的那样,创新的迭代优化采用统计语言建模方法动态调整分段和词典,从而提供优化的语言模型。即,不同于现有的语言建模技术,建模代理104不依赖于预定的静态词典,或者过分简单的分段算法来产生语言模型。相反,建模代理104利用接收的文本语料库,或者至少利用接收的文本语料库的一个子集(训练集合)动态产生词典和分段,从而产生优化的语言模型。在这方面,建模代理104产生的语言模型不存在通常和现有的建模系统相关的缺陷和局限性。
在已介绍图5中的创新过程之后,图6根据本发明的一种实现,给出产生初始词典的更详细的流程图,以及提炼词典和分段从而优化语言模型的迭代过程。如前面一样,该方法开始于根据接收的文本语料库建立前缀树的步骤400(图4)。如上所述,可利用整个文本语料库,或者利用整体文本语料库的一个子集(称为训练语料库)建立前缀树。
在方框502中,产生初始词典的过程开始于方框602,其中词典生成子例程214通过识别具有小于预定数目的项目的子串(或者前缀树的分支),根据前缀树产生初始词典。根据一种实现,词典生成子例程214确定十(10)个项目或者少于10个项目的子串,从而构成初始词典。在方框604中,词典生成子例程214针对显然不合逻辑的子串分析在步骤602中产生的初始词典,从初始词典中除去这些子串。即,词典生成子例程214分析初始词典子串中不合逻辑的或者不可能的单词,并从词典中除去这些单词。对于初始删减来说,调用动态分段子例程216至少对接收的文本语料库的训练集合分段,产生分段的语料库。根据一种实现,最大匹配算法被用于根据初始词典进行分段。随后调用频率分析子例程213,计算词典中各个单词在接收的文本语料库中的出现频率,并且按照出现频率对词典分类。确定频率最低的单词并从词典中删除该单词。可根据语料库的大小确定删除和重新分段的阈值。根据一种实现,600M项目的语料库可利用500的频率阈值被包含在该词典内。这样,可从初始词典中删除绝大多数明显不合逻辑的单词。
一旦在步骤502产生并删减初始词典,则至少部分根据初始词典对接收的文本语料库分段,方框504。如上所述,根据一种实现,利用最大匹配方法完成文本语料库的初始分段。
一旦完成初始词典和文本语料库分段过程,则动态改变词典和分段的迭代过程开始根据接收的文本语料库(或者训练集合)优化统计语言模型(SLM),方框506。如图所示,该程序开始于方框606,其中Markov概率计算器212利用初始词典和分段开始使用分段文本语料库进行语言模型训练。即,给定初始词典和初始分段,可由其产生统计语言模型。应注意虽然语言模型没有得益于精炼的词典和基于统计的分段(这将演变成下面的步骤),但是语言模型基本上是以接收的文本语料库自身为基础的。
在方框608中,在已进行初始语言模型训练之后,利用基于SLM的分段对分段的文本语料库(或者训练集合)重新分段。已知句子w1,w2,...wn的情况下,存在M种对其分段的可能途径(M≥1)。动态分段子例程216根据N-gram统计语言模型,计算各个分段(Si)的概率(pi)。根据一种实现,分段子例程216利用tri-gram(即N=3)统计语言模型确定任意给定分段的概率。采用Viterbi搜索算法找出最可能的分段Sk,这里:
Sk=arg max(pi)(3)
在方框610中,利用由上述基于SLM的分段得到的重新分段的文本语料库更新词典。根据一种实现,建模代理104调用频率分配子例程213计算词典中各个单词在接收的文本语料库中的出现频率,按照出现频率对词典分类。确定频率最低的单词,并将其从词典中删除。随后当重新计算所有这些单词的单一计数时,必须把该单词的所有出现重新分成较小的单词。可根据语料库的大小确定这种删除和重新分段的阈值。根据一种实现,600M项目的语料库可利用为500的频率阈值被包含在该词典内。
在方框612中,更新语言模型,以反映动态产生的词典和基于SLM的分段,Markov概率计算器212计算语言模型混乱性的量度(即相反的概率量度)。如果混乱性继续会聚(趋近0),即得到改善,则在方框608继续该程序,在方框608中,在有意进一步改善语言模型性能(以混乱性量度)的情况下,再一次修改词典和分段。如果在方框614中确定对词典和分段的新近修改没有改善语言模型,则在方框616进一步确定混乱性是否已达到可接受的阈值。如果是,则该程序终止。
但是如果语言模型还未达到可接受的混乱性阈值,则在方框608,词典生成子例程214从词典中删除在语料库中出现频率最低的单词,在方框618把该单词重新分成更小的单词,程序继续进行到方框610。
根据上述说明,要认识到以在统计上至少基于接收语料库的子集的动态生成的词典和分段规则作为前提,创新的语言建模代理104产生优化的语言模型。在这方面,和现有的语言模型相比,最后得到的语言模型具有改进的计算和预测能力。
备选实施例
图7是根据本发明另一实施例的其上存储有若干指令,包括实现本发明的创新建模代理的指令的存储介质的方框图。一般来说,图7图解说明了具有存储于其上的若干可执行的指令702的存储介质/装置700,所述可执行的指令702至少包括当被执行时,实现本发明的创新建模代理104的指令的一个子集。当被主系统的处理器执行时,可执行的指令702实现建模代理,产生供在主系统上执行或者以其它方式适用于主系统的其它应用程序的任意主机使用的文本语料库的统计语言模型表示。
这里使用的存储介质700是用来代表本领域的技术人员已知的若干存储装置和/或存储介质中的任意一种,例如易失性存储装置、非易失性存储装置、磁性存储介质、光学存储介质等等。类似地,可执行的指令是用来反映本领域中已知的若干软件语言中的任意一种,例如C++、Visual Basic、超文本链接标示语言(HTML)、Java、扩展标示语言(XML)等等。此外,要认识到存储介质/装置700不必和任意主系统协同定位。即,存储介质/装置700可驻留在与执行系统通信耦接,并且可被执行系统访问的远程服务器内。因此,图7的软件实现应被看作是例证性的,因为可以预料备选的存储介质和软件实现在本发明的精神和范围内。
虽然已在特定于结构特征和/或方法步骤的语言方面说明了本发明,但是要明白在附加的权利要求中限定的本发明不必局限于所说明的具体特征或步骤。相反,只是作为实现要求权利的发明的例证形式公开了这些具体的特征和步骤。

Claims (20)

1、一种用于词典、分段和语言模型优化的方法,所述方法包括:
根据从接收的语料库获得的词典和分段建立初始的语言模型;
通过根据统计原理,动态地更新词典和对语料库重新分段,反复精炼初始语言模型,直到达到预测能力阈值为止;
其中反复精炼初始语言模型包括:
通过针对每个分段确定该分段的出现概率,对所述语料库重新分段;以及
从重新分段的语料库更新词典;
更新词典包括:
标识词典的各个单词在接收的语料库中的出现频率;和
从词典中删除标识频率最低的单词;以及
该方法还包括把删除的单词重新分段成两个或更多的较小单词,并且利用重新分段的单词更新词典。
2、按照权利要求1所述的方法,其中建立初始的语言模型包括:
根据从接收的语料库分解的项目生成前缀树数据结构;
从前缀树数据结构标识长度为N个项目或小于N个项目的子串;以及
利用标识的子串填充所述词典。
3、按照权利要求2所述的方法,其中N等于3。
4、按照权利要求1所述的方法,其中使用N-gram语言模型来计算确定分段的出现概率。
5、根据权利要求4所述的方法,其中N-gram语言模型是3-gram语言模型。
6、根据权利要求1所述的方法,其中利用两个在先分段计算确定分段的出现概率。
7、根据权利要求1所述的方法,还包括:
确定由于更新和重新分段步骤的结果,语言模型的预测能力是否被改进;和
如果预测能力被改进,则进行另外的更新和重新分段,直到确定没有进一步的改进为止。
8、按照权利要求1所述的方法,其中预测能力在数量上表述为混乱性量度。
9、按照权利要求8所述的方法,其中精练语言模型,直到混乱性量度被降低到低于可接受的预测阈值为止。
10.按照权利要求1所述的方法,还包括在应用程序中利用反复精练的语言模型预测另一语料库的可能性,其中所述应用程序是拼写和/或语法检查器、字处理应用程序、语言翻译应用程序、语音识别应用程序等的一种或多种。
11、一种用于词典、分段和语言模型优化的系统,所述系统包括:
根据从接收的语料库获得的词典和分段建立初始的语言模型的装置;
通过根据统计原理,动态地更新词典和对语料库重新分段,反复精炼初始语言模型,直到达到预测能力阈值为止的装置;
其中反复精炼初始语言模型的装置包括:
通过针对每个分段确定该分段的出现概率,对所述语料库重新分段的装置;以及
从重新分段的语料库更新词典的装置;
更新词典的装置包括:
标识词典的各个单词在接收的语料库中的出现频率的装置;和
从词典中删除标识频率最低的单词的装置;以及
该系统还包括把删除的单词重新分段成两个或更多的较小单词,并且利用重新分段的单词更新词典的装置。
12、按照权利要求11所述的系统,其中建立初始的语言模型的装置包括:
根据从接收的语料库分解的项目生成前缀树数据结构的装置;
从前缀树数据结构标识长度为N个项目或小于N个项目的子串的装置;以及
利用标识的子串填充所述词典的装置。
13、按照权利要求12所述的系统,其中N等于3。
14、按照权利要求11所述的系统,其中用于确定的装置使用N-gram语言模型来计算分段的出现概率。
15、根据权利要求14所述的系统,其中N-gram语言模型是3-gram语言模型。
16、根据权利要求11所述的系统,其中用于确定的装置利用两个在先分段计算分段的出现概率。
17、根据权利要求11所述的系统,还包括:
确定由于更新和重新分段的结果,语言模型的预测能力是否被改进的装置;和
如果预测能力被改进,则进行另外的更新和重新分段,直到确定没有进一步的改进为止的装置。
18、按照权利要求11所述的系统,其中预测能力在数量上表述为混乱性量度。
19、按照权利要求18所述的系统,其中精练语言模型,直到混乱性量度被降低到低于可接受的预测阈值为止的装置。
20.按照权利要求11所述的系统,还包括在应用程序中利用反复精练的语言模型预测另一语料库的可能性的装置,其中所述应用程序是拼写和/或语法检查器、字处理应用程序、语言翻译应用程序、语音识别应用程序等的一种或多种。
CNB008152942A 1999-11-05 2000-11-03 词典、分段和语言模型联合优化的系统和迭代方法 Expired - Fee Related CN100430929C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16385099P 1999-11-05 1999-11-05
US60/163,850 1999-11-05
US09/609,202 2000-06-30
US09/609,202 US6904402B1 (en) 1999-11-05 2000-06-30 System and iterative method for lexicon, segmentation and language model joint optimization

Publications (2)

Publication Number Publication Date
CN1387651A CN1387651A (zh) 2002-12-25
CN100430929C true CN100430929C (zh) 2008-11-05

Family

ID=26860000

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008152942A Expired - Fee Related CN100430929C (zh) 1999-11-05 2000-11-03 词典、分段和语言模型联合优化的系统和迭代方法

Country Status (5)

Country Link
US (2) US6904402B1 (zh)
JP (1) JP2003523559A (zh)
CN (1) CN100430929C (zh)
AU (1) AU4610401A (zh)
WO (1) WO2001037128A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN107003992A (zh) * 2014-12-12 2017-08-01 全方位人工智能股份有限公司 用于神经语言行为识别系统的感知联想记忆

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE443946T1 (de) * 1999-05-27 2009-10-15 Tegic Communications Inc Tastatursystem mit automatischer korrektur
US7030863B2 (en) 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US7750891B2 (en) 2003-04-09 2010-07-06 Tegic Communications, Inc. Selective input system based on tracking of motion parameters of an input device
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7821503B2 (en) 2003-04-09 2010-10-26 Tegic Communications, Inc. Touch screen and graphical user interface
US20050044148A1 (en) * 2000-06-29 2005-02-24 Microsoft Corporation Method and system for accessing multiple types of electronic content
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
CN1226717C (zh) * 2000-08-30 2005-11-09 国际商业机器公司 自动新词提取方法和系统
EP1213706B1 (en) * 2000-12-11 2006-07-19 Sony Deutschland GmbH Method for online adaptation of pronunciation dictionaries
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
CA2411227C (en) * 2002-07-03 2007-01-09 2012244 Ontario Inc. System and method of creating and using compact linguistic data
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
ES2369665T3 (es) * 2003-05-28 2011-12-02 Loquendo Spa Segmentación automática de textos que comprenden fragmentos sin separadores.
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7941310B2 (en) * 2003-09-09 2011-05-10 International Business Machines Corporation System and method for determining affixes of words
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
DK1666074T3 (da) 2004-11-26 2008-09-08 Bae Ro Gmbh & Co Kg Steriliseringslampe
CN101266599B (zh) * 2005-01-31 2010-07-21 日电(中国)有限公司 输入方法和用户终端装置
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US8041557B2 (en) * 2005-02-24 2011-10-18 Fuji Xerox Co., Ltd. Word translation device, translation method, and computer readable medium
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
CN1916889B (zh) * 2005-08-19 2011-02-02 株式会社日立制作所 语料库制作装置及其方法
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US7328199B2 (en) * 2005-10-07 2008-02-05 Microsoft Corporation Componentized slot-filling architecture
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7941418B2 (en) * 2005-11-09 2011-05-10 Microsoft Corporation Dynamic corpus generation
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US7933914B2 (en) 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
WO2007083496A1 (ja) * 2006-01-23 2007-07-26 Nec Corporation 音声認識用言語モデル作成用のシステム、方法およびプログラムならびに音声認識システム
EP2511833B1 (en) 2006-02-17 2020-02-05 Google LLC Encoding and adaptive, scalable accessing of distributed translation models
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US20070271087A1 (en) * 2006-05-18 2007-11-22 Microsoft Corporation Language-independent language model using character classes
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
CN101097488B (zh) * 2006-06-30 2011-05-04 2012244安大略公司 从接收的文本中学习字符片段的方法及相关手持电子设备
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8201087B2 (en) 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US8225203B2 (en) * 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8046222B2 (en) * 2008-04-16 2011-10-25 Google Inc. Segmenting words using scaled probabilities
US8353008B2 (en) * 2008-05-19 2013-01-08 Yahoo! Inc. Authentication detection
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US8301437B2 (en) * 2008-07-24 2012-10-30 Yahoo! Inc. Tokenization platform
US8462123B1 (en) * 2008-10-21 2013-06-11 Google Inc. Constrained keyboard organization
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
CN103034628B (zh) * 2011-10-27 2015-12-02 微软技术许可有限责任公司 用于将语言项目规范化的功能装置
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN102799676B (zh) * 2012-07-18 2015-02-18 上海语天信息技术有限公司 一种递归多层次中文分词方法
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
IL224482B (en) * 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
US9396723B2 (en) * 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
US9396724B2 (en) 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9972311B2 (en) * 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US10181098B2 (en) 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
KR101668725B1 (ko) * 2015-03-18 2016-10-24 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
CN107427732B (zh) * 2016-12-09 2021-01-29 香港应用科技研究院有限公司 用于组织和处理基于特征的数据结构的系统和方法
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
US10607604B2 (en) * 2017-10-27 2020-03-31 International Business Machines Corporation Method for re-aligning corpus and improving the consistency
CN110162681B (zh) * 2018-10-08 2023-04-18 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质
CN110853628A (zh) * 2019-11-18 2020-02-28 苏州思必驰信息科技有限公司 一种模型训练方法、装置、电子设备及存储介质
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition
CN113468308B (zh) * 2021-06-30 2023-02-10 竹间智能科技(上海)有限公司 一种对话行为分类方法及装置、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
WO1999000789A1 (en) * 1997-06-26 1999-01-07 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4689768A (en) * 1982-06-30 1987-08-25 International Business Machines Corporation Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories
US4899148A (en) * 1987-02-25 1990-02-06 Oki Electric Industry Co., Ltd. Data compression method
US6231938B1 (en) * 1993-07-02 2001-05-15 Watkins Manufacturing Corporation Extruded multilayer polymeric shell having textured and marbled surface
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5926388A (en) * 1994-12-09 1999-07-20 Kimbrough; Thomas C. System and method for producing a three dimensional relief
JP3277792B2 (ja) * 1996-01-31 2002-04-22 株式会社日立製作所 データ圧縮方法および装置
FR2744817B1 (fr) * 1996-02-08 1998-04-03 Ela Medical Sa Dispositif medical implantable actif et son programmateur externe a mise a jour automatique du logiciel
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
SE516189C2 (sv) * 1996-07-03 2001-11-26 Ericsson Telefon Ab L M Förfarande och anordning för aktivering av en användarmeny i ett presentationsorgan
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6424722B1 (en) * 1997-01-13 2002-07-23 Micro Ear Technology, Inc. Portable system for programming hearing aids
US6449662B1 (en) * 1997-01-13 2002-09-10 Micro Ear Technology, Inc. System for programming hearing aids
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6684063B2 (en) * 1997-05-02 2004-01-27 Siemens Information & Communication Networks, Inc. Intergrated hearing aid for telecommunications devices
JPH1169499A (ja) * 1997-07-18 1999-03-09 Koninkl Philips Electron Nv 補聴器、リモート制御装置及びシステム
JPH1169495A (ja) * 1997-07-18 1999-03-09 Koninkl Philips Electron Nv 補聴器
JP3190859B2 (ja) * 1997-07-29 2001-07-23 松下電器産業株式会社 Cdma無線送信装置及びcdma無線受信装置
AU8695798A (en) * 1997-08-07 1999-03-01 Natan Bauman Apparatus and method for an auditory stimulator
FI105874B (fi) * 1997-08-12 2000-10-13 Nokia Mobile Phones Ltd Monipistematkaviestinlähetys
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6081629A (en) * 1997-09-17 2000-06-27 Browning; Denton R. Handheld scanner and accompanying remote access agent
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6674867B2 (en) * 1997-10-15 2004-01-06 Belltone Electronics Corporation Neurofuzzy based device for programmable hearing aids
US6219427B1 (en) * 1997-11-18 2001-04-17 Gn Resound As Feedback cancellation improvements
US6695943B2 (en) * 1997-12-18 2004-02-24 Softear Technologies, L.L.C. Method of manufacturing a soft hearing aid
US6366863B1 (en) * 1998-01-09 2002-04-02 Micro Ear Technology Inc. Portable hearing-related analysis system
US6023570A (en) * 1998-02-13 2000-02-08 Lattice Semiconductor Corp. Sequential and simultaneous manufacturing programming of multiple in-system programmable systems through a data network
US6545989B1 (en) * 1998-02-19 2003-04-08 Qualcomm Incorporated Transmit gating in a wireless communication system
US6104913A (en) * 1998-03-11 2000-08-15 Bell Atlantic Network Services, Inc. Personal area network for personal telephone services
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6347148B1 (en) * 1998-04-16 2002-02-12 Dspfactory Ltd. Method and apparatus for feedback reduction in acoustic systems, particularly in hearing aids
US6351472B1 (en) * 1998-04-30 2002-02-26 Siemens Audiologische Technik Gmbh Serial bidirectional data transmission method for hearing devices by means of signals of different pulsewidths
US6137889A (en) * 1998-05-27 2000-10-24 Insonus Medical, Inc. Direct tympanic membrane excitation via vibrationally conductive assembly
US6188979B1 (en) * 1998-05-28 2001-02-13 Motorola, Inc. Method and apparatus for estimating the fundamental frequency of a signal
US6151645A (en) * 1998-08-07 2000-11-21 Gateway 2000, Inc. Computer communicates with two incompatible wireless peripherals using fewer transceivers
US6240193B1 (en) * 1998-09-17 2001-05-29 Sonic Innovations, Inc. Two line variable word length serial interface
US6061431A (en) * 1998-10-09 2000-05-09 Cisco Technology, Inc. Method for hearing loss compensation in telephony systems based on telephone number resolution
US6838485B1 (en) * 1998-10-23 2005-01-04 Baker Hughes Incorporated Treatments for drill cuttings
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6265102B1 (en) * 1998-11-05 2001-07-24 Electric Fuel Limited (E.F.L.) Prismatic metal-air cells
JP4302326B2 (ja) * 1998-11-30 2009-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストの自動区分
DE19858398C1 (de) * 1998-12-17 2000-03-02 Implex Hear Tech Ag Implantierbares Gerät zum Behandeln eines Tinnitus
US6208273B1 (en) * 1999-01-29 2001-03-27 Interactive Silicon, Inc. System and method for performing scalable embedded parallel data compression
DE19914993C1 (de) * 1999-04-01 2000-07-20 Implex Hear Tech Ag Vollimplantierbares Hörsystem mit telemetrischer Sensorprüfung
DE19915846C1 (de) * 1999-04-08 2000-08-31 Implex Hear Tech Ag Mindestens teilweise implantierbares System zur Rehabilitation einer Hörstörung
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6557029B2 (en) * 1999-06-28 2003-04-29 Micro Design Services, Llc System and method for distributing messages
US6490558B1 (en) * 1999-07-28 2002-12-03 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program through repetitive training
US6590986B1 (en) * 1999-11-12 2003-07-08 Siemens Hearing Instruments, Inc. Patient-isolating programming interface for programming hearing aids
US6324907B1 (en) * 1999-11-29 2001-12-04 Microtronic A/S Flexible substrate transducer assembly
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6601093B1 (en) * 1999-12-01 2003-07-29 Ibm Corporation Address resolution in ad-hoc networking
JP2001169380A (ja) * 1999-12-14 2001-06-22 Casio Comput Co Ltd 耳装着型音楽再生装置、及び音楽再生システム
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
JP2001177596A (ja) * 1999-12-20 2001-06-29 Toshiba Corp 通信装置および通信方法
JP2001177889A (ja) * 1999-12-21 2001-06-29 Casio Comput Co Ltd 身体装着型音楽再生装置、及び音楽再生システム
EP1246665B1 (en) * 2000-01-07 2005-08-24 Biowave Corporation Electrotherapy apparatus
US6850775B1 (en) * 2000-02-18 2005-02-01 Phonak Ag Fitting-anlage
US20010033664A1 (en) * 2000-03-13 2001-10-25 Songbird Hearing, Inc. Hearing aid format selector
DE10018334C1 (de) * 2000-04-13 2002-02-28 Implex Hear Tech Ag Mindestens teilimplantierbares System zur Rehabilitation einer Hörstörung
DE10018361C2 (de) * 2000-04-13 2002-10-10 Cochlear Ltd Mindestens teilimplantierbares Cochlea-Implantat-System zur Rehabilitation einer Hörstörung
DE10018360C2 (de) * 2000-04-13 2002-10-10 Cochlear Ltd Mindestens teilimplantierbares System zur Rehabilitation einer Hörstörung
US20010049566A1 (en) * 2000-05-12 2001-12-06 Samsung Electronics Co., Ltd. Apparatus and method for controlling audio output in a mobile terminal
EP1293107A4 (en) * 2000-06-01 2007-03-14 Otologics Llc METHOD AND DEVICE FOR MEASURING THE PERFORMANCE OF AN IMPLANTABLE MID-EAR HEARING EQUIPMENT AND FOR MEASURING THE RESPONSE OF A PATIENT CARRYING SUCH A HEARING DEVICE
DE10031832C2 (de) * 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung
DE10041726C1 (de) * 2000-08-25 2002-05-23 Implex Ag Hearing Technology I Implantierbares Hörsystem mit Mitteln zur Messung der Ankopplungsqualität
US20020076073A1 (en) * 2000-12-19 2002-06-20 Taenzer Jon C. Automatically switched hearing aid communications earpiece
US6584356B2 (en) * 2001-01-05 2003-06-24 Medtronic, Inc. Downloadable software support in a pacemaker
US20020095892A1 (en) * 2001-01-09 2002-07-25 Johnson Charles O. Cantilevered structural support
US6590987B2 (en) * 2001-01-17 2003-07-08 Etymotic Research, Inc. Two-wired hearing aid system utilizing two-way communication for programming
US6582628B2 (en) * 2001-01-17 2003-06-24 Dupont Mitsui Fluorochemicals Conductive melt-processible fluoropolymer
US6823312B2 (en) * 2001-01-18 2004-11-23 International Business Machines Corporation Personalized system for providing improved understandability of received speech
US20020150219A1 (en) * 2001-04-12 2002-10-17 Jorgenson Joel A. Distributed audio system for the capture, conditioning and delivery of sound
US6913578B2 (en) * 2001-05-03 2005-07-05 Apherma Corporation Method for customizing audio systems for hearing impaired
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
US20030128859A1 (en) * 2002-01-08 2003-07-10 International Business Machines Corporation System and method for audio enhancement of digital devices for hearing impaired
CN1243541C (zh) * 2002-05-09 2006-03-01 中国医学科学院药物研究所 2-(α-羟基戊基)苯甲酸盐及其制法和用途

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
WO1999000789A1 (en) * 1997-06-26 1999-01-07 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN103871404B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN107003992A (zh) * 2014-12-12 2017-08-01 全方位人工智能股份有限公司 用于神经语言行为识别系统的感知联想记忆

Also Published As

Publication number Publication date
WO2001037128A3 (en) 2002-02-07
US6904402B1 (en) 2005-06-07
WO2001037128A2 (en) 2001-05-25
AU4610401A (en) 2001-05-30
JP2003523559A (ja) 2003-08-05
US20040210434A1 (en) 2004-10-21
CN1387651A (zh) 2002-12-25

Similar Documents

Publication Publication Date Title
CN100430929C (zh) 词典、分段和语言模型联合优化的系统和迭代方法
US10650356B2 (en) Intelligent self-service delivery advisor
US11468233B2 (en) Intention identification method, intention identification apparatus, and computer-readable recording medium
JP5484317B2 (ja) 機械翻訳における大規模言語モデル
CN114585999A (zh) 多语言代码行补全系统
US11138005B2 (en) Methods and systems for automatically generating documentation for software
JP4945086B2 (ja) 論理形式のための統計的言語モデル
US5555169A (en) Computer system and method for converting a conversational statement to computer command language
US20070282594A1 (en) Machine translation in natural language application development
KR100650427B1 (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
US11132504B1 (en) Framework for understanding complex natural language queries in a dialog context
US6963831B1 (en) Including statistical NLU models within a statistical parser
EP1538535A2 (en) Determination of meaning for text input in natural language understanding systems
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN109471793B (zh) 一种基于深度学习的网页自动化测试缺陷定位方法
US20220108080A1 (en) Reinforcement Learning Techniques for Dialogue Management
WO2023278052A1 (en) Automated troubleshooter
Ortiz Martínez Advances in fully-automatic and interactive phrase-based statistical machine translation
JP7279099B2 (ja) 対話管理
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
US7657422B2 (en) System and method for text analysis
US11314725B2 (en) Integrated review and revision of digital content
CN113535961A (zh) 基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其存储介质
Zhang et al. HMPT: a human–machine cooperative program translation method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150506

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150506

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081105

Termination date: 20181103