CN1643511A - 命名实体翻译 - Google Patents

命名实体翻译 Download PDF

Info

Publication number
CN1643511A
CN1643511A CNA038057492A CN03805749A CN1643511A CN 1643511 A CN1643511 A CN 1643511A CN A038057492 A CNA038057492 A CN A038057492A CN 03805749 A CN03805749 A CN 03805749A CN 1643511 A CN1643511 A CN 1643511A
Authority
CN
China
Prior art keywords
translation
named entity
language
literal
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038057492A
Other languages
English (en)
Inventor
Y·埃尔-奥奈扎恩
K·克奈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of CN1643511A publication Critical patent/CN1643511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

将命名实体(110)从源语言翻译到目标语言。通常,在一个实施中,技术包括:使用基于发音和基于拼写的直译模型生成从源语言到目标语言的命名实体的可能的翻译(210),在目标语言的单语资源中查找关于使用频率的信息(220),以及根据使用频率提供包括至少一个可能的翻译的输出(230)。

Description

命名实体翻译
相关申请的对照
本申请要求2002年3月11日提交标题为“命名实体翻译(NAMED ENTITYTRANSLATION)”的美国临时申请序号No.60/363443的优先权。
关于联邦资助研究的声明
这里描述的本发明是在国防高级研究计划局(DARPA)准许号no.N66001-00-1-8914下的工作执行中进行的,由此政府对本发明具有一定权利,并服从公法96-517(35 U.S.C 202)的规定,其中订约人选择保留标题。
背景
本申请描述了涉及例如命名实体的翻译的语言的机器翻译的系统和技术。
命名实体短语以人名、组织、地点、时间短语和货币表达的形式按日地被引入新闻故事中。已可以获得识别命名实体的各种技术。
发明内容
本揭示内容包括涉及将命名实体从源语言翻译成目标语言的系统和技术。根据一个方面,使用基于发音和基于拼写的直译模型生成从源语言到目标语言的命名实体的可能的翻译。可以在目标语言的单语资源中查找关于使用频率的信息,且根据使用频率信息可以提供包括至少一个可能的翻译的输出。
可以结合组合的基于发音和基于拼写的直译模型和新闻文集选择性地使用双语资源,允许用来自双语资源的最小输入执行命名实体翻译。使用上下文信息和/或被识别的可能的翻译的子短语可用于扩展生成的翻译候选对象列表。此外,一个或多个单语线索可用于帮助将生成的翻译候选对象重新排名。所述的系统和技术可使得命名实体翻译更有效,能处理全新的命名实体短语和范围特定的命名实体,它们不能在双语字典中被找到。
附图概述
图1示出使用命名实体翻译的系统。
图2示出实例性的命名实体翻译系统。
图3示出基于机器的命名实体的可能的翻译的产生。
图4示出基于机器的命名实体的可能的翻译的产生,包括使用双语资源。
图5示出实例性的命名实体翻译系统。
图6示出基于机器的命名实体的可能的翻译的产生,包括使用子短语识别扩展候选对象列表。
图7示出基于机器的命名实体的可能的翻译的产生,包括使用上下文信息扩展候选对象列表。
在附图和以下的描述中阐述了一个或多个实例的细节。其它特点和优点通过描述和附图,并通过权利要求书变得显而易见。
详细描述
在这里使用时,可互换地使用术语“命名实体”、“命名实体短语”和“短语”。命名实体是一个或多个单词的组,它们通过名字识别实体。例如,命名实体可以包括人、组织、地点、日期和货币表达。此外,术语“电子文档”和“文档”表示一组电子数据,包括存储在文件中的电子数据和网络上接收到的电子数据。电子文档不必对应于文件。文档可存储在保存其它文档的文件的一部分中,在专用于讨论中的文档的单个文件中,或者在一组互相协调的文件中。术语“文本”表示字符数据,它可以使用标准化的字符编码方案进行编码,诸如统一码Unicode,ASCII,阿拉伯语(ISO),土耳其语(ISO),简体中文(EUC),朝鲜语(ISO)等等。
图1示出使用命名实体翻译的系统100。系统100包括自然语言处理(NLP)系统120、诸如统计机器翻译系统、交叉语言信息检索(CLIR)系统或者问答(QA)系统。NLP系统120可以具有内置命名实体翻译系统110。或者,NLP系统120可以例如通过网络130与命名实体翻译系统110通信。
命名实体翻译系统110可以是翻译支持NLP系统120的命名实体的工具。机器翻译系统可以将系统110用作部件来处理短语翻译以便改善总的翻译质量。CLIR系统可以根据系统110提供的命名实体短语的翻译识别有关文档。QA系统可以受益于系统110,因为对许多仿真陈述(factoid)问题的回答包括命名实体(例如,对“谁”问题的回答通常包括人/组织,“哪里”问题包括地点,且“何时”问题包括时间表述)。
图2示出实例性的命名实体翻译系统150。源语言中的命名实体被提供给可能的翻译发生器160。发生器160使用基于发音的直译模型162和基于拼写的直译模型164以产生从源语言到目标语言的可能的翻译。这样,单语源170(例如,通信网络上可得的英语文档)可用于帮助确定哪一个或哪些可能的翻译被提供作为输出。
此外,双语源180也可以用于帮助确定将哪一个或哪些可能的翻译提供作为输出。双语源180可以是双语字典(例如,阿拉伯语-英语字典)。以下实例用于说明翻译的一般方法,它产生这里描述的具体系统和技术。虽然本揭示内容常常使用阿拉伯语和英语作为源语言和目标语言,但所描述的系统和技术也可应用于其它语言。
新闻文本中的命名实体短语的频率反映与它们相关的事件的重要性。在翻译国际上重要的新闻故事中的命名实体时,同一事件将频繁地以包含目标语言的许多语言进行报道。代替必须产生一个文档中常具有许多不知道的单词的命名实体的翻译,有时找到类似于原始文档但不必是原始文档的翻译的目标语言文档并随后提取翻译对于人来说是更容易的。
为了说明这种翻译方法,考虑以下阿拉伯语摘录中出现的命名实体:
Figure A0380574900111
从中提取出该摘录的阿拉伯语报纸文章是关于美国和北朝鲜当局之间针对朝鲜战争期间阵亡美军士兵的遗体搜索的协商。在由双语发言人翻译阿拉伯语文档时, 被分别发声以给出Chozin Reserve,Onsan和Kojanj。
在翻译未知或不熟悉的名字时,可以查找讨论相同主题的英语文档并随后提取翻译。因此,为翻译以上术语,可以用以下短语查找万维网(WWW):“士兵遗体”,“搜索”,“北朝鲜”和“美国”。在使用搜索引擎(例如,http://www-google-com)执行该查找时,排名最高的文档包含以下段落:
The targeted area is near Unsan,which saw several
battles between the U.S.Army′s 8th Cavalry regiment
and Chinese troops who launched a surprise offensive
in late 1950.
这允许通过将“Unsan”添加到查找项上产生更精确的询问。
在执行该查找并在结果中排除原始找到的文档时,排名最高的文档包含以下摘录:
Operations in 2001 will include areas of
investigation near Kaechon,approximately 18 miles
south of Unsan and Kujang.Kaechon includes an area
nicknamed the″Gauntlet,″where the U.S.Army′s 2nd
Infantry Division conducted its famous,fighting
withdrawal along a narrow road through six miles of
Chinese ambush positions during November and
December 1950.More than 950 missing in action
soldiers are believed to be located in these three
areas.
The Chosin Reservoir campaign left approximately 750
Marines and soldiers missing in action from both the
east and west sides of the reservoir in northeastern
North Korea.
因此,该人工翻译方法提供了对感兴趣的名字的准确翻译。通过使用这种人工翻译方法作为出发点,可以提供各种基于机器的命名实体翻译技术。
图3示出用于命名实体的可能的翻译的基于机器的产生。在200,从源语言的文本输入获得命名实体。命名实体可以被识别或接收为输入。可以使用传统技术执行命名实体的识别,诸如Machine Learning 34,211-231(1999)的Daniel M.Bikel,Richard Schwartz和Ralph M.Weischedel的“学习在名字中有什么的算法(Algorithm that learns What’s in a Name)”中描述的IdentiFinder命名实体识别器。此外,可以获得用于命名实体的短语边界和类别指定。
在210,使用基于发音的直译模型和基于拼写的直译模型生成从源语言到目标语言的命名实体的可能的翻译。可能的翻译的这种产生可以包括以下步骤:(1)使用第一概率模型来产生目标语言的单词以及根据语言发音特性产生单词的第一直译分数,(2)使用第二概率模型根据从目标语言到源语言的字母顺序的映射产生单词的第二直译分数,以及(3)将第一直译分数和第二直译分数组合成单词的第三直译分数。
直译是用目标语言的近似语音或拼写等效物替换源语言单词的过程。使用近似字母表和发声系统的语言之间的直译比发声和书写系统中具有显著差异的语言之间的直译更容易,后者诸如阿拉伯语到英语的情况。
阿拉伯语中的元音有两种:长元音和短元音。在报纸文本中较少以阿拉伯语书写短元音,它会使得发音和意思非常含糊。同样,阿拉伯语发音和英语发音之间没有一对一的对应。例如,英语“P”和“B”都映射到阿拉伯语的
Figure A0380574900131
阿拉伯语
Figure A0380574900132
Figure A0380574900133
映射到英语“H”;等等。
针对该问题的一个方法是在从阿拉伯语到英语的翻译期间使用基于发音的模型。在Proceedings of the COLING/ACL Workshop on Computational Approachesto Semitic Languages(1998),Bonnie G.Stalls和Kevin Knight的“翻译阿拉伯语文本中的名字和技术术语(Translating names and technical terms in Arabictext)”的文章中,提出了基于源-通道构架的阿拉伯语到英语的向后直译系统。该直译过程基于如何将英语名字直译成阿拉伯语的生成模型。该过程包括几个阶段,每一个都可以被定义成表示成有限状态机的概率模型。
首先,根据其单字母(unigram)概率P(w)生成英语单词。随后,以概率P(e|w)将英语单词发音,这可以从英语发音字典中直接采集。最后,英语语音顺序以概率P(α|e)被转换成阿拉伯语书写。根据该模型,直译概率可以由以下等式决定:
( 1 ) - - - P p ( w | a ) ≅ Σ ∀ ϵ P ( w ) P ( e | w ) P ( a | e )
该基于发音的模型还可以被称作基于语音的模型。
由该模型建议的直译一般是准确的,但通常,可以产生的英语单词是具有已知发音的那些英语单词。此外,人工翻译员常根据它们是如何拼写的而不是根据它们是如何发音的来直译单词。例如,“Graham”被直译成阿拉伯语为
Figure A0380574900135
而非为了解决该问题,在基于发音的模型之外还可以使用基于拼写的模型。
基于拼写的概率模型的实例可以以概率P(α|w)直接将英语字母顺序映射成阿拉伯语字母顺序,这可以在较小的英语/阿拉伯语名字列表上练习而不需要英语发音。由于不需要发音,对于大量语言对,该列表可以方便地获得。此外,除了单词单字母模型,模型P(w)可以被扩展成包括字母三字母组模型。这就可能产生单词单字母模型中未定义的单词。因此,根据该模型的直译分数可以由以下等式决定:
( 2 ) - - - P s ( w | a ) = P ( w ) P ( a | w )
上述基于语音和基于拼写的模型可以组合成单个直译模型。在该组合的模型中,给定阿拉伯语单词α的英语单词w的直译分数可以是基于语音和基于拼写的直译分数的线性组合,如由以下等式决定的:
(3)    P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)
除了上述第一和第二概率模型,在潜在直译的生成期间可以使用其它技术。生成潜在直译可以包括使用双语资源。生成潜在直译可以包括多个生成阶段。例如,在第一阶段中,可以生成初始的一组可能的翻译(也称作候选对象),随后可以使用查找和直译技术将该组扩展,其中包括上述直译技术。
在220,查找目标语言的单语资源以便找到关于使用频率的信息。例如,单语资源可以是通信网络上可得的多个文档,诸如目标语言的新闻故事。可以在这些文档上查找可能的翻译以识别哪个可能的翻译更可能是准确的翻译。
在230,根据使用频率信息提供包含至少一个可能的翻译的输出。例如,可能的翻译可以具有有关的概率分数,且可以根据使用频率信息调整这些概率分数。随后,调整后的概率分数可以影响所提供的输出。
图4示出命名实体的可能的翻译的基于机器的产生,包括双语资源的使用。在250,获得被识别的命名实体的种类。随后,在260,根据该种类,可以通过选择性地使用双语资源生成命名实体的可能的翻译。根据一个或多个所识别的种类,可以不同地翻译不同类型的命名实体。
数字和时间表达通常使用有限的一组词汇单词(例如,月份的名字,星期的日子,等等),并可以使用各种翻译技术进行翻译。人物的名字可以是第一种类并与地点和组织分开处理,地点和组织可以作为第二种类进行处理。
当命名实体落在第一种类中时,不需要使用双语资源。人物名字几乎总是由人工翻译员直译的。因此,可以使用组合上述基于发音和基于拼写的模型生成典型人物名字的翻译候选对象。有限状态装置可以产生格子,它包含给定名字的所有可能的直译。随后,可以通过提取给定名字的n个-最好(n-best)直译创建候选对象列表。列表中每个候选对象的分数可以是由以下等式给出的直译概率:
P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)。例如,名字 被直译成:“BellClinton”,“Bill Clinton”,“Bill klington”等等。
当命名实体落在第二种类中时,可以使用双语资源。组织和地点名字中的单词通常被直接翻译(例如, 是“Reservoir”)或者由人工翻译员直译(例如,是“Chosin”),且对于给定单词,一种方法何时优于另一种总不是很清楚。为了对给定短语f生成翻译候选对象,可以使用双语字典翻译以及可以使用上述技术直译该短语中的单词。
候选对象的生成器可以将用于给定短语中每个单词的字典条目(entries)和n个一最好直译组合成接受单词翻译/直译组合的所有可能排列的规则表达。除了单词直译和直接翻译,还可以考虑英语零丰度单词(即,在命名实体短语中不具有阿拉伯语等效对象的单词,诸如“of”和“the”)。随后,可以针对目标语言的单语资源(诸如,较大的英语新闻文集)使该规则表达匹配。
可以根据其单个单词的翻译/直译分数将所有匹配评分。给定候选对象e的分数可以由Model 1概率的修改版本给出,该版本由P.F.Brown,S.A.Della-Pietra,V.J.Della-Pietra和R.L.Mercer的“统计机器翻译的数学:参数估计(Themathematics of statistical machine translation)”,ComputationalLinguistics,19(2)(1993),如下:
( 4 ) - - - P ( e | f ) = a Σ ∀ α P ( e , a | f )
( 5 ) - - - = α Σ a 1 = 0 l . . . Σ a m = 0 l Π j = 0 m t ( e a j | f j )
其中l是e的长度,m是f的长度,α是基于找到的e的匹配数的比例因数,且αj是根据对准α与fj对准的英语单词的索引。概率t(eaj|fj)是直译和翻译分数的线性组合,其中翻译分数是对fj的所有字典条目上的均匀概率。评分的匹配形成翻译候选对象的列表。例如,
Figure A0380574900153
的候选对象列表包括“Bay of Pigs”和“Gulf of Pigs”。
在270,查找目标语言的单语资源以找到关于使用频率的信息。在280,可以根据使用频率信息调整生成的可能的翻译的概率分数。该调整表示根据诸如网络(Web)的单语资源中发现的使用频率信息将翻译候选对象重新评分。虽然网络(Web)包括多种语言的文档,但在270,为了查找的目的将其作为单语资源处理。因此,网络(Web)是该上下文(context)中的单语资源。
可能的翻译的重新评分可以基于不同类型的使用频率信息。使用频率信息可以是单语资源中用于可能的翻译的标准化的全短语符合计数(full-phase hitcounts),且调整概率分数的步骤可以包括将概率分数乘以该可能的翻译的标准化全短语符合计数。一种或多种附加类型的重新评分可以与一个或多个单语资源一起使用,如以下结合图5进一步地描述的。
在重新评分后,在290,基于调整后的概率分数选择一个或多个翻译候选对象。例如,可以基于调整后的概率分数从可能的翻译中选择命名实体的最佳可得翻译。或者,可以基于调整后的概率分数和阈值从可能的翻译中选择命名实体的可能翻译的列表。这些一个或多个被选择的翻译可以被提供作为NLP系统的输出。
图5示出实例性的命名实体翻译系统。如图5所示,翻译过程可以包括两个阶段。给定源语言的命名实体,使用双语和单语资源生成翻译候选对象的排名列表。随后,可以使用不同的单语线索将候选对象的列表重新评分。
候选对象生成器300使用上述技术产生命名实体的翻译候选对象。候选对象生成器300接收已在阿拉伯语文档330中被识别的命名实体。该被识别为地点或组织的命名实体由第一模块310处理,且被识别为人物名字的命名实体由第二模块320处理。模块310、320两者都使用直译器305,如上所述。
此外,第一模块310还使用双语字典340来产生接受单词翻译/直译组合的所有可能排列的规则表达。第一模块310可以将英语零丰度单词添加到规则表达上。随后,针对英语新闻文集350,通过重新匹配器315使该规则表达匹配。根据其单个单词翻译/直译分数将这些匹配评分。
对于给定的命名实体,候选对象发生器输出翻译候选对象的列表。在输出最终的一组重新排名的翻译候选对象之前,这些翻译候选对象可以由候选对象重新排名器370进一步处理。重新排名器370查找网络(Web)360或者某些其它信息源以便找到关于使用频率的信息。随后,重新排名器370根据所发现的使用频率信息将翻译候选对象重新评分。
可以使用多种类型的使用频率信息和相应的重新评分技术。通常,候选对象根据用于分数S的以下等式重新排名:
(6)Snew(c)=Sold(c)×RF(c)其中RF(c)是使用的重新评分因数。可以增加地组合和应用多种重新评分技术,其中一个模块的重新排名列表是到下一个模块的输入,且可以限制候选对象列表的大小。例如,重新排名器370可以包括应用不同重新评分因数的三个分开的重新评分模块,且可以通过这三个模块中的每一个依次将20个可能的翻译的列表重新排名。
第一可能的重新评分因数是标准化的直接网络(Web)计数。对于
Figure A0380574900161
的实例,最上面的两个翻译候选对象是具有1.1×10-9的直译分数的“Bell Clinton”和具有6.7×10-10的分数的“Bill Clinton”。这两个名字的网络(Web)频率计数分别是146和840844。使用等式6,这些网络(Web)计数结果分别形成1.9×10-13和6.68×10-10的修整分数,这使得正确的翻译排名最高。
考虑全部名字而非单个名字中单个单词的计数通常产生更好的结果。为了说明这点,考虑人物名字
Figure A0380574900171
直译模块305建议“Jon”和“John”作为名的可能的直译,以及其它中的“Keele”和“Kyl”作为姓。单个单词的标准化计数是:(“John”,0.9269),(“Jon”,0.0688),(“Keele”,0.0032)和(“Kyl”,0.0011)。以与单字母语言模块类似的方式使用这些标准化计数来评分和排名姓名组合形成以下的名字/分数对:(“John Keele”,0.003),(“John Kyl”,0.001),(“Jon Keele”,0.0002),以及(“Jon Kyl”,7.5×10-5)。但是,可能的全名的标准化短语计数是(“JonKyl”,0.8976),(“John Kyl”,0.0936),(“John Keele”,0.0087)和(“Jon Keele”,0.0001),这使得“Jon Kyl”作为常提到的美国参议员是更合理的。
另一个可能的重新评分因数是基于源输入中的共同参考(co-reference),其中调整概率分数的步骤包括将命名实体与文本输入中共同类型的其它命名实体进行比较,如果该命名实体是一个其它命名实体的子短语,则根据与一个其它命名实体相对应的标准化全短语符合计数调整概率分数,当命名实体在新闻文章中被第一次提到时,通常使用该短语的全部形式(例如,人的全名)。对名字的随后的引用则常使用名字的缩短版本(例如,人的姓)。
命名实体短语的缩短版本在本质上比端电源全部版本更加含糊,因此更难翻译。而且,更长的短语趋于比更短的短语具有更准确的网络(Web)计数。例如,短语
Figure A0380574900172
被翻译成“the House of Representative”。单词
Figure A0380574900173
可用于该短语的随后的引用。应注意,
Figure A0380574900174
与“
Figure A0380574900175
下”相同的单词,但其具有定冠词 因此,翻译机具有翻译 的任务,该单词很含糊并可以涉及大量事物,包括:在涉及
Figure A0380574900178
“the Security Council”)时的“the Council”;在涉及
Figure A0380574900179
(“the House of Representatives”)时的“the House”;以及在涉及 (“National Assembly”)时的“theAssembly”。
如果翻译机可以确定该命名实体涉及“the House of Representatives”,则机器可以准确地将命名实体翻译成“the House”。这可以通过将缩短的短语与其余的同一类型的命名实体短语进行比较来进行。如果发现缩短的短语是仅仅一个其它短语的子短语,则可以假定该缩短的短语是对同一命名实体的另一种引用。在这种情况下,较长的短语的计数可用于将较短的短语的候选对象重新排名。
另一种可能的重新评分因数是基于与使用频率信息结合的上下文(contextual)信息。上下文信息可以在文本输入中被识别(例如,候选对象重新排名器370也可以将阿拉伯语文档330用作输入),且查找单语资源的步骤可以包括结合上下文信息查找用于可能的翻译的多个文档,以获得使用频率信息。
对于某些命名实体,当短语只有出现在某些上下文中被计数时,网络(Web)计数可以造成候选对象的更精确的重新排名。例如, 的最高的两个翻译候选对象是“Donald Martin”和“Donald Marron”。直接网络(Web)计数分别是2992和2509,它不改变候选对象列表的排名。在根据上下文信息查找网络以产生网络计数时,可以用布尔算子“与(AND)”使用网络搜索引擎。对于之前的实例,所引用的人物是“Paine Webber”的“CEO”的事实可以在查找中使用。这使得对“Donald Martin”和“Donald Marron”的计数分别是0和357。这足够使得正确的翻译作为最高的候选对象。
各种技术都可以用于自动地找到提供最准确计数的上下文信息。这些技术中的某些使用文本范围的上下文信息,诸如源文档的标题,或者选择源文档中提到的关键项。识别这些关键项的一个方法是使用TF/IDF(项频率/倒(inverse)文档频率)测量。其它技术使用局限于考虑中的命名实体的上下文信息,这些考虑中的命名实体诸如命名实体之前和/或之后的n个单词或者考虑中的命名实体附近提到的其它命名实体。
除了上述技术之外,命名实体翻译系统还可以使用各种技术来扩展诸如候选对象生成器300的可能的翻译生成器生成的候选对象列表。扩展候选对象列表的步骤可以使得系统更稳固和有效。一旦已产生了可能的翻译的初始列表,就可以通过查找正确的翻译而非生成它来扩展该列表。通过从初始候选对象列表外推,可以发现附加的以及有时更好的翻译。
图6示出命名实体的基于机器的可能的翻译产生,包括使用子短语识别的候选对象列表扩展。在400,从源语言的文本输入获得命名实体。在410,用概率模型生成命名实体的可能的翻译,该概率模型使用语言发音特性以及从目标语言到源语言的字母顺序的映射。可能的翻译是具有相应的直译分数的目标语言的短语,如上所述。
在420,在生成的短语中识别子短语。在430,使用子短语发现目标语言的文档。这可以包括使用网络(Web)搜索引擎。在440,在被发现的文档中识别包括一个或多个子短语的命名实体。例如,IdentiFinder命名实体识别器可用于在每个子短语的最高的n个被检索文档中找到所有命名实体。在450,使用概率模型生成被发现的文档中被识别的命名实体的直译分数。
该评分可限于被检索的目标语言文档中的被识别的命名实体,它们处于与源语言输入中的原始命名实体相同的种类中(例如,人物(PERSON)种类)。上述的同样模型能用于此评分中。随后,在460,将这些被评分的命名实体添加到可能的翻译中。因此,基于初始候选对象列表中找到的子短语扩展候选对象列表。随后,该扩展后的候选对象列表进入与前面一样的重新评分过程。在470,在目标语言的单语资源中查找关于使用频率的信息。随后,在480,基于使用频率信息,提供包括至少一个可能的翻译的输出。
对于人物名字,该技术对应于在可能的翻译生成期间分开查找名和姓,以便增加在最终重新评分过程期间执行的对全名的查找。作为说明,考虑名字翻译模块建议:“Coffee Annan”,“Coffee Engen”,“CoffeeAnton”,“Coffee Anyone”和“Covey Annan”而非正确的翻译“Kofi Annan”(当前的联合国秘书长)。可以通过找到具有“Coffee”或“Covey”作为名或者“Annan”、“Engen”、“Anton”或“Anyone”作为姓之一的最普通的人物名字来扩展可能的翻译的列表。
如果要使用的单语资源支持使用通配符的查找,则可以使用通配符查找来进行发现目标语言的文档的步骤。例如,如果所使用的单语资源是较大的英语新闻文集,则这种查找能力是易于获得的。如果要使用的单语资源不支持通配符查找,诸如常规的网络搜索引擎中共同的,则可以为名字“Coffee”、“Covey”、“Annan”、“Engen”、“Anton”和“Anyone”中的每一个检索最高的n个匹配文档。随后,可以将包含任何搜索中使用的名或姓的被检索文档中找到的所有人物名字添加到翻译候选对象的列表中。正确翻译可能存在于被检索文档中找到的名字之中,如果是这样,在应用于扩展后的候选对象列表的重新排名过程期间它将可能升到最高处。在该实例中,发现了“Kofi Annan”并将其添加到候选对象列表中,且随后它被排名在最高处。
为了解决在翻译候选对象的列表中不能找到正确翻译以及其任何子短语的情况,可以通过使用上下文信息的查找生成附加可能的翻译,诸如上述结合重新评分过程期间执行的查找。这可以通过查找与从源语言翻译过来的相类似的目标语言的文档加以执行。在翻译国际上重要的新闻故事中的命名实体,其中同一事件很可能以包含目标语言的许多语言报道的情况,这是特别有用的。
可以重复上述外推过程,但这次使用上下文信息,诸如原始文档的标题,以找到目标语言的相似文档。此外,CLIR系统可用于更成功地找到有关文档。
图7示出命名实体的可能的翻译的基于机器的产生,包括使用上下文信息扩展候选对象列表。在500,从源语言的文本输入获得命名实体。在510,在文本输入中识别如上所述的上下文信息。在520,发现包含上下文信息的目标语言的文档。在530,在这些文档中识别命名实体。在540,相对于文本输入中的命名实体,使用概率模型生成文档中命名实体的直译分数,该概率模型使用语言发音特性和从目标语言到源语言的字母顺序映射。
在550,将被评分的命名实体添加到可能的翻译中。在560,在目标语言的单语资源中查找关于使用频率的信息。随后,在570,基于使用频率信息,提供包含至少一个可能的翻译的输出。
图3、4、6和7中描述的逻辑流程不需要按所示的特殊顺序。步骤的顺序中的许多变化都是可以的。此外,不需要按顺次的顺序执行这些步骤,且在特定实施例中,多任务和并行处理是优选的。其它的实施例也在以下权利要求书的范围之内。

Claims (52)

1.一种方法,其特征在于,包括:
从源语言的文本输入获取命名实体;
使用基于发音和基于拼写的直译模型产生从源语言到目标语言的命名实体的可能的翻译;
在目标语言的单语资源中查找关于使用频率的信息;以及
基于使用频率信息提供包含至少一个可能的翻译的输出。
2.如权利要求1所述的方法,其特征在于,产生命名实体的可能的翻译的步骤包括:
使用第一概率模型以基于语言发音特性生成目标语言的单词和单词的第一直译分数;
使用第二概率模型以基于从目标语言到源语言的字母顺序的映射生成单词的第二直译分数;以及
将第一直译分数和第二直译分数组合成单词的第三直译分数。
3.如权利要求2所述的方法,其特征在于:
使用第一概率模型的步骤包括根据单字母概率P(w)生成至少一部分的单词,以发音概率P(e|w)生成与单词相对应的语音顺序,以及以转换概率P(α|e)将语音顺序转换成源语言,第一直译分数由 P p ( w | a ) ≅ Σ ∀ s P ( w ) P ( e | w ) P ( a | e ) 决定;以及
使用第二概率模型的步骤包括以概率P(α|w)使用字母顺序映射生成单词的源语言字母,以及以扩展概率P(w)根据字母三字母组模型生成至少部分的单词,第二直译分数由 P s ( w | a ) ≅ P ( w ) P ( a | w ) 决定。
4.如权利要求3所述的方法,其特征在于,将第一直译分数和第二直译分数组合的步骤包括计算线性组合,第三直译分数由P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)决定。
5.如权利要求1所述的方法,其特征在于,所述获得命名实体的步骤包括:
获得命名实体的短语边界;以及
获得命名实体的种类。
6.如权利要求5所述的方法,其特征在于,生成命名实体的可能的翻译的步骤包括基于命名实体的种类选择性地使用双语资源。
7.如权利要求6所述的方法,其特征在于选择性地使用双语资源的步骤包括:如果该种类包括组织或地点名字,则使用双语字典翻译命名实体中的一个或多个单词,使用基于发音和基于拼写的直译模型直译命名实体中的一个或多个单词,将翻译的一个或多个单词与直译的一个或多个单词组合成规则表达,定义翻译的一个或多个单词和直译的一个或多个单词的可用排列,以及针对目标语言的单语资源使该规则表达匹配。
8.如权利要求7所述的方法,其特征在于,组合翻译的一个或多个单词和直译的一个或多个单词的步骤包括将翻译的一个或多个单词与直译的一个或多个单词的n个一最好直译组合。
9.如权利要求7所述的方法,其特征在于,针对单语资源使规则表达匹配的步骤包括根据下式生成可能的翻译的分数:
P ( e | f ) = α Σ ∀ a P ( e , a | f )
= α Σ a l = 0 l · · · Σ a m = 0 l Π j = 0 m t ( e a j | f j )
其中f是来自可能的翻译的短语,e是来自被翻译和被直译的单词的给定单词,l是e的长度,m是f的长度,α是基于找到的e的匹配数的比例因数,αj是根据对准α与fj对准的目标语言单词的索引,且概率t(eaj|fj)是直译分数和翻译分数的线性组合,其中翻译分数是用于fj的所有字典条目上的均匀概率。
10.如权利要求1所述的方法,其特征在于,基于使用频率信息提供输出的步骤包括基于使用频率信息调整可能的翻译的概率分数。
11.如权利要求10所述的方法,其特征在于,提供输出的步骤进一步包括基于调整后的概率分数从可能的翻译中选择命名实体的翻译。
12.如权利要求10所述的方法,其特征在于,提供输出的步骤进一步包括基于调整后的概率分数和阈值从可能的翻译中选择命名实体的可能翻译的列表。
13.如权利要求10所述的方法,其特征在于,使用频率信息包括单语资源中可能的翻译的标准化全短语符合计数,且调整概率分数的步骤包括将概率分数乘以可能的翻译的标准化全短语符合计数。
14.如权利要求10所述的方法,其特征在于,调整概率分数的步骤包括:
将命名实体与文本输入中共同类型的其它命名实体进行比较;以及
如果命名实体是一个其它命名实体的子短语,基于与该一个其它命名实体相对应的标准化全短语符合计数调整概率分数。
15.如权利要求10所述的方法,其特征在于,进一步包括识别文本输入中的上下文信息,且其中查找单语资源的步骤包括结合上下文信息在多个文档中查找可能的翻译以获得使用频率信息。
16.如权利要求10所述的方法,其特征在于,查找单语资源的步骤包括查找在通信网络上可得的多个文档。
17.如权利要求16所述的方法,其特征在于,多个文档包括目标语言的新闻故事。
18.如权利要求17所述的方法,其特征在于,目标语言是英语。
19.如权利要求18所述的方法,其特征在于,源语言是阿拉伯语。
20.如权利要求1所述的方法,其特征在于,进一步包括识别文本输入中的上下文信息,且其中生成命名实体的可能的翻译的步骤包括:
发现包含上下文信息的目标语言的文档;
识别这些文档中的命名实体;
相对于文本输入中的命名实体,使用概率模型生成文档中命名实体的直译分数,该概率模型使用语言发音特性和从目标语言到源语言的字母顺序的映射;以及
将被评分的命名实体添加到可能的翻译中。
21.如权利要求1所述的方法,其特征在于,生成命名实体的可能的翻译的步骤包括:
用使用语言发音特性和从目标语言到源语言的字母顺序映射的概率模型生成目标语言的短语和相应的直译分数,可能的翻译包括被评分的短语;
识别所生成的短语中的子短语;
使用子短语发现目标语言的文档;
在所发现的文档中识别包含一个或多个子短语的命名实体;
使用概率模型生成被发现的文档中被识别的命名实体的直译分数;以及
将被评分的命名实体添加到可能的翻译中。
22.一种包括机器可读的介质的制品,其特征在于,该介质包含表示指令的信息,在由一个或多个机器执行这些指令时其引起的操作包括:
使用基于发音和基于拼写的直译模型生成从源语言到目标语言的命名实体的可能的翻译;
在目标语言的单语资源中查找关于使用频率的信息;以及
基于使用频率信息提供包括至少一个可能的翻译的输出。
23.如权利要求22所述的制品,其特征在于,生成命名实体的可能的翻译的步骤包括:
使用第一概率模型以基于语言发音特性生成目标语言的单词以及单词的第一直译分数;
使用第二概率模型以基于从目标语言到源语言的字母顺序映射生成单词的第二直译分数;以及
将第一直译分数和第二直译分数组合成单词的第三直译分数。
24.如权利要求23所述的制品,其特征在于:
使用第一概率模型的步骤包括根据单字母概率P(w)生成至少一部分的单词,以发音概率P(e|w)生成与单词相对应的语音顺序,以及以转换概率P(α|e)将语音顺序转换成源语言,第一直译分数由 P p ( w | a ) ≅ Σ ∀ s P ( w ) P ( e | w ) P ( a | e ) 决定;以及
使用第二概率模型的步骤包括以概率P(α|w)使用字母顺序映射生成单词的源语言字母,以及以扩展概率P(w)根据字母三字母组模型生成至少部分的单词,第二直译分数由 P s ( w | a ) ≅ P ( w ) P ( a | w ) 决定。
25.如权利要求24所述的制品,其特征在于,将第一直译分数和第二直译分数组合的步骤包括计算线性组合,第三直译分数由P(w|a)=λPs(w|a)+(1-λ)Pp(w|a)决定。
26.如权利要求22所述的制品,其特征在于,生成命名实体的可能的翻译的步骤包括基于命名实体的种类选择性地使用双语资源。
27.如权利要求26所述的制品,其特征在于,选择性地使用双语资源的步骤包括:如果种类包括组织或地点名字,使用双语字典翻译命名实体中的一个或多个单词,使用基于发音和基于拼写的直译模型直译命名实体中的一个或多个单词,将翻译的一个或多个单词与直译的一个或多个单词组合成规则表达,限定翻译的一个或多个单词和直译的一个或多个单词的可用排列,以及针对目标语言的单语资源使规则表达匹配。
28.如权利要求27所述的制品,其特征在于,将翻译的一个或多个单词与直译的一个或多个单词组合的步骤包括将翻译的一个或多个单词与直译的一个或多个单词的n个一最好直译组合。
29.如权利要求27所述的制品,其特征在于,针对单语资源使规则表达匹配的步骤包括根据下式生成可能的翻译的分数:
P ( e | f ) = α Σ ∀ a P ( e , a | f )
= α Σ a l = 0 l · · · Σ a m = 0 l Π j = 0 m t ( e a j | f j )
其中f是来自可能的翻译的短语,e是来自被翻译和被直译的单词的给定单词,l是e的长度,m是f的长度,α是基于找到的e的匹配数的比例因数,αj是根据对准α与fj对准的目标语言单词的索引,且概率t(eaj|fj)是直译分数和翻译分数的线性组合,其中翻译分数是用于fj的所有字典条目上的均匀概率。
30.如权利要求22所述的制品,其特征在于,基于使用频率信息提供输出的步骤包括基于使用频率信息调整可能的翻译的概率分数。
31.如权利要求30所述的制品,其特征在于,提供输出的步骤进一步包括基于调整后的概率分数从可能的翻译中选择命名实体的翻译。
32.如权利要求30所述的制品,其特征在于,提供输出的步骤进一步包括基于调整后的概率分数和阈值从可能的翻译中选择命名实体的可能翻译的列表。
33.如权利要求30所述的制品,其特征在于,使用频率信息包括单语资源中可能的翻译的标准化全短语符合计数,且调整概率分数的步骤包括将概率分数乘以可能的翻译的标准化全短语符合计数。
34.如权利要求30所述的制品,其特征在于,调整概率分数的步骤包括:
将命名实体与包含该命名实体的输入中共同类型的其它命名实体进行比较;以及
如果命名实体是一个其它命名实体的子短语,基于与该一个其它命名实体相对应的标准化全短语符合计数调整概率分数。
35.如权利要求22所述的制品,其特征在于,操作进一步包括识别包含命名实体的输入中的上下文信息,且其中查找单语资源的步骤包括在多个文档中结合上下文信息查找可能的翻译以获得使用频率信息。
36.如权利要求22所述的制品,其特征在于,查找单语资源的步骤包括查找通信网络上可得的多个文档。
37.如权利要求36所述的制品,其特征在于,多个文档包括目标语言的新闻故事。
38.如权利要求37所述的制品,其特征在于,目标语言是英语。
39.如权利要求38所述的制品,其特征在于,源语言是阿拉伯语。
40.如权利要求22所述的制品,其特征在于,操作进一步包括识别文本输入中的上下文信息,且其中生成命名实体的可能的翻译的步骤包括:
发现包含上下文信息的目标语言的文档;
识别文档中的命名实体;
相对于命名实体,使用概率模型生成文档中命名实体的直译分数,其中该概率模型使用语言发音特性和从目标语言到源语言的字母顺序映射;以及
将评分后的命名实体添加到可能的翻译上。
41.如权利要求22所述的制品,其特征在于,生成命名实体的可能的翻译的步骤包括:
用概率模型生成目标语言的短语以及相应的直译分数,该概率模型使用语言发音特性和从目标语言到源语言的字母顺序的映射,可能的翻译包括被评分的短语;
识别生成的短语中的子短语;
使用子短语发现目标语言的文档;
在被发现的文档中,识别包括一个或多个子短语的命名实体;
使用概率模型生成被发现的文档中被识别的命名实体的直译分数;以及
将被评分的命名实体添加到可能的翻译中。
42.一种系统,其特征在于,包括:
输入/输出(I/O)系统;以及
与该I/O系统耦合的可能的翻译生成器,该可能的翻译生成器结合了组合的基于发音和基于拼写的直译模型,被用于生成命名实体的翻译候选对象。
43.如权利要求42所述的系统,其特征在于,I/O系统包括提供对单语资源的访问的网络接口,该系统进一步包括重新排名器模块,它基于使用网络接口在单语资源中发现的使用频率信息调整翻译候选对象的分数。
44.如权利要求43所述的系统,其特征在于,进一步包括双语资源,其中可能的翻译生成器根据命名实体的种类选择性地使用双语资源。
45.如权利要求44所述的系统,其特征在于,可能的翻译生成器包括:
人物实体处理模块;
地点和组织实体处理模块,它访问双语资源;以及
重新匹配器模块,它访问新闻文集以生成由地点和组织实体处理模块生成的翻译候选对象的分数。
46.如权利要求43所述的系统,其特征在于,重新排名器模块结合了多个分开的重新评分模块,它们应用不同的重新评分因数。
47.如权利要求43所述的系统,其特征在于,重新排名器模块至少部分根据与命名实体相对应的上下文信息调整翻译候选对象的分数。
48.如权利要求42所述的系统,其特征在于,可能的翻译生成器至少部分根据与命名实体相对应的上下文信息生成翻译候选对象。
49.如权利要求42所述的系统,其特征在于,可能的翻译生成器至少部分根据在初始的一组翻译候选对象中被识别的子短语生成翻译候选对象。
50.一种系统,其特征在于,包括:
用于使用基于拼写的直译生成从源语言到目标语言的命名实体的可能的翻译的装置;以及
用于根据单语资源中发现的使用频率信息调整生成可能的翻译的概率分数的装置。
51.如权利要求50所述的系统,其特征在于,用于生成的装置包括用于选择性地使用双语字典和新闻文集的装置。
52.如权利要求51所述的系统,其特征在于,用于调整的装置包括用于根据上下文信息和可能的翻译的被识别的子短语将可能的翻译重新排名的装置。
CNA038057492A 2002-03-11 2003-03-11 命名实体翻译 Pending CN1643511A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36344302P 2002-03-11 2002-03-11
US60/363,443 2002-03-11

Publications (1)

Publication Number Publication Date
CN1643511A true CN1643511A (zh) 2005-07-20

Family

ID=28041769

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038057492A Pending CN1643511A (zh) 2002-03-11 2003-03-11 命名实体翻译

Country Status (7)

Country Link
US (2) US7249013B2 (zh)
EP (1) EP1483687A4 (zh)
JP (1) JP2005520251A (zh)
CN (1) CN1643511A (zh)
AU (1) AU2003218097A1 (zh)
CA (1) CA2475857C (zh)
WO (1) WO2003079225A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012037726A1 (en) * 2010-09-21 2012-03-29 Google Inc. Generating search query suggestions
CN107608955A (zh) * 2017-08-31 2018-01-19 张国喜 一种汉藏命名实体互译方法及装置
CN108009160A (zh) * 2017-11-30 2018-05-08 北京金山安全软件有限公司 含有命名实体的语料翻译方法、装置、电子设备及存储介质
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN108255817A (zh) * 2018-01-19 2018-07-06 中国科学院软件研究所 基于web检索的实体翻译方法
CN111428518A (zh) * 2019-01-09 2020-07-17 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US20040093322A1 (en) * 2001-08-03 2004-05-13 Bertrand Peralta Method and system for information aggregation and filtering
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005029370A1 (en) * 2003-09-17 2005-03-31 Language Analysis Systems, Inc. Identifying related names
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US7333976B1 (en) * 2004-03-31 2008-02-19 Google Inc. Methods and systems for processing contact information
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7665063B1 (en) 2004-05-26 2010-02-16 Pegasystems, Inc. Integration of declarative rule-based processing with procedural programming
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
CN101076708B (zh) * 2004-07-23 2012-05-09 德卡尔塔公司 地图目标的自动优先化
US8600728B2 (en) 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US9122655B2 (en) * 2004-11-15 2015-09-01 International Business Machines Corporation Pre-translation testing of bi-directional language display
US20070005597A1 (en) * 2004-11-23 2007-01-04 Williams Charles K Name classifier algorithm
US8229737B2 (en) * 2004-11-23 2012-07-24 International Business Machines Corporation Name classifier technique
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US7428491B2 (en) * 2004-12-10 2008-09-23 Microsoft Corporation Method and system for obtaining personal aliases through voice recognition
US8335704B2 (en) 2005-01-28 2012-12-18 Pegasystems Inc. Methods and apparatus for work management and routing
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US7698126B2 (en) * 2005-03-08 2010-04-13 Microsoft Corporation Localization matching component
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US7774195B2 (en) * 2005-03-08 2010-08-10 Microsoft Corporation Method and system for creating, storing, managing and consuming culture specific data
US7653528B2 (en) * 2005-03-08 2010-01-26 Microsoft Corporation Resource authoring incorporating ontology
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US20060265704A1 (en) * 2005-04-21 2006-11-23 Holt John M Computer architecture and method of operation for multi-computer distributed processing with synchronization
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US20070011132A1 (en) * 2005-06-17 2007-01-11 Microsoft Corporation Named entity translation
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
EP1949273A1 (en) 2005-11-16 2008-07-30 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US7707204B2 (en) * 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
CN101361065B (zh) * 2006-02-17 2013-04-10 谷歌公司 分布式模型的编码和自适应、可扩展访问
US8924335B1 (en) 2006-03-30 2014-12-30 Pegasystems Inc. Rule-based user interface conformance methods
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN101206659B (zh) * 2006-12-15 2013-09-18 谷歌股份有限公司 自动搜索查询校正
WO2008076115A1 (en) * 2006-12-18 2008-06-26 Qiheng Wang Translation on demand
US20080167876A1 (en) * 2007-01-04 2008-07-10 International Business Machines Corporation Methods and computer program products for providing paraphrasing in a text-to-speech system
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US7983897B2 (en) 2007-02-14 2011-07-19 Google Inc. Machine translation feedback
US8250525B2 (en) 2007-03-02 2012-08-21 Pegasystems Inc. Proactive performance management for multi-user enterprise software systems
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CA2717462C (en) 2007-03-14 2016-09-27 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
EG25474A (en) * 2007-05-21 2012-01-11 Sherikat Link Letatweer Elbarmaguey At Sae Method for translitering and suggesting arabic replacement for a given user input
US20080300861A1 (en) * 2007-06-04 2008-12-04 Ossama Emam Word formation method and system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US9002869B2 (en) 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
WO2009029865A1 (en) 2007-08-31 2009-03-05 Google Inc. Automatic correction of user input
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
WO2009052308A1 (en) 2007-10-17 2009-04-23 Roseman Neil S Nlp-based content recommender
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8843435B1 (en) 2009-03-12 2014-09-23 Pegasystems Inc. Techniques for dynamic data processing
US8468492B1 (en) 2009-03-30 2013-06-18 Pegasystems, Inc. System and method for creation and modification of software applications
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8930176B2 (en) 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US9268878B2 (en) * 2010-06-22 2016-02-23 Microsoft Technology Licensing, Llc Entity category extraction for an entity that is the subject of pre-labeled data
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
KR101890835B1 (ko) * 2010-08-26 2018-09-28 구글 엘엘씨 입력 텍스트 스트링들의 변환
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US8880487B1 (en) 2011-02-18 2014-11-04 Pegasystems Inc. Systems and methods for distributed rules processing
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
US9195936B1 (en) 2011-12-30 2015-11-24 Pegasystems Inc. System and method for updating or modifying an application without manual coding
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130318075A1 (en) * 2012-05-25 2013-11-28 International Business Machines Corporation Dictionary refinement for information extraction
US8918308B2 (en) 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content
US8843453B2 (en) * 2012-09-13 2014-09-23 Sap Portals Israel Ltd Validating documents using rules sets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
JP6097529B2 (ja) * 2012-11-15 2017-03-15 株式会社ゼンリンデータコム 情報処理装置、情報処理方法、及びプログラム
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9229926B2 (en) * 2012-12-03 2016-01-05 International Business Machines Corporation Determining similarity of unfielded names using feature assignments
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9185083B1 (en) * 2013-05-23 2015-11-10 The Boeing Company Concealing data within encoded audio signals
US20160132491A1 (en) * 2013-06-17 2016-05-12 National Institute Of Information And Communications Technology Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10672391B2 (en) * 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10469396B2 (en) 2014-10-10 2019-11-05 Pegasystems, Inc. Event processing with enhanced throughput
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
KR102244110B1 (ko) 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US10229674B2 (en) 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
US10545958B2 (en) 2015-05-18 2020-01-28 Microsoft Technology Licensing, Llc Language scaling platform for natural language processing systems
US10114817B2 (en) 2015-06-01 2018-10-30 Microsoft Technology Licensing, Llc Data mining multilingual and contextual cognates from user profiles
US9519643B1 (en) * 2015-06-15 2016-12-13 Microsoft Technology Licensing, Llc Machine map label translation
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US9747281B2 (en) * 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
JP6620934B2 (ja) * 2016-01-29 2019-12-18 パナソニックIpマネジメント株式会社 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム
US10698599B2 (en) 2016-06-03 2020-06-30 Pegasystems, Inc. Connecting graphical shapes using gestures
US10698647B2 (en) 2016-07-11 2020-06-30 Pegasystems Inc. Selective sharing for collaborative application usage
US10346548B1 (en) * 2016-09-26 2019-07-09 Lilt, Inc. Apparatus and method for prefix-constrained decoding in a neural machine translation system
US10261995B1 (en) * 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
US10223356B1 (en) 2016-09-28 2019-03-05 Amazon Technologies, Inc. Abstraction of syntax in localization through pre-rendering
US10229113B1 (en) 2016-09-28 2019-03-12 Amazon Technologies, Inc. Leveraging content dimensions during the translation of human-readable languages
US10275459B1 (en) 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10235362B1 (en) 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10423727B1 (en) * 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN110489761B (zh) * 2018-05-15 2021-02-02 科大讯飞股份有限公司 一种篇章级文本翻译方法及装置
US11048488B2 (en) 2018-08-14 2021-06-29 Pegasystems, Inc. Software code optimizer and method
CN113168336A (zh) 2018-08-27 2021-07-23 谷歌有限责任公司 基于实验参数适配功能电话的客户端应用
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
JP7287062B2 (ja) * 2019-03-29 2023-06-06 富士通株式会社 翻訳方法、翻訳プログラム及び学習方法
US11625535B1 (en) * 2019-12-05 2023-04-11 American Express Travel Related Services Company, Inc. Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof
US11567945B1 (en) 2020-08-27 2023-01-31 Pegasystems Inc. Customized digital content generation systems and methods

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
US5819265A (en) * 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US6460015B1 (en) * 1998-12-15 2002-10-01 International Business Machines Corporation Method, system and computer program product for automatic character transliteration in a text string object
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012037726A1 (en) * 2010-09-21 2012-03-29 Google Inc. Generating search query suggestions
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN107608955A (zh) * 2017-08-31 2018-01-19 张国喜 一种汉藏命名实体互译方法及装置
CN107608955B (zh) * 2017-08-31 2021-02-09 张国喜 一种汉藏命名实体互译方法及装置
CN108009160A (zh) * 2017-11-30 2018-05-08 北京金山安全软件有限公司 含有命名实体的语料翻译方法、装置、电子设备及存储介质
CN108255817A (zh) * 2018-01-19 2018-07-06 中国科学院软件研究所 基于web检索的实体翻译方法
CN108255817B (zh) * 2018-01-19 2020-06-12 中国科学院软件研究所 基于web检索的实体翻译方法
CN111428518A (zh) * 2019-01-09 2020-07-17 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质

Also Published As

Publication number Publication date
US20080114583A1 (en) 2008-05-15
EP1483687A1 (en) 2004-12-08
CA2475857A1 (en) 2003-09-25
AU2003218097A1 (en) 2003-09-29
EP1483687A4 (en) 2008-08-06
US7580830B2 (en) 2009-08-25
WO2003079225A1 (en) 2003-09-25
US7249013B2 (en) 2007-07-24
JP2005520251A (ja) 2005-07-07
CA2475857C (en) 2008-12-23
US20030191626A1 (en) 2003-10-09

Similar Documents

Publication Publication Date Title
CN1643511A (zh) 命名实体翻译
CN1135485C (zh) 利用计算机系统的日文文本字的识别
US9934776B2 (en) Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US7689405B2 (en) Statistical method for building a translation memory
US8296127B2 (en) Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20160140187A1 (en) System and method for answering natural language question
Almeman et al. Automatic building of arabic multi dialect text corpora by bootstrapping dialect words
Callison-Burch et al. A program for automatically selecting the best output from multiple machine translation engines
WO2012166417A1 (en) Method and system for text message normalization based on character transformation and unsupervised of web data
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Ernst-Gerlach et al. Retrieval in text collections with historic spelling using linguistic and spelling variants
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
Klakow Language-model optimization by mapping of corpora
Kashani et al. Automatic transliteration of proper nouns from Arabic to English
Kalita et al. Bengali to assamese statistical machine translation using moses (corpus based)
Van Den Bosch et al. Memory-based machine translation and language modeling
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
Van Huyssteen et al. Learning compound boundaries for Afrikaans spelling checking
Rajalingam A rule based iterative affix stripping stemming algorithm for Tamil
Bacha et al. Designing a model combination of Arabic, for use in Computer Assisted Teaching
KR102479163B1 (ko) 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법
KR101388569B1 (ko) 연속어 음성인식 시스템에서 언어모델의 고유 명사 추가 장치 및 방법
Iftene et al. Grammar-based automatic extraction of definitions
Linares et al. A low-resourced peruvian language identification model
Bar et al. Using synonyms for Arabic-to-English example-based translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication