CN101443759B - 多语言信息检索的方法和系统 - Google Patents

多语言信息检索的方法和系统 Download PDF

Info

Publication number
CN101443759B
CN101443759B CN2007800171592A CN200780017159A CN101443759B CN 101443759 B CN101443759 B CN 101443759B CN 2007800171592 A CN2007800171592 A CN 2007800171592A CN 200780017159 A CN200780017159 A CN 200780017159A CN 101443759 B CN101443759 B CN 101443759B
Authority
CN
China
Prior art keywords
translation
document
language
word
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800171592A
Other languages
English (en)
Other versions
CN101443759A (zh
Inventor
姜蓓
陈柏吟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Loto On-Line Technology Co., Ltd.
Original Assignee
BEIJING LOTO ON-LINE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LOTO ON-LINE TECHNOLOGY Co Ltd filed Critical BEIJING LOTO ON-LINE TECHNOLOGY Co Ltd
Publication of CN101443759A publication Critical patent/CN101443759A/zh
Application granted granted Critical
Publication of CN101443759B publication Critical patent/CN101443759B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Abstract

记述了多语言信息检索的方法、设备和系统。

Description

多语言信息检索的方法和系统
技术领域
本披露涉及信息检索和/或搜索领域。更具体地,本披露涉及属于信息检索(IR)的子领域的跨语言信息检索。
背景技术
跨语言信息检索(CLIR)处理提供一种语言的查询而用一种或多种不同语言搜索文档集。例如,用户可能会使用中文进行他/她的查询,但却希望检索最初用英文书写的相关文档。跨语言信息检索也被称为多语言或跨越语言信息检索。
在这个信息爆炸的时代,尤其是随着因特网(WWW或Web)的发展,人人都可以创建自己的网站(例如,博客),如何在海量的可用信息中查找用户所需的信息成为一项具有挑战性的工作,如果用户需要查找的信息是其它语言书写的,则查找的难度更大。在许多情况下,最相关的信息是使用外语表述的。然而,采用传统的信息检索工具,语言障碍可能会阻碍用户检索到这种文档。例如,如果用户使用英语发出关于“伊拉克战争”的查询请求,传统的信息检索系统不会获取使用中文表述的包含“伊拉克战争”字样的文章,例如可在http://141.155.90.70:88/files/articles/Iraq.htm上获得的这篇文章,因此无法体现中文信息发布者对伊拉克问题所持的观点。另一方面,如果用户使用中文发出“毛泽东”的查询请求,系统也不会获得采用英语书写的文章,例如在http://www.time.com/time/time100/leaders/profile/mao.html上的文章,因此无法展现出英语用户对毛泽东所持的观点。
在执行单语言搜索(信息检索)的传统技术中,用户在一个输入框中指定一组单词,短语或语句(以下单独或统称词语),用以传达所需查找信息的语义,也可称为查询请求,该查询请求可通过点击近旁的“搜索”按钮等方式进行提交。传统系统会以尽可能完整的方式,在目标文档组中(例如,网上的所有或部分文档)搜索与查询请求相关的文档,然后会根据这些文档与查询请求的相关程度进行排序,最终按照排序显示搜索结果。传统信息检索系统的主要目的在于尽可能多地发现与用户查询请求相关的文档(查全)而尽可能少的检索到非相关文档(精准)。传统信息检索系统如图1所示。
网上的文档类型各式各样,且文档的表述语言各不相同。许多文档都采用各种不同格式(如,Html,Doc,PDF),且各种图片上的说明也可能采用不同语言。一项单一的查询请求最好触发对所有这类资源的搜索。
查询请求通常会经过处理,以便信息检索系统可以利用此类查询进行适当的搜索。如果一种信息检索系统能够将查询请求翻译为另一种语言,该系统则能够在文档组中搜索其它语言的相关文档。同样,如果信息检索系统能够将查询请求转换为另外一种形式,则信息检索系统将能够有效扩大搜索范围。通常,为了确保完整地进行搜索,往往需要进行人机互动。
一系列技术被提出用于解决如何在电脑中表述文档的问题。另外,还有许多其它用于解决查询处理,索引,排序的信息检索技术。例如,在一种传统技术中,文档集是通过一组索引词语或关键词来表述的。此类关键词可以从文档的正文中直接提取,也可以通过人工指定,例如图书馆学中经常采用的方式。索引方法案例如图2所示。
在跨语言搜索中,需进行一种或多种语言的翻译,例如,将一项查询请求从源语言翻译为目标语言,然后使用翻译后的查询请求进行单语言搜索,或者将文档从目标语言翻译为源语言,然后使用原查询请求进行单语言搜索。另外也有人提出将查询请求和文档都翻译为某种中间表述,以便能够对两者进行比较。图3中的表格是对当前跨语言信息检索方法的简要概述。
美国专利号码5,301,109,名为“采用隐性语义索引进行计算机化跨语言文档检索”的专利,可为跨语言信息检索提供一种基于语料库的中间表述方法。美国专利号码5,867,811,名为“采用双语数据库包括对齐语料库的方法、设备、系统、存储装置及计算机可读介质”同样也提出了一种基于语料库的方法
美国专利号码6,321,191,名为“拥有多个跨语言检索单元、可根据所提取的独立词语进行语句匹配的相关语句检索系统”,提出一种技术,为从n种跨语言检索系统中检索出相关语句。n种系统中,每一种都包含了一个数据匹配存储单元,可对拥有相同含义的多个匹配数据(两种语言)进行存储。
当用户使用自然语言进行查询时,无论是单语言信息检索还是跨语言信息检索都面临着理解用户真实意图的困难。信息检索不同于数据检索,主要任务是确定文档集中的哪些文档包含了用户查询请求中的关键词。与针对符合给定查询请求的数据检索相比,信息检索的用户对于就某一主题检索信息更为关心。用户只是采用自然语言来表述所要查询的信息。因此,好的信息检索系统应具备一定的自然语言理解能力。例如,如果用户查询“便宜的电脑”,包含“廉价计算机”但不包含“电脑”或“便宜”的文档可能就不会被展现给用户。
为了确保搜索结果的完整性,查询请求可被处理为一组同义词,例如,(cell phone,mobile phone,cellular phone,手机,移动电话),(布什、布希,Bush),等等。
G.Salton在《美国社会信息科学杂志》的“外语文档的自动处理”(1970)一文中提出了在跨语言信息检索中采用同义词辞典(存储了多个同义词)的技术。Salton发表了一种实验方法,可采用向量表述和搜索技术,配合人工创建的双语同义词辞典进行一种语言文档对另一种语言查询请求的自动检索。测试样本获得的摘要和查询结果让我们感到前景光明。然而,要创建一个足够规模的多语言同义词辞典难度很大且需要相当多的人力成本。
如下案例说明了为何需要将一个查询请求扩展为一组同义词。在搜索关于跨语言信息检索的文档时,许多同义词可能会在搜索中进行替换,例如“跨越语言信息检索”,“多语言信息检索”,而“Information Retrieval”可能会被“Search”或“communication”所替代,“-lingual”可能会被“Language”所替代。这个案例短语可被扩展为至少12个同义或相关词语。另外,此搜索还可能通过相关技术领域的规范来引导,例如“搜索引擎”,“机器翻译”,等等。
例如,一位用户可能会在搜索引擎中查询西班牙语“conjeturar sinfundamento,”且可能会检索包括原查询词语或与原查询词语密切相关的结果。然而,为了搜索与“conjeturar sin fundamento”相关的文档并尽可能多地查找与用户查询相关的文档,在搜索中会需要进行多个同义词的替换,例如“adivinar a ciegas”,“hacer suposiciones gratuitas”。但是,如何自动生成一组同义词来基于一个查询词语触发多重搜索仍然是一项具有挑战性的任务。
中国计算技术研究所软件部开发了一套关于中国旅游的搜索引擎问答系统,采用同义词辞典将用户查询扩展为多个同义词或相关单词。然而,同义词辞典是由人类信息专家人工开发和维护的。
基于字典的方法通常会存在OOV(超出词库范围)这个主要问题,例如人名,公司名/机构名和地名,品牌名称,等等。传统的基于静态字典的跨语言信息检索方法无法跨越这个难题。另外,同义词辞典可以将用户查询请求扩展为多个同义词或相关单词,但无法尽可能少地检索非相关文档,因为它无法指定该搜索的相关语境,从而缩小检索结果的范围。
美国专利号码6,604,101,名为“在计算机网络上查询和搜索跨语言翻译及多语言信息检索的方法和系统”提出了一种“严格/受控的查询”方法,即当用户通过源语言输入一项查询请求后,该请求会经过一个“方言控制器”的标准化和规范化处理,如果没有找到该用户的查询请求的标准化形式,该用户将被提示采用另一种方式来描述所要查找的信息,然后标准化的查询词语被翻译为目标语言查询词语,用于搜索目标语言文档组。美国专利号码6,604,101未披露或建议采用存储同义词或相关词语,或类似说法的多语言、动态演进的字典。
美国专利申请公开号码20040139107A1,名为“通过跟踪和保存用户互动结果而实现的动态更新搜索引擎知识和处理数据库”,提出将跟踪用户互动及其所保存的信息作为一项查询请求的补充信息。然而,美国专利应用出版号码20040139107 A1并未披露或建议根据多语言web用户投票来更新多语言知识库。
在美国专利申请公开号码20040139106 A1,名为“可基于自然语言来有效解析用户查询并进行相关反馈学习的搜索引擎”,提出一种方法,可通过与用户之间的互动和反馈来服务于用户。然而,美国专利应用出版号码20040139106http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=99&f=G&l=A1并未披露或建议采用基于多语言网络用户投票的多语言知识库。
美国专利号5,384,701,名为“语言翻译系统”的专利,提出了一种可将第一语言翻译为第二语言的系统。该系统包括一个保存了第二语言短语集合的存储库。用第二语言表述的短语事先已准备好并保存在存储库中。例如,“你好”被保存为“How do you do?”。然而,美国专利号码5,384,701的专利并未披露或建议知识库可通过web用户的贡献来进行动态更新。
跨语言信息检索技术仍然存在很大的提升空间。
发明内容
本披露的主旨在于提供一种通过多重版本的查询文档以及(或者)相应的翻译结果自动扩展查询请求并且增加相关文档检索的可能性的方法。
一方面,采用源语言的搜索查询请求被翻译为采用目标语言的多个搜索查询请求。另外,检索到的目标语言文档可以被翻译回源语言,并且拥有多重翻译结果。这样不仅与搜索查询匹配的相关文档能被检索并展现给用户,而且与其同义词,翻译选项或相关词语相匹配的文档也能被检索并且展现给用户。
本披露的主旨还在于提供一种通过用户投票来对信息检索系统中的同义词辞典和/或字典进行动态更新的方法。
一方面,提供了一个投票界面,允许用户对与相关语境有关系的特定翻译选项进行编辑,存储,并且(或者)进行投票以表示支持或者反对。通过积累此类投票,形成了一个多语言选词数据库,而且随着时间不断发展,还可依据用户互动,贡献和/或编辑进行动态更新。选词数据库是对外开放的,任何感兴趣的人都可以访问。此外,投票人可以输入相关的词语以规定具体领域,范围和/或语境,此类相关词语也可被储存在选词数据库中(例如作为翻译选项的一部分)。
本披露同时提供了一种可自我学习的翻译引擎,能够根据要求翻译文档,并且选词数据库中多语言且不断升级的知识进行动态的自我更新。例如,文档能被切分成语句和/或者其它自然语言单元,诸如短语,关键字,俗语表达等等,源语言单元可同其翻译结果一同被保存,进一步强化多语言信息库。从而翻译引擎可随着时间和自然语言的发展趋势进行更新。
此外,本披露的主旨还在于提供一种方法,根据不断更新的多语言知识库组织并维护多语言文档库,且根据相关的语境自动生成多重版本的文档。从而一个文档变为多个相似文档,从而不论在多语言搜索中,还是在单一语言搜索中,都提高了检索相关结果的概率。
因此,本披露的另一个方面说明了翻译引擎能够对文档执行对语境敏感的翻译。
附图说明
参照附图和下面的详细说明,可以更好地理解本披露的特性,其中
图1显示说明一种传统信息检索系统的方框图;
图2显示说明一种采用索引方式的传统信息检索方法的流程图;
图3显示一种简要归纳传统跨语言信息检索技术的表格;同时,
图4显示了一种依据本披露的示范性实施例的多语言信息检索方框图。
具体实施方式
本披露的主旨包括对自然语言随着时间不断演进,以及随地理区域而变化的认知。虽然“mobile phone”或者“cellular phone”是此类电话的标准用词,但使用的几率却越来越有限,而如今电话通常被广泛地称为“cellphones”。几年前,年轻女孩可以被称为“miss”或者“young lady”,但是现在在网上聊天环境中更为经常被称为“chick”。在汉语中,上个世纪年轻女孩被称为带有政治色彩的“同志”,但是在当代中国,可通过更加丰富的词语来称呼她们,例如“小姐”,“美女”,“靓女”,“关眉”等等。此外,大陆人说“布什”,台湾人说“布希”,而香港人则是说“布殊”。新词语,新的实体名称,人或机构名称等更是日新月异。
因此,为信息检索系统使用的存储于字典或同义词辞典中的知识进行动态更新的能力是本披露的重要内容。在示范性的实施例中,一个存储单词、短语或语句的动态多语言库被生成,并通过世界各地的多语言用户(即,使用多于一种语言说话或交流的人)进行公众投票实现更新。例如,任何多语言用户都有权根据自己的个人理解决定如何将某个单词、短语或者语句翻译成作为众多翻译选项之一的目标语言。在一个特定的语境中,西班牙语短语“conjeturar sin fundamento”可从源语言西班牙语翻译为目标语言汉语中的“瞎猜”。另一位用户可能投票表示相同的短语“conjeturar sin fundamento”翻译为目标语言汉语中的“没有根据的猜想”。在又一种语境下,同样的短语“conjeturar sin fundamento”可能会被译为目标语言汉语中的“乱猜”。在再一种语境下,同样的短语“conieturar sin fundamento”可能会被译为目标语言汉语中的“无根据的假定”。
用户可通过投票界面添加投票,并且可以编辑,存储和/或投票赞成或者反对某个与相关语境有关的翻译选项,形成一个随时间演进的多语言选词数据库,并且通过用户间的互动、贡献和/或编辑进行动态更新。用户也可通过(以下单独和/或统称为“相关词语”)增加相关的单词、短语或语句来描述某个翻译选项,为他或她添加投票的网页指定一种语境,以使机器记录网页的相关语境关系。例如,在某些语境中,可添加“Hongkongers”作为描述翻译选项“Bush”-“布殊”的相关词语。
每个人都有权力决定某个单词/短语/语句应如何被翻译,并应当获得同等的机会针对某个单词/短语/语句来创建自己的翻译。每个人都可以投票赞同现有的翻译,或者投票反对现有的翻译。另外,在排名并展现热门文档时,用户可以选择使用自己认为最舒服的词语,并/或指定在哪些相关语境中检索文档。
词语的翻译因人而异。例如,台湾人通常会将“president Bush”翻译为“布希总统”,而大陆人习惯于将其翻译为“布什总统”,香港人则一般将其翻译为“布殊总统”
因特网对于全球因特网用户来说是“民有、民享和民治”的。因此,每个人都有权力访问任何文档,不论它是英文的、中文的、德文的或法文的。每个人都有权力以自己的语言和方言,向世界传达他的观点(例如通过创建自己的个人网站),并且可以与全世界上的其他人共享自己的知识、词汇以及表达方式。本披露所提供的主题本质是为每个人提供一个以自己所需的语言在因特网上发表观点,词汇等等的渠道。
例如,如果一位用户为非赢利性组织“亚洲育才学校”工作,该用户可以指定将该机构的名字翻译为“Asian-American Coalition for Education”。该搜索引擎可使用“Asian-American Coalition for Education”来查询英语文档,或者该翻译引擎可以使用中英对照的方式来执行文档翻译,从而该中文名字不会被翻译为蹩脚的英文,例如,“Asia Mode school”。
文档的解释也可能会因人而异。某人可能将“Can you give me a hand?”解释为“Can you assist me to do this?”,而另一人可能解释为“Can you helpme?”。采用多语言知识库,用户可以通过将文档翻译为不同版本并翻译回去而自动生成一个文档的多个版本。这样该用户就可以利用搜索引擎进行查询,并检索一个文档派生出来的多个版本。
例如,包含“cheap airplane tickets sold at the lowest price”的文档可能以不同形式被翻译或解释。根据添加到多语言选词数据库的翻译选项,该词语可被翻译为多种汉语形式,如“廉价的机票”,“最低价出售”、“便宜机票卖最低价格”、“甩卖飞机票”或者“飞机票大减价”,“价格最低”等,当更多的翻译选项被输入到多语言选词数据库后,在其它网页中它可能被翻译为更多的版本。同时,用户还可以通过汉译英的形式插入翻译选项,在各文本中将“廉价”翻译为“discounted”或者“inexpensive”,将“机票”翻译为“airline ticket”或者“plane ticket”,将“甩卖”翻译为“dumping”或者“on sale”。因此,使用多语言知识库且在动态演进的多语言选词数据库中结合不同的翻译选项,包含“cheap airplane tickets sold at the lowestprice”的文本可自动地翻译回源语言英语,并生成多种结果,例如“cheapairplane tickets on sale”、“inexpensive plane tickets sold at the lowest price”、“discounted airplane tickets on sale”或者“dumping airline tickets”,并可能根据当前的投票而产生更多版本。源于该文档的多种版本可能被存储,然后帮助在搜索引擎中使用各种查询词语进行查询的用户进行检索,例如“discounted tickets”、“inexpensive tickets”、“plane tickets lowest price”、“airplane tickets on sale”和/或“dumping plane tickets”等。从而,尽可能多地查找与用户查询请求相关的文档。
进而,用户可根据自己的查询词语和/或相关词语规范来检索文档,从而缩小搜索结果的范围。用户可以在翻译选项中选择一个同义词来指定搜索查询请求,并/或选择一个相关词语来指定相关语境,然后依照自己的查询词语和/或相关语境的规范来显示搜索结果。例如,用户可以选择翻译选项“布殊”和/或相关词语“Hongkongers”,然后根据所指定的搜索查询请求和/或相关词语显示相关搜索结果。
对于搜索查询请求和检索文档的多重翻译结果:某个源语言的搜索查询请求被翻译成一组采用目标语言的多个搜索查询请求,并通过它查询目标语言文档库。检索到的目标语言文档可以被翻译回源语言,并且拥有多重翻译结果。同时,源语言的某个搜索请求可被用来查询源语言文档库,然后,所检索到的源语言文档可被翻译为多个目标语言的文档,并拥有多重翻译结果。在翻译过程中,当多个单词,短语,语句或表达的翻译选项都可用时,则选词数据库中获得最多投票数的那个选项被采用,同时其它选项会以元数据和/或隐藏字段的形式被保存在翻译文档中。例如,一个西班牙语的搜索查询请求“conjjeturar sin fundamento”可能被翻译成一系列目标语言为中文的搜索请求,比如“瞎猜”,“没有根据的猜想”,“乱猜”和/或“无根据的假定”。然后,检索到的目标语言文档会被重新翻回源语言西班牙语,生成像“conjeturar sin fundamento”,“adivinar a ciegas”,和“hacer suposicionesgratuitas”等多个翻译结果。在翻译过程中,具有最多投票数的选项“conjeturarsin fundamento”可能被选择,同时其它选项“hacer suposiciones gratuitas”和“adivinar a ciegas”会以元数据和/或隐藏字段的形式被保存在翻译文档中。
通用选词数据库中的公共投票:通用选词数据库是公开的,任何人通过因特网均可访问。任何人都能够浏览并更新它。当某个人建议源语言的某个单词,短语,语句或表达X应该被翻译成目标语言的单词,短语,语句或表达Y时,针对X→Y关系(称为翻译选项)的投票数会被增加一。越多的人为X→Y关系投票,在结果文档中X被翻译成Y的可能性就越大。在给出建议的同时,该人还可以输入一些相关的短语来提示此关系的领域,范围和/或语境,并且相关单词、短语或语句也可以被存储在选词数据库中,与某个特定的翻译选项相关联。比如,在相关词语被投票为雅虎和/或共同创办人的情况下,“Jerry Yang”可能会被投票翻译为“杨致远”。针对相关语境,在相关词语被投票为总统和/或“Hongkongers”的情况下,“Bush”可能被投票翻译为“布殊”。
通用翻译引擎:通用翻译引擎是一种能根据请求翻译任何文档的翻译引擎。它能够通过自学存储在通用选词数据库中的多语言知识,来进行动态更新。基于通用选词数据库中的公共投票,通用翻译引擎能够自学不断演进的自然语言知识,吸收新的翻译选项到它的数据库,字典或同义词辞典中,从而能够进行自我动态更新,以确保在自然语言发展趋势中保持最新状态。例如,“美眉”到“hot chick”,这个通用选词数据库中新的中到英翻译选项,可能被吸收到通用翻译引擎词典中,并被用来根据请求翻译任何文档。
在专用选词数据库中为特定语境进行的公众投票:专用选词数据库与特定的语境相关联,也是公开的,所有人都可以通过因特网进行访问。任何人都可以浏览并更新与特定语境(比如一页网页或一组相关网页)相关联的专用选词数据库。用户可以在专用选词数据库中添加新的翻译选项,并在与特定语境相关联的专用选词数据库中对当前的翻译选项进行编辑、存储和/或进行投票表示赞同或反对。因此,当有人建议将源语言的某个单词、短语、语句或表达X在特定的语境中翻译成目标语言的单词、短语、语句或表达Y,那么在与给定语境相关联的特殊选词数据库中对X→Y(被称为翻译选项)的赞同票数就增加1票。在翻译过程中,如果单词、短语、语句或表达在通用选词数据库或专用选词数据库中对应于多个翻译选项,专用选词数据库中拥有最高赞同票数的选项则自动被列为默认选项,同时其他的选项以元数据和/或隐藏字段的形式保存在翻译文档中。例如在一个或一组相关网页中,如果是包含“president Bush”的香港网页或一组香港网站,那么在与香港网站相关联的专用选词数据库中拥有最高赞同票的翻译选项“Bush”→“布殊”就自动成为翻译过程中的默认选项。其他选项如通用选词数据库中的“Bush”→“布什”及“Bush”→“布希”则以元数据和/或隐藏字段的形式保存在翻译文档中。
专用翻译引擎:专用翻译引擎是一种能根据请求在特定语境下翻译文档的翻译引擎。它能够被训练为通过自学存储在专用选词数据库中的多语言知识,来进行动态自我完善。基于通用选词数据库中的公共投票,专用翻译引擎能够不断自学关于自然语言的知识,吸收新的翻译选项到它的数据库,字典或同义词辞典中,从而能够进行自我动态更新,以确保根据自然语言发展趋势,在特定语境下保持最新状态。例如,在某个香港网站中,专用选词数据库中的一个新的中英翻译选项“董建华”→“Tung Chee-hwa”可能会被纳入专用翻译引擎的词典,并用于根据请求对一组香港网站中的文档进行翻译。
对语境敏感的翻译:翻译应对语境敏感。语境表现为多种形式,包括但并不仅限于基于网络的环境、文档类别和/或网络链接等等。例如,一个网络链接和/或一组网络链接(如同一个域名或同一个子域名下的网络链接)可以构成通过电脑处理自然语言的语境。如果在给定的网络链接中通过投票界面向选词数据库中插入投票,那么将自动生成一个基于该网络链接(语境)的专用选词数据库,该链接与用于描述本次投票的相关词语相关联,与此同时,该次投票将被插入与该网络链接(语境)无关的通用选词数据库中。专用选词数据库中的投票数由电脑独立统计。在给定语境的翻译过程中,如果存储在专用选词数据库中某翻译选项(如”Jerry Yang”→”杨致远”)的投票数与通用选词数据库中的票数不一样,则优先采用专用选词数据库中的票数。在给定语境的翻译过程中,如果单词、短语、语句或表达方式在通用选词数据库和专用选词数据库中对应于多个翻译选项,专用选词数据库中拥有最高票数的选项将自动列为针对该语境的默认选项。电脑并不能像人一样“理解”语境然后进行表述,但它可以记录并保存基于网络的环境、文档类别和/或网络链接,通过它们可以插入投票并与用于描述投票的相关词语相关联(票数)。因此,新文档的“语境”可以由基于网络的环境、文档类别和/或网络链接来决定,通过此方式,该文档被提交进入翻译程序。在翻译过程中,针对由域名、子域名和/或一组域名所确定的一组类似网络链接将使用不同的专用选词数据库及专用翻译引擎。例如,同一域名下有网络链接1和网络链接2,基于网络链接1的专用选词数据库和专用翻译引擎可以按照翻译要求应用于通过网络链接2提交的新文档。另外,用于描述投票的相关词语也可以用来描述插入投票的网络链接(“语境”)。因此,语境在电脑中表现为相关词语。
动态翻译数据库:选词数据库由用户持续更新,因此可以用作一个动态翻译数据库,它涵盖了自然语言中的大部分最新单词、短语、语句或表达。该选词数据库有别于传统意义上的词典,同时也通过下面的方式对传统词典进行了补充:它是交互式的,翻译数据库与用户的互动使得用户可以对该数据库进行实时更新,并实时搜索和查看更新内容;它所包含的内容比传统词典更为广泛,收集了独特的表达方式、产品名称、地名、人名等等,这些是传统词典中所没有的内容,但搜索者经常在搜索查询中用到;它是动态的,根据用户对单词、短语、语句及表达的翻译结果的选择及喜好程度而发展变化(而传统词典的内容在出版发行之后是固定不变的,只能在一段时间如几个月甚至几年之后进行改动,因此对搜索者在进行多语搜索时具有一定的局限性);它包含大多数的最新信息,不像传统词典的编译过程会造成延时;它收集了所有用户的投票,因此在翻译过程中它就可以考虑到单个用户对最新单词、短语、语句和/或表达方式的投票,而机器翻译引擎所使用的传统词典则没有这种功能,这样就使得基于这些词典的翻译引擎无法识别这些单词、短语、语句和/或表达方式。
公众投票中的自动双向翻译选项:针对任何翻译选项的投票会自动进行回译,因此X和Y之间的关系就被保存为双向的翻译选项,即关系X→Y的投票每增加一,对反关系Y→X的投票也自动增加一。因此,该选词数据库可以以两种方式使用:从源语言到目标语言以及从目标语言到源语言,这样就丰富了翻译选项。例如,某个用户可以在多语选词数据库中加入“hotchick”→“美眉”翻译选项或对其进行投票,此时对“美眉”→“hot chick”翻译选项的投票也自动增加一。
翻译文档的本地服务器存储:从因特网上下载已翻译成目标语言的文档并保存在一组本地服务器上。源语言文档通常保存在位于别处甚至是其他洲的远程服务器上,因为远距离因特网传输的缘故很难对这些文档进行检索。因此,这些文档在检索之前就已经被翻译为目标语言并保存在本地服务器上,从而确保通过搜索引擎实现最快速的检索,从而使多语搜索更加方便。例如,可以将网站www.youtube.com及其网页翻译成中文并保存在一组本地服务器上,因此中国的用户可以在搜索引擎中发送中文查询请求“播送你自己”并对从因特网上下载的网页的翻译文档进行检索,从而查找www.youtube.com网站上的英文信息。
多语言库:源语言文档和已翻译文档一起被存储于一组本地服务器上构成了一个多语言库。这个已保存信息数据库包括源语言和目标语言之间平行页面,文本,单词,短语,语句,表达和文档,并通过网页用户添加新文档及为数据库投票来进行自动更新。当翻译引擎从因特网接收到一个用于查询网页或基于网络的任何其它信息的查询请求时,翻译引擎自动执行翻译程序,然后源语言文档和已翻译文档被一同添加到多语言库并存储到一组本地服务器上。同时,已翻译文档可被译回源语言,并根据选词数据库中的当前投票状态,连同多个已翻译版本,添加到多语言库,存储到一组本地服务器上。这样源语言和目标语言之间的平行页面,文本,单词,短语,语句,表达和文档就被从因特网下载并以可浏览网页和/或元数据和/或隐藏字段的形式成对组织起来。这些匹配对可被进一步扩展为更多语言对,并以元数据和/或隐藏字段的形式被组织为一系列在因特网上可显示及浏览的网页,并通过某些如“English”,“Spanish”,“Chinese”的按钮或链接来导航。例如,一个包含词语“cheap airplane tickets sold at the lowest price”的网页可被发送到翻译引擎并根据当前投票被自动翻译为多个中文版本,然后作为一组包含各种中文词语的网页被保存到本地服务器,例如“廉价的机票,最低价出售”,“便宜机票卖最低价格”,“甩卖飞机票”,或“飞机票大减价,价格最低”等等。之后,连同源网页和已翻译网页一起被从因特网下载下来并存储到一组本地服务器上,以包含词语“cheap airplane tickets sold at the lowest price”和已翻译词语“廉价的机票,最低价出售”,或是其它选项如“便宜机票卖最低价格”,“甩卖飞机票”,和“飞机票大减价,价格最低”等等可浏览网页的形式被成对组织起来,并以元数据和/或隐藏字段的形式被保存。中英匹配对可进一步扩展为包括更多语言的匹配对,例如包含词语“se venden billetes de avión másbaratos”的英语-西班牙语匹配对,因此一组包含词语“cheap airplane ticketssold at the lowest price”,“廉价的机票,最低价出售”和“se venden billetes deavión más baratos”的网页以元数据和/或隐藏字段的形式被组织为一系列在因特网上展现的可查看网页,并用类似“English”,“Spanish”,“Chinese”等等的按钮或链接用于导航。
将保存在多语言库中的文档自动切分为语句和/或其它自然语言单元形式,例如短语,关键词,口语表达等等,从而形成一个公众可访问的平行语言信息库。当从因特网上下载的文档被翻译并保存到本地服务器时,源文档和已翻译文档均被自动切分为语句和/或自然语言单元的其它形式,例如短语,关键词,口语表达方式等等,从而形成一个平行语言信息库。被切分单元在公开目录中以成对和/或成串的形式被自动组织并显示,任何人均可通过因特网进行访问。在公开目录中,拥有多个翻译选项的已切分单元,单词,短语,语句或者表达均被突出显示。任何人均可浏览这些翻译选项及其相关词语,通过在选词数据库中添加新投票及(或)选择任何一个现有翻译选项作为建议来加入自己的投票。例如,一个源文档及其已翻译结果可能会被切分为一对词语“cheap airplane tickets sold at the lowest price”,和“廉价的机票,最低价出售”,和/或一串词语“cheap airplane tickets sold at the lowestprice”,“廉价的机票,最低价出售”和“se venden billetes de avión másbaratos”,然后在公开目录中被显示出来供公开投票。通过浏览公开目录中显示的成对词语和/或成串词语,用户可加入一个新的选词建议,即将“cheapairplane tickets sold at the lowest price”翻译为“减价卖机票”。某些用户也许还可以将公开目录中的修改单元上传到本地服务器上保存的网页并使之自动替换在因特网上显示的老翻译版本。
多语言搜索条:源语言文档和已翻译文档一起被存储于一组本地服务器上构成了一个多语言库。通过提供多语言搜索条将某些查询词语指定到多语言库中保存的文档,非跨语言搜索引擎也可获得多语言搜索功能。已保存信息数据库包括源语言和目标语言之间的平行页面,文本,单词,短语,语句,表达和文档,从而使搜索引擎可在从其它语言翻译过来的文档中进行检索,并通过在现有搜索页中添加多语言搜索条实现跨语言功能。例如,包含词语“cheap airplane tickets sold at the lowest price”的文档可根据当前投票被翻译为多个中文版本并作为包含多个中文词语的一组文档被保存到本地服务器上,例如“廉价的机票,最低价出售”,“便宜机票卖最低价格”,“甩卖飞机票”,或“飞机票大减价,价格最低”等等。用户可以在与多语言搜索条相连接的非跨语言搜索引擎中发送搜索查询请求“便宜机票”,这个搜索引擎即可将该查询请求指定到保存在多语言库中的已翻译文档并检索包含中文词语“便宜机票”的文档。这样,多语言搜索的功能即可通过非跨语言搜索引擎来实现。
通过某个文档派生的多个版本检索该文档:一位用户还可以在搜索引擎中使用源语言发送搜索查询请求,并通过该文档派生的多个版本检索该文档,该文档将被译回源语言并以元数据和/或隐藏字段的形式保存在本地服务器上。例如,中翻英时,当前投票可能会将“廉价”翻译为“discounted”或将“inexpensive”,“机票”翻译为“airline ticket”,“plane tickets”或“airfare”,或是将“甩卖”翻译为“dumping”或“on sale”。因此,一个包含“cheap airplanetickets sold at the lowest price”的文档会自动从包含中文“廉价”,“机票”和“甩卖”的文档翻译回源语言英文,并根据当前投票生成包含词语如“cheapairplane tickets on sale”,“inexpensive plane tickets sold at the lowest price”,“discounted airfare on sale”,或“dumping plane tickets”等的多个已翻译文档。这些从该文档翻译而来的多个版本也以元数据和/或隐藏字段的形式被保存到本地服务器上,一位用户可能会使用源语言发送搜索查询请求,例如“discounted airfare”,“inexpensive plane tickets”,“plane tickets lowest price”,“airplane tickets on sale”,或“dumping plane tickets”等等,并通过该文档派生的多个版本,检索与用户查询请求相关的源语言文档。
已翻译文档的多面性(Multiple Facet):在任何从源语言翻译为目标语言的文档中,尽管该文档通过选择其中某个单词,短语,语句和表达的翻译选项之一进行了翻译,但其它翻译选项仍以元数据和/或隐藏字段的形式被保存在文档中。因此已翻译文档不仅可以通过可浏览单词,而且可以通过隐藏单词的方式接受搜索引擎的访问。例如“手机”这个词拥有如下翻译选项:cell phone,cellular phone,cell,mobile phone等等,尽管“cell phone”可能作为获得最多投票的翻译选项或在特定语境中的默认翻译选项而被用作最终显示出来的翻译结果,然而这组翻译选项均以元数据和/或隐藏字段的形式保存在已翻译文档中。因此,已翻译文档不仅可通过搜索引擎在目标语言文档中使用可浏览单词“cell phone”进行检索,而且可以在目标语言文档中使用以元数据和/或隐藏字段形式保存的其它翻译选项“cellular phone”,“cell”,“mobile phone”等进行检索。
多重结果:使用目标语言的一个文档基于该文档中的单词,短语,语句和表达的翻译选项被翻译为使用源语言的一组文档。同时,使用源语言的一个文档也可以同样方式翻译为使用目标语言的一组文档。所有这些已翻译文档均拥有相似含义(以下称“相似文档”),但措辞不同。因此一个文档变为一组文档保存在多语言库中,从而增加了搜索引擎查寻到的几率并可提升其在搜索结果列表中的排名。例如,搜索包含“conjeturar sin fundamento”的文档,并尽可能多地查找与用户查询请求相关的文档,多个包含同义词的文档如“adivinar a ciegas”,“hacer suposiciones gratuitas”可能会在搜索结果中被检索到,用户可通过指定一个同义词作为搜索查询请求,和/或一个相关词语作为相关语境对搜索结果进行排名、显示并缩小搜索结果的范围。
动态浏览:由于翻译文档具有多面性,即当一个文档(源)被翻译为一组文档(目标)时,结果文档之一仅显示了该文档中在单词,短语,语句和表达方面拥有最多投票数的翻译选项,或显示了在特定语境下的默认翻译选项,而其它翻译选项则作为隐藏单词保存在元数据中,例如在一个特定网页或一组相关网页中。这个所显示的,可浏览的目标文档即为查询源文档的翻译时获得的文档。但当对源文档中任何单词,短语,语句和表达的投票数更新后,原文档将动态获取一个新的目标文档,展现给搜索者,供其浏览。因此任何所显示的,可浏览的目标文档总是伴随投票数的更新而更新。因此,任何源语言文档到目标语言文档的翻译结果都是根据当前投票数而动态更新的。另外,存储于多语言库的文档可被某些用户进行修订,例如已翻译网页的授权站长,并且拥有修订已保存文档权限的用户还可以将修订词语和/或其它内容,包括但不限于图表,音乐,字幕,歌词等上传到保存于本地服务器的网页上并自动替换该翻译结果的老版本和/或网上展现出来的其他内容。例如,显示词语“mobile phone”的已翻译网页可根据通用选词数据库或专用选词数据库中的当前投票情况和/或根据已翻译网页的站长修订,动态获取一个包含词语“cell phone”的新目标文档,从而最新词语“cell phone”即会被显示在已翻译网页中,取代词语“mobile phone”作为网上显示的可浏览翻译结果。
自动同义词数据库:在选词数据库和翻译数据库的帮助下,使用任何语言X的自动同义词数据库以如下方式自动生成:根据使用X语言的任何单词/短语/语句/表达E,查找在Y语言中的所有E的翻译选项,然后根据每个Y语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所有翻译选项加上使用Y语言的所有翻译选项构成了单词,短语,语句或表达E在X语言的同义词数据库。在所得到的自动同义词数据库的帮助下,与源语言文档相配的性能被显著改进。自动同义词数据库不同于传统的同义词数据库,它是互动的,动态的,不断更新的,且拥有更强的理解能力,因此可提升搜索查询请求的丰富性,并提供更加全面的搜索结果。例如,“手机”这个词拥有如下翻译选项:cell phone,cellular phone,cell,mobile phone等等,也因此这些翻译选项拥有如下对应的翻译选项:“手机”,“移动电话”,“大哥大”,“无线电话”,“蜂窝式电话”,“细胞”,“蜂窝”等等。后面的一组单词,短语和表达被保存在自动同义词数据库中,用于增加搜索查询请求并提供更全面的搜索结果。
多选项的显示:当一位用户通过使用搜索查询请求获取到检索结果,该结果被显示为与用户搜索查询请求相匹配的一些文档。同时该查询请求的同义词会自动生成,且与这些同义词相关的词语也会在搜索结果页显示给用户。当用户选择了任何的同义词和/或相关词语时,与所选同义词相匹配的文档就会在结果页中提交给用户。因此,不仅与所输入的查询请求相匹配的文档,而且与查询请求的同义词相匹配的文档均会一同在最终显示界面提供给用户。例如,用户可能会在自动生成的一组同义词中选择词语“discountedairfare”作为搜索查询请求“cheap tickets”的同义词之一,并在搜索结果中显示与指定同义词相匹配的相关文档。另外,一位用户还可能会选择与某个查询请求在特定语境下的同义词相关联的相关词语之一,并根据自己对该相关词语的说明显示结果文档,以缩小搜索结果的范围。例如,该用户可能会从与人名“Jerry Yang”相关的一组词语中选择相关词语“Yahoo Co-founder”在搜索结果页显示,然后只有与名字“Jerry Yang”相匹配且和语境“YahooCo-founder”相关的文档才被显示给用户,从当前结果页中隐藏其它非相关搜索结果。
一站式跨语言查询:当一位用户使用源语言进行查询,这项查询请求以及检索结果,会自动在内部与目标语言相互翻译,不受用户的任何干涉。该用户可使用自己的语言(源语言)输入查询请求并且多语言的搜索结果也会通过源语言展现出来。无需用户再输入其它查询请求,翻译查询请求,使用目标语言检索文档,然后翻译文档等等。例如,用户可输入“discountedairfare”,用英语展现的搜索结果不仅检索了与搜索查询请求“discountedairfare”相匹配的使用英文书写的文档,还(或)自动生成了同义词,并将中文,西班牙文,法文,德文,俄文等语言书写的文档自动在内部翻译为英文,与搜索查询请求和/或自动生成的同义词相匹配。
单语导航和/或多语导航:如果一位用户使用源语言输入一项查询请求,查询结果可能仅显示为源语言,尽管查询结果既包括了来自源语言的文档,也包括了来自目标语言的文档。原本使用目标语言的文档被提前翻译为源语言,并保存在多语言库中,然后与所输入的查询请求和/或自动生成的同义词相匹配。从用户的角度看,在这两种文档中没有任何差异,用户感觉自己是使用源语言通过单语界面在单语世界中浏览。同时,如果一位用户使用源语言输入一项查询请求,检索结果可以同时被展现为源语言和相应的目标语言,以便用户进行多语言浏览。在搜索结果页,一个选项可同时以源语言文档和相应目标语言已翻译文档的形式展现出来提供给用户,且/或同时显示以目标语言文档和翻译回源语言的对应文档。
多语言标志:为了区分跨语言搜索结果和其原语言,检索到的翻译文档通过原语言的提示标注了原语言条。反之,搜索结果中则不会出现这样的原语言条。
混合搜索:当一位用户提交了一个查询请求后,可通过保存在本地服务器的翻译文档以及从网络上来获取搜索结果。通过将搜索查询请求翻译为目标语言,然后使用已翻译的查询请求来在网络上搜索,原来未被翻译和保存在多语言库中的新文档可通过网络被检索到,列入搜索结果,并翻译回源语言。因此混合搜索方法不仅允许通过用户查询请求增加多语言库,而且还有助于提升多语言搜索质量,使之保持最新且更全面。
消除歧义:在任何的已翻译文档中,具有多个翻译选项的单词,短语,语句或者表达均被突出显示。用户可以浏览这些翻译选项以及相关词语,选择其中任何一个作为建议。系统将把这个建议作为一次投票。用户在添加投票时也可以指定一个插入该投票的语境,通过加入一些相关词语来描述某一个翻译选项,然后让机器记录相关的翻译语境。例如,用户可以添加“Hongkongers”作为一个相关词语来描述某语境中“布殊”的翻译选项“Bush”,可以在另一个语境中添加“Yahoo Co-founder”作为一个相关词语来描述“杨致远”的翻译选项“Jerry Yang”。在搜索结果页,搜索查询请求的同义词和其相关词语都被显示出来,因此,用户可以从它们中间选择一个以指定该搜索查询请求,并且(或者)选择一个相关词语来指定语境,然后根据用户查询词语的指定和/或相关语境显示出搜索结果。例如,用户可能选择了“JerryYang”和/或相关词语“Yahoo Co-founder”,然后显示出与所指定的搜索查询请求和/或相关词语关联的搜索结果,这就解决了由这个名字“Jerry Yang”引起的模糊含义,因为很多人都会有着相似甚至相同的名字。
查询的歧义消除:当用户使用自己的语言输入查询请求时,系统能够实时以他们的语言向该用户展示翻译选项中的相关单词,用户可以选择这些词语中的任何一个对查询请求进行微调。
短语和表达的探测:新的短语和表达可通过计算在同一文档、段落或语句中两个或两个以上词语连续出现的机率而被查找到。这些新的短语和表达可能有也可能没有翻译选项。但是它们作为短语或表达已经存储在翻译数据库中。翻译一篇文档时,如果该文档包含此类没有翻译选项的短语或表达,这些短语和表达会被突出显示,提示用户为这些短语或表达投票。
一个跨语言信息检索系统的实例(如图4所示)包括一个翻译引擎1、搜索引擎2、网络蜘蛛3、选词数据库4、同义词辞典5、新词数据库6、新词查找器7、文档库8、搜索界面9和投票界面10。翻译引擎1将文档和查询请求从源语言翻译成目标语言。搜索引擎2根据用户的查询请求搜索文档库8和Web。网络蜘蛛3爬取Web并下载文件。选词数据库4存储投票信息。同义词辞典5存储同义词,新词数据库6存储没有投票的新词。新词查找器7查找新词。文档库8存储下载文件和翻译文件。用户使用搜索界面9来输入搜索查询请求并浏览检索结果。用户使用投票界面10浏览并更新选词数据库。
上述组件相互之间的工作和互动原理如下:
网络蜘蛛3在Web中爬取并下载感兴趣的网页,形成一个不断扩大的信息库。下载的网页存储在文档库8中。翻译引擎1对下载的文档进行翻译并存储到文档库8中。在翻译文档的过程中,翻译引擎1查询选词数据库4,检索的词语的可用翻译选项(单词/短语/表达方式),并将其翻译为拥有最多投票数的翻译选项。在翻译文档的过程中,翻译引擎1将其它投票数较少的翻译选项作为元数据和/或隐藏字段保存在文档中。如果该单词没有翻译选项但同时出现在新词数据库6中,翻译引擎1用特殊标记突出显示该词以提示这是一个新的短语。投票界面10接受用户投票,并实时双向更新选词数据库4,如果该词语出现在选词数据库4中,则将其(单词/短语/表达)从新词数据库6中移除。投票界面10调用翻译引擎1以更新包含该词语(单词/短语/表达方式)的文档,使翻译文档与新输入的信息保持动态更新。
查询词语的同义词按如下方法生成:根据使用X语言的任何词语E(单词/短语/语句/表达),查找在所有E的Y语言翻译选项,然后根据每个Y语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所有翻译选项加上Y语言的所有翻译选项构成了X语言的词语E的同义词数据库。产生的同义词被存储在同义词辞典5中。
搜索界面9在接收到用户查询请求后调用搜索引擎2。搜索引擎2运用用户查询请求对文档库8和Web进行搜索,然后以用户的母语将文档列表排序并返回搜索界面9。搜索界面9不仅向用户显示文档列表,还会通过搜索同义词辞典5显示一组与用户查询请求相关的同义词。如果用户点击某个查询词语的同义词,会开始一个新的用所选同义词进行的搜索过程,系统会显示出与该同义词相关的搜索结果的文档列表。如果用户点击已显示的该文档链接,该文档内容将显示在屏幕上,包括每个词语(单词/短语/语句/表达方式)在选词数据库4和新词数据库6中的投票状态。用户可通过点击投票状态浏览每个单词/短语/表达的投票信息。然后用户进入投票界面10为每个单词/短语/表达和短语进行投票。新词查找器7按如下方式在后台运行:它通过计算在文档库8中同一文档、段落或语句中两个或两个单词连续出现的机率查找新短语,一旦查找到新的短语,它们将被存储在新词数据库6中。
显然,上述作为范例讨论的跨语言信息检索系统可作为独立系统或作为传统搜索引擎及信息检索系统的后端系统为搜索引擎或系统提供本说明书中描述的附加功能。
上述特定的范例和实施例是说明性质的,这些范例和实施例可能会进行多个变化调整,但不会背离本说明书的精神或超出所含权利要求的范围。例如,不同说明性实施例的元素和/特性可能会在本说明和附属权利的范围内相互关联,且(或)相互替代。
本说明书要求2006年5月12日提交的美国专利临时申请号60/800,059主张的优先权,其全部内容附后作为参考。

Claims (55)

1.一种多语言信息检索系统,包括:
为将第一源语言词语翻译为对应的第一目标语言词语,并且将第二目标语言词语翻译为对应的第二源语言词语而配置的翻译引擎;
存储多个目标语言文档和对应的源语言翻译文档的文档库;
搜索部件,被配置用于接收源语言查询请求,提供一个或多个待由所述翻译引擎翻译的源语言查询词语,从该翻译引擎接收目标语言翻译词语,使用目标语言翻译词语搜索该文档库来查找相关目标语言文档,并返回搜索结果,该搜索结果包括从该文档库中选择的,与相关目标语言文档对应的源语言翻译文档;
选词数据库,用于为与目标语言词语相对应的每个源语言翻译选项存储投票数;
所述翻译引擎通过从该选词数据库中检索与所选目标语言词语相对应的源语言翻译选项来对目标语言文档中的所选目标语言词语进行翻译,所述检索出的源语言翻译选项在与所选目标语言词语相对应的各个源语言翻译选项中拥有最高投票数。
2.根据权利要求1所述的系统,其中
所述文档库进一步存储多个源语言文档和对应的目标语言翻译文档;并且
所述搜索部件进一步被配置用于接收源语言查询请求,使用源语言查询词语搜索该文档库,以查找相关源语言文档,并返回搜索结果,该搜索结果包括从该文档库中选择的,与相关源语言文档对应的目标语言翻译文档。
3.根据权利要求1所述的系统,还包括选词界面,其中当用户通过该选词界面指定将源语言词语翻译为目标语言词语时,作为该源语言词语的翻译选项的该目标语言词语的投票数即增加。
4.根据权利要求3所述的系统,其中当用户通过该选词界面指定将源语言词语翻译为目标语言词语时,作为该目标语言词语的翻译选项的该源语言词语的投票数即增加。
5.根据权利要求3所述的系统,其中当用户通过该选词界面指定将源语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的描述,且所指定的描述与该翻译一同被保存在该选词数据库中。
6.根据权利要求1所述的系统,进一步包括动态维护的同义词辞典,其中使用第一语言的所选词语在同义词辞典中的词条进行更新是通过将该词语翻译为另一种语言的多个翻译选项,将所述多个翻译选项翻译为所述第一语言的相应翻译结果,并将所述翻译结果的集合作为该词语在所述第一种语言的同义词保存到所述同义词辞典中。
7.根据权利要求1所述的系统,进一步包括新词查找器和新词数据库,其中上述新词查找器会对所选目标语言文档进行切分,以在所选目标语言文档中识别没有源语言翻译选项的两个以上连续的单词,然后将所述两个以上连续的单词作为新词保存在所述新词数据库中。
8.根据权利要求7所述的系统,其中当该翻译引擎翻译目标语言文档时,如果在该目标语言文档中发现没有源语言翻译选项的词语,该词语将会被突出显示,提示用户指定或者投票选出源语言翻译选项。
9.一种多语言信息检索系统,包括:
选词数据库,被配置用于为与目标语言词语对应的各个源语言翻译选项存储投票数,
翻译引擎,被配置用于将目标语言文档翻译为源语言翻译文档,
其中所述翻译引擎通过从选词数据库中检索与所选目标语言词语相对应的源语言翻译选项对目标语言文档中的所选目标语言词语进行翻译,所述检索出的源语言翻译选项在与所选目标语言词语相对应的各个源语言翻译选项中拥有最高投票数;
搜索部件,被配置用于接收源语言查询请求,提供一个或多个待由所述翻译引擎翻译的源语言查询词语,从该翻译引擎接收目标语言翻译词语,使用目标语言翻译词语搜索文档库来查找相关目标语言文档,并返回搜索结果,该搜索结果包括从该文档库中选择的,与相关目标语言文档对应的源语言翻译文档。
10.根据权利要求9所述的系统,其中所述翻译引擎选择该目标语言词语的具有最高投票数的源语言翻译选项作为首要翻译结果,该目标语言词语的剩余源语言翻译选项在源语言翻译文档中以元数据或者隐藏字段的方式表现。
11.根据权利要求9所述的系统,其中当所选目标语言词语的第一源语言翻译选项被该所选目标语言词语的另一源语言翻译选项所取代成为拥有最高投票数的源语言翻译选项时,每一个使用第一源语言翻译选项并以此作为该所选目标语言词语的首要翻译结果的源语言翻译文档都会进行动态更新,以反映将该所选目标语言词语的该另一源语言翻译选项作为对该所选目标语言词语的翻译。
12.根据权利要求9所述的系统,进一步包括用户界面,其中多个用户可通过上述用户界面访问选词数据库,当用户通过所述用户界面指定将源语言词语翻译为目标语言词语时,该选词数据库中维护的作为源语言词语的翻译选项的目标语言词语投票数就会增加。
13.根据权利要求12所述的系统,其中当用户指定将源语言词语翻译为目标语言词语时,作为该目标语言词语翻译选项的该源语言词语的投票数即增加。
14.根据权利要求12所述的系统,其中当用户指定将源语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的附加信息,且所指定的附加信息与该翻译一同被保存在该选词数据库中。
15.根据权利要求14所述的系统,所指定的附加信息是与翻译相关联的语境。
16.根据权利要求14所述的系统,所指定的附加信息提示该翻译将被使用的领域,环境或者地理范围。
17.根据权利要求9所述的系统,其中选词数据库在动态翻译数据库中进行维护,用户和动态翻译数据库互动,以实时更新动态翻译数据库中的信息。
18.根据权利要求9所述的系统,其中当用户指定将源语言词语翻译为目标语言词语时,源语言词语和目标语言词语之间的关系被双向存储,作为源语言词语的翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语的翻译选项的源语言词语的投票数也会增加。
19.一种多语言信息检索方法,包括:
将多个目标语言文档和对应的源语言翻译文档存储在文档库中;
接收源语言查询请求;
把一个或者多个源语言查询词语翻译为目标语言翻译词语;
使用翻译的目标语言翻译词语搜索文档库以查找相关的目标语言文档;
返回搜索结果,该搜索结果包括从该文档库中选择的,与相关的目标语言文档对应的源语言翻译文档;
维护选词数据库,用于为与目标语言词语相对应的源语言翻译选项存储投票数;以及
通过从选词数据库中检索与所选目标语言词语相对应的源语言翻译选项,对目标语言文档中的所选目标语言词语进行翻译,其中所述检索出的源语言翻译选项在与所选目标语言词语相对应的各个源语言翻译选项中拥有最高投票数。
20.根据权利要求19所述的方法,进一步包括:
将相关的目标语言文档翻译为源语言翻译文档,
其中具有最高投票数的源语言翻译选项在源语言翻译文档中被作为所选目标语言词语的源语言翻译选项,在所述源语言翻译文档中该目标语言词语的剩余源语言翻译选项以元数据或者隐藏字段的方式表现。
21.根据权利要求19所述的方法,进一步包括:
对于一个词语,当第一翻译选项被另一翻译选项所取代成为该词语拥有最高投票数的翻译选项时,以第一个翻译选项作为该词语首要翻译结果的每一个翻译文档都会进行动态更新。
22.根据权利要求19所述的方法,进一步包括:当用户指定将源语言词语翻译为目标语言词语时,作为源语言词语的翻译选项的该目标语言词语的投票数即会增加。
23.根据权利要求22所述的方法,进一步包括:当用户指定将源语言词语翻译为目标语言词语时,作为目标语言词语的翻译选项的该源语言词语的投票数即会增加。
24.根据权利要求22所述的方法,其中当用户指定源语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的附加信息,且所指定的附加信息与该翻译一同被保存在选词数据库中。
25.根据权利要求19所述的方法,进一步包括在动态翻译数据库中维护选词数据库,其中用户和动态翻译数据库互动以实时更新动态翻译数据库中的信息。
26.根据权利要求19所述的方法,其中当用户指定将源语言词语翻译为目标语言词语时,源语言词语和目标语言词语之间的关系被双向存储,作为源语言词语翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语翻译选项的源语言词语的投票数也会增加。
27.根据权利要求19所述的方法,还包括:
在所显示的源语言翻译文档中显示所选目标语言词语的多个源语言翻译选项;以及
当用户通过用户界面选择源语言翻译选项时,更新该源语言翻译选项的投票数。
28.根据权利要求19所述的方法,还包括:
把源语言查询词语翻译为多个目标语言翻译词语;
将多个目标语言翻译词语翻译为相对应的源语言翻译结果;以及
将该源语言翻译结果的集合作为该源语言查询词语的同义词存入同义词数据库。
29.根据权利要求28所述的方法,还包括:
把目标语言文档翻译为源语言翻译文档,其中,具有最高投票数的源语言翻译选项被作为所选目标语言词语在源语言翻译文档中的源语言翻译使用;以及
显示所述源语言查询词语的同义词。
30.根据权利要求19所述的方法,还包括:
当用户用源语言输入查询请求时,显示该查询请求中的一个或多个词语的同义词。
31.一种当不同于目标语言的源语言的搜索词语被提供时在一组目标语言文档中进行搜索的方法,该方法包括:
将源语言搜索查询请求翻译为多个目标语言搜索查询请求;
使用所述多个目标语言搜索查询请求中的每一个,以目标语言搜索目标语言文档组,从而返回多个目标语言文档;
将所述多个目标语言文档翻译为对应的源语言翻译文档;
维护选词数据库,其中每一个拥有多个翻译选项的词语的每一个翻译选项与对应的投票数相关联,并且和翻译选项相关联的投票数被存入该选词数据库;
选择具有最高投票数的翻译选项作为该词语的首要翻译结果,其中该词语的剩余翻译选项在翻译文档中以元数据或者隐藏字段的方式表现;
使用源语言搜索词语在同义词数据库中保存的多个同义词中的每一个同义词,以源语言搜索源语言文档,以返回多个源语言文档,以及
将多个源语言文档翻译为对应的目标语言翻译文档。
32.根据权利要求31所述的方法,还包括:
将一个或多个源语言翻译文档显示为搜索结果,和/或将一个或多个对应的目标语言文档显示为搜索结果。
33.根据权利要求31所述的方法,其中源语言翻译文档包括一个或多个词语的多重翻译结果。
34.根据权利要求31所述的方法,进一步包括:
对于某一个词语,当第一翻译选项被另一翻译选项所取代成为拥有最高投票数的翻译选项时,以第一翻译选项作为该词语首要翻译结果的每一个翻译文档都会进行动态更新;以及
显示与首要翻译结果对应的动态更新过的翻译文档。
35.根据权利要求31所述的方法,其中该选词数据库在动态翻译数据库中进行维护,用户和动态翻译数据库互动以实时更新动态翻译数据库中的信息。
36.根据权利要求31所述的方法,其中当用户指定将源语言词语翻译为目标语言词语时,源语言词语和目标语言词语之间的关系被双向存储,作为源语言词语翻译选项的目标语言词语的投票数就会增加,且作为目标语言词语翻译选项的源语言词语的投票数也会增加。
37.根据权利要求31所述的方法,还包括:
提供用户界面,用以在搜索结果中浏览源语言翻译文档,和/或在搜索结果中浏览对应的目标语言文档;
在显示的文档中显示所述拥有多个翻译选项的词语的多个翻译选项;以及
当用户通过该用户界面选择翻译选项时,更新该翻译选项的投票数。
38.根据权利要求31所述的方法,其中该选词数据库允许多个用户进行访问,且当用户指定将源语言词语翻译为目标语言词语时,作为该源语言词语翻译选项的该目标语言词语的投票数即增加。
39.根据权利要求38所述的方法,其中当用户指定将源语言词语翻译为目标语言词语时,作为该目标语言词语翻译选项的该源语言词语的投票数即增加。
40.根据权利要求38所述的方法,其中当用户指定将源语言词语翻译为目标语言词语时,该用户还指定与该翻译对应的描述,且所指定的描述与翻译一同被保存在该选词数据库中。
41.根据权利要求31所述的方法,还包括:
在用户检索之前,将源语言翻译文档下载到一个或多个本地服务器上。
42.根据权利要求41所述的方法,还包括:
将所述源语言翻译文档和对应的目标语言文档存储在一个或者多个本地服务器上,以形成多语言库。
43.根据权利要求42所述的方法,其中在所述多语言库中,目标语言文档中的目标语言词语和对应的源语言翻译文档中的一个或多个源语言词语相关联。
44.根据权利要求42所述的方法,进一步包括:
提供多语言搜索工具,该多语言搜索工具使用目标语言搜索查询请求和源语言搜索查询请求中的任何一个来搜索所述多语言库。
45.根据权利要求44所述的方法,进一步包括:
选择目标语言词语的多重源语言翻译选项中的一个;
在该源语言翻译文档的正文中使用所选择的源语言翻译选项;以及
将该目标语言词语的剩余源语言翻译选项以元数据和/或隐藏字段的方式保存在该源语言翻译文档中。
46.根据权利要求45所述的方法,其中所述的多语言搜索工具在该源语言翻译文档中对所述元数据和隐藏字段进行搜索。
47.根据权利要求42所述的方法,进一步包括:
将新的源语言搜索查询请求应用于所述多语言库和附加的源语言文档集。
48.根据权利要求31所述的方法,进一步包括:
把一个源语言词语翻译为多个目标语言翻译选项;
将多个目标语言翻译选项翻译为相对应的源语言翻译结果;以及
将源语言翻译结果集合作为该源语言词语的同义词存入同义词数据库。
49.根据权利要求48所述的方法,进一步包括:
显示与源语言翻译文档对应的搜索结果;以及
显示源语言搜索查询请求中的该源语言词语的同义词。
50.根据权利要求49所述的方法,进一步包括:
当用户从所显示的同义词中选择一个时,提取与所选同义词相匹配的文档,且将所提取的文档包含在搜索结果中。
51.根据权利要求48所述的方法,进一步包括:
当用户用源语言输入搜索查询请求时,显示出搜索查询请求中的一个或多个词语的同义词。
52.根据权利要求31所述的方法,进一步包括:
用源语言显示搜索结果,其中,该搜索结果中的一个或多个源语言翻译文档是从目标语言文档翻译而来,并且/或者用对应的目标语言显示搜索结果,其中,在搜索结果中的一个或者多个对应的目标语言翻译文档是由源语言文档翻译而来。
53.根据权利要求52所述的方法,其中搜索结果中由目标语言文档翻译而来的所述一个或多个源语言翻译文档在该搜索结果中以目标语言提示标记。
54.根据权利要求31所述的方法,进一步包括:
将目标语言文档翻译为多个源语言翻译文档;
将该目标语言文档和对应的源语言翻译文档存入多语言文档库。
55.根据权利要求31所述的方法,进一步包括:
将源语言文档翻译为多个目标语言翻译文档;
将该源语言文档和对应的目标语言翻译文档存入多语言文档库。
CN2007800171592A 2006-05-12 2007-05-09 多语言信息检索的方法和系统 Expired - Fee Related CN101443759B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US80005906P 2006-05-12 2006-05-12
US60/800,059 2006-05-12
PCT/US2007/011292 WO2007133625A2 (en) 2006-05-12 2007-05-09 Multi-lingual information retrieval

Publications (2)

Publication Number Publication Date
CN101443759A CN101443759A (zh) 2009-05-27
CN101443759B true CN101443759B (zh) 2010-08-11

Family

ID=38694474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800171592A Expired - Fee Related CN101443759B (zh) 2006-05-12 2007-05-09 多语言信息检索的方法和系统

Country Status (3)

Country Link
US (1) US8346536B2 (zh)
CN (1) CN101443759B (zh)
WO (1) WO2007133625A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145270A (zh) * 2012-03-06 2014-11-12 亚马逊技术股份有限公司 使用产品信息的外语翻译

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) * 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US7937261B2 (en) * 2006-12-18 2011-05-03 Movo Technology Co. Ltd. Translation on demand
US7925498B1 (en) 2006-12-29 2011-04-12 Google Inc. Identifying a synonym with N-gram agreement for a query phrase
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
CN101286094A (zh) * 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US8117194B2 (en) * 2007-05-07 2012-02-14 Microsoft Corporation Method and system for performing multilingual document searches
US8799307B2 (en) * 2007-05-16 2014-08-05 Google Inc. Cross-language information retrieval
US10296588B2 (en) * 2007-05-31 2019-05-21 Red Hat, Inc. Build of material production system
US9361294B2 (en) * 2007-05-31 2016-06-07 Red Hat, Inc. Publishing tool for translating documents
US8205151B2 (en) * 2007-05-31 2012-06-19 Red Hat, Inc. Syndication of documents in increments
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8051061B2 (en) * 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US8457441B2 (en) 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
US8364462B2 (en) 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US8312032B2 (en) * 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8577910B1 (en) * 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) * 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US8990064B2 (en) * 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
EP2341450A1 (en) * 2009-08-21 2011-07-06 Mikko Kalervo Väänänen Method and means for data searching and language translation
US8732577B2 (en) 2009-11-24 2014-05-20 Clear Channel Management Services, Inc. Contextual, focus-based translation for broadcast automation software
WO2011088141A2 (en) * 2010-01-12 2011-07-21 Maverick Multimedia, Inc. Automatic technical language extension engine
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
JP5565033B2 (ja) * 2010-03-29 2014-08-06 ソニー株式会社 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
US20110251837A1 (en) * 2010-04-07 2011-10-13 eBook Technologies, Inc. Electronic reference integration with an electronic reader
US8862661B2 (en) * 2010-04-29 2014-10-14 Hewlett-Packard Development Company, L.P. Processing content in a plurality of languages
US20110276535A1 (en) * 2010-05-05 2011-11-10 Salesforce.Com, Inc. Knowledge article workflow management
US8326857B2 (en) 2010-05-28 2012-12-04 Oracle International Corporation Systems and methods for providing value hierarchies, ragged hierarchies and skip-level hierarchies in a business intelligence server
US11100098B2 (en) * 2010-05-28 2021-08-24 Oracle International Corporation Systems and methods for providing multilingual support for data used with a business intelligence server
EP2680162A1 (en) 2010-07-13 2014-01-01 Motionpoint Corporation Localisation of website content
US8577891B2 (en) * 2010-10-27 2013-11-05 Apple Inc. Methods for indexing and searching based on language locale
WO2012060887A1 (en) 2010-11-05 2012-05-10 Mark Cummings Integrated circuit design and operation
US10687250B2 (en) 2010-11-05 2020-06-16 Mark Cummings Mobile base station network
US10531516B2 (en) 2010-11-05 2020-01-07 Mark Cummings Self organizing system to implement emerging topologies
US10694402B2 (en) 2010-11-05 2020-06-23 Mark Cummings Security orchestration and network immune system deployment framework
US20120116751A1 (en) * 2010-11-09 2012-05-10 International Business Machines Corporation Providing message text translations
US8639701B1 (en) 2010-11-23 2014-01-28 Google Inc. Language selection for information retrieval
US9164988B2 (en) * 2011-01-14 2015-10-20 Lionbridge Technologies, Inc. Methods and systems for the dynamic creation of a translated website
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8527259B1 (en) * 2011-02-28 2013-09-03 Google Inc. Contextual translation of digital content
CN102737021B (zh) * 2011-03-31 2014-10-22 北京百度网讯科技有限公司 搜索引擎及其实现方法
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
CN103493046B (zh) * 2011-04-28 2018-02-23 微软技术许可有限责任公司 备选市场搜索结果切换标签
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8510328B1 (en) * 2011-08-13 2013-08-13 Charles Malcolm Hatton Implementing symbolic word and synonym English language sentence processing on computers to improve user automation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
JP4918174B1 (ja) * 2011-09-20 2012-04-18 株式会社Pijin 情報提供装置、情報提供方法、及びコンピュータプログラム
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
US20130138421A1 (en) * 2011-11-28 2013-05-30 Micromass Uk Limited Automatic Human Language Translation
US20130275116A1 (en) * 2011-12-31 2013-10-17 Electionear, Inc. Interactive, live-connection, specifically targetable, database-supported, dynamic dialogue management engine
WO2013115670A1 (en) * 2012-02-03 2013-08-08 Google Inc. Translated news
TWI479345B (zh) * 2012-02-24 2015-04-01 Mogan Global Online Shopping Inc 多語言檢索方法、電腦可讀儲存媒體及網路搜尋系統
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
CN102629248A (zh) * 2012-02-27 2012-08-08 中兴通讯股份有限公司 一种iptv媒体内容的搜索方法及装置、系统
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN103488648B (zh) * 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
US9197481B2 (en) * 2012-07-10 2015-11-24 Tencent Technology (Shenzhen) Company Limited Cloud-based translation method and system for mobile client
CN103699545A (zh) * 2012-09-28 2014-04-02 摩根全球购物有限公司 网络搜寻系统及其网络搜寻方法
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US20140164422A1 (en) * 2012-12-07 2014-06-12 Verizon Argentina SRL Relational approach to systems based on a request and response model
US20140280295A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Multi-language information retrieval and advertising
US10073839B2 (en) * 2013-06-28 2018-09-11 International Business Machines Corporation Electronically based thesaurus querying documents while leveraging context sensitivity
US9332318B2 (en) * 2013-09-03 2016-05-03 Cisco Technology Inc. Extra rich content MetaData generator
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
JP6226321B2 (ja) * 2013-10-23 2017-11-08 株式会社サン・フレア 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム
US9529901B2 (en) * 2013-11-18 2016-12-27 Oracle International Corporation Hierarchical linguistic tags for documents
US10389752B2 (en) 2015-01-14 2019-08-20 Viesoft, Inc. Price mining prevention systems and related methods
US10692102B2 (en) 2013-12-31 2020-06-23 Viesoft, Inc. Price mining and product re-pricing data processing systems and methods
US20150186975A1 (en) * 2013-12-31 2015-07-02 Viesoft, Inc. Product matching systems and related methods
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
GB2541566A (en) * 2014-03-29 2017-02-22 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
CN105488035A (zh) * 2014-10-13 2016-04-13 陈伯妤 一种对话式的自然语言处理方法和装置
US10452786B2 (en) * 2014-12-29 2019-10-22 Paypal, Inc. Use of statistical flow data for machine translations between different languages
US10748175B2 (en) 2015-01-14 2020-08-18 Viesoft, Inc. Price mining prevention and dynamic online marketing campaign adjustment data processing systems and methods
CN105760531A (zh) * 2016-03-03 2016-07-13 华南师范大学 多语言搜索引擎方法及系统
US9965469B2 (en) 2016-03-23 2018-05-08 International Business Machines Corporation Dynamic token translation for network interfaces
US10067938B2 (en) * 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US20170357642A1 (en) * 2016-06-14 2017-12-14 Babel Street, Inc. Cross Lingual Search using Multi-Language Ontology for Text Based Communication
US10437933B1 (en) * 2016-08-16 2019-10-08 Amazon Technologies, Inc. Multi-domain machine translation system with training data clustering and dynamic domain adaptation
CN106919642B (zh) * 2017-01-13 2021-04-16 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
US11449495B2 (en) * 2017-02-01 2022-09-20 United Parcel Service Of America, Inc. Indexable database profiles comprising multi-language encoding data and methods for generating the same
CN108255939B (zh) * 2017-12-08 2020-02-14 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108197121A (zh) * 2017-12-29 2018-06-22 北京中关村科金技术有限公司 机器学习语料的获取方法、系统、装置及可读存储介质
EP3723084A1 (en) 2018-03-07 2020-10-14 Google LLC Facilitating end-to-end communications with automated assistants in multiple languages
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
CN108763197B (zh) * 2018-05-10 2021-11-09 上海依智医疗技术有限公司 一种医疗术语库的形成方法和装置
US11477667B2 (en) 2018-06-14 2022-10-18 Mark Cummings Using orchestrators for false positive detection and root cause analysis
US10540452B1 (en) * 2018-06-21 2020-01-21 Amazon Technologies, Inc. Automated translation of applications
CN110232107A (zh) * 2019-05-08 2019-09-13 深圳市小满科技有限公司 一种产品数据获取方法
CN110347904A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个多语言电子商务网站处理语言搜索方法
CN113297856B (zh) * 2020-08-21 2024-01-23 阿里巴巴集团控股有限公司 文档翻译方法、装置及电子设备
US11664010B2 (en) 2020-11-03 2023-05-30 Florida Power & Light Company Natural language domain corpus data set creation based on enhanced root utterances
US20230029058A1 (en) * 2021-07-26 2023-01-26 Microsoft Technology Licensing, Llc Computing system for news aggregation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384701A (en) 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
US5301109A (en) 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
FR2683543B1 (fr) * 1991-11-08 1994-02-11 Inst Francais Du Petrole Procede de pyrolyse thermique d'hydrocarbures utilisant un four electrique.
GB2279164A (en) 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US6606101B1 (en) * 1993-10-25 2003-08-12 Microsoft Corporation Information pointers
JP3114703B2 (ja) 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
JP3055545B1 (ja) 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7216121B2 (en) 2002-12-31 2007-05-08 International Business Machines Corporation Search engine facility with automated knowledge retrieval, generation and maintenance
US20040139107A1 (en) 2002-12-31 2004-07-15 International Business Machines Corp. Dynamically updating a search engine's knowledge and process database by tracking and saving user interactions
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US8135575B1 (en) * 2003-08-21 2012-03-13 Google Inc. Cross-lingual indexing and information retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104145270A (zh) * 2012-03-06 2014-11-12 亚马逊技术股份有限公司 使用产品信息的外语翻译
CN104145270B (zh) * 2012-03-06 2018-03-16 亚马逊技术股份有限公司 使用产品信息的外语翻译

Also Published As

Publication number Publication date
WO2007133625A3 (en) 2008-11-13
CN101443759A (zh) 2009-05-27
WO2007133625A2 (en) 2007-11-22
US20090125497A1 (en) 2009-05-14
US8346536B2 (en) 2013-01-01

Similar Documents

Publication Publication Date Title
CN101443759B (zh) 多语言信息检索的方法和系统
Lei Zeng et al. Trends and issues in establishing interoperability among knowledge organization systems
Hider Information resource description: creating and managing metadata
Cunningham Information extraction, automatic
CA2599631C (en) Methods of and systems for searching by incorporating user-entered information
Dash et al. The WordNet in Indian Languages
Thomas et al. Trashy tags: problematic tags in LibraryThing
Golub et al. Subject indexing in humanities: a comparison between a local university repository and an international bibliographic service
Maxwell Modelling search and stopping in interactive information retrieval
Fuertes-Olivera et al. Dictionaries for text production
Golub et al. Organizing subject access to cultural heritage in Swedish online museums
Golub Subject access in Swedish discovery services
Hampson et al. CULTURA: A metadata-rich environment to support the enhanced interrogation of cultural collections
Mosavi Miangah Constructing a large-scale english-persian parallel corpus
Kashyap et al. Insights on Hindi WordNet coming from the IndoWordNet
Kumar et al. Evaluation and comparison of features of OPACs in university libraries of Chandigarh and Punjab (India)
Šauperl Precoordination or not? A new view of the old question
Clough et al. Providing multilingual access to Flickr for Arabic users
Balíková Focusing on user needs: new ways of subject access in Czechia
bin Mohd Rosman et al. Bringing together over-and under-represented languages: Linking Wordnet to the SIL Semantic Domains
Reddy et al. Using Machine Learning Algorithm for Proverb Retrieval and Expansion for Indian Languages
Toirova Establishment of a national corpus the uzbek language is a requirement of a new era
Jain et al. Google search engine and its usefulness to library professionals
De Groat Future directions in metadata remediation for metadata aggregators
Sujatha et al. Evaluation of English-Telugu and English-Tamil Cross Language Information Retrieval System using Dictionary Based Query Translation Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING LETU ONLINE TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YUETU GROUP CO.,LTD.

Effective date: 20100205

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20100205

Address after: Beijing City, Haidian District Zhichun Road No. 6 Jinqiu International Building B encoding 902A post: 100088

Applicant after: Beijing Loto On-Line Technology Co., Ltd.

Address before: American New York

Applicant before: Eij Group LLC

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100811

Termination date: 20170509