背景技术
跨语言信息检索(CLIR)处理提供一种语言的查询而用一种或多种不同语言搜索文档集。例如,用户可能会使用中文进行他/她的查询,但却希望检索最初用英文书写的相关文档。跨语言信息检索也被称为多语言或跨越语言信息检索。
在这个信息爆炸的时代,尤其是随着因特网(WWW或Web)的发展,人人都可以创建自己的网站(例如,博客),如何在海量的可用信息中查找用户所需的信息成为一项具有挑战性的工作,如果用户需要查找的信息是其它语言书写的,则查找的难度更大。在许多情况下,最相关的信息是使用外语表述的。然而,采用传统的信息检索工具,语言障碍可能会阻碍用户检索到这种文档。例如,如果用户使用英语发出关于“伊拉克战争”的查询请求,传统的信息检索系统不会获取使用中文表述的包含“伊拉克战争”字样的文章,例如可在http://141.155.90.70:88/files/articles/Iraq.htm上获得的这篇文章,因此无法体现中文信息发布者对伊拉克问题所持的观点。另一方面,如果用户使用中文发出“毛泽东”的查询请求,系统也不会获得采用英语书写的文章,例如在http://www.time.com/time/time100/leaders/profile/mao.html上的文章,因此无法展现出英语用户对毛泽东所持的观点。
在执行单语言搜索(信息检索)的传统技术中,用户在一个输入框中指定一组单词,短语或语句(以下单独或统称词语),用以传达所需查找信息的语义,也可称为查询请求,该查询请求可通过点击近旁的“搜索”按钮等方式进行提交。传统系统会以尽可能完整的方式,在目标文档组中(例如,网上的所有或部分文档)搜索与查询请求相关的文档,然后会根据这些文档与查询请求的相关程度进行排序,最终按照排序显示搜索结果。传统信息检索系统的主要目的在于尽可能多地发现与用户查询请求相关的文档(查全)而尽可能少的检索到非相关文档(精准)。传统信息检索系统如图1所示。
网上的文档类型各式各样,且文档的表述语言各不相同。许多文档都采用各种不同格式(如,Html,Doc,PDF),且各种图片上的说明也可能采用不同语言。一项单一的查询请求最好触发对所有这类资源的搜索。
查询请求通常会经过处理,以便信息检索系统可以利用此类查询进行适当的搜索。如果一种信息检索系统能够将查询请求翻译为另一种语言,该系统则能够在文档组中搜索其它语言的相关文档。同样,如果信息检索系统能够将查询请求转换为另外一种形式,则信息检索系统将能够有效扩大搜索范围。通常,为了确保完整地进行搜索,往往需要进行人机互动。
一系列技术被提出用于解决如何在电脑中表述文档的问题。另外,还有许多其它用于解决查询处理,索引,排序的信息检索技术。例如,在一种传统技术中,文档集是通过一组索引词语或关键词来表述的。此类关键词可以从文档的正文中直接提取,也可以通过人工指定,例如图书馆学中经常采用的方式。索引方法案例如图2所示。
在跨语言搜索中,需进行一种或多种语言的翻译,例如,将一项查询请求从源语言翻译为目标语言,然后使用翻译后的查询请求进行单语言搜索,或者将文档从目标语言翻译为源语言,然后使用原查询请求进行单语言搜索。另外也有人提出将查询请求和文档都翻译为某种中间表述,以便能够对两者进行比较。图3中的表格是对当前跨语言信息检索方法的简要概述。
美国专利号码5,301,109,名为“采用隐性语义索引进行计算机化跨语言文档检索”的专利,可为跨语言信息检索提供一种基于语料库的中间表述方法。美国专利号码5,867,811,名为“采用双语数据库包括对齐语料库的方法、设备、系统、存储装置及计算机可读介质”同样也提出了一种基于语料库的方法
美国专利号码6,321,191,名为“拥有多个跨语言检索单元、可根据所提取的独立词语进行语句匹配的相关语句检索系统”,提出一种技术,为从n种跨语言检索系统中检索出相关语句。n种系统中,每一种都包含了一个数据匹配存储单元,可对拥有相同含义的多个匹配数据(两种语言)进行存储。
当用户使用自然语言进行查询时,无论是单语言信息检索还是跨语言信息检索都面临着理解用户真实意图的困难。信息检索不同于数据检索,主要任务是确定文档集中的哪些文档包含了用户查询请求中的关键词。与针对符合给定查询请求的数据检索相比,信息检索的用户对于就某一主题检索信息更为关心。用户只是采用自然语言来表述所要查询的信息。因此,好的信息检索系统应具备一定的自然语言理解能力。例如,如果用户查询“便宜的电脑”,包含“廉价计算机”但不包含“电脑”或“便宜”的文档可能就不会被展现给用户。
为了确保搜索结果的完整性,查询请求可被处理为一组同义词,例如,(cell phone,mobile phone,cellular phone,手机,移动电话),(布什、布希,Bush),等等。
G.Salton在《美国社会信息科学杂志》的“外语文档的自动处理”(1970)一文中提出了在跨语言信息检索中采用同义词辞典(存储了多个同义词)的技术。Salton发表了一种实验方法,可采用向量表述和搜索技术,配合人工创建的双语同义词辞典进行一种语言文档对另一种语言查询请求的自动检索。测试样本获得的摘要和查询结果让我们感到前景光明。然而,要创建一个足够规模的多语言同义词辞典难度很大且需要相当多的人力成本。
如下案例说明了为何需要将一个查询请求扩展为一组同义词。在搜索关于跨语言信息检索的文档时,许多同义词可能会在搜索中进行替换,例如“跨越语言信息检索”,“多语言信息检索”,而“Information Retrieval”可能会被“Search”或“communication”所替代,“-lingual”可能会被“Language”所替代。这个案例短语可被扩展为至少12个同义或相关词语。另外,此搜索还可能通过相关技术领域的规范来引导,例如“搜索引擎”,“机器翻译”,等等。
例如,一位用户可能会在搜索引擎中查询西班牙语“conjeturar sinfundamento,”且可能会检索包括原查询词语或与原查询词语密切相关的结果。然而,为了搜索与“conjeturar sin fundamento”相关的文档并尽可能多地查找与用户查询相关的文档,在搜索中会需要进行多个同义词的替换,例如“adivinar a ciegas”,“hacer suposiciones gratuitas”。但是,如何自动生成一组同义词来基于一个查询词语触发多重搜索仍然是一项具有挑战性的任务。
中国计算技术研究所软件部开发了一套关于中国旅游的搜索引擎问答系统,采用同义词辞典将用户查询扩展为多个同义词或相关单词。然而,同义词辞典是由人类信息专家人工开发和维护的。
基于字典的方法通常会存在OOV(超出词库范围)这个主要问题,例如人名,公司名/机构名和地名,品牌名称,等等。传统的基于静态字典的跨语言信息检索方法无法跨越这个难题。另外,同义词辞典可以将用户查询请求扩展为多个同义词或相关单词,但无法尽可能少地检索非相关文档,因为它无法指定该搜索的相关语境,从而缩小检索结果的范围。
美国专利号码6,604,101,名为“在计算机网络上查询和搜索跨语言翻译及多语言信息检索的方法和系统”提出了一种“严格/受控的查询”方法,即当用户通过源语言输入一项查询请求后,该请求会经过一个“方言控制器”的标准化和规范化处理,如果没有找到该用户的查询请求的标准化形式,该用户将被提示采用另一种方式来描述所要查找的信息,然后标准化的查询词语被翻译为目标语言查询词语,用于搜索目标语言文档组。美国专利号码6,604,101未披露或建议采用存储同义词或相关词语,或类似说法的多语言、动态演进的字典。
美国专利申请公开号码20040139107A1,名为“通过跟踪和保存用户互动结果而实现的动态更新搜索引擎知识和处理数据库”,提出将跟踪用户互动及其所保存的信息作为一项查询请求的补充信息。然而,美国专利应用出版号码20040139107 A1并未披露或建议根据多语言web用户投票来更新多语言知识库。
在美国专利申请公开号码20040139106 A1,名为“可基于自然语言来有效解析用户查询并进行相关反馈学习的搜索引擎”,提出一种方法,可通过与用户之间的互动和反馈来服务于用户。然而,美国专利应用出版号码20040139106http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=99&f=G&l=A1并未披露或建议采用基于多语言网络用户投票的多语言知识库。
美国专利号5,384,701,名为“语言翻译系统”的专利,提出了一种可将第一语言翻译为第二语言的系统。该系统包括一个保存了第二语言短语集合的存储库。用第二语言表述的短语事先已准备好并保存在存储库中。例如,“你好”被保存为“How do you do?”。然而,美国专利号码5,384,701的专利并未披露或建议知识库可通过web用户的贡献来进行动态更新。
跨语言信息检索技术仍然存在很大的提升空间。
具体实施方式
本披露的主旨包括对自然语言随着时间不断演进,以及随地理区域而变化的认知。虽然“mobile phone”或者“cellular phone”是此类电话的标准用词,但使用的几率却越来越有限,而如今电话通常被广泛地称为“cellphones”。几年前,年轻女孩可以被称为“miss”或者“young lady”,但是现在在网上聊天环境中更为经常被称为“chick”。在汉语中,上个世纪年轻女孩被称为带有政治色彩的“同志”,但是在当代中国,可通过更加丰富的词语来称呼她们,例如“小姐”,“美女”,“靓女”,“关眉”等等。此外,大陆人说“布什”,台湾人说“布希”,而香港人则是说“布殊”。新词语,新的实体名称,人或机构名称等更是日新月异。
因此,为信息检索系统使用的存储于字典或同义词辞典中的知识进行动态更新的能力是本披露的重要内容。在示范性的实施例中,一个存储单词、短语或语句的动态多语言库被生成,并通过世界各地的多语言用户(即,使用多于一种语言说话或交流的人)进行公众投票实现更新。例如,任何多语言用户都有权根据自己的个人理解决定如何将某个单词、短语或者语句翻译成作为众多翻译选项之一的目标语言。在一个特定的语境中,西班牙语短语“conjeturar sin fundamento”可从源语言西班牙语翻译为目标语言汉语中的“瞎猜”。另一位用户可能投票表示相同的短语“conjeturar sin fundamento”翻译为目标语言汉语中的“没有根据的猜想”。在又一种语境下,同样的短语“conjeturar sin fundamento”可能会被译为目标语言汉语中的“乱猜”。在再一种语境下,同样的短语“conieturar sin fundamento”可能会被译为目标语言汉语中的“无根据的假定”。
用户可通过投票界面添加投票,并且可以编辑,存储和/或投票赞成或者反对某个与相关语境有关的翻译选项,形成一个随时间演进的多语言选词数据库,并且通过用户间的互动、贡献和/或编辑进行动态更新。用户也可通过(以下单独和/或统称为“相关词语”)增加相关的单词、短语或语句来描述某个翻译选项,为他或她添加投票的网页指定一种语境,以使机器记录网页的相关语境关系。例如,在某些语境中,可添加“Hongkongers”作为描述翻译选项“Bush”-“布殊”的相关词语。
每个人都有权力决定某个单词/短语/语句应如何被翻译,并应当获得同等的机会针对某个单词/短语/语句来创建自己的翻译。每个人都可以投票赞同现有的翻译,或者投票反对现有的翻译。另外,在排名并展现热门文档时,用户可以选择使用自己认为最舒服的词语,并/或指定在哪些相关语境中检索文档。
词语的翻译因人而异。例如,台湾人通常会将“president Bush”翻译为“布希总统”,而大陆人习惯于将其翻译为“布什总统”,香港人则一般将其翻译为“布殊总统”
因特网对于全球因特网用户来说是“民有、民享和民治”的。因此,每个人都有权力访问任何文档,不论它是英文的、中文的、德文的或法文的。每个人都有权力以自己的语言和方言,向世界传达他的观点(例如通过创建自己的个人网站),并且可以与全世界上的其他人共享自己的知识、词汇以及表达方式。本披露所提供的主题本质是为每个人提供一个以自己所需的语言在因特网上发表观点,词汇等等的渠道。
例如,如果一位用户为非赢利性组织“亚洲育才学校”工作,该用户可以指定将该机构的名字翻译为“Asian-American Coalition for Education”。该搜索引擎可使用“Asian-American Coalition for Education”来查询英语文档,或者该翻译引擎可以使用中英对照的方式来执行文档翻译,从而该中文名字不会被翻译为蹩脚的英文,例如,“Asia Mode school”。
文档的解释也可能会因人而异。某人可能将“Can you give me a hand?”解释为“Can you assist me to do this?”,而另一人可能解释为“Can you helpme?”。采用多语言知识库,用户可以通过将文档翻译为不同版本并翻译回去而自动生成一个文档的多个版本。这样该用户就可以利用搜索引擎进行查询,并检索一个文档派生出来的多个版本。
例如,包含“cheap airplane tickets sold at the lowest price”的文档可能以不同形式被翻译或解释。根据添加到多语言选词数据库的翻译选项,该词语可被翻译为多种汉语形式,如“廉价的机票”,“最低价出售”、“便宜机票卖最低价格”、“甩卖飞机票”或者“飞机票大减价”,“价格最低”等,当更多的翻译选项被输入到多语言选词数据库后,在其它网页中它可能被翻译为更多的版本。同时,用户还可以通过汉译英的形式插入翻译选项,在各文本中将“廉价”翻译为“discounted”或者“inexpensive”,将“机票”翻译为“airline ticket”或者“plane ticket”,将“甩卖”翻译为“dumping”或者“on sale”。因此,使用多语言知识库且在动态演进的多语言选词数据库中结合不同的翻译选项,包含“cheap airplane tickets sold at the lowestprice”的文本可自动地翻译回源语言英语,并生成多种结果,例如“cheapairplane tickets on sale”、“inexpensive plane tickets sold at the lowest price”、“discounted airplane tickets on sale”或者“dumping airline tickets”,并可能根据当前的投票而产生更多版本。源于该文档的多种版本可能被存储,然后帮助在搜索引擎中使用各种查询词语进行查询的用户进行检索,例如“discounted tickets”、“inexpensive tickets”、“plane tickets lowest price”、“airplane tickets on sale”和/或“dumping plane tickets”等。从而,尽可能多地查找与用户查询请求相关的文档。
进而,用户可根据自己的查询词语和/或相关词语规范来检索文档,从而缩小搜索结果的范围。用户可以在翻译选项中选择一个同义词来指定搜索查询请求,并/或选择一个相关词语来指定相关语境,然后依照自己的查询词语和/或相关语境的规范来显示搜索结果。例如,用户可以选择翻译选项“布殊”和/或相关词语“Hongkongers”,然后根据所指定的搜索查询请求和/或相关词语显示相关搜索结果。
对于搜索查询请求和检索文档的多重翻译结果:某个源语言的搜索查询请求被翻译成一组采用目标语言的多个搜索查询请求,并通过它查询目标语言文档库。检索到的目标语言文档可以被翻译回源语言,并且拥有多重翻译结果。同时,源语言的某个搜索请求可被用来查询源语言文档库,然后,所检索到的源语言文档可被翻译为多个目标语言的文档,并拥有多重翻译结果。在翻译过程中,当多个单词,短语,语句或表达的翻译选项都可用时,则选词数据库中获得最多投票数的那个选项被采用,同时其它选项会以元数据和/或隐藏字段的形式被保存在翻译文档中。例如,一个西班牙语的搜索查询请求“conjjeturar sin fundamento”可能被翻译成一系列目标语言为中文的搜索请求,比如“瞎猜”,“没有根据的猜想”,“乱猜”和/或“无根据的假定”。然后,检索到的目标语言文档会被重新翻回源语言西班牙语,生成像“conjeturar sin fundamento”,“adivinar a ciegas”,和“hacer suposicionesgratuitas”等多个翻译结果。在翻译过程中,具有最多投票数的选项“conjeturarsin fundamento”可能被选择,同时其它选项“hacer suposiciones gratuitas”和“adivinar a ciegas”会以元数据和/或隐藏字段的形式被保存在翻译文档中。
通用选词数据库中的公共投票:通用选词数据库是公开的,任何人通过因特网均可访问。任何人都能够浏览并更新它。当某个人建议源语言的某个单词,短语,语句或表达X应该被翻译成目标语言的单词,短语,语句或表达Y时,针对X→Y关系(称为翻译选项)的投票数会被增加一。越多的人为X→Y关系投票,在结果文档中X被翻译成Y的可能性就越大。在给出建议的同时,该人还可以输入一些相关的短语来提示此关系的领域,范围和/或语境,并且相关单词、短语或语句也可以被存储在选词数据库中,与某个特定的翻译选项相关联。比如,在相关词语被投票为雅虎和/或共同创办人的情况下,“Jerry Yang”可能会被投票翻译为“杨致远”。针对相关语境,在相关词语被投票为总统和/或“Hongkongers”的情况下,“Bush”可能被投票翻译为“布殊”。
通用翻译引擎:通用翻译引擎是一种能根据请求翻译任何文档的翻译引擎。它能够通过自学存储在通用选词数据库中的多语言知识,来进行动态更新。基于通用选词数据库中的公共投票,通用翻译引擎能够自学不断演进的自然语言知识,吸收新的翻译选项到它的数据库,字典或同义词辞典中,从而能够进行自我动态更新,以确保在自然语言发展趋势中保持最新状态。例如,“美眉”到“hot chick”,这个通用选词数据库中新的中到英翻译选项,可能被吸收到通用翻译引擎词典中,并被用来根据请求翻译任何文档。
在专用选词数据库中为特定语境进行的公众投票:专用选词数据库与特定的语境相关联,也是公开的,所有人都可以通过因特网进行访问。任何人都可以浏览并更新与特定语境(比如一页网页或一组相关网页)相关联的专用选词数据库。用户可以在专用选词数据库中添加新的翻译选项,并在与特定语境相关联的专用选词数据库中对当前的翻译选项进行编辑、存储和/或进行投票表示赞同或反对。因此,当有人建议将源语言的某个单词、短语、语句或表达X在特定的语境中翻译成目标语言的单词、短语、语句或表达Y,那么在与给定语境相关联的特殊选词数据库中对X→Y(被称为翻译选项)的赞同票数就增加1票。在翻译过程中,如果单词、短语、语句或表达在通用选词数据库或专用选词数据库中对应于多个翻译选项,专用选词数据库中拥有最高赞同票数的选项则自动被列为默认选项,同时其他的选项以元数据和/或隐藏字段的形式保存在翻译文档中。例如在一个或一组相关网页中,如果是包含“president Bush”的香港网页或一组香港网站,那么在与香港网站相关联的专用选词数据库中拥有最高赞同票的翻译选项“Bush”→“布殊”就自动成为翻译过程中的默认选项。其他选项如通用选词数据库中的“Bush”→“布什”及“Bush”→“布希”则以元数据和/或隐藏字段的形式保存在翻译文档中。
专用翻译引擎:专用翻译引擎是一种能根据请求在特定语境下翻译文档的翻译引擎。它能够被训练为通过自学存储在专用选词数据库中的多语言知识,来进行动态自我完善。基于通用选词数据库中的公共投票,专用翻译引擎能够不断自学关于自然语言的知识,吸收新的翻译选项到它的数据库,字典或同义词辞典中,从而能够进行自我动态更新,以确保根据自然语言发展趋势,在特定语境下保持最新状态。例如,在某个香港网站中,专用选词数据库中的一个新的中英翻译选项“董建华”→“Tung Chee-hwa”可能会被纳入专用翻译引擎的词典,并用于根据请求对一组香港网站中的文档进行翻译。
对语境敏感的翻译:翻译应对语境敏感。语境表现为多种形式,包括但并不仅限于基于网络的环境、文档类别和/或网络链接等等。例如,一个网络链接和/或一组网络链接(如同一个域名或同一个子域名下的网络链接)可以构成通过电脑处理自然语言的语境。如果在给定的网络链接中通过投票界面向选词数据库中插入投票,那么将自动生成一个基于该网络链接(语境)的专用选词数据库,该链接与用于描述本次投票的相关词语相关联,与此同时,该次投票将被插入与该网络链接(语境)无关的通用选词数据库中。专用选词数据库中的投票数由电脑独立统计。在给定语境的翻译过程中,如果存储在专用选词数据库中某翻译选项(如”Jerry Yang”→”杨致远”)的投票数与通用选词数据库中的票数不一样,则优先采用专用选词数据库中的票数。在给定语境的翻译过程中,如果单词、短语、语句或表达方式在通用选词数据库和专用选词数据库中对应于多个翻译选项,专用选词数据库中拥有最高票数的选项将自动列为针对该语境的默认选项。电脑并不能像人一样“理解”语境然后进行表述,但它可以记录并保存基于网络的环境、文档类别和/或网络链接,通过它们可以插入投票并与用于描述投票的相关词语相关联(票数)。因此,新文档的“语境”可以由基于网络的环境、文档类别和/或网络链接来决定,通过此方式,该文档被提交进入翻译程序。在翻译过程中,针对由域名、子域名和/或一组域名所确定的一组类似网络链接将使用不同的专用选词数据库及专用翻译引擎。例如,同一域名下有网络链接1和网络链接2,基于网络链接1的专用选词数据库和专用翻译引擎可以按照翻译要求应用于通过网络链接2提交的新文档。另外,用于描述投票的相关词语也可以用来描述插入投票的网络链接(“语境”)。因此,语境在电脑中表现为相关词语。
动态翻译数据库:选词数据库由用户持续更新,因此可以用作一个动态翻译数据库,它涵盖了自然语言中的大部分最新单词、短语、语句或表达。该选词数据库有别于传统意义上的词典,同时也通过下面的方式对传统词典进行了补充:它是交互式的,翻译数据库与用户的互动使得用户可以对该数据库进行实时更新,并实时搜索和查看更新内容;它所包含的内容比传统词典更为广泛,收集了独特的表达方式、产品名称、地名、人名等等,这些是传统词典中所没有的内容,但搜索者经常在搜索查询中用到;它是动态的,根据用户对单词、短语、语句及表达的翻译结果的选择及喜好程度而发展变化(而传统词典的内容在出版发行之后是固定不变的,只能在一段时间如几个月甚至几年之后进行改动,因此对搜索者在进行多语搜索时具有一定的局限性);它包含大多数的最新信息,不像传统词典的编译过程会造成延时;它收集了所有用户的投票,因此在翻译过程中它就可以考虑到单个用户对最新单词、短语、语句和/或表达方式的投票,而机器翻译引擎所使用的传统词典则没有这种功能,这样就使得基于这些词典的翻译引擎无法识别这些单词、短语、语句和/或表达方式。
公众投票中的自动双向翻译选项:针对任何翻译选项的投票会自动进行回译,因此X和Y之间的关系就被保存为双向的翻译选项,即关系X→Y的投票每增加一,对反关系Y→X的投票也自动增加一。因此,该选词数据库可以以两种方式使用:从源语言到目标语言以及从目标语言到源语言,这样就丰富了翻译选项。例如,某个用户可以在多语选词数据库中加入“hotchick”→“美眉”翻译选项或对其进行投票,此时对“美眉”→“hot chick”翻译选项的投票也自动增加一。
翻译文档的本地服务器存储:从因特网上下载已翻译成目标语言的文档并保存在一组本地服务器上。源语言文档通常保存在位于别处甚至是其他洲的远程服务器上,因为远距离因特网传输的缘故很难对这些文档进行检索。因此,这些文档在检索之前就已经被翻译为目标语言并保存在本地服务器上,从而确保通过搜索引擎实现最快速的检索,从而使多语搜索更加方便。例如,可以将网站www.youtube.com及其网页翻译成中文并保存在一组本地服务器上,因此中国的用户可以在搜索引擎中发送中文查询请求“播送你自己”并对从因特网上下载的网页的翻译文档进行检索,从而查找www.youtube.com网站上的英文信息。
多语言库:源语言文档和已翻译文档一起被存储于一组本地服务器上构成了一个多语言库。这个已保存信息数据库包括源语言和目标语言之间平行页面,文本,单词,短语,语句,表达和文档,并通过网页用户添加新文档及为数据库投票来进行自动更新。当翻译引擎从因特网接收到一个用于查询网页或基于网络的任何其它信息的查询请求时,翻译引擎自动执行翻译程序,然后源语言文档和已翻译文档被一同添加到多语言库并存储到一组本地服务器上。同时,已翻译文档可被译回源语言,并根据选词数据库中的当前投票状态,连同多个已翻译版本,添加到多语言库,存储到一组本地服务器上。这样源语言和目标语言之间的平行页面,文本,单词,短语,语句,表达和文档就被从因特网下载并以可浏览网页和/或元数据和/或隐藏字段的形式成对组织起来。这些匹配对可被进一步扩展为更多语言对,并以元数据和/或隐藏字段的形式被组织为一系列在因特网上可显示及浏览的网页,并通过某些如“English”,“Spanish”,“Chinese”的按钮或链接来导航。例如,一个包含词语“cheap airplane tickets sold at the lowest price”的网页可被发送到翻译引擎并根据当前投票被自动翻译为多个中文版本,然后作为一组包含各种中文词语的网页被保存到本地服务器,例如“廉价的机票,最低价出售”,“便宜机票卖最低价格”,“甩卖飞机票”,或“飞机票大减价,价格最低”等等。之后,连同源网页和已翻译网页一起被从因特网下载下来并存储到一组本地服务器上,以包含词语“cheap airplane tickets sold at the lowest price”和已翻译词语“廉价的机票,最低价出售”,或是其它选项如“便宜机票卖最低价格”,“甩卖飞机票”,和“飞机票大减价,价格最低”等等可浏览网页的形式被成对组织起来,并以元数据和/或隐藏字段的形式被保存。中英匹配对可进一步扩展为包括更多语言的匹配对,例如包含词语“se venden billetes de avión másbaratos”的英语-西班牙语匹配对,因此一组包含词语“cheap airplane ticketssold at the lowest price”,“廉价的机票,最低价出售”和“se venden billetes deavión más baratos”的网页以元数据和/或隐藏字段的形式被组织为一系列在因特网上展现的可查看网页,并用类似“English”,“Spanish”,“Chinese”等等的按钮或链接用于导航。
将保存在多语言库中的文档自动切分为语句和/或其它自然语言单元形式,例如短语,关键词,口语表达等等,从而形成一个公众可访问的平行语言信息库。当从因特网上下载的文档被翻译并保存到本地服务器时,源文档和已翻译文档均被自动切分为语句和/或自然语言单元的其它形式,例如短语,关键词,口语表达方式等等,从而形成一个平行语言信息库。被切分单元在公开目录中以成对和/或成串的形式被自动组织并显示,任何人均可通过因特网进行访问。在公开目录中,拥有多个翻译选项的已切分单元,单词,短语,语句或者表达均被突出显示。任何人均可浏览这些翻译选项及其相关词语,通过在选词数据库中添加新投票及(或)选择任何一个现有翻译选项作为建议来加入自己的投票。例如,一个源文档及其已翻译结果可能会被切分为一对词语“cheap airplane tickets sold at the lowest price”,和“廉价的机票,最低价出售”,和/或一串词语“cheap airplane tickets sold at the lowestprice”,“廉价的机票,最低价出售”和“se venden billetes de avión másbaratos”,然后在公开目录中被显示出来供公开投票。通过浏览公开目录中显示的成对词语和/或成串词语,用户可加入一个新的选词建议,即将“cheapairplane tickets sold at the lowest price”翻译为“减价卖机票”。某些用户也许还可以将公开目录中的修改单元上传到本地服务器上保存的网页并使之自动替换在因特网上显示的老翻译版本。
多语言搜索条:源语言文档和已翻译文档一起被存储于一组本地服务器上构成了一个多语言库。通过提供多语言搜索条将某些查询词语指定到多语言库中保存的文档,非跨语言搜索引擎也可获得多语言搜索功能。已保存信息数据库包括源语言和目标语言之间的平行页面,文本,单词,短语,语句,表达和文档,从而使搜索引擎可在从其它语言翻译过来的文档中进行检索,并通过在现有搜索页中添加多语言搜索条实现跨语言功能。例如,包含词语“cheap airplane tickets sold at the lowest price”的文档可根据当前投票被翻译为多个中文版本并作为包含多个中文词语的一组文档被保存到本地服务器上,例如“廉价的机票,最低价出售”,“便宜机票卖最低价格”,“甩卖飞机票”,或“飞机票大减价,价格最低”等等。用户可以在与多语言搜索条相连接的非跨语言搜索引擎中发送搜索查询请求“便宜机票”,这个搜索引擎即可将该查询请求指定到保存在多语言库中的已翻译文档并检索包含中文词语“便宜机票”的文档。这样,多语言搜索的功能即可通过非跨语言搜索引擎来实现。
通过某个文档派生的多个版本检索该文档:一位用户还可以在搜索引擎中使用源语言发送搜索查询请求,并通过该文档派生的多个版本检索该文档,该文档将被译回源语言并以元数据和/或隐藏字段的形式保存在本地服务器上。例如,中翻英时,当前投票可能会将“廉价”翻译为“discounted”或将“inexpensive”,“机票”翻译为“airline ticket”,“plane tickets”或“airfare”,或是将“甩卖”翻译为“dumping”或“on sale”。因此,一个包含“cheap airplanetickets sold at the lowest price”的文档会自动从包含中文“廉价”,“机票”和“甩卖”的文档翻译回源语言英文,并根据当前投票生成包含词语如“cheapairplane tickets on sale”,“inexpensive plane tickets sold at the lowest price”,“discounted airfare on sale”,或“dumping plane tickets”等的多个已翻译文档。这些从该文档翻译而来的多个版本也以元数据和/或隐藏字段的形式被保存到本地服务器上,一位用户可能会使用源语言发送搜索查询请求,例如“discounted airfare”,“inexpensive plane tickets”,“plane tickets lowest price”,“airplane tickets on sale”,或“dumping plane tickets”等等,并通过该文档派生的多个版本,检索与用户查询请求相关的源语言文档。
已翻译文档的多面性(Multiple Facet):在任何从源语言翻译为目标语言的文档中,尽管该文档通过选择其中某个单词,短语,语句和表达的翻译选项之一进行了翻译,但其它翻译选项仍以元数据和/或隐藏字段的形式被保存在文档中。因此已翻译文档不仅可以通过可浏览单词,而且可以通过隐藏单词的方式接受搜索引擎的访问。例如“手机”这个词拥有如下翻译选项:cell phone,cellular phone,cell,mobile phone等等,尽管“cell phone”可能作为获得最多投票的翻译选项或在特定语境中的默认翻译选项而被用作最终显示出来的翻译结果,然而这组翻译选项均以元数据和/或隐藏字段的形式保存在已翻译文档中。因此,已翻译文档不仅可通过搜索引擎在目标语言文档中使用可浏览单词“cell phone”进行检索,而且可以在目标语言文档中使用以元数据和/或隐藏字段形式保存的其它翻译选项“cellular phone”,“cell”,“mobile phone”等进行检索。
多重结果:使用目标语言的一个文档基于该文档中的单词,短语,语句和表达的翻译选项被翻译为使用源语言的一组文档。同时,使用源语言的一个文档也可以同样方式翻译为使用目标语言的一组文档。所有这些已翻译文档均拥有相似含义(以下称“相似文档”),但措辞不同。因此一个文档变为一组文档保存在多语言库中,从而增加了搜索引擎查寻到的几率并可提升其在搜索结果列表中的排名。例如,搜索包含“conjeturar sin fundamento”的文档,并尽可能多地查找与用户查询请求相关的文档,多个包含同义词的文档如“adivinar a ciegas”,“hacer suposiciones gratuitas”可能会在搜索结果中被检索到,用户可通过指定一个同义词作为搜索查询请求,和/或一个相关词语作为相关语境对搜索结果进行排名、显示并缩小搜索结果的范围。
动态浏览:由于翻译文档具有多面性,即当一个文档(源)被翻译为一组文档(目标)时,结果文档之一仅显示了该文档中在单词,短语,语句和表达方面拥有最多投票数的翻译选项,或显示了在特定语境下的默认翻译选项,而其它翻译选项则作为隐藏单词保存在元数据中,例如在一个特定网页或一组相关网页中。这个所显示的,可浏览的目标文档即为查询源文档的翻译时获得的文档。但当对源文档中任何单词,短语,语句和表达的投票数更新后,原文档将动态获取一个新的目标文档,展现给搜索者,供其浏览。因此任何所显示的,可浏览的目标文档总是伴随投票数的更新而更新。因此,任何源语言文档到目标语言文档的翻译结果都是根据当前投票数而动态更新的。另外,存储于多语言库的文档可被某些用户进行修订,例如已翻译网页的授权站长,并且拥有修订已保存文档权限的用户还可以将修订词语和/或其它内容,包括但不限于图表,音乐,字幕,歌词等上传到保存于本地服务器的网页上并自动替换该翻译结果的老版本和/或网上展现出来的其他内容。例如,显示词语“mobile phone”的已翻译网页可根据通用选词数据库或专用选词数据库中的当前投票情况和/或根据已翻译网页的站长修订,动态获取一个包含词语“cell phone”的新目标文档,从而最新词语“cell phone”即会被显示在已翻译网页中,取代词语“mobile phone”作为网上显示的可浏览翻译结果。
自动同义词数据库:在选词数据库和翻译数据库的帮助下,使用任何语言X的自动同义词数据库以如下方式自动生成:根据使用X语言的任何单词/短语/语句/表达E,查找在Y语言中的所有E的翻译选项,然后根据每个Y语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所有翻译选项加上使用Y语言的所有翻译选项构成了单词,短语,语句或表达E在X语言的同义词数据库。在所得到的自动同义词数据库的帮助下,与源语言文档相配的性能被显著改进。自动同义词数据库不同于传统的同义词数据库,它是互动的,动态的,不断更新的,且拥有更强的理解能力,因此可提升搜索查询请求的丰富性,并提供更加全面的搜索结果。例如,“手机”这个词拥有如下翻译选项:cell phone,cellular phone,cell,mobile phone等等,也因此这些翻译选项拥有如下对应的翻译选项:“手机”,“移动电话”,“大哥大”,“无线电话”,“蜂窝式电话”,“细胞”,“蜂窝”等等。后面的一组单词,短语和表达被保存在自动同义词数据库中,用于增加搜索查询请求并提供更全面的搜索结果。
多选项的显示:当一位用户通过使用搜索查询请求获取到检索结果,该结果被显示为与用户搜索查询请求相匹配的一些文档。同时该查询请求的同义词会自动生成,且与这些同义词相关的词语也会在搜索结果页显示给用户。当用户选择了任何的同义词和/或相关词语时,与所选同义词相匹配的文档就会在结果页中提交给用户。因此,不仅与所输入的查询请求相匹配的文档,而且与查询请求的同义词相匹配的文档均会一同在最终显示界面提供给用户。例如,用户可能会在自动生成的一组同义词中选择词语“discountedairfare”作为搜索查询请求“cheap tickets”的同义词之一,并在搜索结果中显示与指定同义词相匹配的相关文档。另外,一位用户还可能会选择与某个查询请求在特定语境下的同义词相关联的相关词语之一,并根据自己对该相关词语的说明显示结果文档,以缩小搜索结果的范围。例如,该用户可能会从与人名“Jerry Yang”相关的一组词语中选择相关词语“Yahoo Co-founder”在搜索结果页显示,然后只有与名字“Jerry Yang”相匹配且和语境“YahooCo-founder”相关的文档才被显示给用户,从当前结果页中隐藏其它非相关搜索结果。
一站式跨语言查询:当一位用户使用源语言进行查询,这项查询请求以及检索结果,会自动在内部与目标语言相互翻译,不受用户的任何干涉。该用户可使用自己的语言(源语言)输入查询请求并且多语言的搜索结果也会通过源语言展现出来。无需用户再输入其它查询请求,翻译查询请求,使用目标语言检索文档,然后翻译文档等等。例如,用户可输入“discountedairfare”,用英语展现的搜索结果不仅检索了与搜索查询请求“discountedairfare”相匹配的使用英文书写的文档,还(或)自动生成了同义词,并将中文,西班牙文,法文,德文,俄文等语言书写的文档自动在内部翻译为英文,与搜索查询请求和/或自动生成的同义词相匹配。
单语导航和/或多语导航:如果一位用户使用源语言输入一项查询请求,查询结果可能仅显示为源语言,尽管查询结果既包括了来自源语言的文档,也包括了来自目标语言的文档。原本使用目标语言的文档被提前翻译为源语言,并保存在多语言库中,然后与所输入的查询请求和/或自动生成的同义词相匹配。从用户的角度看,在这两种文档中没有任何差异,用户感觉自己是使用源语言通过单语界面在单语世界中浏览。同时,如果一位用户使用源语言输入一项查询请求,检索结果可以同时被展现为源语言和相应的目标语言,以便用户进行多语言浏览。在搜索结果页,一个选项可同时以源语言文档和相应目标语言已翻译文档的形式展现出来提供给用户,且/或同时显示以目标语言文档和翻译回源语言的对应文档。
多语言标志:为了区分跨语言搜索结果和其原语言,检索到的翻译文档通过原语言的提示标注了原语言条。反之,搜索结果中则不会出现这样的原语言条。
混合搜索:当一位用户提交了一个查询请求后,可通过保存在本地服务器的翻译文档以及从网络上来获取搜索结果。通过将搜索查询请求翻译为目标语言,然后使用已翻译的查询请求来在网络上搜索,原来未被翻译和保存在多语言库中的新文档可通过网络被检索到,列入搜索结果,并翻译回源语言。因此混合搜索方法不仅允许通过用户查询请求增加多语言库,而且还有助于提升多语言搜索质量,使之保持最新且更全面。
消除歧义:在任何的已翻译文档中,具有多个翻译选项的单词,短语,语句或者表达均被突出显示。用户可以浏览这些翻译选项以及相关词语,选择其中任何一个作为建议。系统将把这个建议作为一次投票。用户在添加投票时也可以指定一个插入该投票的语境,通过加入一些相关词语来描述某一个翻译选项,然后让机器记录相关的翻译语境。例如,用户可以添加“Hongkongers”作为一个相关词语来描述某语境中“布殊”的翻译选项“Bush”,可以在另一个语境中添加“Yahoo Co-founder”作为一个相关词语来描述“杨致远”的翻译选项“Jerry Yang”。在搜索结果页,搜索查询请求的同义词和其相关词语都被显示出来,因此,用户可以从它们中间选择一个以指定该搜索查询请求,并且(或者)选择一个相关词语来指定语境,然后根据用户查询词语的指定和/或相关语境显示出搜索结果。例如,用户可能选择了“JerryYang”和/或相关词语“Yahoo Co-founder”,然后显示出与所指定的搜索查询请求和/或相关词语关联的搜索结果,这就解决了由这个名字“Jerry Yang”引起的模糊含义,因为很多人都会有着相似甚至相同的名字。
查询的歧义消除:当用户使用自己的语言输入查询请求时,系统能够实时以他们的语言向该用户展示翻译选项中的相关单词,用户可以选择这些词语中的任何一个对查询请求进行微调。
短语和表达的探测:新的短语和表达可通过计算在同一文档、段落或语句中两个或两个以上词语连续出现的机率而被查找到。这些新的短语和表达可能有也可能没有翻译选项。但是它们作为短语或表达已经存储在翻译数据库中。翻译一篇文档时,如果该文档包含此类没有翻译选项的短语或表达,这些短语和表达会被突出显示,提示用户为这些短语或表达投票。
一个跨语言信息检索系统的实例(如图4所示)包括一个翻译引擎1、搜索引擎2、网络蜘蛛3、选词数据库4、同义词辞典5、新词数据库6、新词查找器7、文档库8、搜索界面9和投票界面10。翻译引擎1将文档和查询请求从源语言翻译成目标语言。搜索引擎2根据用户的查询请求搜索文档库8和Web。网络蜘蛛3爬取Web并下载文件。选词数据库4存储投票信息。同义词辞典5存储同义词,新词数据库6存储没有投票的新词。新词查找器7查找新词。文档库8存储下载文件和翻译文件。用户使用搜索界面9来输入搜索查询请求并浏览检索结果。用户使用投票界面10浏览并更新选词数据库。
上述组件相互之间的工作和互动原理如下:
网络蜘蛛3在Web中爬取并下载感兴趣的网页,形成一个不断扩大的信息库。下载的网页存储在文档库8中。翻译引擎1对下载的文档进行翻译并存储到文档库8中。在翻译文档的过程中,翻译引擎1查询选词数据库4,检索的词语的可用翻译选项(单词/短语/表达方式),并将其翻译为拥有最多投票数的翻译选项。在翻译文档的过程中,翻译引擎1将其它投票数较少的翻译选项作为元数据和/或隐藏字段保存在文档中。如果该单词没有翻译选项但同时出现在新词数据库6中,翻译引擎1用特殊标记突出显示该词以提示这是一个新的短语。投票界面10接受用户投票,并实时双向更新选词数据库4,如果该词语出现在选词数据库4中,则将其(单词/短语/表达)从新词数据库6中移除。投票界面10调用翻译引擎1以更新包含该词语(单词/短语/表达方式)的文档,使翻译文档与新输入的信息保持动态更新。
查询词语的同义词按如下方法生成:根据使用X语言的任何词语E(单词/短语/语句/表达),查找在所有E的Y语言翻译选项,然后根据每个Y语言的翻译选项,查找其在X语言中的所有翻译选项。使用X语言的所有翻译选项加上Y语言的所有翻译选项构成了X语言的词语E的同义词数据库。产生的同义词被存储在同义词辞典5中。
搜索界面9在接收到用户查询请求后调用搜索引擎2。搜索引擎2运用用户查询请求对文档库8和Web进行搜索,然后以用户的母语将文档列表排序并返回搜索界面9。搜索界面9不仅向用户显示文档列表,还会通过搜索同义词辞典5显示一组与用户查询请求相关的同义词。如果用户点击某个查询词语的同义词,会开始一个新的用所选同义词进行的搜索过程,系统会显示出与该同义词相关的搜索结果的文档列表。如果用户点击已显示的该文档链接,该文档内容将显示在屏幕上,包括每个词语(单词/短语/语句/表达方式)在选词数据库4和新词数据库6中的投票状态。用户可通过点击投票状态浏览每个单词/短语/表达的投票信息。然后用户进入投票界面10为每个单词/短语/表达和短语进行投票。新词查找器7按如下方式在后台运行:它通过计算在文档库8中同一文档、段落或语句中两个或两个单词连续出现的机率查找新短语,一旦查找到新的短语,它们将被存储在新词数据库6中。
显然,上述作为范例讨论的跨语言信息检索系统可作为独立系统或作为传统搜索引擎及信息检索系统的后端系统为搜索引擎或系统提供本说明书中描述的附加功能。
上述特定的范例和实施例是说明性质的,这些范例和实施例可能会进行多个变化调整,但不会背离本说明书的精神或超出所含权利要求的范围。例如,不同说明性实施例的元素和/特性可能会在本说明和附属权利的范围内相互关联,且(或)相互替代。