CN1860473A - 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法 - Google Patents
使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法 Download PDFInfo
- Publication number
- CN1860473A CN1860473A CNA2004800285354A CN200480028535A CN1860473A CN 1860473 A CN1860473 A CN 1860473A CN A2004800285354 A CNA2004800285354 A CN A2004800285354A CN 200480028535 A CN200480028535 A CN 200480028535A CN 1860473 A CN1860473 A CN 1860473A
- Authority
- CN
- China
- Prior art keywords
- group
- probability
- text
- write
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Abstract
根据本发明的方法和设备允许用户提交模糊搜索查询和收到相关搜索结果。可使用与将被搜索的数据的至少一些的字符集和/或语言不同的语言字符集和/或语言表示查询。可通过检查对齐的文本中项的使用执行这些字符集和/或语言之间的翻译。概率可与每个可能翻译相关。通过检查用户与搜索结果的交互,可对这些概率做出改进。
Description
相关申请的交叉参考
本申请是于2000年12月26日提交的名称为“METHODS ANDAPPARATUS FOR PROVIDING SERACH RESULTS IN RESPONSETO AN AMBIGUOUS SEARCH QUERY”的美国专利申请序列号No.09/748,431的部分继续申请,其根据35 U.S.C.§119(e)要求于2000年7月6日提交的名称为“DATA ENTRYAND SEARCH FORHANDHELD DEVICES”的美国临时申请序列号No.60/216,530的优先权,其全部内容结合于此作为参考。
技术领域
本申请整体涉及信息搜索和检索。更具体地,披露了一种用于使用以字符集或与该字符集不同的语言或被搜索的文档的至少一些的语言写成的查询执行搜索的系统和方法。
背景技术
大多数搜索引擎在终端用户使用类似于传统键盘的东西(其中字母数字串的输入不难)输入搜索查询的设想下工作。然而,随着小型装置变得越来越普及,这种设想并不总是有效的。例如,用户可使用支持WAP(无线应用协议)标准的无线电话查询搜索引擎。例如无线电话等装置通常具有数据输入界面,其中用户的特定动作(例如,按键)可对应于多于一个的字母数字字符。WAP架构的详细描述可在http://www1.wapforum.org/tech/documents/SPEC-WAPArch-19980439.pdf(“WAP 100无线应用协议架构规范”)处得到。
在通常的情形下,WAP用户导航到搜索查询页面,并且呈现给他们输入其搜索查询的形式。利用传统方法,可要求用户按多个键来选择特定字母。在标准电话键盘上,例如,用户可通过按“2”键两次选择字母“b”,或通过按“7”键四次选择字母“s”。因此,为了输入对“ben smith”的查询,用户通常需要输入以下按键串:223366077776444844,它们映射到如下字母:
22→b
33→e
66→n
0→空格
7777→s
6→m
444→i
8→t
44→h
在用户输入其搜索请求后,搜索引擎收到来自用户的词,并且以与它们收到来自桌面浏览器(其中用户使用传统键盘)的请求几乎相同的方式继续。
如可从上述实例看到的,这种数据输入形式效率不高,因为,它要求十八次击键来输入对应于“ben smith”的九个字母数字字符(包括空格)。
类似的困难可发生在使用非目标语言键盘敲出查询时。例如,可使用包括hiragana、katakana、和kanji的多个不同的字符集表示日文文本,但均不容易使用基于罗马字母表的典型的ASCII键盘输入这些字符集。在这样的情形下,用户常常使用例如由日本德岛市(Tokushima City)的JustSystemg公司生产的Ichitaro等字处理器,这种字处理器能将以romaji(日文的表示语音的罗马字母表表示)写成的文本转换成katakana、hiragana、和kanji。使用该字处理器,用户能以romaji键入查询,接着将翻译的文本从字处理器的屏幕剪切粘贴进浏览器上的搜索框中。这种方法的缺点在于,其相对较慢且冗长,并且要求用户访问字处理器的副本,但由于成本和/或存储器限制,这可能不是可行的。
因此,仍需要提供响应于模糊的搜索查询的相关搜索结果的方法和设备。
发明内容
如本文中体现和广泛描述的,根据本发明的方法和设备提供响应于模糊的搜索查询的相关搜索结果。根据本发明,这样的方法包括接收来自用户的模糊信息构件序列。该方法获得将模糊信息构件映射到较不模糊的信息构件的映射信息。这种映射信息用于将模糊信息构件序列映射成一个或多个相应的较不模糊的信息构件序列。这些较不模糊的信息构件序列的一个或多个作为输入提供给搜索引擎。从搜索引擎获得搜索结果,并且将该结果呈现给用户。
另外,本发明披露了用于使用查询执行搜索的系统和方法,其中所述查询以不同于将被搜索的文档的至少一些的字符集或语言的语言或字符集表示。本发明的实施例允许用户使用标准输入装置(例如,ASCII键盘)敲出查询,使得查询在服务器处被翻译成相关形式(例如将以romaji写成的查询翻译成katakana、hiragana、和/或kanji),并且接收基于转换形式的搜索结果。
应理解,本发明可以多种方式实现,包括程序、设备、系统、装置、方法、或例如计算机可读存储介质等计算机可读介质、载波、或其中程序指令通过光或电子通信线路发送的计算机网络。下面描述几个本发明的实施例。
在一个实施例中,描述了将查询项自动从一种语言和/或字符集翻译到另一语言和/或字符集的方法。将包含给定查询项的第一组锚文本识别为锚文本指向的一组文档(例如网页)。接着识别以第二格式写成并且指向同组文档的第二组锚文本。接着分析第二组锚文本,以获得给定查询项以第一格式呈现对应于给定查询项以第二格式呈现的概率。
在另一实施例中,创建将以第一格式(例如,语言和/或字符集)写成的项映射到第二格式(例如,另一语言和/或字符集)的概率词典。该概率词典用于将以第一格式写成的查询翻译成第二格式。接着将所翻译的查询用于执行搜索,所搜索的结果被返回用户。在一些实施例中,用户与搜索结果的交互可被监控,并且用于更新概率词典中的概率。并且,在一些实施例中,查询自身在搜索之前可被扩展,以包括可选语言和/或字符集映射。
在又一实施例中,描述了创建概率词典的方法。该概率词典可用于将具有第一格式的项翻译成第二格式。优选通过识别包含该项的锚文本或其它数据,逐项创建该词典。接着,分析与该锚文本或其它数据对齐的数据,以确定具有第一格式的给定项映射到具有第二格式的一个或多个项上的概率。
在又一实施例中,通过将包含查询项的一个或多个且以第一语言或字符集写成的锚文本与对应于第一锚文本且以第二语言或字符集写成的锚文本进行比较,将以第一语言或字符集提供的查询翻译成第二语言或字符集。
在另一实施例中,提供用于将以第一格式写成的项翻译成第二格式的计算机程序产品。该计算机程序产品用于使计算机系统识别对齐的锚文本和确定给定项以第一格式呈现对应于一个或多个项以第二格式呈现的概率。
在另一实施例中,提供了使用潜在模糊的查询执行搜索的方法。当用户输入具有第一格式的查询时,该查询被翻译成一组以第二格式写成的一个或多个变异体。接着使用被翻译的变异体执行搜索,并且将响应信息返回用户。例如,第一格式可包括使用电话键盘输入的数字序列,且第二格式可包括字母数字文本(例如,英语、romaji、romaja、拼音等)。在一些实施例中,通过丢弃不出现在预定索引词表中的被翻译的变异体和/或包含预定低概率字符组合的被翻译的变异体,选择该组一个或多个变异体。在一些实施例中,概率词典用于在执行搜索之前将该组一个或多个变异体进一步翻译成第三格式。例如,该概率词典可用于将该组一个或多个变异体从romaji、romaja、或拼音翻译成kanji、katakana、hiragana、hangul、hanja、或传统汉字,接着使用被翻译的变异体执行搜索。
本发明的这些和其它特性和优点将更详细地呈现在以下的详细描述和附图中,其中所述附图借助于实例图示本发明的原理。
附图说明
附图整合进说明书并且构成说明书的部分,图示本发明的实施例,并且与描述一起用以说明本发明的优点和原理。在附图中:
图1示出其中实现根据本发明的方法和设备的系统的框图;
图2示出根据本发明的客户机装置的框图;
图3示出描述三个文档的图示;
图4a示出传统字母数字索引表;
图4b示出提供响应传统的字母数字搜索查询的搜索结果的流程图;
图5a示出根据本发明的用于提供响应模糊搜索查询的搜索结果的流程图;
图5b示出用于将字母数字信息映射到数字信息的图示;以及
图6示出根据本发明的用于提供响应模糊搜索查询的搜索结果的另一流程图。
图7示出用于根据本发明的实施例执行搜索的方法。
图8示出字符集翻译的概率词典。
图9示出使用平行锚文本构造概率词典的图示。
图10示出使用锚文本链接的文档集合。
图11A和11B示出基于图10中所示的锚文本计算可能的翻译的图示。
图12示出与所示出的词翻译有关的概率分布。
具体实施方式
现在将详细参看如附图中示出的本发明的实施例。在附图中始终使用相同参考标号,并且以下描述是指相同或相似部分。以下描述的呈现使得本领域中的任何技术人员都能制造和使用发明的工作主体。对具体实施例和应用的描述仅作为实例而提供,且各种修改对本领域的技术人员来说是显然的。例如,尽管以互联网网页为背景描述了多个实例,但应理解,本发明的实施例可用于搜索其它类型的文档和/或信息,例如书、报纸、杂志等。类似地,尽管为了例示目的,许多实例描述了日文文本从romaji到katakana、hiragana、和/或kanji的翻译,但本领域的技术人员将理解,本发明的系统和方法可应用于任何适合的翻译。例如,非限制性地,本发明的实施例可用于基于以某一其它格式(例如,拼音或romaja)接收的查询搜索以例如传统汉字或韩文hangul或hanja字符写成的文本。本文中描述的一般性原理可应用于其它实施例和应用,而不偏离本发明的精神和范围。因此,本发明被给与最宽的范围,涵盖众多与这里披露的原理和特性一致的可选物、修改、和等同物。为了简洁起见,没有描述与本发明相关的本领域中已知的技术材料的细节,以免不必要地模糊本发明。
A.概述
根据本发明的方法和设备允许用户提交模糊搜索查询和接收潜在消除歧义的搜索结果。在一个实施例中,将从具有标准电话键盘的用户接收的数字序列翻译成一组潜在对应的字母数字序列。使用布尔“或(OR)”表达式,将这些潜在对应的字母数字序列作为输入提供给传统搜索引擎。这样,该搜索引擎用于帮助限定用户可能感兴趣的搜索结果。
B.架构
图1示出其中可实现根据本发明的方法和设备的系统100。系统100可包括经由网络140连接至多个服务器120和130的多个客户机装置110。网络140可包括局域网(LAN)、广域网(WAN)、例如公共开关电话网络(PSTN)等电话网络、内联网、互联网、或这些网络的组合。为了简洁起见,示出连接至网络140的两个客户机装置110和三个服务器120和130。实际上,可以有更多或更少的客户机装置和服务器。并且,在一些情况下,客户机装置可执行服务器的功能,且服务器可执行客户机装置的功能。
客户机装置110可包括例如大型机、小型计算机、个人计算机、膝上型电脑、个人数字助理等能连接至网络140的装置。客户机装置110可通过网络140传输数据,或经由有线、无线、或光连接接收来自网络140的数据。
图2示出根据本发明的示范性客户机装置110。客户机装置110可包括总线210、处理器220、主存储器230、只读存储器(ROM)240、存储装置250、输入装置260、输出装置270、和通信接口280。
总线210可包括一个或多个允许在客户机装置110的构件之间通信的传统总线。处理器220可包括任何类型的用于理解并执行指令的传统处理器或微处理器。主存储器230可包括用于储存由处理器220执行的信息和指令的随机存取存储器(RAM)或另一类型的动态存储装置。ROM 240可包括储存处理器220使用的静态信息和指令的传统ROM装置或另一类型的静态存储装置。存储装置250可包括磁和/或光记录介质及其相应驱动器。
输入装置260可包括允许用户输入信息给客户机装置110的一个或多个传统机构,例如键盘、鼠标、笔、语音识别和/或生物测定机构等。输入装置270可包括输出信息给用户的一个或多个传统机构,包括显示器、打印机、扬声器等。通信接口280可包括使得客户机装置110能与其它装置和/或系统通信的任何收发器类型的机构。例如,通信接口280可包括用于经由网络(例如,网络140)与另一装置或系统通信的机构。
如将在下面详细描述的,根据本发明的客户机装置110执行某些(certain)与搜索相关的操作。客户机装置110可响应于处理器220执行包含在计算机可读介质(例如存储器230等)中的软件指令执行这些操作。计算机可读介质可被限定为一个或多个存储器装置和/或载波。可从另一计算机可读介质(例如,数据存储装置250等)或从经由通信接口280的另一装置将软件指令读进存储器230。包含在存储器230中的软件指令使得处理器220能执行下述与搜索相关的活动。可选地,硬连线电路可用于代替软件指令或与软件指令结合使用,以执行根据本发明的进程。因此,本发明不限于硬连线电路和软件的任何特定组合。
服务器120和130可包括能连接至网络140使得服务器120和130与客户机装置110通信的一种或多种类型的计算机系统,例如大型机、小型计算机或个人计算机等。在可选实施方式中,服务器120和130可包括用于直接连接至一个或多个客户机装置110的机构。服务器120和130可通过网络140传输数据,或经由有线、无线、或光连接接收来自网络140的数据。
可以类似于上面参看图2对于客户机装置110描述的方式配置服务器。在根据本发明的实施方式中,服务器120可包括可由客户机装置110使用的搜索引擎125。服务器130可储存可由客户机装置110访问的文档(或网页)。
C.架构操作
图3示出描述三个文档的图示,这三个文档举例来说可被储存在服务器130的其中之一上。
第一文档(文档1)包括两个条目—“car repair(汽车维修)”和“car rental(汽车出租)”--,并且在其底部标以号码“3”。第二文档(文档2)包括条目“video rental(视频出租)”。第三文档(文档3)包括三个条目—“wine(酒)”、“champagne(香槟)”、和“baritem(酒吧项目)”--,并且包括至文档2的链接(或引用)。
为了图示简洁起见,图3中所示的文档仅包含信息的字母数字串(例如,“car”、“repair”、“wine”等)。然而,本领域的技术人员将认识到,在其它情形下,文档可包括其它类型的信息,例如语音、或视听信息等。
图4a示出基于图3中所示的文档的传统的字母数字索引表。该索引表的第一列包括一列字母数字项,且第二列包括一列对应于这些项的文档。例如字母数字项“3”等一些项仅对应于一个文档(例如出现在一个文档中),在此情形下,是文档1。例如“rental”等其它项对应于多个文档,在此情形下,是文档1和2。
图4b示出例如搜索引擎125等传统搜索引擎如何使用图4a中所示的索引表提供响应于字母数字搜索查询的搜索结果。可使用任何传统技术产生该字母数字查询。为了例示目的,图4b描述了两个字母数字查询:“car”和“wine”。在传统方法下,搜索引擎125收到例如“car”等字母数字查询(步骤410),并且使用该字母数字索引表确定哪些文档对应于该查询(步骤420)。在该实例中,传统搜索引擎125使用图4a中所示的索引表确定“car”对应于文档1,并且将文档1(或对文档1的引用)作为搜索结果返回用户。类似地,传统搜索引擎确定“wine”对应于文档3,并且将文档3(或对文档3的引用)作为搜索结果返回用户(步骤430)。
图5a示出根据本发明的用于基于分别在图3和4a中示出的文档和索引表提供响应于数字搜索查询的搜索结果的优选技术的流程图。为了使得图示容易,图5a描述了用于基于标准电话手机(telephone handset)的映射处理数字查询的特定技术;但是本领域的技术人员将认识到,也可使用根据本发明的其它技术。
在步骤510,收到来自用户的序列“227”(包括数字构件“2”、“2”、和“7”)。在步骤520,获得有关数字构件如何映射到字母的信息。假定用户从标准电话键盘输入信息,在图5b中示出该映射信息。如图5b中所示,字母“a”、“b”、和“c”的每个都映射到数字“l”,字母“p”、“q”、“r”、和“s”的每个都映射到数字“7”等。
在步骤530,使用该映射信息,将序列“227”翻译成其潜在的字母数字等同物。根据图5b中所示的信息,存在36个对应于序列“227”的可能的字母组合,包括下述:aap、bap、cap、abp、bbp、…、bar…car…ccs。如果数字包含在可能的组合中(例如,“aa7”),则存在80个可能的组合。不是生成所有可能的字母数字等同物,可希望根据一些索引词表限定所生成的等同物。例如,可希望仅产生出现在词典、先前的搜索查询的搜索引擎日志中的那些字母数字等同物;或通过使用已知统计技术(例如一起出现的某些词的概率)以其它方式限定字母数字等同物。
在步骤540,使用逻辑“OR”操作,将这些字母数字等同物作为输入提供给传统搜索引擎(例如参看图4a和4b描述的)。例如,提供给搜索引擎的搜索查询可以是“app OR bap OR cap OR abp…OR bar…OR car”。尽管可将所有可能的字母数字等同物提供给搜索引擎,但代之以,通过使用传统技术消除不可能想要的等同物,使用子集。例如,通过使用(draw upon)利用有关字母或词的使用的概率信息的技术,可产生可能组合的较窄列表:可忽略从“qt”开始的组合,但包括(和喜欢)从“qu”开始的组合。
在步骤550,从搜索引擎获得搜索结果。由于例如“aap”和“abp”等项不出现在搜索引擎的索引表中,所以它们被有效地忽略。实际上,包含在图4b中所示的索引表中的项仅为“car”和“bar”,从而所返回的唯一的搜索结果是引用文档1和3的搜索结果。在步骤560,将这些搜索结果呈现给用户。可以以搜索引擎提供的相同顺序呈现搜索结果,或可根据例如用户语言等考虑对搜索结果重新排序。假定用户仅对包含项“bar”的文档感兴趣,则除了想要的结果(文档1)外,用户还接收不想要的结果(文档3)。然而,为了用户仅需按三个键来形成搜索查询打算,这是可接受的付费价格。
图6示出根据本发明的用于基于分别在图3和4a中示出的文档和索引表提供响应于数字搜索查询的搜索结果的优选技术的另一流程图。该流程图示出如何增加所接收的序列尺寸可有助于限定搜索结果到用户想要的搜索结果。为了图示容易起见,图6再次描述了基于标准电话手机的映射处理数字查询的特定技术;但是本领域的技术人员将认识到,也可使用根据本发明的其它技术。
在步骤610,收到来自用户的序列“227 48367”(包括数字构件“2”、“2”、“7”、“4”、“8”、“3”、“6”、“7”)。为了说明目的,将序列“227”称为“数字词”,将整个序列“227 48367”称为“数字短语”。将数字词的可能的字母数字等同物称为“字母词”,将数字短语的可能的字母数字等同物称为“字母短语”。
在步骤620,获得有关数字构件如何映射到字母的信息。假定如图5b中所示使用相同的映射信息,则在步骤630,将数字短语“22748367”翻译成潜在对应的字母短语。根据图5b中所示的信息,存在11664个对应于序列“227 48367”的字母短语。
在步骤640,使用逻辑“OR”操作,将这些字母短语作为输入提供给传统搜索引擎(例如参看图4a和4b描述的)。例如,提供给搜索引擎的搜索查询可以是“’‘aap gtdmp’OR‘aap htdmp’…OR’bar item’…OR‘car item’”。尽管可将所有可能的字母短语提供给搜索引擎,但代之以,通过使用传统技术消除不可能想要的字母短语,使用子集。
在步骤650,从搜索引擎获得搜索结果。由于许多搜索引擎被设计为使那些搜索的包含精确短语的文档级别很高(rank highly),所以文档3可能是级别最高的搜索结果(即,由于它包含精确短语“bar items”)。该实例中没有其它文档包含在步骤620生成的其它字母短语的任何一个。并且,许多搜索引擎使包含短语的单独部分但不包含整个短语的搜索结果权重下降或消除。例如,使得文档1权重下降或消除,因为它包含对应于字母短语的第一部分的字母词“car”,但不包含对应于字母短语的第二部分的任何字母词。最终,例如“aap htdmp”等字母短语被有效忽略,因为它们不包含出现在搜索引擎索引表中的字母词。
在步骤660,将搜索结果呈现给用户。在所示的实例中,显示给用户的第一结果是可能与用户查询最相关的文档3。文档1可被完全消除,因为它不包含可能的字母短语的任何一个。这样,将最相关的搜索结果提供给用户。
尽管参考收到数字信息并将其映射到字母数字信息做出上面参看图5和6的描述,但本领域的技术人员将认识到,根据本发明其它实施方式也是可能的。例如,代替收到对应于用户按的键的数字序列,所收到的序列可包括对应于用户按的键的第一字母。换言之,代替接收“227”,所收到的序列可以是“aap”。根据本发明,在步骤530或630中产生的等同字母序列可以是对应于“aap”的其它字母序列(例如,“bar”)。实际上,收到的序列可以包含语音、视听、或任何其它类型的信息构件。
无论接收序列的形式如何,都通常优选的是,收到的序列被翻译成对应于信息储存在搜索引擎的索引表中的格式的序列。例如,如果搜索引擎的索引表被以字母数字格式储存,则应将收到的序列翻译成字母数字序列。
并且,通常优选的是,用于翻译收到的信息序列的映射技术可以是与在用户装置处采用的用于将用户输入映射到装置产生的信息的技术相同的技术。然而,也存在优选使用与用于用户输入的映射技术不同的映射技术的实例。
本发明的实施例也可使得用户能执行使用非目标语言键盘输入的搜索。例如,包含日文文本的网页可以kanji写成,同时试图搜索该网页的用户可仅访问基于罗马字母表的ASCII键盘(或手机)。
图7示出用于执行这样的搜索的方法。如图7中所示,用户使用标准输入装置(例如,ASCII键盘、电话手机等)敲出查询,并且发送该查询给搜索引擎。该查询可被以与写成响应文档的一些的字符集(例如,kanji)不同的字符集(例如,romaji)写成。搜索引擎收到该查询(框702),将其翻译成相关形式(框704),并且使用例如传统搜索技术对响应于翻译的查询的文档执行搜索(框706)。接着该搜索引擎返回一列响应文档(和/或文档自身的副本)给用户(框708)。例如,以类似于上面结合图6描述的方式将结果返回给用户。
如图7中所示,优选在与客户机相对的搜索引擎的服务器处翻译用户查询,从而使得用户不再需要获得专用目的软件来执行该翻译。然而,将理解,在其它实施例中,翻译的全部或一些可在客户机处执行。另外,在一些实施例中,可使用例如电话键盘等装置输入查询。在这样的实施例中,使用上面结合图5和6描述的映射技术(例如,包括索引词表和/概率技术的应用)丢弃低概率映射(例如,包括不以romaji出现的字母组合的映射),可首先将最初的数字查询转换成字母数字形式(例如romaji)。一旦已经获得查询的字母数字翻译,则可执行图7中所示的步骤的剩余部分(即,704、706、和708)。
可以多种方式执行查询从一种字符集或语言到另一字符集或语言的翻译(即,图7中的框704)。一项技术是使用具有词义或翻译的传统静态词典将查询中的每个项映射到目标语言或字符集中的对应项。然而,该方法的问题是,它将常常产生不精确的结果,因为词常常是模糊的,并且查询过短,从而不能提供充分多的上下文线索来解决此模糊问题。例如,词“bank”可以指river bank、financial institution、或a maneuver by an airplane,从而使得难以理论上精确地翻译。另外,如果该词典相对不大,和/或没有被频繁更新,则它可能不包含用于搜索引擎可能遇到的所有项的条目,例如很少使用的词、俚语、成语、固有名称等。
本发明的实施例可用于通过使用概率词典将查询项从一种语言或字符集(例如,ASCII)翻译到另一语言或字符集(例如,kanji)克服或改善这些问题的一些或全部。在优选实施例中,概率词典将一组项映射到另一组项,并且使概率与每个映射相关。为了方便起见,“项”或“语言符号(token)”是指词、短语、和/或(更一般地)可包括空格的一个或多个字符序列。
图8示出例如上述等概率词典800的实例。图8中所示的实例概率词典800将以romaji(日文的罗马字母表表示)写成的词映射到以kanji(非罗马的基于表意文字的日文字符集)写成的词。为了便于解释,图8将罗马项描述为<项>romaji,将kanji项描述为<项>kanji。将理解,在实际的romaji到kanji词典中,使用实际的romaji和kanji项,而不是图8中所示的英文翻译。因此,将理解,图8用于方便本发明的实施例的说明,而不是图示日文文本的实际特征和意思。
词典800包括用于多个romaji项802的条目808、810、812、814。该词典也包括以kanji写成的这些项的每个的潜在呈现(representation,表示)804以及每个这样的呈现正确的对应概率806。例如,romaji项“bank”可以概率0.3映射到kanji项意思“steepslope”,以概率0.4映射到项意思“financial institution”,以概率0.2映射到项意思“airplane maneuver”。该项可以概率0.1映射到“其它”,这仅是允许每个项映射到可能不在词典中的项的一般方式。
再者,将理解,图8中所示的实例已经被构造为例示以第一字符集或语言写成的给定项(例如,词“bank”)可映射到以另一字符集或语言写成的多于一个的项。然而,本领域的技术人员将理解,为了简洁起见,图8中的具体实例使用英文词和意思例示该原理,例如,词“bank”的实际的romaji呈现可能不比其英文等同物模糊(例如,在用于financial institution的词和用于airplane maneuver的词之间romaji不存在模糊)。也应理解,为了便于解释,图8中所示的词典也已经在其它方面得以简化。例如,实际的概率词典可包含用于每个项的多得多的潜在映射,或可仅包含超过预定概率阈值的映射。
本发明的优选实施例使用这样的概率词典将以一种语言和/或字符集写成的查询翻译成另一语言和/或字符集,从而使得用户能找到以与其原始查询不同的字符集和/或语言写成的文档。例如,如果用户输入以romaji写成的对“cars”的查询,则该概率词典可被用于将用于“cars”的romaji项映射到例如用于“cars”的kanji项。这样,用户可找到与其查询有关的文档,即使该查询的字符集(例如,romaji)和匹配文档的字符集(例如,kanji)不同。注意,在本具体实例中,查询的实际语言没有改变(romaji和kanji均被用于表示日文),仅字符编码改变。
作为另一实例,以ASCII英文写成的项“tired”可使用拉丁1字符编码映射到项“müde”,因为该字符变元音u在ASCII中不存在。注意,在本实例中,该词典提供了翻译成另一语言(英文到德文)和翻译成另一字符编码(ASCII到拉丁1)两种方式。
在优选实施例中,使用可在网络上得到的信息以及统计技术,以自动方式构造上述映射词典。优选实施例使用平行对齐的双语语料库(例如以不同语言和/或字符集写成的锚文本)达到精确翻译。使用这种数据,优选实施例可构造潜在词映射词典。这举例来说可通过简单地对以语言Si(源语言)写成的语言符号与在对齐的文本对(例如,锚、句子等)中的语言符号Tj(目标语言)同时出现的次数计数完成。然而,将理解,可使用任何适合的技术。
在缺少充分大并且正确对齐的数据集时,该方法可产生较模糊的多对多的映射。因此,例如,可仅确定S1以某些频率映射到T2、T3、T7、和T8。然而,这是可接受的,并且,如下面更详细地描述的,在一些实施例中,可做出另外的改进,以提高每个映射的相应可能性,例如,通过检查先前的用户查询、用户对结果网页上的项目的选择等实现。
图9示出将平行锚文本用于构造概率词典。锚文本包括与网页(或给定网页内的地址)之间的超链接相关的文本。例如,在超文本标识语言(HTML)中,命令:“<A href=″http://www.abc.com″>Banks and Savings and Loans</A>”使得文本“Banks and Savingsand Loans”作为指向在http://www.abc.com发现的网页的超链接显示。该文本“Banks and Savings and Loans”被称为“锚文本”,通常提供了对其指向的网页(例如,www.abc.com)的简短描述。实际上,锚文本将常常对网页提供比网页自身更精确的描述,因此在确定它指向的网页的性质中是特别有用的。另外,锚文本中的词使用量(用法,usage)和分布常常在精神和长度上与在用户查询中发现的接近。也有这样的情形,指向给定页的许多锚将包含相同或高度相似的文本。例如,指向www.google.com的锚将常常简称为“Google”,或将至少与其它文本一起使用该项。因此,通过检查全部指向www.google.com的锚,例如,katakana,仅通过查找以最高频率出现的项(可能在丢弃某些预定低信息-内容锚,例如简称为“click here”的信息-内容锚),可以较高的信任度推断出用于“Google”的katakana翻译。本发明的优选实施例利用锚文本的这些特征提供精确翻译。
参看图9,在收到包含以第一字符集(例如,ASCII)写成的项的查询时(框902),服务器识别其中该项出现的一组锚文本(框904)。例如,该服务器可检查所有已知锚的索引表,以识别包含该项的那些锚。接着,那些锚点指向的网页被识别(框906),之后识别指向这些网页的以目标语言或目标字符集(例如,hiragana,katakana,和/或kanji)写成的任何锚(框908)。现在该系统将具有两组文档(其中锚文本被认为是文档形式)。接着将一个文档集(例如,包含原始ASCII查询的锚)中的查询项的分布用于识别另一文档集(例如,平行锚)中的翻译的短语的最可能的候选对象。可对锚文本项出现的频率计算出统计数字,并且将这些统计数字用于确定在为原始查询的正确翻译的锚文本中发现的项的相对频率或概率(框910)。对于具有多个词的查询,可对每个词重复上述过程,或仅将整个查询认为是单个项,或使用词的一些其它适合的分组。例如,如果查询是“big houses”,则可通过找到包含该短语(或短语中的至少一个词)的对齐的锚文本构造可能翻译词典。类似地,如果该查询包含多于两个的项,则通过拾取该查询项的适当子集并且产生那些项的结果,可建立确定合适映射的实验。
以图9中所示的方式执行翻译的一个优点是,该翻译系统不需要具有在以一种语言或字符集写成的项和以目标集写成的项之间映射的现有知识。相反,可基于可用于执行统计分析的数据体动态确定映射。因此,例如,可能发现对于俚语项、成语、固有名称等的精确翻译,而不需要维护传统的静态词典的努力或代价(例如,双语分析和搜索)。
现在将结合图10至图12描述前述翻译技术的例示性实施例。在本实例中,将假定用户已输入查询项“house”,并且希望获得以西班牙语写成的搜索结果(或仅为查询项的翻译)。服务器将尝试将英文项“house”翻译成其西班牙语等同物。
参看图10,多个网页959、961、963、965经由锚文本960、962、964、966链接到网页972和974。网页中的一些及其相关锚文本以英文写成(即,网页959a-e和963a-t),一些以西班牙语写成(即,网页961a-e和965a-j))。服务器首先定位使用项“house”的所有锚。举例来说可通过搜索储存在服务器处的锚文本的索引表定位这些锚。使用这样的索引表,服务器可首先找到每个都使用短语“big house”并且指向网页972的五个锚960。该服务器接着确定也存在五个指向网页972的目标语言(即,西班牙语)锚962。在图10中所示的实例中,这些锚包含文本“casa grande”。指向相同网页(例如锚960和锚962)的锚或承载与之的预定关系的网页的锚被称为是“对齐的”,其中,就更一般的意义而言,对齐通常是指被对齐的项的等同物(或可能的等同物)。
图11A示出每个目标语言项出现在目标语言锚962中的频率。如图11A中所示,项“casa”和“grande”的每个都出现五次(即,每个锚962中一次)。因此,在出现在目标锚962中的十个总项中(即,在五个锚的每个中,每个锚两个项),“casa”占一半,“grande”占一半。因此,如图11A中所示,此时,项“house”以相等的概率映射到“casa”或“grande”,因为这两个项以相等的频率出现。
然而,如图10中所示,该系统也找到二十个包含项“house”并且指向网页974的英文锚964和十个包含项“casa”并且也指向网页974的西班牙语锚966。如图11B中所示,项“house”现在将以概率0.75(即,15/20)映射到“casa”,以概率0.25(即,5/20)映射到“grande”。仅通过用目标语言锚(即,二十个项:包含在锚962中的十个,包含在锚964中的十个)中项的总数(包括重复的项)除目标语言锚中每个项的出现总数(即,在“casa”的情形下,为十五个),计算这些概率。可选地,或另外,也可将其它技术用于计算和/或改进给定翻译或映射的概率。例如,本领域中的技术人员将理解,多种已知技术中的任何一种(例如,贝叶斯方法、直方图平滑、核平滑、收缩估算量、和/或其它估计技术)都可用于减少概率估计的方差误差(variance error)。
如果更多的锚文本可得到,则甚至可进一步改进概率。例如,最终的概率分布可类似于图12中所示的概率分布,在图12中,“house”以较高概率映射到“casa”及其小形式(diminutive form)“casita”,以稍小的概率映射得到类似于“casino”和“mansión”(mansion的西班牙语词)等项,以可忽略的概率映射到类似于“grande”等项。因此,无需正在被翻译的语言和/或字符集的知识,就可获得正确翻译以及类似同义词的识别。
已经翻译了查询项,现在服务器可使用该翻译进行搜索。例如,如果用户将输入对“hotels in Kyoto”的romaji查询,则上述技术可用于使该服务器能推断该查询的katakana、hiragana、和kanji形式,使用那些查询执行搜索,接着在适当的用户界面内将那些查询的每个的组合结果呈现给用户。
应理解,结合图10-12描述的实例仅为例示目的而提供,而非限制,并且可对这里描述的方法做出许多改变。例如,可将不同的统计技术用于得到概率,和/或可对上述的基本技术做出修改。类似地,应理解,上述翻译技术可仅用于执行对用户输入的词或短语的翻译,而不需要用于执行相关的互联网搜索或创建概率词典。另外,尽管前述实例描述了在收到用户查询后进行的翻译过程,但应理解,在其它实施例中,可在收到用户查询之前执行映射过程。这样的预计算的映射可被储存在例如图8中描述的词典中,接着可将该词典应用于在收到用户查询后翻译用户查询。最终,应理解,与对齐的锚文本不同的文本可用于执行该翻译。例如,可以类似方式使用对齐的句子或其它数据。在许多国家中,存在多于一种的官方或正式语言,且报纸和期刊常常包含以这些语言的每种写成的相同文章。这些平行翻译可以类似于前述锚文本的方式被使用,以准备词翻译的概率词典。
因此,优选实施例有利地使用户能以传统方式(例如,使用ASCII键盘)输入搜索查询和/或翻译请求,并且提供精确和自动的翻译和搜索。在一些实施例中,可对上述基本模型做出另外的改进。例如,在一些实施例中,可将优先级(权重)给与包含类似于原始查询和/或其它对齐的锚中的多个项的多个项的锚。例如,在图10中所示的系统中,可将优先级给与指向网页974的锚,因为,类似于原始查询,它们的每个都包含单个项。类似地,如果包含文本“lacasa grande”的锚也指向网页972,则其权重将被减少适当因子,因为它包含比其对齐的其它锚多的项(即,3)。通过用适当因子乘与这些锚的项相关的频率,这样的权重方案可反映在图11B中所示的概率计算中。
上述翻译过程也可用于提高搜索自身的有效性。例如,该概率词典可用于在空中(on the fly)扩展查询,以包括例如原始查询项的各种翻译和同义词。通过在文档检索之前扩展用户查询,可对相同“概念”同时执行检索,从而提高搜索结果包含用户查找的项的可能性。可选地,或另外,通过提供文档项的扩展,该概率词典可用于补充正常的文档索引过程。例如,可利用来自该概率词典的翻译在文档索引表中补充在文档中找到的项,从而提高文档甚至通过不精确使用在原始文档中找到的相同项的搜索定位的概率。
在使用上述翻译技术时产生的一个问题是,由于数据稀疏(例如,没有充分多的锚来最后确定“casa”映射到“house”)或缺少多样性(例如,所有锚说的是相同事情),则该系统不能获得充分精确的概率映射。因此,在一些实施例中,通过检查用户行为,可进一步提高概率映射。下面描述了几个例示性技术。
例如,再次假定服务器希望获得对“house”的翻译。然而,假定可仅找到一个锚文本包含短语“big house”或短语“casa grande”。由于在该锚文本中缺少多样性,所以该概率词典可得到以下映射:
house→casa,具有0.5的概率
house→grande,具有0.5的概率
big→casa,具有0.5的概率
big→grande,具有0.5的概率
grande→house,具有0.5的概率
grande→big,具有0.5的概率
casa→house,具有0.5的概率
casa→big,具有0.5的概率
想象用户现在用项“casa”查询该搜索引擎。同时,该搜索引擎返回包含项“casa”的网页,并且也混合在仅包含项“house”的N个结果和仅包含项“big”的M个结果中。实际上,N和M可被调整,以考虑进映射的基础概率,从而,较不可能的映射将导致较少结果被显示。如果发现用户点击仅包含项“house”的结果多于他们点击仅包含项“big”的结果十次,则举例来说可将映射概率调整如下:
house→casa,具有0.9的概率
house→grande,具有0.1的概率
big→casa,具有0.1的概率
big→grande,具有0.9的概率
grande→house,具有0.1的概率
grande→big,具有0.9的概率
casa→house,具有0.9的概率
casa→big,具有0.1的概率
注意,实际数目取决于多个其它因子,例如点击被考虑进来的用户数量、点击包含这两项的网页数量、包含正在讨论的项的结果在结果集中的放置等。也应理解,在该实例中给出的调整的概率(即,0.1和0.9)仅为例示性目的。本领域的技术人员将理解,可以任何适当的方式执行例如上述等给与用户反馈的实际权重。
也应注意到,为了便于对用户反馈使用的说明,简化了前述实例。例如,在一些系统中,将可能使用从其它翻译获得的信息帮助执行给定翻译。例如,在刚呈现的实例中,即使项“house”仅出现在称为“big house”的锚文本中,仍可能确定与“house”映射到“grande”相比,“house”更恰当地映射到“casa”。例如,如果已经确定在充分大的数据集中(如果假定锚文本几乎不包含一列同义词),则“big”以非常大的概率映射到“grande”,接着house到casa映射仍比house到grande映射优先,即使包含“house”或“casa”的锚文本是不确定的也是如此。
通过检查用户查询会话历史,也可提高翻译精度和/或搜索结果的有用性。例如,在许多情形下,该系统将知道(例如,通过储存在服务器处的用户帐户中的cookie或信息知道)用户已输入的先前的查询。该历史数据可用于对来自该用户的查询的可能感觉(sense)分级,从而从与飞行相关的查询潜在消除用于与捕鱼有关的查询的“bank”。因此,该过程可用于缩小可能的翻译集合。在一些实施例中,通过在用户界面中结合例如“Did you mean to search for X”(这里“X”是指预算的翻译优先级)显示它们,该系统可建议这些,同时也在结果的第一网页中潜在显示来自每个可能的再阐述(reformulation)的少量结果。当用户选择由“Did you mean”显示建议的可选对象或呈现在结果网页上的结果的其中之一时,该系统将获得有关查询词的可能翻译以及用户的可能搜索偏爱的另外的证据(evidence)。接着这两种信号都可被系统使用来更新项映射(例如,在该概率词典中)的可能分数,二者均在一般的情形下以及用户专用的情形下。
D.结论
如上面详细描述的,根据本发明的方法和系统可用于提供响应于模糊搜索查询的搜索结果和/或将项翻译成其它字符集合/或语言。已经描述了多种翻译和搜索技术。然而,将理解,为了例示目的呈现前面的描述,且根据上面的描述或通过实施本发明,多种修改和改变都是可能的。例如,尽管上面的描述基于客户机-服务器架构,但本领域的技术人员将认识到,根据本发明也可使用对等式架构。此外,尽管所描述的实施方式包括软件,但本发明可作为硬件和软件的组合或硬件自身实现。另外,尽管以储存在存储器中为例描述了本发明的各方面,但本领域的技术人员将理解,这些方面也可储存在其它类型的计算机可读介质上,例如象硬盘、软盘、或CD-ROM等辅助存储装置;来自互联网的载波;或其它RAM或ROM形式。因此,本发明的范围由权利要求书及其等同物限定。
Claims (45)
1.一种方法,包括:
识别第一组锚文本,所述第一组锚文本以第一格式写成并且包含给定项;
识别一组文档,所述第一组锚文本指向所述组文档;
识别第二组锚文本,所述第二组锚文本以第二格式写成并且指向所识别的所述组文档;
分析所述第二组锚文本,以确定具有第一格式的给定项的呈现对应于具有第二格式的给定项的呈现。
2.根据权利要求1所述的方法,其中所述第一格式包括第一字符集,且所述第二格式包括第二字符集。
3.根据权利要求1所述的方法,其中所述第一格式包括第一语言,且所述第二格式包括第二语言。
4.根据权利要求1所述的方法,其中分析所述第二组锚文本包括识别最频繁出现在所述第二组锚文本中的项,并且将所述最频繁出现的项指定为所述具有第二格式的给定项的呈现。
5.根据权利要求1所述的方法,其中分析所述第二组锚文本包括:
计算所述给定项对应于所述第二组锚文本中的项的概率。
6.根据权利要求5所述的方法,其中使用贝叶斯方法、直方图平滑、核平滑、和收缩估算量的至少之一获得所述概率。
7.根据权利要求5所述的方法,其中通过用所述第二组锚文本中的所有项的出现总数除所述第二组锚文本中的所述给定项的出现数量,得到所述给定项对应于所述第二组锚文本中的项的概率。
8.根据权利要求1所述的方法,其中分析所述第二组锚文本包括:
计算所述给定项对应于所述第二组锚文本中的每个项的概率。
9.根据权利要求1所述的方法,其中分析所述第二组锚文本包括:
识别最频繁出现在所述第二组锚文本中的项。
10.根据权利要求2所述的方法,其中所述第一格式选自包括romaji、romaja、和拼音的组;并且其中所述第二字符集选自包括katakana、hiragana、kanji、hangul、hanja、和传统汉字的组。
11.根据权利要求1所述的方法,其中所述文档包括网页。
12.根据权利要求1所述的方法,进一步包括:
获得查询,所述查询以所述第一格式写成并且包含所述给定项;
至少部分基于所述分析步骤将所述查询翻译成所述第二格式;
为了以所述第二格式写成的响应于所述翻译的查询的信息搜索数据库。
13.根据权利要求12所述的方法,其中以列举的次序执行所述步骤。
14.一种搜索方法,包括:
获得来自用户的以第一格式写成的查询;
使用概率词典将所述查询翻译成第二格式,所述概率词典将项从所述第一格式映射到所述第二格式;
为了响应于所述被翻译的查询的信息搜索数据库;以及将以所述第二格式写成的搜索结果返回给所述用户。
15.根据权利要求14所述的搜索方法,进一步包括:
获得来自所述用户的搜索结果选择;
使用所述搜索结果选择来修改项映射的概率词典。
16.根据权利要求15所述的搜索方法,其中所述修改包括调整所述概率词典中与至少一个映射有关的至少一个概率。
17.根据权利要求14所述的搜索方法,其中所述将所述查询翻译成所述第二格式的步骤包括扩展所述查询。
18.根据权利要求17所述的搜索方法,其中所扩展的查询包括所述查询项的可选编码。
19.根据权利要求17所述的搜索方法,其中所扩展的查询包括所述查询项的可选语言翻译。
20.根据权利要求17所述的搜索方法,其中所扩展的查询包括所述查询项的可选编码和可选语言翻译。
21.根据权利要求18所述的搜索方法,其中所扩展的查询包括所述查询项的所述可选编码的同义词。
22.一种用于创建概率词典的方法,所述概率词典用于将具有第一格式的项映射成具有第二格式的项,所述方法包括:
对于给定项,识别包含所述项的具有所述第一格式的第一组数据;
识别与所述第一组数据对齐的具有所述第二格式的第二组数据;以及
分析所述第二组数据,以确定所述给定项映射到所述第二组数据中的一个或多个项上的一个或多个概率。
23.根据权利要求22所述的方法,进一步包括:
将所述给定项与所述给定项映射到所述第二组数据中的一个或多个项上的一个或多个概率一起添加到所述词典。
24.根据权利要求23所述的方法,进一步包括:
对于将要添加到所述词典的每个项,重复所述识别第一组数据、识别第二组数据、和分析所述第二组数据的步骤。
25.根据权利要求22所述的方法,其中所述第一组数据包括指向一组一个或多个网页的第一组锚文本,并且其中所述第二组数据包括指向该相同组一个或多个网页的第二组锚文本。
26.根据权利要求22所述的方法,其中所述第一组数据包括一组以第一语言写成的文本,且其中所述第二组数据包括以第二语言写成的同组文本。
27.根据权利要求22所述的方法,其中通过用所述第二组数据中的项的总数除所述第二组数据中的所述给定项的出现数量,计算所述给定项映射到所述第二组数据中的项上的概率
28.根据权利要求22所述的方法,进一步包括:
至少部分基于对搜索结果的用户选择的分析,修改所述给定项映射到所述第二组数据中的项上的概率。
29.根据权利要求22所述的方法,进一步包括:
至少部分基于对用户先前的查询的分析,修改所述给定项映射到所述第二组数据中的项上的概率。
30.一种载在计算机可读介质上的计算机程序产品,所述计算机程序产品包括在由计算机系统执行时能使得所述计算机系统执行以下动作的指令:
识别第一组锚文本,所述第一组锚文本以第一格式写成并且包含给定项;
识别所述第一组锚文本指向的一组网页;
识别第二组锚文本,所述第二组锚文本以第二格式写成并且指向所识别的该组网页;
确定具有所述第一格式的给定项的呈现对应于具有第二格式的给定项的呈现的概率。
31.根据权利要求30所述的计算机程序产品,进一步包括在由计算机系统执行时能使得所述计算机系统执行以下动作的指令:
至少部分基于对搜索结果的用户选择的分析,修改具有所述第一格式的所述给定项的呈现对应于具有所述第二格式的所述给定项的呈现的概率。
32.根据权利要求30所述的计算机程序产品,进一步包括在由计算机系统执行时能使得所述计算机系统执行以下动作的指令:
至少部分基于对用户先前的查询的分析,修改具有所述第一格式的所述给定项的呈现对应于具有所述第二格式的所述给定项的呈现的概率。
33.根据权利要求30所述的计算机程序产品,其中至少部分使用贝叶斯方法、直方图平滑、核平滑、和收缩估算量的至少之一确定所述概率。
34.一种翻译方法,包括:
识别以第一格式写成的第一文本体;
识别以第二格式写成的第二文本体,所述第二文本体与所述第一文本体对齐;
通过将所述第一文本体中的项的出现与所述第二文本体中的项的出现进行比较,在所述第一文本体中的项和所述第二文本体中的项之间创建翻译词典。
35.根据权利要求34所述的翻译方法,其中所述翻译词典包括一个或多个与所述翻译相关联的概率。
36.根据权利要求34所述的翻译方法,其中所述第一格式包括第一字符集,且所述第二格式包括第二字符集。
37.根据权利要求34所述的翻译方法,其中所述第一格式包括第一语言,且所述第二格式包括第二语言。
38.根据权利要求34所述的翻译方法,其中所述第一文本体包括锚文本,且所述第二文本体包括锚文本。
39.一种方法,包括:
接收包含以第一格式写成的至少一个查询项的查询;
将所述查询项翻译成以第二格式写成的多个变异体;
使用一个或多个变异体搜索响应于所述查询的以第二格式写成的信息。
40.根据权利要求39所述的方法,其中所述第一格式包括从电话键盘输入的数字序列;其中所述第二格式包括字母数字文本。
41.根据权利要求39所述的方法,进一步包括:
通过丢弃所述多个变异体中不是预定索引词表的部分的变异体,获得所述一个或多个变异体。
42.根据权利要求39所述的方法,进一步包括:
通过丢弃所述多个变异体中包含预定低概率字符集合的变异体,获得所述一个或多个变异体。
43.根据权利要求39所述的方法,其中所述第一格式包括以选自包括romaji、romaja、和拼音的组的字符集写成的字母数字文本;且其中所述第二格式包括以选自包括kanji、katakana、hiragana、hangul、hanja、和传统汉字的组的字符集写成的字母数字文本。
44.一种方法,包括:
接收从电话键盘输入的数字查询;
将所述数字查询翻译成一组具有第一格式的潜在字母数字译文;
丢弃被确定为包括预定低概率字符组合的潜在译文;
使用概率词典将剩余的字母数字译文从所述第一格式翻译成第二格式;以及
使用具有所述第二格式的所述字母数字译文执行搜索。
45.根据权利要求44所述的方法,其中所述第一格式包括以选自包括romaji、romaja、和拼音的组的字符集写成的文本;且其中所述第二格式包括以选自包括kanji、katakana、hiragana、hangul、hanja、和传统汉字的组的字符集写成的文本。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/676,724 US8706747B2 (en) | 2000-07-06 | 2003-09-30 | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
US10/676,724 | 2003-09-30 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101331474A Division CN102236702B (zh) | 2003-09-30 | 2004-09-13 | 计算机执行的方法和使用查询执行搜索的系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1860473A true CN1860473A (zh) | 2006-11-08 |
Family
ID=34422117
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800285354A Pending CN1860473A (zh) | 2003-09-30 | 2004-09-13 | 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法 |
CN2011101331474A Active CN102236702B (zh) | 2003-09-30 | 2004-09-13 | 计算机执行的方法和使用查询执行搜索的系统及设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101331474A Active CN102236702B (zh) | 2003-09-30 | 2004-09-13 | 计算机执行的方法和使用查询执行搜索的系统及设备 |
Country Status (13)
Country | Link |
---|---|
US (3) | US8706747B2 (zh) |
EP (3) | EP2043003A3 (zh) |
JP (4) | JP4717821B2 (zh) |
KR (4) | KR101242961B1 (zh) |
CN (2) | CN1860473A (zh) |
AT (1) | ATE426206T1 (zh) |
DE (1) | DE602004020086D1 (zh) |
ES (1) | ES2323786T3 (zh) |
HK (1) | HK1163846A1 (zh) |
PL (1) | PL2388709T3 (zh) |
RU (1) | RU2363983C2 (zh) |
TR (1) | TR201816343T4 (zh) |
WO (1) | WO2005033967A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493042A (zh) * | 2011-04-28 | 2014-01-01 | 乐天株式会社 | 浏览系统、终端机、图像服务器、程序、记录有程序的电脑可读取记录媒体及方法 |
CN105335357A (zh) * | 2015-11-18 | 2016-02-17 | 成都优译信息技术有限公司 | 翻译系统中语料推荐方法 |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136854B2 (en) * | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
US8706747B2 (en) | 2000-07-06 | 2014-04-22 | Google Inc. | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
CA2371731A1 (en) * | 2002-02-12 | 2003-08-12 | Cognos Incorporated | Database join disambiguation by grouping |
US8055669B1 (en) | 2003-03-03 | 2011-11-08 | Google Inc. | Search queries improved based on query semantic information |
US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
CN1890668A (zh) * | 2003-12-16 | 2007-01-03 | 思比驰盖尔公司 | 翻译机数据库 |
US20050138007A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Document enhancement method |
US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US8825591B1 (en) * | 2003-12-31 | 2014-09-02 | Symantec Operating Corporation | Dynamic storage mechanism |
US8655904B2 (en) * | 2004-02-11 | 2014-02-18 | Ebay, Inc. | Method and system to enhance data integrity in a database |
US7487145B1 (en) | 2004-06-22 | 2009-02-03 | Google Inc. | Method and system for autocompletion using ranked results |
US7836044B2 (en) | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
US8972444B2 (en) | 2004-06-25 | 2015-03-03 | Google Inc. | Nonstandard locality-based text entry |
US8392453B2 (en) | 2004-06-25 | 2013-03-05 | Google Inc. | Nonstandard text entry |
CA2569529C (en) * | 2004-06-29 | 2016-12-13 | Blake Bookstaff | Method and system for automated intelligent electronic advertising |
US7895218B2 (en) | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
US7499940B1 (en) | 2004-11-11 | 2009-03-03 | Google Inc. | Method and system for URL autocompletion using ranked results |
US20060106769A1 (en) * | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US8122034B2 (en) | 2005-06-30 | 2012-02-21 | Veveo, Inc. | Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count |
US10735576B1 (en) * | 2005-07-14 | 2020-08-04 | Binj Laboratories, Inc. | Systems and methods for detecting and controlling transmission devices |
US7779011B2 (en) | 2005-08-26 | 2010-08-17 | Veveo, Inc. | Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof |
US7788266B2 (en) | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
WO2007025119A2 (en) | 2005-08-26 | 2007-03-01 | Veveo, Inc. | User interface for visual cooperation between text input and display device |
US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
US7805455B2 (en) * | 2005-11-14 | 2010-09-28 | Invention Machine Corporation | System and method for problem analysis |
US7644054B2 (en) | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
US7895223B2 (en) * | 2005-11-29 | 2011-02-22 | Cisco Technology, Inc. | Generating search results based on determined relationships between data objects and user connections to identified destinations |
US7729901B2 (en) * | 2005-12-13 | 2010-06-01 | Yahoo! Inc. | System for classifying words |
US8010523B2 (en) | 2005-12-30 | 2011-08-30 | Google Inc. | Dynamic search box for web browser |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
US7792815B2 (en) | 2006-03-06 | 2010-09-07 | Veveo, Inc. | Methods and systems for selecting and presenting content based on context sensitive user preferences |
JP5057546B2 (ja) * | 2006-03-24 | 2012-10-24 | キヤノン株式会社 | 文書検索装置および文書検索方法 |
US8073860B2 (en) | 2006-03-30 | 2011-12-06 | Veveo, Inc. | Method and system for incrementally selecting and providing relevant search engines in response to a user query |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8255376B2 (en) * | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
WO2007124436A2 (en) | 2006-04-20 | 2007-11-01 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on relationships between the user and other members of an organization |
US8732314B2 (en) * | 2006-08-21 | 2014-05-20 | Cisco Technology, Inc. | Generation of contact information based on associating browsed content to user actions |
CA2989780C (en) | 2006-09-14 | 2022-08-09 | Veveo, Inc. | Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters |
US7925986B2 (en) | 2006-10-06 | 2011-04-12 | Veveo, Inc. | Methods and systems for a linear character selection display interface for ambiguous text input |
US7979425B2 (en) * | 2006-10-25 | 2011-07-12 | Google Inc. | Server-side match |
WO2008063987A2 (en) | 2006-11-13 | 2008-05-29 | Veveo, Inc. | Method of and system for selecting and presenting content based on user identification |
US8549424B2 (en) | 2007-05-25 | 2013-10-01 | Veveo, Inc. | System and method for text disambiguation and context designation in incremental search |
WO2008148009A1 (en) | 2007-05-25 | 2008-12-04 | Veveo, Inc. | Method and system for unified searching across and within multiple documents |
ITTO20070508A1 (it) * | 2007-07-11 | 2009-01-12 | Selex Communications Spa | Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici |
US20090083243A1 (en) * | 2007-09-21 | 2009-03-26 | Google Inc. | Cross-language search |
US8725756B1 (en) | 2007-11-12 | 2014-05-13 | Google Inc. | Session-based query suggestions |
US8232973B2 (en) | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
US8312032B2 (en) | 2008-07-10 | 2012-11-13 | Google Inc. | Dictionary suggestions for partial user entries |
US8666730B2 (en) | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
US8275604B2 (en) | 2009-03-18 | 2012-09-25 | Microsoft Corporation | Adaptive pattern learning for bilingual data mining |
US8577910B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
US8577909B1 (en) * | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
US8538957B1 (en) | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
WO2010139277A1 (en) | 2009-06-03 | 2010-12-09 | Google Inc. | Autocompletion for partially entered query |
US20150261858A1 (en) * | 2009-06-29 | 2015-09-17 | Google Inc. | System and method of providing information based on street address |
US9870572B2 (en) | 2009-06-29 | 2018-01-16 | Google Llc | System and method of providing information based on street address |
KR101083540B1 (ko) * | 2009-07-08 | 2011-11-14 | 엔에이치엔(주) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 |
US9166714B2 (en) | 2009-09-11 | 2015-10-20 | Veveo, Inc. | Method of and system for presenting enriched video viewing analytics |
US20110191330A1 (en) | 2010-02-04 | 2011-08-04 | Veveo, Inc. | Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior |
US8577915B2 (en) | 2010-09-10 | 2013-11-05 | Veveo, Inc. | Method of and system for conducting personalized federated search and presentation of results therefrom |
US20140379680A1 (en) * | 2010-09-21 | 2014-12-25 | Qiliang Chen | Generating search query suggestions |
US20120167009A1 (en) * | 2010-12-22 | 2012-06-28 | Apple Inc. | Combining timing and geometry information for typing correction |
CN102737015A (zh) * | 2011-04-07 | 2012-10-17 | 英业达股份有限公司 | 具即时翻译的写作系统及其写作方法 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US9313219B1 (en) * | 2014-09-03 | 2016-04-12 | Trend Micro Incorporated | Detection of repackaged mobile applications |
RU2580432C1 (ru) | 2014-10-31 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем |
RU2610280C2 (ru) | 2014-10-31 | 2017-02-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ авторизации пользователя в сети и сервер, используемый в нем |
KR102244110B1 (ko) | 2015-02-17 | 2021-04-26 | 삼성전자주식회사 | 이종 언어간 동일성을 판단하는 전자 장치 및 방법 |
US9762385B1 (en) | 2015-07-20 | 2017-09-12 | Trend Micro Incorporated | Protection of program code of apps of mobile computing devices |
CN105069171B (zh) * | 2015-08-31 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 汉字查询方法和系统 |
US9916448B1 (en) | 2016-01-21 | 2018-03-13 | Trend Micro Incorporated | Detection of malicious mobile apps |
US10169414B2 (en) | 2016-04-26 | 2019-01-01 | International Business Machines Corporation | Character matching in text processing |
US9760627B1 (en) * | 2016-05-13 | 2017-09-12 | International Business Machines Corporation | Private-public context analysis for natural language content disambiguation |
US10375576B1 (en) | 2016-09-09 | 2019-08-06 | Trend Micro Incorporated | Detection of malware apps that hijack app user interfaces |
US10614109B2 (en) * | 2017-03-29 | 2020-04-07 | International Business Machines Corporation | Natural language processing keyword analysis |
CN110546603A (zh) * | 2017-04-25 | 2019-12-06 | 惠普发展公司,有限责任合伙企业 | 机器学习命令交互 |
US10831801B2 (en) | 2017-05-12 | 2020-11-10 | International Business Machines Corporation | Contextual-based high precision search for mail systems |
US10387576B2 (en) * | 2017-11-30 | 2019-08-20 | International Business Machines Corporation | Document preparation with argumentation support from a deep question answering system |
CN110111793B (zh) * | 2018-02-01 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 音频信息的处理方法、装置、存储介质及电子装置 |
JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
KR102637340B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 문장 매핑 방법 및 장치 |
US11250221B2 (en) * | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
US11308096B2 (en) * | 2019-03-29 | 2022-04-19 | Rovi Guides, Inc. | Bias quotient measurement and debiasing for recommendation engines |
JP7238199B2 (ja) | 2019-07-04 | 2023-03-13 | キヤノン株式会社 | テレコンバータレンズ、レンズ装置、および、撮像装置 |
JP7171519B2 (ja) | 2019-07-04 | 2022-11-15 | キヤノン株式会社 | テレコンバータレンズ、レンズ装置、および、撮像装置 |
US11227101B2 (en) * | 2019-07-05 | 2022-01-18 | Open Text Sa Ulc | System and method for document translation in a format agnostic document viewer |
CN111368557B (zh) * | 2020-03-06 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 视频内容的翻译方法、装置、设备及计算机可读介质 |
US11458409B2 (en) * | 2020-05-27 | 2022-10-04 | Nvidia Corporation | Automatic classification and reporting of inappropriate language in online applications |
Family Cites Families (168)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4674112A (en) * | 1985-09-06 | 1987-06-16 | Board Of Regents, The University Of Texas System | Character pattern recognition and communications apparatus |
US4754474A (en) * | 1985-10-21 | 1988-06-28 | Feinson Roy W | Interpretive tone telecommunication method and apparatus |
EP0444358B1 (en) * | 1990-02-27 | 1998-08-19 | Oracle Corporation | Dynamic optimization of a single relation access |
KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
RU2039376C1 (ru) | 1991-11-01 | 1995-07-09 | Сергей Станиславович Ковалевский | Устройство для информационного поиска |
US5535119A (en) | 1992-06-11 | 1996-07-09 | Hitachi, Ltd. | Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same |
US5337347A (en) * | 1992-06-25 | 1994-08-09 | International Business Machines Corporation | Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input |
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
GB2272091B (en) | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
JP3919237B2 (ja) * | 1994-05-20 | 2007-05-23 | キヤノン株式会社 | 画像記録再生装置、画像再生装置、及びその方法 |
US5543789A (en) * | 1994-06-24 | 1996-08-06 | Shields Enterprises, Inc. | Computerized navigation system |
WO1996010795A1 (en) * | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
US5758145A (en) * | 1995-02-24 | 1998-05-26 | International Business Machines Corporation | Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries |
JP3571408B2 (ja) | 1995-03-31 | 2004-09-29 | 株式会社日立製作所 | 文書加工方法および装置 |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5701469A (en) | 1995-06-07 | 1997-12-23 | Microsoft Corporation | Method and system for generating accurate search results using a content-index |
AU5969896A (en) * | 1995-06-07 | 1996-12-30 | International Language Engineering Corporation | Machine assisted translation tools |
US5818437A (en) * | 1995-07-26 | 1998-10-06 | Tegic Communications, Inc. | Reduced keyboard disambiguating computer |
CA2227904C (en) * | 1995-07-26 | 2000-11-14 | Tegic Communications, Inc. | Reduced keyboard disambiguating system |
US5634053A (en) * | 1995-08-29 | 1997-05-27 | Hughes Aircraft Company | Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases |
JP3819959B2 (ja) * | 1996-03-27 | 2006-09-13 | シャープ株式会社 | 音声による情報検索装置 |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5778157A (en) * | 1996-06-17 | 1998-07-07 | Yy Software Corporation | System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation |
US5845273A (en) | 1996-06-27 | 1998-12-01 | Microsoft Corporation | Method and apparatus for integrating multiple indexed files |
US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
US5832480A (en) * | 1996-07-12 | 1998-11-03 | International Business Machines Corporation | Using canonical forms to develop a dictionary of names in a text |
US5953073A (en) * | 1996-07-29 | 1999-09-14 | International Business Machines Corp. | Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same |
US5745894A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for generating and searching a range-based index of word-locations |
US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
JPH10247201A (ja) * | 1997-03-05 | 1998-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 情報評価値付き情報案内システム |
US6278992B1 (en) * | 1997-03-19 | 2001-08-21 | John Andrew Curtis | Search engine using indexing method for storing and retrieving data |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6061718A (en) * | 1997-07-23 | 2000-05-09 | Ericsson Inc. | Electronic mail delivery system in wired or wireless communications system |
US6055528A (en) | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
JP2965010B2 (ja) * | 1997-08-30 | 1999-10-18 | 日本電気株式会社 | 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
EP1018069B1 (en) * | 1997-09-25 | 2002-07-24 | Tegic Communications, Inc. | Reduced keyboard disambiguating system |
US6026411A (en) * | 1997-11-06 | 2000-02-15 | International Business Machines Corporation | Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors |
US6377965B1 (en) * | 1997-11-07 | 2002-04-23 | Microsoft Corporation | Automatic word completion system for partially entered data |
US5945928A (en) * | 1998-01-20 | 1999-08-31 | Tegic Communication, Inc. | Reduced keyboard disambiguating system for the Korean language |
KR100313462B1 (ko) * | 1998-01-23 | 2001-12-31 | 윤종용 | 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법 |
US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US5974121A (en) * | 1998-05-14 | 1999-10-26 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
GB2337611A (en) * | 1998-05-20 | 1999-11-24 | Sharp Kk | Multilingual document retrieval system |
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US6470333B1 (en) * | 1998-07-24 | 2002-10-22 | Jarg Corporation | Knowledge extraction system and method |
US6226635B1 (en) * | 1998-08-14 | 2001-05-01 | Microsoft Corporation | Layered query management |
US6370518B1 (en) * | 1998-10-05 | 2002-04-09 | Openwave Systems Inc. | Method and apparatus for displaying a record from a structured database with minimum keystrokes |
US7194679B1 (en) * | 1998-10-20 | 2007-03-20 | International Business Machines Corporation | Web-based file review system utilizing source and comment files |
IE980941A1 (en) * | 1998-11-16 | 2000-05-17 | Buy Tel Innovations Ltd | A transaction processings system |
JP2000163441A (ja) | 1998-11-30 | 2000-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム |
JP3842913B2 (ja) * | 1998-12-18 | 2006-11-08 | 富士通株式会社 | 文字通信方法及び文字通信システム |
GB2347247A (en) * | 1999-02-22 | 2000-08-30 | Nokia Mobile Phones Ltd | Communication terminal with predictive editor |
US20020038308A1 (en) * | 1999-05-27 | 2002-03-28 | Michael Cappi | System and method for creating a virtual data warehouse |
US6421662B1 (en) * | 1999-06-04 | 2002-07-16 | Oracle Corporation | Generating and implementing indexes based on criteria set forth in queries |
US6598039B1 (en) | 1999-06-08 | 2003-07-22 | Albert-Inc. S.A. | Natural language interface for searching database |
US20010003184A1 (en) * | 1999-07-16 | 2001-06-07 | Ching Jamison K. | Methods and articles of manufacture for interfacing, advertising and navigating with internet television |
CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US6606486B1 (en) * | 1999-07-29 | 2003-08-12 | Ericsson Inc. | Word entry method for mobile originated short messages |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6353820B1 (en) * | 1999-09-29 | 2002-03-05 | Bull Hn Information Systems Inc. | Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager |
US6484179B1 (en) | 1999-10-25 | 2002-11-19 | Oracle Corporation | Storing multidimensional data in a relational database management system |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6675165B1 (en) | 2000-02-28 | 2004-01-06 | Barpoint.Com, Inc. | Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7177798B2 (en) * | 2000-04-07 | 2007-02-13 | Rensselaer Polytechnic Institute | Natural language interface using constrained intermediate dictionary of results |
US6564213B1 (en) | 2000-04-18 | 2003-05-13 | Amazon.Com, Inc. | Search query autocompletion |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US6714905B1 (en) * | 2000-05-02 | 2004-03-30 | Iphrase.Com, Inc. | Parsing ambiguous grammar |
JP2001325252A (ja) | 2000-05-12 | 2001-11-22 | Sony Corp | 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体 |
US6456234B1 (en) | 2000-06-07 | 2002-09-24 | William J. Johnson | System and method for proactive content delivery by situation location |
JP3686312B2 (ja) * | 2000-07-05 | 2005-08-24 | 日本電信電話株式会社 | 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体 |
US8706747B2 (en) | 2000-07-06 | 2014-04-22 | Google Inc. | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
US6529903B2 (en) * | 2000-07-06 | 2003-03-04 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
US7136854B2 (en) * | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
WO2002009302A1 (en) | 2000-07-25 | 2002-01-31 | Cypus | Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same |
US6968179B1 (en) | 2000-07-27 | 2005-11-22 | Microsoft Corporation | Place specific buddy list services |
US20020021311A1 (en) * | 2000-08-14 | 2002-02-21 | Approximatch Ltd. | Data entry using a reduced keyboard |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
GB2366698A (en) * | 2000-09-01 | 2002-03-13 | Nokia Mobile Phones Ltd | Insertion of pre-stored text strings |
JP2002092018A (ja) | 2000-09-18 | 2002-03-29 | Nec Software Hokkaido Ltd | 片仮名平仮名も含めた検索システム |
CA2323856A1 (en) * | 2000-10-18 | 2002-04-18 | 602531 British Columbia Ltd. | Method, system and media for entering data in a personal computing device |
US20060149686A1 (en) * | 2000-11-30 | 2006-07-06 | Allison Debonnett | Method of payment and settlement of goods and services via the INTERNET |
US7028306B2 (en) | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
JP2002215660A (ja) * | 2001-01-16 | 2002-08-02 | Mitsubishi Heavy Ind Ltd | 検索システム及びこれに用いられるソフトウェア |
JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
GB0103053D0 (en) * | 2001-02-07 | 2001-03-21 | Nokia Mobile Phones Ltd | A communication terminal having a predictive text editor application |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
JP2002251410A (ja) | 2001-02-26 | 2002-09-06 | Sharp Corp | 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体 |
JP3764058B2 (ja) * | 2001-03-01 | 2006-04-05 | 株式会社東芝 | 翻訳装置、翻訳方法及び翻訳プログラム |
JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
US7231381B2 (en) * | 2001-03-13 | 2007-06-12 | Microsoft Corporation | Media content search engine incorporating text content and user log mining |
US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
US7103534B2 (en) * | 2001-03-31 | 2006-09-05 | Microsoft Corporation | Machine learning contextual approach to word determination for text input via reduced keypad keys |
KR20020084739A (ko) | 2001-05-02 | 2002-11-11 | 이재원 | 숫자입력을 이용한 인터넷 검색 및 접속 방법 |
GB0111012D0 (en) * | 2001-05-04 | 2001-06-27 | Nokia Corp | A communication terminal having a predictive text editor application |
US7366712B2 (en) | 2001-05-31 | 2008-04-29 | Intel Corporation | Information retrieval center gateway |
US6947770B2 (en) * | 2001-06-22 | 2005-09-20 | Ericsson, Inc. | Convenient dialing of names and numbers from a phone without alpha keypad |
US20030035519A1 (en) * | 2001-08-15 | 2003-02-20 | Warmus James L. | Methods and apparatus for accessing web content from a wireless telephone |
JP3895955B2 (ja) * | 2001-08-24 | 2007-03-22 | 株式会社東芝 | 情報検索方法および情報検索システム |
US20030054830A1 (en) * | 2001-09-04 | 2003-03-20 | Zi Corporation | Navigation system for mobile communication devices |
US6944609B2 (en) * | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
KR100501079B1 (ko) | 2001-11-12 | 2005-07-18 | 주식회사 아이니드 | 네트워크 기반의 유사어 검색기술 응용시스템 및 방법 |
US7533093B2 (en) | 2001-11-13 | 2009-05-12 | Koninklijke Philips Electronics N.V. | Method and apparatus for evaluating the closeness of items in a recommender of such items |
US7149550B2 (en) * | 2001-11-27 | 2006-12-12 | Nokia Corporation | Communication terminal having a text editor application with a word completion feature |
US6785654B2 (en) * | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US7283992B2 (en) * | 2001-11-30 | 2007-10-16 | Microsoft Corporation | Media agent to suggest contextually related media content |
US20030125947A1 (en) * | 2002-01-03 | 2003-07-03 | Yudkowsky Michael Allen | Network-accessible speaker-dependent voice models of multiple persons |
US7565367B2 (en) * | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
US6952691B2 (en) | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
US7167831B2 (en) * | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
ATE295567T1 (de) | 2002-03-22 | 2005-05-15 | Sony Ericsson Mobile Comm Ab | Texteingabe in ein elektronisches kommunikationsgerät |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
JP2004054918A (ja) * | 2002-05-30 | 2004-02-19 | Osaka Industrial Promotion Organization | 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体 |
US7013154B2 (en) * | 2002-06-27 | 2006-03-14 | Motorola, Inc. | Mapping text and audio information in text messaging devices and methods therefor |
US7103854B2 (en) * | 2002-06-27 | 2006-09-05 | Tele Atlas North America, Inc. | System and method for associating text and graphical views of map information |
RU2316040C2 (ru) * | 2002-07-01 | 2008-01-27 | Сони Эрикссон Мобайл Коммьюникейшнз Аб | Ввод текста в электронное устройство связи |
US7386442B2 (en) * | 2002-07-03 | 2008-06-10 | Word Data Corp. | Code, system and method for representing a natural-language text in a form suitable for text manipulation |
US7016895B2 (en) * | 2002-07-05 | 2006-03-21 | Word Data Corp. | Text-classification system and method |
DE60330149D1 (de) | 2002-07-23 | 2009-12-31 | Research In Motion Ltd | Systeme und verfahren zur erstellung und verwendung von angepassten wörterlisten |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US20040163032A1 (en) * | 2002-12-17 | 2004-08-19 | Jin Guo | Ambiguity resolution for predictive text entry |
GB2396529B (en) * | 2002-12-20 | 2005-08-10 | Motorola Inc | Location-based mobile service provision |
BR0215994A (pt) * | 2002-12-27 | 2005-11-01 | Nokia Corp | Terminal móvel, e, método de compressão de dados e de entrada de texto preditivo em um terminal móvel |
US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7369988B1 (en) * | 2003-02-24 | 2008-05-06 | Sprint Spectrum L.P. | Method and system for voice-enabled text entry |
FI116168B (fi) * | 2003-03-03 | 2005-09-30 | Flextronics Odm Luxembourg Sa | Datan syöttö |
US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
KR100563787B1 (ko) | 2003-04-03 | 2006-03-30 | 주식회사 시티기술단 | 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법 |
KR100515641B1 (ko) | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
US8200865B2 (en) * | 2003-09-11 | 2012-06-12 | Eatoni Ergonomics, Inc. | Efficient method and apparatus for text entry based on trigger sequences |
GB2433002A (en) * | 2003-09-25 | 2007-06-06 | Canon Europa Nv | Processing of Text Data involving an Ambiguous Keyboard and Method thereof. |
US7240049B2 (en) * | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US20050114312A1 (en) * | 2003-11-26 | 2005-05-26 | Microsoft Corporation | Efficient string searches using numeric keypad |
US20050188330A1 (en) * | 2004-02-20 | 2005-08-25 | Griffin Jason T. | Predictive text input system for a mobile communication device |
US7293019B2 (en) | 2004-03-02 | 2007-11-06 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US7218249B2 (en) | 2004-06-08 | 2007-05-15 | Siemens Communications, Inc. | Hand-held communication device having navigation key-based predictive text entry |
US8595687B2 (en) | 2004-06-23 | 2013-11-26 | Broadcom Corporation | Method and system for providing text information in an application framework for a wireless device |
US8972444B2 (en) | 2004-06-25 | 2015-03-03 | Google Inc. | Nonstandard locality-based text entry |
US8392453B2 (en) | 2004-06-25 | 2013-03-05 | Google Inc. | Nonstandard text entry |
US20060212441A1 (en) * | 2004-10-25 | 2006-09-21 | Yuanhua Tang | Full text query and search systems and methods of use |
US7779011B2 (en) | 2005-08-26 | 2010-08-17 | Veveo, Inc. | Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof |
WO2007025119A2 (en) | 2005-08-26 | 2007-03-01 | Veveo, Inc. | User interface for visual cooperation between text input and display device |
US7788266B2 (en) * | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
US20070061211A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Preventing mobile communication facility click fraud |
US9471925B2 (en) * | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
US7647228B2 (en) | 2005-11-03 | 2010-01-12 | Apptera, Inc. | Method and apparatus for speech processing incorporating user intent |
JP2007141123A (ja) * | 2005-11-22 | 2007-06-07 | Internatl Business Mach Corp <Ibm> | 異なるファイルの同一文字列のリンク |
US7644054B2 (en) * | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
EP1952285B1 (en) * | 2005-11-23 | 2010-09-08 | Dun & Bradstreet, Inc. | System and method for searching and matching data having ideogrammatic content |
US20070195063A1 (en) * | 2006-02-21 | 2007-08-23 | Wagner Paul T | Alphanumeric data processing in a telephone |
US7792815B2 (en) | 2006-03-06 | 2010-09-07 | Veveo, Inc. | Methods and systems for selecting and presenting content based on context sensitive user preferences |
WO2007124436A2 (en) * | 2006-04-20 | 2007-11-01 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on relationships between the user and other members of an organization |
CA2989780C (en) * | 2006-09-14 | 2022-08-09 | Veveo, Inc. | Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters |
US7979425B2 (en) * | 2006-10-25 | 2011-07-12 | Google Inc. | Server-side match |
KR20100041145A (ko) * | 2008-10-13 | 2010-04-22 | 삼성전자주식회사 | 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법 |
US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
US20130304818A1 (en) * | 2009-12-01 | 2013-11-14 | Topsy Labs, Inc. | Systems and methods for discovery of related terms for social media content collection over social networks |
-
2003
- 2003-09-30 US US10/676,724 patent/US8706747B2/en not_active Expired - Fee Related
-
2004
- 2004-09-13 TR TR2018/16343T patent/TR201816343T4/tr unknown
- 2004-09-13 EP EP09151235A patent/EP2043003A3/en not_active Ceased
- 2004-09-13 EP EP11172796.2A patent/EP2388709B1/en active Active
- 2004-09-13 EP EP04783836A patent/EP1676211B1/en active Active
- 2004-09-13 AT AT04783836T patent/ATE426206T1/de not_active IP Right Cessation
- 2004-09-13 RU RU2006114696/09A patent/RU2363983C2/ru active
- 2004-09-13 JP JP2006533909A patent/JP4717821B2/ja active Active
- 2004-09-13 CN CNA2004800285354A patent/CN1860473A/zh active Pending
- 2004-09-13 ES ES04783836T patent/ES2323786T3/es active Active
- 2004-09-13 CN CN2011101331474A patent/CN102236702B/zh active Active
- 2004-09-13 WO PCT/US2004/029772 patent/WO2005033967A2/en active Application Filing
- 2004-09-13 KR KR1020127005744A patent/KR101242961B1/ko active IP Right Grant
- 2004-09-13 KR KR1020117020834A patent/KR20110117219A/ko active IP Right Grant
- 2004-09-13 KR KR1020067006282A patent/KR101140187B1/ko active IP Right Grant
- 2004-09-13 DE DE602004020086T patent/DE602004020086D1/de active Active
- 2004-09-13 PL PL11172796T patent/PL2388709T3/pl unknown
- 2004-09-13 KR KR1020117020833A patent/KR101261158B1/ko active IP Right Grant
-
2010
- 2010-07-15 JP JP2010161104A patent/JP5231491B2/ja active Active
-
2011
- 2011-02-07 JP JP2011024457A patent/JP5425820B2/ja active Active
-
2012
- 2012-04-25 HK HK12104074.7A patent/HK1163846A1/xx not_active IP Right Cessation
-
2013
- 2013-01-30 JP JP2013015114A patent/JP5608766B2/ja active Active
-
2014
- 2014-03-06 US US14/199,249 patent/US9734197B2/en not_active Expired - Lifetime
-
2017
- 2017-08-08 US US15/671,968 patent/US20170351673A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493042A (zh) * | 2011-04-28 | 2014-01-01 | 乐天株式会社 | 浏览系统、终端机、图像服务器、程序、记录有程序的电脑可读取记录媒体及方法 |
CN103493042B (zh) * | 2011-04-28 | 2016-04-06 | 乐天株式会社 | 浏览系统、图像服务器、及图像服务器执行的方法 |
CN105335357A (zh) * | 2015-11-18 | 2016-02-17 | 成都优译信息技术有限公司 | 翻译系统中语料推荐方法 |
CN105335357B (zh) * | 2015-11-18 | 2018-07-06 | 成都优译信息技术有限公司 | 翻译系统中语料推荐方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1860473A (zh) | 使用以不同的字符集和/或来自目标页面的语言写成的查询进行搜索的系统和方法 | |
CN101520786B (zh) | 一种输入法词典的实现方法和输入法系统 | |
US8745051B2 (en) | Resource locator suggestions from input character sequence | |
US8521761B2 (en) | Transliteration for query expansion | |
CN1133918C (zh) | 符号输入 | |
US20020152202A1 (en) | Method and system for retrieving information using natural language queries | |
US20120166182A1 (en) | Autocompletion for Partially Entered Query | |
WO2009000103A1 (en) | Word probability determination | |
JP2006004427A (ja) | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 | |
CN107408107A (zh) | 文本预测整合 | |
CN101425086A (zh) | 一种基于网络的词典查询方法及词典查询系统 | |
CN1383517A (zh) | 网络中智能信息处理的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20061108 |