CN1871597A - 利用一套消歧技术处理文本的系统和方法 - Google Patents
利用一套消歧技术处理文本的系统和方法 Download PDFInfo
- Publication number
- CN1871597A CN1871597A CNA2004800312332A CN200480031233A CN1871597A CN 1871597 A CN1871597 A CN 1871597A CN A2004800312332 A CNA2004800312332 A CN A2004800312332A CN 200480031233 A CN200480031233 A CN 200480031233A CN 1871597 A CN1871597 A CN 1871597A
- Authority
- CN
- China
- Prior art keywords
- implication
- text
- assembly
- word
- clear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Abstract
本发明涉及一种使用消歧组件来识别文本明确含义的处理自然语言文本的系统和方法。该方法包括将一组件选择应用于文本以识别文本处的明确含义。每一组都为文本处的明确含义提供了一个置信度和概率。使用多个文本处的明确含义的选择来确定明确含义。本发明还涉及一种生成词义标注文本的方法。该方法包括以下步骤:利用消歧组件对大量文档进行消歧;为所述组件所提供的词语识别一含义而生成一个置信度和概率值;如果该词含义的置信度低于设定的阈值,那么忽略该含义;如果该词含义的置信度高于设定阈值,那么把该含义加入词义标注文本。
Description
相关申请
本申请要求2003年8月21日提交的申请号为60/496,681的美国临时专利申请的优先权。
技术领域
本发明涉及自然语言文本(如查询因特网搜索引擎、网页和其它电子文档)的明确含义消除,以及消除语音至文本系统的文本输出的明确含义。
背景技术
词义明确含义消除是确定文本中词的含义的过程。例如,词语“bank”可以有“金融机构”、“堤防”和“飞机转弯”的含义(或其它含义)。当听到或看到自然表述的语言时,根据所述内容语境,人们会本能地选择每个词语的正确意思。一词义消歧器就是一种依赖计算机来完成这项任务的系统,是使计算机理解自然语言这项技术的一个关键组件。
词义消歧器应用于对其有需求的应用软件,或者应用于通过利用对文本消歧后的词义可以实现程序自身优化的应用程序。这类的软件包括但不限于:因特网搜索和其它信息检索软件;文档分类;机器翻译和语音识别。
本领域普通技术人员应理解:尽管人可以毫不费力的完成词义消歧,(这是理解自然语言的一个关键步骤),但是对于计算机来说,目前还没开发出具有足够精度的系统可应用于那些应用软件以解决普通文本中的词义消歧问题。即使是当前的高级词义消歧系统的精度也仅仅约33%,因此,对许多软件来说这样的结果太不精确。
因此,有必要提供一种应用于解决现有技术不足问题的词义消歧系统和方法。
发明内容
第一方面,提供了一种利用消歧组件确定文本的一个或多个明确含义来处理自然语言文本的方法。该方法包括将一组件选择应用于文本以确定文本处的明确含义。每一个组件都为文本处的明确含义提供了一个置信度和概率。通过选择多个文本处的明确含义来确定单个明确含义。
在本方法中,组件由一个中心模块来依次激活和控制。
本方法还包括确定第二组件选择,以进一步改进单个明确含义(或多个明确含义)。第二选择中,每个组件为文本的第二单个文本处的明确含义(或多个明确含义)提供了第二个置信度和第二个概率。通过第二多个文本处的明确含义选择来确定单个明确含义(或多个明确含义)。
在本方法中,在将第一选择应用于所述文本之后,并且在将第二选择应用于优化单个明确含义(或多个明确含义)之前,进一步消除明确含义中置信度低于所设阈值的含义。
在本方法中,当在第一和第二选择中都出现一个特定的组件时,当第二选择应用于文本时,调整其置信度和概率。
在本方法中,第一组件选择和第二组件选择可以相同。
在本方法中,利用每一组件的特性,由置信函数生成每一组件的置信度。
在本方法中,将用来确定单个文本处的明确含义(或多个明确含义)的组件选择应用于文本后,对于每个所选择的所述组件,为其明确含义生成一个概率分布。本方法还合并所述选择的所有概率分布。
在本方法中,所述组件选择根据所述文本的语境对文本进行消歧,所述语境由一领域、用户历史纪录和基本内容确定。
将所述组件选择应用于文本后,本方法利用所述单个明确含义(或多个明确含义)改进所述组件选择中的每一组件知识库。
在本方法中,至少有一个所述组件选择仅为提供粗略含义提供结果。
在本方法中,利用一种合并算法,可将所述组件选择的所有结果合并成一个结果。
在本方法中,所述过程可以利用含有合并粗略含义的第一阶段以及含有合并每一粗略含义组内精确含义的第二阶段。
在本方法中,合并程序可以利用加权概率分布总和,所述权重可以是和分布相关的置信度。此外,所述合并程序还可以包括加权平均置信度,而且所述权重也是和分布相关的置信度。
另一方面,一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的明确含义,所述方法包括步骤:为消歧过程指定一个精度目标;并将一所述多个消歧组件中的组件选择应用于满足精度目标。
另一方面,一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的明确含义,所述方法包括步骤:识别所述文本的一组含义;以及识别并从所述含义组中删除不需要的含义。
另一方面,一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的明确含义,所述方法包括步骤:识别所述文本的一组含义;以及识别并从所述含义组中删除大量的歧义。
再一方面,提供了一种生成词义标注文本的方法。所述方法包括以下步骤:利用消歧组件对大量文档进行歧;为所述组件提供的一词语的所识别的含义生成一个置信度和概率;如果所述词的所述含义的所述置信度低于设定的阈值,那么忽略所述含义;以及如果所述词的所述含义的所述置信度高于上述的设定阈值,那么将所述含义加入所述词义标注文本。
其它方面,提供上述方面集或子集的各种组合。
附图说明
本发明上述和其他方面将会根据下列其特定实施例和仅借助于实例说明本发明原理的附图说明而变得更加明显。在附图中,相同的附图标记表示相同的元素特征(并且其中单个元件带有唯一的字母后缀):
图1是和文本处理系统具体实施相关的词与词义的图示;
图2是用于图1系统中的一典型语义关系或词的图示;
图3是提供了词义消歧的文本处理系统具体实施的图示;
图4是一词义消歧模决、控制文件优化器和图3中文本处理系统的数据库元件的块状图;
图5是数据结构图,用来表示应用于图3系统的图2所示的语义关系;
图6是图3所用的具体实施方法执行的文本处理程序的流程图;
图7是图6文本处理过程中消歧步骤的流程图;
图8是图4中控制文件优化模块的数据流程图;及
图9是和图3文本处理系统相关的引导过程流程图。
具体实施方式
通过一个或多个示例和本发明原理中特定实施例提供下列说明及其所描述的实施例。提供这些例子目的在于解释而非限制本发明的原理。在以下的说明中,整个说明书和附图里用相同的附图标记分别标注相同的部件。
下列术语将在后续的说明中被使用,并具有以下所示的含义:
计算机可读存储介质:用来存储计算机指令或数据的硬件。例如,磁盘、磁带、诸如CD ROM那样的光学可读介质,以及诸如PCMCIA(个人计算机存储卡国际协会)卡那样的半导体存储器。在不同的情况下,该介质可以采取诸如小型磁盘、软盘、盒式磁带那样的便携物件形式,也可以采取诸如硬盘驱动器、固态存储卡或RAM那样的相对较大或固定的物件形式。
信息:包含可搜索的、用户感兴趣的内容的文档、网页、电子邮件、图像描述、抄本、存储文本等,例如,与新闻文章、新闻组消息、网络日志等有关的内容。
模块:执行特定步骤和/或处理过程的软件或硬件组件;可以在运行于通用处理器上的软件中实现。
自然语言:希望被人而非机器或计算机所理解的词语表达。
网络:配置为通过使用特定协议在通信信道上通信的设备的互联系统。其可以是一个局域网、广域网,因特网或通过通信线路运行或通过无线传输工作的类似网络。
查询:表明所求搜索结果的一系列关键词;可以使用布尔运算符(例如“与”、“或”);可以用自然语言表示。
文本:计算机或相关存储设备里以惯用形式表述的文本信息。除非特别限定,一般采用自然语言。
搜索引擎:响应用户查询,为用户提供其感兴趣的信息的搜索结果的硬件或软件组件。可以根据关联性排列和/或分类查询结果。
词义标注文本:用与文本中词义相关的单个词义或多个词义对部分或所有词语标记的文本。
词义标注语料库:是词义标注文本的集合。其中词义和可能语言信息如某些或所有词语的词性标注。各词义详述和其它语言信息的精度必须和词典编纂人所获的相似。因此,如果由机器生成词义标注文本,那么由机器标记的词义的精度必须和从事词义消歧的词典编纂人所做的标记相似。
所述处理信息为应用软件中的一个步骤,所述应用软件需要这一处理或通过利用文本中词义能得以改进。应用软件包括但不限于:
1.因特网搜索和别的信息检索应用软件;既用于为了更加明确用户请求消歧查询,也用于为了选择出较相关的结果消歧文档。当处理庞大的数据(如文档数据库或因特网上的网页)时,大量的可用数据导致难以找到相关信息。尝试用各种各样的搜索方法在这样的信息库中寻找相关信息。一些最知名的系统是因特网搜索引擎,如允许用户执行基于关键词搜索的Yahoo(商标)和Google(商标)。这些搜索通常包括将用户输入的关键词与网页索引中的关键词进行匹配。在执行这样的搜索时遭遇一些困难的一个原因是在自然语言中使用的词语的多义性。特别是,由于一个词语有几个含义,或者每个含义有多个同义词或解释,所以经常遭遇困难。例如,搜索引擎根据仅含“Java bean”这两个字的文档进行匹配,通过消歧,“Java bean”是“咖啡豆”的意思而不是由Sun Microsystems开发的计算机技术“Javabean”。消歧器会从结果中排除有关计算机技术的信息,同时会把有关咖啡豆的信息收入到结果中。
2.文档分类;参照其文本内容,根据准确含义标准把文档归类。例如,设想一种将电子邮件自动分类到相关用户指定主题的文件夹里的应用程序。这样的文件夹可能被称为“程序开发工具”,且其包含涉及任何形式“程序开发工具”的任何电子邮件。在该应用软件中用词义消歧会把不含匹配文件夹标题的词语但含有相关信息的电子邮件精确分类到所属的文件夹或排除。例如,“Java object”这个词会被收入该文件夹里,因为所含“Java”有程序语言的意思。但是,含有“Java coffee”或“toolsto use in designing a conference program”的词可能会被拒收。因为消歧后第一个例子中的“Java”表示“一种咖啡”,而第二个例子中的“program”指的是“事件”,与计算机编程无关。可通过给一机器了解算法一消歧邮件中的词义,选择性地获得这一效果,而非仅如现有应用程序一样提供该词语。容易造成这种影响,不仅仅是因为目前使用的现有技术(最新型)应用软件的问题,更主要是因为由机器学习运算来处理消歧邮件所示含意的方式。因而分类精度将提高,且应用软件将表现得更加智能化,对用户更有用。
3.机器翻译;应用于翻译前获取词语准确的含义,以便正确翻译有多种可能译法的词。例如,如果英语中“bank”这个词是指“金融机构”,则可以译成法语中的“banque”;但是当指“river bank”时,则译为“rive”。要想准确翻译这类词语,就必需从中选择出一个含义。本领域普通技术人员应理解,现有技术中的高出错率是因为机器翻译系统选择了所译词语的错误的含义造成的。在该系统中加入词义消歧功能,通过减少或消除目前现有系统造成的此类错误,将会提高精度。
4.语音识别;应用于正确翻译由音同形不同的词或词组组成的话。多数语音识别系统包括一个分析短语语音并输出所发音词的几种可能顺序的识别组件。例如,“I asked to people”和“I asked two people”有相同的发音,且做为由这种识别组件分析的可能词序,这两种形式将都被输出。多数语音识别系统还包括一个模块,该模块从可能的词序中选择出可能性最大的词序并作为结果输出这个词序。通常该模块通过选择与已知发音词序最近匹配的词序来实现。通过选择产生最一致的翻译的词序,词义消歧可以提高这种模块的效力。例如,设想对同一发音生成两种替换翻译的语音识别系统。“I scream in flat endings”或“Ice cream isfattening”,词义消歧器将在发音相同的两种翻译中选择,与对文本中同一个词的两种可能解释进行消歧的方式完全相同。
5.语音文本(语音合成);用于正确读出多音词。例如,“I saw her sowthe seeds”和“The old sow was slaughtered for bacon”这两个句子都含有“sow”这个词,但是它在每个句子中有不同的发音。为了能正确读出每个句子,语音文本应用软件就需要知道各词语的合适的解释。词义消歧模块可以确定出第一个句子中“sow”的意思是动词“播种”,第二个句子中的“sow”是指“母猪”。因而,所述语音文本应用软件就具有能够正确读出每个句子的必要信息。
详细说明具体实施列之前,先介绍一些词和词义间关系的相关背景。参照图1,由附图标记100通指词和词义间的关系。如例中所示,某些词有多种含义。多种可能性之中,“bank”这个词可以表示:(i)作金融机构解的名词;(ii)作河岸解的名词;或(iii)作存款行为解的动词。同样的,“interest”这个词也有多种含义,包括:(i)表示涉及未偿投资或未偿借代的应付金额的名词;(ii)表示给予某物特别关注的名词;(iii)表示对某物享有合法权利的名词。
该实施例给各词分配词义。本实施例尤其定义了两种词意:粗略的和精细的。精细含义定义了词语的精确含义和用法。每一精细含义应用于语音分类的一特定部分中(名词、动词、形容词或副词)。粗略的含义定义了和词语相关的一个宽泛概念,并可能涉及不止一种词性。每个粗略含义里都包括一个或多个精细含义,每个精细含义都有其所属的粗略含义。一个词语可能有多个精细含义和多个粗略含义。因为词的精细含义与同粗略含义定义相关的类概念相匹配,所以根据粗略含义分类精细含义。表1说明了一个词与其粗略含义和精细含义之间的关系。举例说明了精细含义和粗略含义之间的区别,“bank”这个词的精细含义里涉及了“to bank a plane”中作为动词的“to bank”和“the pilot performed a bank”中作为名词“a bank”的区别,然而这两种含义就被一并归入了较粗略的含义“Manoeuvre”中。
表1 | ||
词 | 粗略含义 | 精细含义 |
金融机构 | 金融机构(名词)应用于经营银行业务的建筑物(名词)和银行进行商业活动 | |
地貌 | 水旁的的陆地(名词)土地的边界(名词) | |
操纵 | 倾斜飞行,飞机机动(名词)侧向倾斜(动词) | |
赌博 | 赌场里持有的资金(名词)赌搏中作为庄家的行为 |
参照图2,示例了词义间的语义关系。这些语义关系是基于含义而精确定义的两个词之间的联系类型。该联系是特定含义的词义间的联系。例如,“a bank”(取河岸的意思时)是一种地形,而“bluff”(断崖)(取一种土地形貌的意思时)也是一种地形。“a bank”(取河岸的意思时)也是一种斜坡(指阶状陆地)。“a bank”取金融机构的意思时与“bankingcompany”或“banking concern”(金融公司)同义,“a bank”还是一种金融机构,属于一种商业类型。按照通常所理解的银行支付存款利息和收取借贷利息的事实,“a bank”和“interest”利息(指投资应付的钱)与“loan”(指贷款)有关。
应当理解,还存在很多其它可用的语义关系类型。尽管在现有技术中已知,下面是一些词之间语义关系的例子:同义词是彼此同义的词。上位表示一个词代表一整类具体例子的关系。例如,“运输工具”是一个上位词,其包括“火车”、“战车”、“雪橇”和“汽车”这些具体例子在内的一个词类;同时,下位就表示了一个词是一类例子中的一个成员的关系。如之前的例子列中,“火车”是“运输工具”这个类的下位词。部分表示一个词是某种事物的一个组成部分、构成材料或其中一个成员的关系。例如:“腿”和“膝”之间的关系,“膝”是“腿”的一个部分词,因为膝是腿的一个组成部分;同时,整体是指一个词是部分词所指部分的整体。如之前的例子,“腿”是“膝”的整体词。可以使用归入这些类的任何语义关系都可用,另外,也可以使用任何公知的指出了词义间特定语义和语法关系的语义关系。
大家还认识到,用词义消歧来解决搜索引擎中的检索关联问题。此外,用户经常如同表达语言一样表达文本。然而,由于相同的含义可以有许多不同的表达方式,那么当用户不以相同的用以初始分类相关信息的特定方式表达文本时,他们就会遭遇困难。
例如,如果用户正在寻找有关“爪哇”岛的信息,而且对在“爪哇”(岛)“度假”感兴趣,那么他通过关键词“Java”和“vacation”来分类,则检索不到有用的文档。该实施方案就解决了这个问题。大家认识到,在自然表达文本中为每个关键术语的衍生精确同义词和子概念增加了要检索的关联性检索量。如果用没有词义消歧功能的辞典来执行此操作,结果会更糟。例如,语义扩展“Java”这个词而没有首先确定其精确含义,将会产生大量而无用的结果集,该集合带有潜在的基于不同的词义选定的结果,所述不同的词义为“印度尼西亚”和“计算机程序设计”。由此该实施方案提供了通过语义扩展词义产生一个全面同时更精确地结果集以解释每个词义的系统和方法。
参照图3,以附图标记10通指本具体实施例中的文本处理系统。该系统获取输入文本12。文本12包括自然语言文本,如查询、文档、文本语音输出或任何电子形式的自然语言文本资料。
该文本处理系统包括了文本处理引擎20。该文本处理引擎20可以通过专用的硬件或者在通用处理器上运行的软件来实现。该文本处理引擎也可以在网络上运行。
该文本处理引擎20通常包括一个处理器22。该引擎还可以直接连接到或通过网络或其它此类通信方式间接地连到显示器24、接口26和计算机可读存储介质28上。处理器22一端接在显示器24上,另一端连接接口26。接口26包括一些用户输入设备,如键盘、鼠标或其它配套设备。如果显示器24为接触触发的,那么显示器24本身就可以作为接口26使用。计算机可读存储介质28连在处理器22上,给处理器22提供指令,以指示和/或配置处理器22来运行与文本处理引擎20操作相关的步骤或算法,如下作进一步讲解。可以把计算机可读存储介质28的部分或全部物理地置于文本处理引擎外以用于例如,大容量存储器。本领域普通技术人员意识到可在本发明中使用各种形式的文本处理引擎。
可选地,为获更高的计算速率,文本处理器引擎20可以包括多个并行运作的处理器或任何其它的多处理装置。这样使用多个处理器可以使文本处理引擎20在多个处理器间分配任务。此外,如本领域普通技术人员所理解的,所述多个处理器不必物理地被置于相同位置,可以将它们空间地分离而在网络上互连。
文本处理引擎20包括数据库30,该数据库30应用于存储文本处理引擎20所使用的知识库和要素语言资源。如本领域普通技术人员应理解的,数据库30以结构化方式存储信息以实现计算上地有效的存储和检索。可以通过添加另外的关键词义或对另外的文档引用现有的关键词义来更新数据库30。可以通过划分数据库30并在多个位置进行存储来得到更高的效率。
文本处理引擎的一个重要部分是转换输入文件或文本中的词语为词义的词义消歧(WSD)模块32。词义是鉴于一个词语的用法及其相邻词的前后关系而赋予该词语的特定解释。词义是搜索引擎20包括一个应用于处理输入文档中的词语或者对词义的查询的词义明确含义消除模块32。例如,在句子“Book me a flight to New York”中词语“book”是明确含义的,因为“book”可以是一个名词或一个动词,而这两种词性中的每一种又都具有多个可能的含义。由明确含义消除模块32进行词语处理的结果是得到一个由词义而不是明确含义或未解释的词语组成的消歧文档或消歧文本。词义消歧模块32为文档或文本中的每个词语辨别词义。词义明确含义消除模块32通过广泛的互连语言技术来确定词语的哪一个特定含义是所需的含义,该互连语言技术以分析上下文中的语法(例如词性、语法关系)和语义(例如逻辑关系)来实现。可以使用表示词义之间明确的语义关系的词义知识库来辅助执行消歧。
参照图4,对数据库30作进一步详述。
为了帮助明确词语语义,该实施例使用如上对图2所描述的获取词语关系的词义知识库400。知识库400与数据库30相关联,并通过访问所述知识库400来帮助WSD模块32执行词义消歧,也列出了文本中可能词义的详细目录。随着现有技术词典和诸如WordNet(商标)这样的词汇数据库在系统中的应用,知识库400提供了一个有关词、词义和语义关系的增强目录。例如,即使在先技术词典仅含对应于各词义的词语的定义时,知识库400也含有词义之间关系的信息。这些关系包括词义及其相关词性(名词、动词等)的定义、精细词义同义词、反义词、下义词、子义词、名词性形容词、类似的形容词关系以及现有技术中已知的其他关系。知识库400还包含其它现有词汇数据库所没有的附加语义关系:(i)词义之间的附加关系,例如精细含义整合成粗略含义,类举关系、类关系、屈折词形和派生词形关系;(ii)校正来自出版源的数据中的错误;以及(iii)其它现有技术知识库中不存在的附加词、词义及其关系。
除了含有词及其对应的词义(精细和粗略)和概念的详细目录和四十多个特定的语义连接类型外,数据库30还提供了一个语言组件502和WSD组件504使用的组件资源402知识库。一些组件资源由几个组件共享,而另一些组件资源独属于一个特定的组件。在本具体实施例中,组件资源包括:通用模块、特定领域模块、用户模块和会议模块。通用模块包含普通领域信息,例如未知领域的任何文本中每个词各含义的概率分布。使用几个领域的数据来训练通用模块。WSD组件504和语言组件502必须利用这些组件资源。例如,一个组件可以在任何请求下用这些组件资源,或仅当用更多的特定模块无法完成该请求时用这些组件资源。用特定领域信息训练特定领域模块。在各种领域中,特定领域模块应用于构建专用词义用法模型。例如,对于旅行代理商和计算机程序师来说,词语“Java”有不同的含意。这些组件资源为每个集合创建统计模块。为特定用户训练用户模块。所述模块可被指定并可被延时访问。用户模块可以通过应用软件建构或者由词义消歧系统自动生成。会议模块提供了关于在会议里重组多个请求的信息。例如,用搜索引擎几个词义消歧请求可能涉及整个信息检索会议里的相同话题。会议模块可通过应用软件建构或由WSD模块32自动生成。
数据库30还含有词义标注语料库404。词义标注语料库404可优选地被分成应用于训练组件、应用于各组件的训练置信函数和训练控制文件优化器的子单元,进一步作如下所述。
参照图5,以进一步详述本实施例提供的知识库400。本实施例中知识库400是一种概括的图形数据结构,并由节点表402和联结两个结点的边缘/关系表404实现。依次描述各表。任意数据类型的注解都可附一个节点或边缘。其它实施例中,还可以用其它诸如链接列表那样的数据结构来实现知识库400。
在表402中,每一个节点是该表402的一个行元素,本实施例中,每一个节点的记录有如下那么多的字段:ID字段406,类型字段408和注释字段410。在表402中存在两种类型的条目:词语与词义定义。例如,通过类型字段408A中的“词语”条目来确定ID字段406A中的词语“bank”。此外,示范性的表402提供了词语的多个定义。为了对所述定义进行分类并区分表402中的词语条目与定义条目,可以使用标签来确定定义条目。例如,将ID字段406B中的条目标记为“标签001”。类型字段408B中的相应定义将该标签标记为“精细含义”词语关系。注释字段410B中的相应条目将该标签标记为“名词,金融机构”。照此,现在可以将词语“bank”连接到该词义定义。而且,还可以将词语“经纪行”的条目连接到该词义定义。另一个实施例可以使用带有附加后缀的常用词语,以识别该词义定义。例如,另一种标签可以为“银行/nl”,其中后缀“/nl”表明该标签为名词并且是该名词的第一含义。应当理解可以使用其他形式的标签。可以使用其他标识符来识别形容词、副词和其他词性。在类型字段408中的条目确定了与词语相关的类型。一个词语存在多种有效的类型,包括:词语,精细含义和粗略含义。还可以提供其他类型。在本实施例中,当一个词语实例具有一个精细的含义时,该实例还具有注释字段410中的一个条目来提供关于该词语实例的更多细节。
边缘/关系表404包含表示节点表402中两个条目之间关系的记录。表404具有以下条目:源节点ID栏412、目的节点ID栏414、类型栏416和注释栏418。栏412与栏414用来把表402中的两个条目连接到一起。栏416确定连接两个条目的关系类型。记录有源节点和目的节点的ID、关系类型并且可能有基于该类型的注释。关系的类型包括“根词语到词语”、“词语到精细含义”、“词语到粗略含义”、“粗略含义到精细含义”、“衍生”、“下义词”、“类别”、“名词性形容词”、“类似”、“具有部分”。还可以在其中记录其他关系。注释栏418中的条目提供了一个(数字)键来为给定词性唯一确定一种从词语节点到粗略节点或精细节点的边缘类型。
参照图4,以进一步详述本实施例所提供的WSD模块32。WSD模块32包括控制文件优化器514,迭代组件定序器(ICS)500,语言组件502和WSD组件504。
首先看WSD组件504和语言组件502,现在描述WSD组件504和语言组件502(组件)的公共特性和特征。由一个特殊组件产生的结果更适宜用概率分布和置信度来评定。概率分布使得组件返回一个概率图,该概率图显示了任何可能的答案是正确的可能性。根据WSD组件504,可能的答案包括文本中可能的词义。根据语言组件502可能的答案有赖于语言组件所执行的任务,例如,词性标注器502F的可能答案是每个词的可能词性标注集。置信度提供了一个概率分布算法的信任水平指标。照此,一个具有高概率和高置信度的答案显示了该算法确定出了一个最有可能的单一答案并且很有可能所确定的答案是精确的。如果一个答案具有高概率而低置信度,那么尽管算法确定出了一个最有可能的单一答案,但是它的置信度显示了该答案可能不正确。根据WSD组件504,一个低的置信度可能表示该组件缺乏需要用来消除特殊词明确含义的信息。每个组件有一个好的置信函数很重要。尽管是一个低的全局精度的组件,但是该带着低全局精度但是有着好的置信函数的组件有助于系统精度,正如该置信函数将正确识别由可信组件为其提供答案的词子集。
置信函数评价组件的内部运行特征和组件的算法并估计出该算法的存在的可能精度缺点。例如,如果算法有赖于统计概率,那么当概率是根据很少的几个例子算出时,该算法往往会得出不正确的结果。因此,对于这种算法,置信度将用到包括该算法所用的例子数的变量。一个置信函数可能包括几个变量,甚至数百个变量。通过使用输入类的变量或本领域普通技术人员所熟知的回归算法(统计学的,如概化线性模式;或基于机器学习的,如类神经网路)来构造上述的置信函数。训练分类的数据或回归函数优选通过在一部分词义标注语料库404上运行WSD算法获得,该词义标注语料库404即为此目的而被设置。
许多组件使用基于机器学习概念的统计技术或本领域普通技术人员所熟知的别的统计技术。本领域普通技术人员应该明白为了建造统计模型,此类组件需要使用训练数据。例如,为了确定哪个是特定词统计上的最合适的含义,对每个词,在先组件504A都用了许多词义标注例子。本实施例中,由词义标注语料库404来提供训练数据,该词义标注语料库404即为本领域普通技术人员所熟知的“训练语料库”。
现在对WSD组件504特征做进一步详述。每个WSD组件504都尝试通过用一种特定词义消歧算法来把文中的词和对应的正确的词义联结起来。整个消歧过程中,每个WSD组件504可能运行不止一。该系统提供了语义词数据或数据库30中其它形式的数据。为了执行消歧功能,该数据库30是每个算法都需要的。正如已注意到的,每个WSD组件504都有一个算法,用该算法执行特定消歧类型并依其结果而生成概率和置信度。该WSD组件包括但不限于:在先组件504A,实例存储组件504B,n-连词组件504C,概念重叠组件504E,启发式词义组件504F,频词组件504G和从属组件504H。每个组件都有一个与其特殊运算相关的专门知识库。每个组件都产生一个如上所详述的置信函数。现对每个组件做以下详述。除非在此提出的特殊方面,每一种技术都是本领域所知道的。还应该明白,并不是本实施例中所描述的所有WSD组件都是完成精确词义消歧功能所必要的,而是需要一些不同技术的组合。
依据各种词义出现频率的统计数据,在先组件504A利用一种现有算法来预测词义。具体地,根据词义标注语料库中的词义频率,该算法为每个词义分配概率。这些词频更适宜存在组件资源402中。
例如存储组件504B利用一种实例存储算法来预测短语词义(或词序)。优选地,该存储组件504B尝试预测所有有序的词的词义。短语典型地定义为一系列连贯的词。一个短语可能是两个字甚至长达一个整句。该算法访问一个为每个词提供了一个被认为正确的含义的短语(或词序)列表。优选地,这一列表包括了一些在词义标注语料库里多次出现并且有相同含义的句子片段。优选地,当一个分析短语所得的词的词义不同于先前的归结到该短语里的词义时,该词序表将拒收且不保存这个分析短语里的词义。
当进行文本消歧时,实例存储算法将鉴别部分文本或者全部文本是否与已存在词序表里的先前已确定的再现词序匹配。如果匹配,该模块会把顺序词义分配给文本中相应匹配的词。
n-连词组件504C利用一种仅对一个固定范围的词有效的n-连词算法,并仅尝试一预测一个单个词的含义,与实例存储算法形成对比。本n-连词算法通过匹配小范围内相邻词的特征预测一个主要词的词义。此类特征包括:词元、词性、粗略的精细词义和名称实体类型。该算法可以分析目标词前或后n个词,通常,n被设为取2个词。若n取2,该算法就使用具有各词相关正确含义的词对列表。该列表源自在词义标注语料库404里多次出现并且有相同含义的词对。然而,当即使仅一个词义不同时,该列表也拒收和不存此类词对含义。当进行文本消歧时,n-连词算法把来自查询或正在处理的文本的词对和经历了n-连词算法已保留下来的列表所提供的词对进行匹配,当在先前列表中可以找到该词对并且该查询或正被处理的文本中的两个词之中的一个词的词义也存在时可认为匹配。如果确认匹配,会给正被处理的词对中的另一个词分配的相关词义。
与所述n-连词算法相关的组件资源经词义标注语料库404训练并成为组件资源402的一部分。所述n-连词算法组件资源包括一个统计模型,该统计模型用来确定充足频繁地运作的n-连词算法何时成为一个有效词义预测器。知识库中的几个预测器可由词型触发。根据给定的概率分布,这些预测器可能加强一个普通含义或事实上也可能产生多个可能的含义。
概念重叠组件504E具有一种概念重叠算法,该算法通过选择与文本段落概括性主题最匹配的含义来预测词义。本实施例中,文本段落的主题定义为文本段落中所有不可删除的词义组。通过比较文本段落主题来评定主题的相似性,并选出每个词的具有最大主题相似性的含义。该文本段落主题通过从词义标注语料库摘录出来的的主题来为每个词义消歧。此种比较法是点积或余弦度量。正如为本领域普通技术人员所熟知的,还有许多其它用主题相似性来消歧文本的技术。
启发式词义组件504F具有一种启发式(heuristic)词义算法,该算法利用根据知识库中的本质语言特性和语义链接而制定出的法则来预测词义。例如,在知识库中,根据“Indonesian is a language”这样的联系,词条“a spoken human language”中“language”的含义和“Indonesian”相关。通过该启发式词义组件,一个既含有词语“language”也含有词语“Indonesian”的句子将会获取被消歧的词语“language”。尤其,这种关系已是人工验证了的,因此在精确性上有一个更高的可信度。
频词组件504G具有一种用来确定出现最频繁的词的含义的频词算法。在英语中,500个出现最频繁的词几乎占了正常文本中所遇到的词的三分之一。其中的每一个词在词义标注语料库404中都存在大量的可用训练实例。因此,使用监督性机器学习方法,有可能为每个词训练出特定词义预测器。本实施例中,用来训练该组件的机器学习方法正在强化,所使用的特征包括紧邻有待消歧的目标词的词和词性。正如为本领域普通技术人员所熟知的,也可用其它特征和机器学习技术来完成同样的目标。
依存关系组件504H具有一种依存关系算法,该算法使用一种基于句子中的语义依存关系的词义预测模型。通过选定依存关系中的中心词并选择性地确定该中心词含义,依存关系算法就会预测出其从属词的含义。同样,选定了从属词并确定该从属词义,依存关系算法会预测出中心词含义。例如,在文本段“drive the car”中,中心词是“drive”,从属词是“car”。对“car”含义的理解足以预测出“drive”是“开一种交通工具”的意思。
应该明白,随着该领域发展的研究,时常也会用到其它词义消歧技术,并且这些技术同样也就归入了该系统新的WSD组件。还应该明白,单个WSD组件不足以高精度地消除文本明确含义。为了解决这个问题,本实施例使用了多种技术以消除文本明确含义。上述的这些技术详述了可以实行高精度词义消歧的模范组合。也可采用其它技术。
现在来看语言组件502。每个组件502提供了一种应用于文本以确定语言信息的特定类型的文本处理功能。这种语言信息即是供给WSD组件504进行消歧的信息。语言组件502中的每一个组件的运行都为本领域普通技术人员所属悉。该语言组件502包括:
切割器502A,用以把输入文本分割成单个的词和符号。切割器502A按照字符顺序处理输入文本并把输入文本分解成一系列实类(token),一个实类是能形成词语的最小字符序列。
句子边界探测器502B,用以鉴别输入文本的句子边界。句子边界探测器用规则和数据(如缩写词列表)来识别输入文本的可能句子边界。
Morpher(形素器)502C,用以鉴别词语的词元,也就是基本形式。本实施列中,词元定义了词的精细含义和粗略含义目录。例如,对于词尾变化的词“jumping”,该形素器(Morpher)鉴别出它的基本词形是“jump”。
剖析器502D,用以鉴别输入文本中的词之间的关系。剖析器502D鉴别输入文本中的语法结构和短语。此操作结果是产生一个为本领域人所熟知的概念剖析树。词之间的一些关系包括“主谓”结构和“动宾”结构。随后就能从这些短语中提取一系列语法和语义依存关系。剖析器502D也会生成应用于更新词性分类的词性标记。剖析器信息也应用于选择可能的复合词。
依存关系分离符502J,使用剖析树来生成一系列本领域普通技术人员所熟知的语法和语义依存关系。许多别的组件利用语义依存关系来提高其模型。用下列方法提取依存关系。
1.用剖析器502D生成一个语法剖析树,包括为每个短语确定语法中心词。
2.通过使用本领域普通技术人员所熟知的经验知识集为每个短语生成语义中心词。语义中心词不同于语法中心词,如语义规则优先考虑语义上的重要因素(如名词和动词),然而语法中心词则优先考虑语法上的重要因素,如介词。
3.一旦确定了语义中心词(或短语),就分析同类的词和短语与中心词所构成的依存关系。
已命名实体(Named-entity)识别器502E,用来鉴别知名的固有名词如“Albert Einstein”或“International Business Machines Incorporated”和其它的多词固有名词。已命名实体识别器502E收集实类,该实类先把一个已命名实体分组,再把组归类。这种类包括本领域普通技术人员熟知的:人物、场所、产品(artefact)。已命名实体(Named-entity)种类由隐藏式马可夫模型(HMM)确定。而该隐藏式马可夫模型(HMM)仅针对标注出了已命名实体的词义标注语料库404部分。例如,在文本片段“Today Coca-Cola announced...”中,HMM通过分析周围的词,把“Coca-Cola”归为公司(而不是一种产品)。本领域普通技术人员熟知还存在许多应用于已命名实体识别的技术。
词性标注器502F,为输入文本中的词分配诸如“名词”和“动词”这样的功能角色(functional roles)。词性标注器502F鉴别词性,该词性应该可以被映射到涉及词义间消歧过程的主要词性(名词、动词、副词、形容词)中。词性标注器502F使用几个基于三连词的隐藏式马可夫模型(HMM),而该隐藏式马可夫模型(HMM)仅针对注有词性信息的词义标注语料库404部分。本领域普通技术人员熟知还存在许多应用于词性标注的技术。
复合词探测器(compound finder)502H,应用于找到输入文本中可能的复合词。一个例子复合词“coffee table”或“fire truck”,尽管有时被写作两个词,但为了词义消歧需被视为一个词。知识库400包括了一系列复合词,这些复合词可在文本中被确定。每个有待鉴别的复合词都给定一个标志该复合词正确构成的可能性的概率。这个概率从词义标注语料库404中计算得出。
现在来看ICS500。ICS500控制语言组件502和WSD组件504对文本的操作顺序,以不断减少所处理文本中的明确含义数量。ICS500有几项特殊功能:
1.ICS500使用所选择的语言组件502来整理文本中要素摘要,并通过一个通用接口把这些要素提供给WSD组件504。
2.ICS500使用上传器500A(seeder)为每个词赋一组可能的初始含义,这一组可能的初始含义来自知识库400,上传器500A把所赋的这组可能的初始含义与文本中有待WSD组件504消歧的各词联系起来,从而提供一最大化的初始明确含义。
3.ICS500根据由控制文件516所确定的运算混合(an algorithm mix)来调用WSD组件504。激活所选择的WSD组件504后尝试进行文本消歧,并提供与文本中可能词义相关的概率和置信度。优选地,多重迭代调用WSD组件。
4.ICS500使用合并模块500B和明确含义消除器500C来合并整合来自多组件的输出。合并模块500B把所有的WSD组件504输出合并到一个合并的概率分布和置信度。明确含义消除器500C根据合并模块500B来确定该从文本中消除的明确含义。
在随后的描述词义消歧运作过程部分,将对ICS500的功能和设计作更详细的描述。
控制文件优化器514选择性地执行一个训练程序,该训练程序以控制文件516的形式输出一个“处方”。该“处方”包括了在每个迭代过程中为WSD组件504所提供的最优化序列和参数,并且在整个词义消歧过程中ICS500也要使用该“处方”。在随后的描述优化控制文件生成器部分,将对控制文件优化器514的功能和设计作更详细的描述。
现在来对本实施例处理文本的执行步骤作进一步详述。参照图6,附图标记600通指执行文本消歧过程。该文本消歧过程分为四个步骤。第一步是生成一个优化控制文件602。本步创建一个在文本消歧606步骤中用到的控制文件。第二步识读文本604(read text 604),包括识读文件中有待消歧的文本。第三步文本消歧606,包括对文本进行消歧。是文本消歧过程中的主要步骤。第四步消歧文本608输出,包括把词义标注文本写入文件。
参照图7,现在进一步详述主要处理步骤文本消歧606。
对于收到的需要消歧的文本,ICS500以下列方式处理该文本。
1.ICS500通过分割器502A传递文本以鉴别词语边界,并根据出现在文本中的标点符号来分离这些词。
2.ICS500通过经语言组件502传递文本来实现鉴别文本中的语法特征。此类语法特征包括:词元(含复合词)、词性、已命名实体和语义依存。每个特征都生成一个置信度和概率分布。
3.把处理文本提供给上传器500A,该上传器500A使用由语言组件502生成的词元和词性来鉴别文本中每个词存于知识库400中的一系列可能含义。
4.然后ICS500把一组独立的WSD组件504应应用于输入文本,由控制文件516来指定各具体组件和它们的执行顺序。每个WSD组件504对文本中部分或所有的词进行消歧。对于已消歧的含义,各WSD组件504为其生成一个概率分布和置信度。
5.接着ICS500用合并模块500B执行一个合并操作。该模块合并作应用于所有词的所有组件获得的结果生成一单个含义概率分布和每个词的关联置信度。合并前,如果在控制文件516中有具体说明,ICS500可以舍去置信度不足够高的结果,或者由于主要结果概率不足够高而舍去该结果。合并概率分布是一个由置信度提供权重的每个保存下来的概率分布的加权和;而合并置信度是一个由置信度提供权重的加权平均信心值。例如,如果一个WSD组件“A”为词“Java”提供一个100%概率的词义“热饮料”,而一个WSD组件“B”为该词“Java”提供一个100%概率的词义“程序语言”,那么合并分布将包括各占50%概率的“热饮料”和“程序语言”。为了合并WSD组件仅生成的粗略含义的结果,合并器可能任意运行两次,一作应用于粗略含义,第二作应用于涉及个粗略含义的精细含义组。
6.ICS500通过使用明确含义消除器500C来实现明确含义减少过程。本实施例根据由合并模块500B输出的合并分布和置信度执行消歧过程。当合并分布中的一个含义有一个被认为很高的概率以及高置信度时,即认为该含义是正确的,并可舍弃所有其它的含义。例如,如果一个合并结果显示,对于“Java”的消歧结果是有着98%概率以及90%置信度的含义“咖啡”,那么所有其它含义将会被尽可能排除,并且“咖啡”的含义被唯一的保存下来。控制文件516即为此判定点设置概率和置信度阈值。相反地,当一个或多个含义有着很低的概率但具有高置信度时,此类含义可能被认为不重要而被排出含义集合。控制文件516又会为此判定点设置概率和置信度阈值。该消歧过程通过利用由WSD组件504提供的信息来减少输入文本中的明确含义,并从而改变整个后续迭代消歧过程中供给WSD组件504的含义。
7.至少可任意执行一个或多个迭代步骤4、5和6。应该明白,每个后续迭代的结果都有可能不同于前一迭代代结果,正如WSD组件504自身不能预测前一迭代后被消歧的含义。WSD组件504通过比较减少的明确含义和前一迭代结果,得出一个有着更高精度概率和/或更高置信度的结果。控制文件516为每次迭代确定适用的WSD组件504。应该明白,除非对足够数量的词完成消歧或完成了控制文件516所指定的迭代次数,将会执行多次迭代。
本实施例中,词义消歧过程可以调用多次迭代。典型地,在每次迭代中,在不引入大量的明确含义错误的前提下仅消除一部分明确含义。优选地,所选择的任何WSD组件504都尝试为每个词消歧,所选择的WSD组件504对先前没被舍弃的含义返回一个完整的概率分布。通常,不准许一个WSD组件504通过再提交该词先前已被舍弃的含义而增加文本明确含义。在迭代过程中,各WSD组件彼此独立运行,而由ICS500控制或通过前一迭代进行消歧时WSD组件504的各组件之间发生交互作用。在其它实施例中,提供有整个一迭代和多次迭代间的过程中各WSD组件之间不同程度的交互作用和结果关系。应该明白,由于那些交互作用的高度复杂和不可预测的属性,含有被明确编入WSD组件504的WSD各组件间高度交互作用的系统往往太复杂而不能实际建造。由此,ICS结构所提供的各WSD组件504之间的受控交互作用和各WSD组件504间的独立性是本实施列和发明中的一个关键优势。
通过合并模块500B和明确含义消除器500C的联合作用来后置处理几个经WSD运算504所得的结果以减少文本中的明确含义。这些模块的联合作用涉及后置处理模块512。应该明白,正如本实施例中所描述的对合并模块500B和明确含义消除器500C的使用是仅在该特定实施方案中的一个示例技术,并且还设计了可选技术。例如,后置处理模块512可以使用如神经网络这样的机器学习技术来合并和删减结果。在该算法中,把每次运算得到的概率分布和置信度反馈回学习系统,从而为每个含义生成一个的合并概率和置信度。
关于合并模块500B,还可采用诸如分类算法和顺序合并算法这样的其它算法。
参照图8,现在对控制文件优化器程序514作进一步详述。使用控制文件优化器程序514生成优化控制文件516以提供最大限度的消歧精度。该程序义从词义标注语料库802开始。本实施例中,词义标注语料库802是词义标注语料库404的一部分,被存作执行控制文件优化器程序514。控制文件优化器514利用WSD模块606生成一个控制文件516,该控制文件516根据词义标注语料库802来优化WSD模块的精度。
控制文件优化器514要求给定优化标准,为被删除的明确含义百分比或消歧精度百分比分别设置阈值。然后根据指定的其它阈值度量标准,控制文件优化器优化控制文件以使词义消歧性能达到最佳。也可以指定一个最佳的迭代数。通过每次迭代而使正确结果的数量或给定的被删除的明确含义的数量最优化。确定了算法和指定精度阈值的最佳联合后,训练继续进行下一迭代。每次迭代会降低目标精度,随着迭代次数的增加将会使结果标准逐渐下降。测试多个目标精度序列,并选择出基于词义标注语料库802生成的最好结果序列。优选地,随着每一的后续迭代,精度或剩余明确含义不断减少。所测实例迭代精度序列的结果为:
1.95%->90%->85%->80%
2.90%->80%
对于一个给定的迭代和目标消歧精度,通过执行下列步骤来确定需调用的优化算法列表以及要保持的联合概率和置信度阈的结果。
1.根据词义标注语料库802分别调用每个WSD组件504,每个组件都会产生一个结果,从而获得一组结果。
2.对于由WSD组件504所产生的一组结果,搜索概率和置信度阈空间以确定对照优化标准使性能最优化的阈值。通过以如5%这样的固定步长增量在0%到100%的范围内搜索所有联合概率和置信度阈值来实现上述的确定最优化阈值过程。
3.一旦为每个WSD组件504确定了最佳阈,依照这些阈值,对所有WSD组件504产生的结果进行删减,并用较早描述过的合并模块500B合并结果。
4.搜索整理过的合并结果以确定合并结果的概率和置信度阈,这些阈值以等于或高于迭代所用的目标精度的精度来使许多正确的答案达到最优化。用步骤2的方法来完成这一优化过程。
5.对WSD组件504进行合并后的结果重复步骤4,但WSD组件504相关性结果被排除。从而确定应用于最优化结果集合中正确结果的概率和置信度阈。把该结果集合中的正确结果的最大数量和步骤4中所获得的结果的数量作比较,它们之间的不同显示了由相关性算法(algorithm ofinterest)得到的正确的唯一性答案的分布。如果一个WSD组件504的结果分布是负值,就表明该WSD组件504的结果对结果有害;如果这个分布值是零,那么表明在迭代中对新的正确结果没有贡献。在负值分布情况下,从WSD组件504结果列表中删除有着最低负值分布的该WSD组件504的结果。WSD组件504结果列表要在后续迭代过程被调用。
6.重复步骤5,直到有着负或零分布置的的一组WSD组件504结果被确定并删除。数字可能是所有的WSD组件504。
7.重复步骤2至步骤6,在上述和下列迭代中,但其中步骤2的目标精度,通过小步长增长如2.5%改变高于并随后低于目标精度。
8.WSD组件504与概率和置信度阈的结合可以产生最大量的正确答案,这种结合被留作解决给定迭代的方法。每一WSD组件504的概率和置信度阈值以及明确含义消除器500C被写入以控制文件,并且继续训练下一迭代和目标消歧精度。
以上描述显示,可通过设置控制文件优化器514来优化指定的精度,为每个词分配一个且仅分配一个含义。但应该知道对于特定的应用软件或在特定的具体实例中,并不表示给每个词仅分配一个含义或对所有词消歧。
先于任何明确含义出现在文本中明确含义的数量被认为是最大明确含义。出现在完全词义标注文本中的明确含义数量,为每个词都分配一个且仅分配一个含义的被认为是最小明确含义。但应该知道对于某些应用软件或在特定的实例中,适合仅删除出现在文本中的部分明确含义。可以通过允许一个词具有多个可能含义或通过不对某些特定词消歧,或者通过这两种方法一起来完成删除部分明确含义过程。在本实施例中,被删除的明确含义百分比定义为:(舍弃的含义数)除以(可能的含义总数减一)。应该进一步明白,通常情况下,除去一个较小的明确含义百分比会使词义消歧器32返回一个较高精度的结果;假如词义消歧器32可以给每个词指定不止一个可能的含义,并且如果为一个词指定的含义中包括了该词的正确含义,那么就认为该词进行了正确消歧。
随意地,可分别为控制文件优化器514提供优化标准、由词义消歧器32得到的被删除的明确含义百分比的阈值,以及词义消歧器32的消歧结果精度。要求控制文件优化器514a)依据最低精度阈值,最大化被删除明确含义的数量(例如,删除尽可能多的明确含义,以确保存留下来的可能含义有95%的可能性包括正确的含义),或b)依据最小的被删明确含义百分比,最大化消歧精度(例如,依除去每个词至少70%的附加含义,最大化精度)。这种性能在应用软件中很有用,a)因为可以使词义消歧器32优选地适应真实的自然语言文本世界。正如在一个文本中所表达的,真实的自然语言文本中的词可能真实的产生歧义(也就是对人产生歧义),因而不可能完全消歧。并且b)因为可以利用词义消歧器32的应用软件选择或多或少保守地执行词义消歧器32,其中消歧精度越低,被舍弃的正确含义也越少。这点特别重要,例如,在信息检索应用软件中,保证正确的信息不被舍弃很重要(如由于错误的消歧),即使以包括无关信息为代价(如由于消歧文本中出现了额外的错误含义)。
随意地,可为控制文件优化器514提供一个最大次数的迭代。
应该明白,创建精确的置信函数很重要。一个具有差的置信函数的组件,即使有着高精度,也不会对系统精度有贡献,或者与有着最佳置信函数的组件相比对系统精度贡献较少。这种情况会在以下两种情形之一出现:
如果置信函数常常倾向于给一个正确结果低的信心值,那么合并器500A将会有效忽略该结果,因为由此通过置信度来加权结果的合并算法,其实际效应就好像所用组件根本就没有给这个词任何结果。因此,这些正确的结果就会因为这个差的置信函数而被排除。
另一方面,如果置信函数给错误的结果一个高的信心值,那么自动训练程序将会认为该算法对许多错误结果有贡献,而从运行中把该信心值排处。
应该明白给系统增加一个带有差置信函数的算法(例如,过度乐观并经常以100%的信心产生错误结果的算法)也不严格不利影响系统精度,正如上述的控制文件优化器514将会对那样的结果置疑,并且在进一步消歧迭代中将不会执行那种算法。这给系统提供了一个以抵制含有差的WSD组件的存在的健全标准(level of robustness)。
对于本领域普通技术人员来说很明显,多数WSD系统的精度随着训练语料库的大小而增加,而随着被错误标注的训练语料库而减小。训练语料库中精确词义标注文本的加入经常会增强WSD组件的效力。另外,多数WSD组件504要求为其置信函数训练留出部分词义标注语料库404。应该明白置信函数的效力随着词义标注文本的数量的增加而增大,该词意标注文本在为置信函数训练增加而留出的部分词义标注语料库404中。
词义标注语料库404可以由人类词典编纂者手工创建。但是,应该明白这将是一个耗时费钱的过程,因而找一个能自动生成或增大词义标注语料库404的方法将非常有实际价值。
参照图9,本实施例也提供了一个能为WSD组件504训练自动提供词义标注语料库404或自动增加词义标注语料库404容量的系统和方法。在图9中举例说明了两个过程。第一个是组件训练过程960。这一过程使用词义标注文本404或未标注文本900作为对WSD组件训练模块906的输出,以给WSD组件504生成改善的组件资源。第二个过程是语料库生成过程950。这一过程通过WSD模块32来处理未标注文本900或本标注文本902。使用由WSD程序32输出的置信函数和概率分布,由过滤器模块904过滤掉可能被错误标注的含义。那么部分词义标注的文本就可被加入部分标注文本902或词义标注语料库404中。当可选择地运行这两个过程——组件训练过程960和语料库生成过程950时,效果是提高了WSD模块32的精度也增大了词义标注语料库的容量404。
如上所述,知道多数可能的WSD组件504要求在它们进行消歧文本前,先根据词义标注语料库404执行一个训练程序。例如,在先组件504A要求由词义标注语料库404纪录含义频率。这些频率被存入在WSD组件资源402中。如上所述,对于训练程序可用的词义标注文本越多,每个WSD算法504将会越精确。所有WSD组件504的训练程序集全部参照图9,如WSD组件训练程序960。
如上所述,联合几个WSD组件504的结果来对先前未见的文本消歧。这是就是一个已知的“引导”过程。
本实施例中,仅把有着足够高信心值的结果加入训练数据中。这个过程采用下列算法:
1.用组件训练程序960来训练各词义消歧的每个模块。该训练组件使用来自词义标注语料库404的可用训练数据。
2.用WSD模块32对大量未标注文档900进行消歧,优选使用来自多种域的大量文档。
3.在过滤器模块904中,舍弃所有明确含义或置信度值低于可调阈值的结果。
4.把没被舍弃的含义加入词义标注语料库404中。
5.利用组件训练程序960再次训练词义消歧组件集。
6.根据词义标注语料库404中相同的文档或新的未标注文本900部分,重新开始训练。
这一过程的关键在于使用了概率分布和置信度。在现有技术系统中,没有用到置信度并且不删除错误的结果。结果,再训练扩大的词义标注语料库404后,WSD组件504没有之前精确,因而那种过程并不实用。通过设置一个高置信度阈来删除加入到词义标注语料库404的多数错误含义,本实施例弥补了现有技术系统的不足,并允许以高质量的标注文本扩大训练数据。应该明白,这一过程可以运行多次,并且可以创建一个自增强循环。该自增强循环既增大了词义标注语料库404的容量也提高了WSD系统32的精度。本实施例的特性是具有可精选训练数据的性质和引导程序的可能自增强性质。
本实施例也提供了多种上述的引导程序来训练特殊领域(如法律、健康等)系统。采用了下列多种算法:
1.用高精度方法对大量文档进行消歧,如由技术人员手工操作。使用这些被加入到词义标注语料库404的,给系统提供“播种资源”的文档。
2.使用WSD组件训练程序960训练词义消歧组件.
3.用语料库标注程序950对来自域的大量文件进行消歧,并加入到词义标注语料库404中。
很明显,相对于现有技术,本实施例有几方面优势。包括:
1.多重独立算法。本实施例通过ISC500上的一个简化接口使较多的组件一体化。同样地/如这些,多个消歧技术并非使系统太复杂而不能熟练操作(如10到20个之间)。
2.置信度函数。在现有技术系统中,没有用到置信度。置信度可为现有技术系统提供几个重要优势。
多个组件结果的共同合并。置信函数使来自不同概率统计算法的结果与不同的权重结合,这些权重显示了在一个特殊情形下所期望的算法精度。利用上述发明的置信函数,本系统可以把许多组件的结果合并到一起来获取一个更可能的含义。
为实际明确含义词删除错误的结果或词义。允许删除潜在错误的结果,这种实施例可以选择不给答案中有着很低置信度的词提供含义。这较好地反映了真实的自然语言世界,其中一些表达即使通过人的分析,仍然也会存在明确含义。
引导。置信函数提供了一个每个答案都正确的可能性。这使得只可保存具有高精度的结果,并且把该高精度结果再用作各组件和综合系统的训练文本。反过来附加的训练文本又进一步提高各组件和综合系统的精度。这是一个高精度引导形式,和使用人工词典编纂词义标注附加训练文本相比,以很小的花费得到了一个相同的增益。从未标注文本(如因特网)生成大量词义标注文本,该技术仅受可用计算机容量限制。现有技术执行引导程序时不使用置信度,因而反馈给系统的文本中的词义标注远不及由人类词典编纂者提供的词义标注的精度,或者能使用置信度的系统提供的词义标注的精度,并且系统综合性能迅速停滞或下降。
3.迭代消歧。本系统允许一个组件有多个进行文本消歧的通道,允许利用由任何别的组件提供的高精度消歧(或减少明确含义),来提高对剩余词消歧的精度。例如,当遇到一句话中的词“cup”和“green”时,一个特定WSD组件504可能辨别不出是涉及“高尔夫”的“球洞”,还是较普通的“饮水容器”。如果另一个WSD组件504能够对词“green”消歧为“高尔夫球场”的含义,那么现在第一个组件504也能够正确消歧“golf”为“高尔夫球洞”。在这种情况下,WSD组件504互相影响得到了更多可能的含义。
4.自动调谐WSD模块32的方法。WSD模块32包括一个为各组件和参数值合并一个最佳“处方”的方法。在提供了利用多个组件的多次迭代来获取最大可能精度的参数的情形下,这种合并集合是最佳的。
5.多级明确含义。通过同时对粗略和精细含义操作,本实施例可以有效地整合不同的组件。例如,运行几类语言组件尝试辨别文本主题内容时,由于常常遵从语法而不是语义特性,相对于精细含义这些类组件往往有很低的精度,但相对于粗略含义时效果很好。WSD组件32可以合并给出了精细和粗略含义的各组件结果,允许每个组件运行最适合它的含义粒度。此外,仅要求粗略含义的应用软件可以从WSD模块32获取这些。由于它们的粗劣性,这些粗略含义将会得到比精细含义更高的精度。
6.使用特殊领域数据。如果知道相关问题领域的信息,本实施例可能偏向于支持与问题领域匹配的含义。例如,如果知道一个特殊文档涉及法律领域,那么WSD模块32会提供支持法律领域中那些术语的各组件的含义分布。
7.逐步减少明确含义。应该知道,现有技术系统是通过在一个单次迭代中尝试为每个词选择一个单个含义来执行消歧,这就意味着一性删除了所有明确含义,从而降低了消歧精度。相反,本实施例逐步执行消歧过程,每次迭代仅删除部分明确含义。
随意地,本实施例采用元数据。例如,通过允许标题中的词对消歧实施不均衡权重,可用文档标题来援助文档查询的消歧过程。
尽管参照了一些特定实施例来描述本发明,但是本领域普通技术人员很清楚在不脱离在后附权利要求中所概括的本发明范围的情况下可以进行多种变化。本领域普通技术人员对以下一个或更多的专业都具有充分的了解:计算机编程,机器学习和计算机语言学。
Claims (18)
1.一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的明确含义,所述方法包括步骤:
从所述多个消歧组件中作一选择并将该选择应应用于所述文本以确定所述文本处的明确含义,其中
所述选择中的每个组件都提供一所述文本处的明确含义并带有一个置信度和概率;和
用来自所述选择的一文本处的明确含义的选择确定所述明确含义。
2.根据权力要求1所述的处理自然语言文本的方法,其特征在于,各组件的所述选择由一个中心模块来依次激活和控制。
3.根据权力要求2所述的处理自然语言文本的方法,其还包括从所述多个组件中确定一第二组件选择;
将所述第二选择应用于所述文本以改进所述明确含义;其中
所述第二选择的每个组件提供一第二文本处的明确含义并带有一第二置信度和第二概率;
用来自所述第二选择的一第二文本处的明确含义选择来确定所述明确含义。
4.根据权力要求3所述的处理自然语言文本的方法,其还包括在将所述第一选择应应用于所述文本之后,并且在将所述第二选择应应用于改进所述明确含义之前,消除所述明确含义中置信度低于其阈值的含义。
5.根据权力要求4所述的处理自然语言文本的方法,其特征在于当所述多个组件中的一个特定组件出现在所述的选择和所述的第二选择中时,至少调整其中之一的置信度和概率将所述第二选择应用于所述文本时。
6.根据权力要求4所述的处理自然语言文本的方法,其特征在于所述第一组件选择和第二组件选择相同。
7.根据权力要求4所述的处理自然语言文本的方法,其特征在于利用每一组件的特性,由置信函数生成所述每一组件的所述置信度。
8.根据权力要求4所述的处理自然语言文本的方法,其特征在于,将用来确定所述文本处的明确含义的所述组件选择应用于所述文本后,所述方法还包括
对于每个所述选择的所述组件,为其明确含义生成一个概率分布;以及
合并所述选择的所有概率分布。
9.根据权力要求8所述的处理自然语言文本的方法,其特征在于所述组件选择根据所述文本的语境对所述文本进行消歧,所述语境由一领域、用户历史记录和基本内容确定。
10.根据权力要求8所述的自然语言文本的方法,其还包括将所述组件选择应用于所述文本后,利用所述明确含义改进所述组件选择中的每一组件知识库。
11.根据权力要求4所述的处理自然语言文本的方法,其特征在于至少有一个所述组件选择仅为粗略含义提供结果。
12.根据权力要求4所述的处理自然语言文本的方法,其特征在于利用一种合并算法将所述组件选择的所有结果合并成一个结果。
13.根据权力要求12所述的处理自然语言文本的方法,其特征在于所述程序利用含有合并粗略含义的第一阶段,以及含有合并每个粗略含义组内的精细含义的第二阶段。
14.根据权力要求13所述的处理自然语言文本的方法,其特征在于所述合并程序利用了一个加权概率分布总和,而所述权重是和所述概率分布相关的置信度,并且其中所述合并程序包括一个加权平均置信度,且所述权重也是和所述概率分布相关的置信度。
15.一种生成词义标注文本的方法,所述方法包括以下步骤:
利用消歧组件对大量文档进行消歧;
为所述组件提供一词语的所识别的含义生成一个置信度和概率值;
如果所述词的所述含义的所述置信度低于设定的阈值,那么忽略所述含义;以及
如果所述词的所述含义的所述置信度高于所述的设定阈值,那么把所述含义加入所述词义标注文本;
16.一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的一个或多个明确含义,所述方法包括步骤:
为消歧过程指定一个精度目标;以及
将一所述多个消歧组件中的组件选择应用于满足所述精度目标。
17.一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的一明确含义,所述方法包括步骤:
识别所述文本的一组含义;以及
识别并从所述含义组中删除不需要的含义。
18.一种处理自然语言文本的方法,其使用多个消歧组件确定所述文本的一明确含义,所述方法包括步骤:
识别所述文本的一组含义;以及
识别并从所述含义组中删除指定数量的明确含义。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US49668103P | 2003-08-21 | 2003-08-21 | |
US60/496,681 | 2003-08-21 | ||
PCT/CA2004/001531 WO2005020091A1 (en) | 2003-08-21 | 2004-08-20 | System and method for processing text utilizing a suite of disambiguation techniques |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1871597A true CN1871597A (zh) | 2006-11-29 |
CN1871597B CN1871597B (zh) | 2010-04-14 |
Family
ID=34216034
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480031158XA Expired - Fee Related CN1871603B (zh) | 2003-08-21 | 2004-08-20 | 处理查询的系统和方法 |
CN2004800312332A Expired - Fee Related CN1871597B (zh) | 2003-08-21 | 2004-08-20 | 利用一套消歧技术处理文本的系统和方法 |
CN200480023961A Expired - Fee Related CN100580666C (zh) | 2003-08-21 | 2004-08-20 | 使用消除歧义的查询搜索消除歧义信息的方法和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480031158XA Expired - Fee Related CN1871603B (zh) | 2003-08-21 | 2004-08-20 | 处理查询的系统和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480023961A Expired - Fee Related CN100580666C (zh) | 2003-08-21 | 2004-08-20 | 使用消除歧义的查询搜索消除歧义信息的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (4) | US7509313B2 (zh) |
EP (3) | EP1665092A4 (zh) |
CN (3) | CN1871603B (zh) |
CA (3) | CA2536265C (zh) |
WO (3) | WO2005020091A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901210A (zh) * | 2009-05-25 | 2010-12-01 | 日电(中国)有限公司 | 词义消歧系统和方法 |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN105868193A (zh) * | 2015-01-19 | 2016-08-17 | 富士通株式会社 | 用于检测电子文本中的产品相关信息的装置和方法 |
CN106407180A (zh) * | 2016-08-30 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN108780444A (zh) * | 2016-03-10 | 2018-11-09 | 微软技术许可有限责任公司 | 可扩展设备和依赖于域的自然语言理解 |
CN109271621A (zh) * | 2017-07-18 | 2019-01-25 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN109977418A (zh) * | 2019-04-09 | 2019-07-05 | 南瑞集团有限公司 | 一种基于语义向量的短文本相似性度量方法 |
CN110168541A (zh) * | 2016-07-29 | 2019-08-23 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
US10613746B2 (en) | 2012-01-16 | 2020-04-07 | Touchtype Ltd. | System and method for inputting text |
CN111539219A (zh) * | 2017-05-19 | 2020-08-14 | 北京蓦然认知科技有限公司 | 一种用于自然语言内容标题消歧的方法、设备和系统 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
Families Citing this family (488)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6804662B1 (en) * | 2000-10-27 | 2004-10-12 | Plumtree Software, Inc. | Method and apparatus for query and analysis |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7185271B2 (en) * | 2002-08-20 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | Methods and systems for implementing auto-complete in a web page |
US20070136251A1 (en) * | 2003-08-21 | 2007-06-14 | Idilia Inc. | System and Method for Processing a Query |
US7548910B1 (en) * | 2004-01-30 | 2009-06-16 | The Regents Of The University Of California | System and method for retrieving scenario-specific documents |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US7856441B1 (en) * | 2005-01-10 | 2010-12-21 | Yahoo! Inc. | Search systems and methods using enhanced contextual queries |
US7409402B1 (en) * | 2005-09-20 | 2008-08-05 | Yahoo! Inc. | Systems and methods for presenting advertising content based on publisher-selected labels |
US8972856B2 (en) * | 2004-07-29 | 2015-03-03 | Yahoo! Inc. | Document modification by a client-side application |
US7603349B1 (en) * | 2004-07-29 | 2009-10-13 | Yahoo! Inc. | User interfaces for search systems using in-line contextual queries |
US7958115B2 (en) * | 2004-07-29 | 2011-06-07 | Yahoo! Inc. | Search systems and methods using in-line contextual queries |
US7421441B1 (en) * | 2005-09-20 | 2008-09-02 | Yahoo! Inc. | Systems and methods for presenting information based on publisher-selected labels |
US20060101504A1 (en) * | 2004-11-09 | 2006-05-11 | Veveo.Tv, Inc. | Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input |
US7895218B2 (en) | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
US20070266406A1 (en) * | 2004-11-09 | 2007-11-15 | Murali Aravamudan | Method and system for performing actions using a non-intrusive television with reduced text input |
US9137115B2 (en) | 2004-12-06 | 2015-09-15 | Bmc Software, Inc. | System and method for resource reconciliation in an enterprise management system |
EP1667360A1 (en) | 2004-12-06 | 2006-06-07 | BMC Software, Inc. | Generic discovery for computer networks |
US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
EP1846815A2 (en) * | 2005-01-31 | 2007-10-24 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
JP2008538019A (ja) * | 2005-01-31 | 2008-10-02 | ムスグローブ テクノロジー エンタープライジィーズ,エルエルシー | 連結した分類構造を生成するためのシステムおよび方法 |
WO2006083939A2 (en) * | 2005-01-31 | 2006-08-10 | 4Info, Inc. | Prioritization of search responses system and method |
US8150846B2 (en) * | 2005-02-17 | 2012-04-03 | Microsoft Corporation | Content searching and configuration of search results |
CN1841372A (zh) * | 2005-03-29 | 2006-10-04 | 国际商业机器公司 | 帮用户根据非结构化信息源形成结构化图表的方法和设备 |
US8849860B2 (en) | 2005-03-30 | 2014-09-30 | Primal Fusion Inc. | Systems and methods for applying statistical inference techniques to knowledge representations |
US9177248B2 (en) | 2005-03-30 | 2015-11-03 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating customization |
US9104779B2 (en) | 2005-03-30 | 2015-08-11 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
US9378203B2 (en) | 2008-05-01 | 2016-06-28 | Primal Fusion Inc. | Methods and apparatus for providing information of interest to one or more users |
US10002325B2 (en) | 2005-03-30 | 2018-06-19 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating inference rules |
US7849090B2 (en) | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
US9208229B2 (en) * | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
JP2008537225A (ja) * | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
US20080195601A1 (en) * | 2005-04-14 | 2008-08-14 | The Regents Of The University Of California | Method For Information Retrieval |
US7962504B1 (en) * | 2005-05-26 | 2011-06-14 | Aol Inc. | Sourcing terms into a search engine |
US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
US7702665B2 (en) * | 2005-06-14 | 2010-04-20 | Colloquis, Inc. | Methods and apparatus for evaluating semantic proximity |
KR100544514B1 (ko) * | 2005-06-27 | 2006-01-24 | 엔에이치엔(주) | 검색 쿼리 연관성 판단 방법 및 시스템 |
US7933395B1 (en) | 2005-06-27 | 2011-04-26 | Google Inc. | Virtual tour of user-defined paths in a geographic information system |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US7788266B2 (en) | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
WO2007029348A1 (ja) * | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7711737B2 (en) * | 2005-09-12 | 2010-05-04 | Microsoft Corporation | Multi-document keyphrase extraction using partial mutual information |
US7620607B1 (en) * | 2005-09-26 | 2009-11-17 | Quintura Inc. | System and method for using a bidirectional neural network to identify sentences for use as document annotations |
US7475072B1 (en) | 2005-09-26 | 2009-01-06 | Quintura, Inc. | Context-based search visualization and context management using neural networks |
KR100724122B1 (ko) * | 2005-09-28 | 2007-06-04 | 최진근 | 데이터의 연관성 구조를 저장하는 번들데이터베이스관리시스템 및 그 관리방법 |
US7958124B2 (en) * | 2005-09-28 | 2011-06-07 | Choi Jin-Keun | System and method for managing bundle data database storing data association structure |
CN101351794B (zh) * | 2005-10-04 | 2016-02-10 | 汤姆森路透社全球资源公司 | 用于评估医学术语模糊性的系统、方法和软件 |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7644054B2 (en) * | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
US7681147B2 (en) * | 2005-12-13 | 2010-03-16 | Yahoo! Inc. | System for determining probable meanings of inputted words |
US20080228738A1 (en) * | 2005-12-13 | 2008-09-18 | Wisteme, Llc | Web based open knowledge system with user-editable attributes |
US7660786B2 (en) * | 2005-12-14 | 2010-02-09 | Microsoft Corporation | Data independent relevance evaluation utilizing cognitive concept relationship |
US8694530B2 (en) | 2006-01-03 | 2014-04-08 | Textdigger, Inc. | Search system with query refinement and search method |
US20070185860A1 (en) * | 2006-01-24 | 2007-08-09 | Michael Lissack | System for searching |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US7849047B2 (en) | 2006-02-09 | 2010-12-07 | Ebay Inc. | Method and system to analyze domain rules based on domain coverage of the domain rules |
US7739226B2 (en) * | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of the aspect rules |
US7640234B2 (en) * | 2006-02-09 | 2009-12-29 | Ebay Inc. | Methods and systems to communicate information |
US7725417B2 (en) * | 2006-02-09 | 2010-05-25 | Ebay Inc. | Method and system to analyze rules based on popular query coverage |
US7739225B2 (en) | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of an aspect-value pair |
US9443333B2 (en) * | 2006-02-09 | 2016-09-13 | Ebay Inc. | Methods and systems to communicate information |
US8380698B2 (en) * | 2006-02-09 | 2013-02-19 | Ebay Inc. | Methods and systems to generate rules to identify data items |
US8195683B2 (en) * | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
US7774341B2 (en) | 2006-03-06 | 2010-08-10 | Veveo, Inc. | Methods and systems for selecting and presenting content based on dynamically identifying microgenres associated with the content |
US7634471B2 (en) * | 2006-03-30 | 2009-12-15 | Microsoft Corporation | Adaptive grouping in a file network |
US20070255693A1 (en) * | 2006-03-30 | 2007-11-01 | Veveo, Inc. | User interface method and system for incrementally searching and selecting content items and for presenting advertising in response to search activities |
US8073860B2 (en) * | 2006-03-30 | 2011-12-06 | Veveo, Inc. | Method and system for incrementally selecting and providing relevant search engines in response to a user query |
US7624130B2 (en) * | 2006-03-30 | 2009-11-24 | Microsoft Corporation | System and method for exploring a semantic file network |
US9135238B2 (en) * | 2006-03-31 | 2015-09-15 | Google Inc. | Disambiguation of named entities |
WO2007114932A2 (en) | 2006-04-04 | 2007-10-11 | Textdigger, Inc. | Search system and method with text function tagging |
EP4209927A1 (en) | 2006-04-20 | 2023-07-12 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
US8150827B2 (en) * | 2006-06-07 | 2012-04-03 | Renew Data Corp. | Methods for enhancing efficiency and cost effectiveness of first pass review of documents |
US20080004920A1 (en) * | 2006-06-30 | 2008-01-03 | Unisys Corporation | Airline management system generating routings in real-time |
US8255383B2 (en) * | 2006-07-14 | 2012-08-28 | Chacha Search, Inc | Method and system for qualifying keywords in query strings |
US7792967B2 (en) * | 2006-07-14 | 2010-09-07 | Chacha Search, Inc. | Method and system for sharing and accessing resources |
US7698328B2 (en) * | 2006-08-11 | 2010-04-13 | Apple Inc. | User-directed search refinement |
US8306326B2 (en) * | 2006-08-30 | 2012-11-06 | Amazon Technologies, Inc. | Method and system for automatically classifying page images |
US8589869B2 (en) | 2006-09-07 | 2013-11-19 | Wolfram Alpha Llc | Methods and systems for determining a formula |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080071533A1 (en) * | 2006-09-14 | 2008-03-20 | Intervoice Limited Partnership | Automatic generation of statistical language models for interactive voice response applications |
US20080071744A1 (en) * | 2006-09-18 | 2008-03-20 | Elad Yom-Tov | Method and System for Interactively Navigating Search Results |
WO2008045690A2 (en) | 2006-10-06 | 2008-04-17 | Veveo, Inc. | Linear character selection display interface for ambiguous text input |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
RU2618375C2 (ru) * | 2015-07-02 | 2017-05-03 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Расширение возможностей информационного поиска |
US9098489B2 (en) | 2006-10-10 | 2015-08-04 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9075864B2 (en) | 2006-10-10 | 2015-07-07 | Abbyy Infopoisk Llc | Method and system for semantic searching using syntactic and semantic analysis |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US9645993B2 (en) * | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
US8359190B2 (en) * | 2006-10-27 | 2013-01-22 | Hewlett-Packard Development Company, L.P. | Identifying semantic positions of portions of a text |
US7734623B2 (en) * | 2006-11-07 | 2010-06-08 | Cycorp, Inc. | Semantics-based method and apparatus for document analysis |
CN100507915C (zh) * | 2006-11-09 | 2009-07-01 | 华为技术有限公司 | 网络搜索方法、网络搜索设备和用户终端 |
US8078884B2 (en) | 2006-11-13 | 2011-12-13 | Veveo, Inc. | Method of and system for selecting and presenting content based on user identification |
FI20060995A0 (fi) * | 2006-11-13 | 2006-11-13 | Tiksis Technologies Oy | Luonnollisen kielen käsittely |
US8635203B2 (en) * | 2006-11-16 | 2014-01-21 | Yahoo! Inc. | Systems and methods using query patterns to disambiguate query intent |
US8131546B1 (en) * | 2007-01-03 | 2012-03-06 | Stored Iq, Inc. | System and method for adaptive sentence boundary disambiguation |
WO2008080190A1 (en) * | 2007-01-04 | 2008-07-10 | Thinking Solutions Pty Ltd | Linguistic analysis |
US9093073B1 (en) * | 2007-02-12 | 2015-07-28 | West Corporation | Automatic speech recognition tagging |
US7437370B1 (en) * | 2007-02-19 | 2008-10-14 | Quintura, Inc. | Search engine graphical interface using maps and images |
US8112402B2 (en) * | 2007-02-26 | 2012-02-07 | Microsoft Corporation | Automatic disambiguation based on a reference resource |
US8954469B2 (en) | 2007-03-14 | 2015-02-10 | Vcvciii Llc | Query templates and labeled search tip system, methods, and techniques |
US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US20080235216A1 (en) * | 2007-03-23 | 2008-09-25 | Ruttenberg Steven E | Method of predicitng affinity between entities |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7809714B1 (en) | 2007-04-30 | 2010-10-05 | Lawrence Richard Smith | Process for enhancing queries for information retrieval |
US8190422B2 (en) * | 2007-05-20 | 2012-05-29 | George Mason Intellectual Properties, Inc. | Semantic cognitive map |
WO2008148012A1 (en) * | 2007-05-25 | 2008-12-04 | Veveo, Inc. | System and method for text disambiguation and context designation in incremental search |
US20080313574A1 (en) * | 2007-05-25 | 2008-12-18 | Veveo, Inc. | System and method for search with reduced physical interaction requirements |
US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US7970766B1 (en) | 2007-07-23 | 2011-06-28 | Google Inc. | Entity type assignment |
US8463593B2 (en) * | 2007-08-31 | 2013-06-11 | Microsoft Corporation | Natural language hypernym weighting for word sense disambiguation |
US8280721B2 (en) * | 2007-08-31 | 2012-10-02 | Microsoft Corporation | Efficiently representing word sense probabilities |
US20090094211A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Implementing an expanded search and providing expanded search results |
US8108405B2 (en) | 2007-10-05 | 2012-01-31 | Fujitsu Limited | Refining a search space in response to user input |
US8543380B2 (en) | 2007-10-05 | 2013-09-24 | Fujitsu Limited | Determining a document specificity |
US8145660B2 (en) * | 2007-10-05 | 2012-03-27 | Fujitsu Limited | Implementing an expanded search and providing expanded search results |
US20090094210A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Intelligently sorted search results |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
WO2009059297A1 (en) * | 2007-11-01 | 2009-05-07 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
US8019772B2 (en) * | 2007-12-05 | 2011-09-13 | International Business Machines Corporation | Computer method and apparatus for tag pre-search in social software |
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
US9501467B2 (en) | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8577894B2 (en) | 2008-01-25 | 2013-11-05 | Chacha Search, Inc | Method and system for access to restricted resources |
US10049100B2 (en) | 2008-01-30 | 2018-08-14 | Thomson Reuters Global Resources Unlimited Company | Financial event and relationship extraction |
US8392436B2 (en) * | 2008-02-07 | 2013-03-05 | Nec Laboratories America, Inc. | Semantic search via role labeling |
US10269024B2 (en) * | 2008-02-08 | 2019-04-23 | Outbrain Inc. | Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content |
US20090234638A1 (en) * | 2008-03-14 | 2009-09-17 | Microsoft Corporation | Use of a Speech Grammar to Recognize Instant Message Input |
US8180754B1 (en) * | 2008-04-01 | 2012-05-15 | Dranias Development Llc | Semantic neural network for aggregating query searches |
US8112431B2 (en) * | 2008-04-03 | 2012-02-07 | Ebay Inc. | Method and system for processing search requests |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8676732B2 (en) | 2008-05-01 | 2014-03-18 | Primal Fusion Inc. | Methods and apparatus for providing information of interest to one or more users |
EP2300966A4 (en) | 2008-05-01 | 2011-10-19 | Peter Sweeney | METHOD, SYSTEM AND COMPUTER PROGRAM FOR THE USER-CONTROLLED DYNAMIC PRODUCTION OF SEMANTIC NETWORKS AND MEDIA SYNTHESIS |
US9361365B2 (en) * | 2008-05-01 | 2016-06-07 | Primal Fusion Inc. | Methods and apparatus for searching of content using semantic synthesis |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20090307003A1 (en) * | 2008-05-16 | 2009-12-10 | Daniel Benyamin | Social advertisement network |
US20090326922A1 (en) * | 2008-06-30 | 2009-12-31 | International Business Machines Corporation | Client side reconciliation of typographical errors in messages from input-limited devices |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US20120166414A1 (en) * | 2008-08-11 | 2012-06-28 | Ultra Unilimited Corporation (dba Publish) | Systems and methods for relevance scoring |
CA2734756C (en) | 2008-08-29 | 2018-08-21 | Primal Fusion Inc. | Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions |
GB2463669A (en) * | 2008-09-19 | 2010-03-24 | Motorola Inc | Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items |
US9092517B2 (en) * | 2008-09-23 | 2015-07-28 | Microsoft Technology Licensing, Llc | Generating synonyms based on query log data |
US20100131513A1 (en) | 2008-10-23 | 2010-05-27 | Lundberg Steven W | Patent mapping |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
EP2368201A4 (en) | 2008-12-09 | 2013-08-07 | Univ Houston System | DISAMBIGUIATION OF SENSE OF A WORD |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10831724B2 (en) * | 2008-12-19 | 2020-11-10 | Bmc Software, Inc. | Method of reconciling resources in the metadata hierarchy |
US8108393B2 (en) * | 2009-01-09 | 2012-01-31 | Hulu Llc | Method and apparatus for searching media program databases |
US8463806B2 (en) | 2009-01-30 | 2013-06-11 | Lexisnexis | Methods and systems for creating and using an adaptive thesaurus |
US20100217768A1 (en) * | 2009-02-20 | 2010-08-26 | Hong Yu | Query System for Biomedical Literature Using Keyword Weighted Queries |
WO2010107327A1 (en) * | 2009-03-20 | 2010-09-23 | Syl Research Limited | Natural language processing method and system |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
US8712774B2 (en) * | 2009-03-30 | 2014-04-29 | Nuance Communications, Inc. | Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems |
US20100281025A1 (en) * | 2009-05-04 | 2010-11-04 | Motorola, Inc. | Method and system for recommendation of content items |
US20100293179A1 (en) * | 2009-05-14 | 2010-11-18 | Microsoft Corporation | Identifying synonyms of entities using web search |
US8601015B1 (en) * | 2009-05-15 | 2013-12-03 | Wolfram Alpha Llc | Dynamic example generation for queries |
US8788524B1 (en) | 2009-05-15 | 2014-07-22 | Wolfram Alpha Llc | Method and system for responding to queries in an imprecise syntax |
US8504550B2 (en) * | 2009-05-15 | 2013-08-06 | Citizennet Inc. | Social network message categorization systems and methods |
US8533203B2 (en) * | 2009-06-04 | 2013-09-10 | Microsoft Corporation | Identifying synonyms of entities using a document collection |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US8370275B2 (en) | 2009-06-30 | 2013-02-05 | International Business Machines Corporation | Detecting factual inconsistencies between a document and a fact-base |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
TWI412277B (zh) * | 2009-08-10 | 2013-10-11 | Univ Nat Cheng Kung | 基於故事情節的結構化影片摘要方法 |
US20110040604A1 (en) * | 2009-08-13 | 2011-02-17 | Vertical Acuity, Inc. | Systems and Methods for Providing Targeted Content |
US9396485B2 (en) * | 2009-12-24 | 2016-07-19 | Outbrain Inc. | Systems and methods for presenting content |
EP2341450A1 (en) * | 2009-08-21 | 2011-07-06 | Mikko Kalervo Väänänen | Method and means for data searching and language translation |
US9292855B2 (en) | 2009-09-08 | 2016-03-22 | Primal Fusion Inc. | Synthesizing messaging using context provided by consumers |
US8380697B2 (en) * | 2009-10-21 | 2013-02-19 | Citizennet Inc. | Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency |
US11023675B1 (en) | 2009-11-03 | 2021-06-01 | Alphasense OY | User interface for use with a search engine for searching financial related documents |
US9262520B2 (en) | 2009-11-10 | 2016-02-16 | Primal Fusion Inc. | System, method and computer program for creating and manipulating data structures using an interactive graphical interface |
US20110119047A1 (en) * | 2009-11-19 | 2011-05-19 | Tatu Ylonen Oy Ltd | Joint disambiguation of the meaning of a natural language expression |
US8504355B2 (en) * | 2009-11-20 | 2013-08-06 | Clausal Computing Oy | Joint disambiguation of syntactic and semantic ambiguity |
US9208259B2 (en) * | 2009-12-02 | 2015-12-08 | International Business Machines Corporation | Using symbols to search local and remote data stores |
US8554854B2 (en) | 2009-12-11 | 2013-10-08 | Citizennet Inc. | Systems and methods for identifying terms relevant to web pages using social network messages |
US8725717B2 (en) * | 2009-12-23 | 2014-05-13 | Palo Alto Research Center Incorporated | System and method for identifying topics for short text communications |
US20110161091A1 (en) * | 2009-12-24 | 2011-06-30 | Vertical Acuity, Inc. | Systems and Methods for Connecting Entities Through Content |
US20110197137A1 (en) * | 2009-12-24 | 2011-08-11 | Vertical Acuity, Inc. | Systems and Methods for Rating Content |
US10713666B2 (en) | 2009-12-24 | 2020-07-14 | Outbrain Inc. | Systems and methods for curating content |
US10607235B2 (en) * | 2009-12-24 | 2020-03-31 | Outbrain Inc. | Systems and methods for curating content |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US20110191332A1 (en) * | 2010-02-04 | 2011-08-04 | Veveo, Inc. | Method of and System for Updating Locally Cached Content Descriptor Information |
US9684683B2 (en) * | 2010-02-09 | 2017-06-20 | Siemens Aktiengesellschaft | Semantic search tool for document tagging, indexing and search |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8341099B2 (en) | 2010-03-12 | 2012-12-25 | Microsoft Corporation | Semantics update and adaptive interfaces in connection with information as a service |
US8712979B2 (en) | 2010-03-26 | 2014-04-29 | Bmc Software, Inc. | Statistical identification of instances during reconciliation process |
CN102207936B (zh) * | 2010-03-30 | 2013-10-23 | 国际商业机器公司 | 用于提示电子文档内容变更的方法和系统 |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US9600566B2 (en) | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
US8484015B1 (en) | 2010-05-14 | 2013-07-09 | Wolfram Alpha Llc | Entity pages |
US9141690B2 (en) * | 2010-05-14 | 2015-09-22 | Salesforce.Com, Inc. | Methods and systems for categorizing data in an on-demand database environment |
US20110289025A1 (en) * | 2010-05-19 | 2011-11-24 | Microsoft Corporation | Learning user intent from rule-based training data |
US10474647B2 (en) | 2010-06-22 | 2019-11-12 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
US9235806B2 (en) | 2010-06-22 | 2016-01-12 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
US8812298B1 (en) | 2010-07-28 | 2014-08-19 | Wolfram Alpha Llc | Macro replacement of natural language input |
US9703871B1 (en) | 2010-07-30 | 2017-07-11 | Google Inc. | Generating query refinements using query components |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US9779168B2 (en) | 2010-10-04 | 2017-10-03 | Excalibur Ip, Llc | Contextual quick-picks |
US9418155B2 (en) * | 2010-10-14 | 2016-08-16 | Microsoft Technology Licensing, Llc | Disambiguation of entities |
US8612293B2 (en) | 2010-10-19 | 2013-12-17 | Citizennet Inc. | Generation of advertising targeting information based upon affinity information obtained from an online social network |
US8615434B2 (en) | 2010-10-19 | 2013-12-24 | Citizennet Inc. | Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US20120124028A1 (en) * | 2010-11-12 | 2012-05-17 | Microsoft Corporation | Unified Application Discovery across Application Stores |
US8645364B2 (en) * | 2010-12-13 | 2014-02-04 | Google Inc. | Providing definitions that are sensitive to the context of a text |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US20120239381A1 (en) | 2011-03-17 | 2012-09-20 | Sap Ag | Semantic phrase suggestion engine |
CN102682042B (zh) * | 2011-03-18 | 2014-07-02 | 日电(中国)有限公司 | 概念识别设备和方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9063927B2 (en) | 2011-04-06 | 2015-06-23 | Citizennet Inc. | Short message age classification |
US10127296B2 (en) | 2011-04-07 | 2018-11-13 | Bmc Software, Inc. | Cooperative naming for configuration items in a distributed configuration management database environment |
US9904726B2 (en) | 2011-05-04 | 2018-02-27 | Black Hills IP Holdings, LLC. | Apparatus and method for automated and assisted patent claim mapping and expense planning |
JP5234232B2 (ja) * | 2011-05-10 | 2013-07-10 | 日本電気株式会社 | 同義表現判定装置、方法及びプログラム |
US10068022B2 (en) | 2011-06-03 | 2018-09-04 | Google Llc | Identifying topical entities |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US11294977B2 (en) | 2011-06-20 | 2022-04-05 | Primal Fusion Inc. | Techniques for presenting content to a user based on the user's preferences |
US9098575B2 (en) | 2011-06-20 | 2015-08-04 | Primal Fusion Inc. | Preference-guided semantic processing |
US9069814B2 (en) | 2011-07-27 | 2015-06-30 | Wolfram Alpha Llc | Method and system for using natural language to generate widgets |
US9002892B2 (en) | 2011-08-07 | 2015-04-07 | CitizenNet, Inc. | Systems and methods for trend detection using frequency analysis |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8935230B2 (en) | 2011-08-25 | 2015-01-13 | Sap Se | Self-learning semantic search engine |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9734252B2 (en) | 2011-09-08 | 2017-08-15 | Wolfram Alpha Llc | Method and system for analyzing data using a query answering system |
US20130086033A1 (en) | 2011-10-03 | 2013-04-04 | Black Hills Ip Holdings, Llc | Systems, methods and user interfaces in a patent management system |
CN102937966A (zh) * | 2011-10-11 | 2013-02-20 | 微软公司 | 发现并消费相关数据 |
CN102999553B (zh) * | 2011-10-11 | 2016-02-24 | 微软技术许可有限责任公司 | 基于用户和数据属性推荐数据 |
US20130091163A1 (en) * | 2011-10-11 | 2013-04-11 | Microsoft Corporation | Discovering and consuming related data |
US8996549B2 (en) * | 2011-10-11 | 2015-03-31 | Microsoft Technology Licensing, Llc | Recommending data based on user and data attributes |
CN103049474A (zh) * | 2011-10-25 | 2013-04-17 | 微软公司 | 搜索查询和文档相关数据翻译 |
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
US10169339B2 (en) | 2011-10-31 | 2019-01-01 | Elwha Llc | Context-sensitive query enrichment |
US9851950B2 (en) | 2011-11-15 | 2017-12-26 | Wolfram Alpha Llc | Programming in a precise syntax using natural language |
US9269353B1 (en) * | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US8793199B2 (en) * | 2012-02-29 | 2014-07-29 | International Business Machines Corporation | Extraction of information from clinical reports |
CN103294661A (zh) * | 2012-03-01 | 2013-09-11 | 富泰华工业(深圳)有限公司 | 语言歧义消除系统及方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US8745019B2 (en) | 2012-03-05 | 2014-06-03 | Microsoft Corporation | Robust discovery of entity synonyms using query logs |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
DE112012005998T5 (de) * | 2012-03-07 | 2014-12-04 | Mitsubishi Electric Corporation | Vorrichtung, Verfahren und Programm zur Wortsinnschätzung |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US9053497B2 (en) | 2012-04-27 | 2015-06-09 | CitizenNet, Inc. | Systems and methods for targeting advertising to groups with strong ties within an online social network |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US9002702B2 (en) | 2012-05-03 | 2015-04-07 | International Business Machines Corporation | Confidence level assignment to information from audio transcriptions |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10032131B2 (en) | 2012-06-20 | 2018-07-24 | Microsoft Technology Licensing, Llc | Data services for enterprises leveraging search system data assets |
US9594831B2 (en) | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
EP2701087A4 (en) * | 2012-06-27 | 2014-07-09 | Rakuten Inc | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9305103B2 (en) * | 2012-07-03 | 2016-04-05 | Yahoo! Inc. | Method or system for semantic categorization |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US9229924B2 (en) | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
US9405424B2 (en) | 2012-08-29 | 2016-08-02 | Wolfram Alpha, Llc | Method and system for distributing and displaying graphical items |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9009197B2 (en) | 2012-11-05 | 2015-04-14 | Unified Compliance Framework (Network Frontiers) | Methods and systems for a compliance framework database schema |
US9575954B2 (en) | 2012-11-05 | 2017-02-21 | Unified Compliance Framework (Network Frontiers) | Structured dictionary |
WO2014074317A1 (en) * | 2012-11-08 | 2014-05-15 | Evernote Corporation | Extraction and clarification of ambiguities for addresses in documents |
US20140156703A1 (en) * | 2012-11-30 | 2014-06-05 | Altera Corporation | Method and apparatus for translating graphical symbols into query keywords |
US8892597B1 (en) | 2012-12-11 | 2014-11-18 | Google Inc. | Selecting data collections to search based on the query |
US20140188456A1 (en) * | 2012-12-27 | 2014-07-03 | Abbyy Development Llc | Dictionary Markup System and Method |
US9772995B2 (en) | 2012-12-27 | 2017-09-26 | Abbyy Development Llc | Finding an appropriate meaning of an entry in a text |
CN103914476B (zh) * | 2013-01-05 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索引导方法和搜索引擎 |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9626629B2 (en) | 2013-02-14 | 2017-04-18 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
WO2014127183A2 (en) | 2013-02-15 | 2014-08-21 | Voxy, Inc. | Language learning systems and methods |
US9305102B2 (en) | 2013-02-27 | 2016-04-05 | Google Inc. | Systems and methods for providing personalized search results based on prior user interactions |
US9972030B2 (en) | 2013-03-11 | 2018-05-15 | Criteo S.A. | Systems and methods for the semantic modeling of advertising creatives in targeted search advertising campaigns |
US9761225B2 (en) * | 2013-03-11 | 2017-09-12 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014160379A1 (en) * | 2013-03-14 | 2014-10-02 | Advanced Search Laboratories, Inc. | Dimensional articulation and cognium organization for information retrieval systems |
US9158799B2 (en) | 2013-03-14 | 2015-10-13 | Bmc Software, Inc. | Storing and retrieving context sensitive data in a management system |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10152538B2 (en) | 2013-05-06 | 2018-12-11 | Dropbox, Inc. | Suggested search based on a content item |
PT2994908T (pt) * | 2013-05-07 | 2019-10-18 | Veveo Inc | Interface de entrada incremental de discurso com retorno em tempo real |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US20140379324A1 (en) * | 2013-06-20 | 2014-12-25 | Microsoft Corporation | Providing web-based alternate text options |
US10372815B2 (en) * | 2013-07-12 | 2019-08-06 | Microsoft Technology Licensing, Llc | Interactive concept editing in computer-human interactive learning |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10275485B2 (en) * | 2014-06-10 | 2019-04-30 | Google Llc | Retrieving context from previous sessions |
US10282467B2 (en) * | 2014-06-26 | 2019-05-07 | International Business Machines Corporation | Mining product aspects from opinion text |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10262060B1 (en) * | 2014-07-07 | 2019-04-16 | Clarifai, Inc. | Systems and methods for facilitating searching, labeling, and/or filtering of digital media items |
US10073673B2 (en) * | 2014-07-14 | 2018-09-11 | Samsung Electronics Co., Ltd. | Method and system for robust tagging of named entities in the presence of source or translation errors |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9519635B2 (en) * | 2014-09-11 | 2016-12-13 | Automated Insights, Inc. | System and method for integrated development environments for dynamically generating narrative content |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10460239B2 (en) * | 2014-09-16 | 2019-10-29 | International Business Machines Corporation | Generation of inferred questions for a question answering system |
KR102348084B1 (ko) * | 2014-09-16 | 2022-01-10 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
KR102033395B1 (ko) * | 2014-11-20 | 2019-10-18 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US11663409B2 (en) | 2015-01-23 | 2023-05-30 | Conversica, Inc. | Systems and methods for training machine learning models using active learning |
US11106871B2 (en) | 2015-01-23 | 2021-08-31 | Conversica, Inc. | Systems and methods for configurable messaging response-action engine |
US11042910B2 (en) * | 2015-01-23 | 2021-06-22 | Conversica, Inc. | Systems and methods for processing message exchanges using artificial intelligence |
US11551188B2 (en) | 2015-01-23 | 2023-01-10 | Conversica, Inc. | Systems and methods for improved automated conversations with attendant actions |
US11100285B2 (en) | 2015-01-23 | 2021-08-24 | Conversica, Inc. | Systems and methods for configurable messaging with feature extraction |
US11301632B2 (en) | 2015-01-23 | 2022-04-12 | Conversica, Inc. | Systems and methods for natural language processing and classification |
US9767091B2 (en) * | 2015-01-23 | 2017-09-19 | Microsoft Technology Licensing, Llc | Methods for understanding incomplete natural language query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
WO2016147034A1 (en) | 2015-03-19 | 2016-09-22 | Yandex Europe Ag | Method of and system for processing a text stream |
US10045237B2 (en) * | 2015-04-09 | 2018-08-07 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for using high probability area and availability probability determinations for white space channel identification |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
WO2016171927A1 (en) * | 2015-04-20 | 2016-10-27 | Unified Compliance Framework (Network Frontiers) | Structured dictionary |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US11423023B2 (en) | 2015-06-05 | 2022-08-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10769184B2 (en) * | 2015-06-05 | 2020-09-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
CN104978878A (zh) * | 2015-06-26 | 2015-10-14 | 苏州点通教育科技有限公司 | 微课教学系统及方法 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10069940B2 (en) | 2015-09-10 | 2018-09-04 | Microsoft Technology Licensing, Llc | Deployment meta-data based applicability targetting |
US9965604B2 (en) | 2015-09-10 | 2018-05-08 | Microsoft Technology Licensing, Llc | De-duplication of per-user registration data |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10274983B2 (en) * | 2015-10-27 | 2019-04-30 | Yardi Systems, Inc. | Extended business name categorization apparatus and method |
US11216718B2 (en) * | 2015-10-27 | 2022-01-04 | Yardi Systems, Inc. | Energy management system |
US10275708B2 (en) * | 2015-10-27 | 2019-04-30 | Yardi Systems, Inc. | Criteria enhancement technique for business name categorization |
US10268965B2 (en) * | 2015-10-27 | 2019-04-23 | Yardi Systems, Inc. | Dictionary enhancement technique for business name categorization |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10460229B1 (en) * | 2016-03-18 | 2019-10-29 | Google Llc | Determining word senses using neural networks |
US10878191B2 (en) * | 2016-05-10 | 2020-12-29 | Nuance Communications, Inc. | Iterative ontology discovery |
US9760627B1 (en) * | 2016-05-13 | 2017-09-12 | International Business Machines Corporation | Private-public context analysis for natural language content disambiguation |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10191899B2 (en) | 2016-06-06 | 2019-01-29 | Comigo Ltd. | System and method for understanding text using a translation of the text |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US20180349354A1 (en) * | 2016-06-29 | 2018-12-06 | Intel Corporation | Natural language indexer for virtual assistants |
CN106294645A (zh) * | 2016-08-03 | 2017-01-04 | 王晓光 | 不同词性在大数据搜索中的实现方法及系统 |
WO2018023484A1 (zh) * | 2016-08-03 | 2018-02-08 | 王晓光 | 不同词性在大数据搜索中的实现方法及系统 |
US20180068031A1 (en) * | 2016-08-16 | 2018-03-08 | Ebay Inc. | Enhancing user queries using implicit indicators |
US10102200B2 (en) | 2016-08-25 | 2018-10-16 | International Business Machines Corporation | Predicate parses using semantic knowledge |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10268734B2 (en) * | 2016-09-30 | 2019-04-23 | International Business Machines Corporation | Providing search results based on natural language classification confidence information |
WO2018075224A1 (en) * | 2016-10-20 | 2018-04-26 | Google Llc | Determining phonetic relationships |
US10120860B2 (en) * | 2016-12-21 | 2018-11-06 | Intel Corporation | Methods and apparatus to identify a count of n-grams appearing in a corpus |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106709011B (zh) * | 2016-12-26 | 2019-07-23 | 武汉大学 | 一种基于空间定位簇的位置概念层次消解计算方法 |
US10140286B2 (en) | 2017-02-22 | 2018-11-27 | Google Llc | Optimized graph traversal |
CN108509449B (zh) * | 2017-02-24 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
US10546026B2 (en) | 2017-03-31 | 2020-01-28 | International Business Machines Corporation | Advanced search-term disambiguation |
US10872080B2 (en) * | 2017-04-24 | 2020-12-22 | Oath Inc. | Reducing query ambiguity using graph matching |
US10268688B2 (en) * | 2017-05-03 | 2019-04-23 | International Business Machines Corporation | Corpus-scoped annotation and analysis |
CN107180087B (zh) * | 2017-05-09 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种搜索方法及装置 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10372824B2 (en) * | 2017-05-15 | 2019-08-06 | International Business Machines Corporation | Disambiguating concepts in natural language |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10726061B2 (en) | 2017-11-17 | 2020-07-28 | International Business Machines Corporation | Identifying text for labeling utilizing topic modeling-based text clustering |
WO2019100167A1 (en) * | 2017-11-27 | 2019-05-31 | Retailcommon Inc. | Method and system for syntactic searching |
US10387576B2 (en) * | 2017-11-30 | 2019-08-20 | International Business Machines Corporation | Document preparation with argumentation support from a deep question answering system |
US11308128B2 (en) * | 2017-12-11 | 2022-04-19 | International Business Machines Corporation | Refining classification results based on glossary relationships |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11361416B2 (en) | 2018-03-20 | 2022-06-14 | Netflix, Inc. | Quantifying encoding comparison metric uncertainty via bootstrapping |
US10915577B2 (en) * | 2018-03-22 | 2021-02-09 | Adobe Inc. | Constructing enterprise-specific knowledge graphs |
US11799664B2 (en) * | 2018-03-26 | 2023-10-24 | Entigenlogic Llc | Verifying authenticity of content to produce knowledge |
US10838951B2 (en) | 2018-04-02 | 2020-11-17 | International Business Machines Corporation | Query interpretation disambiguation |
CN108920497B (zh) * | 2018-05-23 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
US11170770B2 (en) * | 2018-08-03 | 2021-11-09 | International Business Machines Corporation | Dynamic adjustment of response thresholds in a dialogue system |
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
US11226970B2 (en) * | 2018-09-28 | 2022-01-18 | Hitachi Vantara Llc | System and method for tagging database properties |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US10832680B2 (en) | 2018-11-27 | 2020-11-10 | International Business Machines Corporation | Speech-to-text engine customization |
US11237713B2 (en) * | 2019-01-21 | 2022-02-01 | International Business Machines Corporation | Graphical user interface based feature extraction application for machine learning and cognitive models |
US11386130B2 (en) * | 2019-01-28 | 2022-07-12 | Entigenlogic Llc | Converting content from a first to a second aptitude level |
WO2020180424A1 (en) | 2019-03-04 | 2020-09-10 | Iocurrents, Inc. | Data compression and communication using machine learning |
US10607598B1 (en) * | 2019-04-05 | 2020-03-31 | Capital One Services, Llc | Determining input data for speech processing |
US20200394257A1 (en) * | 2019-06-17 | 2020-12-17 | The Boeing Company | Predictive query processing for complex system lifecycle management |
US10769379B1 (en) | 2019-07-01 | 2020-09-08 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
US10824817B1 (en) | 2019-07-01 | 2020-11-03 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools for substituting authority document synonyms |
US11120227B1 (en) | 2019-07-01 | 2021-09-14 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
US11222057B2 (en) * | 2019-08-07 | 2022-01-11 | International Business Machines Corporation | Methods and systems for generating descriptions utilizing extracted entity descriptors |
US11501065B2 (en) * | 2019-09-11 | 2022-11-15 | Oracle International Corporation | Semantic parser including a coarse semantic parser and a fine semantic parser |
US20210141929A1 (en) * | 2019-11-12 | 2021-05-13 | Pilot Travel Centers Llc | Performing actions on personal data stored in multiple databases |
CN113051898A (zh) * | 2019-12-27 | 2021-06-29 | 北京阿博茨科技有限公司 | 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统 |
CN111159409B (zh) * | 2019-12-31 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
US11651156B2 (en) * | 2020-05-07 | 2023-05-16 | Optum Technology, Inc. | Contextual document summarization with semantic intelligence |
US11941138B2 (en) * | 2020-06-04 | 2024-03-26 | Pilot Travel Centers, LLC | Data deletion and obfuscation system |
CA3191100A1 (en) | 2020-08-27 | 2022-03-03 | Dorian J. Cougias | Automatically identifying multi-word expressions |
US11860943B2 (en) * | 2020-11-25 | 2024-01-02 | EMC IP Holding Company LLC | Method of “outcome driven data exploration” for datasets, business questions, and pipelines based on similarity mapping of business needs and asset use overlap |
US11710574B2 (en) | 2021-01-27 | 2023-07-25 | Verantos, Inc. | High validity real-world evidence study with deep phenotyping |
GB2622167A (en) * | 2021-05-17 | 2024-03-06 | Verantos Inc | System and method for term disambiguation |
US20230031040A1 (en) | 2021-07-20 | 2023-02-02 | Unified Compliance Framework (Network Frontiers) | Retrieval interface for content, such as compliance-related content |
US20230132090A1 (en) * | 2021-10-22 | 2023-04-27 | Tencent America LLC | Bridging semantics between words and definitions via aligning word sense inventories |
US20230185786A1 (en) * | 2021-12-13 | 2023-06-15 | International Business Machines Corporation | Detect data standardization gaps |
US11922126B1 (en) * | 2023-07-28 | 2024-03-05 | Intuit Inc. | Use of semantic confidence metrics for uncertainty estimation in large language models |
Family Cites Families (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5083571A (en) * | 1988-04-18 | 1992-01-28 | New York University | Use of brain electrophysiological quantitative data to classify and subtype an individual into diagnostic categories by discriminant and cluster analysis |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
US5317507A (en) | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5325298A (en) | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
EP0494573A1 (en) | 1991-01-08 | 1992-07-15 | International Business Machines Corporation | Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
IL107482A (en) * | 1992-11-04 | 1998-10-30 | Conquest Software Inc | A method for solving questions in natural language from databases of full texts |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5510981A (en) | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5519786A (en) | 1994-08-09 | 1996-05-21 | Trw Inc. | Method and apparatus for implementing a weighted voting scheme for multiple optical character recognition systems |
US5642502A (en) | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5794050A (en) | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5761665A (en) * | 1995-10-31 | 1998-06-02 | Pitney Bowes Inc. | Method of automatic database field identification for postal coding |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5907839A (en) | 1996-07-03 | 1999-05-25 | Yeda Reseach And Development, Co., Ltd. | Algorithm for context sensitive spelling correction |
US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
US6098065A (en) | 1997-02-13 | 2000-08-01 | Nortel Networks Corporation | Associative search engine |
US5996011A (en) | 1997-03-25 | 1999-11-30 | Unified Research Laboratories, Inc. | System and method for filtering data received by a computer system |
US6038560A (en) * | 1997-05-21 | 2000-03-14 | Oracle Corporation | Concept knowledge base search and retrieval system |
US6098033A (en) | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
US6138085A (en) | 1997-07-31 | 2000-10-24 | Microsoft Corporation | Inferring semantic relations |
US6078878A (en) | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
US6070134A (en) | 1997-07-31 | 2000-05-30 | Microsoft Corporation | Identifying salient semantic relation paths between two words |
US6105023A (en) | 1997-08-18 | 2000-08-15 | Dataware Technologies, Inc. | System and method for filtering a document stream |
US6003027A (en) * | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6260008B1 (en) | 1998-01-08 | 2001-07-10 | Sharp Kabushiki Kaisha | Method of and system for disambiguating syntactic word multiples |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6092034A (en) | 1998-07-27 | 2000-07-18 | International Business Machines Corporation | Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models |
US6487552B1 (en) * | 1998-10-05 | 2002-11-26 | Oracle Corporation | Database fine-grained access control |
US6480843B2 (en) * | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US6256629B1 (en) | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
US6189002B1 (en) | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6751606B1 (en) * | 1998-12-23 | 2004-06-15 | Microsoft Corporation | System for enhancing a query interface |
US7089194B1 (en) | 1999-06-17 | 2006-08-08 | International Business Machines Corporation | Method and apparatus for providing reduced cost online service and adaptive targeting of advertisements |
US7089236B1 (en) * | 1999-06-24 | 2006-08-08 | Search 123.Com, Inc. | Search engine interface |
KR20010004404A (ko) | 1999-06-28 | 2001-01-15 | 정선종 | 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 |
US6665665B1 (en) * | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6816857B1 (en) * | 1999-11-01 | 2004-11-09 | Applied Semantics, Inc. | Meaning-based advertising and document relevance determination |
US6405162B1 (en) | 1999-09-23 | 2002-06-11 | Xerox Corporation | Type-based selection of rules for semantically disambiguating words |
AU7534100A (en) * | 1999-09-24 | 2001-04-24 | Wordmap Limited | Apparatus for and method of searching |
GB0006153D0 (en) * | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
US6965858B2 (en) * | 2000-04-03 | 2005-11-15 | Xerox Corporation | Method and apparatus for reducing the intermediate alphabet occurring between cascaded finite state transducers |
US6636848B1 (en) * | 2000-05-31 | 2003-10-21 | International Business Machines Corporation | Information search using knowledge agents |
US20040076139A1 (en) * | 2000-07-03 | 2004-04-22 | Kenneth Kang-Yeh | Wireless name service registry and flexible call routing and scheduling |
EP1170677B1 (en) | 2000-07-04 | 2009-03-18 | International Business Machines Corporation | Method and system of weighted context feedback for result improvement in information retrieval |
GB0018645D0 (en) * | 2000-07-28 | 2000-09-13 | Tenara Limited | Dynamic personalization via semantic networks |
US7024407B2 (en) | 2000-08-24 | 2006-04-04 | Content Analyst Company, Llc | Word sense disambiguation |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US20050071333A1 (en) * | 2001-02-28 | 2005-03-31 | Mayfield James C | Method for determining synthetic term senses using reference text |
US7174341B2 (en) * | 2001-05-31 | 2007-02-06 | Synopsys, Inc. | Dynamic database management system and method |
US7184948B2 (en) | 2001-06-15 | 2007-02-27 | Sakhr Software Company | Method and system for theme-based word sense ambiguity reduction |
US7043492B1 (en) * | 2001-07-05 | 2006-05-09 | Requisite Technology, Inc. | Automated classification of items using classification mappings |
US20030101182A1 (en) * | 2001-07-18 | 2003-05-29 | Omri Govrin | Method and system for smart search engine and other applications |
US7007074B2 (en) * | 2001-09-10 | 2006-02-28 | Yahoo! Inc. | Targeted advertisements using time-dependent key search terms |
US7403938B2 (en) * | 2001-09-24 | 2008-07-22 | Iac Search & Media, Inc. | Natural language query processing |
US20030078928A1 (en) * | 2001-10-23 | 2003-04-24 | Dorosario Alden | Network wide ad targeting |
EP1485825A4 (en) * | 2002-02-04 | 2008-03-19 | Cataphora Inc | DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS |
US7451065B2 (en) * | 2002-03-11 | 2008-11-11 | International Business Machines Corporation | Method for constructing segmentation-based predictive models |
US20050021397A1 (en) * | 2003-07-22 | 2005-01-27 | Cui Yingwei Claire | Content-targeted advertising using collected user behavior data |
US20030220913A1 (en) * | 2002-05-24 | 2003-11-27 | International Business Machines Corporation | Techniques for personalized and adaptive search services |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7209875B2 (en) * | 2002-12-04 | 2007-04-24 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
US20040117173A1 (en) * | 2002-12-18 | 2004-06-17 | Ford Daniel Alexander | Graphical feedback for semantic interpretation of text and images |
US7403942B1 (en) * | 2003-02-04 | 2008-07-22 | Seisint, Inc. | Method and system for processing data records |
US20050033771A1 (en) * | 2003-04-30 | 2005-02-10 | Schmitter Thomas A. | Contextual advertising system |
US7260571B2 (en) * | 2003-05-19 | 2007-08-21 | International Business Machines Corporation | Disambiguation of term occurrences |
US8856163B2 (en) * | 2003-07-28 | 2014-10-07 | Google Inc. | System and method for providing a user interface with search query broadening |
US20070073678A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
JP2008537225A (ja) * | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
-
2004
- 2004-08-20 CA CA2536265A patent/CA2536265C/en not_active Expired - Fee Related
- 2004-08-20 US US10/921,875 patent/US7509313B2/en not_active Expired - Fee Related
- 2004-08-20 CA CA002536270A patent/CA2536270A1/en not_active Abandoned
- 2004-08-20 WO PCT/CA2004/001531 patent/WO2005020091A1/en active Application Filing
- 2004-08-20 CN CN200480031158XA patent/CN1871603B/zh not_active Expired - Fee Related
- 2004-08-20 CN CN2004800312332A patent/CN1871597B/zh not_active Expired - Fee Related
- 2004-08-20 EP EP04761694A patent/EP1665092A4/en not_active Withdrawn
- 2004-08-20 US US10/921,954 patent/US20050080613A1/en not_active Abandoned
- 2004-08-20 EP EP04761695A patent/EP1661031A4/en not_active Withdrawn
- 2004-08-20 US US10/921,820 patent/US7895221B2/en not_active Expired - Fee Related
- 2004-08-20 CN CN200480023961A patent/CN100580666C/zh not_active Expired - Fee Related
- 2004-08-20 CA CA002536262A patent/CA2536262A1/en not_active Abandoned
- 2004-08-20 WO PCT/CA2004/001530 patent/WO2005020093A1/en active Application Filing
- 2004-08-20 EP EP04761693A patent/EP1665091A4/en not_active Withdrawn
- 2004-08-20 WO PCT/CA2004/001529 patent/WO2005020092A1/en active Application Filing
-
2011
- 2011-02-21 US US13/031,600 patent/US20110202563A1/en not_active Abandoned
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901210A (zh) * | 2009-05-25 | 2010-12-01 | 日电(中国)有限公司 | 词义消歧系统和方法 |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN103201707B (zh) * | 2010-09-29 | 2017-09-29 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
US10613746B2 (en) | 2012-01-16 | 2020-04-07 | Touchtype Ltd. | System and method for inputting text |
CN105868193A (zh) * | 2015-01-19 | 2016-08-17 | 富士通株式会社 | 用于检测电子文本中的产品相关信息的装置和方法 |
CN108780444A (zh) * | 2016-03-10 | 2018-11-09 | 微软技术许可有限责任公司 | 可扩展设备和依赖于域的自然语言理解 |
CN110168541A (zh) * | 2016-07-29 | 2019-08-23 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
CN110168541B (zh) * | 2016-07-29 | 2023-10-17 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
CN106407180A (zh) * | 2016-08-30 | 2017-02-15 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
CN111539219A (zh) * | 2017-05-19 | 2020-08-14 | 北京蓦然认知科技有限公司 | 一种用于自然语言内容标题消歧的方法、设备和系统 |
CN109271621A (zh) * | 2017-07-18 | 2019-01-25 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN109271621B (zh) * | 2017-07-18 | 2023-04-18 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN108647705B (zh) * | 2018-04-23 | 2019-04-05 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN108647705A (zh) * | 2018-04-23 | 2018-10-12 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN109977418A (zh) * | 2019-04-09 | 2019-07-05 | 南瑞集团有限公司 | 一种基于语义向量的短文本相似性度量方法 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN111611810B (zh) * | 2020-05-29 | 2023-08-04 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1871603B (zh) | 2010-04-28 |
CN1839386A (zh) | 2006-09-27 |
US20050080776A1 (en) | 2005-04-14 |
EP1665092A1 (en) | 2006-06-07 |
CA2536265A1 (en) | 2005-03-03 |
CA2536270A1 (en) | 2005-03-03 |
WO2005020092A1 (en) | 2005-03-03 |
US20050080780A1 (en) | 2005-04-14 |
EP1665092A4 (en) | 2006-11-22 |
CN100580666C (zh) | 2010-01-13 |
CN1871603A (zh) | 2006-11-29 |
CA2536262A1 (en) | 2005-03-03 |
WO2005020091A1 (en) | 2005-03-03 |
WO2005020093A1 (en) | 2005-03-03 |
US20110202563A1 (en) | 2011-08-18 |
CN1871597B (zh) | 2010-04-14 |
CA2536265C (en) | 2012-11-13 |
EP1665091A1 (en) | 2006-06-07 |
EP1665091A4 (en) | 2006-11-15 |
US7895221B2 (en) | 2011-02-22 |
EP1661031A1 (en) | 2006-05-31 |
US7509313B2 (en) | 2009-03-24 |
EP1661031A4 (en) | 2006-12-13 |
US20050080613A1 (en) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1871597A (zh) | 利用一套消歧技术处理文本的系统和方法 | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
Baroni et al. | Introducing the La Repubblica Corpus: A Large, Annotated, TEI (XML)-compliant Corpus of Newspaper Italian. | |
CN1310172C (zh) | 生成候补同义词的数据处理方法和系统 | |
JP4173774B2 (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
CA2614416C (en) | Processing collocation mistakes in documents | |
US8335787B2 (en) | Topic word generation method and system | |
CN1490744A (zh) | 检索确认句的方法和系统 | |
CN1542649A (zh) | 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型 | |
CN101065746A (zh) | 文件自动丰富的方法和系统 | |
CN1910573A (zh) | 用来识别并分类命名实体的系统 | |
Netisopakul et al. | Word similarity datasets for Thai: Construction and evaluation | |
CN111488453B (zh) | 资源分级方法、装置、设备及存储介质 | |
CN1542648A (zh) | 用于词分析的系统和方法 | |
CN1158621C (zh) | 信息处理装置、信息处理方法 | |
Kessler et al. | Extraction of terminology in the field of construction | |
KR100597435B1 (ko) | 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법 | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
JP2007087157A (ja) | 翻訳システム、翻訳装置、翻訳方法及びプログラム | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム | |
CN1064464C (zh) | 以多重评分函数为基础的语言处理系统 | |
Revenko et al. | Discrimination of Word Senses with Hypernyms. | |
Pierce | Cost-effective machine learning strategies for shallow parsing | |
Ghayoomi | Training vs Post-training Cross-lingual Word Embedding Approaches: A Comparative Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100414 Termination date: 20130820 |