CN104584003B - 词检测和域字典推荐 - Google Patents

词检测和域字典推荐 Download PDF

Info

Publication number
CN104584003B
CN104584003B CN201380044316.4A CN201380044316A CN104584003B CN 104584003 B CN104584003 B CN 104584003B CN 201380044316 A CN201380044316 A CN 201380044316A CN 104584003 B CN104584003 B CN 104584003B
Authority
CN
China
Prior art keywords
word
text
dictionary
extracted
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380044316.4A
Other languages
English (en)
Other versions
CN104584003A (zh
Inventor
H·孙
C-H·李
J·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN104584003A publication Critical patent/CN104584003A/zh
Application granted granted Critical
Publication of CN104584003B publication Critical patent/CN104584003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

提供了新词检测和域字典推荐。当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词。然后词被分级以便包含在一个或多个词典或域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。此外,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否有更多有帮助的域字典可用的判断。当输入的词具有与某一给定域字典的高度关联性时,该域字典可被推荐给用户来增加用户输入额外文本以及编辑现有文本的准确性。

Description

词检测和域字典推荐
背景技术
随着因特网功能性、信息转移以及电子文档生产和使用方面的剧增,越来越多的新词正被创建并在用户之间传播,且越来越多的词正被用于与各种不同域字典相关联的电子文档创建和使用中。
当从例如因特网网页、电子邮件消息、文本消息、电子文档等一个或多个源接收到新词时,这些词可能不被识别为属于某一给定域字典,例如与字处理应用相关联的域字典,且因此诸如文本输入法、拼写检查、语法检查、自动输入完成等之类的功能性可能不能用于那些新词。对于诸如由不是按空格或其他分界或分隔指示符划分成词的字符串组成的中文之类的复杂语言来说,这可能尤其是有问题的。
此外,通常用户可能正在通过与某一给定域字典(例如标准英语、中文或其他标准语言域字典)相关联的一给定软件功能性(例如字处理应用)输入信息(如文本),但是该用户可能正在输入与某一更特定的域(如医学术语域)相关联的文本。如果该用户没有意识到与他的/她的文本输入相关联的域字典(如医学术语域字典)的可用性,则该用户可能失去该可用域字典的有价值的资源。
本发明正是对于这些和其他考虑事项而作出的。
发明内容
本发明的实施例通过提供新词检测和域字典推荐来解决上述和其他问题。根据一个实施例,当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词,这些规则包括停用词规则、词典子串和数序规则、前缀/后缀规则、以及语言模式规则。在排除了作为新词被加入到词语词典的低价值的词之后,剩下的词被分级以便包含在一个或多个词语词典和/或特定域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。
根据另一实施例,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否更多有帮助的域字典可用的判断。用户输入的词被提取并与各种可用的域字典中所包含的词进行比较。如果作出用户输入的词具有与用户不正在使用的某一域字典的高度关联性的判断,则可向用户推荐该域字典以增加用户输入额外文本和编辑现有文本的准确性。
一个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的详细描述并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的详细描述仅仅是解释性的,而不是对所要求保护的发明的限制。
提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
合并在本公开中并构成其一部分的附图例示出本发明的实施例。
图1例示出平板型计算设备的显示屏上显示的根据某一语言(例如中文)的文本内容,从中可检测到一个或多个新的词以包含在给定域字典中。
图2例示出用于从一个或多个源接收文本内容以及用于经新词检测引擎来从该文本内容检测一个或多个新词的系统架构。
图3是用于检测包含在接收到的或输入的文本内容选择中的新词的方法的流程图。
图4例示出用于对接收到的或输入的文本内容的域字典推荐的系统架构。
图5是用于与所接收到的或输入的文本内容相关联地推荐一个或多个域字典的方法的流程图。
图6例示出用于与所接收到的或输入的文本内容相关联地向用户推荐域字典的示例弹出对话框。
图7是例示出可用来实施本发明的各实施例的计算设备的示例物理组件的简化框图。
图8A和8B是可用来实施本发明的各实施例的移动计算设备的简化框图。
图9是可在其中实施本发明的各实施例的分布式计算系统的简化框图。
具体实施方式
如上简述,本发明的实施例涉及提供新词检测和域字典推荐。当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词。在排除了作为新词被加入到给定域字典的价值低的词之后,剩下的词被分级以便包含在一个或多个词语词典和/或特定域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。此外,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否有更多有帮助的域字典可用的判断。如果作出用户输入的词具有与用户不正在使用的某一域字典的高度关联性的判断,则可向用户推荐该域字典以增加用户输入额外文本和编辑现有文本的准确性。
以下详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或相似的元素。尽管可能描述了本发明的实施例,但修改、改编、以及其他实现是可能的。例如,可对附图中所例示的元素作出替换、添加、或修改,以及可通过对所公开的方法进行替换、重新排序、或添加阶段来修改本文中所描述的方法。因此,下文的详细描述不限制本发明,相反,本发明的合适范围由所附权利要求来限定。
现在参考图1,文本内容选择115被例示于计算设备110的显示屏上,该文本内容选择可根据各种软件功能性来被用户阅读、编辑或以其他方式使用,这些软件功能性例如字处理应用、基于因特网的应用、幻灯片演示应用、电子数据表应用、桌面发布应用等等。图1中例示出的计算设备110是平板型计算设备,但应理解,计算设备110可采用任何合适的形式,如膝上型计算机、台式计算机、例如智能电话的手持计算设备、以及能够允许文本内容115被显示以及根据一个或多个软件功能性而被利用的类似物。如图1所例示,文本内容115是中文内容,但是应理解,文本内容115可根据设备110的用户所希望的任何其他语言类型来被提供。源120被例示出,从源可获得文本内容115,源例如基于因特网的网页、远程存储的文档、电子邮件消息、文本消息、本地存储的文档等等。
如上简述,当从源120接收到诸如图1中所例示的文本内容之类的文本内容时,文本内容可能具有用户或其他接收方可能或可能不理解的和/或可能未被包括在可供用户使用的某一域字典中的一个或多个新词,域字典例如与用户的字处理应用或要用来利用所接收到的内容的其他软件应用相关联的一个或多个域字典。从而,例如文本输入法、拼写检查、语法检查、自动输入完成、字典服务等的各种功能性可能不可用于这些新词。例如,接收到的文本内容115可能包括对于接收用户可能理解的给定行业(例如软件行业、因特网行业等)来说是新的新词,但该新词可能不被包括在某一给定域字典中来助于用户根据可用的软件功能性来利用该新词。
现在参考图2,根据本发明的实施例,从例如网页205、电子文档210、电子邮件消息215、文本消息220或其他内容源225的各种源接收的文本内容可被传递给新词检测引擎230,用于对包含在所接收到的文本内容项中的新词进行隔离以及用于包含在一个或多个词语词典(词列表)和/或给定域字典(与某一域相关联的词列表,如医学术语域)来供与一个或多个软件功能性相关联的后续使用。例如,如果在来自一个或多个源的文本内容项中接收到新词“texting”(写文本),该新词可能被接收用户所理解,但该新词可能不被包括在与该用户正在使用的软件功能性(如文本输入法应用、字处理应用、电子邮件应用等)相关联的任何域字典中。通过隔离新词和将新词包含在某一给定域字典中,与文本内容输入和编辑相关联的软件功能性可与该域字典以及新隔离和存储的词相关联地被使用。例如,如果用户接着输入或编辑该示例词“texting”,则与该用户的文本输入法应用或字处理应用相关联的、该新词已被添加于其中的域字典可由该用户的字处理应用使用来助于该用户正确地输入该词,拼写该词,对该词与其他词相关联的使用进行语法检查,提供与该词相关联的字典服务等等。
根据各实施例,当文本内容115被接收到或输入时,如本文所述,新词检测引擎230利用各种词检测规则/方法235来确定文本内容的各部分是否包括新词以及对所确定的新词进行分级以用于对一个或多个域字典265的可能输出供后续使用。如下文所述,规则/方法235中的一些可被用于排除对于作为新词来被添加到某一给定域字典来说不被认为是有意义的候选新词。
仍然参考图2,停用词规则240可被用于排除具有与一个或多个规定的停用词相关联的头或尾的文本串,其中这些停用词可被认为是噪声级文本内容项且对于包含在某一给定域字典来说是无意义的。为了确定文本的一部分是否可能是停用词,可提取该文本内容的各部分并对照已知停用词列表进行比较。例如,通常使用的过渡短语词、冠词、动词等之类的停用词(如“a”、“an”、“the”等)可被排除,使得它们无需被进一步分析以及作为新词被添加到某一域字典中。应理解,这些示例停用词仅仅是三个示例英语停用词,且并不是对根据如中文、英语、法语、阿拉伯语等各种语言被使用的以及是语言学领域的那些技术人员所公知和理解的数量众多的停用词的穷举。
词典子串和数序规则245可被用于排除那些是一个或多个域字典中所包含的其他词或数序的子串的串,其中包含这些子串并不提供在一个或多个域字典中的有意义的包含。也就是说,包含在某一给定文本内容中的仅仅是某一词语词典中所包含的单词的子串或某一词语词典中所包含的数序的子串的字符串可被排除,因为它们对于作为新词或术语被添加到域字典或词语或术语词典来说是没有价值的。例如,发现词“diction”是已经包含在一个或多个词典或域字典中的词“dictionary”的子串,于是子串“diction”可被排除而不作为候选新词。根据一实施例,该规则可能是有利的,因为当某一词在一词典中时且如果其子串之一不在该词典中,则该子串不是有意义的词。类似地,例如用于指示年份的数序“2012”之类的数序可能对于作为新词而被添加到某一词典或域字典来说是没有意义的且因此可被排除。为了确定文本的某一部分是否包含子串或数序,可由新词检测引擎230将所接收到的或输入的文本的各部分对照已知串列表进行比较,以及可通过确定一个或多个字符是不作为一给定词或术语的一部分的数序来检测数序。
在如上所述排除了某些词、短语或数序之后,可使用统计方法250来对剩余的候选可能包含在某一词语词典或域字典中进行评分,如本文所述。应理解,可采用各种统计方法来对某一给定词评分,使得被高评分或分级的词可被包括在词典或域字典中以及使得被较低评分或分级的词可被丢弃。例如,可确定某一给定词的词频,在某一给定文本选择中非常频繁出现的词可被高评分。这样的确定可通过将这样的确定与其他统计信息相组合来得到精炼。例如,如果某词具有高词频但仅与不被认为是有意义的另一词相关联地出现,则该词的高词频可能是较不重要的。作为另一示例,某一词的上下文无关性可被考虑,其中基于该词与所分析的文本选择中的其他词的相关性或关联性可为该词确定更高或更低得分。
根据一个实施例,统计方法250允许对由字符c1…cn组成的任一候选词w计算六(6)个统计得分。统计方法250可使用上述的词典子串和数序规则以及下述的前缀/后缀规则来精炼为某一给定词确定的统计信息。
某一给定词的第一统计得分可包括词频(TF),可对从接收到的或输入的文本内容115提取的每个词确定词频,如下文阐述那样。TF是词的词频,length是词的文本长度。
TF(w)=tfw*lengthw
第二统计得分可包括可对词确定的公平对称条件概率(FSCP),FSCP可被用于度量该词的上下文无关性以及该词相对于其他词的类属n元(n>=2)的内聚性。词的FSCP可被如下确定。
第三统计得分可包括经适应的互信息(AMI)得分。AMI得分允许对关于某一给定词的字符模式c1...ci在语义上是否比构成该词的任何子串(尤其是最长构成子串)更完整的判断。AMI得分可被如下确定。
第四统计得分可包括上下文熵得分。对于上下文熵得分,被分析的词(w)的相邻词(x)被收集,且确定这些相邻词(x)的频率。被分析的词(w)的上下文熵可被如下确定。
第五统计得分可包括给定词相对于该给定词作为其前缀/后缀而相关联的其他词的前缀/后缀比率。如上所述,如果仅确定为给定文本选择中的一个或多个其他词的前缀或后缀,则被分析的词可被丢弃。给定词的前缀/后缀比率可被如下确定。
被分析的词的第六统计得分可包括偏置的互相关(BMD)得分,用于确定所分析的词与文本选择中的多个其他词之间的相关性。某一给定词的BMD得分可被如下确定。
根据该实施例,在对某一给定词确定了六(6)个统计得分之后,可使用语言模式规则来调整得分。例如,根据中文词分析,中文模式规则可被用于使用线性模型来调整FSCP和AMI来调整得分,如下。
Scorefscp(w)=FSCP(w)+deltafscp*Pattern(w)
Scoremi(w)=AMI(w)+deltami*Pattern(w)
根据中文模式分析示例,可不对词频(TF)得分调整使用中文模式分析,因为TF(w)通常是非常大的数,且Pattern(w)在0~1之间。deltafscp可被设置为0.01、0.05、0.1用于测试,因为FSCP(c1...cn)可能不太大(如0~0.4),而Pattern(w)通常很大(如0.6~1),所以deltafscp可不被设置得大来使得Pattern(w)变得主要。这些示例参数可通过实验获得。继续该示例,可将deltami设为0.1、0.5、1用于测试,因为AMI(w)通常与(w)一样大(如0.6~1)。根据一实施例,这些参数可通过实验和测试来获得。
如应理解的,当对一给定的被分析的词确定多个统计得分时,该多个得分可被组合来获得单个得分,该单个得分可被用于确定该词是否应被添加到某一词典或域字典中。例如,继续上述示例实施例,组合了上述所有六(6)个得分的总得分可按对数线性公式被组合成单个得分,如下。
TOTAL(w)=λ1TF(w)+λ2FSCP(w)+λ3AMI(w)+λ4HC(w)+λ5PSR(w)+λ6BMD(w)
根据该示例实施例,6个λ的值可通过在许多训练实例上的数值优化来获得。存在正训练实例(在其中词被确定为用于添加到词典中的词的序列)以及负实例(在其中词被丢弃的序列)。正训练实例可通过自动化的和人类选择来提供。可能不能由人类选择来可靠地提供的负训练实例可从按上述六个统计得分/度量中的每一个来分级的候选词的列表中选择。如果按至少三个统计度量某一候选词被分级得低,则它可被选为负训练实例。
仍然参考图2,前缀/后缀规则255提供对作为是其他词或短语的前缀或后缀的词或短语的排除。在如上所述对某一给定词计算了得分之后,可通过前缀/后缀规则255排除某些候选,其中前缀或后缀词的得分不大于包含它们的词。也就是说,包括该前缀或后缀的子串没有该子串所属的词有意义(基于得分)。从而,包括这种前缀或后缀的串(词)不应被拆分成子串(前缀或后缀),且因此该子串可被去除而不被作为候选词来包含在某一词典或域字典中。
如上所述,语言模式规则260允许对字符的模式进行分析以调整对候选词确定的得分。例如,如果某一词包含字符“abc”,则可使用语言模式规则来确定某一字符可能在一候选词的首位置或中间位置或尾部的概率,以用于调整该候选词的得分。例如,根据使用中文模式规则的一示例实施例,可使用文本字符的位置来确定该字符是中文字符的概率。根据该示例中文语言实施例,从原始词典和三元组统计首先计算单元组统计,以获得<词,tf>(<word,tf>)对的列表。接着,从单元组统计计算字符统计,以获得<char,<headtf,midtf,tailtf>>对的列表。也就是说,对于某一字符(char),分别计算其在单元组统计中首(head)、中间(mid)和尾部(tail)位置中的频率。这些步骤包括对中文模式规则的预处理。然后,对于每个字符,该字符可能出现的每个位置(pos)的概率可如下被计算。
<char,<headprob,midprob,tailprob>>对的列表从而被获得。然后可考虑两个条件,例如词w=c1c2c3...cn。一个条件可仅包括头和尾部概率(prob),如下。
另一条件可包括所有位置,如下。
图3是用于检测包含在接收到的或输入的文本内容选择中的新词的方法的流程图。方法300开始于开始操作305并进行到操作310,在操作310如上参考图2所例示和描述的那样,从一个或多个源205、210、215、220、225接收采用若干词或字符串的形式的文本内容。接着可执行词分割来将输入的或接收到的文本内容分隔成个体词以用于对分割出的词进行后续分析,如下所述。应理解,文本内容可根据各种方法来被划分成词。可经一个或多个断词器方法将文本内容划分成词,例如在各组字符之间的空格处或在已知首部字符之前或已知尾部字符之后划分词。然而,对于诸如中文之类的某些语言,传统的词划分方法较不有效,因为在词之间不提供空格和其他分界指示符。在这些情况下,可使用其他方法来快速地将字符分组成词。
根据一个方法,可采用正最大匹配方法来将这些语言类型(如中文)分割成词。正最大匹配方法不敏感于给定词语词典的大小。根据该方法,字符被逐一地分组在一起直到最大数量(如9个字符),每个分组可作为一个词来被对待以对照一词典进行比较用来将该分组隔离为某一词。不管将文本内容分割成词的方法如何,一旦文本内容被分割成词,分割出的词被分析以确定是否作为新词被包括在某一词语词典或域字典中,如下所述。
在操作315,可对接收到的文本内容运行停用词规则240来排除接收到的文本内容中所包含的一个或多个停用词。在操作320,对所接收到的文本内容隔离和确定的停用词被排除,因为它们对于新词检测和确定来说是低价值的或无意义的。
在操作325,可对剩余的文本内容运行词典子串和数序规则,以及在操作330,可从剩余的文本内容中排除没有必要的子串,因为它们在对所接收的文本内容中所包含的新词的判断中缺乏重要性或意义。
在操作335,对剩余的文本内容运行上述的统计方法250来对剩余的文本内容中所包含的词评分,以判断是否作为新词来包括在一个或多个词典和/或域字典中。
在操作340,可对从所接收到的文本内容中提取的经评分的词运行前缀/后缀规则255。在操作345,可排除没有必要的前缀和后缀,以进一步减少可被确定为包含在所接收到的文本内容中的新词的文本内容项的数量。
在操作350,可对剩余的词运行语言模式分析,例如中文语言模式分析,以用于调整应用于从所接收到的文本内容中提取的剩余词的得分。在操作355,就作为新词被包含在一个或多个词语词典和/或域字典中来对剩余词分级,以及在操作360,可选择并存储被高分级的词作为新词来包含在一个或多个词语词典和/或域字典中。应理解,对于不同的语言和域类型来说,对将某一词包含在一给定词典或域字典中所要求的得分和相关联的分级可能是不同的。也就是说,得分和相关联的分级可按变化的级别被确定为对词检测和选择来说是可接受的,以使得上述的词检测方法按照不同文本内容所希望的那样或多或少是选择性的。根据一个实施例,在一个或多个词被添加到一给定词语词典或域字典之后,可就与一给定软件功能性的关联性向用户推荐该词语词典或域字典,该软件功能性例如文本输入法或字处理。方法300在操作375处结束。
如上简述,根据各实施例,用户输入和编辑通过各种输入法输入的以及从各种源接收的文本内容选择。用户正在使用的一给定软件应用,如字处理应用、幻灯片演示应用、因特网网页功能性应用等可与一给定域字典相关联,例如与例如中文、英语、法语、阿拉伯语等某一给定语言相关联的标准语法词典。然而,如果正被用户输入和/或编辑的文本内容与某一特定域字典更接近地相关联,例如医学术语域字典、工程术语域字典、生物科学域字典等,则用户可能正错过可供用户与被输入的和/或编辑的文本内容相关联地使用的这些特定的或专门的域字典之一的有价值的资源。
例如,如果用户正在输入和/或编辑包含许多医学术语的文本内容,如果用户还未将正在使用的软件应用(如字处理应用)与可用医学术语域字典相关联,则例如输入法助手、拼写检查、语法检查、自动输入完成、字典服务等之类的有价值的资源可能不能与所输入的和/或接收的文本内容相关联地对用户可用。根据各实施例,可就与用户与文本内容相关联地不在使用的一个或多个域字典的关联性来分析用户输入的和/或编辑的文本内容,与输入的和/或编辑的文本内容相关联的可能有帮助的一个或多个域字典可被推荐给用户。
现在参考图4,示例文本内容415在计算设备410的显示屏上被例示出正被输入和/或编辑,和/或由用户接收供与一个或多个软件功能性相关联地使用。例示出了可与文本内容415相关联的许多域字典420、425、430和435,用于与输入法440相关联地帮助用户,利用输入法用户可输入额外的文本内容、编辑输入或编辑接收到的文本内容。例如,输入法编辑器(IME)可与输入设备(例如键盘)相关联来帮助用户输入输入设备不另外允许的语言的文本。例如,英语键盘可与中文IME相关联。与IME相关联的域字典可帮助对与英语键盘相关联地通过中文IME输入的文本的输入和编辑。如图4所例示,文本内容415是根据中文提供的。如应该理解的,中文仅仅是可根据本发明的用于推荐一个或多个可用域字典供与给定文本内容相关联地使用的各实施例被使用的各种不同文本内容语言的一个示例。
仍然参考图4,域字典420可以是包含与给定语言(例如中文、英语、法语等)相关联的标准语言词典、语法和字典服务的域字典。另一方面,域字典425、430、435可与特定域类型相关联,例如医学术语域、工程技术域、生物科学术语域等。如应理解的,可提供大量域字典供与文本内容相关联地使用,这些域字典与各种不同的主题和/或想法相关联。
仍然参考图4,域字典推荐引擎445是包含足够的计算机可执行指令来用于分析文本内容以及用于将文本内容与一个或多个域字典相比较以推荐一个或多个域字典供与文本内容相关联地使用的软件模块的举例说明。根据一个实施例,当用户正在使用一给定输入法编辑器(IME)时,例如利用英语键盘的中文IME,正被用户输入或编辑的文本可被分析来推荐可与正在使用的IME相关联的一个或多个附加域字典,用于允许用户通过该一个或多个附加域字典获得更大的输入和/或编辑准确性。
图5是用于与所接收到的或输入的文本内容相关联地推荐一个或多个域字典的方法的流程图。方法500开始于开始操作505,并进行到操作510,在操作510由用户输入和/或接收的文本内容被域推荐引擎445接收。根据一实施例,域词是从用户输入历史(包括当前正被输入的文本、先前输入的文本、或从一个或多个源接收的文本)提取的,用于与包含在可向用户推荐的供与用户的输入法一起使用的一个或多个域字典中的词进行比较。
在操作515,执行词分割以用于将输入的或接收到的文本内容分隔成个体词,用于对照包含在一个或多个域字典420、425、430、435中的词进行分割出的词的后续比较。如应理解的,用户输入历史可被划分成词来用于根据各种方法对照各种域字典中所包含的词进行比较。例如,根据上述参考图1-3描述的方法,可将词与用户输入相隔离。替换地,可经一个或多个断词器方法将用户输入划分成词,例如通过在各组字符之间的空格处或在已知首部字符之前或已知尾部字符之后划分词。
根据某些语言,例如中文,传统的词划分方法较不有效,因为在词之间不提供空格和其他分界指示符。在这些情况下,可使用其他方法来快速地将字符分组成词。根据一个方法,可采用正最大匹配方法来将这些语言类型(如中文)分割成词。正最大匹配方法不敏感于给定词典的大小。根据该方法,字符被逐一地分组在一起直到最大数量(如9个字符),每个分组可作为一个词来被对待以对照一词典进行比较用来将该分组隔离为某一词。不管将文本内容分割成词的方法如何,一旦文本内容被分割成词,分割出的词可如下所述对照任何数量的域字典中所包含的词进行比较,用于确定某一给定域字典是否应被推荐给用户来与用户的当前输入法相关联。
在操作520,就与一个或多个域字典中所包含的词相比较而言,具有低价值和/或低意义的词可被排除。如应理解的,在操作520处排除低价值或无意义的词可根据各种方法来执行,包括上述参考图2所述的词检测规则和方法235。
在操作525,可供与输入的和/或接收到的文本内容415相关联的域字典和相关联的词典420、425、430、435被域推荐引擎445获得。如应理解的,可获得几乎无限数量的域字典,具有与许多不同主题和想法有关的相关联的词典。
在操作530,从输入的和/或接收到的文本内容415分割出的词被分析,通过确定输入的和/或接收到的文本内容415中特定词被使用的频率来获得词频。例如,如果词“texting”仅在文本内容415中被包括一次,则该词将具有的词频为1。另一方面,如果词“texting”在文本内容415中被使用10次,则将对该词应用的词频为10。根据各实施例,如果某一给定词具有低词频,则该词可被丢弃而不被就与某一特定域字典的关联性进行进一步分析。如应理解的,用于确定某一给定词与一个或多个域字典中所包含的词进行比较的值的词频可基于各种因素而变化。例如,在某些实例中,某一特定词可能具有低词频,但可被保留供进一步分析。例如,诸如“penicillin”(盘尼西林(青霉素))之类的词在某一给定文本内容中可能具有低词频,但是由于其独特性,该词可被保留供与医学术语域字典中的词比较。
在操作535,从输入的和/或接收到的文本内容中提取的具有足够高词频的词与一个或多个不同域字典中所包含的词比较。通过将从输入的和/或接收到的文本内容中提取的词与域推荐引擎445所考虑的一个或多个域字典中所包含的匹配词相配对,创建了词对。例如,如果词“penicillin”是从文本内容415提取的且被发现匹配某一医学术语域字典430中所包含的相同词,则创建将用户输入的和/或接收到的文本内容415与该示例医学术语域字典430相关联的词对。
在操作540,所有经比较的域根据经分析的文本内容中匹配的词对的数量来被排序和分级,对从输入的和/或接收到的文本内容415中提取的词确定最前面的若干个域字典。根据一个实施例,基于接收到的或输入的文本内容与经分析的域字典之间的匹配的词对的阈值计数,最前面的若干个(如两个)域被选择作为域候选来推荐。如应被理解的,匹配的词对的阈值计数可通过实验和测试来确定。用于确定最前面的若干域字典的示例的且合适的算法如下。
域(文本)={{di,dj},如果得分(文本,di)>得分(文本,dj)>
{得分(文本,dk)|k∈{1~47},k≠i,k≠j}和{得分(文本,di)+
得分(文本,dj)>域值
其他
例如,包含规定数量的与输入的和/或接收到的文本内容相关联的词对的所有域字典可被确定来向用户推荐。例如,如果用户输入的和/或接收到的文本内容包含许多医学和科学术语,则可与某一医学术语域字典和某一科学技术域字典两者相比较地对从文本内容415提取的词确定许多词对。从而,示例的医学术语域字典和科学技术域字典都可被选为最前面的域字典供推荐给用户。另一方面,如果经分析的文本内容415具有非常少的工程术语,导致从经分析的文本内容415与示例的工程术语域字典获得非常少的词对,则该示例工程域字典可不被高分级来作为推荐的域字典而呈现给用户。
如应理解的,可根据各种规定的分级水平来对域字典执行分级以提供对用户的可能推荐。例如,可确定具有与经分析的文本内容415相关联的5个或更多个词对的任何域字典可被推荐给用户。另一方面,可确定为了推荐相关联的域字典,该给定域字典和经分析的文本内容之间必须有25个以上的词配对。
在操作545,可向用户推荐一个或多个域字典供与用户的软件功能性相关联,例如用户正在使用的输入法,或者可推荐一个或多个域字典供与一个或多个软件应用相关联,如字处理应用、幻灯片演示应用、因特网浏览应用等。也就是说,可向用户推荐该一个或多个域字典来允许用户通过使用可能在他输入或编辑的词方面帮助他的推荐的域字典来更高效地执行他的/她的文本输入和/或编辑。一示例推荐用户界面组件参考图6在以下描述。方法500在操作595处结束。
图6示出用于与所接收到的或输入的文本内容相关联地向用户推荐域字典的示例弹出对话框。如图6所示,一旦一个或多个域字典被确定为与一给定软件功能性和/或文本内容相关联地推荐给用户,可通过域字典推荐引擎445将该一个或多个域字典推荐给用户。如图6所示,例示出弹出对话框610用于包含对用户进行给定域字典的推荐。例如,关于“似乎你正在医学域中工作。为了提高准确性,我们建议你打开医学域。你想打开医学域吗?”的推荐如所例示的,提供“是”和“否”按钮来允许用户选择性地打开或拒绝打开该推荐的域字典。如应理解的,弹出对话框610和相关联的推荐语言仅仅是示例的目的,而非对可被用于与一给定软件功能性或文本内容相关联地推荐某一给定域字典的众多数量的用户界面组件的限制。
根据一替代实施例,一旦推荐引擎445确定可推荐某一给定域字典来供与某一给定软件功能性和/或文本内容相关联地使用,无需用户输入,该推荐的域字典就可自动地与该给定的软件功能性和/或文本内容相关联。也就是说,某些软件功能性,例如输入法应用和字处理应用,可被设置来自动地将推荐的域字典与文本内容项相关联,以用于在那些文本内容项方面帮助用户。
一旦某一给定域字典与某一给定软件功能性和/或文本内容项相关联,则可使该域字典的资源可供与文本内容相关联地使用,包括文本输入、拼写检查、语法检查、自动输入完成、字典服务等。
本文描述的实施例和功能性可通过多种计算系统来操作,包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(如移动电话、上网本、图形输入板或平板型计算机、笔记本计算机、以及膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程消费电子产品、小型计算机、以及大型计算机。此外,本文所述的实施例和功能性可在分布式系统上操作(如基于云的计算系统),其中应用功能性、存储器、数据存储和取回、以及各种处理功能可通过诸如因特网或内联网之类的分布式计算网络来彼此远程地操作。各种类型的用户界面和信息可经板载计算设备显示器或经与一个或多个计算设备相关联的远程显示单元被显示。例如,各种类型的用户界面和信息可在墙壁表面上被显示和交互,各种类型的用户界面和信息被投射在墙壁表面上。与可用于实施本发明的各实施例的许多计算系统的交互包括:键击输入、触摸屏输入、话音或其他音频输入、姿势输入(其中相关联的计算设备配备有用于捕捉和解释用于控制计算设备的功能性的用户姿势的检测(如相机)功能性)等。图7至9以及相关联的描述提供了其中可实施本发明的实施例的各种操作环境的讨论。然而,关于图7至9所例示出的和讨论的设备和系统是用于示例的目的,而非对可被用于实施本文所述的本发明的各实施例的大量计算设备配置的限制。
图7是示出可用来实施本发明的各实施例的计算设备700的示例物理组件(即硬件)的框图。下面描述的计算设备组件可适用于上述的计算设备。在基本配置中,计算设备700可包括至少一个处理单元702和系统存储器704。取决于计算设备的配置和类型,系统存储器704可包括但不限于,易失性存储器(例如,随机存取存储器)、非易失性存储器(例如,只读存储器)、闪存、或这些存储器的任何组合。系统存储器704可包括操作系统705和适合于运行诸如新词检测引擎230和域推荐引擎445之类的软件应用720的一个或多个程序模块706。操作系统705例如可适合于控制计算设备700的操作。此外,本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践,并且不限于任何特定应用或系统。该基本配置在图7中由虚线708内的那些组件例示出。计算设备700可具有附加特征或功能。例如,计算设备700还可包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。这些附加存储在图7中由可移动存储设备709和不可移动存储设备710例示出。
如上所述,可在系统存储器704中存储多个程序模块和数据文件。在处理单元702上执行的同时,诸如新词检测引擎230和域推荐引擎445之类的程序模块706可分别执行包括例如方法300和500的一个或多个阶段的过程。上述过程是一示例,且处理单元702可执行其他过程。根据本发明的实施例可使用的其他程序模块可包括电子邮件和联系人应用、字处理应用、电子数据表应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。
此外,本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。例如,可以通过片上系统(SOC)来实践本发明的各实施例,其中,可以将图7中例示出的每个或许多组件集成到单个集成电路上。这样的SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能性,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的关于新词检测引擎230和域推荐引擎445的功能性可以通过在单个集成电路(芯片)上集成有计算设备700的其它组件的专用逻辑来操作。本发明的实施例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)之类的逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的实施例可在通用计算机或任何其他电路或系统中实践。
计算设备700还可具有一个或多个输入设备712,诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括输出设备714,诸如显示器、扬声器、打印机等。上述设备是示例,并且可使用其他设备。计算设备700可包括允许与其他计算设备718进行通信的一个或多个通信连接716。合适的通信连接716的示例包括但不限于RF发射机、接收机和/或收发机电路;通用串行总线(USB)、并行或串行端口、以及适用于与适用的计算机可读介质一起使用的其他连接。
例如,本发明的实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。
如此处所使用的术语计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器704、可移动存储设备709和不可移动存储设备710都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可以包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或可用于存储信息且可以由计算机设备700访问的任何其它介质。任何这样的计算机存储介质都可以是计算设备700的一部分。
通信介质可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
图8A和8B示出可用来实施本发明的各实施例的移动计算设备800,例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图8A,例示出了用于实现各实施例的示例移动计算设备800。在一基本配置中,移动计算设备800是具有输入元件和输出元件两者的手持式计算机。移动计算设备800通常包括显示器805以及允许用户将信息输入到移动计算设备800中的一个或多个输入按钮810。移动计算设备800的显示器805也可充当输入设备(如触摸屏显示器)。如果包括,则可选的侧边输入元件815允许进一步的用户输入。侧边输入元件815可以是旋转开关、按钮、或任何其他类型的手动输入元件。在一替代实施例中,移动计算设备800可结合更多或更少的输入元件。例如,在某些实施例中,显示器805可以不是触摸屏。在又一替代实施例中,移动计算设备800是诸如蜂窝电话之类的便携式电话系统。移动计算设备800还可包括可选的小键盘835。可选的小键盘835可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中,输出元件包括用于示出图形用户界面(GUI)的显示器805、视觉指示器820(如发光二极管)、和/或音频换能器825(如扬声器)。在某些实施例中,移动计算设备800结合振动换能器来向用户提供触觉反馈。在又一实施例中,移动计算设备800结合诸如音频输入(如话筒插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口,用于将信号发送到外部设备或从外部设备接收信号。
图8B是例示出移动计算设备的一个实施例的架构的框图。即,移动计算设备800可结合系统(即架构)802以实现某些实施例。在一个实施例中,系统802被实现为能够运行一个或多个应用(如浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的“智能电话”。在某些实施例中,系统802被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序866可被加载到存储器862中并在操作系统864上或与操作系统864相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、字处理程序、电子数据表程序、因特网浏览器程序、消息收发程序等等。系统802还包括存储器862内的非易失性存储区868。非易失性存储区868可被用于存储在系统802断电时不会丢失的持久信息。应用程序866可使用信息并将信息存储在非易失性存储区868中,如电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也驻留于系统802上且被编程为与驻留在主机计算机上的对应的同步应用交互,以保持非易失性存储区868中存储的信息与主机计算机处存储的相应信息同步。如应理解的,其他应用可被加载到存储器862中并在移动计算设备800上运行,包括本文所述的新词检测引擎230和域推荐引擎445。
系统802具有可被实现为一个或多个电池的电源870。电源870还可包括外部功率源,如补充电池或对电池重新充电的AC适配器或加电对接托架。系统802还可包括执行发射和接收无线电频率通信的功能的无线电872。无线电872通过通信运营商或服务供应商方便了系统802与“外部世界”之间的无线连接。来往无线电872的传输是在操作系统864的控制下进行的。换言之,无线电872接收的通信可通过操作系统864传播到应用程序866,反之亦然。
无线电872允许系统802例如通过网络与其他计算设备通信。无线电872是通信介质的一个示例。通信介质通常由诸如载波或其他传输机制之类的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传送介质。术语“已调制数据信号”是指以在信号中编码信息的方式设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。如此处所使用的术语“计算机可读介质”包括存储介质和通信介质两者。
系统802的该实施例使用可用于提供可视通知的视觉指示器820和/或通过音频换能器825来产生音频通知的音频接口874来提供通知。在所例示的实施例中,视觉指示器820是发光二极管(LED),而音频换能器825是扬声器。这些设备可直接耦合到电源870,使得当被激活时,即使为了节省电池功率而可能关闭处理器860和其它组件,它们也保留一段由通知机制指示的保持通电时间。LED可被编程为无限地保持通电,直到用户采取动作指示该设备的已通电状态。音频接口874用于向用户提供听觉信号并从用户接受听觉信号。例如,除了被耦合到音频换能器825之外,音频接口874还可被耦合到话筒来接收可听输入,例如便于电话对话。根据本发明的各实施例,话筒也可充当音频传感器来便于对通知的控制,如下文将描述的。系统802可进一步包括允许板载相机830的操作来记录静止图像、视频流等的视频接口876。
实现系统802的移动计算设备800可具有附加特征或功能。例如,移动计算设备800还可包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。这种附加存储设备在图8B中用非易失性存储区868例示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。
移动计算设备800生成或捕捉的且经系统802存储的数据/信息可如上所述本地存储在移动计算设备800上,或数据可被存储在可由设备通过无线电872或通过移动计算设备800和与移动计算设备800相关联的一分开的计算设备(如例如因特网之类的分布式计算网络中的服务器计算机)之间的有线连接访问的任何数量的存储介质上。如应理解的,此类数据/信息可经移动计算设备800、经无线电872或经分布式计算网络来被访问。类似地,这些数据/信息可根据已知的数据/信息传送和存储手段来容易地在计算设备之间传送以供存储和使用,这些手段包括电子邮件和协作数据/信息共享系统。
图9例示出用于向一个或多个客户端设备提供如上所述的新词检测引擎230和域推荐引擎445的功能性的系统的架构的一个实施例。与新词检测引擎230和域推荐引擎445相关联地生成、交互或编辑的内容可被存储在不同通信信道或其他存储类型中。例如,各种内容和文档可使用目录服务922、web门户924、邮箱服务926、即时消息收发存储928或社交联网站点930来存储。新词检测引擎230和域推荐引擎445可使用这些类型的系统等中的任一种来允许如本文所述的通过评论进行共同创作冲突解决。作为一个示例,服务器920可以是通过web提供新词检测引擎230和域推荐引擎445的功能性的web服务器。服务器920可通过网络915在web上将新词检测引擎230和域推荐引擎445的功能性提供给客户端。作为示例,客户端计算设备918可被实现为计算设备900并被具体化在个人计算机918a、平板计算设备918b和/或移动计算设备918c(如智能电话)中。客户端计算设备918的这些实施例中的任一个可从存储916获得内容。在各种实施例中,用于在构成本发明的计算设备之间进行通信的网络的类型包括但不限于互联网、内联网、广域网(WAN)、局域网(LAN)、以及虚拟专用网络(VPN)。在本申请中,网络包括企业网络和客户端计算设备用来访问企业网络的网络(即客户端网络)。在一个实施例中,客户端网络是企业网络的一部分。在另一实施例中,客户端网络是通过外部可用的入口点(如网关、远程访问协议、或公共或专用互联网地址)来访问企业网络的一分开的网络。
本申请中提供的一个或多个实施例的描述和说明不旨在以任何方式限制或约束如权利要求所要求保护的发明范围。本申请中提供的实施例、示例和细节被认为是足以传达所有权,且使得他人能够制作并使用所要求保护的发明的最佳模式。所要求保护的发明不应被理解为限制于本申请中所提供的任何实施例、示例或细节。不管是以组合的方式还是分开的方式示出和描述,各种特征(结构上的和方法逻辑上的)旨在被选择性地包括或忽略,以产生具有特定的特征集的实施例。在被提供本申请的描述和说明的情况下,本领域的技术人员能够想象到落在所要求保护的发明的更宽泛方面以及本申请中所具体化的一般发明概念的精神内的替代实施例并不背离该更宽泛的范围。

Claims (6)

1.一种检测词来包含在一个或多个词语词典中的方法,包括:
提供与多个词语词典相关的计算装置;
从除了所述计算装置之外的源接收文本选择;
在所述计算装置的显示屏上显示所述文本选择;
利用所述计算装置访问新词检测引擎,该新词检测引擎配置为:
从所述文本选择中提取一个或多个词;
排除所提取的词中的一个或多个,其中被排除的一个或多个词对于包含在给定词语词典中来说不被认为是有价值的;
响应于排除所提取的词中的一个或多个,对所提取的词中的剩余的一个或多个进行分级来包含在所述多个词语词典的一个或多个中;
选择所提取的词中的所述剩余的一个或多个中的一个或多个词来包含在所述多个词语词典的一个或多个中,这基于应用于所提取的词中的所述剩余的一个或多个中的所选择的一个或多个词的分级;
将所提取的词中的剩余的一个或多个中的所选的一个或多个词与多个词典进行比较;以及
响应于对所提取的词中的剩余的一个或多个中的所选的一个或多个词的比较,就与一个或多个软件功能性的关联性来推荐所述多个词语词典中的至少一个,从而提高软件功能性能,其中所述一个或多个软件功能性与所述计算装置相关联。
2.如权利要求1所述的方法,其特征在于,在从所述文本选择提取一个或多个词之前,将所接收到的文本选择分割成一个或多个词。
3.如权利要求2所述的方法,其特征在于,将所述文本选择分割成一个或多个词包括从所述文本选择中创建多个字符分组,以及将所述多个字符分组与一个或多个词语词典相比较来确定所述多个字符分组中的任一个是否是已知词。
4.如权利要求1所述的方法,其特征在于,对所提取的词中的剩余的一个或多个进行分级来包含在所述词语词典中包括:根据一个或多个评分属性来对所提取的词中的所述剩余的一个或多个中的每一个进行评分。
5.如权利要求4所述的方法,其特征在于,根据一个或多个评分属性来对所提取的词中的所述剩余的一个或多个中的每一个进行评分包括:确定所提取的词中的所述剩余的一个或多个中的每一个在所接收到的文本内容选择中的词频。
6.一种用于检测词来包含在一给定词语词典中的系统,包括:
用于将多个词语词典与计算装置相关联的装置;
用于从除了所述计算装置之外的源接收文本内容选择的装置;
用于在所述计算装置的显示屏上显示所述文本选择的装置;
用于利用所述计算装置访问新词检测引擎的装置,该新词检测引擎配置为:
用于从所述文本内容选择中分割和提取一个或多个词的装置;
用于排除所提取的词中的一个或多个的装置,其中被排除的一个或多个词对于包含在所述给定词语词典中来说不被认为是有价值的;
用于响应于排除所提取的词中的一个或多个、对所提取的词中的剩余的一个或多个进行分级来包含在所述词语词典中的装置,包括用于根据一个或多个评分属性来对所提取的词中的所述剩余的一个或多个中的每一个进行评分的装置;
用于选择所提取的词中的所述剩余的一个或多个中的一个或多个词来包含在所述多个词语词典的一个或多个中的装置,这基于应用于所提取的词中的所述剩余的一个或多个中的所选择的一个或多个词的分级;
用于将所提取的词中的剩余的一个或多个中的所选的一个或多个词与所述多个词语词典进行比较的装置;以及
用于响应于对所提取的词中的剩余的一个或多个中的所选的一个或多个词的比较、就与一个或多个软件功能性的关联性来推荐所述词语词典中的至少一个以用于提高软件功能性性能的装置。
CN201380044316.4A 2012-08-24 2013-08-19 词检测和域字典推荐 Active CN104584003B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/594,473 US9229924B2 (en) 2012-08-24 2012-08-24 Word detection and domain dictionary recommendation
US13/594,473 2012-08-24
PCT/US2013/055500 WO2014031505A1 (en) 2012-08-24 2013-08-19 Word detection and domain dictionary recommendation

Publications (2)

Publication Number Publication Date
CN104584003A CN104584003A (zh) 2015-04-29
CN104584003B true CN104584003B (zh) 2017-08-11

Family

ID=49083782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380044316.4A Active CN104584003B (zh) 2012-08-24 2013-08-19 词检测和域字典推荐

Country Status (3)

Country Link
US (2) US9229924B2 (zh)
CN (1) CN104584003B (zh)
WO (1) WO2014031505A1 (zh)

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8019595B1 (en) 2006-09-11 2011-09-13 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) * 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US20150067491A1 (en) * 2013-09-03 2015-03-05 International Business Machines Corporation Intelligent auto complete
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103825952B (zh) * 2014-03-04 2017-07-04 百度在线网络技术(北京)有限公司 细胞词库推送方法和服务器
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
US20150317303A1 (en) * 2014-04-30 2015-11-05 Linkedin Corporation Topic mining using natural language processing techniques
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
CN106462579B (zh) 2014-10-15 2019-09-27 微软技术许可有限责任公司 为选定上下文构造词典
US9733825B2 (en) * 2014-11-05 2017-08-15 Lenovo (Singapore) Pte. Ltd. East Asian character assist
US9898773B2 (en) 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10019515B2 (en) 2015-04-24 2018-07-10 Microsoft Technology Licensing, Llc Attribute-based contexts for sentiment-topic pairs
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10410136B2 (en) 2015-09-16 2019-09-10 Microsoft Technology Licensing, Llc Model-based classification of content items
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN107092588B (zh) * 2016-02-18 2022-09-09 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN107515853B (zh) * 2016-06-17 2021-11-05 北京搜狗科技发展有限公司 一种细胞词库推送方法及装置
CN106126606B (zh) * 2016-06-21 2019-08-20 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102617717B1 (ko) * 2016-10-18 2023-12-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11023679B2 (en) * 2017-02-27 2021-06-01 Medidata Solutions, Inc. Apparatus and method for automatically mapping verbatim narratives to terms in a terminology dictionary
CN107315734B (zh) * 2017-05-04 2019-11-26 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10740365B2 (en) * 2017-06-14 2020-08-11 International Business Machines Corporation Gap identification in corpora
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10997225B2 (en) 2018-03-20 2021-05-04 The Boeing Company Predictive query processing for complex system lifecycle management
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
CN108959259B (zh) * 2018-07-05 2019-11-08 第四范式(北京)技术有限公司 新词发现方法及系统
US11023681B2 (en) * 2018-09-19 2021-06-01 International Business Machines Corporation Co-reference resolution and entity linking
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
EP3640834A1 (en) * 2018-10-17 2020-04-22 Verint Americas Inc. Automatic discovery of business-specific terminology
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7172571B2 (ja) * 2018-12-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 検索装置及び検索プログラム
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11308274B2 (en) 2019-05-17 2022-04-19 International Business Machines Corporation Word grouping using a plurality of models
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110362803B (zh) * 2019-07-19 2020-12-18 北京邮电大学 一种基于领域特征词法组合的文本模板生成方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US20220334808A1 (en) * 2019-12-18 2022-10-20 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for creating and using minimum dictionary language (mdl) to access data in closed-domain data sets
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112100987A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种多源数据字典的转码方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis

Family Cites Families (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
WO1997040452A1 (en) * 1996-04-23 1997-10-30 Language Engineering Corporation Automated natural language translation
JP3025724B2 (ja) 1992-11-24 2000-03-27 富士通株式会社 類義語生成処理方法
US5717913A (en) 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5805911A (en) 1995-02-01 1998-09-08 Microsoft Corporation Word prediction system
US6098034A (en) 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6012055A (en) 1996-04-09 2000-01-04 Silicon Graphics, Inc. Mechanism for integrated information search and retrieval from diverse sources using multiple navigation methods
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US5926808A (en) 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6269368B1 (en) 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
US6363377B1 (en) 1998-07-30 2002-03-26 Sarnoff Corporation Search data processor
IL126373A (en) 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
US6370527B1 (en) 1998-12-29 2002-04-09 At&T Corp. Method and apparatus for searching distributed networks using a plurality of search devices
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6963867B2 (en) 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US7447988B2 (en) 2000-05-10 2008-11-04 Ross Gary E Augmentation system for documentation
DE10031351A1 (de) 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20020103793A1 (en) 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US7330811B2 (en) 2000-09-29 2008-02-12 Axonwave Software, Inc. Method and system for adapting synonym resources to specific domains
US7778817B1 (en) 2000-09-30 2010-08-17 Intel Corporation Method and apparatus for determining text passage similarity
GB2368929B (en) 2000-10-06 2004-12-01 Andrew Mather An improved system for storing and retrieving data
US6711577B1 (en) * 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
US7440904B2 (en) 2000-10-11 2008-10-21 Malik M. Hanson Method and system for generating personal/individual health records
US6804677B2 (en) 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US20020169755A1 (en) 2001-05-09 2002-11-14 Framroze Bomi Patel System and method for the storage, searching, and retrieval of chemical names in a relational database
US6697818B2 (en) 2001-06-14 2004-02-24 International Business Machines Corporation Methods and apparatus for constructing and implementing a universal extension module for processing objects in a database
US7295965B2 (en) 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
JP4571404B2 (ja) 2001-07-26 2010-10-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、データ処理システムおよびプログラム
US6820075B2 (en) 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US6826568B2 (en) 2001-12-20 2004-11-30 Microsoft Corporation Methods and system for model matching
US7024624B2 (en) * 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector
ATE466345T1 (de) 2002-01-16 2010-05-15 Elucidon Group Ltd Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US7293003B2 (en) 2002-03-21 2007-11-06 Sun Microsystems, Inc. System and method for ranking objects by likelihood of possessing a property
US8214391B2 (en) 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US7149746B2 (en) 2002-05-10 2006-12-12 International Business Machines Corporation Method for schema mapping and data transformation
US7440941B1 (en) 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
EP1586058A1 (en) 2003-01-24 2005-10-19 BRITISH TELECOMMUNICATIONS public limited company Searching apparatus and methods
US8055669B1 (en) 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
FI120755B (fi) 2003-06-06 2010-02-15 Tieto Oyj Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta
US7617202B2 (en) 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US7296011B2 (en) 2003-06-20 2007-11-13 Microsoft Corporation Efficient fuzzy match for evaluating data records
US7577654B2 (en) * 2003-07-25 2009-08-18 Palo Alto Research Center Incorporated Systems and methods for new event detection
US7895221B2 (en) 2003-08-21 2011-02-22 Idilia Inc. Internet searching using semantic disambiguation and expansion
US20050060643A1 (en) 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7577655B2 (en) 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
US7533115B2 (en) 2003-09-16 2009-05-12 International Business Machines Corporation Method for managing persistent federated folders within a federated content management system
US7610190B2 (en) 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7890526B1 (en) 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
US7254774B2 (en) 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US20050216444A1 (en) 2004-03-25 2005-09-29 Ritter Gerd M Relationship-based searching
WO2005124599A2 (en) 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
US7302426B2 (en) 2004-06-29 2007-11-27 Xerox Corporation Expanding a partially-correct list of category elements using an indexed document collection
US7523085B2 (en) 2004-09-30 2009-04-21 Buzzmetrics, Ltd An Israel Corporation Topical sentiments in electronically stored communications
US20080077570A1 (en) 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7647294B2 (en) 2004-10-27 2010-01-12 Fairbanks Jr William E Indexing and querying engines and methods of indexing and querying
US7461056B2 (en) 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
DE102005008803A1 (de) 2005-02-25 2006-09-07 Siemens Ag Verfahren und Computereinheit zum Ermitteln von Computer-Servicenamen
US7505985B2 (en) 2005-02-25 2009-03-17 International Business Machines Corporation System and method of generating string-based search expressions using templates
US7617193B2 (en) 2005-03-28 2009-11-10 Elan Bitan Interactive user-controlled relevance ranking retrieved information in an information search system
US7636714B1 (en) 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US9400838B2 (en) 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
WO2006113597A2 (en) 2005-04-14 2006-10-26 The Regents Of The University Of California Method for information retrieval
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
WO2006123918A1 (en) 2005-05-20 2006-11-23 Nhn Corporation Query matching system and method, and computer readable recording medium recording program for implementing the method
EP1889179A2 (en) * 2005-05-27 2008-02-20 Hakia, Inc. System and method for natural language processing and using ontological searches
US20070011183A1 (en) 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
US7634462B2 (en) 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US7546290B2 (en) 2005-08-11 2009-06-09 Marc Colando Systems and methods for extracting and adapting data
US20070073745A1 (en) 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US20070100823A1 (en) 2005-10-21 2007-05-03 Inmon Data Systems, Inc. Techniques for manipulating unstructured data using synonyms and alternate spellings prior to recasting as structured data
US7873624B2 (en) 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US7627548B2 (en) 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US7797303B2 (en) 2006-02-15 2010-09-14 Xerox Corporation Natural language processing for developing queries
US8195683B2 (en) 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
US9135238B2 (en) 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
US20070239742A1 (en) 2006-04-06 2007-10-11 Oracle International Corporation Determining data elements in heterogeneous schema definitions for possible mapping
US8255383B2 (en) 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
US9361364B2 (en) 2006-07-20 2016-06-07 Accenture Global Services Limited Universal data relationship inference engine
US7552112B2 (en) 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
US20080087725A1 (en) 2006-10-11 2008-04-17 Qing Liu Fixture based Item Locator System
KR100835172B1 (ko) 2006-10-16 2008-06-05 한국전자통신연구원 동의어를 이용한 정보 검색 시스템 및 그 방법
US8332333B2 (en) 2006-10-19 2012-12-11 Massachusetts Institute Of Technology Learning algorithm for ranking on graph data
US20080109416A1 (en) 2006-11-06 2008-05-08 Williams Frank J Method of searching and retrieving synonyms, similarities and other relevant information
US8423565B2 (en) 2006-12-21 2013-04-16 Digital Doors, Inc. Information life cycle search engine and method
US7890521B1 (en) 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US7860853B2 (en) 2007-02-14 2010-12-28 Provilla, Inc. Document matching engine using asymmetric signature generation
US7877343B2 (en) 2007-04-02 2011-01-25 University Of Washington Through Its Center For Commercialization Open information extraction from the Web
US7958489B2 (en) 2007-04-12 2011-06-07 Microsoft Corporation Out of band data augmentation
EP2140376A1 (en) 2007-05-01 2010-01-06 International Business Machines Corporation Method and system for approximate string matching
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US8239751B1 (en) 2007-05-16 2012-08-07 Google Inc. Data from web documents in a spreadsheet
WO2009000103A1 (en) * 2007-06-25 2008-12-31 Google Inc. Word probability determination
US8601361B2 (en) 2007-08-06 2013-12-03 Apple Inc. Automatically populating and/or generating tables using data extracted from files
JP5283208B2 (ja) 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8417713B1 (en) 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
US8108380B2 (en) 2008-03-03 2012-01-31 Oracle International Corporation Inclusion of metadata in indexed composite document
US7970808B2 (en) 2008-05-05 2011-06-28 Microsoft Corporation Leveraging cross-document context to label entity
US8156053B2 (en) * 2008-05-09 2012-04-10 Yahoo! Inc. Automated tagging of documents
US8782061B2 (en) 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
US20090327223A1 (en) 2008-06-26 2009-12-31 Microsoft Corporation Query-driven web portals
US8275608B2 (en) 2008-07-03 2012-09-25 Xerox Corporation Clique based clustering for named entity recognition system
US9092517B2 (en) 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100121702A1 (en) 2008-11-06 2010-05-13 Ryan Steelberg Search and storage engine having variable indexing for information associations and predictive modeling
US8229883B2 (en) 2009-03-30 2012-07-24 Sap Ag Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases
US9836448B2 (en) * 2009-04-30 2017-12-05 Conversant Wireless Licensing S.A R.L. Text editing
US20100293179A1 (en) 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
GB2472250A (en) 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance
US8332334B2 (en) 2009-09-24 2012-12-11 Yahoo! Inc. System and method for cross domain learning for data augmentation
US20110106807A1 (en) 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
US8156140B2 (en) 2009-11-24 2012-04-10 International Business Machines Corporation Service oriented architecture enterprise service bus with advanced virtualization
US8751218B2 (en) * 2010-02-09 2014-06-10 Siemens Aktiengesellschaft Indexing content at semantic level
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US9251248B2 (en) 2010-06-07 2016-02-02 Microsoft Licensing Technology, LLC Using context to extract entities from a document collection
US8463786B2 (en) 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
US20120011115A1 (en) 2010-07-09 2012-01-12 Jayant Madhavan Table search using recovered semantic information
US8429099B1 (en) 2010-10-14 2013-04-23 Aro, Inc. Dynamic gazetteers for entity recognition and fact association
US9460207B2 (en) 2010-12-08 2016-10-04 Microsoft Technology Licensing, Llc Automated database generation for answering fact lookup queries
US9355145B2 (en) 2011-01-25 2016-05-31 Hewlett Packard Enterprise Development Lp User defined function classification in analytical data processing systems
CN102306144B (zh) * 2011-07-18 2013-05-08 南京邮电大学 一种基于语义词典的词语消歧方法
US9092478B2 (en) 2011-12-27 2015-07-28 Sap Se Managing business objects data sources
CN102609407B (zh) * 2012-02-16 2014-10-29 复旦大学 一种网络不良文本内容的细粒度语义检测方法
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US9171081B2 (en) 2012-03-06 2015-10-27 Microsoft Technology Licensing, Llc Entity augmentation service from latent relational data
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Unknown word detection and segmentation of Chinese using statistical and heuristic knowledge;Nie J Y 等;《Communications of the Chinese & Oriental Languages Information Processing Society》;19951231;第1-11页 *

Also Published As

Publication number Publication date
US20140058722A1 (en) 2014-02-27
US20160012036A1 (en) 2016-01-14
CN104584003A (zh) 2015-04-29
WO2014031505A1 (en) 2014-02-27
US9229924B2 (en) 2016-01-05

Similar Documents

Publication Publication Date Title
CN104584003B (zh) 词检测和域字典推荐
Joshi et al. Towards sub-word level compositions for sentiment analysis of hindi-english code mixed text
US10255273B2 (en) Method and system for ranking and summarizing natural language passages
JP6667504B2 (ja) オーファン発話検出システム及び方法
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
US10181322B2 (en) Multi-user, multi-domain dialog system
US9064006B2 (en) Translating natural language utterances to keyword search queries
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
WO2016197577A1 (zh) 评论信息的标注方法、装置和计算机设备
US20150178273A1 (en) Unsupervised Relation Detection Model Training
US20140236570A1 (en) Exploiting the semantic web for unsupervised spoken language understanding
Psomakelis et al. Comparing methods for twitter sentiment analysis
WO2016008128A1 (en) Speech recognition using foreign word grammar
Murray et al. Interpretation and transformation for abstracting conversations
Abdallah et al. Multi-domain evaluation framework for named entity recognition tools
CN106371711A (zh) 一种信息输入方法及电子设备
Ali et al. Banglasenti: A dataset of bangla words for sentiment analysis
Pérez-Rosas et al. Sentiment analysis of online spoken reviews.
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
US10963641B2 (en) Multi-lingual tokenization of documents and associated queries
Aziz et al. Analysing Machine Learning Techniques for Cyberbullying Detection: A Review Study
Renger et al. VoiSTV: voice-enabled social TV
Castillo et al. Author profiling using a graph enrichment approach
KR102171373B1 (ko) 한글 형태소 분석 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170601

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant