CN102411563A - 一种识别目标词的方法、装置及系统 - Google Patents
一种识别目标词的方法、装置及系统 Download PDFInfo
- Publication number
- CN102411563A CN102411563A CN2010102950547A CN201010295054A CN102411563A CN 102411563 A CN102411563 A CN 102411563A CN 2010102950547 A CN2010102950547 A CN 2010102950547A CN 201010295054 A CN201010295054 A CN 201010295054A CN 102411563 A CN102411563 A CN 102411563A
- Authority
- CN
- China
- Prior art keywords
- text data
- specific characteristic
- participle
- combine text
- common factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本申请公开了一种识别目标词的方法、装置及系统,以利用多个特征值识别目标词,提高识别准确率和召回率。该方法包括:获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,针对划分得到的分词进行分词组合,获得组合文本数据集合,确定候选词集合与组合文本数据集合的交集,计算交集中每个组合文本数据的指定特征值,按照筛选条件对交集中的组合文本数据进行筛选,将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样,可利用多个特征值识别目标词,通过分类算法获得筛选条件,避免了人为设定造成的误差,提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种识别目标词的方法、装置及系统。
背景技术
随着互联网技术的迅速发展,信息呈现爆炸式地增长,信息检索、信息分析、机器翻译等领域也快速兴起,对于中文信息的处理,中文自动分词已经成为一项基本性的任务。中文自动分词是中文信息处理中一项重要的基础性任务,影响中文自动分词效果的难点之一为未登录词识别。所述未登录词是指没有收录至分词词典中的词。对于未登录词又可分为两种情况,一种是不可能全部收录至词典,但是能够总结出规律的词(如,人名、机构名等);另一种是词典中应该收录,但是还没有收录的新词,在这部分新词中有些是词,是应该收录至分词词典中的目标词,还有一部分不是词,是不应该收录的非目标词。
在对新出现的词进行识别时,首先要判断该新出现的词是不是词,即判断该新出现的词是否为目标词,目前的做法主要有三类:基于规则的方法,基于统计的方法,以及规则和统计相结合的方法。主流的基于统计的方法通常是在大规模文本数据的基础上针对待识别词的一个或几个特征量进行统计,根据统计结果人工设定阈值,在高于(或低于)设定阈值时,判断该待识别词为目标词。
但是,随着网络的广泛应用,在网络上出现的文本数据很多情况下,只是一些关键词的堆砌,已经没有完整的语义句式,例如,在电子商务网站中,特别是个人与个人之间的电子商务网站中,存在的海量商品标题。在这些关键词中,往往存在大量新出现的词,但是,此时统计得到的这些新出现的词的特征值的分布趋势是非线性的,在进行识别时,通过针对特征值设定单一阈值,再按照该单一阈值判断该新出现的词是不是目标词,得到的结果是不准确的,因此,传统基于统计的方法来判断待识别词是不是词的方法,已经不能适应当前网络应用中的目标词识别。
发明内容
本申请提供一种识别目标词的方法、装置及系统,用以提高识别目标词的准确率和召回率。
本申请实施例提供的具体技术方案为:
一种识别目标词的方法,包括:
获取候选词集合以及特征计算数据;
基于最小粒度的文本数据对所述特征计算数据进行分词划分;
针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;
确定所述候选词集合与所述组合文本数据集合的交集;
计算所述交集中包含的每个组合文本数据的指定特征值;
根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
一种识别目标词的装置,包括:
获取单元,用于获取候选词集合以及特征计算数据;
分词单元,用于基于最小粒度的文本数据对所述特征计算数据进行分词划分;
分词组合单元,用于针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;
交集确定单元,用于确定所述候选词集合与所述组合文本数据集合的交集;
指定特征值计算单元,用于计算所述交集中包含的每个组合文本数据的指定特征值;
筛选单元,用于根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
一种识别目标词的系统,包括:
识别目标词装置,用于获取候选词集合以及特征计算数据,基于最小粒度的文本数据对所述特征计算数据进行分词划分,针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合,确定所述候选词集合与所述组合文本数据集合的交集,并计算所述交集中包含的每个组合文本数据的指定特征值,根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词;
训练数据提供装置,用于向识别目标词装置提供获得筛选条件所需的训练样本词集合,以及相应的样本特征计算数据;
目标词收录装置,用于接收识别目标词装置识别出的目标词,并将未登录的目标词加入分词词典中。
基于上述技术方案,本申请实施例中,通过将特征计算数据划分为最小粒度的分词,对划分得到的多个分词组合为多个组合文本数据,通过将候选词和组合文本数据集合做交集,计算得到候选词的多个指定特征值,再根据该多个指定特征值识别上述候选词,实现了利用多个特征值识别候选词,并且筛选条件是通过分类算法训练得到,避免了人为设定带来的误差,提高识别的准确性和稳定性,在指定特征值的分词呈非线性时,也可以构建合适的筛选条件,正确识别出目标词,提高了识别的准确率和召回率。
附图说明
图1A为本申请实施例中识别目标词的系统架构图;
图1B为本申请实施例中识别目标词装置结构图;
图2为本申请实施例中获得筛选条件的详细流程图;
图3为本申请实施例中识别目标词的详细流程图。
具体实施方式
为了解决现有的基于统计方法识别文本数据的局限性,即只能利用较少的特征值,并要求对特征值的统计结果呈线性分布,以及由人工调节特征权值和设定阈值造成的误差和不稳定性,本申请实施例中提供了一种识别目标词的方法,可以利用任意维度的特征值,并在特征值的分布趋势为非线性时,也可正确识别出目标词,而不需要人工干预,提高识别的准确率和召回率。该方法为:获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,对经过分词划分处理的特征计算数据进行分词组合,获得作为处理对象的组合文本数据集合,确定候选词集合与组合文本数据集合的交集,并计算该交集中包含的每个组合文本数据的指定特征值,根据该交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对上述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。
其中,在候选词是一个通常意义下的词汇时,该候选词即为目标词;否则,在候选词不是通常意义下的一个词汇时,该候选词为非目标词。
例如,在候选词集合中存在“蝙蝠袖”和“袖女装”,其中,“蝙蝠袖”是一个通常意义下的词汇,则该词为目标词,而“袖女装”不是通常意义下的一个词汇,则该词为非目标词。
候选词集合可以是任意文本数据,其对应的特征计算数据也可以是任意文本数据。本申请实施例中,优选采用用户输入的查询关键词,根据用户输入的查询关键词提取出的候选词集合,并基于用户输入查询关键词对应的查询对象的描述信息提取特征计算数据。例如,在电子商务网站中,收集保存用户输入的用于查询产品的查询关键词,从该查询关键词中提取出候选词集合,从电子商务网站中产品的标题、产品的介绍等描述信息中提取特征计算数据。又例如,在新闻网站中,收集保存用户输入的用于查询新闻的查询关键词,从该查询关键词中提取出候选词集合,从新闻网站中的新闻标题、新闻内容等描述信息中提取特征计算数据。
上述候选词集合与特征计算数据的提取,可采用定期或者定量的方式进行。例如,定期从用户输入的查询关键词中提取候选词集合;对应地,定期提取的特征计算数据;也可以是用于提取候选词集合的用户输入的查询关键词达到一定数量时,提取对应的特征计算数据,然后执行本申请实施例进行目标词识别。
本申请实施例中,准确率是指,在识别出来是目标词的个数中,属于正确识别的分词的个数与识别出来是目标词的个数的比率。召回率是指,在候选词中,正确识别出是目标词的个数与候选词中实际上是目标词的分词的个数之间的比率。
最小粒度的文本数据可以是单个字,也可以是单个分词。本申请实施例中,最小粒度的文本数据以单个分词为例进行说明。
下面结合附图对本申请优选的实施例进行详细的说明。
参阅附图1A所示,本申请实施例中,识别目标词的系统包括识别目标词装置10、训练数据提供装置11和目标词收录装置12,其中:
识别目标词装置10,用于获取候选词集合以及特征计算数据,基于最小粒度的文本数据对所述特征计算数据进行分词划分,针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合,确定所述候选词集合与所述组合文本数据集合的交集,计算该交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词;
训练数据提供装置11,用于向识别目标词装置10提供获得筛选条件所需的训练样本词集合以及相应的样本特征计算数据;
目标词收录装置12,用于接收识别目标词装置10识别出的目标词,并将未登录的目标词加入分词词典中。
基于上述系统架构,参阅附图1B所示,本申请实施例中,识别目标词装置10包括以下处理单元:
获取单元101,用于获取候选词集合以及特征计算数据;
分词单元102,用于基于最小粒度的文本数据对上述特征计算数据进行分词划分;
分词组合单元103,用于针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;
交集确定单元104,用于确定所述候选词集合与所述组合文本数据集合的交集;
指定特征值计算单元105,用于计算所述交集中包含的每个组合文本数据的多个指定特征值;
筛选单元106,根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
其中,上述基于多个指定特征值的筛选条件可采用训练样本词集合对分类算法进行训练得到。在获得该筛选条件时,识别目标词装置10的获取单元101,用于获取训练样本词集合以及样本特征计算数据;分词单元102用于基于最小粒度的文本数据对所述样本特征计算数据进行分词划分;分词组合单元103用于针对经过分词划分处理的样本特征计算数据进行分词组合处理,获得作为处理对象的样本组合文本数据集合;交集确定单元104用于确定所述样本组合文本数据集合与所述训练样本词集合的交集;指定特征值计算单元105用于计算所述交集中包含的每个样本组合文本数据的多个指定特征值;筛选单元106根据所述交集中包含的每个样本组合文本数据的多个指定特征值,以及已知分类结果,设置所述多个指定特征值的门限值,并基于该门限值得到相应的基于多个指定特征值的筛选条件。
本申请实施例中,指定特征可以包括互信息、对数似然比、上下文熵(左熵、右熵)、基于位置的字构词概率,还可以包括骰子矩阵(Dice)、卡方(Chi)等。在获得筛选条件以及识别目标词时,需用到的多个指定特征值可以是上述指定特征值中的任意两种或两种以上的组合。
其中,互信息的计算公式为:
在公式[1]中,“a”,“b”分别代表最小粒度的单个分词,“ab”代表两个分词组合后得到的组合文本数据,pa、pb分别代表分词“a”、分词“b”在特征计算数据中出现的概率,pab代表“ab”在特征计算数据中出现的概率,cab代表“ab”一起在特征计算数据中出现的次数,ca代表“a”在特征计算数据中出现的次数,cb代表“b”在特征计算数据中出现的次数,n代表基于最小粒度的文本数据对特征计算数据进行分词划分得到的分词的个数,在分词“a”和分词“b”的互信息计算中pab与pa和pb的积成负相关。
例如,假设特征计算数据为“圆领女装,蝙蝠袖女装”,计算分词“蝙蝠袖”的互信息时,分词“a”为“蝙蝠”,分词“b”为“袖”,“ab”为“蝙蝠袖”,pa是指分词“蝙蝠”在特征计算数据中出现的概率,pb是指分词“袖”在特征计算数据中出现的概率,pab是指“蝙蝠袖”在特征计算数据中出现的概率,cab是指“蝙蝠袖”在特征计算数据中出现的次数,ca代表“蝙蝠”在特征计算数据中出现的次数,cb代表“袖”在特征计算数据中出现的次数,n代表基于最小粒度的文本数据对特征计算数据进行分词划分得到的分词的个数,这里可以将特征计算数据划分为“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词,可知cab为1,ca为1,cb为1,n为5。
其中,对数似然比是用于衡量各分词之间的联系紧密性,计算公式为:
ll(p,k,n)=klog(p)+(n-k)log(1-p)........................[2]
在公式[2]中,“a”,“b”分别代表最小粒度的单个分词;k1表示文本数据“ab”在特征计算数据中出现的次数;n1表示在采用最小粒度的文本数据对特征计算数据进行分词划分,并在采用语言模型依序组合得到的多个组合文本数据中,“a”出现在左边的组合文本数据的个数;k2表示在上述采用语言模型依序组合得到的多个组合文本数据中,“b”出现在右边,并且左边不为a的组合文本数据的个数;n2表示在上述采用语言模型依序组合得到的多个组合文本数据中,左边不为“a”的组合文本数据的个数。
例如,基于与上例相同的特征计算数据,在将特征计算数据划分为“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词的情况下,采用语言模型对上述分词进行二元组合得到“圆领女装”、“女装蝙蝠”、“蝙蝠袖”、“袖女装”4个组合文本数据。计算“蝙蝠袖”的对数似然比时,k1为“蝙蝠袖”在特征计算数据中出现的次数,n1为在上述4个组合文本数据中,“蝙蝠”出现在左边的组合文本数据的个数,k2为在上述4个组合文本数据中,“袖”出现在右边,同时左边不是“蝙蝠”的组合文本数据的个数,n2为在上述4个组合文本数据中,左边不是“蝙蝠”的组合文本数据的个数。
其中,上下文熵是用于表示多个分词表达的使用自由度,熵是不确定因素的表达,熵越大说明随机事件越不确定,只能在固定上下文中使用的字符串,其上下文熵值小,而能在不同上下文中使用的字符串其上下文熵值大,上下文熵包括左熵和右熵,左熵的计算公式为:
在公式[3]中,“a”,“b”分别代表最小粒度的单个分词,“ab”代表两个分词组合后得到的文本数据,p(x|ab)是指在特征计算数据中“ab”出现的前提下,左边出现分词“x”的概率,left是指“ab”的左边出现分词的集合,cxab是指在“ab”的左边出现分词的次数,cab是指“ab”出现的次数,在左熵计算中,p(x|ab)和p(x|ab)以2为底的对数成正相关。
右熵的计算公式为:
在公式[4]中,“a”,“b”分别代表最小粒度的单个分词,“ab”代表两个分词组合后得到的文本数据,p(y|ab)是指在特征计算数据中“ab”出现的前提下,右边出现分词“y”的概率,right是指“ab”的右边出现分词的集合,在右熵计算中,p(y|ab)和p(y|ab)以2为底的对数成正相关。
例如,特征计算数据为“圆领女装,蝙蝠袖T恤,蝙蝠袖连衣裙”,采用最小粒度的文本数据对该特征计算数据进行划分后,得到“圆领”、“女装”、“蝙蝠”、“袖”、“T恤”、“蝙蝠”、“袖”、“连衣裙”,在计算“蝙蝠袖”的左熵时,“a”为“蝙蝠”,“b”为“袖”,在“蝙蝠袖”的左边出现的分词有“女装”和“T恤”,则“x”的个数为2,分别为“女装”和“T恤”,“蝙蝠袖”出现的次数cab为2;在计算“蝙蝠袖”的右熵时,“a”为“蝙蝠”,“b”为“袖”,在“蝙蝠袖”的右边出现的分词“y”分别为“T恤”和“连衣裙”。
其中,基于位置的字构词概率(in-word probability of a character)计算公式为:
IP(s)=IP(c,1)×IPmin(c,2)×IP(c,0)........................[5]
在公式[5]中,s是指待计算分词,IP(c,1)指基于分词词典统计出的待计算分词s的首个字符出现在分词词典中的分词词首的概率,IP(c,2)指基于分词词典统计出的待计算分词s的中间位置的字符出现在分词词典中的分词的中间位置的概率,在待计算分词s的中间位置存在多个字符时,分别计算每个字符出现在分词词典中间位置的概率,然后取其中最小的一个作为IPmin(c,2),以计算待计算分词基于位置的字构词概率,IP(c,0)指基于分词词典统计出的待计算分词s的末尾字符出现在分词词典中的分词的末尾的概率。在计算基于位置的字构词概率时,IP(c,1)、IPmin(c,2)、IP(c,0)成正相关。本申请实施例中,在获得筛选条件的流程中待计算分词指的是样本词,在识别目标词的流程中,待计算分词指的是候选词。
例如,待计算分词为“阿迪达斯”,IP(c,1)指基于分词词典统计出的,所有首个字符为“阿”的分词出现的概率,IP(c,0)指基于分词词典统计出的,所有末尾字符为“斯”的分词出现的概率,IP(c,2)存在两个值,一个值是基于分词词典统计出的,所有中间字符为“迪”的分词出现的概率,另一个值是基于分词词典统计出的,所有中间字符为“达”的分词出现的概率,在计算基于位置的字构词概率时,在IP(c,2)的两个值中选择值最小的作为IPmin(c,2)。
本申请实施例中,在识别目标词之前,首先需要获得筛选条件,构建筛选条件的过程正是机器学习的过程,参阅附图2所示,获得筛选条件的具体流程如下:
步骤201:获取训练样本词集合以及样本特征计算数据,该训练样本词集合为已知分类结果的词的集合。
其中,上述已知分类结果的词的集合是指,在该词的集合中,已经获知其中任意一个词是否为目标词,将同属于目标词的归属于一个类别,将不属于目标词的归属于另一个类别。
训练样本词集合包括正例词集合和反例词集合,正例词表示该词是一个目标词,反例词表示该词不是目标词,而是噪声词。本申请实施例中,可以直接从已有的分词词典中获取正例词集合,从构建分词词典过程中人工审核得到的噪声词中获取反例词集合。
例如,“蝙蝠袖”为一个已知正例词,也是目标词,“袖T恤”是一个已知噪声词,即反例词。
其中,上述样本特征计算数据中包含训练样本词集合中的训练样本词,和基于该样本特征计算数据计算训练样本词集的各个指定特征值。
步骤202:基于最小粒度的文本数据对所述样本特征计算数据进行分词划分。
上述最小粒度的文本数据可以是单个字,就是将样本特征计算数据以字为单位进行分词划分,将样本特征计算数据划分为多个字,较佳地,可以将能够表达语义的最简洁词汇作为最小粒度的文本数据,将样本特征计算数据划分为多个分词。
本申请实施例中,相较于以单个字作为最小粒度的文本数据的方法,采用能够表达语义的最简洁词汇作为最小粒度的文本数据,可以减少计算量,提高效率。
例如,对于样本特征计算数据为“圆领女装,蝙蝠袖女装”,将能够表达语义的最简洁词汇作为最小粒度的文本数据,对该样本特征计算数据进行分词划分,可以得到“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词。
步骤203:针对经过分词划分处理的样本特征计算数据进行分词组合处理,以确定作为处理对象的样本组合文本数据集合。
该步骤中采用语言模型对经过划分处理的样本特征计算数据进行分词组合处理。本申请实施例中,采用n元模型(n-gram语言模型,也称为n阶马尔柯夫链)进行分词组合处理,确定作为处理对象的样本组合文本数据集合,具体为:采用基于n元视窗的n元模型,以划分得到的分词为基本单位,按照设定顺序移动n元视窗,将视窗内包含的分词进行组合处理,得到多个样本组合文本数据。
本申请实施例中,n元模型中的n取2或3,在n取2时,表示采用二元视窗进行二元组合,即随着视窗的移动,将划分得到的分词分别与相邻的分词进行两两组合。同样地,在n取3时,表示采用三元视窗进行三元组合,即随着视窗的移动,将划分得到的分词分别与相邻的分词进行三三组合。
例如,采用n元模型对上述划分得到的分词进行组合处理,在n取2时,可以得到组合后的文本数据“圆领女装”、“女装蝙蝠”、“蝙蝠袖”、“袖女装”;又例如,在n取3时,可以得到组合后的文本数据“圆领女装蝙蝠”、“女装蝙蝠袖”、“蝙蝠袖女装”。
步骤204:确定样本组合文本数据集合与训练样本词集合的交集。
步骤205:计算上述交集中包含的每个样本组合文本数据的多个指定特征值。
根据上述基于最小粒度的文本数据对样本特征计算数据划分后得到的分词集合,以及上述作为处理对象的样本组合文本数据集合,计算上述交集中包含的每个样本组合文本数据的多个指定特征值,该多个指定特征值可以包括互信息的值,对数似然比的值,上下文熵(左熵、右熵)的值,基于位置的字构词概率的值,还可以包括骰子矩阵(Dice)的值、卡方(Chi)的值等。
其中,在计算上述交集中包含的每个样本组合文本数据的多个指定特征值时,可以通过计算样本组合文本数据集合中的每个样本组合文本数据的多个指定特征值,进而获得上述交集中包含的每个样本组合文本数据的多个指定特征值;也可以直接计算上述交集中包含的每个样本组合文本数据的多个指定特征值。
步骤206:根据上述交集中包含的每个样本组合文本数据的多个指定特征值,以及上述已知的分类结果,设置上述多个指定特征值的门限值,并基于该门限值得到相应的基于多个指定特征值的筛选条件。
通过确定样本组合文本数据集合和训练样本词集合的交集,获得与训练样本词集合中每个词相对应的多个指定特征值,上述交集中包含的词既是样本组合文本数据,也是训练样本词,已知该训练样本词的分类结果,即已知该训练样本词是否为目标词,采用分类算法对上述交集中的训练样本词进行分类,将属于目标词的分为一类,将不属于目标词的分为另一类。
在采用分类算法对训练样本词进行分类时,分类算法根据训练样本词及相对应的指定特征值,对该训练样本词进行分类,将得到的分类结果与已知的该训练样本词的分类结果进行比较,上述指定特征值为上述多个指定特征值中任意两个或两个以上的组合。如果比较后发现两者不一致,分类算法调整针对各个指定特征值设定的门限值,重新对该训练样本词进行分类,重复上述过程,直至分类算法基本能够对该训练样本数据正确分类。以上过程为机器学习的过程,也是训练过程,通过采用大量的训练样本数据重复上述训练过程后,所得到的针对各个特征值设定的门限值,再由各个特征值设定的门限值形成相对应的筛选条件。
其中,获得的筛选条件为基于特定知识的表达方式,该基于知识的表达方式可以是树、图、网络、规则等离散结构,也可以是数学公式。
例如,在采用梯度渐近决策树(Gradient boosting and Decision tree,GBDT)分类算法时,采用训练样本词集合对该分类算法进行训练,得到筛选条件为树型结构的分类规则,GBDT分类算法采用若干决策树组成,决策树可以表示为:
其中,Ri表示一个区间(如,Ri={x|x1<0.2,0.3≤x2<0.7})。
基于该决策树,GBDT分类算法可以表示为:
其中,Fm(x)为可用最小二乘法、最大熵进行估算的函数。
采用训练样本词集合对GBDT分类算法进行训练,例如,该训练样本词集合包含的正例词为“罗汉果茶”、“胶针枪”、“苹果醋”,包含的反例词为“立版”、“课课练”。假设基于样本特征计算数据分别计算每个训练样本词的特征值,计算出的“罗汉果茶”的互信息为3.03,左熵为2.52,“胶针枪”的互信息为3.93,左熵为0,“苹果醋”的互信息为1.39,左熵为3.88,“立版”的互信息为0.66,左熵为1.88,“课课练”的互信息为13.68,左熵为2.88。则基于该训练样本词集合,以及每个样本词的特征值,得到的筛选条件为:
判断指定特征值中的互信息的值所属的区间,如果互信息的值大于1.0且小于8.0,则返回1;否则,执行如下判断:
判断指定特征值中的左熵的值所属的区间,如果左熵的值小于0.9或者是大于2.2且小于2.65或者是大于3.3,则返回1;否则,返回0。
其中,返回1表示输入的为正例词,返回0则表示返回的为反例词。
该例中的筛选条件仅是基于少数训练样本词以及每个训练样本词的少量指定特征值得到的。实际应用中,可根据本申请实施例,使用大规模的训练样本词对分类算法进行训练得到能够正确识别目标词的筛选条件。
基于上述系统架构,参阅附图3所示,本申请实施例中,识别目标词的详细流程如下:
步骤301:获取候选词集合以及特征计算数据。
例如,在C2C网站的查询日志中,获取用户每周输入的查询关键词,通过对噪音、查询次数等进行过滤,获得候选数据,并将最新的C2C网站卖家填写的商品标题作为特征计算数据。
步骤302:基于最小粒度的文本数据对上述特征计算数据进行分词划分。
上述最小粒度的文本数据可以是单个字,就是将特征计算数据以字为单位进行分词划分,将特征计算数据划分为多个字。较佳地,可以将能够表达语义的最简洁词汇作为最小粒度的文本数据,将特征计算数据划分为多个分词。
本申请实施例中,相较于以单个字作为最小粒度的文本数据的方法,采用能够表达语义的最简洁词汇作为最小粒度的文本数据,同样可以保证识别结果,并且可以减少计算量,提高效率。
步骤303:针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合。
采用语言模型对经过划分处理的特征计算数据进行分词组合处理,本申请实施例中,采用n元模型进行分词组合处理,确定作为处理对象的组合文本数据集合,具体为:采用基于n元视窗的n元模型,以划分得到的分词为基本单位,按照设定顺序移动n元视窗,将视窗内包含的分词进行组合处理。本申请实施例中,n元模型中的n取2或3,在n取2时,表示采用二元视窗进行二元组合,即随着视窗的移动,将划分得到的分词分别与相邻的分词进行两两组合,同样地,在n取3时,表示采用三元视窗进行三元组合,即随着视窗的移动,将划分得到的分词分别与相邻的分词进行三三组合。
例如,特征计算数据为“阿迪达斯品牌运动鞋免运费”,将能够表达语义的最简洁词汇作为最小粒度的文本数据,对该特征计算数据进行分词划分,可以得到分词“阿迪达斯”、“品牌”、“运动鞋”、“免运费”,采用n元模型进行二元组合(即n取2),可以得到“阿迪达斯品牌”、“品牌运动鞋”、“运动鞋免运费”;假设,基于上述同样的特征计算数据划分得到的分词“阿迪达斯”、“品牌”、“运动鞋”、“免运费”,采用n元模型进行三元组合(即n取3),可以得到“阿迪达斯品牌运动鞋”、“品牌运动鞋免运费”。
步骤304:确定上述候选词集合与上述组合文本数据集合的交集。
步骤305:计算上述交集中包含的每个组合文本数据的多个指定特征值。
该多个指定特征值可以包括以下值中的任意两种或两种以上的组合:
互信息的值、对数似然比的值、上下文熵(左熵、右熵)的值、基于位置的字构词概率的值、骰子矩阵的值、卡方的值等。
本申请实施例中,在计算指定特征值时,可以将公式中的“a”词和“b”词分别看作是由多个分词组合而成的文本数据,再按照公式计算出各个指定特征值。
例如,对于文本数据“abc”,在计算互信息时,可拆分为“ab”和“c”,或者是拆分为“a”、“bc”,则分别针对得到的上述两组文本数据分别计算互信息的值,然后取两个计算结果中值最大的一个作为文本数据“abc”的互信息;同样地,在计算对数似然比时,也可拆分为“ab”和“c”,或者是拆分为“a”、“bc”,则分别针对得到的上述两组文本数据分别计算对数似然比的值,然后取两个计算结果中值最大的一个作为文本数据“abc”的对数似然比的值。
步骤306:根据上述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对该交集中包含的组合文本数据进行筛选,将指定特征值符合该筛选条件的组合文本数据对应的候选词确定为目标词。
其中,交集中的组合文本数据同时也是候选词,在计算交集中包含的每个组合文本数据的多个指定特征值时,可以通过计算组合文本数据集合中每个组合文本数据的多个指定特征值,进而获得上述交集中包含的每个组合文本数据的多个指定特征值;也可以是直接计算交集中包含的每个组合文本数据的多个指定特征值。计算得到的上述交集中包含的组合文本数据的各个指定特征值,同时也是与候选词相对应的各个指定特征值。
该基于多个指定特征值的筛选条件是由构建筛选条件的过程(即训练过程)获得的。根据采用的分类算法的不同,该预设的筛选条件的表现形式也不相同,可以是树、图、网络、规则等离散结构,也可以是数学公式。例如,预设的筛选条件可以用数学公式表示为:其中,pi=exp(Li-c),L1=-0.0728575×MI+0.17012×LE,L2=0.0728575×MI-0.17012×LE,该数学公式表示,在根据指定特征值计算得到的p1大于p2时,可判定候选词为目标词,否则,可判定候选词不是目标词。
按照预设的筛选条件对候选词进行筛选时,将上述交集中包含的组合文本数据的指定特征值,和基于预设的筛选条件确定的与该指定特征值相对应的门限值进行比较,将指定特征值符合门限值的组合文本数据对应的候选词确定为目标词。其中,在将交集中包含的组合文本数据的指定特征值和基于预设的筛选条件确定的与指定特征值相对应的门限值进行比较时,可以是将上述交集中包含的组合文本数据的指定特征值,和基于预设筛选条件确定的与该指定特征值相对应的门限值直接比较,或者是将上述交集中包含的组合文本数据的指定特征值,输入基于筛选条件确定的公式中,计算出的值再与筛选条件确定的门限值进行比较。
本申请实施例中,在对候选词进行识别之后,获知该候选词为目标词时,将该目标词与已知分词词典进行比对,在该已知分词词典中不包含该目标词时,确定该目标词为未登录词,将该目标词加入上述分词词典中。
较佳地,可以在对候选词进行识别之前,将该候选词与已知分词词典进行比较,如果该已知分词词典中不包含该分词,则对上述候选词进行识别,在确定该候选词为目标词后,加入上述已知分词词典中;如果将上述候选词与已知分词词典进行比较后,发现该候选词已经存在于该分词词典中,说明该候选词为已登录词,即该候选词是目标词,并且已经收录至分词词典,无需再执行识别流程。
基于上述实施例,通过对特征计算数据进行分词划分,将特征计算数据划分为最小粒度的分词,再通过语言模型进行分词组合,基于组合后的文本数据计算得到候选词的各个指定特征值,按照预设的筛选条件,对该候选词进行识别,从而利用多个指定特征值对候选词进行识别,并且在识别时预设的筛选条件是采用训练数据对分类算法进行训练获得,并非人为设定的阈值,从而避免了人为设定造成的误差,提高了准确性和稳定性,并且采用对分类算法进行训练构建出的筛选条件对候选词进行识别,并不要求候选词的各个指定特征值呈线性分布,对于各个指定特征值呈非线性分布的情况,也可以正确识别候选词,提高了识别的准确率和召回率。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种识别目标词的方法,其特征在于,包括:
获取候选词集合以及特征计算数据;
基于最小粒度的文本数据对所述特征计算数据进行分词划分;
针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;
确定所述候选词集合与所述组合文本数据集合的交集;
计算所述交集中包含的每个组合文本数据的指定特征值;
根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
2.如权利要求1所述的方法,其特征在于,所述进行分词组合处理包括:
采取基于n元视窗的n元模型,按照设定顺序移动n元视窗,将视窗内包含的分词进行分词组合,得到组合后的组合文本数据。
3.如权利要求1所述的方法,其特征在于,根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词,包括:
将所述交集中包含的组合文本数据的指定特征值,和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较,将指定特征值符合相应门限值的组合文本数据对应的候选词确定为目标词。
4.如权利要求3所述的方法,其特征在于,将所述交集中包含的组合文本数据的指定特征值,和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较,包括:
将所述交集中包含的组合文本数据的指定特征值,和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较;
或者
将所述交集中包含的组合文本数据的指定特征值,输入基于筛选条件确定的公式进行计算,计算出的值再与筛选条件确定的门限值进行比较。
5.如权利要求1-4任一项所述的方法,其特征在于,所述组合文本数据的指定特征值至少包含互信息、对数似然比、左熵、右熵和基于位置的字构词概率值中的任意两种或两种以上的组合。
6.如权利要求1-4任一项所述的方法,其特征在于,所述筛选条件通过以下步骤取得:
选取训练样本词集合以及样本特征计算数据,该训练样本词集合为已知分类结果的词的集合;
基于最小粒度的文本数据对所述样本特征计算数据进行分词划分;
针对经过分词划分处理的样本特征计算数据进行分词组合处理,获得作为处理对象的样本组合文本数据集合;
确定所述样本组合文本数据集合与所述训练样本词集合的交集;
计算所述交集中包含的每个样本组合文本数据的多个指定特征值;
根据所述交集中包含的每个样本组合文本数据的多个指定特征值,以及所述已知分类结果,设置所述多个指定特征值的门限值,并基于所述门限值得到相应的基于多个指定特征值的筛选条件。
7.一种识别目标词的装置,其特征在于,包括:
获取单元,用于获取候选词集合以及特征计算数据;
分词单元,用于基于最小粒度的文本数据对所述特征计算数据进行分词划分;
分词组合单元,用于针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;
交集确定单元,用于确定所述候选词集合与所述组合文本数据集合的交集;
指定特征值计算单元,用于计算所述交集中包含的每个组合文本数据的指定特征值;
筛选单元,用于根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。
8.如权利要求7所述的装置,其特征在于,所述筛选单元根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词,具体为:
将所述交集中包含的组合文本数据的指定特征值,和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较,将指定特征值符合相应门限值的组合文本数据对应的候选词确定为目标词。
9.如权利要求7或8所述的装置,其特征在于,所述筛选单元的筛选条件通过以下步骤获得:
选取训练样本词集合以及样本特征计算数据,该训练样本词集合为已知分类结果的词的集合;
基于最小粒度的文本数据对所述样本特征计算数据进行分词划分;
针对经过分词划分处理的样本特征计算数据进行分词组合处理,获得作为处理对象的样本组合文本数据集合;
确定所述样本组合文本数据集合与所述训练样本词集合的交集;
计算所述交集中每个样本组合文本数据的多个指定特征值;
根据所述交集中包含的每个样本组合文本数据的多个指定特征值,以及所述已知分类结果,设置所述多个指定特征值的门限值,并基于所述门限值得到相应的基于多个指定特征值的筛选条件。
10.一种识别目标词的系统,其特征在于,包括:
识别目标词装置,用于获取候选词集合以及特征计算数据,基于最小粒度的文本数据对所述特征计算数据进行分词划分,针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合,确定所述候选词集合与所述组合文本数据集合的交集,并计算所述交集中包含的每个组合文本数据的指定特征值,根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词;
训练数据提供装置,用于向识别目标词装置提供获得筛选条件所需的训练样本词集合,以及相应的样本特征计算数据;
目标词收录装置,用于接收识别目标词装置识别出的目标词,并将未登录的目标词加入分词词典中。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010295054.7A CN102411563B (zh) | 2010-09-26 | 2010-09-26 | 一种识别目标词的方法、装置及系统 |
TW099140212A TWI518528B (zh) | 2010-09-26 | 2010-11-22 | Method, apparatus and system for identifying target words |
US13/240,034 US8744839B2 (en) | 2010-09-26 | 2011-09-22 | Recognition of target words using designated characteristic values |
PCT/US2011/001648 WO2012039778A1 (en) | 2010-09-26 | 2011-09-23 | Recognition of target words using designated characteristic values |
EP11827103.0A EP2619651A4 (en) | 2010-09-26 | 2011-09-23 | Recognition of target words using designated characteristic values |
JP2013530136A JP5608817B2 (ja) | 2010-09-26 | 2011-09-23 | 指定特性値を使用するターゲット単語の認識 |
HK12107009.0A HK1166397A1 (zh) | 2010-09-26 | 2012-07-18 | 種識別目標詞的方法、裝置及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010295054.7A CN102411563B (zh) | 2010-09-26 | 2010-09-26 | 一种识别目标词的方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102411563A true CN102411563A (zh) | 2012-04-11 |
CN102411563B CN102411563B (zh) | 2015-06-17 |
Family
ID=45871528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010295054.7A Active CN102411563B (zh) | 2010-09-26 | 2010-09-26 | 一种识别目标词的方法、装置及系统 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8744839B2 (zh) |
EP (1) | EP2619651A4 (zh) |
JP (1) | JP5608817B2 (zh) |
CN (1) | CN102411563B (zh) |
HK (1) | HK1166397A1 (zh) |
TW (1) | TWI518528B (zh) |
WO (1) | WO2012039778A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105528403A (zh) * | 2015-12-02 | 2016-04-27 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
CN106933797A (zh) * | 2015-12-29 | 2017-07-07 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN108960952A (zh) * | 2017-05-24 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种违禁信息的检测方法及装置 |
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
WO2020038253A1 (zh) * | 2018-08-20 | 2020-02-27 | 深圳追一科技有限公司 | 关键词的提取方法、系统和存储介质 |
CN111079421A (zh) * | 2019-11-25 | 2020-04-28 | 北京小米智能科技有限公司 | 一种文本信息分词处理的方法、装置、终端及存储介质 |
CN111402894A (zh) * | 2020-03-25 | 2020-07-10 | 北京声智科技有限公司 | 语音识别方法及电子设备 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN112257416A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种稽查新词发现方法及系统 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
KR101359718B1 (ko) * | 2012-05-17 | 2014-02-13 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
US10592841B2 (en) * | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
TW201619885A (zh) * | 2014-11-17 | 2016-06-01 | 財團法人資訊工業策進會 | 電子商務口碑分析系統、方法和其電腦可讀取記錄媒體 |
CN105653701B (zh) * | 2015-12-31 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、词语赋权方法及装置 |
CN105893351B (zh) * | 2016-03-31 | 2019-08-20 | 海信集团有限公司 | 语音识别方法及装置 |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
WO2019023911A1 (en) * | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR TEXT SEGMENTATION |
CN108304377B (zh) * | 2017-12-28 | 2021-08-06 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN108733645A (zh) * | 2018-04-11 | 2018-11-02 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN108681534A (zh) * | 2018-04-11 | 2018-10-19 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN109460450B (zh) * | 2018-09-27 | 2021-07-09 | 清华大学 | 对话状态跟踪方法、装置、计算机设备和存储介质 |
CN111222328B (zh) * | 2018-11-26 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
CN111191446B (zh) * | 2019-12-10 | 2022-11-25 | 平安医疗健康管理股份有限公司 | 交互信息处理方法、装置、计算机设备和存储介质 |
CN111274353B (zh) * | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN112101030B (zh) * | 2020-08-24 | 2024-01-26 | 沈阳东软智能医疗科技研究院有限公司 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
CN112559865B (zh) * | 2020-12-15 | 2023-12-08 | 泰康保险集团股份有限公司 | 信息处理系统、计算机可读存储介质及电子设备 |
CN113609296B (zh) * | 2021-08-23 | 2022-09-06 | 南京擎盾信息科技有限公司 | 用于舆情数据识别的数据处理方法和装置 |
CN113836303A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
CN1340804A (zh) * | 2000-08-30 | 2002-03-20 | 国际商业机器公司 | 自动新词提取方法和系统 |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
US20100138411A1 (en) * | 2008-11-30 | 2010-06-03 | Nexidia Inc. | Segmented Query Word Spotting |
CN101836205A (zh) * | 2007-08-23 | 2010-09-15 | 谷歌股份有限公司 | 域词典创建 |
Family Cites Families (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2836159B2 (ja) | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
US7225182B2 (en) * | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
DE60036486T2 (de) | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US7475006B2 (en) * | 2001-07-11 | 2009-01-06 | Microsoft Corporation, Inc. | Method and apparatus for parsing text using mutual information |
US7254530B2 (en) * | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
CA2374298A1 (en) * | 2002-03-01 | 2003-09-01 | Ibm Canada Limited-Ibm Canada Limitee | Computation of frequent data values |
US7580831B2 (en) * | 2002-03-05 | 2009-08-25 | Siemens Medical Solutions Health Services Corporation | Dynamic dictionary and term repository system |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP3724649B2 (ja) * | 2002-11-11 | 2005-12-07 | 松下電器産業株式会社 | 音声認識用辞書作成装置および音声認識装置 |
US20040098380A1 (en) * | 2002-11-19 | 2004-05-20 | Dentel Stephen D. | Method, system and apparatus for providing a search system |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
US7555428B1 (en) * | 2003-08-21 | 2009-06-30 | Google Inc. | System and method for identifying compounds through iterative analysis |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
CN100454303C (zh) * | 2005-01-07 | 2009-01-21 | 松下电器产业株式会社 | 联想辞典制作装置 |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
US20070112839A1 (en) * | 2005-06-07 | 2007-05-17 | Anna Bjarnestam | Method and system for expansion of structured keyword vocabulary |
JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
JP3983265B1 (ja) * | 2006-09-27 | 2007-09-26 | 沖電気工業株式会社 | 辞書作成支援システム、方法及びプログラム |
US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
US20100070263A1 (en) | 2006-11-30 | 2010-03-18 | National Institute Of Advanced Industrial Science And Technology | Speech data retrieving web site system |
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
JP5239161B2 (ja) * | 2007-01-04 | 2013-07-17 | 富士ゼロックス株式会社 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
CN101815996A (zh) * | 2007-06-01 | 2010-08-25 | 谷歌股份有限公司 | 检测名称实体和新词 |
CN102124459B (zh) * | 2007-06-14 | 2013-06-12 | 谷歌股份有限公司 | 词典词和短语确定 |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
WO2009000103A1 (en) * | 2007-06-25 | 2008-12-31 | Google Inc. | Word probability determination |
EP2160677B1 (en) * | 2007-06-26 | 2019-10-02 | Endeca Technologies, INC. | System and method for measuring the quality of document sets |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
JP2009176148A (ja) * | 2008-01-25 | 2009-08-06 | Nec Corp | 未知語判定システム、方法及びプログラム |
US20090299998A1 (en) * | 2008-02-15 | 2009-12-03 | Wordstream, Inc. | Keyword discovery tools for populating a private keyword database |
US20100114878A1 (en) * | 2008-10-22 | 2010-05-06 | Yumao Lu | Selective term weighting for web search based on automatic semantic parsing |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
US7996369B2 (en) * | 2008-11-14 | 2011-08-09 | The Regents Of The University Of California | Method and apparatus for improving performance of approximate string queries using variable length high-quality grams |
US20100145677A1 (en) * | 2008-12-04 | 2010-06-10 | Adacel Systems, Inc. | System and Method for Making a User Dependent Language Model |
US8032537B2 (en) * | 2008-12-10 | 2011-10-04 | Microsoft Corporation | Using message sampling to determine the most frequent words in a user mailbox |
KR101255557B1 (ko) * | 2008-12-22 | 2013-04-17 | 한국전자통신연구원 | 음절 분리에 기반한 문자열 검색 시스템 및 그 방법 |
US8145662B2 (en) * | 2008-12-31 | 2012-03-27 | Ebay Inc. | Methods and apparatus for generating a data dictionary |
JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2010176285A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US20100205198A1 (en) * | 2009-02-06 | 2010-08-12 | Gilad Mishne | Search query disambiguation |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US8392441B1 (en) * | 2009-08-15 | 2013-03-05 | Google Inc. | Synonym generation using online decompounding and transitivity |
CN101996631B (zh) | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
US20110082848A1 (en) * | 2009-10-05 | 2011-04-07 | Lev Goldentouch | Systems, methods and computer program products for search results management |
-
2010
- 2010-09-26 CN CN201010295054.7A patent/CN102411563B/zh active Active
- 2010-11-22 TW TW099140212A patent/TWI518528B/zh not_active IP Right Cessation
-
2011
- 2011-09-22 US US13/240,034 patent/US8744839B2/en active Active
- 2011-09-23 EP EP11827103.0A patent/EP2619651A4/en not_active Withdrawn
- 2011-09-23 WO PCT/US2011/001648 patent/WO2012039778A1/en active Application Filing
- 2011-09-23 JP JP2013530136A patent/JP5608817B2/ja not_active Expired - Fee Related
-
2012
- 2012-07-18 HK HK12107009.0A patent/HK1166397A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
CN1340804A (zh) * | 2000-08-30 | 2002-03-20 | 国际商业机器公司 | 自动新词提取方法和系统 |
CN101836205A (zh) * | 2007-08-23 | 2010-09-15 | 谷歌股份有限公司 | 域词典创建 |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
US20100138411A1 (en) * | 2008-11-30 | 2010-06-03 | Nexidia Inc. | Segmented Query Word Spotting |
Non-Patent Citations (1)
Title |
---|
徐亮: "中文新词识别研究", 《中国优秀硕士论文全文数据库》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN104111933B (zh) * | 2013-04-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105528403A (zh) * | 2015-12-02 | 2016-04-27 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
CN105528403B (zh) * | 2015-12-02 | 2020-01-03 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
CN106933797A (zh) * | 2015-12-29 | 2017-07-07 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN106933797B (zh) * | 2015-12-29 | 2021-01-26 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
CN108960952A (zh) * | 2017-05-24 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种违禁信息的检测方法及装置 |
CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
WO2020038253A1 (zh) * | 2018-08-20 | 2020-02-27 | 深圳追一科技有限公司 | 关键词的提取方法、系统和存储介质 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109670170A (zh) * | 2018-11-21 | 2019-04-23 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109670170B (zh) * | 2018-11-21 | 2023-04-07 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
CN111079421A (zh) * | 2019-11-25 | 2020-04-28 | 北京小米智能科技有限公司 | 一种文本信息分词处理的方法、装置、终端及存储介质 |
CN111079421B (zh) * | 2019-11-25 | 2023-09-26 | 北京小米智能科技有限公司 | 一种文本信息分词处理的方法、装置、终端及存储介质 |
CN111402894A (zh) * | 2020-03-25 | 2020-07-10 | 北京声智科技有限公司 | 语音识别方法及电子设备 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN112257416A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种稽查新词发现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
TWI518528B (zh) | 2016-01-21 |
EP2619651A1 (en) | 2013-07-31 |
US8744839B2 (en) | 2014-06-03 |
JP5608817B2 (ja) | 2014-10-15 |
TW201214169A (en) | 2012-04-01 |
JP2013545160A (ja) | 2013-12-19 |
EP2619651A4 (en) | 2017-12-27 |
WO2012039778A1 (en) | 2012-03-29 |
US20120078631A1 (en) | 2012-03-29 |
CN102411563B (zh) | 2015-06-17 |
HK1166397A1 (zh) | 2012-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN107122340B (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN108874921A (zh) | 提取文本特征词的方法、装置、终端设备及存储介质 | |
CN105279252A (zh) | 挖掘相关词的方法、搜索方法、搜索系统 | |
CN105224648A (zh) | 一种实体链接方法与系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN105183831A (zh) | 一种针对不同学科题目文本分类的方法 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN109558587A (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN109471934B (zh) | 基于互联网的金融风险线索发掘方法 | |
CN114398898A (zh) | 基于日志事件关系生成kpi曲线并标记波段特征的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1166397 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1166397 Country of ref document: HK |