CN102411563A

CN102411563A - 一种识别目标词的方法、装置及系统

Info

Publication number: CN102411563A
Application number: CN2010102950547A
Authority: CN
Inventors: 孙海波; 杨扬; 陈一宁
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2010-09-26
Filing date: 2010-09-26
Publication date: 2012-04-11
Anticipated expiration: 2030-09-26
Also published as: TWI518528B; EP2619651A1; US8744839B2; JP5608817B2; TW201214169A; JP2013545160A; EP2619651A4; WO2012039778A1; US20120078631A1; CN102411563B; HK1166397A1

Abstract

本申请公开了一种识别目标词的方法、装置及系统，以利用多个特征值识别目标词，提高识别准确率和召回率。该方法包括：获取候选词集合以及特征计算数据，基于最小粒度的文本数据对特征计算数据进行分词划分，针对划分得到的分词进行分词组合，获得组合文本数据集合，确定候选词集合与组合文本数据集合的交集，计算交集中每个组合文本数据的指定特征值，按照筛选条件对交集中的组合文本数据进行筛选，将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样，可利用多个特征值识别目标词，通过分类算法获得筛选条件，避免了人为设定造成的误差，提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。

Description

一种识别目标词的方法、装置及系统

技术领域

本申请涉及计算机领域，尤其涉及一种识别目标词的方法、装置及系统。

背景技术

随着互联网技术的迅速发展，信息呈现爆炸式地增长，信息检索、信息分析、机器翻译等领域也快速兴起，对于中文信息的处理，中文自动分词已经成为一项基本性的任务。中文自动分词是中文信息处理中一项重要的基础性任务，影响中文自动分词效果的难点之一为未登录词识别。所述未登录词是指没有收录至分词词典中的词。对于未登录词又可分为两种情况，一种是不可能全部收录至词典，但是能够总结出规律的词(如，人名、机构名等)；另一种是词典中应该收录，但是还没有收录的新词，在这部分新词中有些是词，是应该收录至分词词典中的目标词，还有一部分不是词，是不应该收录的非目标词。

在对新出现的词进行识别时，首先要判断该新出现的词是不是词，即判断该新出现的词是否为目标词，目前的做法主要有三类：基于规则的方法，基于统计的方法，以及规则和统计相结合的方法。主流的基于统计的方法通常是在大规模文本数据的基础上针对待识别词的一个或几个特征量进行统计，根据统计结果人工设定阈值，在高于(或低于)设定阈值时，判断该待识别词为目标词。

但是，随着网络的广泛应用，在网络上出现的文本数据很多情况下，只是一些关键词的堆砌，已经没有完整的语义句式，例如，在电子商务网站中，特别是个人与个人之间的电子商务网站中，存在的海量商品标题。在这些关键词中，往往存在大量新出现的词，但是，此时统计得到的这些新出现的词的特征值的分布趋势是非线性的，在进行识别时，通过针对特征值设定单一阈值，再按照该单一阈值判断该新出现的词是不是目标词，得到的结果是不准确的，因此，传统基于统计的方法来判断待识别词是不是词的方法，已经不能适应当前网络应用中的目标词识别。

发明内容

本申请提供一种识别目标词的方法、装置及系统，用以提高识别目标词的准确率和召回率。

本申请实施例提供的具体技术方案为：

一种识别目标词的方法，包括：

获取候选词集合以及特征计算数据；

基于最小粒度的文本数据对所述特征计算数据进行分词划分；

针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合；

确定所述候选词集合与所述组合文本数据集合的交集；

计算所述交集中包含的每个组合文本数据的指定特征值；

根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。

一种识别目标词的装置，包括：

获取单元，用于获取候选词集合以及特征计算数据；

分词单元，用于基于最小粒度的文本数据对所述特征计算数据进行分词划分；

分词组合单元，用于针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合；

交集确定单元，用于确定所述候选词集合与所述组合文本数据集合的交集；

指定特征值计算单元，用于计算所述交集中包含的每个组合文本数据的指定特征值；

筛选单元，用于根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。

一种识别目标词的系统，包括：

识别目标词装置，用于获取候选词集合以及特征计算数据，基于最小粒度的文本数据对所述特征计算数据进行分词划分，针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合，确定所述候选词集合与所述组合文本数据集合的交集，并计算所述交集中包含的每个组合文本数据的指定特征值，根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词；

训练数据提供装置，用于向识别目标词装置提供获得筛选条件所需的训练样本词集合，以及相应的样本特征计算数据；

目标词收录装置，用于接收识别目标词装置识别出的目标词，并将未登录的目标词加入分词词典中。

基于上述技术方案，本申请实施例中，通过将特征计算数据划分为最小粒度的分词，对划分得到的多个分词组合为多个组合文本数据，通过将候选词和组合文本数据集合做交集，计算得到候选词的多个指定特征值，再根据该多个指定特征值识别上述候选词，实现了利用多个特征值识别候选词，并且筛选条件是通过分类算法训练得到，避免了人为设定带来的误差，提高识别的准确性和稳定性，在指定特征值的分词呈非线性时，也可以构建合适的筛选条件，正确识别出目标词，提高了识别的准确率和召回率。

附图说明

图1A为本申请实施例中识别目标词的系统架构图；

图1B为本申请实施例中识别目标词装置结构图；

图2为本申请实施例中获得筛选条件的详细流程图；

图3为本申请实施例中识别目标词的详细流程图。

具体实施方式

为了解决现有的基于统计方法识别文本数据的局限性，即只能利用较少的特征值，并要求对特征值的统计结果呈线性分布，以及由人工调节特征权值和设定阈值造成的误差和不稳定性，本申请实施例中提供了一种识别目标词的方法，可以利用任意维度的特征值，并在特征值的分布趋势为非线性时，也可正确识别出目标词，而不需要人工干预，提高识别的准确率和召回率。该方法为：获取候选词集合以及特征计算数据，基于最小粒度的文本数据对特征计算数据进行分词划分，对经过分词划分处理的特征计算数据进行分词组合，获得作为处理对象的组合文本数据集合，确定候选词集合与组合文本数据集合的交集，并计算该交集中包含的每个组合文本数据的指定特征值，根据该交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对上述交集中包含的组合文本数据进行筛选，将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。

其中，在候选词是一个通常意义下的词汇时，该候选词即为目标词；否则，在候选词不是通常意义下的一个词汇时，该候选词为非目标词。

例如，在候选词集合中存在“蝙蝠袖”和“袖女装”，其中，“蝙蝠袖”是一个通常意义下的词汇，则该词为目标词，而“袖女装”不是通常意义下的一个词汇，则该词为非目标词。

候选词集合可以是任意文本数据，其对应的特征计算数据也可以是任意文本数据。本申请实施例中，优选采用用户输入的查询关键词，根据用户输入的查询关键词提取出的候选词集合，并基于用户输入查询关键词对应的查询对象的描述信息提取特征计算数据。例如，在电子商务网站中，收集保存用户输入的用于查询产品的查询关键词，从该查询关键词中提取出候选词集合，从电子商务网站中产品的标题、产品的介绍等描述信息中提取特征计算数据。又例如，在新闻网站中，收集保存用户输入的用于查询新闻的查询关键词，从该查询关键词中提取出候选词集合，从新闻网站中的新闻标题、新闻内容等描述信息中提取特征计算数据。

上述候选词集合与特征计算数据的提取，可采用定期或者定量的方式进行。例如，定期从用户输入的查询关键词中提取候选词集合；对应地，定期提取的特征计算数据；也可以是用于提取候选词集合的用户输入的查询关键词达到一定数量时，提取对应的特征计算数据，然后执行本申请实施例进行目标词识别。

本申请实施例中，准确率是指，在识别出来是目标词的个数中，属于正确识别的分词的个数与识别出来是目标词的个数的比率。召回率是指，在候选词中，正确识别出是目标词的个数与候选词中实际上是目标词的分词的个数之间的比率。

最小粒度的文本数据可以是单个字，也可以是单个分词。本申请实施例中，最小粒度的文本数据以单个分词为例进行说明。

下面结合附图对本申请优选的实施例进行详细的说明。

参阅附图1A所示，本申请实施例中，识别目标词的系统包括识别目标词装置10、训练数据提供装置11和目标词收录装置12，其中：

识别目标词装置10，用于获取候选词集合以及特征计算数据，基于最小粒度的文本数据对所述特征计算数据进行分词划分，针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合，确定所述候选词集合与所述组合文本数据集合的交集，计算该交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词；

训练数据提供装置11，用于向识别目标词装置10提供获得筛选条件所需的训练样本词集合以及相应的样本特征计算数据；

目标词收录装置12，用于接收识别目标词装置10识别出的目标词，并将未登录的目标词加入分词词典中。

基于上述系统架构，参阅附图1B所示，本申请实施例中，识别目标词装置10包括以下处理单元：

获取单元101，用于获取候选词集合以及特征计算数据；

分词单元102，用于基于最小粒度的文本数据对上述特征计算数据进行分词划分；

分词组合单元103，用于针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合；

交集确定单元104，用于确定所述候选词集合与所述组合文本数据集合的交集；

指定特征值计算单元105，用于计算所述交集中包含的每个组合文本数据的多个指定特征值；

筛选单元106，根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。

其中，上述基于多个指定特征值的筛选条件可采用训练样本词集合对分类算法进行训练得到。在获得该筛选条件时，识别目标词装置10的获取单元101，用于获取训练样本词集合以及样本特征计算数据；分词单元102用于基于最小粒度的文本数据对所述样本特征计算数据进行分词划分；分词组合单元103用于针对经过分词划分处理的样本特征计算数据进行分词组合处理，获得作为处理对象的样本组合文本数据集合；交集确定单元104用于确定所述样本组合文本数据集合与所述训练样本词集合的交集；指定特征值计算单元105用于计算所述交集中包含的每个样本组合文本数据的多个指定特征值；筛选单元106根据所述交集中包含的每个样本组合文本数据的多个指定特征值，以及已知分类结果，设置所述多个指定特征值的门限值，并基于该门限值得到相应的基于多个指定特征值的筛选条件。

本申请实施例中，指定特征可以包括互信息、对数似然比、上下文熵(左熵、右熵)、基于位置的字构词概率，还可以包括骰子矩阵(Dice)、卡方(Chi)等。在获得筛选条件以及识别目标词时，需用到的多个指定特征值可以是上述指定特征值中的任意两种或两种以上的组合。

其中，互信息的计算公式为：

MI (a, b) = \log_{2} \frac{p_{ab}}{p_{a} p_{b}} = \log_{2} \frac{c_{ab} . n}{c_{a} c_{b}} . . . . . . [1]

在公式[1]中，“a”，“b”分别代表最小粒度的单个分词，“ab”代表两个分词组合后得到的组合文本数据，p_a、p_b分别代表分词“a”、分词“b”在特征计算数据中出现的概率，p_ab代表“ab”在特征计算数据中出现的概率，c_ab代表“ab”一起在特征计算数据中出现的次数，c_a代表“a”在特征计算数据中出现的次数，c_b代表“b”在特征计算数据中出现的次数，n代表基于最小粒度的文本数据对特征计算数据进行分词划分得到的分词的个数，在分词“a”和分词“b”的互信息计算中p_ab与p_a和p_b的积成负相关。

例如，假设特征计算数据为“圆领女装，蝙蝠袖女装”，计算分词“蝙蝠袖”的互信息时，分词“a”为“蝙蝠”，分词“b”为“袖”，“ab”为“蝙蝠袖”，p_a是指分词“蝙蝠”在特征计算数据中出现的概率，p_b是指分词“袖”在特征计算数据中出现的概率，p_ab是指“蝙蝠袖”在特征计算数据中出现的概率，c_ab是指“蝙蝠袖”在特征计算数据中出现的次数，c_a代表“蝙蝠”在特征计算数据中出现的次数，c_b代表“袖”在特征计算数据中出现的次数，n代表基于最小粒度的文本数据对特征计算数据进行分词划分得到的分词的个数，这里可以将特征计算数据划分为“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词，可知c_ab为1，c_a为1，c_b为1，n为5。

其中，对数似然比是用于衡量各分词之间的联系紧密性，计算公式为：

\log L (a, b) = ll (\frac{k_{1}}{n_{1}}, k_{1}, n_{1}) + ll (\frac{k_{2}}{n_{2}}, k_{2}, n_{2}) - ll (\frac{k_{1} + k_{2}}{n_{1} + n_{2}}, k_{1}, n_{1}) - ll (\frac{k_{1} + k_{2}}{n_{1} + n_{2}}, k_{2}, n_{2}),

ll(p，k，n)＝klog(p)+(n-k)log(1-p)........................[2]

在公式[2]中，“a”，“b”分别代表最小粒度的单个分词；k₁表示文本数据“ab”在特征计算数据中出现的次数；n₁表示在采用最小粒度的文本数据对特征计算数据进行分词划分，并在采用语言模型依序组合得到的多个组合文本数据中，“a”出现在左边的组合文本数据的个数；k₂表示在上述采用语言模型依序组合得到的多个组合文本数据中，“b”出现在右边，并且左边不为a的组合文本数据的个数；n₂表示在上述采用语言模型依序组合得到的多个组合文本数据中，左边不为“a”的组合文本数据的个数。

例如，基于与上例相同的特征计算数据，在将特征计算数据划分为“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词的情况下，采用语言模型对上述分词进行二元组合得到“圆领女装”、“女装蝙蝠”、“蝙蝠袖”、“袖女装”4个组合文本数据。计算“蝙蝠袖”的对数似然比时，k₁为“蝙蝠袖”在特征计算数据中出现的次数，n₁为在上述4个组合文本数据中，“蝙蝠”出现在左边的组合文本数据的个数，k₂为在上述4个组合文本数据中，“袖”出现在右边，同时左边不是“蝙蝠”的组合文本数据的个数，n₂为在上述4个组合文本数据中，左边不是“蝙蝠”的组合文本数据的个数。

其中，上下文熵是用于表示多个分词表达的使用自由度，熵是不确定因素的表达，熵越大说明随机事件越不确定，只能在固定上下文中使用的字符串，其上下文熵值小，而能在不同上下文中使用的字符串其上下文熵值大，上下文熵包括左熵和右熵，左熵的计算公式为：

LE (ab) = \underset{x &Element; left}{Σ} - p (x | ab) \log_{2} p (x | ab),

p (x | ab) = \frac{c_{xab}}{c_{ab}} . . . . . . [3]

在公式[3]中，“a”，“b”分别代表最小粒度的单个分词，“ab”代表两个分词组合后得到的文本数据，p(x|ab)是指在特征计算数据中“ab”出现的前提下，左边出现分词“x”的概率，left是指“ab”的左边出现分词的集合，c_xab是指在“ab”的左边出现分词的次数，c_ab是指“ab”出现的次数，在左熵计算中，p(x|ab)和p(x|ab)以2为底的对数成正相关。

右熵的计算公式为：

RE (ab) = \underset{y &Element; right}{Σ} - p (y | ab) \log_{2} p (y | ab),

p (y | ab) = \frac{c_{aby}}{c_{ab}} . . . . . . [4]

在公式[4]中，“a”，“b”分别代表最小粒度的单个分词，“ab”代表两个分词组合后得到的文本数据，p(y|ab)是指在特征计算数据中“ab”出现的前提下，右边出现分词“y”的概率，right是指“ab”的右边出现分词的集合，在右熵计算中，p(y|ab)和p(y|ab)以2为底的对数成正相关。

例如，特征计算数据为“圆领女装，蝙蝠袖T恤，蝙蝠袖连衣裙”，采用最小粒度的文本数据对该特征计算数据进行划分后，得到“圆领”、“女装”、“蝙蝠”、“袖”、“T恤”、“蝙蝠”、“袖”、“连衣裙”，在计算“蝙蝠袖”的左熵时，“a”为“蝙蝠”，“b”为“袖”，在“蝙蝠袖”的左边出现的分词有“女装”和“T恤”，则“x”的个数为2，分别为“女装”和“T恤”，“蝙蝠袖”出现的次数c_ab为2；在计算“蝙蝠袖”的右熵时，“a”为“蝙蝠”，“b”为“袖”，在“蝙蝠袖”的右边出现的分词“y”分别为“T恤”和“连衣裙”。

其中，基于位置的字构词概率(in-word probability of a character)计算公式为：

IP(s)＝IP(c，1)×IP_min(c，2)×IP(c，0)........................[5]

在公式[5]中，s是指待计算分词，IP(c，1)指基于分词词典统计出的待计算分词s的首个字符出现在分词词典中的分词词首的概率，IP(c，2)指基于分词词典统计出的待计算分词s的中间位置的字符出现在分词词典中的分词的中间位置的概率，在待计算分词s的中间位置存在多个字符时，分别计算每个字符出现在分词词典中间位置的概率，然后取其中最小的一个作为IP_min(c，2)，以计算待计算分词基于位置的字构词概率，IP(c，0)指基于分词词典统计出的待计算分词s的末尾字符出现在分词词典中的分词的末尾的概率。在计算基于位置的字构词概率时，IP(c，1)、IP_min(c，2)、IP(c，0)成正相关。本申请实施例中，在获得筛选条件的流程中待计算分词指的是样本词，在识别目标词的流程中，待计算分词指的是候选词。

例如，待计算分词为“阿迪达斯”，IP(c，1)指基于分词词典统计出的，所有首个字符为“阿”的分词出现的概率，IP(c，0)指基于分词词典统计出的，所有末尾字符为“斯”的分词出现的概率，IP(c，2)存在两个值，一个值是基于分词词典统计出的，所有中间字符为“迪”的分词出现的概率，另一个值是基于分词词典统计出的，所有中间字符为“达”的分词出现的概率，在计算基于位置的字构词概率时，在IP(c，2)的两个值中选择值最小的作为IP_min(c，2)。

本申请实施例中，在识别目标词之前，首先需要获得筛选条件，构建筛选条件的过程正是机器学习的过程，参阅附图2所示，获得筛选条件的具体流程如下：

步骤201：获取训练样本词集合以及样本特征计算数据，该训练样本词集合为已知分类结果的词的集合。

其中，上述已知分类结果的词的集合是指，在该词的集合中，已经获知其中任意一个词是否为目标词，将同属于目标词的归属于一个类别，将不属于目标词的归属于另一个类别。

训练样本词集合包括正例词集合和反例词集合，正例词表示该词是一个目标词，反例词表示该词不是目标词，而是噪声词。本申请实施例中，可以直接从已有的分词词典中获取正例词集合，从构建分词词典过程中人工审核得到的噪声词中获取反例词集合。

例如，“蝙蝠袖”为一个已知正例词，也是目标词，“袖T恤”是一个已知噪声词，即反例词。

其中，上述样本特征计算数据中包含训练样本词集合中的训练样本词，和基于该样本特征计算数据计算训练样本词集的各个指定特征值。

步骤202：基于最小粒度的文本数据对所述样本特征计算数据进行分词划分。

上述最小粒度的文本数据可以是单个字，就是将样本特征计算数据以字为单位进行分词划分，将样本特征计算数据划分为多个字，较佳地，可以将能够表达语义的最简洁词汇作为最小粒度的文本数据，将样本特征计算数据划分为多个分词。

本申请实施例中，相较于以单个字作为最小粒度的文本数据的方法，采用能够表达语义的最简洁词汇作为最小粒度的文本数据，可以减少计算量，提高效率。

例如，对于样本特征计算数据为“圆领女装，蝙蝠袖女装”，将能够表达语义的最简洁词汇作为最小粒度的文本数据，对该样本特征计算数据进行分词划分，可以得到“圆领”、“女装”、“蝙蝠”、“袖”、“女装”5个分词。

步骤203：针对经过分词划分处理的样本特征计算数据进行分词组合处理，以确定作为处理对象的样本组合文本数据集合。

该步骤中采用语言模型对经过划分处理的样本特征计算数据进行分词组合处理。本申请实施例中，采用n元模型(n-gram语言模型，也称为n阶马尔柯夫链)进行分词组合处理，确定作为处理对象的样本组合文本数据集合，具体为：采用基于n元视窗的n元模型，以划分得到的分词为基本单位，按照设定顺序移动n元视窗，将视窗内包含的分词进行组合处理，得到多个样本组合文本数据。

本申请实施例中，n元模型中的n取2或3，在n取2时，表示采用二元视窗进行二元组合，即随着视窗的移动，将划分得到的分词分别与相邻的分词进行两两组合。同样地，在n取3时，表示采用三元视窗进行三元组合，即随着视窗的移动，将划分得到的分词分别与相邻的分词进行三三组合。

例如，采用n元模型对上述划分得到的分词进行组合处理，在n取2时，可以得到组合后的文本数据“圆领女装”、“女装蝙蝠”、“蝙蝠袖”、“袖女装”；又例如，在n取3时，可以得到组合后的文本数据“圆领女装蝙蝠”、“女装蝙蝠袖”、“蝙蝠袖女装”。

步骤204：确定样本组合文本数据集合与训练样本词集合的交集。

步骤205：计算上述交集中包含的每个样本组合文本数据的多个指定特征值。

根据上述基于最小粒度的文本数据对样本特征计算数据划分后得到的分词集合，以及上述作为处理对象的样本组合文本数据集合，计算上述交集中包含的每个样本组合文本数据的多个指定特征值，该多个指定特征值可以包括互信息的值，对数似然比的值，上下文熵(左熵、右熵)的值，基于位置的字构词概率的值，还可以包括骰子矩阵(Dice)的值、卡方(Chi)的值等。

其中，在计算上述交集中包含的每个样本组合文本数据的多个指定特征值时，可以通过计算样本组合文本数据集合中的每个样本组合文本数据的多个指定特征值，进而获得上述交集中包含的每个样本组合文本数据的多个指定特征值；也可以直接计算上述交集中包含的每个样本组合文本数据的多个指定特征值。

步骤206：根据上述交集中包含的每个样本组合文本数据的多个指定特征值，以及上述已知的分类结果，设置上述多个指定特征值的门限值，并基于该门限值得到相应的基于多个指定特征值的筛选条件。

通过确定样本组合文本数据集合和训练样本词集合的交集，获得与训练样本词集合中每个词相对应的多个指定特征值，上述交集中包含的词既是样本组合文本数据，也是训练样本词，已知该训练样本词的分类结果，即已知该训练样本词是否为目标词，采用分类算法对上述交集中的训练样本词进行分类，将属于目标词的分为一类，将不属于目标词的分为另一类。

在采用分类算法对训练样本词进行分类时，分类算法根据训练样本词及相对应的指定特征值，对该训练样本词进行分类，将得到的分类结果与已知的该训练样本词的分类结果进行比较，上述指定特征值为上述多个指定特征值中任意两个或两个以上的组合。如果比较后发现两者不一致，分类算法调整针对各个指定特征值设定的门限值，重新对该训练样本词进行分类，重复上述过程，直至分类算法基本能够对该训练样本数据正确分类。以上过程为机器学习的过程，也是训练过程，通过采用大量的训练样本数据重复上述训练过程后，所得到的针对各个特征值设定的门限值，再由各个特征值设定的门限值形成相对应的筛选条件。

其中，获得的筛选条件为基于特定知识的表达方式，该基于知识的表达方式可以是树、图、网络、规则等离散结构，也可以是数学公式。

例如，在采用梯度渐近决策树(Gradient boosting and Decision tree，GBDT)分类算法时，采用训练样本词集合对该分类算法进行训练，得到筛选条件为树型结构的分类规则，GBDT分类算法采用若干决策树组成，决策树可以表示为：

F (x) = \underset{R_{i}}{Σ} I (x &Element; R_{i}) f_{i},

&ForAll; i &NotEqual; j,

其中，R_i表示一个区间(如，R_i＝{x|x₁＜0.2，0.3≤x₂＜0.7})。

基于该决策树，GBDT分类算法可以表示为：

F (x) = F_{0} + Σ_{m = 1}^{M} F_{m} (x)

其中，F_m(x)为可用最小二乘法、最大熵进行估算的函数。

采用训练样本词集合对GBDT分类算法进行训练，例如，该训练样本词集合包含的正例词为“罗汉果茶”、“胶针枪”、“苹果醋”，包含的反例词为“立版”、“课课练”。假设基于样本特征计算数据分别计算每个训练样本词的特征值，计算出的“罗汉果茶”的互信息为3.03，左熵为2.52，“胶针枪”的互信息为3.93，左熵为0，“苹果醋”的互信息为1.39，左熵为3.88，“立版”的互信息为0.66，左熵为1.88，“课课练”的互信息为13.68，左熵为2.88。则基于该训练样本词集合，以及每个样本词的特征值，得到的筛选条件为：

判断指定特征值中的互信息的值所属的区间，如果互信息的值大于1.0且小于8.0，则返回1；否则，执行如下判断：

判断指定特征值中的左熵的值所属的区间，如果左熵的值小于0.9或者是大于2.2且小于2.65或者是大于3.3，则返回1；否则，返回0。

其中，返回1表示输入的为正例词，返回0则表示返回的为反例词。

该例中的筛选条件仅是基于少数训练样本词以及每个训练样本词的少量指定特征值得到的。实际应用中，可根据本申请实施例，使用大规模的训练样本词对分类算法进行训练得到能够正确识别目标词的筛选条件。

基于上述系统架构，参阅附图3所示，本申请实施例中，识别目标词的详细流程如下：

步骤301：获取候选词集合以及特征计算数据。

例如，在C2C网站的查询日志中，获取用户每周输入的查询关键词，通过对噪音、查询次数等进行过滤，获得候选数据，并将最新的C2C网站卖家填写的商品标题作为特征计算数据。

步骤302：基于最小粒度的文本数据对上述特征计算数据进行分词划分。

上述最小粒度的文本数据可以是单个字，就是将特征计算数据以字为单位进行分词划分，将特征计算数据划分为多个字。较佳地，可以将能够表达语义的最简洁词汇作为最小粒度的文本数据，将特征计算数据划分为多个分词。

本申请实施例中，相较于以单个字作为最小粒度的文本数据的方法，采用能够表达语义的最简洁词汇作为最小粒度的文本数据，同样可以保证识别结果，并且可以减少计算量，提高效率。

步骤303：针对经过分词划分处理的特征计算数据进行分词组合处理，获得作为处理对象的组合文本数据集合。

采用语言模型对经过划分处理的特征计算数据进行分词组合处理，本申请实施例中，采用n元模型进行分词组合处理，确定作为处理对象的组合文本数据集合，具体为：采用基于n元视窗的n元模型，以划分得到的分词为基本单位，按照设定顺序移动n元视窗，将视窗内包含的分词进行组合处理。本申请实施例中，n元模型中的n取2或3，在n取2时，表示采用二元视窗进行二元组合，即随着视窗的移动，将划分得到的分词分别与相邻的分词进行两两组合，同样地，在n取3时，表示采用三元视窗进行三元组合，即随着视窗的移动，将划分得到的分词分别与相邻的分词进行三三组合。

例如，特征计算数据为“阿迪达斯品牌运动鞋免运费”，将能够表达语义的最简洁词汇作为最小粒度的文本数据，对该特征计算数据进行分词划分，可以得到分词“阿迪达斯”、“品牌”、“运动鞋”、“免运费”，采用n元模型进行二元组合(即n取2)，可以得到“阿迪达斯品牌”、“品牌运动鞋”、“运动鞋免运费”；假设，基于上述同样的特征计算数据划分得到的分词“阿迪达斯”、“品牌”、“运动鞋”、“免运费”，采用n元模型进行三元组合(即n取3)，可以得到“阿迪达斯品牌运动鞋”、“品牌运动鞋免运费”。

步骤304：确定上述候选词集合与上述组合文本数据集合的交集。

步骤305：计算上述交集中包含的每个组合文本数据的多个指定特征值。

该多个指定特征值可以包括以下值中的任意两种或两种以上的组合：

互信息的值、对数似然比的值、上下文熵(左熵、右熵)的值、基于位置的字构词概率的值、骰子矩阵的值、卡方的值等。

本申请实施例中，在计算指定特征值时，可以将公式中的“a”词和“b”词分别看作是由多个分词组合而成的文本数据，再按照公式计算出各个指定特征值。

例如，对于文本数据“abc”，在计算互信息时，可拆分为“ab”和“c”，或者是拆分为“a”、“bc”，则分别针对得到的上述两组文本数据分别计算互信息的值，然后取两个计算结果中值最大的一个作为文本数据“abc”的互信息；同样地，在计算对数似然比时，也可拆分为“ab”和“c”，或者是拆分为“a”、“bc”，则分别针对得到的上述两组文本数据分别计算对数似然比的值，然后取两个计算结果中值最大的一个作为文本数据“abc”的对数似然比的值。

步骤306：根据上述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对该交集中包含的组合文本数据进行筛选，将指定特征值符合该筛选条件的组合文本数据对应的候选词确定为目标词。

其中，交集中的组合文本数据同时也是候选词，在计算交集中包含的每个组合文本数据的多个指定特征值时，可以通过计算组合文本数据集合中每个组合文本数据的多个指定特征值，进而获得上述交集中包含的每个组合文本数据的多个指定特征值；也可以是直接计算交集中包含的每个组合文本数据的多个指定特征值。计算得到的上述交集中包含的组合文本数据的各个指定特征值，同时也是与候选词相对应的各个指定特征值。

该基于多个指定特征值的筛选条件是由构建筛选条件的过程(即训练过程)获得的。根据采用的分类算法的不同，该预设的筛选条件的表现形式也不相同，可以是树、图、网络、规则等离散结构，也可以是数学公式。例如，预设的筛选条件可以用数学公式表示为：

其中，p_i＝exp(L_i-c)，L₁＝-0.0728575×MI+0.17012×LE，L₂＝0.0728575×MI-0.17012×LE，

该数学公式表示，在根据指定特征值计算得到的p₁大于p₂时，可判定候选词为目标词，否则，可判定候选词不是目标词。

按照预设的筛选条件对候选词进行筛选时，将上述交集中包含的组合文本数据的指定特征值，和基于预设的筛选条件确定的与该指定特征值相对应的门限值进行比较，将指定特征值符合门限值的组合文本数据对应的候选词确定为目标词。其中，在将交集中包含的组合文本数据的指定特征值和基于预设的筛选条件确定的与指定特征值相对应的门限值进行比较时，可以是将上述交集中包含的组合文本数据的指定特征值，和基于预设筛选条件确定的与该指定特征值相对应的门限值直接比较，或者是将上述交集中包含的组合文本数据的指定特征值，输入基于筛选条件确定的公式中，计算出的值再与筛选条件确定的门限值进行比较。

本申请实施例中，在对候选词进行识别之后，获知该候选词为目标词时，将该目标词与已知分词词典进行比对，在该已知分词词典中不包含该目标词时，确定该目标词为未登录词，将该目标词加入上述分词词典中。

较佳地，可以在对候选词进行识别之前，将该候选词与已知分词词典进行比较，如果该已知分词词典中不包含该分词，则对上述候选词进行识别，在确定该候选词为目标词后，加入上述已知分词词典中；如果将上述候选词与已知分词词典进行比较后，发现该候选词已经存在于该分词词典中，说明该候选词为已登录词，即该候选词是目标词，并且已经收录至分词词典，无需再执行识别流程。

基于上述实施例，通过对特征计算数据进行分词划分，将特征计算数据划分为最小粒度的分词，再通过语言模型进行分词组合，基于组合后的文本数据计算得到候选词的各个指定特征值，按照预设的筛选条件，对该候选词进行识别，从而利用多个指定特征值对候选词进行识别，并且在识别时预设的筛选条件是采用训练数据对分类算法进行训练获得，并非人为设定的阈值，从而避免了人为设定造成的误差，提高了准确性和稳定性，并且采用对分类算法进行训练构建出的筛选条件对候选词进行识别，并不要求候选词的各个指定特征值呈线性分布，对于各个指定特征值呈非线性分布的情况，也可以正确识别候选词，提高了识别的准确率和召回率。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种识别目标词的方法，其特征在于，包括：

获取候选词集合以及特征计算数据；

确定所述候选词集合与所述组合文本数据集合的交集；

计算所述交集中包含的每个组合文本数据的指定特征值；

2.如权利要求1所述的方法，其特征在于，所述进行分词组合处理包括：

采取基于n元视窗的n元模型，按照设定顺序移动n元视窗，将视窗内包含的分词进行分词组合，得到组合后的组合文本数据。

3.如权利要求1所述的方法，其特征在于，根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词，包括：

将所述交集中包含的组合文本数据的指定特征值，和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较，将指定特征值符合相应门限值的组合文本数据对应的候选词确定为目标词。

4.如权利要求3所述的方法，其特征在于，将所述交集中包含的组合文本数据的指定特征值，和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较，包括：

将所述交集中包含的组合文本数据的指定特征值，和基于预设的筛选条件确定的与所述指定特征值相对应的门限值进行比较；

或者

将所述交集中包含的组合文本数据的指定特征值，输入基于筛选条件确定的公式进行计算，计算出的值再与筛选条件确定的门限值进行比较。

5.如权利要求1-4任一项所述的方法，其特征在于，所述组合文本数据的指定特征值至少包含互信息、对数似然比、左熵、右熵和基于位置的字构词概率值中的任意两种或两种以上的组合。

6.如权利要求1-4任一项所述的方法，其特征在于，所述筛选条件通过以下步骤取得：

选取训练样本词集合以及样本特征计算数据，该训练样本词集合为已知分类结果的词的集合；

基于最小粒度的文本数据对所述样本特征计算数据进行分词划分；

针对经过分词划分处理的样本特征计算数据进行分词组合处理，获得作为处理对象的样本组合文本数据集合；

确定所述样本组合文本数据集合与所述训练样本词集合的交集；

计算所述交集中包含的每个样本组合文本数据的多个指定特征值；

根据所述交集中包含的每个样本组合文本数据的多个指定特征值，以及所述已知分类结果，设置所述多个指定特征值的门限值，并基于所述门限值得到相应的基于多个指定特征值的筛选条件。

7.一种识别目标词的装置，其特征在于，包括：

获取单元，用于获取候选词集合以及特征计算数据；

8.如权利要求7所述的装置，其特征在于，所述筛选单元根据所述交集中包含的每个组合文本数据的多个指定特征值，按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选，将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词，具体为：

9.如权利要求7或8所述的装置，其特征在于，所述筛选单元的筛选条件通过以下步骤获得：

计算所述交集中每个样本组合文本数据的多个指定特征值；

10.一种识别目标词的系统，其特征在于，包括：