CN1855102A - 信息处理装置,信息处理方法和程序 - Google Patents

信息处理装置,信息处理方法和程序 Download PDF

Info

Publication number
CN1855102A
CN1855102A CNA2006100898585A CN200610089858A CN1855102A CN 1855102 A CN1855102 A CN 1855102A CN A2006100898585 A CNA2006100898585 A CN A2006100898585A CN 200610089858 A CN200610089858 A CN 200610089858A CN 1855102 A CN1855102 A CN 1855102A
Authority
CN
China
Prior art keywords
speech
keyword
extract
feature
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100898585A
Other languages
English (en)
Inventor
馆野启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1855102A publication Critical patent/CN1855102A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本发明提供一种提取给定关键词的特征词的方法。用户指定关键词作为领域知识,以便从文本提取特征词。例如,用户希望从用作音乐领域中的文本的音乐CD音乐评论文本中提取代表歌曲音乐特性或艺术家音乐特性的特征词。在这种情况下,用户指定诸如“声音”、“风格”或“语音”这样本身并不代表具体的音乐特性的词作为关键词。然而,可以预期诸如“声音”、“风格”或者“语音”这样的词能够被诸如“清楚”或者“立体”这样表示音乐特性的词修饰。通过指定诸如“声音”、“风格”或“语音”这样的词作为关键词,可以从原始文本中提取修饰指定词的词。从音乐评论文本中提取的作为修饰关键词的词是适用于表示文本内容的词。

Description

信息处理装置,信息处理方法和程序
技术领域
本发明涉及一种信息处理装置,信息处理装置所采用的信息处理方法和实现该信息处理方法的程序。更具体地,本发明涉及信息处理装置,其能够正确地从文本提取特征词作为刻画文本内容特征的词,还涉及信息处理装置采用的信息处理方法和实现该信息处理方法的程序。
背景技术
用于从句子(或文本数据)中选择在句子内容中扮演重要角色的词的特征词提取技术在对文本的有效分类和聚类中是很重要的。
特征词提取技术采用在″Introduction to Modern InformationRetrieval(现代情报检索介绍)″(Salton,G.,McGill,M.J.,McGraw-Hill,1983年)中公开的TF/IDF方法作为基于词加权的启发式方法,采用在″Automatic Extraction of Keywords from Japanese Texts(从日文文本中自动提取关键词)″(Nagao等,Information Processing,1976年第17卷第2期)中公开的方法作为用于文件文本地利用X2值的统计方法,以及采用日本专利特许公开号2001-67362中介绍的方法。如果文档文本及其归类类别被作为学习数据提供,那么特征词提取技术采用在″A Comparative Study onFeature Selection in Text Categorization(文本归类中的特征选择的比较研究)″(Yang,Y.,Pedersen、J.O.,ICML-97会议论文集,412到420页,1997年)中公开的方法作为利用X2用于分类的方法和在″Induction ofDecision Trees(决定树归纳)″(Quinlan、J.R.,Machine Learning,1(1),81到106页,1986年)中公开的方法作为利用信息增益的方法。
发明内容
然而,上述方法是在一般共同路径(co-path)作为目的的情况下而被采用的。此外,每一种方法都仅仅以单纯的方式利用词的统计特性。因此,这些方法并不能够根据句子内容的专门性话题和根据主题的偏好(bias)来提取词。
例如,这些方法不能够从记录在音乐CD(光盘)上的音乐评论文本中提取代表歌曲音乐特性和艺术家的音乐特性的词。音乐评论文本的示例是在作为介绍歌曲和艺术家的句子的、CD上记录的句子。这就是说,这些方法不能够根据句子的内容正确地提取依赖于领域(音乐领域)的词(或者代表音乐特性的词)。
由本发明提供的信息处理装置被配置,以便该信息处理装置包括:获取装置,用于获取表示领域知识的特性的关键词;以及提取装置,用于从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。
由本发明提供的信息处理方法被配置,以便信息处理方法包括:获取步骤,用于获取表示领域知识特性的关键词;以及提取步骤,从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。
由本发明提供的程序被配置,以便该程序包括:获取步骤,用于获取表示领域知识特性的关键词;以及提取步骤,用于从文本中提取每个具有接近关键词的距离尺度的接近词,以及通过将特征词与关键词相关联而在接近词之中提取与关键词共同出现的程度高的词作为关键词的特征词。
依据本发明提供的信息处理装置、信息处理方法和程序,获取关键词并且从文本提取修饰关键词的词作为特征词。
依据本发明,有可能从文本提取特征词作为具有文本的内容特性的词。
附图说明
图1是示出了本发明提供的信息处理装置典型配置的图;
图2是示出了典型词模型的表格;
图3是示出了典型共同出现频率的表格;
图4示出了表示提取特征词的处理的流程图;
图5是示出词间KL距离的表格;
图6是示出了词间互信息(mutual information)的典型数量的表格;
图7是示出了本发明提供的信息处理装置的另一个典型配置的图;
图8示出了表示提取特征词的另一处理的流程图;以及
图9是示出了个人计算机的典型配置的方框图。
具体实施方式
在解释本发明的最佳实施例之前,在下面的比较描述中解释公开的发明和实施例之间的关系。应当注意的是,即使在该说明书中描述的实施例没有包括在下面与发明对应的实施例的比较描述中,这样的实施例也不应被解释为不是与发明对应的实施例。相反地,作为与特定发明对应的实施例被包括在下面的比较描述中的实施例并不解释为不与除了特定发明以外的发明对应的实施例。
此外,下面的比较描述并不被解释为包括在这个说明书中公开的所有发明的全面描述。换句话说,下面的比较描述绝非否认这个说明书中公开的但是没包括在权利要求中的发明作为用于提交专利申请的发明的存在。这就是说,下面的比较描述绝非否认下面发明的存在,该发明将被包括在专利的分案申请中,被包括在对该说明书的修改中,或者将来被加入。
依据本发明的实施例,提供一种信息处理装置,其被配置以便该信息处理装置包括用于获取关键词的关键词获取部件(诸如包括在图1所示配置中的关键词获取部件26),以及用于从文本提取修饰关键词的词作为特征词的特征词提取部件(诸如包括在图1所示配置中的特征词提取部件27)。
依据本发明的另一实施例,上面所描述的信息处理装置进一步被配置以便特征词提取部件能够从文本提取接近关键词的词作为接近词(在图4所示流程图中例如步骤S2的处理中),从接近词中删除具有与关键词相似的意义的关键词类似词,并且把剩下的接近词当作特征词(在图4所示的流程图中例如步骤S4的处理)。
依据本发明的进一步的实施例,上面描述的信息处理装置进一步被配置以便特征词提取部件(诸如图7所示配置中包括的特征词提取部件31)能够把关键词类似词用作关键词。
依据本发明的进一步实施例,提供一种信息处理方法,其被配置以便信息处理方法包括用于获取关键词的关键词获取步骤(诸如图4所示流程图的步骤S1),以及用于从文本提取修饰关键词的词作为特征词的特征词提取步骤(诸如图4所示流程图的步骤S2到S5)。
依据本发明的进一步实施例,提供一种具有与上述信息处理方法相同步骤的程序。
图1是显示本发明提供的信息处理装置1的典型配置的图。该信息处理装置1利用用户所输入的关键词作为从文本提取特征词的领域知识,该文本例如是涉及该领域的一个领域的文本。
例如,希望从作为音乐领域的文本的、记录在音乐CD上的音乐评论文本中提取代表歌曲的音乐特性或艺术家的音乐特性的特征词。在这种情况下,通过输入诸如‘声音’、‘风格’或者‘语音’的词作为关键词,可以从原始文本提取修饰该关键词的词。诸如‘声音’、‘风格’或者‘语音’的关键词本身并不表示具体音乐特性。然而,可以预期诸如‘声音’、‘风格’或者‘语音’这样的关键词能够被诸如″清楚″或者″立体″这样的自身表示音乐特性的词修饰。例如,在被称作共同出现(co-occurrence)的现象中,诸如″声音″、″风格″或者″语音″这样的关键词很有可能随同诸如″清楚″或者″立体″这样的词一起出现。
作为修饰关键词的词的、从文本提取的词是适于代表音乐评论文本的内容的词,也就是,代表诸如包括清楚歌曲的CD的音乐CD的音乐特性的词。在这个示例中,从文本提取的典型词是″清楚″和″立体″。这样,通过输入这样的关键词并且如上所述那样提取与关键词对应的特征词,有可能从与该领域相关的文本中提取音乐领域的特征词。如上所述,音乐领域的特征词是代表音乐特性的词。在这个例子中,与音乐领域相关的文本是音乐评论文本。
例如,在相关领域技术中希望提取很少出现的词作为特征词。在这种情况下,有必要将针对词的条件并入提取技术本身中。然而依据本发明,通过适当地选择关键词,根据关键词的特征词可以被提取作为具有某种语义趋势的特征词。
下面解释信息处理装置1的典型配置。原始文档文本存储部件21用于存储要从中提取特征词的句子(或者文本数据)。在本示例的情况下,在原始文档文本存储部件21中存储的句子是音乐CD的评论文本。
语素(morpheme)分析部件22用于将原始文档文本存储部件21中存储的文本数据(或者句子)分离成词并将这些词提供给模型词产生部件23。这些词的例子是″声音″、″音像″、″硬″、″立体″、″唱片集”和″做″。
模型词产生部件23是如下部件,用于将从语素分析部件22接收的词转换成数学词模型以观察词间的关系,并将作为转换结果获取的词模型提供给模型词存储部件24。
词模型是诸如PLSA(Probabilistic Latent Semantic Analysis,概率性潜在语义分析)和SAM(Semantic Aggregate Model,语义聚合体模型)的概率模型。在这些词模型中,在句子和词之间或者在词和词之间的共同出现背后存在潜在变量。概率性出现决定个体表达。
1999年的Uncertainty in Artificial Intelligence(人工智能中的不确定性)会议上作者为Hofmann,T.的″Probabilistic Latent SemanticAnalysis(概率性潜在语义分析)″中介绍了PLSA。另一方面,2002年信息研究报告2002-NL-147中的77到84页中的作者为Daichi Mochihashi和YujiMatsumoto的″Semantic Probability Expression(语义概率表达)″中介绍了SAM。
在SAM的情况下,例如词wi和词wj共同出现的概率由等式(1)关于潜在概率变量c表示,该变量c是可能具有k个预先确定了的值c0,c1,...ck-1之一的变量。从等式(1),关于词w的概率分布P(c|w)可以如等式(2)所示那样确定。概率分布P(c|w)是词模型。等式(1)中的概率变量c是潜在变量。通过使用EM算法建立概率分布P(w|c)和概率分布P(c)。
P ( w i , w j ) = Σ C P ( c ) P ( w i | c ) P ( w i | c ) . . . ( 1 )
P(c|w)∝P(w|c)P(c)    ...(2)
例如,从诸如″声音″、″音像″、″硬″、″立体″、″唱片集″和″做″的词w中,获取如图2所示那样的词模型(P(ci|w)(i=0、1、2、3))。
应当注意的是,在SAM中,如果一个词关于另一个词的共同出现趋势是类似的,那么他们的概率分布也相互类似。一个词关于另一个词共同出现趋势的示例是在这两个词两者在一个句子中被使用过的次数。具体地说,词‘声音’、‘音像’、‘硬’和‘立体’关于词1至3的共同出现趋势是相互类似的。这就是说,如图3所示,词‘声音’、‘音像’、‘硬’和‘立体’与词1和3共同出现的频率都很高,而词‘声音’、‘音像’、‘硬’和‘立体’与词2共同出现的频率都很低。在这种情况下,词‘声音’、‘音像’、‘硬’和‘立体’的概率分布具有相同的趋势。这就是说,如图2显示,对于所有的词‘声音’、‘音像’、‘硬’和‘立体’,P(c1|w)和P(c3|w)很小,而P(c0|w)和P(c2|w)很大。
另一方面,如图3中所示,词‘声音’、‘音像’、‘硬’和‘立体’关于词1至3的共同出现趋势与词‘唱片集’和‘做’关于词1至3的共同出现趋势不类似。在这种情况下,如图2所示,词‘声音’、‘音像’、‘硬’和‘立体’的概率分布每个都具有与词‘唱片集’和‘做’的概率分布的趋势不同的趋势。应注意到,公知地,诸如词‘做’这样的普通词的概率分布接近离散均匀分布。
除了诸如PLSA和SAM的概率模型以外,作为词模型,有可能使用已经通过使用诸如LSA(潜在语义分析)技术经过维数压缩处理的诸如文本向量、共同出现向量和语义向量的矢量。可以任意选择这些矢量之一。应注意到,如在上面描述的那样,由于PLSA和SAM在潜在概率状态变量的空间中表达词,所以与普通的共同出现矢量等的使用相比可以较容易地掌握语义趋势。
在Deerwester,S.等的“Indexing by latent semantic analysis(通过潜在语义分析进行索引)”,Journal of the Society for InformationScience(信息科学协会期刊),41(6),pp.391-407,1990中介绍了LSA。
重新参见图1。关键词存储部件25在这个例子中用于存储诸如″声音″、″风格″和″语音″的词作为关键词。
在这个实施例中从由用户操作一操作部件输入的词中收集关键词,该操作部件在图中没有显示。关键词获取部件26是用于获取经由该操作部件输入的关键词的部件。关键词存储部件25是用作存储所获取的关键词的存储器。
应注意到,例如可以在源词之中任意地选择关键词,只要可以预期到源词每一个都由特征词修饰,即使源词本身并不表示领域。这就是说,源词很有可能在被称作共同出现的现象中随着特征词一起出现。例如,源词是使用频率比预定值更高的词。
此外,通过拥有关键词的更多变化,提供可提取的特征词的更广范围是有可能的。例如,如稍后将描述的那样,词‘音像’可以被用作关键词。因为词‘音像’语义上与词″声音″类似,即,由于词‘音像’和词‘声音’都是表达音质的词,所以通过使用词″声音″作为关键词,选择词‘音像’作为新关键词的必要程度减少了。然而,通过使用代表正交于词‘声音’的概念的词作为关键词,有可能提取与通过使用词‘声音’可以提取的特征词不同的特征词。代表正交于词″声音″的概念的词的例子是词‘节奏(tempo)’和‘展开(development)’。
特征词提取部件27使用存储在模型词存储部件24中的词模型来提取词作为特征词并将所提取的词存储在特征词存储部件28中。所提取的词是修饰存储在关键词存储部件25中的关键词的词。这就是说,所提取的特征词典型地是很有可能在被称作共同出现的现象中随着关键词一起出现的词。
下面,通过参考图4所示的流程图解释特征词提取处理。
如图中所显示的,流程图从步骤S1开始,在该步骤,特征词提取部件27选择在关键词存储部件25中存储的关键词之一。
然后,在下个步骤S2,特征词提取部件27使用在模型词存储部件24中存储的词模型来选择每个与在步骤S1中执行的过程中所选择的关键词接近的词。在以下的描述中,接近关键词的词被称为接近词。
为了表达具体一些,特征词提取部件27使用根据词模型的距离尺度(scale)以发现关键词和词之间的距离。如果关键词和词之间的距离比预定值更小,那么该词被当作接近词。
如果词模型是概率模型,那么Kullback-Leibler Divergence(散度)距离可以被用作距离尺度。在以下的描述中,Kullback-Leibler Divergence距离被称作KL距离。另一方面,如果词模型是矢量空间方法,那么可以使用欧几里得(Euclid)距离或余弦距离。
例如,如图所示,如果词模型是SAM,则关键词‘声音’与词‘音像’、‘硬’、‘立体’、‘唱片集’和‘做’之间的KL距离分别是0.015、0.012、0.040、0.147和0.069。如果阈值是0.05,那么词‘音像’、‘硬’和‘立体’每一个都是关键词″声音″的接近词。例如在关键词″声音″和词″音像″之间的KL距离的情况下,从关键词″声音″到词″音像″的距离不同于从词″音像″到关键词″声音″的距离。图5所示的KL距离每个都是在两个方向上的距离的平均值。
然后,在下个步骤S3,特征词提取部件27检测步骤S1执行的处理中所选择的关键词的关键词类似词。关键词的关键词类似词是语义上与关键词等同的词。
通常,用于选择接近词的、根据词模型的距离尺度对于倾向于共同出现的词或与关键词语义类似的词减小。这就是说,最可能与关键词共同出现的词或语义上与关键词等同的词被选择作为关键词的接近词。
作为共同出现程度的指示器,诸如互信息量,X2值或dice系数的量是公知的。
在这种情况下,因为希望提取很有可能与关键词共同出现的词,所以特征词提取部件27使用诸如交互信息量、X2值或dice系数的量来计算与步骤S1执行的过程中所选择的关键词共同出现的程度和与步骤S2执行的过程中所选择的接近词共同出现的程度。然后,特征词提取部件27把出现程度不超过预定值的词当作语义上类似于关键词的接近词并且将语义上与关键词等同的接近词作为关键词类似词。
例如,在关键词‘声音’和词‘音像’、‘硬’、‘立体’之间的互信息量是图6中所示的典型值。在这种情况下,从图中所示的典型值很明显的是,关键词‘声音’和短语‘音像’之间的互信息量小于在关键词‘声音’和词‘硬’、‘立体’之间的互信息量,说明短语″音像″几乎不与词″声音″共同出现。这就是说,针对关键词‘声音’,短语‘音像’被选择作为与关键词‘声音’语义等同的接近词。
在实际情况中,词″音像″和″声音″都是描述音质的词并且它们有几乎相同的含义。然而,它们被互相独立地使用在句子中,如″声音是立体的″和″音像是立体的″。因此,几乎没有词″音像″和″声音″共同出现的情况。
如上所述,关键词的关键词类似词是与关键词语义等同的词。然而,应注意到,这个定义意味着关键词的关键词类似词能够成为关键词。关键词本身不是表示领域特性的词,但是可以预期的是,关键词被特征词修饰。
然后,在下个步骤S4,特征词提取部件27把在步骤S3执行的处理中所检测到的关键词类似词从步骤S2执行的处理中所检测到的接近词中去除。特征词提取部件27把剩下的接近词当作特征词,并将这些特征词存储在特征词存储部件28中。
然后,在下个步骤S5,特征词提取部件27产生关于是否已选择了所有关键词的判定结果。如果判定结果指示尚余有待选择的关键词,那么处理的流程就继续到步骤S1,在步骤S1选择下一个关键词。然后,通过相同的方式执行步骤S2和后继步骤的处理。
另一方面,如果步骤S5执行的处理中所产生的判定结果指示所有关键词都已经被选择了,那么该处理的执行结束。
如上所述,修饰关键词的词(与关键词共同出现的词)被作为特征词提取。因此,例如,如果词″声音″被作为关键词输入,那么可以从音乐评论文本中提取每个修饰关键词的特征词(或每个描述音乐特性的词)。典型的每个修饰关键词″声音″的特征词为″硬″和″立体″。
这就是说,例如,如果音乐CD的音乐评论文本通过强调从该文本提取的特征词来显示,那么有可能为用户提供一种音乐CD介绍屏幕,其允许用户容易地识别出表达音乐特性的词。
此外,如上所述,如果提取的特征词被用作用于设置与表示用户喜好的信息匹配的元数据,那么有可能推荐音乐特性方面更适合用户喜好的歌曲。
因为普通的元数据也包括与音乐特性松散相关的词,与使用这些松散相关的词进行的匹配建立相比,从音乐特性的观点来看,通过仅仅使用作为描述音乐特性的特征词的根据本发明所提取的特征词进行的匹配建立使得有可能推荐给用户的歌曲更适合作为其喜好的歌曲。与音乐特性松散相关的词的示例是描述销售区域的词和涉及艺术家的偶象特性的词。自然地,应当注意的是,通过提取描述艺术家的偶象特性的特征词作为用于关键词″形象″或″偶象″的特征词,那么从偶象特性的观点来看,有可能推荐适合喜好的歌曲。
通过指定每个均代表ABC公司的名字的ABC、abc和ABC Corp中的一个作为关键词,可以从报纸的新闻文章中提取特征词。典型的特征词包括″喜爱″和″进步″来揭示好的财政状况。换句话说,关于ABC公司的领域知识可以用一个词表示,即公司名字ABC abc或ABC Corp中的一个。
如上所述,可以使用根据本发明提取的特征词。
在上面的描述中,仅使用预先存储在关键词存储部件25中的关键词。但是,如上所述,因为从接近词中去除的关键词类似词可以被用作关键词,所以被去除的关键词类似词可以用作附加关键词。
图7是示出了被去除的关键词类似词用作附加关键词的情况下的信息处理装置1的典型配置的结构图。图中所示的信息处理装置1使用特征词提取部件31作为图1所示的配置中包括的特征词提取部件27的替换。图7中显示的配置的其他部件与图1所示配置相同。
通过参考图8所示的流程图解释由特征词提取部件31为提取特征词而执行的处理。
图8所示的流程图中步骤S11到S14所执行的处理分别等同于图4所示的流程图中步骤S1到S4所执行的处理。因此,为避免重复而不再复述对这些处理的解释。
在步骤S15执行的过程中,特征词提取部件31将在步骤S13执行的处理中检测到的关键词类似词作为附加关键词存储到关键词存储部件25中。
然后,在下个步骤S16,特征词提取部件31产生判定结果,即是否包括步骤S15执行的处理中所存储的附加关键词在内的所有关键词都已经被选择了。如果判定结果指示尚余有关键词待选择,那么处理的流程就继续到步骤S11,在步骤S11选择下一个关键词。然后,通过相同的方式实现步骤S12和后继步骤的处理。
前面描述的一系列过程,诸如提取特征词的处理的一系列过程,可以通过硬件和/或软件的执行来实现。如果上面描述的一系列过程是通过软件执行而实现的,那么组成软件的程序可以典型地从网络或记录媒体被安装到嵌入有专用硬件的计算机、通用个人计算机或类似物中。图9是显示计算机或个人计算机的配置的结构图。通过安装各种程序到通用的个人计算机里,该个人计算机能够实现各种功能。
图9所示的配置中,CPU(中央处理器)111通过执行ROM(只读存储器)112中存储的程序或从硬盘114加载到RAM(随机存取存储器)113里的程序来实施各种处理。RAM 113也用于适当地存储各种信息,诸如执行处理所需要的数据。
CPU 111、ROM 112、RAM 113和硬盘114通过总线115相互连接,该总线也连接到输入/输出接口116。
输入/输出接口116连接到输入部件118、输出部件117和通信部件119。该输入部件118包括键盘、鼠标和输入终端,而输出部件117包括显示单元和扬声器。显示单元可以是CRT(阴极射线管)显示单元或LCD(液晶显示)单元。通信部件119具有诸如ADSL(非对称数字用户线)调制解调器、终端适配器或LAN(局域网)卡的装置。通信部件119是用于通过诸如互联网这样的网络执行与其他装置的通信处理的单元。
输入/输出接口116还连接到驱动器120上,在该驱动器上适当地安装有诸如可拆卸媒体的前述记录媒体。该记录媒体可以是包括软盘的磁盘131、包括CD-ROM(光盘只读存储器)和DVD(数字多功能盘)的光盘132,包括MD(迷你盘)的磁光盘133,以及包括半导体器件的可拆卸媒体134。如上所述,将由CPU 111执行的计算机程序被从记录媒体安装到硬盘114里,以最终被加载到RAM 113里。
还应注意到,在这个说明书中,上述流程图的步骤不仅仅可以以预定的顺序沿着时间轴来执行,还可以并行地或独立地执行。
此外,本领域技术人员应该理解,落在所附的权利要求或其等同范围之内的各种修改、组合、次组合和改变都可以根据设计需要和其它因素而发生。
还应注意到,在这个说明书中使用的技术术语″系统″意味着包括多个装置的汇合的配置。
本发明包含的主题内容涉及于2005年3月31日在日本专利局申请的日本专利申请JP 2005-101963,其整个内容被作为参考合并在此。

Claims (8)

1.一种信息处理装置,包括:
获取装置,用于获取代表领域知识特性的关键词;以及
提取装置,用于从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高的词作为所述关键词的特征词。
2.根据权利要求1所述的信息处理装置,其中所述提取装置:
产生词模型,用作规定在作为对文本数据执行语素分析的结果所获取的词之间的关系的数学模型;以及
以所述词模型提取每个都具有接近所述关键词的距离尺度的接近词。
3.根据权利要求1所述的信息处理装置,其中所述提取装置提取修饰所述关键词的词作为用于关键词的所述特征词。
4.根据权利要求1所述的信息处理装置,其中所述提取装置在所述接近词之中提取与所述关键词共同出现的程度低的词,并将所述提取的词用作附加关键词。
5.根据权利要求1所述的信息处理装置,其中所述的信息处理装置进一步包括处理装置,用于:
从其他文本中获取代表另一文本特性的词;
选择与代表所述其他文本的所述特性的所述词对应的关键词;
从所述其他文本中提取所述选择的关键词和与所述选择的关键词相关的特征词;以及
执行将所述提取的特征词呈现给用户的处理。
6.一种信息处理方法,包括步骤:
获取代表领域知识特性的关键词;以及
从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高的词作为所述关键词的特征词。
7.一种程序记录媒体,用于存储包括以下步骤的程序:
获取代表领域知识特性的关键词;以及
从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高的词作为所述关键词的特征词。
8.一种信息处理装置,包括:
获取部件,用于获取代表领域知识特性的关键词;以及
提取部件,用于从文本中提取每个具有接近所述关键词的距离尺度的接近词,以及通过将特征词与所述关键词相关联而在所述接近词之中提取与所述关键词共同出现的程度高的词作为所述关键词的特征词。
CNA2006100898585A 2005-03-31 2006-03-31 信息处理装置,信息处理方法和程序 Pending CN1855102A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005101963A JP4524640B2 (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム
JP101963/05 2005-03-31

Publications (1)

Publication Number Publication Date
CN1855102A true CN1855102A (zh) 2006-11-01

Family

ID=37084275

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100898585A Pending CN1855102A (zh) 2005-03-31 2006-03-31 信息处理装置,信息处理方法和程序

Country Status (3)

Country Link
US (1) US20060230036A1 (zh)
JP (1) JP4524640B2 (zh)
CN (1) CN1855102A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375848A (zh) * 2010-08-17 2012-03-14 富士通株式会社 评价对象聚类方法和装置
CN102982825A (zh) * 2011-09-02 2013-03-20 索尼公司 信息处理装置、信息处理方法和程序

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US20110044447A1 (en) * 2009-08-21 2011-02-24 Nexidia Inc. Trend discovery in audio signals
JP5605083B2 (ja) * 2010-08-25 2014-10-15 富士ゼロックス株式会社 映像再生装置及び映像再生プログラム
JP5819239B2 (ja) * 2012-04-03 2015-11-18 日本電信電話株式会社 重要語句抽出装置、方法、及びプログラム
JP5890385B2 (ja) * 2013-12-20 2016-03-22 ヤフー株式会社 データ処理装置、及びデータ処理方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
JPH08137898A (ja) * 1994-11-08 1996-05-31 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
AU707050B2 (en) * 1995-01-23 1999-07-01 British Telecommunications Public Limited Company Methods and/or systems for accessing information
JP3584848B2 (ja) * 1996-10-31 2004-11-04 富士ゼロックス株式会社 文書処理装置、項目検索装置及び項目検索方法
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US6442540B2 (en) * 1997-09-29 2002-08-27 Kabushiki Kaisha Toshiba Information retrieval apparatus and information retrieval method
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
US6330576B1 (en) * 1998-02-27 2001-12-11 Minolta Co., Ltd. User-friendly information processing device and method and computer program product for retrieving and displaying objects
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
JP2002215659A (ja) * 2001-01-18 2002-08-02 Noriaki Kawamae 情報検索支援方法および情報検索支援システム
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US7598509B2 (en) * 2004-11-01 2009-10-06 Cymer, Inc. Laser produced plasma EUV light source
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP3921523B2 (ja) * 2001-12-27 2007-05-30 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
JP4227797B2 (ja) * 2002-05-27 2009-02-18 株式会社リコー 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
JP3944102B2 (ja) * 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
JP2005266198A (ja) * 2004-03-18 2005-09-29 Pioneer Electronic Corp 音響情報再生装置および音楽データのキーワード作成方法
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006099388A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びテキストマイニングシステム
US20060085181A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Keyword extraction apparatus and keyword extraction program
US7529765B2 (en) * 2004-11-23 2009-05-05 Palo Alto Research Center Incorporated Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis
WO2007008727A2 (en) * 2005-07-12 2007-01-18 Gsi Group Corporation System and method for high power laser processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375848A (zh) * 2010-08-17 2012-03-14 富士通株式会社 评价对象聚类方法和装置
CN102375848B (zh) * 2010-08-17 2016-03-02 富士通株式会社 评价对象聚类方法和装置
CN102982825A (zh) * 2011-09-02 2013-03-20 索尼公司 信息处理装置、信息处理方法和程序

Also Published As

Publication number Publication date
JP4524640B2 (ja) 2010-08-18
JP2006285418A (ja) 2006-10-19
US20060230036A1 (en) 2006-10-12

Similar Documents

Publication Publication Date Title
US11327978B2 (en) Content authoring
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
US9558187B2 (en) Enhanced document input parsing
US20070198511A1 (en) Method, medium, and system retrieving a media file based on extracted partial keyword
US20070106405A1 (en) Method and system to provide reference data for identification of digital content
EP2045734A2 (en) Automatically generating a hierarchy of terms
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
KR101098832B1 (ko) 개인화 검색 장치 및 방법
CN1855102A (zh) 信息处理装置,信息处理方法和程序
CN1846210A (zh) 利用本体存储并检索数据的方法及装置
Barbaresi Ad hoc and general-purpose corpus construction from web sources
CN116911312B (zh) 一种任务型对话系统及其实现方法
Coats Dialect corpora from YouTube
JP2006331245A (ja) 情報検索装置、情報検索方法およびプログラム
Balasubramanian et al. Topic pages: An alternative to the ten blue links
JP2009098811A (ja) 文書分類装置およびプログラム
CN115062135B (zh) 一种专利筛选方法与电子设备
Oliveira et al. A concept-based ilp approach for multi-document summarization exploring centrality and position
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
US20160078036A1 (en) Building a Domain Knowledge and Term Identity Using Crowd Sourcing
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2009282903A (ja) 知識抽出・検索装置およびその方法
CN115329051B (zh) 一种多视角新闻信息快速检索方法、系统、存储介质及终端
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication