CN1669029A - 自文件集合中自动搜寻概念层次结构的方法及系统 - Google Patents

自文件集合中自动搜寻概念层次结构的方法及系统 Download PDF

Info

Publication number
CN1669029A
CN1669029A CNA038167611A CN03816761A CN1669029A CN 1669029 A CN1669029 A CN 1669029A CN A038167611 A CNA038167611 A CN A038167611A CN 03816761 A CN03816761 A CN 03816761A CN 1669029 A CN1669029 A CN 1669029A
Authority
CN
China
Prior art keywords
feature
notion
similarity
group
concept hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038167611A
Other languages
English (en)
Inventor
克莉丝蒂娜·庄
刘静慧
艾尔发·路克
江昌·茂
舒密特·坦克
凡希·弗吐库鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verity Inc
Original Assignee
Verity Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Verity Inc filed Critical Verity Inc
Publication of CN1669029A publication Critical patent/CN1669029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

本发明涉及一种可自一文件集合中自动搜寻概念并自动生成一概念层次结构(310)的方法、系统及计算机程序。该方法包括:自文件集合中抽取特征字符(304);利用统计方法计算特征字符间的相似度(306);提炼特征字符的分布频率以使上述相似度计算趋于精确(508);对特征字符进行语义排歧以解决意义分歧的问题;以经提炼的分布频率及语义排歧后的特征字符为基础,重新计算特征字符的相似度(510)。经再次计算所得的相似度可反映各特征字符间的实际相似程度,藉此,可将相关的特征字符进行聚类形成不同的概念,所得概念排列为一个概念层次结构。该概念层次结构可自动对某一待检索的特定概念产生询问并返回与该概念相关的文件。

Description

自文件集合中自动搜寻概念层次结构的方法及系统
技术领域
本发明涉及一种自文件集合中自动发现其概念层次结构,尤其涉及一种可自文件集合中自动发现概念并自动生成一经标记概念层次结构的方法、系统及计算机程序。
背景技术
现今信息时代每天新增大量信息,且其中大部分信息的格式为软件文件,可被输入至各公司、组织及万维网的相应计算机系统中以实现信息的存贮和流通。目前,在互连网上约有40亿张静态的网页,并且以每天七百三十万张的速度在递增,由此可见这些软件文件数量是多么惊人。
如果这些数量庞大的数据仅是无序地累积在一起而未按照一定的逻辑方式进行组织,可想而知,自浩如烟海的数据中检索到所需有用信息并非易事。而且,随着数据量的增加,检索的复杂性亦会相应增加,这使得检索中可能会错漏相关的信息或是返回冗余的检索结果。因而,按一定逻辑方式来对信息进行存储和整理是必要的,显而易见,这将易于人们对信息的浏览和检索。
整理这些数量庞大的信息/文件类似于图书馆中对图书的整理。在图书馆中,各种图书被按照一定的逻辑方式进行有序整理,譬如依照其所属的学科、其作者或是其它特征(如出版单位或是出版日期等等)做整理。对图书做有序整理根本目的就是创建一个让人们能容易查找所需书籍的系统。这不仅有助于人们找到所需的图书,而且便于对图书的管理。
类似地,我们面对的各种软件文件系涉及各种不同的主题,亦需要对其进行分类并按照某种逻辑方式进行整理。一种公知“文件分类法”可将文件按类别进行整理。该方法预先设定一个参数(或特征)对应于一个类别,符合某一特定预设参数的文件将被聚集在该特定预设参数所对应的类别之下。例如,一种对财政金融报告相关文件的分类方法,其将相关文件分为年度报告与定期报告。且,可根据实际情况做进一步分类。以文件中所反映的内容及思想作为判断依据,将文件收录至某一预先设定的类别下。该分类法中某一个特定类别下将收录反映相同思想和内容的文件。分类的出现产生了一个易于管理的检索空间(分类),从而便于从一个数量庞大的文件集合中挖掘相关信息,使得信息浏览、检索及获取更为容易。
构建分类是一个充满挑战性的工作,需要具备很深的分类相关专业知识。因此,分类构建通常由特定技术领域的专家来完成。比如,Yahoo的目录结构就是由人工创建形成分类结构的一个例子。人工构建分类结构通常要大量耗费时间和精力。而且,随着科技的发展,新技术领域和新技术术语将不断涌现,令更新既有分类结构这项工作变得艰辛。
如果文件集合中每一个文件的内容和思想可以被自动识别而不需逐一真正阅读后方能知晓,这将降低对文件进行分类整理的难度。文件所含的重要思想可定义为“概念”。比如,一篇关于“可再生能源系统”的文件,其可能包含诸如风力发动机,太阳能,太阳照明,自然资源,生物燃料等相关概念。这些概念被整理成一个层次结构,其中,彼此关联的概念排列位置互相靠近,越上位的概念在排列上越靠近层次结构中的顶层。概念的层次结构可以看作一种树状数据结构,最上位的概念作为树根,最下位的概念则为树叶。举例而言,若将“自然科学”作为一个数据树的树根,其可包括物理学,化学和生物学三个子节点。接着,上述物理学,化学及生物学三个子节点又可分别分化出各自的下一层节点。如:物理可分化为力学,电磁学,光学和热学;化学可分化为有机化学和无机化学;生物可分化为动物学和植物学。显然,上述数据树可进一步往下细划到树叶部份(即,不能再往下划分的节点)。树叶部份即代表“自然科学”中最具体化的分类。实际上,诸如神经学,病理学,核磁性及烯烃等概念实际上皆可作为这样一个层次结构的树叶部份。
将概念整理成一个层次结构可便于使用者实现对概念的搜寻。而且,对相关概念的检索也有助于将与概念相关的文件归类至分类中相应所属类别中。一个分类中可以包括一个以上概念。同样,一个概念也可用于一个以上分类中。借助与概念相关的关键词进行概念搜索可以查找出与概念相关的文件。概念搜索可以作为判断文件在分类中所属类别的第一步。因而,自动生成的概念和概念层次结构可明显减少人工创建分类结构所需的时间和成本。
自动抽取概念及自动生成概念层次结构的方法主要涉及以下两个步骤:(a)从文件集合中判定并抽取概念;(b)将概念整理成一个概念层次。
(a)从文件集合中判定并抽取概念:概念用来代表文件的核心思想。文件的核心思想通常可通过一组相关的关键词来反映,这些关键词自文件集合中抽取,将相关联关键词聚集可形成概念。
(b)生成概念层次:上述概念抽取步骤可产生一定数量的概念,其中大部份概念是相关联的,而且一个概念通常可以进一步细分为几个子概念。因而,需要确定各个概念间的逻辑关系,故可表示概念间逻辑关系的概念层次应运而生。
针对抽取概念及生成概念层次,已开发的众多方法中,大部份是利用词汇信息进行概念抽取并将所抽取的概念按层级次序排列。
oris Gelfand,Mariltyn Wulfekuhler及William F.Punch III等人于1998年7月在madision召开的美国人工智能协会(AAAI)文本分类学专题研讨会上发表了“Automatic Concept Extraction From Plain Text”(普通文字中的自动概念抽取)一文。该文介绍了一个从已析构文本中抽取概念的系统。该系统以字与字间的词汇关系为依据,其通过WordNet词汇参考系统查找字与字间的词汇关系。在WordNet中根据词汇概念整理文字。例如,名词,动词,形容词和副词构成一组同义字,每个代表一个根本的词汇意义。通常被称为“基本词”的一些语义特征被并从原始文本中抽取出来并用语义关系曲线,即SRG曲线(Semantic Relationship Graph)连接起来。基本词对应于SRG曲线图中的节点,语义相关联的基本词其所对应的节点被连接在一起。对于一些基本词,虽然它们在词汇数据库中没有直接语义关系,但通过一个连接词可将它们连接起来。这个连接词将作为一个“增添词”添入SRG曲线图中。例如,假设在SRG曲线上有二个词汇“生物学”及“物理学”,二者之间没有直接关系。此时,“自然科学”很有可能作为一个“增添词”引入该SRG曲线中。然后从曲线图中去除那些没有和足够多的节点发生关联的词,由此产生的图表结果反映了文件集合的语义信息,其可用来对文件集合进行分类。最后将SRG图表划分为多个子图表以得到各种文件的分类。
1997在芬兰Espoo召开的自组织地图专题研讨会(WSOM97)上,TimoHonkela等人发表了“WEB SOM Self Organizing Maps of DocumentCollections”(WEBSOM文件集自组织地图),介绍了一种从文件集中抽取用于表示该文件的关键词的方法。假设有五份待确定分类的文件及五十个自文件中抽取的关键词,这些关键词即为这些文件的特征。对每一份文件分别设定一个与之对应的“特征向量”,该特征向量具有五十维变量,分别与五十个关键词在该份文件中出现频率相对应。将这些文件画在一个二维图上。在二维图中,特征向量相互靠近聚拢在一起的文件彼此之间关联性较强。这种图为文件的分类提供了一种直观的表达,其中类似的文件聚拢在一起。
2001年召开的信息检索研究及发展国际会议上,Lawrie等人发表“Finding Topic Words for Hierarchical Summarization”一文揭示一种创建摘要主题层次结构的方法。主题层次结构将主题词组织成一个层次结构,其中较低阶的主题词覆盖其它词义相同的词。这种方法利用词在文件集合中出现的条件概率来抽取主题词及创建主题层次结构。该方法用一个直观图来表现任意两个词之间关系,其中,图上的节点代表文件中的词汇,各节点间连线反映词汇间“归类”概率的权值。如果术语Y为术语X的上位描述,则X被归类于Y中。图中归类概率最高、与多个节点相连的术语即为所要寻求的较上位术语。循环重复上述步骤可得到层次结构中更高层次的术语。
1999年,Sanderson等人于信息检索研究及发展国际会议上公开“Deriving Concept Hierarchies From Text”(从文本中搜寻概念层次结构)一文中公开一种自文件集合中自动搜寻其概念层次体系的方法,该方法以一对词之间归类概率为基础。如果词条“p”是一个对词条“c”更概括的描述,则“p”是词条“c”的母词条。用这种方法来获得词条构成概念层级体系中各个节点,由所生成的层次体系可得知文本中两个词的关系。
相反,本发明的系统是将概念组织成一个层次结构,层次结构中每个节点的下层才是词。层级内部的节点对应于不同提取级别的概念(一组短语成的群落为概念)。该层次结构体现概念与概念之间的关系。同时,依据Sanderson和Croft建构的概念层级体系中,一个节点不能隶属于一个以上的上层节点,而本发明的层次结构无此限制。
除了上述之研究报告之外,在该技术领域中还有各种涉及提取概念及建构概念层级相关之专利文献。
第5,325,298号美国专利(“生成或修订多个词干对应的概念向量的方法”)及第5,619,709号美国专利(“概念向量的生成及检索方法及系统”)中分别提供了产生语境向量的方法。该语境向量可用于存储、检索文件及其它信息,该语境向量表征文件集合中上下文的文脉关系,根据文件间的文脉关系可聚集有关联的文件。
第5,873,056号美国专利(题为“应用语意向量表示法解决词汇多义的自然语言处理系统”)公开了一种利用普通的主题词对文件自动分类及检索的方法,其自一个词汇数据库中获取用于分类及检索的主题代码。第5,953,726号美国专利(题为“维护概念层级的方法和装置”)涉及对概念性特性及概念层级的维护。
上述的方法和专利均是为了解决自动提取概念及构建概念层级中遇到的各种问题。
然而,其仍存在不足,上述的研究报告和专利文献中没有完善解决下述的一个或多个重要问题。
大部份系统基于词汇库进行概念提取,抽取范围受限于词汇库的覆盖范围。现有词汇库往往不能应对各种不同专业领域的主题词。而且,科技发展将出现新研究领域及新术语,譬如,“biometrics”就是一个新近出现的术语。以公知数据库为参考,不可能检索到这类新出现的领域及术语。
而且,公知大部份系统中,概念的产生及概念抽取是利用概率模型实现,这种方法对数据稀疏、意义分歧及冗余关键词的处理能力尚有所欠缺。
数据稀疏原因在于关键词是从一个文件集合中选取,而某个关键词在一个文件集合中出现频率要疏于其在一份单独文件中的出现频率。这使得表征该关键词的权重不够准确,从而影响任意两个关键词之间相似性的计算。
意义分歧指由一字多义而引发的问题。例如,英文单词“club”存在“asuit in cards”,“a weapon”或“a gathering”多种解释。获知一个词在上下文中的确切含义对生成概念及概念的层级排列而言相当重要。针对一词多意所产生问题,公知消除歧义的方法是:预先定义一个词所代表的不同意义并储存形成一个词汇参考,利用该词汇参考区分一个词多个不同语意。公知消除歧义的方法侧重于考虑词汇本身的固有意义,通常没有考虑结合上下文关系理解字词所代表的具体意义。例如,对单词”car”的理解,根据词汇解释其为一种交通运输工具,然而结合上下文的具体语境,”car”可具体解释为”car insurance”或是”car racing”。
出现冗余关键词指在文件集合中重复出现而没有实际意义的一些词有可能被当作关键词抽取出来。例如,在一个与运动相关报道的文件集合中,“记者”(Reporter)是一个出现频率很高的词,如果仅以出现次数的多寡为基准从该文集中提取关键词,可想而知,频繁出现的“记者”一词将被抽取出来成为一个关键词。然而,对于运动这个特定领域,这个词并无实际意义,采用它作为一个关键词建构的概念将引发错误。
因此,由上可知,上述公知的方法,在实际使用上,显然具有不便与缺陷存在,而可待加以改善。
发明内容
本发明的一个目的,在于提供从一种文件集合中自动搜寻概念层次结构的系统、方法及计算机程序,其中该概念层次结构将概念按不同抽象级别进行编排。
本发明的另一个目的,在于提供一种从一个文件集合中自动提取概念的系统,方法及计算机程序。
本发明的另一个目的,在于提供一种从一个文件集合中自动提取特征字符的系统,方法及计算机程序。且,本发明进一步判定各特征字符之间的相似性从而聚集关联特征字符以形成概念。
本发明的另一个目的,在于计算各个特征字符之间的相似度,用以确定关联特征字符。
本发明的另一个目的,在于提炼特征字符分布频率以减少相似度计算中由于数据稀疏及意义分歧而造成的错误。
本发明的另一个目的,在于自概念层次结构中自动将概念按不同抽象级别进行整理。
本发明的另一个目的,在于提供一种应用已生成概念层次结构的友好使用接口,其可便于使用者有效地检索出符合该概念层次结构中某一概念的相关文件。
本发明的另一个目的,在于创建一个用户接口以便于使用者浏览及使用文件集合的信息内容。
本发明的另一个目的,在于结合词汇参考及语料分析知识建构一种可更好反映一个文件集合所含信息内容的概念层次结构。
本发明的另一个目的,在于利用概念层次结构自动获取分类中的类别,并自动将匹配的文件归类于相应所属类别中,从而促进分类构建。
为了达成上述的目的,本发明提供一种可自一文件集合中自动搜寻概念并自动生成一概念层次结构的方法、系统及计算机程序。本发明的方法包括:自文件集合中抽取特征字符;利用统计方法计算特征字符间的相似度;提炼特征字符的分布频率以使上述相似度计算趋于精确;对特征字符进行语义排歧以解决意义分歧的问题;以经提炼的分布频率及语义排歧后的特征字符为基础,重新计算特征字符的相似度。经再次计算所得的相似度可反映各特征字符间的实际相似程度,可据此将相关的特征字符进行聚类形成不同的概念,所得概念排列为一个概念层次结构。该概念层次结构可自动对某一待检索之特定概念产生询问并返回与该概念相关的文件。
为能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
附图说明
图1是本发明适用的一种计算器工作平台框图。
图2是本发明应用的一种计算机互连网框图。
图3是本发明自动识别概念并生成概念层次结构的方法流程图。
图4显示本发明一种自一个文件集合中提取特征字符的方法。
图5是本发明的判定特征字符间相似性一种实施方式的流程图。
图6是本发明的意义分歧调整方法的流程图。
图7说明本发明的聚类概念以生成概念层次结构的一种方法。
图8是本发明图形用户接口的显示画面,其显示自动生成的概念层次结构。
图9是本发明图形用户接口的显示画面,利用该图形用户接口使用者可对概念层次结构中某一个概念进行检索。
图10显示图形用户接口对用户的检索自动产生询问并返回相关文件。
图11显示借助本发明图形用户接口,使用者可利用自动生成的概念层次结构创建文件分类。
其中,附图标记说明如下:
100 工作站           104总线
122通信通道          202数据处理网络
208大型计算机        210通信链路
212存储设备          216通讯控制器
214通讯链路          702,704,706,708,710,712群落
802智能分类器
具体实施方式
相关术语的定义
特征字符:指在文件中出现名词或者名词短语。文件内容通常由其中出现名词或者名词短语来表达。这些名词和名词短语因而可用来代表相应文件的内容。这类似于素描中的人物特征,人物特征可用来确定人物身份,同理,代表一份文件的内容和特性的名词和名词短语称的为“特征字符”。一个特征字符可有一个或多个组成元素。
概念:由相关联特征字符聚集而形成的一个群落称为概念。
概念层次:指概念的一种层级排列结构。其中,互相之间有关联的概念在排列上彼此靠近,越上位的概念排在越靠近顶层的位置。
标注:指为概念设定的名称。标注是一个描述性的词或短语,用来识别概念所代表的要素。
分类:分类将类别整理成一树形结构,并结合类别与相关文件。
类别:类别是一个预设的参数(或特性),用于将符合该特定参数的文件聚类。
紧密度:定义为度量一个群落中各组成特征字符之间平均相似度或群落内各子群落之间平均相似度的一个量。
连通度:用来衡量二个群落的组成要素之间的平均相似程度,其中,群落的组成要素可为特征字符或子群落。
群内距离:一个与紧密度成反比的量,可由紧密度推导而得,即:对于一个具有高紧密度的群落,相应地,其群内距离小。
群间距离:一个反比于连通度的量,可由连通度推导而得,即:若群落之间具有较高的连通度,则这些群落的群间距离较小。
意义分歧:指一个词包含一种以上含义的情况。如果不结合上下文的前后关系对这种多义词进行单独解释时,其具体所指的含义难以确定。
数据稀疏:指一份文件中的词汇量属于整个语料库全部词汇量中的一个小子集这样一种属性。一个概念可由几个词来传达。语料库中包纳了与这个概念相关的所有词,然而,所有相关词可能不会同时地出现在含有该概念的全部文件中。这意味存在如下情形:在语料库中,不同文件采用不同词汇去表达同一个概念。
核心概念
一份文件的内容可用其所含主要思想进行概括。这些主要思想可用一些关键词或短语来表达。通常,一份文件会包含一个以上的思想,相应地,相关关键词及短语亦反映一个以上思想。一个反映相同思想的关键词/短语群落被称为一个概念。上述这样一个关键词/短语群落的名称称为标注。组成群落的关键词或短语即为特征字符。类似于一个人的特征字符可代表其身份一样,这些关键词和短语代表相应文件的内容。
借由下述例子可更好理解特征字符、概念及标注之间关系。自一份文件中提取出“malaria,osteoporosis,hospital,lung and medicine”等字符即为特征字符,这些特征字符表明这份文件主要思想为“healthcare”,这样,由上述特征字符组成的群落可用“healthcare”作为其标注。从而,上述特征字符组成的群落就形成一个概念,该概念以标注“healthcare”表示。
文件主要思想或内容通常用其所含的名词及名词短语来表示,因而,一份文件中的名词和名词短语构成该文件的特征字符。
用概念来表示思想存在不同抽象等级之分,即:可为一个相当抽象的思想,比如“科学”;或是一种较具体的思想,比如“病理学”。因而,表示这些不同思想的概念也同样存在着不同抽象级别之分。
将这些概念按不同抽象级别排列成一种层次结构,即构成一个概念层级。在概念层级中,具体的概念依附于抽象的概念,呈一种树状分布,自根部到叶子,树中节点所对应的概念由抽象趋于具体。例如,一个树形概念层级中,以概念“自然科学”作为树根,则该概念的下包括如下三个子概念:“物理学”、“化学”及“生物学”。接着,上述子概念又有各自的子概念,物理学的子概念可为力学、电磁学、光学及热学;化学的子概念可为有机化学及无机化学;生物学的子概念可为动物学及植物学。上述子概念还可进一步逐层往下细分,直至树叶部份(无子概念的节点)。树叶部份代表自然科学中最具体的分类。在该概念层级中,树叶部份可由神经病学,病理学,核磁学及烯烃等构成。由于一个概念可以和多个上层概念发生联系,所以一个概念层级中一个节点也可从属于一个以上的上层节点。
本发明提供一种可从文件集合中自动判定并提取概念及自动生成一个概念层级的方法、系统及计算机程序。其中,所生成的概念层级可应用于概念检索及分类构建。
图1为本发明应用的一种代表性的硬件工作环境。其包括一个典型的个人计算机工作站100,例如是包括相关外围设备的个人计算机。工作站100包括微处理器102和总线104,总线104用以实现微处理器102与工作站100中其它设备的连接与通讯。工作站100通常包括一个用户接口适配器106,用于实现微处理器102和一个或多个外围设备通过总线104连接,比如键盘108,鼠标110和/或其它外围设备112,比如触摸显示屏,数字化输入板等等。总线104还可通过一个显示适配器116连接微处理器102与显示装置114,比如一个液晶显示屏或一个显示器。总线104将微处理器102连接内存118及非易失性存储设备120,可以是硬盘驱动器,软盘驱动器,磁带机等。
借助一个通信通道122,工作站100可与其它计算机或计算机网络实现连通。工作站100可与一个局域网或是广域网内的其它计算机相互通讯,工作站100还可为与其它计算机构成的客户机/服务器体系中的客户机,等等。上述之构造及相关通讯硬件及软件均为公知技术。
图2是一个用于实现本发明的数据处理网络202示意图。其包括多个单独网络:局域网204,206。其中,局域网204,206分别包括多个单独工作站100。由公知技术可知,该局域网也可以包含多个智能工作站,且该智能工作站均连接到同一主处理器上。
图2中,数据处理网络202也可包括多个大型计算机,如通过通信链路210连接到局域网206的大型计算机208,大型计算机208可连接存储设备212,存储设备212可为整个局域网206共享的远程存储设备。局域网206可通过一个子系统控制单元或通讯控制器216连接到通讯链路214,并通过通信链路214连接到网关服务器220。网关服务器220通常是一个独立的计算机或智能工作站,用于局域网204和局域网206的连接通讯控制。
在公知技术中,大型机算计208与局域网206在地理位置上可能相隔很远,类似地,局域网204与局域网206之间也可相隔很大物理距离。
实现本发明的软件程序代码,通常由工作站100的微处理器102从非易失性存储设备中读取。非易失性存储设备有如CD-ROM驱动器或硬盘驱动器。客户机/服务器体系中,软件程序代码存储可在服务器关联的存储设备上。软件程序代码可被包含在任意可用于数据处理系统的存储媒介中,如软盘,硬盘,CD-ROM。软件程序代码可通过上述存储媒介传播,也可通过网络由一个计算机系统的存储设备中传递到其它计算机系统供其用户使用。另外,软件程序代码还被嵌入于内存118,而由微处理器102通过总线104读取。将程序软件代码存储或嵌入到内存或其它物理存储媒介上,或通过网络传播的技术均为公知,在此不再赘述。
本发明的输出结果可以被存储在应用任意一种存储媒介的非易失性存储设备120中,也可从工作站100通过通讯通道122传输到其它图2标示中的计算机或工作站,并由其它计算机或工作站保存。
较佳实施例中,本发明通过一计算机程序实现。该计算机程序可在用户本地计算机上执行,也可通过用户拥有或可控制的局域网或广域网在其它远程计算机上执行,该网络连接可以是INTERNET连接,由网络接入服务提供商所提供。大多数网络应用环境中,用户通过自己计算机连接到公用或专有网络,如Internet或内部网,并通过此网络间接使用包含本发明的软件程序。
图3为本发明的自动判定概念并生成一个概念层级结构方法的流程图。步骤302:输入一个文件集合。其中,组成该文件集合的文件可为报告、网页、新闻出版物或其它文件数据,这些文件数据可存储在内存120中。步骤304:从输入文件集合中提取特征字符。如前所述,特征字符指那些在文件中出现并且可代表文件内容的名词及名词短语。
步骤306:判定所提取特征字符之间的相似度。借助该步骤306可得到两个特征字符相似度的定量度量。特征字符间的相似度或者是关联度用来衡量代表相同概念的特征字符之间相近似的程度。两个特征字符之间相似度越高,表明他们代表相同概念的可能性越高。
一份文件中通常包含多个不同概念,因而从一份文件中提取出来的特征字符涉及到多个不同概念,需要对不同概念所对应的特征字符加以识别以区分多个概念。
在文件集合中,如果一个概念反映在一份以上文件中,那么其相应的特征字符极可能都会在这些文件中同时出现。因而,特征字符之间相似的一种表现是:在文件中这些特征字符习惯上同时共现,可据此评估特征字符的相似度。然而,基于特征字符共现情况评估其相似度时,数据稀疏及意义分歧会使所得结果不够准确。
数据稀疏是指一份文件所含词汇通常只是整个文件集合全部词汇的一个小部份而引发的问题。一个特征字符有可能在少数几份文件中重复出现,因而在这几份文件中具有较高的出现频率。同一个特征字符有可能在另几份文件中出现次数稀少,因而在这几份文件中出现频率相对较低。而且,并非所有的特征字符都是定义文章内容所必需的,采用部份特征字符就足以表达文章的内容。另一方面,某些特征字符可能是一些与文章内容没有任何关联的冗余特征字符。比如,在有关运动的一系列报道中频频出现的“记者”一词,其对这些报道内容而言没有实际意义。
意义分歧:指一个特征字符具有一种以上含义的情形。例如,英文单词“club”可有如下几种意义:“a gathering”,“a suit in cards”或是“a weapon”等等。因而,“club”和“cards”同时出现,“club”和“weapon”同时出现并不意味着“weapon”和“cards”属于意义相关词。
本发明判定特征字符相似度的步骤对上述问题予于特别关注,下文图5将详细说明该步骤的各个子步骤。
步骤308为层次聚类,聚集相关联概念以形成概念并将概念组织成为一个层次结构。下文给出两个具体的实施例。
本发明的标注概念步骤310在一件早先的美国专利申请中亦有公开。该申请名称为“A Method And System For Naming A Cluster Of Words AndPhrases”,申请日为2002年3月12日,申请序列号为10/096,048。该步骤是给概念标注上代表其意义的标签,用以体现在概念层次中从抽象到具体的各个概念。
步骤312为创建一个显示所生成概念层次结构的接口。该接口可便于应用生成的概念层次结构进行浏览,概念搜索及分类建构。再返回到步骤302,其中,该提取特征字符的步骤304包括多个子步骤,如图4所示。
图4显示本发明从文件集合中抽取特征字符的方法。其中,系统输入一个文件集合,该步骤为从输入文件集合内每一份文件所有字符中提取出特征字符,这将涉及对句子结构及词类标注的分析。
步骤402中对每一份文件进行解析,即:依据句子中字词的组合形式、功用及句法关系逐句切分一份文件中的每个句子。该解析步骤包括词性标注步骤以获知字词之间的关系。词性标注步骤是在文件中标注词相应的词性(例如标注为:动词、名词、代名词、形容词、副词、前置词、连词、感叹词)。词性可通过规则方法由已标注范本中获知或是通过N-元(n-grams)统计信息进行分析。N-元表示法是文件及其组成要素的一种表示方法。其中,每个N元是一份文件中n个大字符串中的子字符串。此外,标点符号及大写信息也可能被运用于词性标注分析。步骤404中,从切分后的文件中抽取出特征字符(即名词或名词短语)。步骤406将特征字符编录成一个索引结构。针对某个特征字符,利用该索引结构,搜索引擎可以迅速获取包含该特征字符的所有文件。步骤408中搜集所提取的特征字符并存储在数据库120中。此外,提取特征字符也可利用公知程序包实现,例如由InXight公司提供的程序包Inxight LinguistXPlafform。
回到前述的步骤306,即:判定两个特征字符间相似度的步骤,该步骤包括多个子步骤,如图5所示。
图5为本发明判定两个特征字符间相似度方法的流程图。其中,步骤502系统输入特征字符集合。步骤504表示出特征字符在文件集合中的分布。特征字符分布可用特征字符在文件集合中的概率分布来表示。
特征字符s在由n份文件组成的语料库中的频率分布可表示为:
f(s)=[f1(s),f2(s),f3(s)........fn(s)]
其中,fi(s)表示特征字符s在第i份文件中出现次数。
将频率测定标准化后可得到特征字符的概率分布,特征字符s在由n份文件组成的语料库中的频率分布可表示为:
p(s)=[p1(s),p2(s),p3(s)........pn(s)],且∑pi(s)=1;
其中,pi(s)为特征字符s在第i份文件中出现的概率。上述表示反映了特征字符在文件集合中的分布。
步骤506计算特征字符间的相似度。相似度是对特征字符间相关程度的一种量化度量。相似度越高的特征字符,表达同一个概念的概率越高。
步骤506以标准统计方法为基础计算特征字符间的相似度。各种公知统计方法皆可来评估相似性,本发明中依据特征字符在文件集合中的实际分布来计算其相似度。
本发明计算相似度所采用的一种统计方法是“互信息”(MI,mutualinformation)。
MI计算公式为:
MI ( s , t ) = Σ i p i ( s , t ) log p i ( s , t ) p i ( s ) p i ( t )
其中,pi(s)及pi(t)分别表示特征字符s及特征字符t在第i份文件中的出现概率,pi(s,t)表示特征字符s及特征字符t在第i份文件中共现概率。上述公式中之对数为基2对数。
本发明另一种计算相似度的方法是通过改进KL距离(modifiedKullback-Leibner distance)。
根据该算法,相似度SIM(similarity measure)可由下式计算:
SIM(s,t)=1.0-KL(s,t)
其中,KL(s,t)为改进KL距离,其计算公式如下:
KL ( s , t ) = min { Σ i p i ( s ) log ( 2 p i ( s ) p i ( s ) + p i ( t ) ) , Σ i p i ( t ) log ( 2 p i ( t ) p i ( t ) + p i ( t ) ) }
显然,相似度的计算不限于上述两种具体实施方式,本领域技术人员可通过其它统计方法计算特征字符间的相似度。
上述改进的KL距离还可以用来处理意义分歧问题。如前所述,意义分歧是指单个特征字符包含多种含义或是有多种与其相关联的意义。假设特征字符p有多种含义,一种含义与特征字符q相关联,另一种含义与特征字符r相关联。这这种情况下,特征字符p可与特征字符q共现,亦可与特征字符r共现,但不可能同时与特征字符q及特征字符r共现。根据上述改进KL距离算法推算而得的特征字符”p”“q”之间距离KL(p,q)及特征字符”p”“r”之间距离KL(p,r)应该较小。如果不对意义分歧做修正,两个组合具有较大理论距离。经过修正后,其距离变小,反映它们之间真实关系。
数据稀疏可导致特征字符在文件集合中分布失衡。基于实际出现情况计算而得的特征字符概率分布可能并不能反映真实情况。而且,由于存在意义分歧,利用统计方法计算的相似度并不能如实反映特征字符实际中的相似程度。在计算相似度的统计方法中,将特征字符在文件集合中出现的概率作为一个参数,由此而得的相似度不能区分同一个特征字符的不同意义,导致错误。
因而,按照步骤506,根据实际分布计算而得相似度并不能完全反映特征字符之间实际的相似程度。所以,步骤508将提炼特征字符分布并重新计算相似度以反映特征字符实际的相似程度。
步骤508提炼特征字符在文件集合中的频率分布。在随后的步骤510中,利用提炼后的分布再次计算特征字符的相似度。对频率分布进行提炼可使其趋于精确化,从而使再次计算所得的相似度更为准确。
本发明较佳实施例中,为克服数据稀疏问题,对特征字符共现频率进行精化处理。利用一种平滑技术对特征字符在文件集合中的概率分布进行提炼,该平滑技术以特征字符共现频率为基础。相对于调整单个特征字符的频率,通过特征字符的共现频率对特征字符分布频率进行调整和提炼可将内存开销由O(sD)减少到O(s(s-1))。其中,s和D分别代表特征字符及文件的数目。
在本发明较佳实施方式中,经i次反复平滑处理后,特征字符”s”和”t”调整后之共现频率可用fi+1(s,t)表示:
f i + 1 ( s , t ) = f i ( s , t ) + λ Σ x f i ( s , x , t )
其中,λ是一个预设平滑参数,fi(s,x,t)表示特征s,x及t在第i份文件中的联合频率。λ值根据试验及误差来选取,实验研究表明1~10为λ一个可行取值范围。
实现自由平滑需要具备较大λ值及多次叠代,且,平滑结果对特征字符之间相似度的统计值反应很敏感。因而,对采用该方法倾向于持保守态度。
上述的联合频率fi(s,x,t)可通过多种公知统计方法来估算,本发明较佳实施方式中利用条件概率计算特征字符的联合频率fi(s,x,t)。
一个语料库中能包含数百万文件,但是通过其中少量固定的特征字符通常即可获知其信息内容。因而,仅选取那些与某个特征字符具有高相似度之特征字符来对特征字符的分布进行调整及提炼。
上述共现频率fi+1(s,t)中之参量 可利用条件概率来估计,具体表示如下:
f i + 1 ( s , t ) = f i ( s , t ) + λ ( Σ Stat ( x , t ) ≥ σ , x ≠ s p i ( s | x ) p i ( x | t ) p i ( t ) + Σ Stat ( y , s ) ≥ σ , y ≠ t p i ( t | y ) p i ( y | s ) p i ( s ) )
其中,Stat(s,t)是选定的统计量,σ是一个预设的相似度阈值,pi(x|y)为条件概率,表示在第i次叠代中,假设y已经包含在一个文件中时,该文件中包含x的可能性。条件概率可利用贝氏定理计算。
贝氏定理:
p i ( x | y ) = p i ( x , y ) p i ( y )
在本发明较佳实施方式中,利用共现信息来估算概率:
p i ( x , y ) = f i ( x , y ) F 2 i
p i ( x ) = Σ y f i ( x , y ) F 2 i
其中
F 2 i = Σ y Σ x f i ( x , y )
上述针对提炼分布的处理方法中,考虑了特征字符有关联但不常共现的情形。该处理方法可提供一个更准确的相似度,其中,较高的相似度用来反映相关联但习惯上不常共现的那些特征字符之间的关系。
意义分歧问题可通过消除特征字符歧义来解决。出现次数频繁的特征字符其含有多种语义的可能性较大。因而,评估这种多义特征字符与其它不常出现的特征字符之间相似度时,所得结果显示相似度较低。因此,选取出现频繁的特征字符进行歧义消除。多义特征字符所代表的不同语义可利用词关联规则算法可自动搜集。据此,将一个多义特征字符的频率分布分解成与不同具体语义对应的频率分布。这将使得一般特征字符与多义特征字符具有较高相似度。
语义分歧的调整涉及多个步骤,如图6所示。图6为本发明的一种语义分歧调整方法流程图。
步骤602中输入一个特征字符集合;在步骤604中选取出模糊特征字符以进行语义调整。模糊特征字符指含有一个以上与其相关的语义的那些特征字符。研究发现一个特征字符的模糊程度正比于其出现频率。同时,特征字符频率分布遵循基夫定律(Ziff”s law)。所以,出现频率高于x%(10%-20%)的特征字符将被抽取出来进行歧义消除。
确定模糊特征字符之后,随后的步骤606为利用关联规则算法搜寻这些模糊特征字符的各种语义。第20届世界大型数据库(VLBD)会议的会议记录中由R.Agrawal等人公开的关联规则算法可应用于上述步骤。
特征字符的频率分布被分解为多个分布,其中,语义”S”由s1...sk个特征字符组成,这些特征字符通常一起共现:
S={s1,...,sk|Sup(s1,...,sk)≥δ}
其中,Sup(s1,...,sk)表示s1...sk特征字符在语料库内联合共现的文件之数目,s是一个预定阈值。
在本发明较佳的实施方式中,所采用的关联规则算法具有如下两方面限制:分析语义时应特别注意语义大小应小于预定范围以平衡计算效率与精确度。研究经验表明4至7是一个较好的范围;另一方面,确保每个语义包括一个由步骤604选取出的模糊特征字符“s”,其它特征字符频率必须低于特征字符“s”的频率以避免“s”被其它更模糊的特征字符去模糊化。
可应用于本发明的关联规则算法如下:
S={{f:f is a frequent signature}}

    for(size=1;size<=MaxSenseSize;size++

    {

      for each sense s={f1...fn}in S

         extended=false

      for each signature t with frequency lower than f1...fn

         s′={f1..fn t}

      if Support(s′)>=threshold

         S=S+{s′}

         extended=true

      if(extended==true)

         S=S-{s}

    }
在步骤608中每个语义都要加入一个频率分布,所加入的频率分布为其所有组成特征字符的共同分布。语义”S”在j份文件中的出现频率表示为
Figure A0381676100231
Figure A0381676100232
步骤610调整特征字符的频率分布以解决意义分歧问题。根据语义频率分布,在第j份文件中,特征字符si在语义集”S”中之分布由fj(sj)修正为
Figure A0381676100233
f ~ j ( s i ) = 0 f j ( S ) > 0 f j ( s i ) f j ( S ) = 0
当上述分布提炼处理完成后,将返回到图5中的步骤510,再次计算所有特征字符及语义的相似度。
再参阅图3,判定相似度的步骤306完成后,接着为步骤308层次聚类。步骤308根据前一步骤306中计算出的相似度生成概念并将所得概念组织成一个概念层级。
一个概念层级中的概念以具有高紧密度及低连通度为佳。其中,紧密度用来度量一个群落中特征字符之间的相似程度,而连通度用来反映分别来自两个不同群落的特征字符的相似程度。在一个高质量的概念层级中,离得越远的两个群落就越不相似(即:具有高群间距离和低连通度);且,各个群落应具有高紧密度,即群落的组成成员相似,其中,群落组成成员指其组成特征字符或其下属子概念。
上文所述的紧密度反映一个群落(概念是由特征字符组成的一个群落)的组成要素间相关的紧密程度,是对一个群落的群内距离的一种度量。其中,群内距离用以衡量群落中组成要素之间的平均相似度,与紧密度成反比关系。因此,由密切相关的特征字符组成的群落将具有低的群间距离及高的紧密度。
群落C的群内距离可通过其相应的“紧密度”计算,其群内距离与其紧密度成反比。群落的紧密度可定义为其组成特征字符或子群落的平均相似性。
当群落”C”由特征字符组成时,其紧密度计算公式如下:
( C ) = Σ t ∈ C , t ≈ s Σ s ∈ C Sim ( s , t ) | C | ( | C | - 1 ) 2
若由子群落组成,其紧密度由下式计算:
Compactness ( C ) = Σ C j ∈ Child ( C ) Σ C i ∈ child ( C ) Connectivity ( C i , C j ) | Child ( C ) | 2
其中,Child(C)代表群落C的子群落,Connectivity(Ci,Cj)为概念Ci及Cj.的连通度。
两个概念之间的连通度定义为来自两个不同概念(群落)的任意两个特征字符间的平均相似度。高连通度意味着低的群间距离,其中,群间距离指两个独立群落相似度的平均值。群间距离反比于连通度,即:高连通度意味低的群间距离。相似度高的两个概念,表明其组成特征字符密切相关。
群落“S”和”T”的群间距离可由其连通度来计算。连通度是指来自该两个概念的任意两个特征字符间的平均相似度,其可由下式计算:
Connectivity ( S , T ) = Σ t ∈ T Σ s ∈ S Sim ( s , t ) | S | | T |
其中,|S|及|T|分别代表群落“S”和“T”中特征字符的数目。
上述紧对密度及连通度的计算为概念聚类的基础。本发明将说明在一个概念层级中对概念进行聚类的两种实施方式。
一种聚类方法是采用贪婪凝聚法将概念整理成一个层级结构,如下文聚类凝聚程序所示。这种方法中,系统输入一个特征字符集合,对特征字符进行聚类形成概念并将所产生概念整理成一个层级结构。
贪婪算法选择距离最小的二个群落来合并。本实施方式采用二个准则对群落进行合并,以使群间距离相对用于合并的子群落的群内距离达到最大化。
聚类凝聚程序
Procedure AgglomerativeClustering(I={C1...Cn})
while|I|>1
{
  Pick A,B∈I s.t.Connectivity(A,B)≤Connectivity(Ci,Cj)Ci,Cj∈I
  I=I-{A}-{B}
  C=MergeClusters(A,B)
  I=I∪{C}
}
上述系统中,其输入为一个特征字符集合I,该集合I包括特征字符C1至Cn。每次叠代时,连通度最高的群落将被合并成一个新群落。群落合并程序考虑四种群落合并情形,如图7所示。
参阅图7,群落702标记为“A”,其包括A1至An个子群落;另一钎落704标记为“B”,包括B1至Bm个子群落。A及B的子群落可为概念或是特征字符。依照群落合并程序,群落A及B有下列四种合并方式:MergeTogether,MergeSibling,MergeLeft及MergeRight。依照上述四种不同方式合并而得的群落分别标识为:群落706,群落708,群落710及群落712。
上述四种合并方式可借助下例进行理解。假设群落A及B被挑选出来进行合并,根据二个群落的紧密度和连通度,可有四种合并方式,可通过试探选择其中一种适宜的合并模式。针对上述四种合并方式,本实施例亦提供二套概念聚类规则。
第一套规则适用于群落C具有高群内距离及低群间距离的情形,具体如下:
此时,应选用MergeTogether合并方式,群落702及群落704被合并在一起形成群落706。
Figure A0381676100252
此时,选用MergeLeft合并方式形成群落710。
Figure A0381676100253
此时,选用MergeRight合并方式形成群落712。
Figure A0381676100261
此时,选用MergeSibling合并方式形成群落708。
其中,θ为预设阈值,其取值可依实际需求确定,即:根据所生成的概念层级对紧密度和连通度的要求确定θ取值。
第二套规则针对下述情形:群落C的子群落具有低的群内距离及高的群间距离,即具有最小R(C)的情形:
R ( C ) = InterCluster ( C ) IntraCluster ( C )
上式中,
InterCluster ( C ) = Σ C j ∈ Child ( C ) , Σ j ≠ C i ∈ Child ( C ) Connectivity ( C i , C j ) | Child ( C ) | | Child ( C ) - 1 2
IntraCluster ( C ) = Σ C i ∈ Child ( C ) Compactness ( C i ) | Child ( C ) |
其中,InterCluster(C)为C中各对子群落之间的平均相似度。IntraCluster(C)为C的子群落的平均相似度。上述第二套规则系适用于具有低R(C)值的结构,该种结构中群间相似性较低而群内相似性较高。
生成概念层级的另一种方式是利用间接图像逼近方法。其利用图像分割算法将原始图像适当分割成不同子图以实现群落分类。图上节点代表特征字符,两个节点之间的连线与两个节点之间相似程度的权值相关。
依照这种方法,假设所有的特征字符为一个群落,然后将这些特征字符循环分解生成群落(概念),并将所得概念整理为一个概念层级。
图像分割算法用于将特征字符按一定分割方式划分成很多部份,该分割方式使得不同分割部份之间相交线的权值,即:不同部份之间的交叉线的总数量为最小。因为图中的每一条连线代表特征字符之间的相似程度,所选取的分割方法应尽量减少区域间的交叉线以使不同分割部份中的特征字符相似程度最小。这使得在同一个区域中得特征字符彼此高度相关。
该步骤可由二值图像分割算法实现,例如,美国Minnesota大学提出的METIS图像分割算法。一个群落C被分割成二个子群落A和B,该分割方式使得群落A和B之间相交线数目为最小,且A和B至少包括C中x%的特征字符。研究经验显示x%取值为20~40%较为适当。然,该百分比的取值不限于上述所提供的范围。
该步骤首先将全部特征字符视为一个群落,在每一次循环叠代中,将一个群落分割为若干个更小的子群落,直至所分割数量已满足要求或是已分割得足够细而不能再往下细分时,该步骤方结束。
上述分割步骤完成后,利用紧密度将不同分割部份组成一个层级。将由图像分割算法产生的复数分割部份视为一个初始的群落集合“I”,将该群落集合中具有高紧密度的群落合并到一起,形成了一个新群落集合“M”。群落集合“M”取代最初始群落集合“I”,在群落集合“M”中重复上述合并动作。反复叠代上述合并动作,每一次叠代生成概念层级中一个层次的概念。该合并动作反复叠代进行,直到合并的群落数量满足默认值“k”为止。
如果对分割部份作进一步处理,使相似的分割部份彼此靠近,则系统在每次叠代中可有效地选取出一组群落进行合并。利用下文所示的快速合并程序,可实现上述目的。该程序无需对每一对群落组合一一进行比对进而找出最适合进行合并的群落,其仅对那些彼此接近的群落进行比对。以一个线性群落“A”,“B”及“C”为例,群落“B”和“C”之间的间隔是由“A”和“B”合并成的群落与由群落“B”和“C”合并成的群落之间的紧密度差值.处于较大间隔之间的群落被选出进行合并,这使得每一次合并过程在时间上线性。
本系统也可迅速计算出一个合并群落的紧密度。每个群落的紧密度及其概念之间的连通度将被存储在内存120中备用。
由群落”A”及”B”合并生成之群落”C”,其紧密度可由下式计算:
Compactness ( C ) = | A | ( | A | - 1 ) 2 Compactness ( A ) + | B | ( | B | - 1 ) 2 Compactness ( B ) + | A | | B | Connectivity ( A , B ) ( | A | + | B | ) ( | A | + | B | - 1 ) 2
上文提及之快速合并程序如下:
Procedure FastMergePartitions(I={C1...Cn},k)

  do while(|I|>k)

  {

    lastMerge=-1

    lastCompact=-1

    M=Φ

    do while(lastMerge+1<|I|)

    {

      endMerge=lastMerge;

             for(i=lastMerge+1;i<|I|;i++)

             {
 
       mergedCompact=ComputeMergedClusterCompactness(Ci,Ci+1)

       gap=|mergedCompact-lastCompact|

       if(lastCompact<O‖gap>σ)

       {

        endMerge=i

        break

       }

      }

      C=FormCluster(ClastMerge,...,CendMerge)

      M=M∪C

      lastMerge=i

      lastCompact=mergeCompact

    }

             I=M

  }
借助上述合并步骤可产生一种概念的层次结构,该概念层次结构可表示在一个图形用户接口中,如图8所示。
图形用户接口为用户提供一个友好使用接口,便于用户对概念层级进行有效浏览和检索。本发明的系统中,用户还可通过该接口对已生成的概念层级进行编辑操作。
图8为本发明图形用户接口一个显示画面,该图形用户用于显示一根据本发明的方法自动生成的概念层级。
借助图形用户接口,用户可对显示于智能分类器802中的概念层级进行浏览及检索。智能分类器属于一种图形用户接口,当多种应用共存的情况下,图形用户接口便于用户应用概念层级进行概念检索及分类构建。用户可利用显示在智能分类器802中的概念层级实现信息检索(详如下文图10所示)及分类构建(详如下文图11所示)。
展开一个概念可显示其所含子概念,因而通过逐级展开可了解某个概念所包含的子概念及特征字符。参阅图8,对概念“aircraft+war”804进行展开操作,在多个操作选项中选中相应选项806“显示概念中术语(特征字符)”,其相应的特征字符即显示在窗口808中。其中,带有方形标记810的那些特征字符对应于概念“aircraft+war”804的一个子概念;带有圆形标记812及带有三角形814的特征字符则分别代表概念“aircraft+war”的另两个子概念。
希望了解概念804“aircraft+war”下属的子概念时,可通过点击“Expand”选项816或是点击相应节点804。同样,点击某个特定子概念就可显示其相应的特征字符。
因而,智能分类器802能使用户了解一个概念的组成特征字符或者一个上层概念下属子概念的所有特征字符。上层概念可展开显示其相应子概念,子概念可展开显示其组成特征字符。
用户可通过图形用户接口检索概念及特征字符。而且,图形用户接口中可对概念层级进行人工编辑,用户可以对概念重新命名,增加/删除概念层级中的概念,增加或删除概念的组成特征字符。
如图9所示,用户可以通过本发明的图形用户接口检索概念层级中的概念。参阅图9,智能分类器802中显示组成上层概念804“aircraft+war”的所有子概念,其包括:子概念92“atmospheric_phenomenon+precipitation”,子概念904“Japan+Pacific”及子概念906“plane+boat”。其中,子概念902进一步包括:子概念908“atmospheric_phenomenon+precipitation”及子概念910“lake+lake”。同理,子概念904及906亦分别包括相应下属子概念。智能分类器802亦能显示这些下属子概念,用户可在检索窗口912中对某个特定概念进行检索。
本发明的系统中,用户可对概念层级中每一个概念进行自动检索以搜寻到相关文件。图10为本发明一个图形用户接口,其显示概念层级,且用户通过自动产生的检索可检索到相关文件。本系统可对一个概念进行自动检索并返回与该概念相关的文件。如图9中所示,对概念“aircraft+war”804进行检索,与该概念对应的特征字符将被显示在窗口1004中。以该概念对应的特征字符作为检索基准,对文件进行检索,可找出含有该概念相应特征字符的文件。检索返回的文件按该特征字符在文件中出现的权值由高至低排列并显示在窗口1002中。
组成概念“C”的每一个特征字符的权值以该特征字符在文件集合中出现频率为基础进行计算。
针对一个概念C={s1,...,sn},在检索中所采用的检索术语为其组成特征字符s1...sn。以特征字符在文件集合中出现频率为基础计算每个检索术语的权值。
上述例子中,权值可按下式计算:
w ( s i ) = min W + ( max W - min W ) f ( s i ) - min F max F - min F
其中,w(si)为检索术语si的权重,[minW,maxW]为预定的权值取值范围。其中,
( s i ) = Σ j f j ( s i )
maxF=max{f(si)|si∈C}
minF=min{f(si)|si∈C}
[minW,maxW]的范围可取[0,1],在最佳实施方式中对该取值范围做调整以减小较长特征字符的权值。
min W = k 1 e | C | d + k 2
max W = k 3 e | C | d + k 4
对一个较长的检索术语,[minW,maxW]取值为[k2,k4];对于较短的询问检索术语,取值为[k1+k2,k3+k4]。上述参数的一组具体数值可为k1=0.6,k2=0.05,k3=0.8,k4=0.1,d=30。
本发明的系统中还可对概念层级进行编辑操作。用户可以重新对概念命名,增加/删减概念,在概念层级中移动概念及增添/删减一个概念中的特征字符。
图11显示本发明一个图形用产接口,其中用户可通过该接口从本发明自动生成的概念层级中创建一个文件分类。用户可从概念层级的不同部份中得到文件分类的不同类别。从概念的标注可得到不同类别。图11所示,窗口1102中显示了所创建的分类,其中“aircraft+war”类别来源于概念层级中相应的概念“aircraft+war”。对于概念层级中的每个节点或是用户选定的任意部份都可自动产生检索,将相关文件与对应概念联系起来。因而,用户可通过问询进行有效检索,找到所需文件。从概念层级可自动获知文件分类或是文件分类中的类别。对概念的检索将检索得到的文件自动归类到文件分类中各类别目录之下。而且,可以对检索返回的文件进行人工归类。文件分类中的类别将沿用概念层级的结构(或部份选定结构),文件分类中的每个节点将沿用概念层级中相应概念的标注或是相关检索词。
以上所述,仅为本发明最佳具体实施例的详细说明与附图,但是本发明的特征并不局限于此,并非用以限制本发明。凡符合本发明保护范围的精神与其类似变化的实施例,皆应包含于本发明的范畴中,任何本领域技术人员在本发明的领域内,可轻易思及的变化或修饰皆可涵盖在以下本发明的专利范围。

Claims (25)

1.一种自文件库中自动搜寻概念层级的方法,该概念层级将概念组织为多个抽象级别,该方法包括:
从文件库中提取特征;
判定所述特征之间相似性;
逐级聚类相关特征以生成概念,由此得出逐层聚类的概念,从而产生一个概念层级;
标注该概念层级中的概念;以及
为所产生的概念层级创建一个界面。
2.根据权利要求1所述的方法,其中该提取特征步骤包括:
切分文件库中的文件,进行词性标注及句法结构分析;
提取代表该文件内容的特征;以及
将所提取的所述特征编成索引。
3.根据权利要求1所述的方法,其中该判定特征之间相似性步骤包括:
表示特征,利用其于文件库中的分布进行表示;
计算所述特征间的相似性;
对所述特征在文件库中的分布进行提炼;
以经提炼的分布为基础,重新计算所述特征间的相似性;
利用上述重新计算所得结果判定特征相似性。
4.根据权利要求3所述的方法,其中利用修正KL距离计算所述特征间相似性。
5.根据权利要求3所述的方法,其中利用互信息统计方法计算所述特征间相似性。
6.根据权利要求3所述的方法,其中该提炼特征分布的步骤包括:
提炼特征在文件库中的共现频率分布;以及
对出现频率高的特征进行歧义消解,以解决单个特征包含多个意义的可能性。
7.根据权利要求6所述的方法,其中提炼该共现频率的步骤包括:
对于每一对特征,利用条件概率计算出一个平滑参数;
计算所述特征共现频率时,将上述平滑参数加入至每次叠代计算中。
8.根据权利要求6所述的方法,其中该特征歧义消解步骤包括:
选出多义特征;
计算所述多义特征的不同语义;
以组成一个语义的特征的频率分布来表示该语义;
按照一个所述多义特征所含语义计算结果,分解该多义特征的频率分布;
将分解所得频率分布加入语义计算步骤中;
对包含某一特定语义的特征,调整其频率分布;
根据调整后的频率分布,再次计算每一对特征的语义;以及
循环重复上述第六及第七个子步骤,直至满足预定叠代数值。
9.根据权利要求1所述的方法,其中该层级聚类步骤包括:
基于所述特征间的相似度评估特征间的连通性;
将具有高连通性的所述特征聚集成一个群落,一个特征群落代表一个概念;
评估两个以上独立特征群落间的连通性;
评估每个特征群落中组成特征的间的紧密性;
以群落间的连通性为依据,合并至少两个特征群落,形成一个上层群落;以及
重复上述第三,第四及第五个步骤,直至被合开群落数目达到预定值。
10.根据权利要求1所述的方法,其中该逐级聚类步骤中采用二元分割算法进行聚类。
11.根据权利要求1所述的方法,其中实现一个或多个步骤的程序固化于硬件芯片中。
12.一种自文件库中自动搜寻概念层级的系统,该概念层级将概念组织为多个抽象级别,该系统包括:
用于从文件库中提取特征的方法;
用于判定特征之间相似性的方法;
用于逐级聚类相关特征以生成概念,由此可得逐层聚类的概念,从而产生一个概念层级的方法;
用于标注该概念层级中的概念的方法;以及
用于为所产生的概念层级创建一个接口的方法。
13.根据权利要求12所述的系统,其中用于提取的方法包括:
用于切分文件库中的文件,进行词性标注及句法结构分析的方法;
用于提取代表文件内容的特征的方法;以及
用于将所提的特征编入索引的方法。
14.根据权利要求12所述的系统,其中用于判定特征间相似性的方法包括:
用于利用特征在文件库中的分布来表示该特征的方法;
用于计算特征间相似性的方法;
用于提炼特征在文件库中的分布的方法;
用于以经提炼的分布为基础,重新计算特征间的相似性的方法;
用于利用上述重新计算所得结果判定特征相似性的方法。
15.根据权利要求14所述的系统,其中用于计算特征间相似性的方法利用修正KL距离计算特征间相似性。
16.根据权利要求14所述的系统,其中用于计算特征间相似性的方法利用互信息统计方法计算特征间相似性。
17.根据权利要求14所述的系统,其中用于提炼特征分布的方法包括:
用于提炼特征在文件库中的共现频率的方法;以及
用于对出现频率高的特征进行歧义消解,以解决单个特征包含多个意义的可能性的方法。
18.根据权利要求17所述的系统,其中用于提炼共现频率的方法包括:
对于每一对特征,利用条件概率计算出一个平滑参数的方法;以及
计算特征共现频率时,将上述平滑参数加入至每次叠代计算中的方法。
19.根据权利要求17所述的系统,其中用于歧义消解的方法包括:
用于选出多义特征的方法;
用于计算多义特征不同语义的方法;
用于以组成一个语义的特征的频率分布来表示该语义的方法;
用于按照一个多义特征所含语义,分解该多义特征的频率分布的方法;
用于将上述分解所得频率分布补充至经计算而得的语义中的方法;
用于对包含某一特定语义的特征,调整其频率分布的方法;
用于根据调整后的频率分布,再次计算每一对特征之语义的方法;以及
用于循环重复上述第六及第七个子步骤,直至满足预定叠代数值的方法。
20.根据权利要求12所述的系统,其中用于层级聚类的方法包括:
基于特征间的相似度评估特征间的连通性的方法;
将具有高连通性的特征聚集成一个群落,一个特征群落代表一个概念的方法;
评估两个以上独立特征群落间的连通性的方法;
评估每个特征群落中组成特征之间的紧密性;
以群落间的连通性为依据,合并至少两个特征群落,形成一个上层群落的方法;以及
重复上述第三,第四及第五个步骤,直至被合并群落数目达到预定值的方法。
21.根据权利要求12所述的系统,其中用于逐级聚类的方法使用二元分割算法实现聚类。
22.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括一个检索概念层级中的概念的方法。
23.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括编辑该概念层级的方法。
24.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括一个用于自动产生检索的方法,用户借助该方法对概念层级中某个概念进行检索时,其可自动返同与该概念相匹配的文件。
25.根据权利要求12所述的系统,其中该系统在一个计算机程序中实现。
CNA038167611A 2002-05-17 2003-05-15 自文件集合中自动搜寻概念层次结构的方法及系统 Pending CN1669029A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/150,795 2002-05-17
US10/150,795 US7085771B2 (en) 2002-05-17 2002-05-17 System and method for automatically discovering a hierarchy of concepts from a corpus of documents

Publications (1)

Publication Number Publication Date
CN1669029A true CN1669029A (zh) 2005-09-14

Family

ID=29419337

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038167611A Pending CN1669029A (zh) 2002-05-17 2003-05-15 自文件集合中自动搜寻概念层次结构的方法及系统

Country Status (7)

Country Link
US (1) US7085771B2 (zh)
EP (1) EP1508105A4 (zh)
JP (1) JP2005526317A (zh)
CN (1) CN1669029A (zh)
AU (1) AU2003241489A1 (zh)
CA (1) CA2486358A1 (zh)
WO (1) WO2003098396A2 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314B (zh) * 2008-07-16 2011-12-07 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN102508845A (zh) * 2010-09-14 2012-06-20 微软公司 对概念分层结构进行导航和搜索的界面
CN101226523B (zh) * 2007-01-17 2012-09-05 国际商业机器公司 数据概况分析方法和系统
CN102682042A (zh) * 2011-03-18 2012-09-19 日电(中国)有限公司 概念识别设备和方法
CN101639857B (zh) * 2009-04-30 2012-12-05 腾讯科技(深圳)有限公司 构建知识问答分享平台的方法、装置及系统
CN103034656A (zh) * 2011-09-29 2013-04-10 日立(中国)研究开发有限公司 章节内容分层方法和装置、文章内容分层方法和装置
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN103548041A (zh) * 2011-06-28 2014-01-29 国际商业机器公司 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN104281570A (zh) * 2013-07-01 2015-01-14 富士通株式会社 信息处理方法和装置以及机构名规范化方法和设备
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105264520A (zh) * 2013-06-04 2016-01-20 瓦欧尼斯系统有限公司 委送一机构的相似数据至一连结装置的方法
TWI701620B (zh) * 2019-03-21 2020-08-11 洽吧智能股份有限公司 文件資訊提取歸檔系統

Families Citing this family (302)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US6944830B2 (en) * 2000-12-21 2005-09-13 Xerox Corporation System and method for browsing hierarchically based node-link structures based on an estimated degree of interest
US7567953B2 (en) 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
EP1487874A4 (en) * 2002-03-01 2007-08-29 Protemix Discovery Ltd FALP PROTEINS
US8229957B2 (en) 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
US20030233232A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for measuring domain independence of semantic classes
US7231384B2 (en) * 2002-10-25 2007-06-12 Sap Aktiengesellschaft Navigation tool for exploring a knowledge base
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
WO2004049192A2 (en) * 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US20040186704A1 (en) * 2002-12-11 2004-09-23 Jiping Sun Fuzzy based natural speech concept system
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US20050038781A1 (en) * 2002-12-12 2005-02-17 Endeca Technologies, Inc. Method and system for interpreting multiple-term queries
US7676462B2 (en) * 2002-12-19 2010-03-09 International Business Machines Corporation Method, apparatus, and program for refining search criteria through focusing word definition
US6961733B2 (en) 2003-03-10 2005-11-01 Unisys Corporation System and method for storing and accessing data in an interlocking trees datastore
US7260571B2 (en) * 2003-05-19 2007-08-21 International Business Machines Corporation Disambiguation of term occurrences
WO2005017682A2 (en) * 2003-08-05 2005-02-24 Cnet Networks, Inc. Product placement engine and method
US8473532B1 (en) * 2003-08-12 2013-06-25 Louisiana Tech University Research Foundation Method and apparatus for automatic organization for computer files
US7756750B2 (en) 2003-09-02 2010-07-13 Vinimaya, Inc. Method and system for providing online procurement between a buyer and suppliers over a network
US8516004B2 (en) 2003-09-19 2013-08-20 Unisys Corporation Method for processing K node count fields using an intensity variable
US20060101018A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US7346629B2 (en) * 2003-10-09 2008-03-18 Yahoo! Inc. Systems and methods for search processing using superunits
EP1706836B1 (en) * 2003-12-06 2011-01-19 Abbott Laboratories Method and system for analyzing reactions using an information system
US7340471B2 (en) * 2004-01-16 2008-03-04 Unisys Corporation Saving and restoring an interlocking trees datastore
US20050166149A1 (en) * 2004-01-23 2005-07-28 Microsoft Corporation Table of contents display
US7593923B1 (en) 2004-06-29 2009-09-22 Unisys Corporation Functional operations for accessing and/or building interlocking trees datastores to enable their use with applications software
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation
US7370273B2 (en) * 2004-06-30 2008-05-06 International Business Machines Corporation System and method for creating dynamic folder hierarchies
US20060031219A1 (en) * 2004-07-22 2006-02-09 Leon Chernyak Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units
US7487471B2 (en) 2004-07-23 2009-02-03 Sap Ag User interface for conflict resolution management
US7533074B2 (en) * 2004-07-23 2009-05-12 Sap Ag Modifiable knowledge base in a mobile device
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US20060036451A1 (en) 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
US8401986B1 (en) 2004-08-05 2013-03-19 Versata Development Group, Inc. System and method for efficiently generating association rules
US20060053156A1 (en) * 2004-09-03 2006-03-09 Howard Kaushansky Systems and methods for developing intelligence from information existing on a network
US9031898B2 (en) * 2004-09-27 2015-05-12 Google Inc. Presentation of search results based on document structure
US7213041B2 (en) * 2004-10-05 2007-05-01 Unisys Corporation Saving and restoring an interlocking trees datastore
US20060080305A1 (en) * 2004-10-13 2006-04-13 Heath Dill Accuracy of data harvesting
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7716241B1 (en) 2004-10-27 2010-05-11 Unisys Corporation Storing the repository origin of data inputs within a knowledge store
US7908240B1 (en) 2004-10-28 2011-03-15 Unisys Corporation Facilitated use of column and field data for field record universe in a knowledge store
US7499932B2 (en) * 2004-11-08 2009-03-03 Unisys Corporation Accessing data in an interlocking trees data structure using an application programming interface
US20060101048A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C KStore data analyzer
US7348980B2 (en) * 2004-11-08 2008-03-25 Unisys Corporation Method and apparatus for interface for graphic display of data from a Kstore
US20060100845A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C Multiple stream real time data simulation adapted for a KStore data structure
US8396897B2 (en) * 2004-11-22 2013-03-12 International Business Machines Corporation Method, system, and computer program product for threading documents using body text analysis
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US8510325B1 (en) 2004-12-30 2013-08-13 Google Inc. Supplementing search results with information of interest
US20070073678A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
WO2006096873A1 (en) * 2005-03-09 2006-09-14 Medio Systems, Inc. Method and system of bidding for advertisement placement on computing devices
US7617192B2 (en) * 2005-03-09 2009-11-10 Medio Systems, Inc. Method and system for capability content search with mobile computing devices
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US7596574B2 (en) * 2005-03-30 2009-09-29 Primal Fusion, Inc. Complex-adaptive system for providing a facted classification
US7606781B2 (en) * 2005-03-30 2009-10-20 Primal Fusion Inc. System, method and computer program for facet analysis
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US7844565B2 (en) 2005-03-30 2010-11-30 Primal Fusion Inc. System, method and computer program for using a multi-tiered knowledge representation model
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US7409380B1 (en) 2005-04-07 2008-08-05 Unisys Corporation Facilitated reuse of K locations in a knowledge store
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US7389301B1 (en) 2005-06-10 2008-06-17 Unisys Corporation Data aggregation user interface and analytic adapted for a KStore
JP4815887B2 (ja) * 2005-06-17 2011-11-16 日産自動車株式会社 情報処理装置及び情報処理用表示装置
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US20070005658A1 (en) * 2005-07-02 2007-01-04 International Business Machines Corporation System, service, and method for automatically discovering universal data objects
WO2007014341A2 (en) * 2005-07-27 2007-02-01 Schwegman, Lundberg & Woessner, P.A. Patent mapping
US7555472B2 (en) * 2005-09-02 2009-06-30 The Board Of Trustees Of The University Of Illinois Identifying conceptual gaps in a knowledge base
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US20170185690A1 (en) * 2005-10-26 2017-06-29 Cortica, Ltd. System and method for providing content recommendations based on personalized multimedia content element clusters
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9953032B2 (en) * 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US20160321253A1 (en) 2005-10-26 2016-11-03 Cortica, Ltd. System and method for providing recommendations based on user profiles
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US8326775B2 (en) * 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US8036876B2 (en) * 2005-11-04 2011-10-11 Battelle Memorial Institute Methods of defining ontologies, word disambiguation methods, computer systems, and articles of manufacture
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US8112374B2 (en) * 2005-11-23 2012-02-07 Henry Van Dyke Parunak Hierarchical ant clustering and foraging
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization
US8271542B1 (en) 2006-01-03 2012-09-18 Robert V London Metadata producer
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US8117196B2 (en) 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US8977953B1 (en) * 2006-01-27 2015-03-10 Linguastat, Inc. Customizing information by combining pair of annotations from at least two different documents
US7546278B2 (en) * 2006-03-13 2009-06-09 Microsoft Corporation Correlating categories using taxonomy distance and term space distance
US7461289B2 (en) * 2006-03-16 2008-12-02 Honeywell International Inc. System and method for computer service security
US20080275842A1 (en) * 2006-03-20 2008-11-06 Jane Campbell Mazzagatti Method for processing counts when an end node is encountered
US7734571B2 (en) * 2006-03-20 2010-06-08 Unisys Corporation Method for processing sensor data within a particle stream by a KStore
US7689571B1 (en) 2006-03-24 2010-03-30 Unisys Corporation Optimizing the size of an interlocking tree datastore structure for KStore
US8238351B2 (en) 2006-04-04 2012-08-07 Unisys Corporation Method for determining a most probable K location
US7774288B2 (en) * 2006-05-16 2010-08-10 Sony Corporation Clustering and classification of multimedia data
US7840568B2 (en) * 2006-05-16 2010-11-23 Sony Corporation Sorting media objects by similarity
US7750909B2 (en) 2006-05-16 2010-07-06 Sony Corporation Ordering artists by overall degree of influence
US9330170B2 (en) * 2006-05-16 2016-05-03 Sony Corporation Relating objects in different mediums
US7961189B2 (en) * 2006-05-16 2011-06-14 Sony Corporation Displaying artists related to an artist of interest
US7676330B1 (en) 2006-05-16 2010-03-09 Unisys Corporation Method for processing a particle using a sensor structure
US20070271286A1 (en) * 2006-05-16 2007-11-22 Khemdut Purang Dimensionality reduction for content category data
US7890533B2 (en) * 2006-05-17 2011-02-15 Noblis, Inc. Method and system for information extraction and modeling
US7624117B2 (en) * 2006-06-12 2009-11-24 Sap Ag Complex data assembly identifier thesaurus
US8255383B2 (en) * 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
US7792967B2 (en) 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
AU2012244384B2 (en) * 2006-08-31 2014-01-23 Primal Fusion Inc. System, method, and computer program for a consumer defined information architecture
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
WO2008055034A2 (en) * 2006-10-30 2008-05-08 Noblis, Inc. Method and system for personal information extraction and modeling with fully generalized extraction contexts
US8676802B2 (en) 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
CN101207179B (zh) * 2006-12-19 2012-05-23 国际商业机器公司 存储器单元及其制造方法
JP5379696B2 (ja) * 2006-12-29 2013-12-25 トムソン ルーターズ グローバル リソーシーズ 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
US8930178B2 (en) 2007-01-04 2015-01-06 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
US20080189265A1 (en) * 2007-02-06 2008-08-07 Microsoft Corporation Techniques to manage vocabulary terms for a taxonomy system
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8650030B2 (en) 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
US8200663B2 (en) * 2007-04-25 2012-06-12 Chacha Search, Inc. Method and system for improvement of relevance of search results
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20080294398A1 (en) * 2007-05-25 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for the automated construction of models of activities from textual descriptions of the activities
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
US9396254B1 (en) * 2007-07-20 2016-07-19 Hewlett-Packard Development Company, L.P. Generation of representative document components
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8126826B2 (en) 2007-09-21 2012-02-28 Noblis, Inc. Method and system for active learning screening process with dynamic information modeling
US8108392B2 (en) * 2007-10-05 2012-01-31 Fujitsu Limited Identifying clusters of words according to word affinities
WO2009049293A1 (en) * 2007-10-12 2009-04-16 Chacha Search, Inc. Method and system for creation of user/guide profile in a human-aided search system
US7856434B2 (en) 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US8577894B2 (en) 2008-01-25 2013-11-05 Chacha Search, Inc Method and system for access to restricted resources
US7962438B2 (en) * 2008-03-26 2011-06-14 The Go Daddy Group, Inc. Suggesting concept-based domain names
US7904445B2 (en) * 2008-03-26 2011-03-08 The Go Daddy Group, Inc. Displaying concept-based search results
US8069187B2 (en) * 2008-03-26 2011-11-29 The Go Daddy Group, Inc. Suggesting concept-based top-level domain names
US20090248736A1 (en) * 2008-03-26 2009-10-01 The Go Daddy Group, Inc. Displaying concept-based targeted advertising
EP2300966A4 (en) 2008-05-01 2011-10-19 Peter Sweeney METHOD, SYSTEM AND COMPUTER PROGRAM FOR THE USER-CONTROLLED DYNAMIC PRODUCTION OF SEMANTIC NETWORKS AND MEDIA SYNTHESIS
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US20090313363A1 (en) * 2008-06-17 2009-12-17 The Go Daddy Group, Inc. Hosting a remote computer in a hosting data center
CA2734756C (en) 2008-08-29 2018-08-21 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
GB2463669A (en) * 2008-09-19 2010-03-24 Motorola Inc Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
KR101045955B1 (ko) * 2008-11-14 2011-07-04 한국과학기술정보연구원 문맥의 의미적 연관관계 추출 방법 및 그 장치와 그 프로그램 소스를 저장한 기록 매체
US8732139B2 (en) 2008-12-18 2014-05-20 Sap Ag Method and system for dynamically partitioning very large database indices on write-once tables
US9607324B1 (en) 2009-01-23 2017-03-28 Zakta, LLC Topical trust network
US10007729B1 (en) 2009-01-23 2018-06-26 Zakta, LLC Collaboratively finding, organizing and/or accessing information
US10191982B1 (en) 2009-01-23 2019-01-29 Zakata, LLC Topical search portal
US10204707B2 (en) 2009-04-27 2019-02-12 Children's Hospital Medical Center Computer implemented system and method for assessing a neuropsychiatric condition of a human subject
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US8965893B2 (en) * 2009-10-15 2015-02-24 Rogers Communications Inc. System and method for grouping multiple streams of data
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US8392175B2 (en) * 2010-02-01 2013-03-05 Stratify, Inc. Phrase-based document clustering with automatic phrase extraction
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US8355903B1 (en) 2010-05-13 2013-01-15 Northwestern University System and method for using data and angles to automatically generate a narrative story
JP5894149B2 (ja) * 2010-06-03 2016-03-23 トムソン ライセンシングThomson Licensing Top−k処理を活用した意味の充実
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US9710760B2 (en) 2010-06-29 2017-07-18 International Business Machines Corporation Multi-facet classification scheme for cataloging of information artifacts
US9081767B2 (en) 2010-07-26 2015-07-14 Radiant Logic, Inc. Browsing of contextual information
CN101986296B (zh) * 2010-10-28 2012-04-25 浙江大学 基于语义本体的噪声数据清洗方法
US10068266B2 (en) 2010-12-02 2018-09-04 Vinimaya Inc. Methods and systems to maintain, check, report, and audit contract and historical pricing in electronic procurement
CN102063469B (zh) * 2010-12-03 2013-04-24 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
US8819236B2 (en) * 2010-12-16 2014-08-26 Microsoft Corporation Resource optimization for online services
GB2486490A (en) * 2010-12-17 2012-06-20 Royal Holloway & Bedford New College Method for structuring a network
US9342590B2 (en) * 2010-12-23 2016-05-17 Microsoft Technology Licensing, Llc Keywords extraction and enrichment via categorization systems
US20120173381A1 (en) * 2011-01-03 2012-07-05 Stanley Benjamin Smith Process and system for pricing and processing weighted data in a federated or subscription based data source
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US9904726B2 (en) * 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US9098575B2 (en) 2011-06-20 2015-08-04 Primal Fusion Inc. Preference-guided semantic processing
WO2013049529A1 (en) * 2011-09-30 2013-04-04 Technicolor Usa Inc Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis
US20130086033A1 (en) 2011-10-03 2013-04-04 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US20130086070A1 (en) 2011-10-03 2013-04-04 Steven W. Lundberg Prior art management
KR101565759B1 (ko) * 2011-10-07 2015-11-06 한국전자통신연구원 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
WO2013122205A1 (ja) * 2012-02-15 2013-08-22 楽天株式会社 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
US9477749B2 (en) 2012-03-02 2016-10-25 Clarabridge, Inc. Apparatus for identifying root cause using unstructured data
EP2857985A4 (en) * 2012-05-31 2016-08-03 Toshiba Kk KNOWLEDGE EXTRACTION DEVICE, KNOWLEDGE UPGRADING DEVICE AND PROGRAM
US20140040297A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Keyword extraction
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9135240B2 (en) * 2013-02-12 2015-09-15 International Business Machines Corporation Latent semantic analysis for application in a question answer system
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US10282378B1 (en) * 2013-04-10 2019-05-07 Christopher A. Eusebi System and method for detecting and forecasting the emergence of technologies
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9740736B2 (en) 2013-09-19 2017-08-22 Maluuba Inc. Linking ontologies to expand supported language
US9411905B1 (en) * 2013-09-26 2016-08-09 Groupon, Inc. Multi-term query subsumption for document classification
US9665570B2 (en) 2013-10-11 2017-05-30 International Business Machines Corporation Computer-based analysis of virtual discussions for products and services
US8744840B1 (en) * 2013-10-11 2014-06-03 Realfusion LLC Method and system for n-dimentional, language agnostic, entity, meaning, place, time, and words mapping
US20150178372A1 (en) * 2013-12-19 2015-06-25 OpenGov, Inc. Creating an ontology across multiple semantically-related data sets
KR20150081981A (ko) * 2014-01-07 2015-07-15 삼성전자주식회사 회의 내용 구조화 장치 및 방법
US10318572B2 (en) * 2014-02-10 2019-06-11 Microsoft Technology Licensing, Llc Structured labeling to facilitate concept evolution in machine learning
US9660933B2 (en) 2014-04-17 2017-05-23 Go Daddy Operating Company, LLC Allocating and accessing hosting server resources via continuous resource availability updates
US9501211B2 (en) 2014-04-17 2016-11-22 GoDaddy Operating Company, LLC User input processing for allocation of hosting server resources
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
US9842586B2 (en) 2014-07-09 2017-12-12 Genesys Telecommunications Laboratories, Inc. System and method for semantically exploring concepts
US9424298B2 (en) * 2014-10-07 2016-08-23 International Business Machines Corporation Preserving conceptual distance within unstructured documents
US11288328B2 (en) 2014-10-22 2022-03-29 Narrative Science Inc. Interactive and conversational data exploration
JP6540268B2 (ja) * 2015-06-24 2019-07-10 富士ゼロックス株式会社 オブジェクト分類装置及びプログラム
CN105260425A (zh) * 2015-09-28 2016-01-20 北京奇虎科技有限公司 基于云盘的文件显示方法及装置
US20170140118A1 (en) * 2015-11-18 2017-05-18 Ucb Biopharma Sprl Method and system for generating and visually displaying inter-relativity between topics of a healthcare treatment taxonomy
WO2017105641A1 (en) 2015-12-15 2017-06-22 Cortica, Ltd. Identification of key points in multimedia data elements
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
US10839947B2 (en) * 2016-01-06 2020-11-17 International Business Machines Corporation Clinically relevant medical concept clustering
WO2017160413A1 (en) * 2016-03-13 2017-09-21 Cortica, Ltd. System and method for clustering multimedia content elements
JP2017167433A (ja) * 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US10740678B2 (en) * 2016-03-31 2020-08-11 International Business Machines Corporation Concept hierarchies
US10866992B2 (en) * 2016-05-14 2020-12-15 Gratiana Denisa Pol System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research
US10275444B2 (en) 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US10755198B2 (en) * 2016-12-29 2020-08-25 Intel Corporation Data class analysis method and apparatus
US10643178B1 (en) 2017-06-16 2020-05-05 Coupa Software Incorporated Asynchronous real-time procurement system
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
WO2019012527A1 (en) 2017-07-09 2019-01-17 Cortica Ltd. ORGANIZATION OF DEPTH LEARNING NETWORKS
US10963649B1 (en) 2018-01-17 2021-03-30 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics
WO2019152050A1 (en) * 2018-02-02 2019-08-08 Visa International Service Association Efficient method for semi-supervised machine learning
US10755046B1 (en) 2018-02-19 2020-08-25 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
US11556570B2 (en) * 2018-09-20 2023-01-17 International Business Machines Corporation Extraction of semantic relation
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US11700356B2 (en) 2018-10-26 2023-07-11 AutoBrains Technologies Ltd. Control transfer of a vehicle
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US10990767B1 (en) 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US11488290B2 (en) 2019-03-31 2022-11-01 Cortica Ltd. Hybrid representation of a media unit
US11275796B2 (en) * 2019-04-30 2022-03-15 International Business Machines Corporation Dynamic faceted search on a document corpus
US11176320B2 (en) * 2019-10-22 2021-11-16 International Business Machines Corporation Ascribing ground truth performance to annotation blocks
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11416684B2 (en) * 2020-02-06 2022-08-16 Adobe Inc. Automated identification of concept labels for a set of documents
US11354513B2 (en) 2020-02-06 2022-06-07 Adobe Inc. Automated identification of concept labels for a text fragment
US20230053344A1 (en) * 2020-02-21 2023-02-23 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readablerecording medium
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11573994B2 (en) * 2020-04-14 2023-02-07 International Business Machines Corporation Encoding entity representations for cross-document coreference
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US20220067545A1 (en) * 2020-08-28 2022-03-03 App Annie Inc. Automated taxonomy classification system
US20220261545A1 (en) * 2021-02-18 2022-08-18 Nice Ltd. Systems and methods for producing a semantic representation of a document
WO2023212524A1 (en) * 2022-04-25 2023-11-02 Gyan, Inc. (A Delaware Corporation) An explainable natural language understanding platform

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5953726A (en) * 1997-11-24 1999-09-14 International Business Machines Corporation Method and apparatus for maintaining multiple inheritance concept hierarchies
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
EP1236175A4 (en) * 1999-08-06 2006-07-12 Lexis Nexis SYSTEM AND METHOD FOR CLASSIFYING LEGAL CONCEPTS USING A LEGAL TOPIC SCHEME
US6598043B1 (en) * 1999-10-04 2003-07-22 Jarg Corporation Classification of information sources using graph structures
US8285619B2 (en) * 2001-01-22 2012-10-09 Fred Herz Patents, LLC Stock market prediction using natural language processing

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226523B (zh) * 2007-01-17 2012-09-05 国际商业机器公司 数据概况分析方法和系统
US9183275B2 (en) 2007-01-17 2015-11-10 International Business Machines Corporation Data profiling method and system
CN101630314B (zh) * 2008-07-16 2011-12-07 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN101639857B (zh) * 2009-04-30 2012-12-05 腾讯科技(深圳)有限公司 构建知识问答分享平台的方法、装置及系统
CN102508845B (zh) * 2010-09-14 2015-07-22 微软公司 对概念分层结构进行导航和搜索的界面
CN102508845A (zh) * 2010-09-14 2012-06-20 微软公司 对概念分层结构进行导航和搜索的界面
CN102682042A (zh) * 2011-03-18 2012-09-19 日电(中国)有限公司 概念识别设备和方法
CN102682042B (zh) * 2011-03-18 2014-07-02 日电(中国)有限公司 概念识别设备和方法
CN103548041B (zh) * 2011-06-28 2016-06-29 国际商业机器公司 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
CN103548041A (zh) * 2011-06-28 2014-01-29 国际商业机器公司 用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
CN103034656B (zh) * 2011-09-29 2016-04-20 日立(中国)研究开发有限公司 章节内容分层方法和装置、文章内容分层方法和装置
CN103034656A (zh) * 2011-09-29 2013-04-10 日立(中国)研究开发有限公司 章节内容分层方法和装置、文章内容分层方法和装置
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN105264520A (zh) * 2013-06-04 2016-01-20 瓦欧尼斯系统有限公司 委送一机构的相似数据至一连结装置的方法
CN105264520B (zh) * 2013-06-04 2019-07-16 瓦欧尼斯系统有限公司 委送一机构的相似数据至一连结装置的方法
CN104281570A (zh) * 2013-07-01 2015-01-14 富士通株式会社 信息处理方法和装置以及机构名规范化方法和设备
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN103761264B (zh) * 2013-12-31 2017-01-18 浙江大学 基于商品评论文档集的概念层次创建方法
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN104598613B (zh) * 2015-01-30 2017-11-03 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
TWI701620B (zh) * 2019-03-21 2020-08-11 洽吧智能股份有限公司 文件資訊提取歸檔系統

Also Published As

Publication number Publication date
EP1508105A2 (en) 2005-02-23
WO2003098396A2 (en) 2003-11-27
US7085771B2 (en) 2006-08-01
AU2003241489A1 (en) 2003-12-02
CA2486358A1 (en) 2003-11-27
JP2005526317A (ja) 2005-09-02
US20030217335A1 (en) 2003-11-20
AU2003241489A8 (en) 2003-12-02
EP1508105A4 (en) 2007-11-28
WO2003098396A3 (en) 2004-02-05

Similar Documents

Publication Publication Date Title
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及系统
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
US7945600B1 (en) Techniques for organizing data to support efficient review and analysis
US9589208B2 (en) Retrieval of similar images to a query image
US8171049B2 (en) System and method for information seeking in a multimedia collection
TWI536181B (zh) 在多語文本中的語言識別
US20040002849A1 (en) System and method for automatic retrieval of example sentences based upon weighted editing distance
US8019758B2 (en) Generation of a blended classification model
CN1209725C (zh) 文件编辑处理方法和文件编辑处理设备
CN1942877A (zh) 信息提取系统
CN1536483A (zh) 网络信息抽取及处理的方法及系统
CN101044481A (zh) 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品
CN1577328A (zh) 基于视觉的文档分割
CN1489089A (zh) 文件检索系统和问题回答系统
CN1535433A (zh) 基于分类的可扩展交互式文档检索系统
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1808430A (zh) 智能、图示和自动化互联网和计算机信息的检索和挖掘方法
Sun et al. CWS: a comparative web search system
El-Ghannam et al. Multi-topic multi-document summarizer
Remi et al. Domain ontology driven fuzzy semantic information retrieval
CN1290899A (zh) 使用多个数据操作模块的数据管理系统
Barla et al. From ambiguous words to key-concept extraction
TWI290687B (en) System and method for search information based on classifications of synonymous words
JP4426041B2 (ja) カテゴリ因子による情報検索方法
CN1752966A (zh) 使用本体论和用户查询处理技术解决问题的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication