CN100576207C - 基于元数据去除重复对象的方法 - Google Patents

基于元数据去除重复对象的方法 Download PDF

Info

Publication number
CN100576207C
CN100576207C CN 200710106024 CN200710106024A CN100576207C CN 100576207 C CN100576207 C CN 100576207C CN 200710106024 CN200710106024 CN 200710106024 CN 200710106024 A CN200710106024 A CN 200710106024A CN 100576207 C CN100576207 C CN 100576207C
Authority
CN
China
Prior art keywords
metadata
typing
treatment
current
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200710106024
Other languages
English (en)
Other versions
CN101286156A (zh
Inventor
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leade Technology Development Co., Ltd.
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN 200710106024 priority Critical patent/CN100576207C/zh
Publication of CN101286156A publication Critical patent/CN101286156A/zh
Application granted granted Critical
Publication of CN100576207C publication Critical patent/CN100576207C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于元数据去除重复对象的方法,涉及元数据清理领域,解决了现有去除重复数据工作量大的问题,本发明先对待录入的元数据进行规范化处理。在比较时通过缩小比较范围,减少工作量,提高工作效率。在数据集合记录中,选取与待录入元数据的出版社字段相同的记录;在选定的记录中,选取isbn、书名、作者、出版社、出版时间、价格字段,作为比较范围。利用带权重值的相似度比较函数,计算待录入元数据与数据集合中对应字段的属性值之间的相似度值;将各个字段相似度值乘以权重值,相加得到复合相似度值;将复合相似度值与预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据。

Description

基于元数据去除重复对象的方法
技术领域
本发明涉及一种数据清理的方法,尤其涉及一种在数据集合中去除重复对象的方法。
背景技术
在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。
结构化数据类型是一种用户定义的数据类型,它包含一些非原子的元素,更确切地说,这些数据类型是可以分割的,它们既可以单独使用,又可以在适当情况下作为一个独立的单元使用。
在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。
没有好的数据环境,就不会有理想的挖掘结果.但现实世界的数据一般都是脏的、不完整的和不一致的。使用数据预处理将可能创造这个环境。
目前,随着网络的发展,各种各样的元数据数量急剧增长。由于增长的元数据质量参差不齐,各种来源存在大量重复数据,给后续的基于其上的业务带来了不小的麻烦。因为一旦元数据重复处理不好,基于其上的业务逻辑便会产生问题,以致带来损失。比如在图书销售网站,图书书目的重复数据较多,就可能导致用户不知如何下订单。在过去,这类问题通常是由人工判断,但随着数据量的不断增长和积累,由此带来的人力消耗也急剧增加。故如何对大量的元数据进行判重处理成了一个首要的问题。
一直以来,业内对于网络非结构数据判重问题研究较多,各种算法成果也层出不穷,且目前的各类搜索引擎中均有运用。但元数据作为带语义的结构化数据,其判重标准和准确度的要求都更为精确。故现有的对于非结构化数据的判重方案,并不能完全满足元数据判重的要求。另外,通常应用于数据库的精确判重方案更不能适合在元数据这种本身可能存在部分数据错误的环境中。
发明内容
本发明提供一种能够精确判别重复数据,并将重复数据清除的基于元数据去除重复对象的方法。
本发明采用以下技术方案:本发明基于元数据去除重复对象的方法,包括如下步骤:
1)对当前待录入的元数据进行规范化处理,判断其是否为质量较好的待录入元数据;
2)将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;
3)如果有重复记录,在二者之中选取质量好的作为数据集合的记录。
所述当前待录入的元数据至少包括如下字段:国际标准书号、书名、作者、出版社、出版时间、价格字段。
所述国际标准书号由10位数字组成,这10位数字由组号、出版者号、书名号、校验号这四部分组成,其间用“--”相连,出版者号是出版社的代号。
所述“对当前待录入的元数据进行规范化处理”包括如下步骤:
1)判断当前待录入的元数据的国际标准书号是否含有非数字字符;如果有非数字字符,将该非数字字符删除后,保留该当前待录入的元数据;
2)判断当前待录入的元数据的国际标准书号是否由10位数字组成?如果国际标准书号不是10位数字,则分为两种情况处理:国际标准书号少于8位,则丢弃该当前待录入的元数据;国际标准书号超过10位,则将10位以后的数字删除后,保留该当前待录入的元数据;
3)验证当前待录入的元数据的国际标准书号是否正确;
4)如果当前待录入的元数据的国际标准书号正确,再验证当前待录入的元数据的出版社是否正确;
如果当前待录入的元数据的出版社正确,则当前待录入的元数据即为所述“质量较好的待录入元数据”。
所述“验证当前待录入的元数据的国际标准书号是否正确”的方法为:国际标准书号的第1到第9位数字顺序乘以10至2这9个数字,将这些乘积之和再加上校验号,假如能被11整除,则这个国际标准书号是正确的;
所述“验证当前待录入的元数据的出版社是否正确”的方法为:
从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确;
如果出版者号与当前待录入的元数据的出版社存在对应关系,则当前待录入的元数据的出版社是正确的;
如果出版者号与当前待录入的元数据的出版社不存在对应关系,则当前待录入的元数据的出版社是不正确的。
所述“对当前待录入的元数据进行规范化处理”包括:将出版时间、价格规范化为实数。
当数据集合为空时,所述步骤2)、3)具体为:
2)数据集合中没有与待录入元数据重复的记录;
3)将质量较好的待录入元数据存储倒数据集合中。
当数据集合不为空时,所述步骤2)包括:
21)缩小数据集合中,与待录入元数据进行比较的记录的范围;
22)在步骤21)限定的范围内,利用带权重值的相似度比较函数,计算待录入元数据与数据集合中对应字段的属性值之间的相似度值;
23)将各个字段相似度值乘以权重值,相加得到复合相似度值;
24)将复合相似度值与一预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据;如果复合相似度值小于阈值,则数据集合中的当前记录与待录入元数据不是重复数据。
所述步骤21)具体为:
211)在数据集合的记录中,选取与待录入元数据的出版社字段相同的记录,作为比较范围;
212)在选定的记录中,选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。
在步骤22)中所述带权重值的相似度比较函数包括:整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。
本发明对待录入的元数据(脏数据)进行规范化处理,使其没有形式上的明显错误,此时的元数据质量是比较好的。将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;在比较时通过缩小比较范围,减少工作量,提高工作效率。在数据集合的成千上万条记录中,选取与待录入元数据的出版社字段相同的记录,作为比较范围;在选定的记录中,选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。利用相似度比较函数计算数据集合中的记录与待录入元数据的相似度值,利用权重值训练函数计算字段权重值;将各个字段相似度值乘以权重值,相加得到复合相似度值;将复合相似度值与一预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据;如果复合相似度值小于阈值,则数据集合中的当前记录与待录入元数据不是重复数据。
附图说明
图1为本发明基于元数据去除重复对象的方法的流程图;
图2为本发明中将质量较好的待录入元数据与数据集合中每一条记录进行比较判断的流程图。
具体实施方式
针对现有元数据清理领域,去除脏数据工作量大的问题,本发明提供了基于元数据去除重复对象的方法,参照附图1,其包括如下步骤:
1)对当前待录入的元数据进行规范化处理,判断其是否为质量较好的待录入元数据;
2)将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;
3)如果有重复记录,在二者之中选取质量好的作为数据集合的记录。
网上一本书的信息包括了大量的元数据,这些元数据大都是一些脏数据,即质量不好的数据。举例来说:书名:三国演义;国际标准书号为:ISBN7-305-01568-7;出版者号:305;出版社:百花出版社;出版时间:1988年6月9日;语种,中文;出版地:南京;作者:罗贯中;责任编辑:曹雪芹;当前售价:109、90元;版次:1996年9月第1版,1988年5月第三次印刷......等。以上元数据中,冒号前的部分为字段,冒号后的部分为属性值。以上信息在数据集合中组成了一条记录。在该记录中,属性值都是正确的,称为质量好的数据。现实中元数据记录中的属性值经常是错误的,还以所述三国演义的记录为例:书名:三国演义;国际标准书号为:ISBN8-305-01548-7;出版者号:306;出版社:花百出版社;出版时间:1988年2月30日;语种,中文;出版地:南京;作者:罗贯中;责任编辑:曹雪琴;当前售价:109、908元;版次:1996年9月第1版,1988年5月第三次印刷......等。在该记录中,字段国际标准书号、出版者号、出版社、出版时间、责任编辑、当前售价等的属性值均出现了错误。称为脏数据或质量不好的数据。
数据集合中应该录入质量好的元数据,清除质量不好的元数据。目前在录入元数据时,总是通过人工,来判断待录入元数据的质量好坏。这样工作效率低、而且标准不统一。
一、对于质量不好的元数据,在录入前首先要进行规范化处理:
1)对国际标准书号进行规范化处理:
所有正规出版的普通图书版权页都有ISBN号,ISBN是international standard of book number几个英文字母的缩写,即国际标准书号。它由10位数字组成,这10位数字由组号、出版者号、书名号、校验号这四部分组成,其间用“--”相连,如:ISBN7-305-01568-7,组号是代表一个国家或地区语种的编号,中国的编号为7。出版者号是出版社的代号,由国家或地区的ISBN中心设置和分配,可取1-7位数字。书名号是由出版者给予每种出版物的编号。校验号是ISBN号的最后一位数值,它能够校验出ISBN号是否正确。将ISBN1-9位数字顺序乘以10-2这9个数字,将这些乘积之和再加上校验号,假如能被11整除,则这个ISBN号是正确的。
下面两个步骤1、2验证了国际标准书号形式上的正确性。每个国际标准书号都必须符合这些形式上的要求,才能再验证国际标准书号的本身的正确性:
1、判断当前待录入的元数据的国际标准书号是否含有非数字字符;如果有非数字字符,将该非数字字符删除后,保留该当前待录入的元数据;
2、判断当前待录入的元数据的国际标准书号是否10位数字组成?如果国际标准书号不是10位数字,则分为两种情况处理:国际标准书号少于8位,则丢弃该当前待录入的元数据;国际标准书号超过10位,则将10位以后的数字删除后,保留该当前待录入的元数据;
3、国际标准书号的第1到第9位数字顺序乘以10至2这9个数字,将这些乘积之和再加上校验号,假如能被11整除,则这个国际标准书号是正确的。还以所述三国演义的记录为例。国际标准书号为:ISBN7-305-01568-7,算式为7*10+3*9+0*8+5*7+0*6+1*5+5*4+6*3+8*2+7=198,198/11=18,能被11整除。则该国际标准书号是正确的。国际标准书号为:ISBN8-305-01548-7;算式为8*10+3*9+0*8+5*7+0*6+1*5+5*4+4*3+8*2+7=204 204/11=18余6,不能被11整除。则该国际标准书号是不正确的。
2)对出版社进行规范化处理
1、判断当前待录入的元数据的国际标准书号是否是字符串型式;如果有其他型式字符,将其删除后,保留该当前待录入的元数据;
2、从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确;
如果出版者号与当前待录入的元数据的出版社存在对应关系,则当前待录入的元数据的出版社是正确的;
如果出版者号与当前待录入的元数据的出版社不存在对应关系,则当前待录入的元数据的出版社是不正确的。
出版者号是出版社的代号,由国家或地区的ISBN中心设置和分配,可取1-7位数字。例如国际标准书号为:ISBN7-305-01568-7从中提取出出版者号:305;然后查出对应的出版社是百花出版社。如果待录入元数据是百花出版社;则当前待录入的元数据的出版社是正确的。
3)对书名、作者规范化为字符串,如果他们中间出现数字或其他型式的字符。应将其去掉后,保留该元数据。例如,待录入元数据作者:罗9贯中或作者:罗佐、中,规范化时将9和、删除,保留作者:罗贯中或作者:罗佐中进行以后的处理。
4)将出版时间、价格规范化为实数。如果他们中间出现汉字或其他型式的字符。应将其去掉后,保留该元数据。例如,待录入元数据出版时间:1988-6f-9或198水8-6-9,规范化时将f和水去掉后,保留出版时间:1988-6-9进行以后的处理。
5)将责任编辑、当前售价、版次、简介、分类、主题词......等进行规范化处理。
经过规范化后的脏数据,已经没有形式上的明显错误,此时的元数据质量是比较好的。
二、将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录。
根据数据集合中记录的多少分为两种情况进行讨论:1)数据集合为空时;和2)当数据集合不为空时;
1)数据集合为空时,将待录入的元数据直接录入到数据集合中;
2)当数据集合不为空,说明数据集合中有若干记录;参照附图2,分为如下步骤进行录入:
a)缩小数据集合中,与待录入元数据进行比较的记录的范围;
数据集合中古往今来的各种书的信息的记录有成千上万条,当有一条待录入元数据要录入到数据集合中,需要在数据集合成千上万条记录中查找是否有与其重复的记录;为了减少工作量,提高工作效率。需要缩小数据集合中,与待录入元数据进行比较的记录的范围;具体措施:
a1、在数据集合的记录中,选取与待录入元数据的出版社字段相同的记录,作为比较范围;
数据集合成千上万条记录中有很多都是同一出版社出版的。在比较时将与待录入元数据的出版社字段相同的记录提取出来,作为比较的范围。
例如将三国演义的元数据入录到数据集合中,其出版社是百花出版社。在数据集合中提取出字段的属性值为百花出版社的记录,作为比较的范围。
a2、在选定的记录中,选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。
为了减少工作量,提高工作效率。在已选定的具有相同出版社的范围内进一步缩小比较的范围。选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。
b)在步骤a)限定的范围内,利用带权重值的相似度比较函数:f(r1,r2)=f′(r′1,r′2)-α(1-f′(r″1,r″2)),f′∈[0,1]计算待录入元数据与数据集合中对应字段的属性值之间的相似度值,其中f′为现有技术中的相似度比较函数,r1,r2为待录入元数据与数据集合中对应字段(国际标准书号、书名、作者、出版社、出版时间、价格字段)的属性值,r′1,r′2为属性值去除忽略词后的部分,r″1,r″2为属性值中仅保留权重词部分,α为权重值,为通过训练算法训练所得,在不存在权重词的情况下,f(r1,rx)=f′(r′1,r′2)。举例来说:对于出版社字段:在属性值清华大学出版社与北京大学出版社中,大学出版社这些词对出版社这个字段的比较没有太大意义,可以看作忽略词。比较时,只比较清华与北京,即为r′1,r′2。对于书名字段中属性值:三国演义(上下),上下就是权重词,即为r″1,r″2
所述相似度比较函数包括:整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。
isbn字段的比较函数,若isbn相等则为1,否则为0;
书名字段比较函数,为切分所得词的字符串相似度值
作者字段比较函数,为切分所得词的字符串相似度值;
出版时间比较函数,采用相对差函数得到相似度值;
价格比较函数,采用相对差函数得到相似度值;
c)利用复合相似度函数 F ( R 1 , R 2 ) = α 0 + Σ i = 1 n α i f i ( R 1 , R 2 ) , 其中α0为阈值,αi为权重,R1,R2为元数据,fi(R1,R2)为R1和R2字段i的带权重值的相似度比较函数,计算得到待录入元数据的复合相似度值;
d)将复合相似度值与一预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据;如果复合相似度值小于阈值,则数据集合中的当前记录与待录入元数据不是重复数据。
本发明对待录入的元数据(脏数据)进行规范化处理,使其没有形式上的明显错误,此时的元数据质量是比较好的。将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;在比较时通过缩小比较范围,减少工作量,提高工作效率。在数据集合的成千上万条记录中,选取与待录入元数据的出版社字段相同的记录,作为比较范围;在选定的记录中,选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。利用相似度比较函数计算数据集合中的记录与待录入元数据的相似度值,利用权重值训练函数计算字段权重值;将各个字段相似度值乘以权重值,相加得到复合相似度值;将复合相似度值与一预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据;如果复合相似度值小于阈值,则数据集合中的当前记录与待录入元数据不是重复数据。

Claims (8)

1、一种基于元数据去除重复对象的方法,其特征在于包括如下步骤:
1)对当前待录入的元数据进行规范化处理,判断其是否为质量较好的待录入元数据,所述质量较好的待录入元数据为没有形式错误的待录入元数据;
当数据集合不为空时,
2)将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;
3)如果有重复记录,在二者之中选取质量好的作为数据集合的记录;
该步骤2)进一步包括下列步骤:
21)缩小数据集合中,与待录入元数据进行比较的记录的范围;
22)在步骤21)限定的范围内,利用带权重值的相似度比较函数,计算待录入元数据与数据集合中对应字段的属性值之间的相似度值;
23)将各个字段相似度值乘以权重值,相加得到复合相似度值;
24)将复合相似度值与一预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据;如果复合相似度值小于阈值,则数据集合中的当前记录与待录入元数据不是重复数据。
2、根据权利要求1所述的基于元数据去除重复对象的方法,其特征在于,所述当前待录入的元数据至少包括如下字段:国际标准书号、书名、作者、出版社、出版时间、价格字段。
3、根据权利要求2所述的基于元数据去除重复对象的方法,其特征在于,所述国际标准书号由10位数字组成,这10位数字由组号、出版者号、书名号、校验号这四部分组成,其间用“-”相连,出版者号是出版社的代号。
4、根据权利要求1所述的基于元数据去除重复对象的方法,其特征在于,所述“对当前待录入的元数据进行规范化处理”包括如下步骤:
1)判断当前待录入的元数据的国际标准书号是否含有非数字字符;如果有非数字字符,将该非数字字符删除后,保留该当前待录入的元数据;
2)判断当前待录入的元数据的国际标准书号是否由10位数字组成,如果国际标准书号不是10位数字,则分为两种情况处理:国际标准书号少于8位,则丢弃该当前待录入的元数据;国际标准书号超过10位,则将10位以后的数字删除后,保留该当前待录入的元数据;
3)验证当前待录入的元数据的国际标准书号是否正确;
4)如果当前待录入的元数据的国际标准书号正确,再验证当前待录入的元数据的出版社是否正确;
如果当前待录入的元数据的出版社正确,则当前待录入的元数据即为所述“质量较好的待录入元数据”。
5、根据权利要求4所述的基于元数据去除重复对象的方法,其特征在于,所述“验证当前待录入的元数据的国际标准书号是否正确”的方法为:国际标准书号的第1到第9位数字顺序乘以10至2这9个数字,将这些乘积之和再加上校验号,假如能被11整除,则这个国际标准书号是正确的;
所述“验证当前待录入的元数据的出版社是否正确”的方法为:
从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确;
如果出版者号与当前待录入的元数据的出版社存在对应关系,则当前待录入的元数据的出版社是正确的;
如果出版者号与当前待录入的元数据的出版社不存在对应关系,则当前待录入的元数据的出版社是不正确的。
6、根据权利要求4所述的基于元数据去除重复对象的方法,其特征在于,所述“对当前待录入的元数据进行规范化处理”包括:将出版时间、价格规范化为实数。
7、根据权利要求1所述的基于元数据去除重复对象的方法,其特征在于,所述步骤21)具体为:
211)在数据集合的记录中,选取与待录入元数据的出版社字段相同的记录,作为比较范围;
212)在选定的记录中,选取国际标准书号、书名、作者、出版社、出版时间、价格字段,作为比较范围。
8、根据权利要求1所述的基于元数据去除重复对象的方法,其特征在于,在步骤22)中所述带权重值的相似度比较函数包括:整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。
CN 200710106024 2007-05-29 2007-05-29 基于元数据去除重复对象的方法 Active CN100576207C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710106024 CN100576207C (zh) 2007-05-29 2007-05-29 基于元数据去除重复对象的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710106024 CN100576207C (zh) 2007-05-29 2007-05-29 基于元数据去除重复对象的方法

Publications (2)

Publication Number Publication Date
CN101286156A CN101286156A (zh) 2008-10-15
CN100576207C true CN100576207C (zh) 2009-12-30

Family

ID=40058367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710106024 Active CN100576207C (zh) 2007-05-29 2007-05-29 基于元数据去除重复对象的方法

Country Status (1)

Country Link
CN (1) CN100576207C (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236635A (zh) * 2010-04-22 2011-11-09 上海百果信息科技有限公司 一种通过捕捉比对关键元素实现多系统信息关联的方法
CN102609418B (zh) * 2011-01-21 2015-02-04 北京世纪读秀技术有限公司 数据质量级别判断方法
CN102609419B (zh) * 2011-01-21 2015-02-18 北京世纪读秀技术有限公司 相似数据排重方法
US9223511B2 (en) 2011-04-08 2015-12-29 Micron Technology, Inc. Data deduplication
CN102325347A (zh) * 2011-09-14 2012-01-18 中兴通讯股份有限公司 一种lte系统中的传输流模板匹配方法及装置
US9489133B2 (en) * 2011-11-30 2016-11-08 International Business Machines Corporation Optimizing migration/copy of de-duplicated data
CN103166917B (zh) * 2011-12-12 2016-02-10 阿里巴巴集团控股有限公司 网络设备身份识别方法及系统
CN103257961B (zh) * 2012-02-15 2016-08-10 北大方正集团有限公司 书目消重的方法、装置及系统
CN103425711B (zh) * 2012-05-25 2017-08-25 株式会社理光 基于多对象实例的对象值对齐方法
CN103729369B (zh) * 2012-10-15 2017-06-13 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
US20150032609A1 (en) * 2013-07-29 2015-01-29 International Business Machines Corporation Correlation of data sets using determined data types
CN103473654A (zh) * 2013-09-23 2013-12-25 国家电网公司 一种用于电力erp系统的资产数据清理辅助方法及系统
CN104899408A (zh) * 2014-03-05 2015-09-09 孙宝文 有趣项集获取方法和装置
CN105205107A (zh) * 2015-08-27 2015-12-30 湖南人文科技学院 一种物联网数据相似度处理方法
CN106528705A (zh) * 2016-10-26 2017-03-22 桂林电子科技大学 一种基于rbf神经网络的重复记录检测方法和系统
CN108153793A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种原始数据处理方法
CN106649650B (zh) * 2016-12-10 2020-08-18 宁波财经学院 一种需求信息双向匹配方法
CN107203686B (zh) * 2017-03-31 2021-04-20 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN107870991A (zh) * 2017-10-27 2018-04-03 湖南纬度信息科技有限公司 一种论文元数据的相似度计算方法和计算机可读存储介质
CN109034199B (zh) * 2018-06-25 2022-02-01 泰康保险集团股份有限公司 数据处理方法及装置、存储介质和电子设备
CN109446190B (zh) * 2018-11-07 2022-11-01 湖北省标准化与质量研究院 一种标准元数据的数据处理方法
CN110941598A (zh) * 2019-12-02 2020-03-31 北京锐安科技有限公司 一种数据去重方法、装置、终端及存储介质
CN111158666B (zh) * 2019-12-27 2023-07-04 北京百度网讯科技有限公司 实体归一化处理方法、装置、设备及存储介质
CN112069510B (zh) * 2020-07-24 2024-01-30 北京思特奇信息技术股份有限公司 一种数据加密排重方法
CN115829143A (zh) * 2022-12-15 2023-03-21 广东慧航天唯科技有限公司 一种基于时空数据清洗技术的水环境治理预测系统及其方法

Also Published As

Publication number Publication date
CN101286156A (zh) 2008-10-15

Similar Documents

Publication Publication Date Title
CN100576207C (zh) 基于元数据去除重复对象的方法
CN100437582C (zh) 图像内容语义标注方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN101770446B (zh) 一种版式文件中表格识别方法及系统
CN102681994B (zh) 一种网页信息抽取方法及系统
CN106066866A (zh) 一种英文文献关键短语自动抽取方法与系统
CN104756100A (zh) 意图估计装置以及意图估计方法
CN111127068B (zh) 一种工程量清单自动组价方法和装置
CN112364172A (zh) 一种政务公文领域知识图谱构建方法
CN104765729A (zh) 一种跨平台微博社区账户匹配方法
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN105550253A (zh) 一种类型关系的获取方法及装置
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN109213998A (zh) 中文错字检测方法及系统
CN101887415A (zh) 一种文本文档主题词义的自动提取方法
CN1320481C (zh) 一种对报纸版面进行标题与正文逻辑关联的方法
CN109190099B (zh) 句模提取方法及装置
CN105243053A (zh) 提取文档关键句的方法及装置
CN100562872C (zh) 针对结构化网页的自动模板信息定位方法
CN111898351B (zh) 基于Aviator的Excel数据自动导入方法、装置、终端设备及存储介质
Berntsen et al. Sustainability in software engineering-a systematic mapping
CN111143457A (zh) 一种基于多种来源数据集的学者同名排歧方法
CN101246473B (zh) 一种分词系统的评测方法和一种分词评测系统
CN112883004B (zh) 一种基于日志聚合的日志知识库与健康度获取方法及系统
CN103870590A (zh) 具有报错特征的网页识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: LIDE TECHNOLOGY DEVELOPMENT CO., LTD.

Free format text: FORMER OWNER: PEKING UNIVERSITY FOUNDER GROUP CORP.

Effective date: 20120823

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100871 HAIDIAN, BEIJING TO: 409000 QIANJIANG, CHONGQING

TR01 Transfer of patent right

Effective date of registration: 20120823

Address after: 409000 Zhengyang Industrial Park, Chongqing

Patentee after: Leade Technology Development Co., Ltd.

Patentee after: Beijing Founder Apabi Technology Co., Ltd.

Address before: 100871 Beijing, Haidian District into the house road, founder of the building on the 5 floor, No. 298

Patentee before: Peking Founder Group Co., Ltd.

Patentee before: Beijing Founder Apabi Technology Co., Ltd.