CN100576207C

CN100576207C - 基于元数据去除重复对象的方法

Info

Publication number: CN100576207C
Application number: CN 200710106024
Authority: CN
Inventors: 高飞
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: Leade Technology Development Co., Ltd.; Beijing Founder Apabi Technology Co Ltd
Priority date: 2007-05-29
Filing date: 2007-05-29
Publication date: 2009-12-30
Anticipated expiration: 2027-05-29
Also published as: CN101286156A

Abstract

本发明公开了一种基于元数据去除重复对象的方法，涉及元数据清理领域，解决了现有去除重复数据工作量大的问题，本发明先对待录入的元数据进行规范化处理。在比较时通过缩小比较范围，减少工作量，提高工作效率。在数据集合记录中，选取与待录入元数据的出版社字段相同的记录；在选定的记录中，选取isbn、书名、作者、出版社、出版时间、价格字段，作为比较范围。利用带权重值的相似度比较函数，计算待录入元数据与数据集合中对应字段的属性值之间的相似度值；将各个字段相似度值乘以权重值，相加得到复合相似度值；将复合相似度值与预设阈值进行比较；如果复合相似度值不小于阈值，则数据集合中的当前记录与待录入元数据为重复数据。

Description

基于元数据去除重复对象的方法

技术领域

本发明涉及一种数据清理的方法，尤其涉及一种在数据集合中去除重复对象的方法。

背景技术

在信息社会，信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号；而另一类信息无法用数字或统一的结构表示，如文本、图像、声音、网页等，我们称之为非结构化数据。结构化数据属于非结构化数据，是非结构化数据的特例。

结构化数据类型是一种用户定义的数据类型，它包含一些非原子的元素，更确切地说，这些数据类型是可以分割的，它们既可以单独使用，又可以在适当情况下作为一个独立的单元使用。

在图书馆与信息界，元数据被定义为：提供关于信息资源或数据的一种结构化的数据，是对信息资源的结构化的描述。其作用为：描述信息资源或数据本身的特征和属性，规定数字化信息的组织，具有定位、发现、证明、评估，选择等功能。

没有好的数据环境，就不会有理想的挖掘结果.但现实世界的数据一般都是脏的、不完整的和不一致的。使用数据预处理将可能创造这个环境。

目前，随着网络的发展，各种各样的元数据数量急剧增长。由于增长的元数据质量参差不齐，各种来源存在大量重复数据，给后续的基于其上的业务带来了不小的麻烦。因为一旦元数据重复处理不好，基于其上的业务逻辑便会产生问题，以致带来损失。比如在图书销售网站，图书书目的重复数据较多，就可能导致用户不知如何下订单。在过去，这类问题通常是由人工判断，但随着数据量的不断增长和积累，由此带来的人力消耗也急剧增加。故如何对大量的元数据进行判重处理成了一个首要的问题。

一直以来，业内对于网络非结构数据判重问题研究较多，各种算法成果也层出不穷，且目前的各类搜索引擎中均有运用。但元数据作为带语义的结构化数据，其判重标准和准确度的要求都更为精确。故现有的对于非结构化数据的判重方案，并不能完全满足元数据判重的要求。另外，通常应用于数据库的精确判重方案更不能适合在元数据这种本身可能存在部分数据错误的环境中。

发明内容

本发明提供一种能够精确判别重复数据，并将重复数据清除的基于元数据去除重复对象的方法。

本发明采用以下技术方案：本发明基于元数据去除重复对象的方法，包括如下步骤：

1)对当前待录入的元数据进行规范化处理，判断其是否为质量较好的待录入元数据；

2)将质量较好的待录入元数据与数据集合中每一条记录进行比较，判断数据集合中是否有与待录入元数据重复的记录；

3)如果有重复记录，在二者之中选取质量好的作为数据集合的记录。

所述当前待录入的元数据至少包括如下字段：国际标准书号、书名、作者、出版社、出版时间、价格字段。

所述国际标准书号由10位数字组成，这10位数字由组号、出版者号、书名号、校验号这四部分组成，其间用“--”相连，出版者号是出版社的代号。

所述“对当前待录入的元数据进行规范化处理”包括如下步骤：

1)判断当前待录入的元数据的国际标准书号是否含有非数字字符；如果有非数字字符，将该非数字字符删除后，保留该当前待录入的元数据；

2)判断当前待录入的元数据的国际标准书号是否由10位数字组成？如果国际标准书号不是10位数字，则分为两种情况处理：国际标准书号少于8位，则丢弃该当前待录入的元数据；国际标准书号超过10位，则将10位以后的数字删除后，保留该当前待录入的元数据；

3)验证当前待录入的元数据的国际标准书号是否正确；

4)如果当前待录入的元数据的国际标准书号正确，再验证当前待录入的元数据的出版社是否正确；

如果当前待录入的元数据的出版社正确，则当前待录入的元数据即为所述“质量较好的待录入元数据”。

所述“验证当前待录入的元数据的国际标准书号是否正确”的方法为：国际标准书号的第1到第9位数字顺序乘以10至2这9个数字，将这些乘积之和再加上校验号，假如能被11整除，则这个国际标准书号是正确的；

所述“验证当前待录入的元数据的出版社是否正确”的方法为：

从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确；

如果出版者号与当前待录入的元数据的出版社存在对应关系，则当前待录入的元数据的出版社是正确的；

如果出版者号与当前待录入的元数据的出版社不存在对应关系，则当前待录入的元数据的出版社是不正确的。

所述“对当前待录入的元数据进行规范化处理”包括：将出版时间、价格规范化为实数。

当数据集合为空时，所述步骤2)、3)具体为：

2)数据集合中没有与待录入元数据重复的记录；

3)将质量较好的待录入元数据存储倒数据集合中。

当数据集合不为空时，所述步骤2)包括：

21)缩小数据集合中，与待录入元数据进行比较的记录的范围；

22)在步骤21)限定的范围内，利用带权重值的相似度比较函数，计算待录入元数据与数据集合中对应字段的属性值之间的相似度值；

23)将各个字段相似度值乘以权重值，相加得到复合相似度值；

24)将复合相似度值与一预设阈值进行比较；如果复合相似度值不小于阈值，则数据集合中的当前记录与待录入元数据为重复数据；如果复合相似度值小于阈值，则数据集合中的当前记录与待录入元数据不是重复数据。

所述步骤21)具体为：

211)在数据集合的记录中，选取与待录入元数据的出版社字段相同的记录，作为比较范围；

212)在选定的记录中，选取国际标准书号、书名、作者、出版社、出版时间、价格字段，作为比较范围。

在步骤22)中所述带权重值的相似度比较函数包括：整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。

本发明对待录入的元数据(脏数据)进行规范化处理，使其没有形式上的明显错误，此时的元数据质量是比较好的。将质量较好的待录入元数据与数据集合中每一条记录进行比较，判断数据集合中是否有与待录入元数据重复的记录；在比较时通过缩小比较范围，减少工作量，提高工作效率。在数据集合的成千上万条记录中，选取与待录入元数据的出版社字段相同的记录，作为比较范围；在选定的记录中，选取国际标准书号、书名、作者、出版社、出版时间、价格字段，作为比较范围。利用相似度比较函数计算数据集合中的记录与待录入元数据的相似度值，利用权重值训练函数计算字段权重值；将各个字段相似度值乘以权重值，相加得到复合相似度值；将复合相似度值与一预设阈值进行比较；如果复合相似度值不小于阈值，则数据集合中的当前记录与待录入元数据为重复数据；如果复合相似度值小于阈值，则数据集合中的当前记录与待录入元数据不是重复数据。

附图说明

图1为本发明基于元数据去除重复对象的方法的流程图；

图2为本发明中将质量较好的待录入元数据与数据集合中每一条记录进行比较判断的流程图。

具体实施方式

针对现有元数据清理领域，去除脏数据工作量大的问题，本发明提供了基于元数据去除重复对象的方法，参照附图1，其包括如下步骤：

网上一本书的信息包括了大量的元数据，这些元数据大都是一些脏数据，即质量不好的数据。举例来说：书名：三国演义；国际标准书号为：ISBN7-305-01568-7；出版者号：305；出版社：百花出版社；出版时间：1988年6月9日；语种，中文；出版地：南京；作者：罗贯中；责任编辑：曹雪芹；当前售价：109、90元；版次：1996年9月第1版，1988年5月第三次印刷......等。以上元数据中，冒号前的部分为字段，冒号后的部分为属性值。以上信息在数据集合中组成了一条记录。在该记录中，属性值都是正确的，称为质量好的数据。现实中元数据记录中的属性值经常是错误的，还以所述三国演义的记录为例：书名：三国演义；国际标准书号为：ISBN8-305-01548-7；出版者号：306；出版社：花百出版社；出版时间：1988年2月30日；语种，中文；出版地：南京；作者：罗贯中；责任编辑：曹雪琴；当前售价：109、908元；版次：1996年9月第1版，1988年5月第三次印刷......等。在该记录中，字段国际标准书号、出版者号、出版社、出版时间、责任编辑、当前售价等的属性值均出现了错误。称为脏数据或质量不好的数据。

数据集合中应该录入质量好的元数据，清除质量不好的元数据。目前在录入元数据时，总是通过人工，来判断待录入元数据的质量好坏。这样工作效率低、而且标准不统一。

一、对于质量不好的元数据，在录入前首先要进行规范化处理：

1)对国际标准书号进行规范化处理：

所有正规出版的普通图书版权页都有ISBN号，ISBN是international standard of book number几个英文字母的缩写，即国际标准书号。它由10位数字组成，这10位数字由组号、出版者号、书名号、校验号这四部分组成，其间用“--”相连，如：ISBN7-305-01568-7，组号是代表一个国家或地区语种的编号，中国的编号为7。出版者号是出版社的代号，由国家或地区的ISBN中心设置和分配，可取1-7位数字。书名号是由出版者给予每种出版物的编号。校验号是ISBN号的最后一位数值，它能够校验出ISBN号是否正确。将ISBN1-9位数字顺序乘以10-2这9个数字，将这些乘积之和再加上校验号，假如能被11整除，则这个ISBN号是正确的。

下面两个步骤1、2验证了国际标准书号形式上的正确性。每个国际标准书号都必须符合这些形式上的要求，才能再验证国际标准书号的本身的正确性：

1、判断当前待录入的元数据的国际标准书号是否含有非数字字符；如果有非数字字符，将该非数字字符删除后，保留该当前待录入的元数据；

2、判断当前待录入的元数据的国际标准书号是否10位数字组成？如果国际标准书号不是10位数字，则分为两种情况处理：国际标准书号少于8位，则丢弃该当前待录入的元数据；国际标准书号超过10位，则将10位以后的数字删除后，保留该当前待录入的元数据；

3、国际标准书号的第1到第9位数字顺序乘以10至2这9个数字，将这些乘积之和再加上校验号，假如能被11整除，则这个国际标准书号是正确的。还以所述三国演义的记录为例。国际标准书号为：ISBN7-305-01568-7，算式为7*10+3*9+0*8+5*7+0*6+1*5+5*4+6*3+8*2+7＝198，198/11＝18，能被11整除。则该国际标准书号是正确的。国际标准书号为：ISBN8-305-01548-7；算式为8*10+3*9+0*8+5*7+0*6+1*5+5*4+4*3+8*2+7＝204 204/11＝18余6，不能被11整除。则该国际标准书号是不正确的。

2)对出版社进行规范化处理

1、判断当前待录入的元数据的国际标准书号是否是字符串型式；如果有其他型式字符，将其删除后，保留该当前待录入的元数据；

2、从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确；

出版者号是出版社的代号，由国家或地区的ISBN中心设置和分配，可取1-7位数字。例如国际标准书号为：ISBN7-305-01568-7从中提取出出版者号：305；然后查出对应的出版社是百花出版社。如果待录入元数据是百花出版社；则当前待录入的元数据的出版社是正确的。

3)对书名、作者规范化为字符串，如果他们中间出现数字或其他型式的字符。应将其去掉后，保留该元数据。例如，待录入元数据作者：罗9贯中或作者：罗佐、中，规范化时将9和、删除，保留作者：罗贯中或作者：罗佐中进行以后的处理。

4)将出版时间、价格规范化为实数。如果他们中间出现汉字或其他型式的字符。应将其去掉后，保留该元数据。例如，待录入元数据出版时间：1988-6f-9或198水8-6-9，规范化时将f和水去掉后，保留出版时间：1988-6-9进行以后的处理。

5)将责任编辑、当前售价、版次、简介、分类、主题词......等进行规范化处理。

经过规范化后的脏数据，已经没有形式上的明显错误，此时的元数据质量是比较好的。

二、将质量较好的待录入元数据与数据集合中每一条记录进行比较，判断数据集合中是否有与待录入元数据重复的记录。

根据数据集合中记录的多少分为两种情况进行讨论：1)数据集合为空时；和2)当数据集合不为空时；

1)数据集合为空时，将待录入的元数据直接录入到数据集合中；

2)当数据集合不为空，说明数据集合中有若干记录；参照附图2，分为如下步骤进行录入：

a)缩小数据集合中，与待录入元数据进行比较的记录的范围；

数据集合中古往今来的各种书的信息的记录有成千上万条，当有一条待录入元数据要录入到数据集合中，需要在数据集合成千上万条记录中查找是否有与其重复的记录；为了减少工作量，提高工作效率。需要缩小数据集合中，与待录入元数据进行比较的记录的范围；具体措施：

a1、在数据集合的记录中，选取与待录入元数据的出版社字段相同的记录，作为比较范围；

数据集合成千上万条记录中有很多都是同一出版社出版的。在比较时将与待录入元数据的出版社字段相同的记录提取出来，作为比较的范围。

例如将三国演义的元数据入录到数据集合中，其出版社是百花出版社。在数据集合中提取出字段的属性值为百花出版社的记录，作为比较的范围。

a2、在选定的记录中，选取国际标准书号、书名、作者、出版社、出版时间、价格字段，作为比较范围。

为了减少工作量，提高工作效率。在已选定的具有相同出版社的范围内进一步缩小比较的范围。选取国际标准书号、书名、作者、出版社、出版时间、价格字段，作为比较范围。

b)在步骤a)限定的范围内，利用带权重值的相似度比较函数：f(r₁，r₂)＝f′(r′₁，r′₂)-α(1-f′(r″₁，r″₂))，f′∈[0，1]计算待录入元数据与数据集合中对应字段的属性值之间的相似度值，其中f′为现有技术中的相似度比较函数，r₁，r₂为待录入元数据与数据集合中对应字段(国际标准书号、书名、作者、出版社、出版时间、价格字段)的属性值，r′₁，r′₂为属性值去除忽略词后的部分，r″₁，r″₂为属性值中仅保留权重词部分，α为权重值，为通过训练算法训练所得，在不存在权重词的情况下，f(r₁，rx)＝f′(r′₁，r′₂)。举例来说：对于出版社字段：在属性值清华大学出版社与北京大学出版社中，大学出版社这些词对出版社这个字段的比较没有太大意义，可以看作忽略词。比较时，只比较清华与北京，即为r′₁，r′₂。对于书名字段中属性值：三国演义(上下)，上下就是权重词，即为r″₁，r″₂。

所述相似度比较函数包括：整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。

isbn字段的比较函数，若isbn相等则为1，否则为0；

书名字段比较函数，为切分所得词的字符串相似度值

作者字段比较函数，为切分所得词的字符串相似度值；

出版时间比较函数，采用相对差函数得到相似度值；

价格比较函数，采用相对差函数得到相似度值；

c)利用复合相似度函数

F (R_{1}, R_{2}) = α_{0} + Σ_{i = 1}^{n} α_{i} f_{i} (R_{1}, R_{2}),

其中α₀为阈值，α_i为权重，R₁，R₂为元数据，f_i(R₁，R₂)为R₁和R₂字段i的带权重值的相似度比较函数，计算得到待录入元数据的复合相似度值；

d)将复合相似度值与一预设阈值进行比较；如果复合相似度值不小于阈值，则数据集合中的当前记录与待录入元数据为重复数据；如果复合相似度值小于阈值，则数据集合中的当前记录与待录入元数据不是重复数据。

Claims

1、一种基于元数据去除重复对象的方法，其特征在于包括如下步骤：

1)对当前待录入的元数据进行规范化处理，判断其是否为质量较好的待录入元数据，所述质量较好的待录入元数据为没有形式错误的待录入元数据；

当数据集合不为空时，

3)如果有重复记录，在二者之中选取质量好的作为数据集合的记录；

该步骤2)进一步包括下列步骤：

2、根据权利要求1所述的基于元数据去除重复对象的方法，其特征在于，所述当前待录入的元数据至少包括如下字段：国际标准书号、书名、作者、出版社、出版时间、价格字段。

3、根据权利要求2所述的基于元数据去除重复对象的方法，其特征在于，所述国际标准书号由10位数字组成，这10位数字由组号、出版者号、书名号、校验号这四部分组成，其间用“-”相连，出版者号是出版社的代号。

4、根据权利要求1所述的基于元数据去除重复对象的方法，其特征在于，所述“对当前待录入的元数据进行规范化处理”包括如下步骤：

2)判断当前待录入的元数据的国际标准书号是否由10位数字组成，如果国际标准书号不是10位数字，则分为两种情况处理：国际标准书号少于8位，则丢弃该当前待录入的元数据；国际标准书号超过10位，则将10位以后的数字删除后，保留该当前待录入的元数据；

3)验证当前待录入的元数据的国际标准书号是否正确；

5、根据权利要求4所述的基于元数据去除重复对象的方法，其特征在于，所述“验证当前待录入的元数据的国际标准书号是否正确”的方法为：国际标准书号的第1到第9位数字顺序乘以10至2这9个数字，将这些乘积之和再加上校验号，假如能被11整除，则这个国际标准书号是正确的；

6、根据权利要求4所述的基于元数据去除重复对象的方法，其特征在于，所述“对当前待录入的元数据进行规范化处理”包括：将出版时间、价格规范化为实数。

7、根据权利要求1所述的基于元数据去除重复对象的方法，其特征在于，所述步骤21)具体为：

8、根据权利要求1所述的基于元数据去除重复对象的方法，其特征在于，在步骤22)中所述带权重值的相似度比较函数包括：整数相似度比较函数、字符串相似度比较函数、实数相似度比较函数。