关于节点类论文范文参考文献,与一种节点加权的相似重复XML数据检测算法相关论文查重

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文是一篇关于节点类论文查重,关于一种节点加权的相似重复XML数据检测算法相关学士学位论文范文。免费优秀的关于节点及计算机应用技术及编辑方面论文范文资料,适合节点论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:XML类型的数据成为当前主流的数据形式,本文提出一种检测XML数据相似性的方法,即将XML文档转换成树结构的基础上,对树结构的节点加权,并结合树编辑距离算法.通过XML带权树各属性权值计算的相似度对数据进行粗略匹配与聚集,而在重新聚集的集合中使用树编辑距离算法更直接的进行相似性检测.由于XML数据集合范围的缩小,树编辑距离算法操作的次数减少,从而节省了一定的时间.

关 键 词:XML数据;节点加权;树编辑距离;相似性

中图分类号:TP391.1

随着网络快速发展,由于结构化的XML类型数据可扩展且跨平台而成为当前网络数据的主流形式.XML文档的迅速增多并集成统一平台后,会产生不被需要的“脏数据”,而对这些数据的清洗变的更加重要.这些“脏数据”使轻则会使获得的信息不准确,重则获得完全错误的信息.为了使XML数据源中的数据能发挥最正确的作用,清洗平台中的“脏数据”成为一个组要解决的问题.

非一致性转换、相似性判定、信息抽取等3方面是当前XML数据清理的主要关注点.如韩恺等人提出的在上下文语义影响下的XML文档的匹配方法[1],Flesca等人将结构化的XML文档与时间序列、脉冲等内容联系起来进行相似性检测[2].以上两篇文章关于XML数据清理方法考虑了不同DTD树间的匹配算法,其中文档内容提到较少,部分方法设计思想很好,但实践可行性有限.

首先,将一个XML文档转化为一棵树或一个图,然后通过度量这两棵树(图)间的距离来体现XML文档间的相似度.在众多树相似度匹配的研究工作中,普遍接收和采用的既是树编辑距离算法[3-6].Tai[3]最早将编辑距离的方法应用到检测两颗树间的相似性.以他的理论为基础,提出的一系列树编辑距离算法及相关的改进算法等.

1相似重复记录

信息集成中,数据清洗和提高数据质量是检测和消除集成数据中的相似重复记录中最需要解决的问题之一.相似重复记录的概念是指虽然在现实世界中表述的是同一个实体,但由于拼写错误或表达方式的不同,而导致数据库管理系统不能将其识别为重复的记录.这些重复记录的产生导致决策者在最终决策时由于依据的信息不正确而产生较大的影响.以此为基础,重复记录检测在信息的抽取、转换、加载的过程中显得更加重要.目前研究的主要方向体现在西文、中文字符集的相似重复记录的检测,已有了一定研究.但对于半结构化的XML数据的重复记录检测算法的研究还有待进一步提高.

XML数据在网络中使用的增多以及在数据库中的使用,使得这种数据类型在数据清理中越来越重要.实际多种XML数据被认为不一致,例如拼写错误等导致字符串属性不一致,从而使得此字符串类型数据不一致.另外,实际相同的XML数据由于结构上不同被认为是不同的数据.即使数据源具有相同的DTD结构,属性个数不同、属性值拼写不同均可导致XML数据不一致.

2树编辑距离

在XML数据的ETL中,主要摒弃其中的“脏数据”,也就是检测出相似记录合并,普遍采用的方式即将XML文档转换成树结构,转换的过程中要将树中的节点与数据元素相对应,即节点名为元素标签名.编辑距离方法分为两种,字符串编辑距离算法用判定两个字符串是否相似,而通过树编辑距离方法时大家更清晰的认识到带标号有序树间差异.以下给出与树编辑距离相关的概念定义.

2.1基本概念

目前对于数据相似性的检测主要采用编辑距离的方式,而此方式又分为两种,字符串编辑距离主要用于字符串领域,树编辑距离主要应用于两棵树或图的差异检测,以下给出具体概念描述.

(1)

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)