属性方面有关论文例文,与海量数据的相似重复记录检测算法相关本科毕业论文范文
本论文是一篇属性方面有关本科毕业论文范文,关于海量数据的相似重复记录检测算法相关开题报告范文。免费优秀的关于属性及数理统计及计算机工程方面论文范文资料,适合属性论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
重复记录集.3实验分析
3.1实验设计
实验环境:IntelI33702.40GHzCPU,物理内存2GB,硬盘空间320GB,操作系统Windows7,数据库软件为Oracle11g,编程语言为Java语言.实验数据来源于镇江市市民信息的采集数据,包括社保的数据、部分试点事业单位的采集数据、财政局的数据等,由于来源广泛、职业的变换导致采集到的数据必然存在大量的重复.度量相似检测算法有效性的三个主要标准包括查全率R(Recall)、查准率P(Precision)和运行时间T(Time).为了检验论文中检测算法的有效性,设计以下实验.
文献[8]提出的等级分组方法是一种比较优秀的相似重复记录识别算法,该算法首先根据等级法确定属性的权重,然后选择关键字对数据集进行聚类,最后在各个小的数据集中检测相似重复记录,为了避免漏查,采用多趟查找技术.该算法设计简单,时间复杂度小,检测精度较高.因此,选择等级分组方法作为本文所采用方法的参照.为了便于处理,等级分组方法称为RGM,本文的算法称为IWM.分别从数据源中提取四组数据,对两种算法进行比较,四组数据量分别为534万、98.1万、126.2万和153.7万,通过软件和人工等方式对上数据分别处理,使之分别包含0.46万、0.85万、1.31万和1.44万条相似重复记录.
有关论文范文主题研究: | 关于属性的论文例文 | 大学生适用: | 学院论文、硕士毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 47 | 写作解决问题: | 怎么写 |
毕业论文开题报告: | 文献综述、论文总结 | 职称论文适用: | 职称评定、中级职称 |
所属大学生专业类别: | 怎么写 | 论文题目推荐度: | 优质选题 |
4结语
针对海量数据下相似重复记录检测问题,本文采取了多种有效策略.首先采用主观因素和客观因素综合考虑的综合加权法计算各属性的权重,然后采用多线程依据各属性对数据集并行排序,使用加速法提前结束记录比对算法;最后合并检测结果集.实验结果表明,该方法是一个合理、有效的相似重复数据检测方法.本文方法仍有许多未解决的问题,例如:记录之间的相似度阈值大小是根据经验设定的.由于它对记录的检测精度有一定的影响,所以将在以后的工作中继续研究阈值的设定问题.
参考文献:
[1]MONGEAE,ELKANCP.Thefieldmatchingproblem:algorithmsandapplications[C]//Proceedingsofthe2ndConferenceonKnowledgeDiscoveryandDataMining.Cambridge:AAAI,1996:267-270.
[2]MINTONSN,NANJOC,KNOBLOCKCA,etal.Aheterogeneousfieldmatchingmethodforrecordlinkage[C]//Proceedingofthe5thIEEEInternationalConferenceonDataMining.Piscataway:IEEE,2005:314-321.
[3]HERNANDEZM,STOLFOS.Themerge/purgeproblemforlargedatabases[C]//Proceedingsofthe1995ACMSIGMODInternationalConferenceonManagementofData.NewYork:ACM,1995:127-138.
[4]BLENKOM,MOONEYR.Adaptivenamematchingininformationintegration[J].IEEEIntelligentSystems,2003,18(5):16-23.
[5]邱越峰,田增平,季文赟,等.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77.
[6]鲁均云,李星毅,施化吉,等.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3),874-878.
[7]孟祥逢,鲁汉榕,郭玲,等.基于遗传神经网络的
属性方面有关论文例文
[8]李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277.
[9]MONGEAE,ELKANC.Anefficientdomainindependentalgorithmfordetectingapproximatelyduplicatedatabaserecords[C]//ProceedingsoftheSIGMOD1997WorkshoponResearchIssuesonDataMiningandKnowledgeDiscovery.Cambridge:AAAI,1997:23-29.
[10]张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52.
属性方面有关论文例文,与海量数据的相似重复记录检测算法相关本科毕业论文范文参考文献资料: