当前位置 —论文本科论文— 范文

大学学报有关论文范文检索,与基于Spark的抄袭检测云计算框架相关毕业论文网

本论文是一篇大学学报有关毕业论文网,关于基于Spark的抄袭检测云计算框架相关毕业论文参考文献格式范文。免费优秀的关于大学学报及互联网及框架方面论文范文资料,适合大学学报论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程.采用分布式计算是是提高检测效率的有有效手段之一.本文提出了一套基于Spark的分布式抄袭检测云计算框架,该框架使用由集群资源管理器ApacheMesos,支持内存驻留的MapReduce计算框架,分布式Hadooop文件系统构成的分布式计算集群.测试结果表明,此框架比Hadooop传统分布式计算框架在效率上有较大提升.

关 键 词:抄袭检测;云计算;Spark

中图分类号:TP18

随着互联网的高速发展,包括搜索引擎、文献资源库、翻译软件的大量涌现,使得诸如学术、学位论文、著作、项目申请书、项目结题报告等文本的抄袭剽窃更易于实现,从而,使得快速准确的判定文本的抄袭剽窃变得尤为重要,已成为一个迫切需要解决的问题.

伴随着云计算技术的快速兴起和大数据时代的来临,抄袭检测将数据处理转移到云计算上去是一种必然的趋势.因此,本文抄袭检测采用了云计算框架MapReduce算法思想,把本来由单个主机单独进行的对海量数据检索的过程,变成由若干台主机分别进行的对部分并行进行处理,并在每个主机完成后再统一收回检测结果.相比传统集群,基于MapReduce抄袭检测云计算框架复杂度较低,成本减少,具有良好的可伸缩性.SparkMapReduce是MapReduce模型的实现之一,它提供的框架自动执行了任务的分解、发送、执行、归并、容错工作,免去了二次开发和定制专用的分布式调度系统.此外Spark相比Hadooop框架,它能够提供支持数据内存驻留功能,能够显著提高需要迭代计算或者反复读取数据的计算速度.实验结果表明,基于Spark的抄袭检测云计算框架能显著提高检测速度.

基于Spark的抄袭检测云计算框架参考属性评定
有关论文范文主题研究: 关于大学学报的论文范文数据库 大学生适用: 函授论文、学院论文
相关参考文献下载数量: 21 写作解决问题: 怎么撰写
毕业论文开题报告: 标准论文格式、论文题目 职称论文适用: 核心期刊、高级职称
所属大学生专业类别: 怎么撰写 论文题目推荐度: 免费选题

本篇论文来源:http://www.sxsky.net/benkelunwen/06056398.html

1Spark分布式框架简介

Spark是一个基于内存计算的开源的集群计算系统,虽然Spark与Hadoop有相似之处,但它提供了具有有用差异的一个新的集群计算框架.Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.HadoopMapReduce框架反复从磁盘读取数据,效率低下.Spark旨在解决上述HadoopMapReduce反复读写文件系统从而效率低下的问题.Spark通过构建弹性分布式数据集RDD结构,支持数据内存驻留,RDD是分布在一组节点中的只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.可见,通过引入RDD,MapReduce过程无需将处理结果写回HDFS文件系统,避免多次访问磁盘,大大提高了迭代算法的运行效率.

2基于Spark的抄袭检测框架

本文设计的抄袭检测框架是在Spark分布式系统的基础上,加入了工具组件层,主要内容是一些针对于抄袭检测的自然语言处理工具包,为抄袭检测提供基础技术和工具,在自然语言处理工具包和Spark分布式系统的支持下提供抄袭检测云服务,框架图如下图所示:

图1

框架由以下几个部分组成:

2.1弹性分布式数据集(RDD):RDD是分布在一组节点中į

关于基于Spark的抄袭检测云计算框架的毕业论文参考文献格式范文
大学学报有关论文范文检索
40;只读对象集合.这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建.重建部分数据集的过程依赖于容错机制.

2.2Mesos集群管理器:Spark支持单节点集群或多节点集群.Mesos为分布式应用程序的资源共享和隔离提供了一个有效平台.该设置充许Spark与Hadoop共存于节点的一个共享池中.

2.3Yarn:MapReduce在Hadoop0.23时已经经历了一次大规模更新,新版本的MapReduce2.0被称为YARN,YARN根本上解决旧MapReduce框架的性能瓶颈,YARN是一个真正的Hadoop资源管理器,允许多个应用程序同时、高效地运行在一个的集群上.

2.4MLlib:是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器.MLlib目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法.

2.5工具组件层:工具组件层整合了自然语言大数据采集、处理需要使用的基础技术和工具,包括网络爬虫、中文分词、词性标注、可视化等.

3系统测试

通过部署Spark平台与传统的Hadoop平台进行对比,数据量级为10.6GB,在两个平台上进行同一篇文章的抄袭检测,Spark平台的速度比传统的Hadoop平台提升了10倍左右.实验表明,基于Spark的抄袭检测框架在大数据处理速度上具有明显的优势.

4结束语

本文设计了一个基于Spark框架的抄袭检测计算框架,下一步工作将在引框架基础上研发基于互联网的抄袭检测云服务,充分发挥Spark对于迭代算法数据内存驻留支持的特性,提高检测速度.

参考文献:

[1]JanKasprzakandMichalBrandejs.ImprovingtheReliabilityofthePlagiarismDetectionSystem:LabReportforPANatCLEF2010.InBraschleretal.[2].ISBN978-88-904810-0-0.

[2]JánGrmanandRudolfRavas.ImprovedImplementationforFindingTextSimilaritiesinLargeCollectionsofData:NotebookforPANatCLEF2011.InNotebookPapersofCLEF2011LABsandWorkshops,19-22September,Amsterdam,TheNetherlands,September2011.

[3]许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005(05):411-414.

[4]易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].人工智能与知识工程,2005(01):24,26.

[5]刘群,李素建.基于《知网》的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会论文集,2002:59-76.

[6]李素建.基于语义计算的语句相关度研究[J].计算机工程与应用,2002(07):75-78.

[7]金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007(01):125-130.


怎么写大学学报硕士论文
播放:38227次 评论:5166人

作者单位:黑龙江工程学院网络中心,哈尔滨150050

大学学报有关论文范文检索,与基于Spark的抄袭检测云计算框架相关毕业论文网参考文献资料:

电大本科论文答辩

高中生如何自考本科

本科论文样板

本科毕业数学论文

自考本科考研

本科论文选题

自考本科论文提纲格式

自考本科考研条件

东南大学本科生论文格式

本科自考学校

基于Spark的抄袭检测云计算框架WORD版本 下载地址