数据库相关论文范文素材,与Hadoop在海量数据中的应用相关毕业论文范文
本论文是一篇数据库相关毕业论文范文,关于Hadoop在海量数据中的应用相关毕业论文模板范文。免费优秀的关于数据库及数据及日志方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
据进行分析,提取预先设定的关键字并组织<,关键字,1>,为中间键值对,Reduce函数累加计算中间键值对,并输出为<,关键字,N>,格式的键值对,最终得到关键字在日志中的总次数.用于处理日志文件的Mapper和Reducer函数代码如下所示:Mapper程序:
#!/usr/bin/envpython
importsys
forlineinsys.stdin:
words等于line.strip().split()
forwordinwords:
print“%s\t1”%(word.lower())
Reduce程序:
#!/usr/bin/envpython
importsys
(last_key,last_count)等于(None,0)
forlineinsys.stdin:
(key,count)等于line.strip().split(“\t”)
iflast_keyandlast_key!等于key:
print“%s\t%d”%(last_key,last_count)
(last_key,last_count)等于(key,int(count))
else:
last_key等于key
last_count+等于int(count)
iflast_key:
print“%s\t%d”%(last_key,last_count)
4结论
本文首先介绍了广泛用于海量数据分析的Hadoop生态圈,接下来说明了日志文件预处理的模型,并以此为基础实现了基于Hadoop的海量数据分析系统,并给出简单的Map程序和Reduce程序,最后将本文实现的hadoop海量数据分析系统应用于设计的海量日志分析,进行大日志文件的terasort操作.实验结果表明,对海量日志文件进行数据分析时,本文设计的数据分析系统对海量数据的处理性能并不比商业数据分析工具差,另外,其开源特性能够有效降低采购成本,不论是海量数据分析的效率,还是数据查询的速度,都能够为数据的分析和处理提供有力的平台支撑.
参考文献
[1]崔杰,李陶深,兰红星,等.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2013,2(15).
[2]刘源.基于Hadoop的海量数据分析系统设计与实现[D].大连理工大学,2013-12-08.
[3]章伟星.基于Hadoop的海量广告日志分析系统的设计与实现[D].哈尔滨工业大学,2013-06-01.
[4]霍树民.基于Hadoop的海量影像数据管理关键技术研究[D].国防科学技术大学,2010-10-01.
[5]王海飞.基于Hadoop云的数据库营销海量数据处理与挖掘的研究[D].浙江理工大学,2013-03-12.
作者简介
赵盈颖(1982-),女,湖北武汉人,讲师,研究生,研究方向:计算机软件应用.
数据库相关论文范文素材,与Hadoop在海量数据中的应用相关毕业论文范文参考文献资料: