本论文是一篇关于节点方面论文答辩开场白,关于云计算文参考文献教师,云计算文参考文献培训相关学年毕业论文范文。免费优秀的关于节点及计算机应用及算法方面论文范文资料,适合节点论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
基于数据局部性的推测式Hadoop任务调度算法研究
刘奎1,,,
(1.东北大学秦皇岛分校计算机与通信学院,河北省省,2.市)
摘 要:
关 键 词:Hadoop
中图分类号:TP31文献标志码:A文章编号:
AspeculativetaskschedulingalgorithmbasedonlocalityofdatainHadoop
LIUKui1,LIUXiang-dong1,MABao-lai2,WANGCui-rong1
(1.CollegeofComputerandCommunication,NortheasternUniversityatQinHuangdao,QinHuangdaoHebei066004,China,2.CollegeUniversity,Shenyang110000,China)
Abstract:ForthereasonthattheexistingalgorithmonHadoopdoesn'thaveahighlevelofoptimization,thispaperpresentsanoveltaskschedulingalgorithmbasedondatalocalityspeculation.BycalculatingthetimedurationratioofMapandReducetaskoneachnodebinedwiththelocalcharacteristicsoftasksanddataondifferentnodes,thealgorithmintroducesamoreaccuratetaskdetectionmechanism,andthenlaunchesbackuptasksofslowtasksonfastnodes.Forusingputingmigrationinsteadofdatamigration,thealgorithmcanobtainhigherefficiency.ExperimentalresultsinHadoopshowthatparedwiththeexistingschedulingalgorithm,thealgorithmproposedinthispapercanshortenthetaskaverageoperationtimeandreducetheworkcongestioncausedbydataexchangebetweenclusterracks.Italsocanspeedupthetaskexecutionefficiency.
Keywords:Hadoop,jobscheduling,heterogeneousenvironments,localityofdata
0引言
Amazon,Yahoo!等IT公司都推出了自己的云计算服务平台,并把云计算作为未来的重要战略之一[2].云[3].这个项目得到了雅虎公司的大力支持,进而使得Hadoop成为一个更适合并行处理大规模数据的开源分布式计算平台,并且已经在很多大型网站上得到了广泛的应用.Hadoop平台最大的优点就是在并行化技术方面对应用开发者实现了透明处理,开发人员在开发云计算的应用程序时,可以像开发普通程序一样编写代码,而不需要理解那些由Hadoop底层自动实现完成的复杂的并行化技术[4].但是,Hadoop毕竟还是一个比较年轻的平台,在很多技术细节问题还有待进一步改进,特别是在实际使用过程中暴露出的MapReduce调度器的低效性和对异构系统适应能力差的问题,任务调度技术是Hadoop平台的核心技术之一,其主要功能是对任务执行的顺序以及系统的计算资源进行合理的控制与分配.调度技术的优劣直接影响到Hadoop平台的整体执行性能和系统资源利用效率的高低,这一技术在现阶段仍然处于不完善的状态,现有的任务调度算法都存在着一些不足,限制了云计算技术在应用领域的作为.目前常见的调度算法有Hadoop的默认调度算法FIFO,这种算法不考虑作业的优先级或者大小,选取最老的作业先调度.公平调度[5]是Facebook公司贡献的,它会随着时间的推移公平分配资源.Yahoo公司开发了容量调度器[6],保证作业最小资源的同时共享多余的资源.伯克利大学提出的late[7]算法是推测式算法的一种,它会根据作业中任务的进度重新分配资源,运行效率明显优于其它调度算法,但是在数据局部性方面存在缺陷.本文对Hadoop原有的任务调度算法和late调度算法不足基础上,提出一种基于数据局部性的推测式任务调度算法,并与其它算法进行了比较研究.
1相关工作
,任务阶段性地完成,所以进度值比较小的任务被判定为慢任务.上述理想情况下的假设在异构的集群环境中都是不成立的.这使得原有的Hadoop调度算法在探测落后任务并为落后任务启动推测式备份任务的算法中显得不够精确.
Hadoop目前原有的调度算法都是假定了大部分的Map任务都是在本地数据节点中执行,没有考虑Reduce任务是否在本地读取数据执行任务的问题.根据FaceBook使用Hadoop平台的情况统计分析,拥有1至25个Map任务的小工作只有5%的任务能够在存储数据的本地节点上执行(数据局部性),如图1所示.有59%的任务在存储数据的本地机架上执行,如图2所示.因此,需要对传统的Hadoop调度算法在数据局部性上进行优化,来进一步提高算法的性能,提高整个集群资源的利用率.
图1Map任务数与本地节点Map任务数的关系
图2Map任务数与本机架上Map任务数的关系
本文对Hadoop原有的推测式任务调度做出了进一步的改进,结合Yahoo公司提出的保证作业最小资源的同时共享多余的资源的原则,考虑数据局部性和推测式算法的优势,实现了一种基于数据局部性的推测式任务调度算法LOL,通过统计执行任务节点上已经记录的数据,使得调度器能够随时收集到节点中的任务处理的有效信息,从而自主地调整任务调度队列,来提高Hadoop平台的运行效率,尤其适合在异构环境下的集群环境.
2落后任务判定算法
在快节点上为落后任务启动备份任务是减小整个工作响应时间的核心,准确判定真正的落后任务,对于减少任务响应时间至关重要.在异构环境的云计算系统中,任务的完成时间不同,落后任务完成的时间决定整个作业的运行时间,只有减小落后任务的完成时间,才能缩短整个作业完成的总时间.判定落后任务的算法是Hadoop平台的任务调度器能否高效运行的关键所在.
2.1慢任务判定算法的改进
本文将原有Hadoop调度算法中的慢任务进一步细分为Map慢任务和Reduce慢任务,正确地判断出Map慢任务和Reduce慢任务是找到落后任务的前提.
本文将Map任务又细分为两个阶段,两阶段所占Map任务总时间的比例设为MapHisFirst(MHF),MapHisSecond(MHS).对于Reduce任务继续沿用现有的Hadoop调度算法中的设定,分为三个阶段,所占时间比例设为ReduceHisFirst,ReduceHisSecond,ReduceHisThird,分别简记为RHF,RHS,RHT,并满足:
MHF+MHS等于1(1)
RHF+RHS+RHT等于1(2)
在异构环境的Hadoop集群中,由于不同的节点所具备的资源不同,磁盘读写速度,网络传输速率,CPU速度都不尽相同,所以不能保证每个节点执行任务的时间相同.但是在一个节点上的这些资源是基本保持长期不变的,在某一个节点上执行相同类型的任务所需的时间相差无几[8].在本设计中,TaskTracker上的每个任务执行完成后,将该任务执行过程中,各个阶段所耗用的时间比例记录在节点的本地磁盘上.其他任务在执行时从所属的TaskTracker所在的节点的磁盘上读取已经存储的相关的时间比例数据,记录并调整时间比例.
图3获得Map和Reduce任务时间比例算法流程图
在节点的本地磁盘上,利用已经运行过的Map任务和Reduce任务各阶段所占时间比例分别计算出各阶段耗费时间比例的平均值:AvgMapFirst(AMF),AvgMapSecond(AMS),AvgReduc
关于节点方面论文范文参考文献,与云计算文参考文献教师,云计算文参考文献培训相关论文答辩开场白参考文献资料: