本论文是一篇数据库有关论文摘要怎么写,关于大数据环境下基于Hbase的分布式查询优化相关学士学位论文范文。免费优秀的关于数据库及分布式及互联网方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:大数据环境下数据库所存储的数据量呈爆炸式增长,如何保持高吞吐率并让客户得到满意的数据查询和处理结果,已经成为一个急需解决的问题.金融、电信以及互联网等行业要求企业的统计分析平台能支持分布式、高可用性和可扩展性的分布式查询环境,以便能及时高效的完成查询分析任务,做出更合理的业务决策.目前已经有很多公司在一定范围内将应用从关系数据库向Hbase进行迁移,但是大多数都是和HadoopMapReduce或Hive结合使用,导致数据量增加后的分布式查询耗时过长,性能也随之下降.此外Hbase也有其自身的局限性,不能兼容传统数据库上的SQL应用.本文在分析了现有分布式数据库系统平台并深入研究Hbase的实现原理及高级特性的基础上,提出了基于Hbase的可扩展性查询优化方案(HbaseDSPE),即把Hbase的优点和SQL的易用性结合.这样做有助于对复杂SQL查询的优化,可以充分利用Hbase的诸多高级特性进行查询性能调优,对企业在大数据环境下从传统关系数据库向大数据平台的迁移具有现实的指导意义.
这篇论文地址 http://www.sxsky.net/benkelunwen/06062205.html
关 键 词:大数据;分布式查询;Hbase;SQL解析引擎;查询优化
中图分类号:TP311.13
大数据(BigData)是近年来科学研究和商业领域的新的发展方向,运用于大数据的系统可统一管理地理上分布的异构计算或存储数据,组成功能类似于大型数据库服务器但相对松散耦合的资源群体,用来解决海量数据的分布式存储和查询问题.大数据环境下分布式数据处理目前已得到广泛应用,很多世界500强软件公司或科研机构都在从事相关方面的研究与应用.
1大数据环境下的分布式查询
大数据时代的分布式查询已经随处可见,金融、电信及互联网行业对大数据环境下数据库集群的响应速度、可扩展性和查询的整体性能都提出了更高的要求.由于大数据业务的多样化发展,有越来越多的业务系统的需求开始发生了变化,所以如何提高大数据环境下的数据处理及查询的效率,是目前新的研究方向.
1.1研究现状.海量数据的分布式查询技术目前已得到广泛应用,目前主流实现有如下三种方式:(1)传统关系型数据库分布式查询.传统关系型数据库的分布式查询主要存在于网络环境中,由于数据的分布性,关系数据库一次查询所操纵的对象可能分布于不同的网络节点中,由此带来的开销和执行速度就会与Hbase(基于列存储)不一样,并且查询优化的所考虑的因素很复杂,节点间的通信代价和分布式处理成为不可回避的问题[1].此外,传统关系数据库在分布式查询时做了太多的事情,比如事务,B+索引等,导致关系数据库本身代码很复杂,同时对于海量数据的查询比较慢[2].而对于很多业务场景来说,查询可能只用到数据库的部分功能,却要初始化复杂操作所要用到的代码.所以,传统关系数据库并不适用于大数据环境下的分布式查询.(2)ApacheHadoopHive分布式查询.HadoopHive是一种数据分析框架,可以支持通过类似SQL语句的语法来操作Hbase中的数据.大多数企业都有对结构化查询语言(SQL)有丰富经验的员工,Hive允许这些数据库开发人员或者数据分析人员在无需了解Java编程语言或者HbaseAPI的情况下使用Hbase数据库.但是Hive不能完全兼容现有的关系型数据库,所以执行SQL的速度比较慢,从而导致查询效率不高.尤其是对于那些实时、简单的查询,使用Hive可能会带来很多额外的开销,如:查询的初始化、变量的转换以及其他冗余且耗时的操作.虽然目前已经有一些公司采用HadoopHive+Hbase对海量数据进行处理,但是实验证明对于一些简单的查询Hive在没有执行任何实质性的查询任务前已经有超过10秒的开销,包括初始化,SQL解析等[2].(3)“NoSQL”数据库分布式查询.“Nosql”数据库的典型代表是HadoopHbase.Hbase已广泛应用于金融及互联网领域,支持众多业务应用程序和金融风险管理应用程序.Hbase的数据由HDFS天然的做了数据冗余,数据的可靠高己经证明了HDFS集群的安全性,以及服务于大数据的能力.而且Hbase本身的数据读写服务没有单点的限制,服务能力可以随服务器的增长而线性增长,达到几十上百台的规模[3].但是,如果用户想迁移传统数据库到Hbase上,就必须遵循HbaseAPI的编码规范.这使得程序开发人员要用Hbase来提高分布式查询能力,必须针对Hbase开发相应的接口,从而增加了很多开发和维护的工作量.而且对于大多数从事分布式大数据处理的数据库管理人员(DBA)来讲,使用SQL这样易于理解的语言可以使人们能够更加轻松地使用HBase.相对于学习另一套Hbase私有API,开发人员可以使用熟悉的语言来读写数据[4].
有关论文范文主题研究: | 关于数据库的论文范文文献 | 大学生适用: | 自考毕业论文、高校毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 80 | 写作解决问题: | 怎么撰写 |
毕业论文开题报告: | 论文任务书、论文目录 | 职称论文适用: | 技师论文、中级职称 |
所属大学生专业类别: | 怎么撰写 | 论文题目推荐度: | 最新题目 |
1.2Hbase分布式数据库框架.Hbase是一个稀疏的、分布的、持续多维度的排序映射数组,它模仿并提供了基于Google文件系统的BigTable数据库的所有功能[5].Hbase的目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表.为了提高数据可靠性和系统的健壮性,Hbase使用HDFS分布式文件系统或者Hadoop作为其存储基础,其服务器体系结构遵循简单的主从服务器架构.Hbase由一个HMaster主服务器协调一个或多个Hregion服务器组成的集群,同时也依赖于Zookeeper.在针对Hbase的应用中,涉及到角色依次为:Client,Zookeeper,HMaster,HRegionServer.他们在Hbase体系结构中各司其职并且共同提供了Hbase分布式存储及查询服务[6].
数据库本科毕业论文怎么写啊
播放:27611次 评论:5963人
1.3基于Hbase的分布式查询应用存在的问题.Hbase分布式数据库数据存储具有一定的哈希性质,非常适合处理Key/Value类型的数据以及结构稀疏的大规模数据.一次写入多次读取是Hbase数据库最大的特色,而这种特色正好满足分析系统的要求[7].通过对Hbase分布式数据库进行的性能测试和分析,我们了解到Hbase在执行大数据量的查询任务时提交Scan的操作耗时较长,影响到了系统的处理并行任务的响应时间.不管是在客户端还是在服务器端,查询任务初始化的时间过长导致整个实时查询操作的响应时间增加,影响了Hbase数据库并行处理查询任务的能力.此外,大多数企业针对大数据应用的程序和处理
数据库有关论文范文数据库,与大数据环境下基于Hbase的分布式查询优化相关论文摘要怎么写参考文献资料: