关于数据库相关论文范文集,与基于数据挖掘技术的商品陈列相关论文查重软件
本论文是一篇关于数据库相关论文查重软件,关于基于数据挖掘技术的商品陈列相关学年毕业论文范文。免费优秀的关于数据库及数据及统计学方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
[摘 要]商品陈列的科学性的研究,借助于数据挖掘的技术从海量的销售数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息.本文综述了各种常用的数据挖掘算法和评价标准.
[关 键 词]数据挖掘决策树神经网络
数据挖掘是从海量数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的非平凡过程,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等多学科的成果.其中在商业数据挖掘技术超市陈列研究不可能另起炉灶,新建一套数据库.因此需要借助原有的超市销售管理系统中积累了海量的销售与经营数据,并建立在数据仓库技术(DataWarehouse,DW)和联机分析处理(On-LineAnalysisProcessing,OLAP)技术的基础上,运用关联分析、分类、聚类分析和预测分析等数据挖掘方法,从海量的交易数据中发掘有价值的知识,为超市的决策者提供科学的决策信息和依据.
一、数据仓库技术与联机分析处理
所谓数据仓库就是一个专门的用来保存从多个数据库或其它信息源选取的已有数据,并为上层应用提供一个统一的用户接口,用以完成数据的查询和分析.数据仓库概念创始人英蒙(WilliamH.Inmon)在《BuildingtheDataWarehouse(建立数据仓库)》一书中对数据仓库的定义是:“数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应.”
数据仓库的基本结构可分为4个部分:数据源、数据仓库、应用工具和可视化用户应用界面.
1.数据仓库是整个系统的核心,设在大型超市的总部.系统将各个零售数据经抽取、变换、净化、加载和汇总后进人数据仓库.
2.数据源所提供的历史数据是创建数据仓库的基础,分为内部数据源和外部数据源.内部数据源主要来自于超市日常运营系统所提供的数据,它包括每天的POS销售数据、库存数据、采购数据、财会数据、供应商数据及客户数据等,可以是异种或异构数据库,也可以是非传统的数据,例如Word文档、HTML,Excel电子表格等.外部数据源是指来自商家的专门调查或相关部门统计的数据,如竞争对手信息、行业统计信息、市场占有率等.
3.应用工具主要指OLAP工具和数据挖掘工具.OLAP可以按照分析人员的要求,快速灵活地进行大量数据的复杂查询处理,并可以通过可视化前端服务以一种直观易懂的方式将分析的结果呈现给分析人员.数据挖掘工具是从大量数据中寻找尚未发现的重要信息.
4.可视化前端服务是面向用户的需求将分析结果以方便用户理解的方式呈现给用户,以支持用户进行决策.
联机分析处理是一个与数据仓库高度相关的概念,1993年由关系数据库之父爱德华•,库德(E•,F•,Codd)博士于提出的,是一种用于组织大型商务数据库和支持商务智能的技术.OLAP数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图.数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容.概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统.它本身包括三部分内容:
(1)数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中.
(2)应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析.
(3)表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前.
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分.
二、数据预处理与算法综述
因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大.基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform&Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤.主要涉及到数据清理、数据集成与变换和数据规约等技术.
数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,OperationalDataStore)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率.就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3.对于先导型数据挖掘而且这个部分需要不断的反复做.
因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大.基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform&Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤.主要涉及到数据清理、数据集成与变换和数据规约等技术.
数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,OperationalDataStore)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率.就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3.对于先导型数据挖掘而且这个部分需要不断的反复做.
1.数据清理:通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致数据,主要是达到格式标准化、异常数据清除、错误纠正和清除重复数据的效果.
2.数据集成与变换:将多个数据源中的数据结合起来并统一存储过程实际上就是数据集成,即数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据集中区或数据集市)中.这些数据源可能包括多个数据库、数据立方体或一般文件.主要涉及实体识别、冗余和数据值冲突的检测与处理三方面问题.
3.数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性.这样,对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的分析结果.
因为不同超市采用不同销售管理系统,而且格式差异很大,采集的数据质量太差并且格式不一致,本文将数据仓库数据导入一个Excel表
关于数据库相关论文范文集,与基于数据挖掘技术的商品陈列相关论文查重软件参考文献资料: