该文为数据方面有关本科论文范文,与数据处理非常道(上)相关论文参考文献格式,可作为论文格式专业数据论文写作研究的大学硕士与本科毕业论文开题报告范文和职称论文参考文献资料。免费下载教你怎么写数据及什么是及缺失方面的优秀学术论文范文。
在上一期我们主要从数据构成要素、数据类型、数据表要求三方面阐述了什么是数据,并且说到后期的数据处理工作都是围绕如何得到符合数据分析的数据要求样式(一维表)所开展.本期就和大家共同探讨数据处理的那些事儿.
经常有朋友分不清楚数据分析与数据处理这两个概念,常常混淆使用.那到底什么是数据处理?它跟数据分析有什么区别呢?为何要进行数据处理?包含哪些处理方法?在Excel中如何进行数据处理?
数据处理是根据数据分析目的,将收集到的数据用适当的处理方法进行整理加工,形成适合数据分析的要求样式,也就是一维表.数据处理是数据分析流程中必不可少的阶段,并且需要花费整个数据分析流程70%~80%的时间.
数据处理的目的包括以下三点:
1. 抽取、推导出有价值、有意义的数据;
2. 将采集到的原始数据转化为可以分析的形式;
3. 保证数据的一致性和有效性.
数据处理主要包含五大方法:数据清洗、数据抽取、数据合并、数据计算、数据转化.
数据清洗,顾名思义,就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或剔除,最后的数据应该达到“多一分则肥,少一分则瘦”的状态.
清除重复数据
在Excel中,查找或删除重复数据的常用方法主要有:
* 条件格式标识法
* 高级筛选法
* 函数法(Countif)
* 菜单删除法
* 数据透视表法
每种方法各有优缺点,需要根据实际情况选择使用.
条件格式标识法只能告诉你哪些数据存在重复,而不会告诉你各个数据各重复多少次,共有多少个重复数据.
Countif函数对思维逻辑要求高且编写麻烦,不适合用于大量数据的去重.
高级筛选法与菜单删除法则无法告诉你哪些数据存在重复.也不会告诉你各个数据各重复多少次,共有多少个重复数据.只会告诉你去重后的结果.
处理重复数据,推荐使用数据透视表法.它不仅能告诉你去重后的结果,还能告诉你各个项重复的次数.而且,只要用鼠标轻松拖动字段,即可得到我们所要的结果.
现在我们就以上期的通话清单为例,来分别得到去重的结果及各个重复的次数.具体操作步骤如下:
步骤1:用Excel2010打开通话清单,点击“插入”选项卡,在“表格”功能组中,单击“数据透视表”按钮,选择“数据透视表(T)”项(见图1).
步骤2:在弹出的“创建数据透视表”对话框“选择一个表或区域”中选择数据源单元格范围,本例为“Sheet1!$A$1:$H$157”,在