1、大数据概述
大数据用来描述和定义信息爆炸时代所产生的海量数据,它是计算机和互联网互相结合的产物,计算机实现了信息的数字化,互联网实现了信息的网络共享化。随之兴起的则是从海量数据中挖掘预测出对人类行为有效的方法和结果,即数据挖掘技术[1]。数据挖掘(Datamining)指从大量的数据中通过算法搜索隐藏于其中的信息的过程,是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示[2]。
2、大数据时代下的高校机房现状
顺应时代潮流的发展,各高校都开设有计算机专业,非计算机专业也在大一或大二时期开设公共计算机课程,计算机成为教育领域内不可或缺的教学设备,随着高校的进一步扩招,教育事业的不断更新发展,学校的机房建设也随之增多,其任务由原来的面向计算机专业发展到面向全校的所有专业开设公共计算机教学、承担各种计算机考试等多项任务。因此机房管理系统在日常教学和考试任务中积累了海量数据,一般这些数据都保存在主服务器上仅供查询使用[3]。利用数据挖掘技术,对学校机房信息管理系统所积累的大量学生上机数据进行深入分析与挖掘,将挖掘得到的预测结果辅助学生成绩管理决策,能合理利用机房资源,提高学生成绩管理质量。本文利用关联规则,从现有的机房信息管理系统中收集到的海量学生上机记录数据中挖掘出隐藏在数据中的学生上机规律和上机效率,进而预测学生的期末考试成绩,提前告知,学生可以在随后的学习中通过人为干预学习过程:比如挖掘预测出某生成绩将会较差,则可以在其后的学习中调整学习方式和学习态度,以修正期末考试结果,提高学习效率和考试通过率,为以后的就业做好铺垫,因此不管是对于当前利益还是长远利益,都有深远的意义。
3、数据挖掘阶段
1)定义问题:明确数据挖掘的预期目标。本次挖掘目标旨在从海量机房学生登录信息中找出能预测成绩的相关规则。
2)数据准备:提取数据挖掘的目标数据集,并进行预处理[4]。本次挖掘数据对象为吉首大学设备中心六楼公共计算机机房的学生上机信息表,并检查数据的有效性、一致性、完整性,并去除噪声,进行预处理。
3)数据挖掘:根据上个步骤所提取数据的特点和类型选择相应合适的算法,并在预处理过的数据集上进行数据挖掘。根据问题定义,本次选择关联规则算法Apriori算法,进行关联规则发现并预测。
4)分析挖掘结果:解释评价数据挖掘的结果,并将其转换成能被用户所理解的规则。
5)运用规则:通过分析挖掘结果,可以适当进行人工干预,修正学习行为,使得最终结果达到理想学习效率。
4、数据挖掘在机房管理系统中的应用
4.1关联规则算法
Apriori算法采用逐层搜索的迭代方法,不需要复杂的理论推导,易于实现,是利用挖掘布尔关联规则频繁项集的一种算法。基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来[5]。
4.2关联结果分析
以吉首大学实验室与设备管理中心为例,吉首大学实验室与设备管理中心下设置的公共计算机实验教学中心,负责学校公共计算机实验室建设与管理,组织实施公共计算机实验教学与开放,完成基于计算机平台进行的计算机等级考试、普通话测试、各类社会化考试等测试工作。其中承担公共计算机教学的机房共有7间,每个机房平均配置95台学生用计算机和一台教师教学用计算机,每台电脑上都安装有奥易机房管理软件,学生每次上机都必须通过奥易软件登录界面输入自己的学号和密码才能进入系统使用计算机,从而收集到学生的上机登录时间、离开时间,教师端可以利用奥易软件对任意学生电脑端进行调换、抓屏、控制屏幕、考试、答疑等操作,所有数据存储在机房管理端的后台数据库中,通过调用后台数据库中的学生上机情况数据,进行挖掘分析。由于数据量庞大,所以采用从起始顺序抽样的方法,抽取出2015年11月5日的部分学生上机的相关数据,去除不完整、不一致、有缺失的数据,进行预处理,为达到预测挖掘目标提供正确的数据源。表1中的数据前六列是从奥易软件后台数据库中提取到的原始数据,我们设置第二、三、五列数据与学习情况有关联。将这些数据存在于整合表中,剔除学号异常的记录,即只要是学号异常,强制设定其上机情况为较差(异常学号学生,应为重修生,是学习重点关注对象),为了方便系统分析,将关联整合后的数据转化为布尔类型。登录时间:S1:10:00;S2:迟到五分钟;S3:迟到十分钟;S4:迟到十分钟以上。学号:N1:正常学号;N2:异常学号。下课时间:E1:正常下课时间;E2:提前五分钟下课;E3:提前五至十分钟下课;E4:提前十分钟以上下课。利用关联算法产生频繁项集情况分析Q:Q1:优秀;Q2:良好;Q3:一般;Q4:较差。利用Apriori算法挖掘关联规则,可以得到学生上机情况规律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4评价结果:按照正常上课时间上机并且坚持不早退的同学学习情况为优秀;上课准时但是提前五分钟之内下课的同学学习情况为良好;上课迟到五分钟以内且下课也提前五分钟的同学学习情况为一般;上课迟到十分钟以上并且下课早退十分钟以上的同学学习评估为较差。如果利用关联算法得出某个学生的学习情况有三次为较差,就启动成绩预警,提示并干预该生以后的上机学习,督促其学习态度,提高学习效率,以避免期末考试挂科现象。
5、结束语
借数据挖掘促进治理主体多元化[6],借关联分析实现决策科学化[7].,本文利用关联规则思路和算法,将吉首大学设备中心机房中存在的大量学生上机情况数据进行分析挖掘,尝试从学生上机相关数据中预测其学习情况,并根据预测结果有效提示学生的期末考试成绩走向,引导该生在随后的学习应该更加有效,以达到避免出现最坏结果,从而提高期末考试通过率。
参考文献:
[1]李涛,曾春秋,周武柏,等.大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,2015(4):57-80.
[2]王梦雪.数据挖掘综述[J].软件导刊,2013(10):135-137.
[3]袁露,王映龙,杨珺.关于高校计算机机房管理与维护的探讨[J].电脑知识与技术,2013(18):4334-4335.
[4]李明江,唐颖,周力军.数据挖掘技术及应用[J].中国新通信,2012(22):66-67+74.
[5]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011(1):45-54.
[6]黄梦桥,李杰.因素挖掘法在投资学课程中的教学实践[J].吉首大学学报:自然科学版,2015(4):80-83.
[7]尹鹏飞,欧云.基于决策树算法的银行客户分类模型[J].吉首大学学报:自然科学版,2014(5):29-32.