关键词:高校房产档案;关联分析;Apriori算法
高校房产档案种类繁多,时间跨度长,载体多样,在立卷和著录阶段忽视了案卷之间隐含的业务联系,使得数据信息呈孤立状态,难以挖掘出档案之间潜在的信息,不利于用户查询使用。本文将档案信息关联分析技术应用于高校房产档案管理,尝试解决档案信息孤立分散的问题,充分挖掘档案之间的隐含联系,对档案进行深层次的二次开发利用。
一、关联规则分析和Apriori算法
关联分析又称为关联规则挖掘,是在信息载体中查找存在于项目集合之间的频繁模式、相关性或因果结构。Apriori算法是最具影响力的挖掘布尔关联规则频繁项集的算法之一。该算法的基本思想是利用迭代的方法找出数据值中频繁出现的集合,从这些集合中发现它们之间的关联规则。一般而言Apriori算法使用支持度作为判断频繁项集的标准。如果将Arpriori算法用到房产档案管理中,档案中有教职工购买房改房资料、申请货币补贴资料、基建资料、权籍资料等,这些资料都可以看成一个个的项目集合,可以用关联分析找出所有集合中频繁出现的集合,设定一个支持度阈值α,出现频率高于阈值α的集合即是我们要找的频繁集合。算法用逐层迭代的方法实现。第一步,根据算法对整个数据集进行扫描,获取所有数据集,此时还未计算频繁项集。第二步,计算各数据集的支持度,减除支持度低于阈值α的项集,所保留的项集为频繁k项集。如果得到的k项集为空,则返回频繁k-1项集的集合作为算法结果。如果得到的k项集只有一项,则直接返回频繁k项集的集合作为算法结果。否则,令k项集为k+1项集,返回第二步,如此往复。最终得到所有频繁项集,也就是在所归档的房产档案中出现最频繁的文档资料。第三步,找出k项频繁集各项之间的关联。例如,教职工购买公有住房审批表的出现极有可能伴随着购房买卖契约的出现,购房票据也应该随之一起出现;或者学校基建项目资料的出现肯定会伴随着项目审批资料等等。各频繁项集彼此之间同时发生的概率就是它们的置信度。下面通过一个虚拟的例子来分析Apriori算法在高校房产档案中应用的实际意义。
二、Apriori算法在房产档案中的应用
高校教职工住房改革与福利分房的资料是高校房产档案中重要的组成部分,也是最能体现房产档案复杂性的一部分,在日常管理工作中具有较高的查询利用率。利用Apriori算法在模拟的房产档案数据中进行关联分析实验。实验数据集采用50条教职工房改信息,Apriori算法是基于《机器学习实战》中python代码,最小支持度阈值设为0.6,置信度参数设置为0.85。测试数据集中事务ID为数据条目,如01条事务数据表示教职工A同时有购房申请表、购房审批表、购房买卖契约、购房票据、货币补贴审批表和退款票据这6种资料。而02条事务数据表示教职工B没有这些资料,只有货币补贴审批表、退房协议和会议记录上讨论的关于住房问题的解决方案,以此类推。数据集如表1所示。运行代码,实验结果显示在测试数据中。当支持度阈值α设置为0.6的情况下,共有10个频繁项集。见表2、表3。它意味着如果用户来查询相关档案,85%的教职工可以查询到申领过的住房货币补贴记录,70%的教职工有学校分配住房的记录或者职称和定级文件,65%的教职工提交过购房申请表,70%的教职工提交过货币补贴审批表,70%的教职工提交过购房审批表并签署过购房买卖契约。退房协议和会议记录上提及到住房解决方案的资料归档的数量不太多,支持度没有达到阈值0.6。将支持度阈值α调整为0.5查看结果,发现频繁项集增加了许多,从表2所示结果可知55%的查询者可以检索到自己的购房票据。多次调整支持度阈值可准确定量地知晓数据集中各类案卷的分布情况。另外,从表2中可以看出,购房申请表和购房审批表及购房买卖契约同时出现的概率为60%,表示提交过购房申请的教职工中60%的人最后都购买了公房。购房申请表和购房买卖契约同时出现的概率为70%,说明大部分教职工这两样材料都齐全。根据这些结论,档案管理人员可以快速知悉数据库中各类资料的数量比例,做到心中有数,查询有的放矢。实验第二部分计算了各频繁项集的置信度,置信度定量地估算出所分析得到的关联规则的准确度,也即可信度。见表4。由表4所示的实验结果可知,上一步得出的购房审批表和购房买卖契约的共现概率70%(支持度),其置信度为100%,可信度非常高。购房申请表和购房审批表共现概率60%的置信度为92.3%。置信度的计算可以提供使用关联规则的依据,首先使用置信度高的关联规则,提高档案查询效率。
在实际房产档案管理工作中,档案管理人员可以利用关联分析规则提高档案检索效率和查全率。例如,需要查询教职工A十几年前的住房记录,但是在分房记录的数据里没有找到该资料,是否就意味着这份资料遗失或没有归档呢?依据规则,货币补贴审批表对分房记录的支持度为0.65,意味着检索到A的货币补贴审批表就有65%的概率可以查询到A的分房记录材料,这一推测的置信度为92.9%,可信程度很高,因此可以从货币补贴审批表作为突破口做新的尝试。查询A的货币补贴审批表发现当年所填写的房屋地址与现在所用的地址名称不一致,是变更前的地址,因为时间间隔久远不少人已经不知道原来的地址名称。检索旧地址最后找到A的分房记录,问题迎刃而解。可见关联分析规则的应用能为某些检索难题提供思路和捷径。同样,对于很多历史悠久的高校来说,不少建筑经历过更名、改造、扩建等变动,在查阅老旧图纸或资料时常常遇到困难,输入的关键字与当时著录的关键字不匹配,检索不到想要的档案。利用关联分析找到关联紧密的材料,很大程度上可以提高档案检索的查全性。最后,档案档案管理人员可以依据实验结果发现管理中的疏漏。购房票据的支持度明显小于购房审批表和购房买卖契约,说明不少购房者的购房票据没有检索到,这就需要档案管理人员查验是否由于票据遗失,或是著录过程中重要信息没有提取导致没有检索到,找到问题所在,完善档案管理。综上所述,关联分析算法的应用可以提高高校房产档案信息化建设的效益。但是,现阶段高校房产档案管理信息化亟待解决的一个困难是将多源异构的数据信息化,以便能从不同的数据库信息中挖掘潜在信息,提高档案的利用价值。
参考文献:
[1](美)PeterHarrington.机器学习实战[M].李锐,李鹏,曲亚东,王斌,译.人民邮电出版社,2013.
[2]郭雪薇,董晶.基于特征关联分析的档案信息关联分析模型[J].电子设计工程,2019(27):47-52.
[3]吕元智.数字档案资源知识“关联”组织研究[J].档案学研究,2012(6):44-48.
[4]梁丽燕.关联规则挖掘Apriori算法在数字档案系统中的应用研究[J].现代计算机,2011(13):7-10.
[5]许惠玮.基于数据挖掘的数字档案信息管理研究[J].北京档案,2012(9):29-30.
[6]左娜,张卫东,贾琼.基于关联数据的档案文化资源整合研究[J].兰台世界,2018(2):21-25.
[7]陈源.数据挖掘在高校档案管理中的应用研究[J].办公室业务,2012(22):144-145.
作者:曹晨 单位:苏州大学档案馆