基于聚类和顺序聚类的高校数据挖掘分析
来源:用户上传
作者:高建平 董东
摘要:针对高校一卡通系统中大量消费数据和图书馆系统的访问数据,设计并实现了学生日常行为聚类模型,根据行为习惯将学生划分为五大类,利用Microsoft顺序聚类算法实现了学生行为序列的挖掘,发现了“体弱”人群存在不规律饮食习惯等有意义的行为序列模式,最后针对体弱人群在两个模式上的共性和差异进行总结。
关键词:一卡通;智慧校园;校园数据;数据挖掘;行为分析
中图分类号 TP311 文献标识码:A
文章编号:1009-3044(2020)25-0052-03
Abstract: In order to find interesting patterns from a large amount of consumption data accumulated in campus card systems and history data from library access control systems, a daily behavior clustering model for college students was designed and implemented. It is found that students can be divided into five categories based on behavioral habits. Moreover, by the Microsoft sequential clustering algorithm for mining of student behavior sequences, several meaningful patterns of behavioral sequences, such as "weak" people have irregular eating habits, is discovered, and finally the commonalities and differences between the two groups of weak people are compared.
Key words: campus card; smart campus; campus data; data mining; behavioural analysis
1 引言
一卡通系统在高校应用范围越来越广,使得一卡通产生大量真实反映学生在校情况的数据,毫无疑问这些数据蕴含着有价值的信息。面向校园数据的挖掘分析也逐渐成为及时把握学生情况,正确引导学生学习生活,提高高校管理水平的重要研究方向。
2018年6月7日,国家标准《智慧校园总体框架》的发布[1],将“智慧校园”(Smart Campus)定义为“物理空间和信息空间有机衔接,使任何人、任何时间、任何地点都能便捷地获得资源和服务。”高校也逐步从数字化校园迈向智慧校园,通过校园内一切可以利用的数据来为高校和师生提供服务,真正实现以人为本,可见校园数据是实现智慧校园建设的基本条件[2]。校园信息系统[3]是一个封闭的环境,数据只准写入,不允许修改,历来以准确性和真实性为准绳,而且还存在着相互校验的可能,校园数据来源于多个业务系统并经过长时期的数据沉淀,数据总量存在显著的海量特性,同时存在显著的人、财、物、时间等多维特征,各有不同的数据尺度又呈复杂的关联性,所以校园数据具备充分的数据挖掘分析的潜力和应用建设的基础,以校园数据为抓手,在校园数据分析的建设和应用方面,能够产生显著的应用效果。
因此本文主要通过大量校园数据及对智慧校园的建设需求,设计并实现了学生日常行为聚类模型和行为序列模型,发现了有价值的行为模式,并从不同模型中發现体弱人群的共性和差异,为高校提出可靠的管理建议。
2 数据预处理
数据清洗的干净程度决定数据质量,高质量的数据会提高后期数据挖掘和分析的效率。
2.1 数据采集
数据来源是数据挖掘分析的基础。通过在一卡通管理平台和制卡中心的专业实习体验及对智慧校园的建设需求,确定数据来源和主题。本文主要是由S高校提供的数据,具体来源于一卡通管理平台和图书馆系统。主题是2017级学生的行为数据,采集的源数据主要包括:学生信息表、消费记录表、学生部门表、图书馆访问表。
2.2 数据清洗
针对数据中存在的缺失值(空值)、不满足业务需求和约束、数据不一致、重复行和键值、表和字段名称晦涩难懂等问题,通过指定值替换空值或不一致的值、修改不满足业务约束的值、删除不满足业务需求、去除重复行、清晰易懂的表和字段的名称替换晦涩难懂的名称、验证数据行数不变等技术,完成数据清洗转换与验证[4]。经过清洗后,消费记录表由11708467行减少到7112272行数据,图书馆访问数据由11738025行减少到854664行数据,学生部门表239行,学生信息表7427行。
3 数据挖掘模型设计和方法
数据挖掘分析模型包括数据挖掘结构和数据挖掘算法。其中数据挖掘结构中定义了作为输入的事例表,数据挖掘算法是从训练集中寻找知识,算法要求定义输入列和预测列[5]。
3.1 挖掘工具
本文主要采用SQL Server 2008数据库,挖掘工具是由商业智能解决方案(Business Intelligence Development Studio)提供的组件SQL Server Analysis Service(SSAS)。SSAS提供了包括Microsoft聚类分析、关联分析、时序等在内的9种数据挖掘技术,其中重点利用的数据挖掘技术为Microsoft聚类和Microsoft顺序聚类。SSAS不仅仅提供了一组行业标准的数据挖掘算法,而且通过数据挖掘设计器能够创建、管理和可视化浏览数据挖掘模型,在挖掘模型查看器中通过多种分类关系图查看聚类和顺序聚类的结果。
转载注明来源:https://www.xzbu.com/8/view-15339790.htm