大数据环境下的智慧校园建设与应用
来源:用户上传
作者:
摘 要:学校信息化建设已经经历了10多个年头,现有系统达到几十个,各个系统独立运行;同时安防监控,在线课程资源,上网行为非结构化数据资源在智慧校园建设中的作用已经体现。文章根据学校现状提出适合高校信息化建设的数据模型。主要通过Hadoop分布式系统架构解决结构化数据和非结构化数据之间的融合,为数据分析和决策提供依据。
关键词:Hadoop;非结构数据;数据标准;Spark
中图分类号:TP3 文献标志码:A 文章编号:2095-2945(2019)20-0162-02
Abstract: School information construction has been conducted for more than 10 years, the existing system has reached dozens, and each system runs independently; at the same time, security monitoring, online curriculum resources, and the role of online behavior unstructured data resources have been reflected in the construction of the intelligent campus. According to the present situation of the school, this paper puts forward a data model which is suitable for the information construction of colleges and universities. The main purpose of this paper is to solve the fusion between structured data and unstructured data through Hadoop distributed system architecture, so as to provide a basis for data analysis and decision-making.
Keywords: Hadoop; unstructured data; data standard; Spark
1 概述
智慧校園建设中大数据构建已经成为重要的发展方向,为发现数据价值而开展数据治理成为各方的关注问题,本文通过Hadoop及其生态圈建设构建模型,提出基于Hadoop分布式系统基础架构思想的解决办法,主要涉及数据抽取与清洗、Hadoop数据存储与分析、数据标准构建和智能分析与可视化,大数据构建在智慧校园建设中将起到关键性的作用。本文所有实现工具均采用开源技术完成。
2 Hadoop及其生态圈介绍
大数据建设目前采用的主流技术为Hadoop技术框架,Hadoop技术框架下可以完成数据仓库构建。数据仓库包括操作性系统和数据仓库系统两部分。操作性系统由各个形式的业务数据组成,主要包括关系数据库、TXT或CSV文件、外部系统数据。这些数据通过抽取、转换和装载进入数据仓库系统。
2.1 大数据处理架Hadoop
Hadoop是Apache开源软件分布式计算平台, 生态系统包括:Flume,Hive,Hbase,Pig,Sqoop,Spark等。其中,Hive用于数据仓库,通过HQL语言查询 HDFS上的数据。Hbase是Key/Value架构,运行于HDFS平台之上。其生态圈较为广泛的应用完全可以支撑大数据平台运行。
2.2 HDFS分布式文件系统
HDFS分布式存储系统(Hadoop Distributed File System, HDFS),采用主/从架构设计,HDFS主节点和数据节点数据处理过程如下:(1)Client端发送添加文件到HDFS的请求到NameNode;(2)NameNode告诉Client端如何分发数据块以及分发的位置;(3)Client端把数据分块(block),然后把这些块分发到DataNode中;(4)DataNode在NameNode管理下根据一定的算法复制数据块,保持数据冗余。
2.3 Spark并行计算框架
Spark并行计算框架与MapReduce基于文件并行计算框架不同,是基于内存计算的并行处理架构,Spark是MapReduce的一种替代方案,将执行模型抽象为有向无环图执行计划,将中间输出结果存储在内存中。兼容HDFS和Hive等技术,Sprak采用Scala语言编写,代码简洁高效,具有先进的架构,建立在分布式内存抽象RDD之上,可以处理不同的大数据应用场景;基于内存的运行机制和基于硬盘文件的运行机制在缓存处理上与MapReduce得到了极大的提升;Spark提供了多语言支持,支持(Scala,Java,Python),提升其易用性。
3 大数据环境下智慧校园建设
智慧校园建设过程中数据抽取和清洗主要采用Kettle或者Sqoop完成,数据仓库采用Hive和Hbase,数据标准根据《教育信息化教育部标准》构建Mysql数据库,通过Davinci完成智能分析和可视化展示。由图1可以知各部分组成关系。
3.1 数据抽取与清洗
智慧校园建设过程中数据抽取主要实现对现有系统数据的数据采集工作,采集工具采用Kettle工具完成,采集到的数据进入原始库。原始库数据包括结构化数据库Mysql和非结构化数据库Hive和Hbase。Hive和Hbase都是基于HDFS分布式文件系统作为基础完成,可以对接非结构化数据。原始库包括各种结构化数据应用系统和非结构化的应用系统(上网行为和考勤视频)对接的数据。数据采集以后根据数据标准定义的数据元进行数据清洗工作,清洗工作主要包括:(1)预处理阶段;(2)缺失值清洗;(3)格式内容清洗;(4)逻辑错误清洗;(5)非需求结构清洗;(6)关联性验证等。 3.2 数据标准
数据标准作为数据中心的重要组成部分,主要的数据标准包括中华人民共和国教育行业标准,JY/T 1001-2012, JY/T 1002-2012,JY/T 1003-2012、JY/T 1004-2012、JY/T 1005-2012,JY/T 1006-2012,JY/T 1007-2012这些构成了教育信息化的标准。这些数据标准经过整理,从文档转化为数据结构,完成元数据的定义。数据标准主要由教育管理基础代码和教育管理信息组成,数据标准建设是个系统工程,数据元的定义可以通过学校需求动态建设主题数据表,具体实现包括2个存储过程完成:(1)构造标准的DDL数据语言;(2)传递标准的SQL创建数据表。
3.3 智能分析与可视化
在数据标准构建完成以后进入数据智能分析和可视化工作,可视化的数据主要来自2个方面,一方面是结构化标准数据展示,对接的数据源是各种结构化数据库,另一方面是非结构化数据展示,可以对接Hive数据仓库。可视化平台实现采用了开源的DVAAS(Data Visualization as a Service)平台解决方案。具体实现过程是:定义数据源->数据视图构建->数据可视化组件绑定->交互能力设计->集成能力设计。
4 关键技术及其实现
大数据环境下智慧校园建设包括Hadoop生态圈的各个技术应用,主要有分布式系统基础架构Hadoop技术、数据交换技术-Kettle实现、数据总线技术-OpenESB、Hadoop及其生态圈技术-Hive\Hbase\Sqoop\Oozie、Spark快速通用的计算引擎、Hue\Zeppelin数据可视化技术等。这里主要介绍MapReduce和Spark 2种技术及其实现过程。
4.1 MapReduce编程模型
MapReduce编程模型在Intellij IDE开发具体搭建过程包括:JDK安装->maven安装->IDE环境settings.xml配置获取代码仓jar包-> IntelliJ IDEA配置maven-> maven WEB项目->配置依赖 jar 包->编写代码完成开发->打包运行。
4.2 Spark集群计算平台
Spark是专为大规模处理而设计的快速通用计算引擎。具有高可伸缩性、高容错和内存计算的特性,属于BDAS生态体系。Spark执行过程:(1)Driver与Master建立连接并申请资源;(2)Master进行资源调度;(3)Master与Worker进行RPC通信,荣Worker启动Executor;(4)Worker启动Executer;(5)Executer与Driver进行通信;(6)RDD(Resilibuted Distributed DataSet)弹性分布式数据集触发到Action后,根据这个RDD从后往前推断依赖关系,遇到shuffle就切分;(7)DAGScheduler切分完Stage后,先提交前面的Stage,执行完后在提交后面的Stage,Stage会产出Task,一个Stage会产生很多业务逻辑相同的Task,然后将以TaskSet的形式传递给TaskScheduler,TaskScheduler将Task序列化,根据资源情况,发送给Executor。Intellij IDE开发具体搭建过程包括:JDK安装并配置->Scala安装并配置->Maven安装并配置->Intellij IDEA配置scala Plugin->配置Scala SDK->新建maven项目->pom.xml导入spark依赖->编写sprak代码->打包运行。
5 结束语
大数据主要是基于Hadoop分布式的应用高校信息化结构化数据和非结构化数据进行有效的存储、管理与运算。本文充分利用Hadoop及其生态圈优势,根据高校信息化需求设计和部署,实现一套基于大数据Hadoop和Spark结合的高校信息化平台。该平台具有良好的对于大量异构数据的采集、处理、分析和展示能力。为实现教职工和学生人员画像提供了重要的技术支撑和实现手段。
参考文献:
[1]苏秋月,陈兴蜀,罗永刚.大数据环境下多源异构数据的访问控制模型[J].网络与信息安全学报,2019(01):78-86.
[2]赵亚楠,李朝奎,肖克炎,等.基于Hadoop的地質矿产大数据分布式存储方法[J].地质通报,2019(Z1):462-470.
[3]陈中,范开勇,饶宏博.基于Hadoop分布式交通大数据存储分析平台设计[J].电脑编程技巧与维护,2018(12):111-113.
转载注明来源:https://www.xzbu.com/1/view-14882177.htm