适应大数据时代的统计学教学内容改进探讨
来源:用户上传
作者:
摘 要:文章首先阐明统计学与大数据的密切关系,提出Excel是统计学课程中最为合适的辅助软件,再从统计学教学内容与大数据相关的三个基础部分:统计特征值分析、相关分析和回归分析和时间序列分析,对课堂中教学内容改进方向进行思考。
关键词:统计学;大数据;Excel;应用型人才;大学教学
一、与时俱进,将大数据内容融于统计学课堂
随着时间的推移,大数据技术的不断发展,对于大多数人来说“大数据(Big Data)”已经不再是一个陌生的概念,各行各业都在开拓创新,努力跟上大数据时代的潮流。统计分析方法是大数据中重要的处理分析手段,掌握统计学知识是理解大数据分析过程及分析结果的基础。不论数据分析、经济管理还是生物医疗相关专业,不论是数理统计学、经济统计学还是生物统计学方向,但凡是统计学课程都有必要在教授专业知識的过程中给学生讲解其中哪些内容与大数据紧密相关,大数据在相应行业中的应用案例,并说明这些知识在其中起到了什么样的作用。
许多老师会在第一堂课上给学生们推荐一些课程相关书目,以供学生在课余生活中充实自身的知识。除了专门的统计学教材或统计学非教材读物外,其实大数据相关的科普读物和纪录片也是非常适合在统计学课程上推荐的。读物方面如大数据时代奠基之作,伊恩·艾瑞斯 (Ian Ayres)的《大数据时代思维与决策(Super Crunchers :Why Thinking by Number is the New Way to Be Smart)》,其中有涉及到许多统计学方面的知识;纪录片方面如央视出品的国内首部大数据产业题材纪录片《大数据时代》,这是很好的科普向纪录片,适合给对统计学、对大数据还没有太多接触的学生们学习。统计学是一门基础性科学,课程多是安排在大一学习,从没有过多晦涩的专业性知识开始了解统计学课程能使学生更好的接受未来的学习。
二、统计学教学内容与大数据相关的三个基础部分
如今大数据分析工具多种多样,如Microsoft HDInsight、 Skytree、Spark等一些顶级大数据分析工具,对于非与数据相关的专业来说,未来工作上去做专门数据分析的概率也小,因此课堂中并不太需要接触这类工具。不过既然设置了统计学这门课程的专业,那此方向的工作就肯定是会和数据(或者说数字)打交道,综合考虑,我认为对于不论是统计学专业或非统计专业的学生来说,统计学课程中用Excel软件作为数据分析工具来辅助课堂讲解都是合适的:因为如果是统计专业的学生,他们有其他专门的统计软件课程,所以在统计学这门基础课上是否要根据专业统计软件来授课并不是必须的;而非统计学专业的学生,专业上是不需要做数据分析工作的,但是又需要对数据分析有一定的了解,所以专业性比较强的数据分析软件就并不太适合。Excel作为非常普遍、广泛应用在各个公司中的基础办公软件,又有很好的数据分析功能,显然是一个相当合适作为统计数据分析入门的选择。
(一)统计特征值分析
统计特征值分析属于描述统计的部分,其中内容主要包括统计平均数分析和标志变动度分析,要求学生掌握众数、分位数、平均值的计算公式及应用和标志变异分析的各种方法,包括标准差和变异系数的应用。
音乐软件是根据什么来进行每日推荐的?怎样能保证球队获得高分?统计特征值能帮助我们回答这些问题,这些指标的运用也是统计学中对最基础的数据分析手段。课堂中,除了讲明这些统计特征值的具体运算过程及其含义,还可以根据Excel向学生进行操作演示,使学生掌握应用Excel工具软件计算各种平均指标和变异分析指标。首先,可通过Excel中的函数进行快速运算,常用函数有MEDIAN函数、MODE函数、VAR函数、STDEV函数、FREQUENCY函数等等。其次,Excel的数据处理除提供很多统计函数外,还提供应用“数据分析”工具来进行数据分析的功能。使用这个工具必须加载相应的宏后才能使用,可在 “加载宏”对话框窗口中,分别勾选“分析工具库”“分析工具库-VBA”选项,就可运行数据分析工具中的“方差”、“协方差”、“描述统计”进行分析。
(二)相关分析和回归分析
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法,回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。相关分析侧重于发现随机变量间的种种相关特性,回归分析则侧重于预测。
相关关系在大数据时代是非常被看重的,也是极具价值的,在大数据时代来临前很久,相关关系就已经被统计学家证明在许多领域都是有极大用途的。然而,由于过去互联网、计算机等等的技术还没达到现在的水平,许多数据难以收集且费时费力,能运用的数据量少,相关分析没有被很好的重视起来。如今相关关系和回归分析在大数据中的应用已经非常普遍,比如,零售企业可以监控客户在店内的走动及选择商品的情况,将得到的数据与交易记录结合以此来分析,从而指导商品销售及货品的摆放; 音乐元数据公司Gracenote拥有通过采用智能手机和平板电脑内置的麦克风识别用户电视或音响中播放的歌曲的技术,除此之外还能检测掌声或嘘声等反应,甚至还能检测用户是否调高了音量,根据这些数据就可以研究用户真正喜欢的歌曲,听歌的时间和地点。
课堂中需要给学生讲明白相关分析和回归分析的意义,要求学生掌握相关图的绘制和相关表的编制,直线相关系数和非直线相关系数的计算,如何判断现象之间的相关类型,以及回归方程的建立。使学生能提高分析问题和解决问题的能力,若在工作中接触到大数据中的此类分析时,能明白其中原理而游刃有余。在计算方面,没有必要去要求学生通过计算器甚至是笔算去完成相关系数的计算,而应使学生能应用Excel进行相关系数的计算和回归分析。对于相关分析可以直接利用Excel相关系数函数CORREL(相关)或PERSON(皮尔逊积距相关系数),也可运行数据分析工具中的“相关系数”进行分析。其次,回归分析按照不同的标准有不同的分类,对应的函数也不同,常用的函数LINEST函数、SLOPE函数、INTERCEPT函数、FORECAST函数等,也可运行数据分析工具中的“回归”进行分析。 (三)时间序列分析
时间序列分析就是发现一组时间序列数据的变动规律并用于预测的统计技术,常用于销售预测,通过将销售分解为趋势、周期、时期和不稳定因素四部分来进行分析预测。时间序列数据是最为常见的一类数据,是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况,比如,描述服务器运行状况的Metrics數据、企业销售数据、汇率、股价、气象和天文数据等等。
时间序列模型也常用于电力大数据分析。智能电网如今已经做到了终端,也就是所谓的智能电表,智能电能表能采集多种参数,包括频率、电压、电流等。智能电表的应用更方便了时序数据的收集,产生巨大的可分析数据量。通过电网可以每隔一定时间制动收集一次数据,由此形成的时序数据可以用来预测客户的用电习惯及未来一定时间里整个电网的可能用电量。
时间序列预测法其实是一种回归预测方法,在Excel中做时间序列分析,可以直接利用上文“相关分析和回归分析”中提及的函数进行运算。另外,也可运行数据分析工具中的“移动平均”、“指数平滑”进行分析。课堂中使学生掌握时间序列的种类和编制原则,以及时间序列的各种分析指标,预测方法可结合Excel向学生们介绍直线趋势模型、二次抛物线模型、指数曲线模型等。
三、结语
许多统计学教材中的案例已十分老旧,部分经典的案例仍可再课堂中使用,同时统计学教师也需要时刻关注时代的发展,注意及时了解跟上时代的现实案例,能在课堂中及时给学生补充新的信息,以保证学生能在有限时间的课堂中真正从中学习到与时俱进的有用知识。另外,建议统计学课程安排在每位学生都能有一台电脑的机房上课,这样方便学生在老师用Excel演示完课程内容所对应的操作后,学生们能自己在电脑上及时巩固相应操作。
参考文献
[1] 伊恩.艾瑞斯.大数据思维与决策[M].人民邮电出版社,2014.
[2] http://tv.cctv.com/2019/07/02/VIDAFtTIeFx0X2b1MO1j8n
7d190702.shtml
[3] Rice J A. Mathematical Statistics and Data Analysis 3rd edition[M].Wadsworth,2007.
基金项目:本文为广州工商学院2018年度校级质量工程项目“大数据与应用型本科统计学相兼容的教学模式创新研究”(编号:ZL20181121 )及广州工商学院2018年度统计学重点课程项目(编号:2018KC-008)的阶段性研究成果。
作者简介:张天舒(1992- ),女,汉族,江西信丰人,硕士研究生,讲师,研究方向:统计方法与数据分析。
转载注明来源:https://www.xzbu.com/4/view-15078412.htm