数据挖掘技术在经济统计调查中的应用研究
来源:用户上传
作者:
摘要:從我国现阶段的情况来讲,社会经济处于快速发展的过程中。经济领域的数据和信息在不断的生产,通过挖掘这些数据可以帮助我们制定更合理的经济决策,并为之后的经济发展创造动力,这已经成为现阶段最重要的发展方式。数据挖掘技术可以在大数据中发现具有更高价值的隐藏事件,在人工智能与统计等多项技术的基础上,制定出更加科学的经济决策。本文就相关内容展开了综合性的阐述与分析,首先介绍了数据挖掘技术和现阶段我国经济统计调查数据的基本情况,之后分析了数据挖掘技术在经济统计调查中的应用。希望通过本文对相关内容的阐述与分析,能够进一步提升相关研究的实际效果,为我国的发展创造出更大的动力。
关键词:数据挖掘技术;经济统计调查;应用
中图分类号:TP311.13
文献识别码:A
文章编号:1001-828X(2019)010-0132-01
前言
由于经济调查数据自身的复杂性和统计调查过程中的复杂性,导致分析人员在对经济统计调查数据进行使用时,不能准确的提取自己需要的数据信息,从而降低了经济统计工作的效率和准确度。而数据挖掘技术的最大优势就是从大量的数据中发现有用的信息并利用多种算法和分析软件对数据进行分析和处理,从而解决我们的实际问题。数据挖掘和经济统计调查工作的结合定然能尽可能的挖掘出有效信息从而使调查数据得到最有效的利用,并且机器学习在统计调查数据中的应用能使数据得到最优处理,提高工作效率。
一、数据挖掘技术和统计调查工作的基本情况
数据挖掘技术简单来说就是对数据信息进行更深入的挖掘。这一技术主要是将原来比较复杂,并且有非常多变化种类的数据库简化,并通过对简化的数据信息进行分析,找出其中可以被利用的数据,通过不断的分析与整理工作,使信息使用效果进一步提升[1]。我国现阶段经济统计调查数据非常丰富且很多数据并不是非常的完整,导致使用一些普通的手段进行数据统计并不能获得较好的效果。数据挖掘技术能够有效地解决这一问题,通过软件与程序算法,对原来并不是非常完整的数据进行综合性的分析,最终制定出更加合理的统计数据形态,使有关使用者可以更直接的对数据进行提取与使用。在这一过程中,一般分为三个步骤。首先是准备相应的数据,其次是进行数据挖掘工作,最后对所获得的结果进行分析。
二、数据挖掘技术在经济统计中的应用
1.经济统计调查数据的预处理
经济数据的预处理是经济数据统计活动之中非常常见的一项处理方法。需要对数据进行预处理的主要原因是因为挖掘技术自身会受到多种经济条件的限制,不能完全取代经济系统所拥有的收集作用,其仅仅是对基础信息进行智能化分析以及在统计调查工作中得到数据的复杂性。处理的内容涉及到了非常多的种类,例如处理不准确的数据,或者是处理错误的数据和处理差距很大的数据信息。这些实质上称之为“数据清洗”,数据清洗的方法有插值法,均值法等,对于明显异常且数量不多的数据可以甚至选择直接删除。
2.数据挖掘技术在调查数据分析中的应用
数据挖掘技术在经济统计调查中的应用可以大致的分为两个方向,分别为描述方向和预测方向。描述方向主要包括聚类和描述变量或数据间相关关系的各种算法。聚类是将相关关系较大的变量或个体聚为一类,即R型聚类和Q型聚类,其实质也起到了降维的作用。而描述变量或数据间相关关系的方法有典型相关分析——通过研究典型相关系数来揭示两组变量间的相关关系;对应分析——研究两组分类变量或分类变量内部各个状态之间的相关关系。预测方向主要包括分类和回归,分类的主要工作是“贴标签”,具体算法有决策树、人工神经网络、遗传算法、SVM、朴素贝叶斯模型等。[2]回归不同于分类的是分类是对离散型数据做预测而回归是对连续型数据做预测,回归模型包括线性回归、多项式回归、Lasso回归、岭回归等。
聚类在经济统计调查中最为常见,为了提高调查精度,在抽样调查中可以先将调查对象聚类,再从不同类中分别抽取样本,抽样调查中的分层抽样和整群抽样都可能用到聚类方法。如在对居民的收入情况进行抽样调查时就可以先根据居民的消费数据对其聚类分析,一类即为一层,进而对居民进行分层抽样,从而提高调查精度。降维方法也广泛的应用于经济统计调查中,由于统计调查进行一次需要花费大量的人力和物力,所以在统计调查中指标一般较多且详细复杂,这就需要数据挖掘中的降维技术将相关性大的变量合并在一起,从而使数据分析更为简便清晰,主要的降维方法有主成分法、因子分析法等。现阶段降维算法与评价算法相结合已应用于经济评价中,如对各个城市的综合竞争力和上市公司的综合实力进行排序与评价。
数据挖掘中的分类技术已经成功地应用于银行信用风险的统计调查中,银行的信用风险分为高、中、低三个等级,运用SVM和BP神经网络技术均可以准确的预测出风险所属类型。且经过实践表明,SVM在预测精度上略高于BP神经网络技术。[3]
三、结语
就我国当前的发展工作来讲,经济统计调查工作有所提升,且随着数据挖掘技术不断应用,统计数据分析工作有了更好的效果,而且还获得了非常高的质量。现阶段数据挖掘已经达到了比较稳定的状态,并处在不断研究的过程之中。但是在实际应用的过程中,仍存在非常多的问题,需要通过更有效的方法对其进行研究,提高其实际效果,使我国的数据挖掘技术能够获得更大程度的进步,为我国经济统计发展创造出更大的动力。
参考文献:
[1]陈韦冰,张巧玲,徐小红.基于数据挖掘技术构建适宜基层应用的2型糖尿病视网膜病变风险预测模型研究[J].中国实用医药,2019,14(2):181-182.
[2]罗可,林睦纲,郗东妹.数据挖掘中分类算法综述[J].计算机工程,2005,31(1):3-5.
[3]沈志伟.基于SVM的商业银行信用风险预测[J].合作经济与科技,2012(16):52-53.
转载注明来源:https://www.xzbu.com/3/view-14854461.htm