气象数据分析相关技术研究
来源:用户上传
作者:
摘 要:经过几十年的发展,气象信息技术获得了极大的进步,也积累了大量来自多方面的气象数据。由于我国气象大数据发展仍在起步阶段,相关方法和技术都需要进一步研究。为充分利用大量的气象数据,相关的数据分析方法研究成为重中之重。该文结合实际工作,总结数据分析方法,介绍气象数据分析存在的相关问题,以期为以后的气象大数据发展奠定基础。
关键词:气象数据 数据分析 大数据
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2019)12(c)-0184-02
Abstract: With decades of development,meteorological information technology has made great progress,and has accumulated a large number of meteorological data from many aspects.As the development of meteorological big data in China is still in its infancy,relevant methods and technologies need further research.In order to make reasonable use of a large amount of meteorological data, relevant data analysis methods are also essential. This paper combines the actual work, summarizes the data analysis methods, introduces the related problems in meteorological data analysis, and lays a foundation for the future development of meteorological big data.
Key Words: Meteorological data; Data analysis; Big data
气象大数据是由网络上所有和气象行业相关的数据组成的,包括气象站观测数据、网民分享的天气图片和评论、气象相关服务收集到的气象数据等[1]。这些数据规模庞大,数据量在几十PB左右,而且仍在增加。为合理地处理这些气象数据,研究人员主要将气象大数据分成两类,即观测数据和预测数据。观测数据是“当前的数据”表示现在实际观察到的天气现象对应的气象数据。预测数据是“未来的数据”表示通过气象模式计算得到的用来预测未来天气的数据[2]。而这些气象数据本身晦涩难懂、专业性强,对普通大众的服务性差。这就需要利用相关方法去对气象数据进行分析挖掘,凝练出简单易懂的结论服务大众。
1 數据分析方法
在任何行业的数据分析当中,数据分析方法都是其中的关键。不同的分析方法对于相同的数据会生成不同的结果,这些结果是原始数据某个或某几个方面的客观反映。了解常见的数据分析方法对气象数据理解和分析有着重要的意义。
1.1 描述性分析
所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。描述性统计分析的项目很多,常用的如平均数、标准差、中位数、频数分布、正态或偏态程度等。描述性分析的常用指标也较为常见,主要有均值、中位数、众数,极差、方差、标准差、偏度、峰度等。其中不同的指标表示数据的不同信息。均值、中位数、众数体现了数据的集中趋势。极差、方差、标准差体现了数据的离散程度。偏度、峰度体现了数据的分布形状。
描述性分析是一般数据分析方法的汇总,其主要作用为显示数据的基本信息,让分析人员对数据的基本分布有一定了解。具体统计计算方法也是大部分研究者都了解的。利用该方法获得的结果可以让研究者对当前数据有较深的认识,为深入分析数据奠定基础。
1.2 回归分析
回归分析是应用范围非常广的数据分析方法之一。该方法寻求变量之间的相关关系,来揭示数据的内在规律。具体来说,它是研究自变量和因变量之间数量变化关系的一种分析方法,它主要是通过建立因变量Y与影响它的自变量X之间的回归模型,表达自变量和因变量存在的内在逻辑,进而可以预测因变量的发展趋势。
回归分析存在多种具体的回归方法,这些方法通过自变量的个数,因变量的类型以及回归线的形状可以分为以下几个类别。
(1)线性回归。其主要特点是因变量连续,而对应的自变量可以是连续的也可以是离散的,画出来的图像具有线性特点。线性回归也通过因变量的数量分为一元线性回归和多元线性回归两类。其中多元线性回归中有大于1个的自变量,而一元线性回归只有一个自变量。线性回归的回归方程如下所示:
y=ax+b (1)
为合理使用线性回归方法,需要待分析的数据中因变量和自变量有线性相关关系。除此之外,由于线性回归方法在拟合回归曲线时使用了最小二乘法,导致数据误差对线性回归方法的拟合结果影响较大,甚至能预测出错误的结果。因此在使用时,必须事先去除待分析数据的误差从而进一步分析。
(2)逻辑回归。逻辑回归方法用于数据的基本分类。该方法是寻求两类数据之间的区别,用一个函数作为分类函数对未知的数据进行类别标注,完成数据类别的预测。逻辑回归的公式如下所示:
(2)
逻辑回归方法不要求自变量和因变量是线性相关关系。为了防止数据模型出现过拟合现象,在使用逻辑回归方法时需要筛选自变量以确保自变量和因变量之间存在相关关系。 (3)聚类分析。该方法主要实现数据内部之间的区分,让具有相同数据属性的数据聚合在一起,从而对待分析数据的内涵进行挖掘。基本的聚类方法步骤如下:第一,确定使用哪些指标来对数据进行区分;第二,计算数据指标之间的距离也就是差异程度,一般用空间距离来对比;第三,将差异程度较小的数据归结为一类,形成许多差距明显的类别[3]。
聚类分析也是当下众多研究人员使用的基本分析方法。聚类分析在具体计算时通常使用3种计算方法:Kmeans、密度聚类、层次聚类方法。
(4)判别分析。判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。該方法在气象上应用也非常广泛,例如利用距离相近的气象站数据来判断未知站的属类;在天气预报中,可以根据前期的天气观测值来判断是哪种天气现象或者是未来的火灾等级。
判别分析常常和聚类分析联合起来使用。当总体分类不清楚时,可以先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式对新样品进行判别。判别分析的具体方法非常丰富,具体包括距离判别法、Fisher判别法、Bayes判别法和逐步判别法等。
(5)主成分与因子分析。该方法利用降维的思想,在损失信息较小的前提下,将多个判别指标综合为几个主要指标。每个主要指标都是原始判别指标的线性组合,而且主要指标之间不相关,从而降低数据分析难度,简化数据分析过程,提高分析效率。
(6)时间序列分析。该方法就是对按照时间顺序排列的一组数据序列发现其中的变化规律并用于预测的统计方法。这种方法具有以下3个基本特点:假设事物发展趋势会延伸到未来;预测所依据的数据具有不规则性;不考虑事物发展之间的因果关系。在实际进行时间序列预测时,数据较为复杂,需要对时间序列的四要素进行分析,这四要素的不同组合就影响着时间序列的未来发展。这4种要素分别为长期趋势、季节变动、循环变动、不规则变动。常见的四要素组合方式有两种:一种是4种因素相互独立,可用四要素相加来表示。另一种是4种元素相互影响,可用四要素相乘来表示。
当进行数据分析时,需要对上述4种元素从时间序列中分解出来,这样才能克服其他因素的影响,从而更加客观地反映事物本来的发展规律。总结时间序列分析的预测步骤分为以下4步:
①绘制时间序列图;
②分析序列平稳性;
③建立时间序列模型;
④评估模型预测未来结果。
(6)决策树分析。该方法主要是在已知各种情况发生的概率的前提下,通过形成决策树来计算得到期望值的概率,是直观运用概率分析的方法之一。该方法模拟了人类在决策过程中对数据特征的应用,实现利用少量的数据特征类型来将数据进行分类,并判断未知数据的所属类别。
2 气象数据分析存在的相关问题
随着气象大数据发展的相关要求,气象数据分析业务也逐渐增多。但是由于相关业务发展时间较短,相关业务人员对气象数据的理解程度不同,导致不同气象数据的分析效果大不相同,大量气象数据没有充分利用。经总结,以上问题的主要原因主要包括以下几个方面。
(1)气象数据存储较为杂乱。由于气象数据采集途径不同,导致不同气象数据的对应存储方式也不同。一旦进行气象数据分析时,有可能没有快速及时地获取到全部所需的气象数据信息,影响了气象数据分析的有效性。
(2)气象数据的数据格式不统一。气象数据时间跨度大,不同时期的气象数据的存储格式并不相同。不同格式的气象数据的数据整理相较于相同格式的气象数据更为困难。这就导致了在气象数据分析时,历史数据的使用存在天然的劣势,分析报告质量也受到一定影响。
(3)部分气象业务人员业务不熟练。气象数据分析对业务人员的要求非常高,需要他们能基本了解气象业务同时深度了解气象数据格式和数据特点。但目前气象业务人员的个人能力参差不齐,导致甚至出现不同业务人员对相同气象数据处理得到不同的分析结果。
3 结语
该文对气象数据分析中使用的基本数据方法进行了介绍,分析了不同方法对于待分析数据的要求以及该方法的特点,对今后的工作有一定的指导作用。针对气象数据分析出现的相关问题,相关业务人员应该及时排查自身问题,提高气象业务水平,为今后高效地完成工作打下坚实的基础。
参考文献
[1] 刘喆玥.我国气象大数据的发展趋势研究[J].电脑知识与技术,2019,15(21):252-254.
[2] 王丽,李云鹏,甄熙.浅析互联网大数据在气象行业的应用[J].电脑知识与技术:学术版,2018,14(24):218-219.
[3] 王德青,朱建平,刘晓葳,等.函数型数据聚类分析研究综述与展望[J].数理统计与管理,2018,37(1):51-63.
转载注明来源:https://www.xzbu.com/8/view-15155257.htm