您好, 访客   登录/注册

基于大数据的数据清洗技术及运用

来源:用户上传      作者:

  摘要:本文探讨了数据清洗技术,研究了大数据的数据清洗技术及运用,希望为研究数据清洗技术的专家和学者提供理论参考依据。
  關键词:大数据;数据清洗技术;应用
  中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2019)04-0092-01
  0 引言
  大数据时代来临,数据的类型多样化,数据的数量增多,这给数据清洗带来一定的问题,如何科学有效的对数据清洗,满足现代企业发展需要。传统的数据清洗方法已经不适合现代社会发展需要,尤其大数据时代数据的多元化,必须更新现在数据清洗技术,提高数据清洗的能力,满足大数据时代数据清洗的需要。
  1 数据清洗技术概述
  数据在采集的过程中出现错误的数据是一种正常现象,一旦数据在应用与模型中已经形成,需要在数据库中对错误数据进行处理,这时候需要发挥数据清洗技术的作用。为了提高数据质量而剔除数据中错误记录的一种技术手段,在实际应用中通常与数据挖掘技术、数据仓库技术、数据整合技术结合应用。在具体数据清洗的过程中,根据清洗数据的特点,需要选择合适的数据清洗方式,同时选用其它数据分析相应的数据技术,对错误的数据进行科学有效的清洗,达到数据清洗的目的。
  数据清洗技术的基本原理为:在分析数据源特点的基础上,找出数据质量问题原因,确定清洗要求,建立起清洗模型,应用清洗算法、清洗策略和清洗方案对应到数据识别与处理中,最终清洗出满足质量要求的数据。在对数据进行处理的过程中,数据清洗一般起到重要作用,其需要把错误的数据清洗,这样对数据进行分析才有一定的意义。数据清洗是数据分析、数据挖掘的前提,也是数据预处理的关键环节,可保证数据质量和数据分析的准确性。数据处理是一个多元化因素,必须利用现有的技术进行科学有效的进行数据处理,在数据处理的过程中,数据清洗起到重要作用,数据分析前提必须数据正确,数据错误进行分析没有任何意义。在大数据环境下,数据清洗技术已经被广泛应用于大健康、银行、移动通信、交通等领域,在一定程度上保证了数据质量,为大数据决策提供了可靠依据。数据清洗应用的范围广,有数据的地方,基本都需要数据清洗,在互联网+时代,数据采集的多元化,这是增加数据错误的概率,进行数据清洗是非常必要的,也是非常重要的,是保障数据分析正确性起到决定性作用[1,2]。
  2 大数据的数据清洗技术及运用
  2.1 基于函数依赖的数据清洗技术
  (1)建立数据库。数据库建立是数据清洗的重要过程,对数据的分析起到重要作用,数据库对数据进行有效存储,数据清洗过程中可以通过数据库进行数据清洗,对数据库中的数据质量,通过数据库可以优化数据,在数据查找中起到重要作用,对原始数据库进行科学有效的添加,删除,选择有用数据进行分析,对一些错误数据可以利用数据库进行删除,提高了数据的利用效率,对提升数据清洗效果起到重要作用。(2)数据筛选。数据筛选是数据清洗,数据挖掘,数据分析中常用的手段,在海量的数据中,通过数据筛选对数据进行分类,有助于进行科学数据清洗,对提高数据清洗的效率,保证数据清洗的质量都起到重要作用。数据筛选都需要利用数据库中的字段进行数据筛选,字段之间有一定的关联,通过函数之间让字段产生一定联系,确定数据清洗的关联性,完整性,科学性,对提升数据分析起到促进作用。(3)数据查找。数据查找是数据库的基本功能,在数据库中进行数据查找非常方便,提高了数据查找的效率。在数据清洗,数据挖掘、数据分析中都涉及数据查找,数据查找对数据清洗都起到重要作用,利用数据库字段进行查找,提升查找效率,对数据之间的实际应用起到重要作用。(4)数据清洗。数据库之间利用字段之间的联系,对提高数据清洗的效率,完成数据清洗的能力都起到重要作用,在实际数据清洗的过程中,利用数据库之间函数之间的关系,通过字段之间的关联,对数据清洗,修复、挖掘、分析等都起到重要作用,对提升数据清洗的效率起到重要作用[3]。
  2.2 相似重复数据清洗技术
  数据清洗技术在具体清洗数据的过程中,一般需要结合算法一起使用,对提高数据清洗的效率起到重要作用。基于排列合并算法是数据清洗技术中常用的算法,在数据清洗中起到重要作用。基于排列合并算法涉及数据库的知识,对字段等进行实践应用,对提高数据筛选,数据查找等都起到重要作用,对数据清洗起到基本保障作用,数据清洗的效率提升,对数据分析起到重要作用,数据库中字段之间存在一定的关联,对其中错误的数据记录进行科学有效的清洗起到重要作用,在数据库中数据冗余现象是一种常态,数据清洗重复记录,对提高数据分析起到重要作用。基于排列合并算法的数据清洗技术对提高数据清洗效率起到重要作用,也是符合现代数据清洗技术发展的需要。
  2.3 不完整数据清洗技术
  不完整数据清洗技术主要针对数据库字段是空值或错误字段,大数据时代,数据类型的多变性,对数据库的数据采集,存储都带来了一定的挑战,在实际应用过程中,其中在数据清洗过程中涉及一些常用数据库函数,比如求和、平均、最大、最小值等。不完整数据清洗技术对数据清洗的流程有一定转变,但在实际清洗过程中根据需要科学选择清洗方法结合其它数据分析技术进行科学清洗。
  2.4 不一致数据修复技术
  大数据时代数据采集的多样化,数据类型的多元化,这增加了数据错误的概率,同时为数据清洗增加了难度。在数据清洗的过程中存在数据类型等不一致情况,利用不一致数据修复技术不一定对数据清洗进行完整,起到数据清洗的效果。大数据环境下,数据源受多种因素的影响,违反完整性约束,造成大量不一致数据的产生。数据不一致的情况也是多样化,必须对数据进行筛选,对数据科学进行归类,为数据清洗进行科学准备。在数据清洗中,要利用不一致数据修复技术使不一致数据符合完整性约束,进而保证数据质量。但在数据实际清洗过程中,会出现多元化情况,这个数据清洗带来一定的困难[4]。数据修复流程如:
  (1)检测数据源中的数据格式,对数据格式进行预处理;(2)检测预处理数据后的数据是否符合完整性,如果不符合,则要修复数据。如果在数据修复之后依然存在着与数据完整性约束不一致的情况,则要再次修复数据,直到数据符合要求;(3)数据修复完成后,将其还原成原格式,为数据录入系统打下基础。数据清洗是数据分析的重要过程,需要把一些有问题的数据清洗,提高数据分析的准确性,也促使数据分析有意义,对促进其它行业的发展起到重要作用。
  3 结语
  总之,数据清洗是数据分析中的重要环节,在大数据时代,传统的数据清洗方法已经不适合现代数据分析的要求,必须根据数据的转变,结合数据挖掘等知识进行数据清洗,提高数据清洗的效果,满足大数据时代企业对数据清洗的要求。
  参考文献
  [1] 邓线平.大数据清洗的方法论考察[J].江南论坛,2018(3):31-32.
  [2] 叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012(14):121-129.
  [3] 谭晖,廖振松,周小翠,贺凡.大数据的数据清洗方法研究[J].信息通信,2017(01):238-239.
  [4] 王志刚,毛亚琼,徐越,梁永春.生态环境监测的数据清洗研究[J].网络安全技术与应用,2019(1):94-95.
转载注明来源:https://www.xzbu.com/8/view-14941189.htm