大数据环境下的网络流量异常检测研究
来源:用户上传
作者:
摘 要:检测异常网络流量对于维护网络安全来说是一个很重要的领域,网络流量异常检测的目的是实时无误的检测在网络使用过程中发生的突发攻击事件。由于网络流量较难测量,以及网络环境较为复杂,网络流量的测量具有很多不确定性,这使得网络流量的异常检测成为维护网络安全研究的难点问题。而现有的检测方法包括数据挖掘、小波分析等,以上方法在应用过程中存在弊端,或存在算法过于困难,或者是对于网络流量异常具有滞后性,因此现有的方法对无法满足我们的实际需求。在大数据的环境下,数据量更加庞大,研究者应开发设计新的检测方法,适应时代发展,优化用户体验,提升网络使用效率,减少因网络拥挤产生的网络问题。
关键词:网络安全;流量异常检测;大数据环境
21世纪以来,网络的发展是迅速且多元化的,网络的应用深入到千家万户,随着网络应用范围的不断扩大,网络上传输的数据也逐渐增多,用户在使用过程中有时会出现卡顿的现象,不仅如此,用户数量的增加使得网络犯罪的几率也在逐渐增大,面对现状,如何保证网络的安全性及网络的正常运行是我们亟需考虑及解决的问题。网络流量作为评价网络运行情况的重要指标,对其进行检测有利于我们对网络情况进行实时检测,因此,设计高效的网络流量异常检测方法是解决网络运行情况不良的解决方法。
一、网络异常流量分类
对于网络流量的异常检测其实是将网络流量进行分类,一种是处于正常状态下的网络流量状态,另一种则是处于异常状态下,我们所设计的方法就是要及时的检测出处于异常情况下的网络流量,以及在日常维护过程中提前做出有效的相关防范措施。网络流量异常实际上是一种网络流量模式,这种模式会对日常的网络使用产生不良影响,产生网络异常的原因包括:无可使用的网络存储以及网络配置错误等;网络的不良使用,如大量频发的P2P应用模式对网络流量所造成的影响。
网络异常流量大致分为以下几种类型:Alpha Anomaly、D Dos、Port Scan、Network Scan、Worms 和 Flash Crowd。[1]
二、网络流量的测量方法
对于网络流量的检测其实是为了规范网络环境,优化网络配置,提高用户的使用效率,目前对于网络流量的测量方法主要分为两类,一种为主动测量方式,另外一种则为被动测量方式,二者的区别在于,主动测量方式会额外增加网络流量负担,产生不要的网络拥堵:
(一)主动测量技术
主动测量实际上是在两个制定端点之间加入网络流量从而测试两端点的性能,因此在测量过程中,两端点之间会产生新的流量。主动测量的方法存在弊端,因为,增加两端点之间的流量本身会加重网络负载,额外的网络流量可能会产生网络拥堵,产生额外的問题,对用户的使用可能会带来不便。
(二)被动测量技术
被动测量的方法不是向两个指定端点之间加入流量,而是在一特殊位点来检测流量,如使用路由器或交换机收集数据。[2]被动测量的优点在于不会产生附加流量,不会增重网络负担,因此,被动测量的技术的开发也在不断增加,越来越广泛的应用到实际生活中。被动测量获得的数据是一些大小不一的分组信息,可以用来进行各种流量分析,被动测量技术的发展有利于互联网的发展。
三、大数据环境下的网络流量异常检测
由于网络应用的逐渐延申,产生巨大的网络数据,对于海量的数据处理,传统计算平台已经无法满足,因此,人们开发了云计算平台,云计算平台整合全网络全部可利用数据,将大问题分解为很多小问题,最后更好的解决问题。Hadoop 是 Apacher 基金会研制的分布式的开源系统,[3]用户可以根据需要搭建自己的云平台,它由 HDFS和 Map Reduce 并行编程模型作为核心,提供了一个用户不需要了解底层的具体实现,就能使用的分布式平台。
HDFS 作为 Hadoop 系统的主要核心之一,对数据进行分布储存,且即使是配置相对较低的机器也可以具备强大的存储能力,在扩展能力和容错能力方面也具备良好的性能,在计算机复杂的环境中,局部出现失误也不会影响整体的性能。HDFS的特点就在于对于复杂且庞大的数据,具有超高的存储能力,HDFS的数据处理信息通常为数百MB、甚至数百TB。但对于稍小数据量的信息,它的处理能力就稍显薄弱。在数据访问方面,能够实现频繁的对一次写入多次读写的任务进行处理,数据越大读取效率越高。
Map Reduce 是在大规模集群上处理海量数据的并行计算模型,Map Reduce具备简单易扩展的特点,因此,Map Reduce在日志分析、海量数据查找排序等领域使用较广。Map Reduce 基本思想是借助映射(map)和规约(Reduce),将处理过程分为 Map和 Reduce操作,每个阶段的输入和输出都以<key,value>键值对的形式表示。
HDOOP平台的工作原理实际上是将大型网络流量异常检测任务分为规模较小的任务,每一个小任务由不同的处理点完成,最后汇总到总的管理点,统一分析处理,得到最终的检测结果。大数据环境下的网络流量异常检测模型的工作步骤为:
(1)首先采集网络流量数据,通常将处于网络入侵的时的数据作为网络流量异常测试。
(2)对最初的网络流量数据进行第一步优化处理,减少数据样本的量。
(3)由Map Reduce将上步所或许的网络数据信息划分为规模较小的样本,然后由各个处理点进行处理。
(4)异常检测结果反馈给管理点,得到训练样本异常检测的最终结果。
四、结语
网络环境的复杂性给网络流量的测量带来困难,但对于网络流量的测量是有利于网络环境的发展的,在大数据环境下,传统的网络流量异常检测方法已经不适用,顺应而生的就是利用云计算技术对大数据环境下的网络异常流量检测,本文对云计算平台进行分析,介绍了云计算平台的运行原理,提出新的检测方法。
参考文献:
[1]杨青.基于大数据分析的网络异常流量检测[J].机械设计与制造工程,2018,47(11):79-82.
[2]张震,汪斌强,朱珂.流量测量的关键技术分析与研究[J].计算机应用研究,2009,26(9):3442-3447.
[3]李进文.基于云计算的网络异常检测算法研究[D].河南:郑州大学,2015.
[4]华南理工大学.一种基于大数据的实时网络异常行为检测系统及方法:中国,CN201810079555.8[P].2018-05-15.
转载注明来源:https://www.xzbu.com/1/view-14913083.htm