您好, 访客   登录/注册

聚类算法在流量分析中的应用

来源:用户上传      作者:

  摘要:本文从网络流量的数据来源出发,浅谈了聚类算法处理网络流量的基本流程。
  [关键词]聚类算法 流量分析 数据处理 FCM
  随着互联网的发展,各种网络应用层出不穷,人们对网络带宽的需求增加。对网络运营商、网络管理员来说,高效识别和管理网络流量,能有效进行网络带宽分配和网络调度;流量识别也能帮助某些应用对用户行为开展研究,以提供更好的服务,如购物网站、广告精准投放等;在网络安全领域,通过流量分析,识别正常网络流量和异常流量,辅助识别网络攻击。
  1 流量分析数据来源
  数据传输的封装特性使管理员无法打开流量数据包查看内容,只能根据流量的特点进行大致分类。流量分析数据来源有两种,一种是离线流量数据,一种是实时流量数据。
  数据集是离线流量数据的典型代表。在实际研究中,训练流量分析算法一般均会采用特殊处理的网络流量数据集,如MCFP、HTTP DATASET CSIC 2010、WIDE、KDD99等。某些数据集已经标注正常网络流量和异常网络流量,并提供了训练集和测试集,在监督学习中有很重要的作用。
  但是随着网络协议的不断演进,网络通信双方采取异种网络协议的情况增多,網络攻击方式的多样化,对网络流量数据包的正确标注需要耗费大量的人力,异形数据、加密数据给数据标注带来更多困难。在网络流量分析模型中,绝大多数样本都是正常的,只有极少数是异常的,在先验概率较低的情况下,这部分异常样本往往会被忽略,这种非均衡化特性使监督算法效率降低,而且随着网络带宽的增加和网络应用的数目剧增,对网络实时流量的分析成为主要诉求。
  个人用户可以利用wireshark、sniffer等软件捕获实时流量,利用软件自带的协议分析、故障诊断、入侵检测等模块,匹配用户自定义规则,可以便捷对网络流量进行分析和处理。但软件捕获局限性较大,一"般只能捕获通过本机网络适配器的数据。网络数据包从发送方到接收方需要经过数个网络设备如交换机、路由器、网关等,在此过程中,网络运营商可以通,过监听网络设备端口、设备端口复制等方式对流量进行采集。监听网络设备端口采集流量一般要对设备进行专门的配置,且流量采集和存储要求较高,这种大规模的流量采集和分析可以为运营商提供网络整体性能分析依据。
  实时流量采集面临诸多问题,首先是采集效率,采集来的流量数据包含大量无用信息,价值密度低,不能直接进行处理;其次是实时流量包含用户隐私,采集数据使用不当会造成用户隐私泄露。
  2 流量数据预处理
  数据集中的流量数据和采集来的原始数据价值密度低,噪声数据、冗余数据、数据缺失均会影响算法的处理效率,因此,在流量分析前需要对这些数据开展预处理工作,加快数据分析的过程。
  数据清洗。数据清洗的主要任务是对缺失数据进行填充,平滑噪声数据,检测并去除离群点,过滤不符合要求的数据。
  数据变换。数据变换指将数据转化成适合处理的形式,如将连续数据离散化、减少数据复杂度、按比例缩放数据、增加数据粒度等,经过变换的数据呈现的行为会比未变换的数据更加容易挖掘,但也可能导致一些细节丢失。
  数据降维。尽管在某些情况下,数据的高维特性可以帮助数据分类,但对于网络流量而言,某些维度存有大量与数据分析无关的信息,这些冗余信息会减慢数据分析进程。数据降维是指找出能最佳替代原始数据的最小属性集,在保留数据矩阵的关键特征的前提下,对高维数据进行低维投影有利于数据挖掘和可视化。3聚类算法在流量分析中的应用
  非监督的分析方式由于不需要事先标注,成为网络流量分析的主要手段。聚类算法能在非监督的情形下把数据对象集划分为多个组或簇,簇内对象具有极高相似性,簇间对象有极大不同。在流量分析过程中,能将自动将行为类似的网络流量分为关系紧密的子集或簇。
  K-means算法是经典的基于数据对之间距离的聚类形式,将数据划分成多个相互排斥的簇,随机给定样本初始聚类中心,在样本类别未知的情况下,计算样本的距离(欧氏距离、闵氏距离、马氏距离等),根据样本离簇中心的远近,将样本划入各个簇,最终,每个样本都被确切划分到一个簇中。这种严格将数据样本划分到具有明确界限的簇是典型的硬划分形式。
  由于有时数据界限不那么明确,样本不能被严格划分到簇中。基于模糊集的FCM算法能解决数据界限不明确的问题。在模糊聚类中,每个样本对簇的隶属度范围以[0,1]表示。但是模糊聚类算法也存在一些问题,比如对初始值和噪声敏感、矩阵计算耗时长等。为了解决大数据环境下FCM聚类时间长的问题,QingYu等提出了基于MapReduce框架的FCM算法,王桂兰等针对FCM算法会产生大量矩阵计算的问题,提出并行环境下的FCM算法。
  其他聚类算法如DBSCAN、SSN、CURE等在流量分析中均有广泛应用。
  4 结语
  网络技术的发展日益成熟,对网络流量分析的要求也越来越高,对流量进行分析可以监测用户行为,及时发现网络异常,能帮助人们尽快做出应对。
  参考文献
  [1]杨雅辉,网络流量异常检测及其分析研究[J].计算机科学,2008(05):108-112.
  [2]汪立冬,钱丽萍.网络流量分类方法与实.践[M].北京:人民邮电出版社,2013.
  [3]Qing Yu, Zhimin Ding. Improved Canopy-FCM Algorithm Based 0n Ma pReduce. International Congress on Image andSignal Processing [C]. USA: IEEE, 2016.
  [4]王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(02):342-347.
转载注明来源:https://www.xzbu.com/1/view-14928116.htm