基于Hadoop的大数据网络安全实体识别方法
来源:用户上传
作者:
摘要 本文主要针对Hadoop的大数据网络安全实体识别方法展开研究,希望能够为相关工作者提供理论帮助。
【关键词】Hadoop 大数据 网络安全 实体识别
现阶段,网络在人们的生活中扮演着无法替代的重要角色。而随着网络用户的增加以及数据信息的扩展,人们对于网络安全的要求也越来越高。在网络信息安全处理工作中,传统的信息处理方式以及网络安全实体识别方法已经无法满足当前海量数据处理的实际需求。因此在对网络安全实体识别工作的研究中,许多学者发现应用Hadoop能够有效的保障网络安全实体识别工作的质量。当前,Hadoop在诸多行业中都有应用,其中:通过Hadoop能够支持雅虎广告系统功能以及搜索功能;Hadoop在Facebook中的应用能够提供数据处理与分析功能......种种实例表明,Hadoop能够对海量信息进行处理。而且Hadoop能够应用与网络实体安全的识别工作中,提升网络数据信息的处理能力,保障网络运行安全。
1 Hadoop概念阐述
1.1 Hadoop关键技术
HDFS以及MapReduce开源实现是Hadoop体系结构的核心部分。其中,HDFS具有高伸缩性、高容错性的应用优势,并能够适用于一些低廉、普通的硬件工作中,形成分布式系统,便于对数据信息进行管理。借助MapReduce能够为用户提供开发并行应用程序。MapReduce可以实现集群并行任务处理以及分布式计算。借助HDFS和MapReduce,能够对数据信息进行监管,支持基本的数据存储以及操作等功能。在对HDFS展开研究并以此为基础,MapReduce,实现了任务跟踪功能、分发功能以及执行功能。此外,MapReduce还能够对最终处理结果进行收集,从而实现Hadoop的主要任务。
1.2 Hadoop网络安全实体识别分析
数据采集系统对网络安全设备的数据信息进行采集,并生成数据文件。将这些数据文件利用指令将其存储在HDFS中。通过HDFS能够将多个硬件资源节点进行分布式存储。利用MapReduce对数据信息进行分析处理,并将最终分析结果进行展示。MapReduce输入可支持多种格式,并将之HDFS中。借助用户设定的InputDataFormat,利用Hadoop将不同数据文件进行分割,并将分割完成后的(key1,value1)集合作为map函数进行处理,并在分组完成后将数据传递给reduce函数,通过reduce函数得到最终的输出结果。将输出结果载入文件中,并将结果进行文件格式配置。
2基于Hadoop网络安全实体识别方法的实现
2.1 共享机制的输入
由于条件函数依赖约束的构成是tableau,因此,在执行检查条件函数依赖关系的约束过程中应针对每一个tableau进行检查。并对不同的Reduce任务以及Map任务进行合并,最终实现对多个MapReduce合并成一个单独的任务进行处理。MapReduce任务的共享机制适用于多种情况下。本文中假设MapReduce任务数量两个,并将之扩展到MapReduce任务组中。Reduce阶段属于多个原始输入任务元组,需将之划分到原始任务Reduce函数中注意,在输入共享机制过程中,若Map任务与任务一般无二,则可以对其进行同时的输入共享,将之成为一个全新的MapReduce任务进行輸入共享,无需进行重复扫描。
2.2 Map函数以及Reduce函数的实现
Hadoop框架中Map函数有公共类以及接口类的定义。可采用Mapper公共类方法来实现文中Hadoop网络安全实体识别中map函数的设置。针对Java数据类型,Hadoop平台采用了不同种类对其进行封装。这些不同类型的封装能够更有利于对数字浮点进行归类,便于节点之间的数据传递以及转换。其中,VALUEIN代表数据本身,能够对数据的属性进行分析解读,并读取每一个数据中各个属性相对应的数值。利用条件函数依赖约束的基本原则,对数据属性中的数值进行比较,将最终比较完成的结果利用属性值代替。比较完成后的结果进行组合,形成一个全新的KEYOUT。
2.3 Combine函数实现
由于假设的网络安全实体识别系统中将会重复出现大量的map函数中的key值。考虑到这一点,在对其进行combine合并函数处理map函数后,应对大量的重复key值进行合并处理,否则这些无用的key值将会对系统造成一定影响。reduce函数的实现则需借助combine功能。当全部的类都处理完成后,此时将由Hadoop平台为系统提供一个Job类。此时,Job类主要用于对与之对应的reduce、map以及combine函数进行设置。除此之外,在Job类中还应设置一些其他的相关类,从而实现与其他系统的关联,便于对数据文件的路径进行参数设置、输出/入以及存储。
3 结论
综上所述,通过对Hadoop展开研究,可知Hadoop应用于网络安全管理平台具有极大的可靠性、可用性以及实用性。而且Hadoop的应用能够减轻数据读取的实际时间,可以高效的完成网络安全管理平台的管理工作效率,而且在实际应用中具有高效性、高扩展性、高容错性等应用优势。
参考文献
[1]张春霞,王新猛,张晓熙.基于Hadoop的森林公安网络舆情监测系统设计与实现[J].信息网络安全,2018(12):82-86.
[2]李优.基于Hadoop的分布式网络爬虫设计与实现[D].西北大学,2018.
[3]吕涛.基于Hadoop平台的并行决策树算法研究[D].西安科技大学,2018.
[4]金丹丹.Hadoop容错机制中的推测执行策略优化与研究[D].南京信息工程大学,2018.
转载注明来源:https://www.xzbu.com/1/view-14841833.htm