基于内容挖掘的广域信息管理系统业务数据安全
来源:用户上传
作者:
摘 要:针对广域信息管理系统(SWIM)服务共享中的数据安全问题,分析了SWIM业务流程中的安全隐患,提出了一种基于潜在狄利克雷分配(LDA)主题模型和内容挖掘的恶意数据的过滤方法。首先对SWIM四种业务数据进行大数据分析,然后通过LDA模型对业务数据进行特征抽取完成内容挖掘,最后利用KMP匹配算法在主串中查找模式串,从而检测出含有恶意关键字的SWIM业务数据。在Linux内核中对该检测方法进行测试,实验结果表明该方法能够有效地对SWIM业务数据进行内容挖掘,与潜在语义分析 (LSA)和基于概率统计的潜在语义分析(pLSA)的方法相比也具有更好的检测性能。
关键词:内容挖掘;关键字匹配;特征匹配;广域信息管理系统;业务数据
中图分类号: TP309.2
文献标志码:A
Abstract: Considering the data security problems of service sharing in SWIM (System Wide Information Management), the risks in the SWIM business process were analyzed, and a malicious data filtering method based on Latent Dirichlet Allocation (LDA) topic model and content mining was proposed. Firstly, big data analysis was performed on four kinds of SWIM business data, then LDA model was used for feature extraction of business data to realize content mining. Finally, the pattern string was searched in the main string by using KMP (Knuth-Morris-Pratt) matching algorithm to detect SWIM business data containing malicious keywords. The proposed method was tested in the Linux kernel. The experimental results show that the proposed method can effectively mine the content of SWIM business data and has better detection performance than other methods.
Key words: content mining; keyword matching; feature matching; SWIM (System Wide Information Management); business data
0 引言
近年来,迅猛增长的飞行流量和航空运输量与空管保障能力之间的矛盾不断加剧[1],现有的民航业务系统间互联的方式也已不能满足系统之间信息共享的发展需求,国际民航组织(International Civil Aviation Organization, ICAO)在2002年正式发布了广域信息管理系统(System Wide Information Management, SWIM)概念。SWIM使得处于分散地理位置的多个数据源能够协同更新信息数据,实现航空公司、机场部门、空管局之间的信息实时共享[2]。SWIM通过引入虚拟信息池,管理不同的业务数据。SWIM业务数据的安全不仅是保证SWIM顺利发展的前提,更是保证航空安全的关键。2015年6月21日,波兰航空公司的地面操作系统遭到黑客攻击,数据内容出现错误,系统瘫痪,多个航班无法正常飞行。国际民航领域对信息网络安全情况的调查发现,黑客的攻击导致民航业务数据内容错误,影响了民航运输的正常运行。数据安全的目标是要确保数据的完整、机密性和可用性,目前数据传输过程中,主要采用数据加密的方法,但针对到达客户端的数据内容进行安全性检测的研究开展得还较少[3]。因此,对SWIM的业务数据进行内容挖掘,查找恶意信息,对SWIM业务数据共享十分重要。本文主要针对SWIM的业务采用特征抽取的方法进行内容挖掘,在此基础上对选取的内容查找恶意关键字,从而排除SWIM数据共享中的安全威胁。
1 SWIM业务流程中安全隐患分析
订阅/发布和请求/响应是SWIM 主要的通信方式,本文选取SWIM Web訂阅/发布服务进行研究。通过对SWIM Web订阅/发布服务的服务内容和工作流程进行分析,总结了目前SWIM发展过程中存在的安全隐患。
1.1 SWIM Web 订阅/发布服务的服务内容
SWIM Web订阅/发布服务采用基于主题的订阅/发布模式,一个SWIM客户端可以同时订阅多个主题,多个SWIM客户端也可以订阅同一个主题,服务提供者发布主题,然后SWIM根据订阅信息将订阅主题并发发送给多个客户端。SWIM Web订阅/发布服务主要提供以下服务内容:
1)主题订阅和管理订阅信息服务,服务对象为SWIM订阅客户端。参照状态资源通知协议,SWIM Web订阅/发布服务器对SWIM订阅客户端的SOAP(Simple Object Access Protocol)消息格式的订阅请求进行处理,建立订阅信息,并提供相应的操作接口[4]。订阅管理服务提供对通知事件触发、订阅队列查询、通知消息构造、多线程通知消息并发发送功能的支持。 2)异步通知服务。通知消息是SWIM Web订阅/发布机制中最重要的数据,通知服务将通知消息以异步并发的方式发送给多个SWIM订阅客户端[5]。SWIM订阅客户端利用服务监听端口,获得异步通知服务的实时动态。另外,异步通知服务引入事件传递的服务质量接口,并提供了较为丰富的服务质量参数和多样化的设置方式,如支持可靠性、时间约束、优先级等需求。
3)主题封装和主题调度的服务,服务对象为SWIM发布客户端。SWIM发布客户端将有状态的资源信息作为事件源发布到SWIM,SWIM Web订阅/发布服务器将这些事件源封装为主题进行存储,并可以根据SWIM订阅客户端的请求进行主题调度[6]。
以气象情报为例说明SWIM Web订阅/发布服务的服务内容,在民航气象信息交换过程中,气象信息参与到航线管理的整个过程中,对飞行安全至关重要[7]。气象信息的交换和管理主要依靠民航气象部门,交互的气象数据主要包括:民航气象电报报告数据、民航气象明语报告数据、热带气旋和火山报告数据、飞机报告数据等,SWIM Web订阅/发布服务器要针对这些气象数据类型生成订阅主题,进行主题封装和调度,提供订阅主题和异步通知的服务。民航气象部门中的民航气象中心负责广域信息管理系统的气象情报交换,为空管运行单位和航空公司等业务单位提供全国性的航空气象服务。
民航气象服务系统将业务数据发布到SWIM,各大航空公司通过向SWIM订阅相应气象情报主题获取所需信息。当民航气象中心将信息发布到某一具体的主题,SWIM将这些信息发送给订阅该主题的航空公司。在气象情报信息中,主题分为两部分:根主题和子主题,民航气象中心被设定为根主题,下设子主题,子主题下面可以再下分子主题,从而实现气象数据信息的存储。
1.2 SWIM Web 订阅/发布服务的工作流程
SWIM Web訂阅/发布服务采用状态资源通知协议。在SWIM Web订阅/发布服务器中,状态资源的改变可以为通知机制提供事件源。SWIM Web订阅/发布服务器采用状态资源通知协议下事件驱动的代理通知机制,在Web Service技术基础上提供对订阅/发布服务的支持,利用状态资源进行建模,订阅消息和通知消息使用XML格式描述,使用SOAP消息交换格式,实现Web服务中数据共享的功能[8]。
SWIM Web订阅/发布服务的实现必须由发布客户端、订阅客户端和SWIM三方参与。以气象情报订阅/发布服务为例说明SWIM Web订阅/发布服务的工作流程:发布客户端为民航气象部门,包括民航气象中心、地区气象中心和机场气象台,负责发布气象情报信息;订阅客户端为空管运行单位和航空公司,可以通过订阅操作获得某一航线上的气象信息[9];SWIM在民航气象部门和航空公司之间,主要负责为航空公司存储和管理订阅消息,为民航气象部门缓存气象情报数据,以及主题更新后向航空公司发送通知。
1.3 SWIM 业务流程中安全隐患分析
SWIM气象交换逻辑模型规范以数据为中心,支持SWIM数据交换过程中气象信息的收集、传输和转换。气象信息交换模型主要包括三个部分:气象交换概念模型(Weather eXchange Conceptual Model, WXCM)、气象交换逻辑模型(Weather eXchange Logical Model, WXXM)和气象交换XML模式(Weather eXchange XML Schema, WXXS)。气象信息交换模型和模式(WXCM、WXXM、WXXS)包含空中交通行业对气象业务所有的需求,为气象信息交换业务的协调和互操作提供了条件。
主题发布服务完成了SWIM发布客户端的气象情报信息的主题封装和主题调度,主题订阅服务完成了SWIM订阅客户端对气象情报的订阅请求处理,当SWIM发布客户端的气象情报主题列表进行信息更新时,SWIM的异步通知服务负责构造通知消息,将更新的主题信息发送到相应的订阅客户端。
订阅客户端在订阅成功后,会开启订阅请求中的服务监听组件对通知消息进行监听,监听组件会持续监听来自SWIM Web订阅/发布服务器的通知消息,一旦收到通知消息后,会对通知消息进行解析获取订阅主题的更新信息。
状态资源模块接收到民航气象部门的主题更新请求后,调用注册的回调接口告知事件管理器,然后事件管理器构造对应的通知消息并交给SWIM进行转发。SWIM转发消息的方式是遍历订阅队列,并逐一给各个航空公司订阅客户端发送异步通知消息。
如果在SWIM进行异步通知服务的过程中,内部工作人员对外发送含有恶意内容的数据包,若不能及时过滤,将直接威胁民航运输安全,因此,需要及时对含有恶意内容的攻击数据包进行滤除,保障SWIM的服务质量。
4 结语
本文利用LDA主题模型对SWIM Web订阅/发布服务内容进行主题提取,然后通过KMP匹配算法对提取主题中的字符串进行过滤,进而得到安全的SWIM业务数据。实验结果表明,本文方法可以完成对SWIM业务数据恶意内容的过滤,且效率更高。同时,与潜在语义分析 (LSA)和基于概率统计的潜在语义分析(pLSA)的方法相比,本文方法结合了SWIM的业务流程,从业务主题的角度出发,能准确、及时地检测出现在SWIM系统中的恶意内容,对SWIM的安全通信有重要的实际意义。
参考文献:
[1] KANG J, CHOI K, KIM Y, et al. A method of integrating information for SWIM [C]// Proceedings of the IEEE 13th International Symposium on Autonomous Decentralized System. Washington, DC: IEEE Computer Society, 2017: 195-198. [2] LEITE A F, LI W G, FREGNANI J A, et al. Big data management and processing in the context of the system wide information management [C]// Proceedings of the IEEE 20th International Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2017: 1-8.
[3] Q M, LU S. Overview of system wide information management and security anylysis [C]// Proceedings of the IEEE 13th International Symposium on Autonomous Decentralized System. Washington, DC: IEEE Computer Society, 2017: 191-194.
[4] MOALLEMI M, CASTRO-PENA C A, TOWHIDNEJAD M, et al. Information security in the aircraft access to system wide information management infrastructure [C]// Proceedings of the 2016 Integrated Communications Navigation and Surveillance Conference. Piscataway, NJ: IEEE, 2016: 13-17.
[5] LU X, KOGA T. SWIM concept-oriented information integration for air traffic surveillance [C]// Proceedings of the 6th Global Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2017: 1-2.
[6] 尤濤,吴其蔓,王川文,等.面向内容发布订阅系统的向量订阅与共享机制[J].通信学报,2015,36(10):101-109. (YOU T, WU Q M, WANG C W, et al. Vector subscriptions and sharing mechanism for content-based publish/subscribe system [J]. Journal on Communications, 2015, 36(10): 101-109.)
[7] 付戈,张欣华,李超.面向多应用多租户的消息数据订阅关键技术研究[J].信息安全网络,2017(11):44-49. (FU G, ZHANG X H, LI C. Study of message data subscription based on multi-application big data analysis [J]. Netinfo Security, 2017(11): 44-49.)
[8] 谢英英,石涧,雷凯.基于NDN的高效发布/订阅系统设计与实现[J].重庆邮电大学学报(自然科学版),2018,30(1):103-110. (XIE Y Y, SHI J, LEI K. Design and implementation of efficient publish/subscribe system via named data networking [J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2018, 30(1): 103-110.)
[9] 吴志军,刘中,胡涛涛.面向SWIM系统改进的服务调度算法[J].计算机科学,2017,44(11A):366-371. (WU Z J, LIU Z, HU T T. Improved service scheduling algorithm for swim system [J]. Computer Science, 2017, 44(11A): 366-371.)
[10] 王少楠,宗成庆.一种基于双通道LDA模型的汉语词义表示与归纳方法[J].计算机学报.2016,39(8):1652-1666. (WANG S N, ZONG C Q. A dual-LDA method on Chinese word sense repressentation and induction [J]. Chinese Journal of Computers, 2016, 39(8): 1652-1666.)
[11] 彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取[J].软件学报,2017,28(3):676-693. (PENG Y, WAN C X, JIANG T J, et al. Extracting product aspects and user opinions based on semantic constrained LDA model [J]. Joumal of Software, 2017, 28(3): 676-693.)
[12] 郭蓝天,李扬,慕德俊,等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. (GUO L T, LI Y, MU D J, et al. A LDA model based topic detection method [J]. Journal of Northwestern Polytechnical University, 2016, 34(4): 698-702.)
[13] 朱宁洪.字符串匹配算法Sunday的改进[J].西安科技大学学报,2016,36(1):111-115. (ZHU N H. Improvement of Sunday pattern matching algorithm [J]. Journal of Xian University of Science and Technology, 2016, 36(1): 111-115.)
[14] 李明月,张善卿,陆剑锋,等.一种改进的Sunday匹配算法[J].杭州电子科技大学学报(自然科学版),2015,35(1):93-96. (LI M Y, ZHANG S Q, LU J F, et al. A modified sunday matching algorithm [J]. Journal of Hangzhou Dianzi University (Natural Sciences), 2015, 35(1): 93-96.)
[15] 赵国锋,叶飞,姚永安,等.一种面向云中心网络入侵检测的多模式匹配算法[J].信息网络安全,2018(1):52-57. (ZHAO G F, YE F, YAO Y A, et al. Design and implementation of a multi-pattern string matching algorithm in cloud center network intrusion detection system [J]. Netinfo Security, 2018 (1): 52-57.)
转载注明来源:https://www.xzbu.com/8/view-14941677.htm