大数据安全与隐私保护关键技术研究
来源:用户上传
作者:张晓芬
摘 要:随着计算机技术和互联网的飞速发展,数据信息技术得到了空前的发展,大数据的概念由此而生。在信息呈现爆炸式增长的今天,大数据的产生给人们的生产和生活带来了很大的便利,大数据之于传统数据相比,最明显的特点是数据量非常大、数据价值的无限、数据类型的复杂,在实际的应用中大数据更加高效且多元化。但是在大数据实际的运用过程中也存在着许多的问题,比如大数据安全和隐私保护问题给人们带来非常多的麻烦。因此从大数据的运用现状入手,来重点谈谈大数据安全与隐私保护关键技术。
关键词:大数据;隐私保护;关键技术;信息安全
中图分类号:D9 文献标识码:A doi:10.19311/j.cnki.16723198.2019.32.071
0 引言
科学技术是一把双刃剑,在当今大数据被日益普及的今天,由大数据带来的价值和大数据引发的安全问题同样引人注目,各种由于大数据没有被妥善处理造成的泄露用户隐私泄露问题层出不穷,给人们带来非常严重的危害。网络的普及使得人们对于大数据的安全问题的重视程度越来越高,对于大数据安全与隐私保护关键技术的研究也越来越多。
1 大数据安全与隐私保护研究背景和研究意义
1.1 大数据安全与隐私保护研究背景
随着互联网信息技术的发展,大数据与云计算成为人们关注的焦点。Web 2.0时代的到来,使得互联网发展进入了一个新阶段,普通用户不单单是信息的浏览者和接受者,而成为信息的制造和参与者,各种信息数据呈现大爆炸式的增长。美国互联万数据中心指出,互联网的数据是以每年50%的增长速度,数据的增长速度快且呈现多样,不仅表现为在互联网或者移动互联网使用中所产生和发布的各种信息,还包括各类数字设备和计算机系统所产生或采集到的数据,包括全世界的电表、汽车和工业设备等的数码传感器的数据信息,一些关于运动、位置、震动、温度等变化的信息等。与传统的数据相比,大数据的产生给人们的生活和企业的生产都带来非常大的改变。大数据和计算机技术的结合,使得企业能够从众多的数据信息中提取出来并被运用从而提高生产的效率和经济效益。大数据渗透到人们生活中的各个方面比如医疗、卫生和环境保护等,使得人们的生活发生了翻天覆地的变化。大数据时代的到来,使得众多领域都发生了巨大的变革。同时我们还应该看到,大数据时代的到来给网络架构和数据处理能力带来了巨大的挑战,如何海量的数据中准确且方便地提取出有用的信息,如何保障大数据的可信性,如何保护大数据中的普通用户的隐私信息等,成了摆在人们面前的一个难题。现在,在生产领域以阿里巴巴和谷歌为代表的互联网企业正在搭建大数据存储和分析平台,而在学术界对于大数据分析的研究也层出不穷。
1.2 大数据安全与隐私保护研究意义
大数据在国内外发展非常迅速,但是随之而来的大数据的安全与隐私保护问题也屡见不鲜。大数据的安全与隐私保护涉及每一个人的相关利益,近些年人们在网络上的一言一行都被互联网和大数据记录了下来,使得人们的社交情况、生活习惯、阅读习惯、消费习惯、生活方式等信息被互联网商家掌握,一旦发生外泄给人们带来很多的不便和困扰。同时大数据的可信性如果受到挑战,使得一些虚假的数据盛行网络,而虚假的数据又会给企业在分析时产生错误或无效的大数据分析结果,使得企业在进行大数据预判消费者的消费习惯等时出现较大的偏差,影响了后期的生产过程和销售过程,不利于企业利润最大化和企业价值目标的实现。
我们要意识到大数据安全和隐私保护能够带来国家的稳定和经济的繁荣,大数据的安全既关系到普通的生活生产,还会关系到国家的长治久安和国家安全,只有建立完整的大数安全与隐私保护,才能捍卫国家网络空间主权,保护国家信息的安全,提升国家层面的信息数据竞争力,维护国家的稳定和经济的可持续发展。同時大数据在安全和隐私保护等技术上有所突破,有可能会产生新的行业或产业,由此产生的数据服务、数据材料迈入信息化和数字化的新阶段,最终实现了人—机—物三者的有机融合,实现了产业技术的升级。总之,大数据安全与隐私保护意义深刻,我们应该予以高度的重视。
2 大数据带来的安全与隐私保护的挑战
2.1 大数据中的用户隐私外泄
大数据在使用过程中经历了数据的生成、数据的存储、数据处理和分析、数据的应用这几个阶段。在大数据安全与隐私保护系统中数据的生成者、数据的收集和监管者、数据的用户都有可能会造成数据和隐私的外泄。首先,大数据的生成和拥有者,一些数据或信息通过主动或被动的形式为大数据拥有者所获取,比如银行的用户交易信息,在用户进行交易或者开户时所填写的用户姓名、电话、住址和职业等,还包括用户在银行的存款、经济状况和消费习惯等都会通过开户建档的形式成为银行所拥有的企业信息资料。这些信息记录一旦完成用户交易这个过程,就会脱离作为这些数据的生成者的用户的掌控,成为银行所掌握和使用的资料,给用户的隐私保护带来巨大的威胁。其次,数据的收集和监管者造成的用户隐私泄露,这些持有大数据信息的单位或个人是数据的管理者,也是数据的分析和使用者,他们通过各种技术和手段对于大量的数据进行分析和挖掘,找出有用的信息来进行使用从而进一步提高企业的生产利润。在这一过程中如果没有对相关信息进行匿名或相关处理,就有可能会在数据分享或公开的过程中发生用户隐私的泄露。第三方面是数据用户也就是从数据收集者手里通过有偿或无偿的方式获得的数据或有关数据的查询信息,这些数据虽然是经过脱敏等处理过的,但是也有可能通过一些技术进行还原,造成用户隐私外泄。最后是数据攻击者,这些数据攻击者或者通过合法购买的方式,或者通过非法攻击的手段来取得相关数据信息,获得数据生成者的一些包括姓名、年龄、消费习惯等敏感信息,从而进行某些活动的行为,数据攻击者是造成用户隐私外泄的最有可能的因素所在。总之在大数据的生成、储存、使用和监管过程中都缺乏有效的监督和监管技术,用户无法确保自己的相关信息是否被用于合理的研究还是非法的买卖。 2.2 大數据中的可信性下降
大数据的可信性的威胁主要表现在两个方面:首先大数据本身被篡改或者刻意被伪造,使得数据在传输和使用前就出现了失真的情况,从而造成的大数据的可信性大大下降的情况。为了达到一定的商业目的通过伪造和仿造的形式来制造一些虚假的数据信息,错误的数据得出的往往是错误的结论或决定,这导致了大数据的使用者,比如一些使用这些数据的企业会根据这些错误的结论作出不利于企业发展的战略决策,使得企业在激烈的市场竞争中处于不利的地位。再加上假的数据信息往往是和真的数据信息相互结合的,我们很难从冗繁的数据库中通过信息安全鉴别手段从而找出哪个信息是假的,哪个信息是真的;其次。大数据信息在传播和使用过程中出现的失真和偏差,从而影响了大数据的可信性。这一过程造成的数据失真很大程度上是由于人为干预所引起的,在数据的采集过程中或者有意或者无意造成大数据的误差和失真,也会造成数据分析的结果的偏差。另外一些过时的早期信息也会对大数据的可信性构成威胁,比如早已经更改的联系方式的个人或企业,由于收集的相关数据信息没有及时的补充和更新,不能真实反映现今的真实状况。
2.3 缺失大数据的规范管理
现如今,我国政府和有关部门还没有制定专门的有关大数据信息安全和用户隐私保护的法律法规,对于当今大数据的监管主要还依靠企业的自觉和个人的职业道德,当真的出现大数据安全和用户隐私泄露时又没有进行及时止损,由此而造成的损失则会越来越大。同时再加上大数据的使用过程比较多且复杂,人和一个环节都有可能会出现安全或隐私泄露问题,我们要对这其中的每一个环节进行监督和管理,由此所带来的相关管理成本增大。
3 大数据安全与隐私保护关键技术
3.1 数据发布匿名保护技术
数据发布匿名保护技术是实现大数据安全和隐私保护的基本手段和核心关键技术。隐私保护数据包括微数据、标识符、准标识符、敏感属性和非敏感属性等几个方面,以银行开户信息为例,微数据指的是原始的个人数据,开户人的姓名是标识符,而开户人的性别、年龄、职业和家庭住址等属于准标识符,而开户人的银行流水情况和资产多少都属于敏感属性,应该得到保护,如果一旦这些信息被泄露出去,就会使得客户受到各种困扰,对他的生活造成不利影响,因此我们在数据发布中要实行匿名保护技术,从数据的发布角度保护用户的隐私问题,提出MNSAGM匿名模型和算法,从而有效抵御多维数值型敏感属性数据的近似攻击。
3.2 社交网络数据的匿名化隐私保护技术
社交网络数据的匿名化隐私保护技术指的是在计算机网络和数据库中运用对敏感信息进行模糊、隐匿和清洗的过程,从而将用户隐私的泄露风险降低到最小水平。社交网络具有图结构的特征,社交网络之间的所记录的数据不是相互独立的,而是相互之间存在着某种关联,或者是协同关系或者是关联关系,所以数据攻击者有可能通过一种数据信息从而推测得出另一种数据信息,也可以通过公开信息去推测隐匿的信息,所以我们要推广社交网络数据的匿名化隐私保护技术。社交网络数据的匿名方法包括树泛化、域泛化、数据扭曲和子图匿名四种,不同的社交网络类型选择的匿名方法也各不相同。针对协同性社交网络,可以通过树泛化和分类树的匿名方法来清除隐私标识符对用户的辨认作用从而实现匿名化的隐私保护。对于关联性社交网络的匿名化方法采用的是域泛化和消减树的方式来实现匿名模型的节点隐私和边隐私。针对大规模协同性社交网络采用树泛化和并行改进的匿名方法。而复杂关联性社交网络采用的是域泛化和平衡理论的匿名方法。
3.3 数据水印技术
数据水印技术是将标识信息嵌入到数据载体内部,但是却不影响数据的使用的一种技术方法。数字水印是信息隐藏技术的一个重要研究方向。数字水印技术具有很高的安全性,信息难以篡改或伪造,而且误检测率特别低。同时数据水印技术还具有很高的隐蔽性、鲁棒性和水印容量。在使用数据水印后,不影响被保护数据的正常使用,而且在经历过多次信息处理或修改后,可以准确鉴别其真实性和完整性。我们要运用数据水印技术就要掌握数字水印生成和隐藏技术、水印防复制技术、抗衰减技术、数字水印检验机读化技术等。
3.4 数据溯源技术
数据溯源技术是对大数据的记录来源、传播和计算的过程等进行追根溯源,从而确保数据的准确性和精确性,为后期的数据的分析和使用提供有效的支持和辅助。我们在数据溯源过程中常用的方法包括标注法和反向查询法两种。标注法是对原始数据的重要信息进行标注并使其随着原始数据的传播而传播的过程,反向查询法是用户通过设置函数和相对应的验证函数来进行逆向推理的过程。总之数据溯源技术的应用十分广泛,并在大数据安全与用户隐私保护中起到了非常重要的作用。
3.5 风险自适应的访问控制
风险自适应的访问控制主要适用于因为数据安全管理员缺乏专业大数据安全管理知识,缺少为用户指定访问数据经验的大场景中。我们可以提前设置一个访问的预定门限,当某一位用户在进行大数据访问的过程中超过了这一预定门限,就对其采取限制措施,使其不能再继续访问。我们要设置风险自适应的访问控制的门限就要综合多方面的因素来考虑,实现既能保护用户的隐私和数据的安全,又能尽可能满足大数据使用者的数据信息使用的需求。
4 总结
大数据带来的安全问题和用户隐私泄露问题值得我们每一个人进行深思,我们要通过对关键技术的完善和发展,包括数据发布匿名保护技术、社交网络数据的匿名化隐私保护技术、数据水印技术、数据溯源技术和风险自适应的访问控制等,将大数据的安全和用户隐私泄露的隐患降到最低,真正实现大数据为人们的生产和生活服务。
参考文献
[1]冯登国.张敏.李昊.大数据安全与隐私保护[J].计算机学报,2014,(37).
[2]曾琴.大数据环境下隐私保护及其关键技术研究[J].数字技术与应用,2018,(07).
转载注明来源:https://www.xzbu.com/2/view-15021276.htm