信息安全领域中鲁棒的深度学习及其应用研究
来源:用户上传
作者:
摘要:本文初步探索了深度学习模型脆弱性,存在的潜在原因之一归结于其网络结构中高度敏感的局部线性行为。而对抗性训练的提出,旨在对抗扰动的训练集上训练深度学习模型,是一种有效的正则化方法,可缓解其脆弱性问题。由于传统对抗性训练算法依赖于已知攻击算法,在抵御其攻击时性能十分有限,而基于特征掩膜(Feature Mask)和特征填补(Feature Pad-ding)的对抗性训练防御策略的提出,不仅不依赖于对抗样本,还能提高深度学习模型的鲁棒性及安全性,并在公开交通标识识别和人脸识别数据集上,验证了所提对抗性训练防御策略在对抗环境下较优的防御性能。关键词:深度学习;脆弱性;局部线性;对抗性训练;特征掩膜;特征填补
0 引言
目前人工智能和深度学习技术在信息安全领域得到了广泛应用,具体场景包括人脸识别、无人驾驶、垃圾邮件过滤、抵抗恶意代码攻击、网络攻击等。然而在对抗环境中,可能潜在一些恶意的攻击者试图挖掘深度学习模型的脆弱性,并设计出相应的攻击算法来恶意篡改输入样本,从而降低深度学习模型的性能。随着语音、图像作为新兴的人机输入手段,其便捷和实用性被大众所欢迎。同时随着移动设备的普及,以及移动设备对这些新兴的输入手段的集成,使得这项技术被大多数人所亲身体验。然而,语音、图像识别的准确性对机器理解并执行用户指令的有效性至关重要,往往这一过程也是最容易被攻击者利用。攻击者通过对原始输入样本进行细微地修改,达到用户感知不到,而机器接受了该类样本之后却会以较大概率做出错误的判断,从而导致计算设备被入侵,错误命令被执行以及执行后的连锁反应造成的严重后果。
图1展示了攻击者通过在正常输入样本(第一行图像)中注入细微的、精心设计的对抗扰动,生成不易察觉的对抗样本(第二行图像),来紊乱Resnet50和FaceNet等经典深度学习模型,使其产生错误的输出结果(识别结果在每行图像下方)。目前主流的对抗扰动生成算法主要以梯度计算为主,例如,快速梯度符号方法(Fast Gradient SignMethod,FGSM)以及基于FGSM改进的I-FGSME。R+FGSME通过计算目标模型损失函数的梯度,并沿着梯度方向寻找对抗扰动来构造对抗样本。C&W攻击算法通过采用梯度下降优化对抗目标函数来构造对抗样本。
针对对抗样本的存在,为了提高深度学习模型在安全敏感性相关任务中的鲁棒性,Goodfellow等人首次发现深度学习模型的网络结构中存在着局部线性的现象,极易被攻击者利用,从而获取隐私信息。幸运的是,深度学习模型却不同于线性模型(如机器学习中的简单线性回归、逻辑回归等)纯粹的线性,可以通过在模型训练损失函数中添加正则化项(即惩罚函数),来消除这种局部线性本质,从而达到局部区域恒定。基于该思想,对抗性训练(Adversarial Training,AT)概念应运而生,旨在对抗扰动的训练集上训练深度模型,在不损失原有独立同分布测试集上准确率的同时,能够减缓深度学习模型脆弱性问题。然而,传统的对抗性训练思想过于依赖已知攻击算法来构造对抗样本,并注入到训练集中进行对抗性训练,从而导致防御不同类型的攻击时具有一定的局限性,即泛化能力较弱。例如采用由FGSM攻击算法构造的对抗样本,注入到正常样本中进行对抗性训练,得到的模型却无法防御由C&W构造的对抗样本。
因此。本文提出了两类更为有效的基于特征掩膜(Feature Mask,FM)和特征填补(FeaturePadding,FP)的对抗性训练防御策略。不仅不依赖于对抗样本。同时能够防御多样化的对抗样本,具有较好的泛化能力。由于防御者无法预知所有潜在的攻击样本,而FM和FP对抗性训练策略颠覆了传统对抗性训练思想,并非一定要构建对抗样本进行训练才可以抵御攻击。本文通过构建特征变换操作之后的样本进行训练。即通过模糊化输入样本来增加攻击者构建对抗样本的难度,从而实现抵御多样化攻击样本的能力。
1 相关工作
1.1 深度学习模型
深度神经网络(Deep Neural Network,DNN)作为最为常见的深度学习模型,其最基本的体系结构如图2所示。DNN由输入层、隐藏层(包括卷积层、池化层、全连接层等)、Softmax层及输出层等部分组成。其中每一层通过使用n个带参函数的分层组合来拟合高维的输入x,其建模函数可以形式化为。
其中,每个函数{fi|fi=σ(wi,fi-1),i ∈[1,n]}表示每层神经元。这些神经元是由激活函数σ。应用于前一层输入的加权表示,以生成新表示的基本计算单元。每一层由权重向量w;参数化,从而影响每个神经元的激活。
1.2 脆弱性分析
目前研究表明,对抗样本存在的潜在原因之一是由于深度学习模型欠拟合,由深度学习模型的局部线性性质导致。从公式(1)中可以明显看出,深度神经网络主要是基于线性块构建。设计的目的主要便于优化模型训练所定义的损失函数。但是,当一个线性函数面临高维输入,那么其权重向量可能会面临严重倾斜的风险。
假设,攻击者精心设计了一个微小的扰动向量r来改变原始输入X,那么权重向量为w的线性函数会产生r ||w||1之多,如果x是高维的,那么该值将会是一个非常大的数。这也就意味着细微地修改却能从很大程度上影响深度神经网络的分类。
图3将有助于进一步理解线性本质带来的弊端。假设存在一个二分线性分类器,能够很好地拟合训练集。但这个超平面没有掌握训练集真正的结果,正类正常样本的分布明显是一个弧形,沿着弧线继续采样,却越过了超平面被误分;負类正常样本的分布也容易越过超平面被误分。线性模型在没有训练集出现的地方,做出的预测通常是有问题的,这一点是由线性模型的特点导致的。当一个数据点沿着一个固定方向,在训练集中移动,当移出到训练集分布之外的区域时,模型输出的变化方向也是不变的。进一步来说,在高维空间,每个像素值只需要非常小的改变。这些改变会通过和线性模型的参数进行点乘累计造成很明显的变化。也就是说,只要方向正确,图像只要迈一小步,而在特征空间上就是一大步,就能很大程度地跨越决策层,从而迷惑模型的识别。 因此,攻击者精心设计的细微且不易察觉的扰动向量即可影响整个深度神经网络判别的原因是欠拟合。由于输入空间维度过高,模型过于线性的结果,即深度神经网络高度敏感的局部线性行为。
1.3对抗样本生成算法
由上一节所知,深度神经网络极大可能存在局部线性的特性,因其高度敏感的局部线性行为带来的潜在安全威胁,则一系列对抗样本生成算法应运而生。目前主流的对抗样本生成算法主要包括:基于梯度和基于优化的两大派别。其中基于梯度的以FGSM及其改进的I-FGSM、R+FGSM最为典型,基于优化的以C&W算法性能最优。
1.3.1 快速梯度符号方法
快速梯度符号方法(Fast Gradient Sign Method,FGSM)首次由Goodfellow等人提出,因其可以快速生成对抗样本而著称。FGSM通过计算目标模型损失函数的梯度,并沿着梯度方向寻找对抗扰动,然后添加到原始正常输入样本中来构造对抗样本。假设给定一个深度神经网络F(w;x),输入样本x及其对应的真实标签y,FGSM构建对抗样本过程如下:
其中,ε用于控制生成的对抗样本攻击能力;sgn表示符号函数,用于将向量中的每个维度值转到{-1,0,1}范围;loss函数表示深度神经网络预测值与真实值y之间的损失函数,一般深度神经网络主要以交叉熵损失函数应用居多。其定义如下:
FGSM是基于梯度攻击算法的典型,该算法尽管能够快速生成大量对抗样本,却无法保证所有对抗样本都行之有效。其根本原因在于,沿着梯度方向寻找扰动不一定会跨越模型决策边界或者过于跨过边界导致样本失真,极易被检测为对抗样本。
因此,为了提高对抗样本的攻击成功率,基于FGSM改进的迭代式算法I-FGSM,以及引入随机噪声的R+FGSM等优化攻击算法被相继提出。该类算法虽提高了攻击成功率,又增加了样本失真的概率,即轻易被检测器检测为对抗样本的风险。1.3.2 C&W攻击方法
针对FGSM算法性能上的不足,Carlini等人提出了一种基于优化的迭代算法。C&W攻击算法(Carlini&Wagner Attack,C&W Attack)不仅提高了生成对抗样本的攻击成功率,同时避免了样本失真被检测器检测出来的风险。从模型决策边界角度分析,C&W攻击算法生成的所有对抗样本相比于FGSM而言均分布在模型决策边界附近,即对正类样本构造的对抗样本均分布在负类样本一侧,负类样本反之。故而具有较高的攻击成功率,这是优化算法特有的能力。
C&W攻击算法是一种基于L-BFGS攻击算法优化改进的迭代算法,该算法通过辅助变量ω来寻找对抗扰动向量r。
其中,Z(x);表示神经网络softmax前一层类别i对应的输出。k用于控制攻击类别标记与真实类别标记之间的置信度差值(即强度),等效于公式(2)中的ε值。k值越大,攻击样本被错误分类的可能性越大。
2 对抗性训练防御策略
2.1 局部区域恒定
对抗性训练(Adversarial Training,AT)是防御对抗样本攻击的一种有效正则化方法,通过将对抗样本和正常样本一起训练,不仅可以提高模型的准确度,同时也能有效降低对抗样本的攻击成功率。对抗性训练通过激励神经网络在训练数据附近的局部区域,恒定来限制深度神经网络高度敏感的局部线性行为,如图4所示。由于其被限制为线性而无法抵抗对抗样本。而神经网络能够将函数从接近线性转化为局部区域恒定。从而可以灵活地捕获到训练数据中的线性趋势,同时学习抵抗局部扰动。
然而,传统对抗性训练得到的模型泛化性能较弱,即依赖于已知的攻击算法,在抵御其它对抗样本时陸能不佳。例如使用FGSM攻击算法构建对抗样本进行对抗性训练。得到的模型却无法抵御C&W算法构造的对抗样本。由于防御者知识是有限的,无法预知所有潜在的攻击样本。而FM和PP对抗性训练防御策略的提出,颠覆了传统对抗性训练思想。并非一定要构建对抗样本进行训练才可以抵御攻击,也可以对原始输入样本进行特征变换来迷惑攻击者,使之无法针对性地设计对抗样本,从而增加构建对抗样本的难度。基于该思想,本文对原始输入样本采取了特征掩膜与特征填补两种特征变换操作。通过模糊化输入样本后,再同正常样本一起做对抗性训练,在保证不损失模型精度的情况下,增强抵御多样化攻击样本的能力。
2.2 基于特征掩膜的对抗性训练
特征掩膜(Feature Mask,FM)是一种常用的特征变换操作,且在语义分割、目标检测等领域拥有着广泛应用。例如经典的目标检测模型Mask R-CNNE。Mask实现机制如图5所示。假设存在一张3x3维的原始图像,通过与自定义的Mask矩阵进行点乘,即对原图中的每个像素和Mask矩阵中的每个对应元素做哈达马内积(Hadamardproduct),从而得到用户所需的Mask变换图。该Mask矩阵的设计决定了最终变换图的效果,同时也决定了对抗性训练DNN的性能。
基于FM的对抗性训练策略。通过以固定比例(即图4中Mask矩阵中。的个数)随机废除部分特征来得到新的样本进行对抗性训练。图6展示了以30%的随机废除率进行特征掩膜。其中为了方便理解并未体现随机性。实际实验中是对原始W×H维特征进行随机废除。为了不影响最终DNN模型在测试集上的识别精度,一般随机废除率不宜超过50%,否则会大大降低模型准确率。
由于随机性的引入。对于攻击者而言。很难猜测到原始输入图像是如何变换的,从一定程度上增加了探索性攻击(EXploratory Attack),的难度,即直接修改原始输入样本进行攻击。
2.3 基于特征填补的对抗性訓练
特征填补(Feature Padding,PP)是另一种普遍使用的特征变换操作,其初始被熟知是卷积神经网络(Convolution Neural Network,CNN)的问世,目前主流的图像识别模型(例如VGG,ResNet,GoogleNet等)都来源于CNN。对原始图像进行卷积,操作前后会发生维度的缩减,若用户并不需要每一次都进行降维操作,就需要采用FP操作进行补O、边界复制填补、镜像填补、块填补等诸多方式扩充到原始维度,其实现机制如图7所示。 假设存在一张4x4维的原始图像x,通过与自定义的3x3水平梯度卷积核k进行卷积⑧操作,并以步长为1向右滑动窗口。最终将得到一张压缩为2x2的图像,为了获得与初始维度一致的图像x’,需要对其进行FP操作,如图7中所示。本文采用补0的方式进行特征维度扩充。其中×操作定义如下:
基于FP的对抗性训练策略设计理念来源于卷积运算中的填补机制,与FM随机废除特征的不同在于该方法以固定比例随机位置扩充特征维度Ⅳ×H到同一维度W'×H',从而得到多个新样本,并从中随机选择一张作为变换结果进行对抗性训练,其实现过程如图8所示。
该策略设计初衷同FM一致,通过引入随机性,在不影响模型识别精度的情况下,增加攻击者直接对输入样本修改的难度,从而达到更好地防御效果。同样,为了避免模型精度过多的损失,建议填补比例控制在[W,W+2],[H,H+2]范围内。
3 实验
3.1 实验设置
无人驾驶工程和人脸识别是信息安全领域重要的两个应用场景。本文在公开的交通标识识别数据集(GTSRB,Belgium)和人脸识别(ORL)数据集上进行了数据扩充与预处理操作,特征维度压缩到32x32,然后对提出的特征掩膜FM和特征填补FP对抗性训练算法验证其在对抗环境下的防御性能,其详细信息见表1.
针对不同任务,将选用不同的深度学习模型。在交通标识识别数据集中,本文自定义了4个DNN模型用于对抗性训练,其体系结构见表2.而在人脸识别应用中。选用了2个比较简单的人脸识别模型(MTCNNE和FaceNet)进行对抗性训练测试。
3.2 实验結果分析
首先,使用表1定义的不同深度神经网络结构及人脸识别模型MTCNN和FaceNet,分别在对应数据集上进行模型训练,然后使用FGSM和C&W等攻击算法来构造对抗样本,去验证深度学习模型的脆弱性确实存在。针对两个任务训练得到的模型测试准确率及其在对抗样本下的测试准确率见表3.其中No-attack表示在纯净测试样本上的测试准确率。FGSM和C&W Attack两行表示由该两种攻击算法对纯净测试样本进行对抗样本构造。
实验结果显示,拥有高测试准确率的深度神经网络,在对抗环境中是非常脆弱的,极易受到对抗样本的影响。在由FGSM和C&W攻击算法生成的对抗样本下,各模型的识别准确率发生了大幅度的降低,尤其是基于优化的C&W攻击算法,获得了较高的攻击成功率。
为了验证传统对抗性训练算法在抵御多样性攻击样本性能中的不足,本文采用了C&W攻击算法来构造对抗样本进行对抗性训练。并对得到的模型在不同的攻击样本上进行鲁棒性测試。实验结果见表4,其中每一列DNN+C&W表示由C&W攻击算法构造对抗样本并注入到原始训练样本中进行DNN训练。实验结果表明,由C&W构造的对抗样本进行对抗性训练,得到的模型在抵御C&W攻击时较为鲁棒,而在抵御由FGSM及其改进算法生成的对抗样本却显得力不从心。这也充分证明,传统依赖已知攻击算法构造的对抗样本进行对抗性训练,在抵御其它攻击算法时性能十分有限,通用性较差。
为了验证本文提出的两类基于FM和FP对抗性防御策略在抵御多样化攻击算法的有效性,本文进一步对比了在两种对抗性训练防御策略下,训练得到的目标模型在抵御其它攻击样本时的性能。
基于特征掩膜对抗性训练所得模型。在交通标识识别和人脸识别任务中的测试准确率见表5.首先,从测试准确率可以看出,随着废除率的增加,对抗性训练所得模型的测试准确率没有明显的下降:其次测试了DNN、模型在不同攻击策略下抵御对抗样本的能力。实验结果表明基于特征掩膜的对抗性训练可以抵御多样化的对抗样本,相比于传统对抗性训练思想,通用性得到了一定程度的提高。
基于特征填补的对抗性训练实验结果见表6.首先,从测试准确率可以看出随机位置变化控制在一定范围内,不会大幅度降低模型的精度;其次在抵御多样化攻击时,模型仍然具有较好的鲁棒性。
总体来看。基于特征掩膜与特征填补的对抗性训练所得模型可以抵御多样化的攻击。通用性更佳。
4 结束语
本文揭露了深度学习模型的脆弱性。即极易受到对抗样本的影响,尤其是C&W攻击算法,并合理分析了深度学习模型脆弱性存在的潜在原因是DNN高度敏感的局部线性行为。为了解决深度学习模型脆弱性问题,即提高深度学习模型在对抗环境中的鲁棒性及安全性。本文借鉴了Mask机制和卷积特征填补思想,颠覆了传统对抗性训练算法过于依赖已知攻击样本,而导致在抵御多样化攻击样本时的性能不佳,提出了基于FM和PP两种不依赖于对抗样本的对抗性训练防御策略。并在公开交通标识识别数据集GTSRB、Belgium和人脸识别数据集ORL、YALE上,验证了所提出的对抗性训练防御策略的优越性和较好的抵御多样化攻击的性能。
转载注明来源:https://www.xzbu.com/8/view-15125497.htm