摘要
深度学习的发明,使得人工智能技术迎来了新的机遇,再次进入了蓬勃发展期。其涉及到的隐私、安全、伦理等问题也日益受到了人们的广泛关注。以对抗样本生成为代表的新技术,直接将人工智能、特别是深度学习模型的脆弱性展示到了人们面前,使得人工智能技术在应用落地时,必须要重视此类问题。本文通过对抗样本生成技术的回顾,从信号层、内容层以及语义层三个层面,白盒攻击与黑盒攻击两个角度,简要介绍了对抗样本生成技术,目的是希望读者能够更好地发现对抗样本的本质,对机器学习模型的健壮性、安全性和可解释性研究有所启发。
关键词: 人工智能安全, 对抗样本,白盒攻击,黑盒攻击,失真度量,对抗防御
引用:
[1] 王伟, 董晶, 何子文, 孙哲南. 视觉对抗样本生成技术概述[J]. 信息安全学报, 2020, 5(02):39-48.
原文: http://jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200205
引言
随着深度学习技术[1]的快速发展,其在公共安全、金融、医疗、娱乐等多个应用领域都取得了巨大成功,人工智能技术再次迎来蓬勃发展期。以人脸识别[2]为代表的人工智能技术的快速落地,尤其是在国内井喷式地发展,给人们生产生活带来极大便利性的同时,也引发了很多安全性问题[3]。
相较于传统安全问题,如人脸识别系统中的照片攻击、假体攻击等,一类新型的、具有攻击性的对抗样本生成技术近年来受到广泛关注,特别是在视觉数据理解与分析领域。出于视觉数据特有的冗余特性,一系列相关技术被公开发表,并日益完善。鉴于此,人们比以往任何时候都更加关注人工智能系统的安全问题,对抗防御等应对技术也相继被提出。那么,到底是何原因使得人工智能视觉系统易被攻击?是深度神经网络模型的大规模应用带来的问题,还是深度学习技术之前就已存在?是个别系统特有,还是绝大多数系统的共性问题?若是后者,目前是否有普适性的防御技术?希望通过本文的介绍,能够尽可能地回答上述问题。
本文首先针对人工智能机器学习中的安全问题展开宏观介绍及数学描述;接着对具有代表性的对抗样本生成技术分类归纳介绍;最后,针对生物识别系统中人脸识别模型的安全性给出具体分析,以便读者更为直观地了解对抗样本引发的安全问题。
相较于本文,文献[4]对抗样本经典方法进行了较为全面的介绍,细致分析了对抗样本的产生原因、特征以及评价指标,但其对近年来出现的新方法介绍略显不足。文献[5]极为详细的阐述了近来对抗样本的生成与防御方法,其更多地是提供方法概览,分析归纳对比的部分不足。本文主要贡献在于:以视觉对抗样本生成技术为代表,根据感知度量指标的不同定义,挂一漏万地将对抗样本生成模型从信号层、内容层和语义层进行概括性的分类、总结和归纳,并就对抗样本产生的原因、机理进行了深入分析。
机器学习中的安全问题
机器学习中的安全问题由来已久[6],并不是深度学习时代所特有的。但是对抗样本的概念确是在深度学习广泛应用后被提出[7]。深度学习(特征学习)之前,机器学习主要关注点是如何在已有的特征分布上学习到好的模型。对于模型的攻击往往是通过注入特定的训练样本(特征),从而改变模型的决策界面,实现攻击目的[8], [9]。传统人工设计特征是在专家经验及人类对客观事物理解的基础上设计的,具有较好的可解释性,语义性较强,对噪声和干扰鲁棒;即输入样本的轻微扰动不会引起特征的变化,从而不会改变模型的预测结果。而深度神经网络模型直接对输入和输出建模,少了特征设计环节,采用特征学习方式完成任务。其学习到的特征,唯目标导向,虽在性能上超越了传统方法,但由于其黑盒特性,学到的特征往往不具有可解释性,从而使得对抗样本的生成较为容易。这也就是深度学习时代对抗样本问题受到日益关注的原因。本文将重点对深度神经网络的对抗样本生成机理和具体算法展开介绍。
问题描述
针对某一任务的机器学习模型,对抗样本是对输入样本轻微扰动后生成的,其目的是改变模型的预测结果。对抗样本的求解过程可描述为:
\[\begin{equation}
\tilde{X} =
\arg{\min_{
\begin{subarray}{c}
D(X,\tilde{X}) \le \epsilon; \\
X,\tilde{X} \in \mathcal{X}
\end{subarray}}
}\big\{
\max_{y' \in \mathcal{Y}}
{
P\big(f({\tilde{X})=y'}\big|X\big)
}
\big\},
\tag{2.1}
\end{equation}\]
其中\(f(X)\in \mathcal{Y}\) 为深度网络模型,它是在样本集合\(\{\langle X_i,y_i \rangle\}_{i=\{1\dots N\}}\)上训练得到的,\(X\)是样本空间,\(Y\)是标签空间。\(\tilde{X}\)是基础上轻微扰动生成的,\(y\)为\(X\)的真实标签,\(\tilde{y}=\arg{\max_{y' \in \mathcal{Y}}{P\big(f({\tilde{X})=y'}\big|X\big)}}\)为\(\tilde{X}\)的预测标签。\(D(X,\tilde{X})\)是对\(\tilde{X}\)和\(X\)的感知差异度量,当\(\tilde{y}\ne y\)时,我们称\(\tilde{X}\)为\(X\)的对抗样本[10]。
由公式(2.1)可知,\(D(X,\tilde{X})\)对对抗样本的生成十分关键,其上限ϵ决定了对抗样本的攻击成功率和生成质量。目前大多数算法以人类视觉感知冗余度作为约束上限的,如\(l_p\)范数[11]。由于其数学定义简单清晰,常被用作度量不可感知性,决定着对抗样本的攻击能力,但其并不太符合人类视觉感知模型。因此,Jang等人[12]提出了三个衡量标准来评估对抗样本不可感知性。通过对傅立叶系数的破坏程度、对边缘的影响或对图像梯度的影响来评估对抗扰动的质量。由于人类的视觉系统对结构变化很敏感,结构相似性指数[13](SSIM)可作为内容相似性度量指标指导生成对抗样本[11]。在此基础上,有学者提出使用感知对抗相似性分数[14](PASS)来量化对抗样本的不可感知性。进一步,可借用GAN网络中的判别网络来评价生成对抗样本的质量[15]。从视觉冗余度到视觉合理性的改进,增加了攻击强度空间。但随着对抗样本检测算法的提出[16],感知上限\(\epsilon\)势必会被大大压低,即对抗样本的生成难度将会增加。
从应用角度,防御方可通过设计对抗样本检测子[16],压缩对抗样本的生成空间。然而,对于防御方而言,更重要的是如何提高模型\(f(X)\)鲁棒性。有文献表明,可采用对抗训练[7]、模型正则约束[17]、主动防御[18]等策略来提高模型的对抗防御能力,但其会降低模型的预测准确性。鉴于篇幅有限,本文将不对防御工作展开详细介绍,感兴趣的读者可参考文献[19]。
对抗样本生成
公式(2.1)给出了对抗样本的数学定义。那么如何计算求解最优的对抗样本?最简单直观的算法就是采用穷举或搜索方法。然而,对于视觉内容,其搜索空间巨大,不具备实际可操作性。我们知道,BP算法的提出,梯度下降法在神经网络模型训练过程中起到了至关重要的作用。对于模型\(f\),被正确预测样本\(X\)的后验概率\(P\big(f(X)=y \big| X\big)\)应该是最大的,或者损失\(L\big(f(X),y\big)\)应该是最小的。如果一个样本\(\tilde{X}\)能够使得标签y的后验概率降低或损失增加,直至小于其他标签的后验概率,或大于其他标签的损失,那么就可以说找到了对抗样本。对于靶向攻击,\(\tilde{y}\)作为对抗样本的预测标签,其后验概率应是所有标签中最大的,或者损失是所有标签中最小的。由此可见,我们可以通过最大化模型损失函数(非靶向攻击)或最小化目标标签损失函数(靶向攻击)来生成对抗样本。
若令
\[\begin{equation*}
L\big(f(x), \neg y\big) = -L\big(f(x), y\big)
\end{equation*}\]
且\(\tilde{y}=\neg y\)表示\(\tilde{y}\neq y\),则靶向攻击和非靶向攻击可统一在最小化损失框架下:
\[\begin{equation*}
\min_{
\begin{subarray}{c}
D(X,\tilde{X}) \le \epsilon; \\
X,\tilde{X} \in \mathcal{X}
\end{subarray}}{L\big(f(\tilde{X}), \tilde{y}\big)}.
\end{equation*}\]
本文将结合感知差异度量指标\(D(X,\tilde{X})\),从信号层、内容层及语义层,将对抗样本生成模型分为三类并分别介绍。
自适应加性噪声模型
若将对抗样本合理建模为原始信号上的加噪模型,将其伪装为现实中常见的被噪声污染的正常样本,即
\[
\tilde{X}=X+\delta(X),
\]
较为容易。对抗样本不可感知性约束可简化为\(D(X,\tilde{X})=\left \| \tilde{X}-X \right\|_p = \left \| \delta(X) \right\|_p \le \epsilon\),即对加入噪声的\(L_p\)范数进行上限约束。与随机噪声不同的是,加入的对抗噪声是自适应的,与输入\(X\)有关。
当模型为线性函数\(f(x)=\omega^{\mathrm{T}}x\), \(\left \| \delta(X) \right\|_p \le \epsilon\)时,\(\delta(x)=\epsilon sign(\omega)\)是在约束条件下找到的最有可能的对抗样本(\(f(x)\)与\(f(x+\delta(x))\)差异最大)[20]。然而,对于高维样本数据,线性模型往往性能较差,现有主流方法主要采用高度非线性的深度神经网络模型\(f(X)\),实现从端到端的学习任务。我们知道,\(L\big(f(X),y\big)\)可在\(X_0\)附近一阶泰勒近似为:\(L\big(f(X),y\big)\cong L\big(f(X_0 ),y\big)+\nabla_X L\big(f(X_0 ),y\big)^{\mathrm{T}} (X-X_0 )\)。通过最小化\(L\big(f(X),\tilde{y}\big)\)的泰勒近似,可得\(X_0\)生成对抗样本\(\tilde{X}_0\)(在\(X_0\)的\(l_∞\)邻域)的最优扰动为\(-\epsilon sign\Big(∇_X L\big(f(X_0),\tilde{y}\big)\Big)\)。然而,由于泰勒近似的不准确性,尤其是在高度非线性区域,生成攻击成功的对抗样本所需的\(\epsilon\)通常较大,容易被发现。因此,通过分段线性、小步迭代是自然而然的想法[21],第3节将对此展开详细介绍。
几何扰动对抗模型
对不可感知性的度量,除了PSNR(可泛化到\(l_p\)范数)这类反映信号幅值变化的常见指标之外,还可以用几何上的失真度量来限制视觉内容的改变。对于图像这类冗余度较高的视觉数据,小范围的平移、旋转、缩放、变形等,都不影响人类对视觉内容的感知。由此,可定义基于几何扰动的对抗样本为[22]:
\[\begin{gather*}
D(X,\tilde{X})={\bigl\lVert \tilde{X}(r')-X(r) \bigr\rVert}_p \le \epsilon \\
r' \in B_{\mathcal{W}}=\bigl\{ r' | d_{\mathcal{W}}(r,r') \le \delta \bigr\},
\end{gather*}\]
其中\(d_{\mathcal{W}}(r,r')\)为Wasserstein距离,表示把一个分布变换为另一个分布最小代价。这里可将\(X\)归一化后看作是在位置r上的分布。通过在\(r\)为球心,\(\delta\)为半径的Wasserstein球\(B_{\mathcal{W}}(r,\delta)\)上寻找最佳位移,生成对抗样本\(\tilde{X}\)̃。此时,对抗样本的求解过程可转化为关于位移场的优化问题。
语义保持对抗模型
前述的两种对抗样本生成模型是通过不同方法在视觉感知层面确保对抗样本与原始样本差异很小。如果突破该层面,在更高的层面,语义层上生成对抗样本[15],将不再受限于信号层和内容层对修改容量的约束,拥有更多的操作空间,容易生成攻击成功率更高的对抗样本。该问题的难点是如何形式化判定不同样本属于同一个语义概念。目前而言,该问题本身也一直是统计学习领域较难跨越的鸿沟。正是由于“感知-语义”鸿沟的存在,为对抗样本的生成提供了便利,使得相近内容得到不同语义理解成为可能。此时,对生成样本的约束可表示为
\[\begin{equation}
D(X,\tilde{X})={\bigl\lVert s(\tilde{X})-s(X) \bigr\rVert}_p
\tag{2.2}
\end{equation}\]
其中\(\tilde{X}\in \mathcal{X}\)要求在样本X的流形分布上。
由公式(2.2)可见,相较于加性噪声模型对于扰动量上界的严格要求,语义保持对抗模型对样本的修改更加自由。
对抗样本生成技术介绍
通过不同的距离度量,我们可以在信号层、内容层和语义层,多个层面实现对抗样本的计算,发现智能系统的漏洞。信号层对抗样本生成是指仅从数据(信号)层面,通过少量修改数据生成对抗样本而不考虑其对数据内容及含义的破坏。该类算法主要通过加性噪声模型实现。内容层对抗样本生成是指通过对数据内容的轻微修改生成对抗样本。内容上的修改可能会使数据数值发生较大变化,可借助前述几何扰动对抗模型实现。语义层对抗样本生成较前两个层面的生成算法更为激进,只要生成对抗样本不改变语义即可,数值、内容均可发生较大变化。前述的语义保持对抗模型主要解决该问题。
当智能系统模型的参数可被获取时,对抗样本的生成是较为容易的,称为白盒攻击。然而,大多数情况下,模型参数是无法得到的,只能获得预测标签,称为黑盒攻击。此时对抗样本的生成是相对比较困难的。针对黑盒攻击,除了利用有限次查询计算生成对抗样本之外,还可利用对抗样本的迁移特性[23],对替代模型实施白盒攻击,从而实现对部署模型的黑盒攻击。本节中我们将对代表性的白盒和黑盒攻击算法展开介绍。
白盒攻击
白盒攻击是指攻击者在拥有目标模型的结构和参数等全部知识的情况下对模型实施攻击。白盒攻击一般依赖于模型的梯度信息,利用模型损失函数反向传播的梯度计算扰动量,将其添加到原始样本上形成对抗样本。
Szegedy等[7]是最早发现神经网络存在对抗攻击的研究者之一,他们提出通过L-BFGS优化方法去解决一个优化问题来找到最小的可能的攻击扰动,缺点在于复杂的优化过程使得运算速度很慢。Ian Goodfellow等[20]提出了快速梯度符号攻击方法(Fast Gradient Sign Method, FGSM),极大地加速了对抗样本的生成。其主要思想是寻找分类模型的梯度变化最大的方向,根据此方向添加图像扰动,导致模型进行错误的分类。FGSM以增加对图像分类器损失的方式来对图像添加扰动,其构造对抗样本的优势是效率高,算法不需要利用梯度的全部信息,只需要判定梯度符号即可。FGSM作为经典的攻击方式,衍生出了许多以其为基础的对抗攻击方法。Kurakin等[21]提出了一种迭代化的FGSM,称为基础迭代方法(Basic Iterative Method, BIM)。FGSM只沿着梯度增加的方向添加一步扰动,而BIM则通过迭代的方式,沿着梯度增加的方向进行多步小扰动,并且在每一小步后,重新计算梯度方向,相比FGSM能构造出更加精准的扰动,但代价是增大了计算量。这种方法基于FGSM,因此也常称为I-FGSM。Madry等[24]提出了投影梯度下降(Projected Gradient Descent, PGD)生成对抗样本,用于对抗训练的方法,较好地提高了模型防御能力。PGD是在BIM的基础上,对原始样本在其邻域范围内随机扰动作为算法初始输入,经多次迭代后生成对抗样本,其性能得到显著改善,具有较好的迁移性和抗破坏能力。
FGSM及其衍生算法相较于L-BFGS[7]极大地提升了攻击成功率以及运算速度,但并未对扰动量直接优化求解。Seyed-Mohsen等[25]提出了一种新的迭代攻击方式Deepfool,具有FGSM类似的欺骗率的同时能够计算出更小的扰动。该方法首先初始化原始图像,并且假定该图像类别由分类器的决策边界限制在一个区域,这个区域决定图像的类标签。在每次迭代中,该算法计算幅值较小的向量来扰动图像,通过线性化图像所在区域的边界,逐步将图像移向决策边界,直到图像最终被移动到决策边界另一侧,使得分类器分类错误。N.Carlini和D.Wagner[26]进一步改善了L-BFGS的攻击性能,提出了C&W攻击。该方法巧妙地设计了损失函数,使其在对抗样本中有较小的值,但在干净样本中有较大的值,进而通过最小化该损失函数即可搜寻到对抗样本。与L-BFGS方法另一个不同之处在于,其使用Adam[27]算法求解优化问题,并在每步迭代之后将结果投影到边界约束,继而解决边界约束的问题。相较于前述算法,其速度更快,效果更好。C&W攻击中的优化项需要进行上千次的线搜索迭代,造成运算时间较长,Jerome等人进一步对其完善,提出了Decoupling Direction and Norm Attack (DDNAttack)[28]算法,通过优化交叉熵目标函数实现。不同于传统梯度迭代算法在每次迭代时惩罚正则项,DDNAttack在每次迭代中先根据梯度方向添加扰动,然后将得到扰动映射到以原始样本为中心的\(l_2\)球上,球半径由可控,其值是否修改由当次迭代样本是否为攻击成功决定。通过解偶扰动方向与幅值,DDNAttack大量地减少了迭代次数,但仍能得到效果与C&W相当的对抗样本。
为了防御基于梯度的白盒攻击方法,一些防御使用混淆梯度[29]的策略来干扰攻击过程,然而梯度混淆防御策略很容易被攻破。攻击者可以采用反向传播微分近似算法(Backward Pass Differentiable Approximation, BPDA)[29],针对防御者添加的不可微预处理模块,获取近似梯度,进行实现有效攻击;当防御者采用随机化梯度方式时,攻击者亦可利用求随机变换期望(Expectation over Transformation, EOT)的替代方法[30]实施攻击。
除采用常规的\(l_∞\)范数或\(l_2\)范数的对抗攻击模式外,许多攻击方法也特意地研究了其他模式的对抗扰动。Papernot等提出了基于雅克比计算显著图的攻击方法(Jacobian-based Saliency Map Attack, JSMA)[31]。在图像识别问题中,不同像素点对识别结果的重要性显然是不同的,JSMA通过计算图像显著性分数,依照重要程度,逐个对单像素进行修改得到对抗样本。因此,可通过仅改变部分图像像素实现有效攻击。Xiao等[32]提出了一种基于图像内容几何变换而非直接修改像素值的方法来生成对抗样本,该几何变换是基于对原始图像中的像素进行位移,将其限制为全局平滑。通过对误分类概率优化求解对抗样本。类似地,Alaifari等[33]提出一种通过图像形变(内容保持)来构建对抗样本的迭代算法ADef,类似于迭代梯度算法,该算法根据梯度下降方向通过迭代地对图像进行变形操作从而将原始样本推向决策边缘以获得对抗样本。
Song等[15]提出一种基于生成式对抗网络(Generative Adversarial Networks, GAN)[34]的方法,生成语义保持的对抗样本,这类对抗样本也被称作非受限样本。
黑盒攻击
黑盒攻击是指攻击者在无法获取到目标模型结构或参数等内部信息的情况下对模型进行攻击。黑盒攻击大致可分为两类方法,基于查询的方法和基于模型迁移的方法。
基于查询的方法
在实际应用中许多模型不公开其内部结构而只提供调用接口,例如人脸识别API等。基于查询的攻击方法则通过不断地访问目标模型,近似估计模型梯度信息,以达到修改输入,生成对抗样本的目的。
Chen等[35]提出了零阶优化(Zeroth Order Optimization, ZOO)来估计目标模型的梯度以产生对抗样本。其假设目标模型能够被查询以获得所有类的概率得分,然后使用差分数值近似估计目标函数关于输入的梯度,进而使用基于梯度的方法进行攻击。类似地,Jonathan等[36]提出了一种使用同时扰动随机逼近算法(Simultaneous Perturbation Stochastic Approximation,SPSA)进行梯度估计实施攻击的方法,通过特征降维以及随机抽样比ZOO取得了更高的效率。Tu等[37]提出了一种高效的黑盒攻击框架AutoZOOM (Autoencoder-based Zeroth Order Optimization Method),使用一种自适应随机梯度估计方法稳定查询次数和扰动量,同时利用无标签数据离线训练自动编码器,从而加快对抗样本的生成。Brendel等[38]提出了一种基于边界探索的黑盒攻击方式,称为边界攻击(Boundary Attack)。这种方法完全依赖于模型的最终决策输出(例如Top1类别标签),其所需知识更少。该方法首先寻找到一个不限制扰动大小的对抗样本,然后依据一定策略将该对抗样本沿着原样本的方向移动,直到该对抗样本离原样本最近,其结果依然保持较强的对抗性。
在实际应用中,为了不被察觉,对目标模型的访问查询是受限的,包括访问时间限制与访问次数限制。Ilyas等[39]针对该问题,提出了一种自然进化策略(Natural Evolution Strategies, NES)的变体,并结合投影梯度下降(PGD),构建对抗样本。Bhagoji等[40]采用随机置k个元素为1,其余为0的方式,产生⌈d⁄k⌉组相互正交的随机向量,通过方向导数与梯度关系,结合使用主成分分析(Principal Component Analysis, PCA),近似得到最终的梯度估计,从而将查询次数降低k倍。Chen等[41]进一步对边界攻击[38]进行改进,提出了HopSkipJumpAttack。其基于在决策边界处使用二值信息进行梯度方向估计,显著减少了对目标模型的查询次数。
此外,还有学者对黑盒攻击扰动的稀疏性进行了探索。Su等[42]提出了单像素攻击(One Pixel Attack)方法,利用差分进化算法从候选像素点中逐步筛选出稀疏像素点,最终修改选择的像素点可以有效攻击分类模型。Narodytska等[43]提出了局部搜索攻击(Local Search Attack),通过贪心局部搜索计算选取待修改像素点。Apostolos等[44]提出了SparseFool,一种受几何启发的稀疏攻击,利用边界的低平均曲率有效地计算对抗性扰动。该方法能够快速地计算稀疏扰动,且可以有效拓展到高维数据上。
物理空间对抗样本
目前,大多数对抗样本生成研究主要集中在数字空间。那么,这些对抗样本在三维真实物理环境中是否仍然有效?已有相关研究表明,物理可实现的对抗样本在真实世界中对机器学习模型依然具有一定的威胁,但可想而知,其生成困难,且易被察觉。目前主要研究思路是将物理空间到数字空间的感知过程用函数近似,例如将视觉成像过程由射影变换与颜色空间变换模拟。目的是使对抗样本与真实样本在成像后的数字空间中足够相似,即对抗样本生成过程中应当考虑成像过程对对抗噪声的破坏。因此,物理空间的对抗样本需要更大失真才有可能成功攻击智能系统。本质而言,物理空间的攻击基本上都是采用前述在数字空间中使用的策略和方法,其难点在于对物理空间到数字空间变换过程的可微模型建立。
Kurakin等[21]研究了数字空间利用FGSM算法生成的对抗样本经过打印后在物理空间的对抗性能。实验发现,所生成对抗样本较为脆弱,较大地受限于光照、距离、角度等物理成像条件。Eykholt等[53]提出了一种鲁棒物理扰动(Robust Physical Perturbation, RP2)计算方法,其能够在角度、距离和光线变化时保持攻击的成功率。作者认为实际攻击应该发生在目标上且不易引起人关注的区域,掩膜(Mask)的引入很好的解决了该问题。通过实际采集和数据合成的方式,实现了对物理成像过程的统计建模。最终结合颜色打印损失模型,实现对物理空间中停止标志的攻击。作者利用该攻击算法生成并打印制作了路标图像,成功欺骗了实际部署应用的多数路标分类模型。文中选用路标做实验,其实是将问题难度进行了简化。路标为平面物体,因此三维成像过程只有仿射变换,省去了射影变换中的二义问题。因此,在其他非平面目标上的实验性能如何,有待实验论证。针对上述问题,Athalye等[30]考虑更复杂的空间变换关系。作者首次提出了EOT(Expectation Over Transformatio)算法,使得对抗样本在成像过程中多种变换下都有效。在该框架下结合3D打印技术生成了3D对抗样本,成功欺骗了目标分类识别系统,从不同角度观察时均使目标模型分类错误。多数针对智能视觉系统的攻击都尽力使对抗目标与原始目标成像后在数字空间保持一致。不同于此,一类对抗补丁(Adversarial Patch)方法,其目的只是攻击识别系统,并不考虑补丁的不可察觉性。Brown等[54]提出了一种对抗补丁生成算法来欺骗分类器。在优化目标中仅考虑对抗补丁的放置位置及可能经过的变换,因此生成的对抗补丁具有较强的攻击性,但不具有不可察觉性。基于相同原理,Thys等[55]通过在身体上悬挂对抗补丁,成功欺骗了YOLOv2[56]目标检测系统。类似地,Komkov等[57]通过空间变换关系制作了一种物理空间的对抗贴纸。通过将对抗贴纸贴在帽子上,成功地欺骗了包括ArcFace[2]在内的最先进的人脸识别系统,其攻击过程仍是在FGSM框架下。
生物识别系统的对抗样本
为了能够对对抗样本有直观的了解,本节将针对典型的、应用较为广泛的人脸识别系统,采用上述提到的几类攻击算法的开源代码生成人脸识别系统的对抗样本。
针对目前主流的人脸识别模型:ArcFace[2],我们进行了白盒攻击和黑盒攻击实验。实验中白盒攻击的目标模型为ArcFace。黑盒攻击中基于查询访问的方法,目标模型为ArcFace;对基于模型迁移的黑盒攻击方法,我们利用ArcFace作为替代模型离线生成对抗样本攻击CosFace模型[58]。
我们从LFW数据集[59]中随机选取两张人脸图像,一张作为待攻击样本(人脸图像A),一张作为攻击目标(人脸图像B),进行靶向攻击。我们选取了前面介绍的7种攻击方法:FGSM[20]、BIM[21]、MI-FGSM[45]、SPSA[36]、HopSkipJumpAttack[41]、DI-FGSM[47]、TI-FGSM[48]。对ArcFace模型,当模型提取的人脸特征间欧式距离\(\le 1.521\)时,两张人脸图像被判定为同一个人。对CosFace模型,当两个人脸特征的余弦距离\(\le 0.2245\)时被判定为同一个人。
Table 4.1: 典型方法靶向攻击成功时的最小扰动量比较.
基于梯度
(白盒) |
|
- \(0.024\)
- \(0.022\)
- \(0.024\)
|
基于访问
(黑盒) |
|
|
基于迁移
(黑盒) |
- FGSM
- BIM
- MI-FGSM
- DI-FGSM
- TI-FGSM
|
- \(\infty\)
- \(0.35\)
- \(0.22\)
- \(0.18\)
- \(0.16\)
|
表4.1显示的是攻击模型成功时所需的最小扰动量。由表1可知,当对模型攻击成功时,白盒攻击相对比较容易,且所需的扰动也比较小。但黑盒攻击除了在方法上需要特殊考量外,其攻击强度相较于白盒攻击也要大出许多。FGSM对抗样本生成方法,甚至在黑盒攻击下完全失败。对黑盒攻击,基于查询访问的方法所需的扰动量较小,但由于其查询次数较多,容易被察觉。而基于模型迁移的方法虽然可以离线完成对抗样本的生成,实现一次性攻击,但其攻击强度要大很多。
由图4.1可看出,黑盒攻击的成功率是以牺牲对抗样本的不可感知性为代价的。而对于采用查询访问部署模型的方法,其能够较为准确地近似梯度信息,类似白盒策略可获得较低的样本失真,但此类方法查询次数较多,攻击行为易被发现。
总结与展望
随着人工智能技术的大规模普及,其涉及到的隐私、安全、伦理等问题受到人们的广泛关注。以对抗样本生成为代表的新技术,直接将人工智能、特别是深度学习模型的脆弱性展现到了人们面前,使得此类技术在应用落地时,不得不重视其安全问题。
实际上,对抗样本生成技术的研究目的更重要地是发现模型漏洞,对模型的外延不断试探,通过对抗训练等防御方法,提高模型健壮性。另一方面也是对以卷积神经网络为代表的深度神经网络模型的可解释性进行尝试性研究,加固模型,减少数据的不可解释现象,赋予实际意义。
本文从信号层、内容层以及语义层三个层面,白盒攻击与黑盒攻击两个角度,对对抗样本生成技术的展开了简要介绍,目的是希望读者能够更好地发现对抗样本本质。然而,仍有许多必须要面对的现实问题:对抗样本的迁移能力到底有多大?针对某一系统设计的对抗样本,在同类任务不同模型上是否奏效[47]?对抗样本健壮性如何[53]?是否能够被轻易破坏[60], [61]?是否存在强安全模型,使得对抗样本的生成非常困难[17]?除了对抗训练方法外,有没有更高效的模型加固方法[62]?目前,模型加固方案仍然具有较大局限性,未能较好地解决安全问题。到底是什么原因使得深度神经网络模型深受对抗样本困扰[63]?目前来说,仍未有明确答案。
参考文献
[1] G. E. Hinton, S. Osindero, and Y. W. Teh,
“A fast learning algorithm for deep belief nets,” Neural Computation, vol. 18, no. 7, pp. 1527–1554, Jul. 2006, doi:
10.1162/neco.2006.18.7.1527.
[2] J. Deng, J. Guo, N. Xue, and S. Zafeiriou,
“ArcFace: Additive angular margin loss for deep face recognition,” in
Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 4690–4699, [Online]. Available:
https://arxiv.org/abs/1801.07698.
[3] Y. He, G. Meng, K. Chen, X. Hu, and J. He,
“Towards privacy and security of deep learning systems: A survey,” arXiv preprint arXiv:1911.12562, Nov. 2019, [Online]. Available:
https://arxiv.org/abs/1911.12562.
[4] J. Zhang and C. Li,
“Adversarial examples: Opportunities and challenges,” IEEE Transactions on Neural Networks and Learning Systems, pp. 1–16, 2019, doi:
10.1109/TNNLS.2019.2933524.
[5] R. R. Wiyatno, A. Xu, O. Dia, and A. de Berker,
“Adversarial examples in modern machine learning: A review,” arXiv preprint arXiv:1911.05268, Nov. 2019, [Online]. Available:
https://arxiv.org/abs/1911.05268.
[6] G. L. Wittel and S. F. Wu, “On attacking statistical spam filters,” CEAS: First Conference on Email and Anti-Spam, 2004.
[7] C. Szegedy
et al.,
“Intriguing properties of neural networks,” 2nd International Conference on Learning Representations, ICLR 2014 - Conference Track Proceedings, Dec. 2014, [Online]. Available:
https://arxiv.org/abs/1312.6199.
[8] J. Feng, Q.-Z. Cai, and Z.-H. Zhou,
“Learning to confuse: Generating training time adversarial data with auto-encoder,” in
Advances in neural information processing systems, H. Wallach, H. Larochelle, A. Beygelzimer, F. dAlché-Buc, E. Fox, and R. Garnett, Eds.
Curran Associates, Inc., 2019, pp. 11971–11981.
[9] A. Shafahi et al., “Poison frogs! Targeted clean-label poisoning attacks on neural networks,” 2018.
[10] H. Kwon, Y. Kim, K. W. Park, H. Yoon, and D. Choi,
“Multi-targeted adversarial example in evasion attack on deep neural network,” IEEE Access, 2018, doi:
10.1109/ACCESS.2018.2866197.
[11] M. Sharif, L. Baue, and M. K. Reite,
“On the suitability of lp-norms for creating and preventing adversarial examples,” in
IEEE computer society conference on computer vision and pattern recognition workshops, Jun. 2018, vol. 2018–June, pp. 1686–1694, doi:
10.1109/CVPRW.2018.00211.
[12] U. Jang, X. Wu, and S. Jha,
“Objective metrics and gradient descent algorithms for adversarial examples in machine learning,” in
Proceedings of the 33rd annual computer security applications conference on - ACSAC 2017, 2017, vol. Part F1325, pp. 262–277, doi:
10.1145/3134600.3134635.
[13] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli,
“Image quality assessment: From error visibility to structural similarity,” IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600–612, Apr. 2004, doi:
10.1109/TIP.2003.819861.
[14] A. Rozsa, E. M. Rudd, and T. E. Boult,
“Adversarial diversity and hard positive generation,” in
IEEE computer society conference on computer vision and pattern recognition workshops, Jun. 2016, pp. 410–417, doi:
10.1109/CVPRW.2016.58.
[15] Y. Song, N. Kushman, R. Shu, and S. Ermon,
“Constructing unrestricted adversarial examples with generative models,” in
Advances in neural information processing systems, 2018, vol. 2018–Decem, pp. 8312–8323, [Online]. Available:
https://arxiv.org/abs/1805.07894.
[16] J. Liu
et al.,
“Detection based defense against adversarial examples from the steganalysis point of view,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4825–4834, 2018, [Online]. Available:
https://arxiv.org/abs/1806.09186.
[17] H. Zhang, Y. Yu, J. Jiao, E. P. Xing, L. E. Ghaoui, and M. I. Jordan,
“Theoretically principled trade-off between robustness and accuracy,” 36th International Conference on Machine Learning, ICML 2019, vol. 2019–June, pp. 12907–12929, 2019, [Online]. Available:
https://arxiv.org/abs/1901.08573.
[18] H. Salman
et al.,
“Provably robust deep learning via adversarially trained smoothed classifiers,” in
33rd conference on neural information processing systems (NeurIPS 2019), 2019, pp. 11289—–11300, [Online]. Available:
https://arxiv.org/abs/1906.04584.
[19] X. Wang, J. Li, X. Kuang, Y. an Tan, and J. Li,
“The security of machine learning in an adversarial setting: A survey,” Journal of Parallel and Distributed Computing, 2019, doi:
10.1016/j.jpdc.2019.03.003.
[20] I. J. Goodfellow, J. Shlens, and C. Szegedy,
“Explaining and harnessing adversarial examples,” 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings, pp. 1–11, Dec. 2015, [Online]. Available:
https://arxiv.org/abs/1412.6572.
[21] A. Kurakin, I. J. Goodfellow, and S. Bengio,
“Adversarial examples in the physical world,” 5th International Conference on Learning Representations, ICLR 2017 - Conference Track Proceedings, 2017, [Online]. Available:
https://arxiv.org/abs/1607.02533.
[22] E. Wong, F. R. Schmidt, and J. Zico Kolter,
“Wasserstein adversarial examples via projected sinkhorn iterations,” in
36th international conference on machine learning, ICML 2019, 2019, vol. 2019–June, pp. 11812–11825, [Online]. Available:
https://arxiv.org/abs/1902.07906.
[23] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami,
“Practical black-box attacks against machine learning,” in
ASIA CCS 2017 - proceedings of the 2017 ACM asia conference on computer and communications security, 2017, pp. 506–519, doi:
10.1145/3052973.3053009.
[24] A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu,
“Towards deep learning models resistant to adversarial attacks,” 6th International Conference on Learning Representations, ICLR 2018 - Conference Track Proceedings, Jun. 2018, [Online]. Available:
https://arxiv.org/abs/1706.06083.
[25] S.-M. Moosavi-Dezfooli, A. Fawzi, and P. Frossard,
“DeepFool: A simple and accurate method to fool deep neural networks,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2574–2582, Jun. 2016, doi:
10.1109/CVPR.2016.282.
[26] N. Carlini and D. Wagner,
“Towards evaluating the robustness of neural networks,” Proceedings - IEEE Symposium on Security and Privacy, pp. 39–57, May 2017, doi:
10.1109/SP.2017.49.
[28] J. Rony, L. G. Hafemann, L. S. Oliveira, I. B. Ayed, R. Sabourin, and E. Granger,
“Decoupling direction and norm for efficient gradient-based L2 adversarial attacks and defenses,” in
Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 4322–4330, [Online]. Available:
https://arxiv.org/abs/1811.09600.
[29] A. Athalye, N. Carlini, and D. Wagner,
“Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples,” in
35th international conference on machine learning, ICML 2018, 2018, vol. 1, pp. 436–448, [Online]. Available:
https://arxiv.org/abs/1802.00420.
[30] A. Athalye, L. Engstrom, A. Ilyas, and K. Kevin,
“Synthesizing robust adversarial examples,” in
35th international conference on machine learning, ICML 2018, 2018, vol. 1, pp. 449–468, [Online]. Available:
https://arxiv.org/abs/1707.07397.
[31] N. Papernot, P. Mcdaniel, S. Jha, M. Fredrikson, Z. B. Celik, and A. Swami,
“The limitations of deep learning in adversarial settings,” Proceedings - 2016 IEEE European Symposium on Security and Privacy, EURO S and P 2016, pp. 372–387, Mar. 2016, doi:
10.1109/EuroSP.2016.36.
[32] C. Xiao, J. Y. Zhu, B. Li, W. He, M. Liu, and D. Song,
“Spatially transformed adversarial examples,” 6th International Conference on Learning Representations, ICLR 2018 - Conference Track Proceedings, pp. 1–29, Jan. 2018, [Online]. Available:
https://arxiv.org/abs/1801.02612.
[33] R. Alaifari, T. Gauksson, and G. S. Alberti,
“ADEF: An iterative algorithm to construct adversarial deformations,” 7th International Conference on Learning Representations, ICLR 2019, Apr. 2019, [Online]. Available:
https://arxiv.org/abs/1804.07729.
[34] I. J. Goodfellow
et al.,
“Generative adversarial nets,” in
Advances in neural information processing systems, Oct. 2014, pp. 2672–2680, [Online]. Available:
https://arxiv.org/abs/1406.2661.
[35] P. Y. Chen, H. Zhang, Y. Sharma, J. Yi, and C. J. Hsieh,
“ZOO: Zeroth order optimization based black-box atacks to deep neural networks without training substitute models,” AISec 2017 - Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, pp. 15–26, Aug. 2017, doi:
10.1145/3128572.3140448.
[36] J. Uesato, B. O’Donoghue, A. Van Den Oord, and P. Kohli, “Adversarial risk and the dangers of evaluating against weak attacks,” in 35th international conference on machine learning, ICML 2018, 2018, vol. 80, pp. 5032–5041.
[37] C.-C. Tu
et al.,
“AutoZOOM: Autoencoder-based zeroth order optimization method for attacking black-box neural networks,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 742–749, May 2018, [Online]. Available:
https://arxiv.org/abs/1805.11770.
[38] W. Brendel, J. Rauber, and M. Bethge,
“Decision-based adversarial attacks: Reliable attacks against black-box machine learning models,” 6th International Conference on Learning Representations, ICLR 2018 - Conference Track Proceedings, 2018, [Online]. Available:
https://arxiv.org/abs/1712.04248.
[39] A. Eyas, L. Engstrom, A. Athalye, and J. Lin,
“Black-box adversarial attacks with limited queries and information,” in
35th international conference on machine learning, ICML 2018, 2018, vol. 5, pp. 3392–3401, [Online]. Available:
https://arxiv.org/abs/1804.08598.
[40] A. N. Bhagoji, W. He, B. Li, and D. Song,
“Practical black-box attacks on deep neural networks using efficient query mechanisms,” in
Lecture notes in computer science (including subseries lecture notes in artificial intelligence and lecture notes in bioinformatics), 2018, vol. 11216 LNCS, pp. 158–174, doi:
10.1007/978-3-030-01258-8_10.
[41] J. Chen, M. I. Jordan, and M. J. Wainwright,
“HopSkipJumpAttack: A query-efficient decision-based attack,” ArXiv, vol. 3, Apr. 2019, [Online]. Available:
https://arxiv.org/abs/1904.02144.
[42] J. Su, D. V. Vargas, and K. Sakurai,
“One pixel attack for fooling deep neural networks,” IEEE Transactions on Evolutionary Computation, vol. 23, no. 5, pp. 828–841, Oct. 2019, doi:
10.1109/TEVC.2019.2890858.
[43] N. Narodytska and S. P. Kasiviswanathan,
“Simple black-box adversarial perturbations for deep networks,” ArXiv, Dec. 2016, [Online]. Available:
https://arxiv.org/abs/1612.06299.
[44] A. Modas, S.-M. Moosavi-Dezfooli, and P. Frossard,
“SparseFool: A few pixels make a big difference,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 9087—–9096, Nov. 2018, [Online]. Available:
https://arxiv.org/abs/1811.02248.
[45] Y. Dong
et al.,
“Boosting adversarial attacks with momentum,” in
Proceedings of the IEEE computer society conference on computer vision and pattern recognition, Jun. 2018, pp. 9185–9193, doi:
10.1109/CVPR.2018.00957.
[46] Y. Shi, S. Wang, and Y. Han, “Curls & whey: Boosting black-box adversarial attacks,” in IEEE conference on computer vision and pattern recognition, 2019, pp. 6519–6527.
[47] C. Xie
et al.,
“Improving transferability of adversarial examples with input diversity,” in
Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 2730–2739, [Online]. Available:
https://arxiv.org/abs/1803.06978.
[48] Y. Dong, T. Pang, H. Su, and J. Zhu,
“Evading defenses to transferable adversarial examples by translation-invariant attacks,” in
Proceedings of the IEEE conference on computer vision and pattern recognition, Apr. 2019, pp. 4312—–4321, [Online]. Available:
https://arxiv.org/abs/1904.02884.
[49] Y. Liu, X. Chen, C. Liu, and D. Song,
“Delving into transferable adversarial examples and black-box attacks,” 5th International Conference on Learning Representations, ICLR 2017 - Conference Track Proceedings, Nov. 2019, [Online]. Available:
https://arxiv.org/abs/1611.02770.
[50] Y. Li, S. Bai, Y. Zhou, C. Xie, Z. Zhang, and A. Yuille,
“Learning transferable adversarial examples via ghost networks,” arXiv preprint arXiv:1812.03413, Dec. 2018, [Online]. Available:
https://arxiv.org/abs/1812.03413.
[51] Z. Che, A. Borji, G. Zhai, S. Ling, J. Li, and P. L. Callet,
“A new ensemble adversarial attack powered by long-term gradient memories,” arXiv preprint arXiv:1911.07682, Nov. 2019, [Online]. Available:
https://arxiv.org/abs/1911.07682.
[52] T. Pang, K. Xu, C. Du, N. Chen, and J. Zhu,
“Improving adversarial robustness via promoting ensemble diversity,” in
36th international conference on machine learning, ICML 2019, 2019, vol. 2019–June, pp. 8759–8771, [Online]. Available:
https://arxiv.org/abs/1901.08846.
[53] K. Eykholt
et al.,
“Robust physical-world attacks on deep learning visual classification,” in
2018 IEEE/CVF conference on computer vision and pattern recognition, Jun. 2018, pp. 1625–1634, doi:
10.1109/CVPR.2018.00175.
[54] T. B. Brown, D. Mané, A. Roy, M. Abadi, and J. Gilmer, “Adversarial patch,” arXiv preprint arXiv:1712.09665, 2017.
[55] S. Thys, W. Van Ranst, and T. Goedemé,
“Fooling automated surveillance cameras: Adversarial patches to attack person detection,” 2019, [Online]. Available:
https://arxiv.org/abs/1904.08653.
[56] J. Redmon and A. Farhadi,
“YOLO9000: Better, faster, stronger,” in
2017 IEEE conference on computer vision and pattern recognition (CVPR), Jul. 2017, pp. 6517–6525, doi:
10.1109/CVPR.2017.690.
[57] S. Komkov and A. Petiushko,
“AdvHat: Real-world adversarial attack on ArcFace face ID system,” arXiv preprint arXiv:1908.08705, 2019, [Online]. Available:
https://arxiv.org/abs/1908.08705.
[58] H. Wang
et al.,
“CosFace: Large margin cosine loss for deep face recognition,” in
2018 IEEE/CVF conference on computer vision and pattern recognition, Jun. 2018, pp. 5265–5274, doi:
10.1109/CVPR.2018.00552.
[59] L. J. Karam and T. Zhu,
“Quality labeled faces in the wild (QLFW): A database for studying face recognition in real-world environments,” Human Vision and Electronic Imaging XX, vol. 9394, p. 93940B, 2015, doi:
10.1117/12.2080393.
[60] N. Das
et al.,
“Shield: Fast, practical defense and vaccination for deep learning using JPEG compression,” in
Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining, Jul. 2018, pp. 196–204, doi:
10.1145/3219819.3219910.
[61] F. Liao, M. Liang, Y. Dong, T. Pang, X. Hu, and J. Zhu,
“Defense against adversarial attacks using high-level representation guided denoiser,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, no. Figure 1, pp. 1778–1787, 2018, doi:
10.1109/CVPR.2018.00191.
[62] C. Xie, Y. Wu, L. V. D. Maaten, A. L. Yuille, and K. He,
“Feature denoising for improving adversarial robustness,” in
2019 IEEE/CVF conference on computer vision and pattern recognition (CVPR), Jun. 2019, vol. 2019–June, pp. 501–509, doi:
10.1109/CVPR.2019.00059.
[63] A. Shamir, I. Safran, E. Ronen, and O. Dunkelman,
“A simple explanation for the existence of adversarial examples with small hamming distance,” arXiv preprint arXiv:1901.10861, Jan. 2019, [Online]. Available:
https://arxiv.org/abs/1901.10861.