论文地址:Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey
部分内容参考科研篇二:对抗样本(Adversarial Example)综述
一、主要内容
肯定了深度学习在计算机视觉等领域的贡献,但深度学习模型很容易受到低对抗攻击,本文对对抗性攻击进行了全面调查和总结,包括针对图像分类等任务的对抗性攻击及其方法,以及介绍了在现实世界条件中处理对抗性攻击的方法。同时对如何防御这些攻击也做出了总结和回答。
二、术语定义
- 对抗性样本/图像(Adversarial example/image):是一个干净的图像被故意干扰(例如,通过添加噪声)来混淆/欺骗一个机器学习(例如深度神经网络)的修改版本
- 对抗性扰动(Adversarial perturbation):添加到干净图像中的噪声,使其成为一个对抗性样本
- 对抗性训练(Adversarial training*):除了使用原始的干净图像之外,还使用对抗性样本/图像来训练模型
- 对抗方(Adversary):指产生对抗样本的代理(agent),有时候也把对抗样本本身称作对抗方
- 黑盒攻击(Black-box attacks):对抗样本是在不知道该模型的情况下生成的。在某些情况下,假设对抗方对模型的了解有限(例如,它的训练过程/或其体系结构),但肯定不知道模型的参数。在其他情况下,使用有关目标模型的任何信息都被称为“半黑盒”攻击。
- 探测器(Detector):一种(仅限)检测一个图像是否是对抗样本的机制
- 愚弄率(Fooling ratio/rate):一个被训练过的模型在图片被干扰之后改变其原本预测的类别的比例。
- 一次性/一步式/单步方法(One-shot/One-step methods):通过执行单步计算来产生对抗性扰动,例如计算一次模型损失(loss)的梯度。与之对应的是迭代方法,该方法多次执行相同的计算来获得一个单一的扰动,后者计算成本通常很高
- 外观不可感知的/难以察觉的(Quasi-imperceptible):对抗样本引入的干扰可以微小到不被人类感知
- 修正器(Rectifier):对对抗样本进行修正,使其在目标模型上的预测结果与原始干净样本的结果一致。
- 有目标攻击(Targeted attacks):让模型将对抗样本错误地分成某种特定的类别。与之对应的是无目标攻击,后者目的相对简单,它只追求让模型预测错误,并不具体到某一具体类别。
- 威胁模型(Threat model):指被一种方法所考虑到的潜在的攻击,如黑盒攻击
- 迁移性(Transferability):对抗样本即便在攻击其他模型(指不是用来生成该对抗样本的模型)时仍能保持其有效性的一种特性。
- 通用干扰(Universal perturbation):能够在任意图片上愚弄到模型。通用性指的是干扰在对图像没有任何知识的情况下的性质,与之前提到的迁移性不一样。
- 白盒攻击(White-box attacks):假设了目标模型的完整知识,包括其参数值,架构,训练方法,以及在某些情况下它的训练数据。
三、对抗攻击
主要内容:回顾主要在“实验室设置”中欺骗深度神经网络的对抗性攻击方法,按照时间顺序组织,介绍了流行方法的技术细节以及该领域新兴方向的一些代表性技术。主要分为两部分,一是攻击深度神经网络执行计算机视觉中最常见的任务的方法,即分类/识别,二是主要用于攻击此任务之外的深度学习方法
3.1 分类攻击
Box-constrained L-BFGS(盒约束的L-BFGS)
Fast Gradient Sign Method (FGSM)(快速梯度符号法)
三个团队的工作: Goodfellow等人,Kurakin等人,Miyato等人。总的来说,所有的这些方法都被视作“one-step”或者“one-shot”方法。
Basic & Least-Likely-Class Iterative Methods(BIM法)-基本迭代方法
Jacobian-based Saliency Map Attack (JSMA) 基于雅可比矩阵的显著性映射攻击
Carlini and Wagner Attacks (C&W)
涉及到的方法总结如下:
3.2在其他方面的攻击
Attacks on Autoencoders and Generative Models(编码方面), Attacks on Deep Reinforcement Learning(强化学习方面),Attacks on Semantic Segmentation and Object Detection(语义分割和对象检测方面)
四、现实世界中的攻击
如面部属性攻击,手机摄像头攻击,道路标志攻击,3D对象攻击(更侧重真实世界中的物体)
五、关于普遍扰动的存在问题
六、 对抗防御
现在的对抗防御方法大致分为以下三类
对于后两种还有两个分类
七、总结
内部的max问题简单来讲就是添加的扰动要尽量让网络迷惑。外部的min是对神经网络进行优化最小化公式,即当扰动固定的情况下,训练的网络模型可以使得在训练数据上的损失最小,即提高模型的鲁棒性。