AI系统中的对抗攻击与安全隐私

AI安全与对抗攻击简介#

AI安全的重要性#

人工智能（AI），特别是深度学习，在图像识别、自然语言处理和决策制定等多个领域取得了显著成就。然而，AI模型的安全性日益受到关注。模型可能容易受到各种攻击，导致错误的预测、隐私泄露或系统被操纵。理解这些漏洞对于构建强大且值得信赖的AI系统至关重要。

什么是对抗攻击？#

对抗攻击指的是精心构造恶意输入——称为对抗样本（adversarial examples/samples）——旨在欺骗机器学习模型。这些输入通常是通过向合法输入添加微小的、往往难以察觉的扰动来创建的。

假设 $x$ 是原始输入， $y_{true}$ 是其真实标签， $f(x)$ 是模型的预测。一个对抗样本 $x_{adv}$ 的生成需要满足

$f(x_{adv}) \ne y_{true}$ (模型错误分类 $x_{adv}$ )。
$x_{adv}$ 与 $x$ “接近”。这种接近度通常用 $L_p$ 范数衡量，例如 $\Vert x_{adv} - x\Vert_p \le \epsilon$ ，其中 $\epsilon$ 是一个很小的常数。

扰动表示为 $\delta = x_{adv} - x$ 。

对抗攻击概念图 (概念图：一张熊猫图片，经过轻微扰动后，被模型高置信度地误分类为长臂猿。来源：Goodfellow et al., 2014)

对抗样本的特性#

难以察觉性 (Imperceptibility): 扰动通常非常小，人眼难以将其与原始输入区分开来。
迁移性 (Transferability): 为一个模型精心制作的对抗样本往往也能欺骗其他模型，即使这些模型具有不同的架构或在不同的数据集上训练。这对于黑盒攻击尤其重要。
普适性 (Universality) (某些攻击): 一些攻击可以找到一个单一的扰动向量，当添加到许多不同的干净输入时，会导致它们被错误分类。

对抗攻击的类型#

攻击主要根据攻击者对目标模型的了解程度进行分类：

白盒攻击 (White-Box Attacks)#

攻击者完全了解目标模型，包括：

模型架构
模型参数（权重和偏置）
训练数据（有时）
使用的防御机制（如果有）

这使得攻击者能够计算损失函数相对于输入的梯度，这是制作有效扰动的常用技术。

黑盒攻击 (Black-Box Attacks)#

攻击者对目标模型的了解有限或完全不了解。他们只能通过向模型查询输入并观察输出来进行攻击（例如，预测的标签或置信度分数）。

基于查询的攻击 (Query-based Attacks):
- 基于分数的 (Score-based): 攻击者获得预测的置信度分数。
- 基于决策的 (Decision-based): 攻击者只获得最终的预测标签（硬标签）。
基于迁移的攻击 (Transfer-based Attacks): 攻击者训练一个本地的替代模型，为其生成对抗样本，然后利用这些样本的迁移性来攻击目标黑盒模型。

白盒攻击方法：快速梯度符号法 (FGSM)#

FGSM 是 Goodfellow 等人（2014年）提出的一种简单而有效的一步式白盒攻击方法。

FGSM 原理#

FGSM 的工作原理是沿着损失函数 $J(\theta, x, y)$ 相对于输入 $x$ 的梯度的符号方向移动输入 $x$ 。其思想是找到一个扰动 $\delta$ 来最大化损失，从而增加错误分类的机会。

扰动 $\delta$ 计算如下： $\delta = \epsilon \cdot \text{sign}(\nabla_x J(\theta, x, y))$

对抗样本 $x_{adv}$ 则是： $x_{adv} = x + \epsilon \cdot \text{sign}(\nabla_x J(\theta, x, y))$

其中：

$x$ : 原始输入图像。
$y$ : $x$ 的真实标签。
$\theta$ : 模型参数。
$J(\theta, x, y)$ : 损失函数（例如，交叉熵损失）。
$\nabla_x J(\theta, x, y)$ : 损失函数相对于输入 $x$ 的梯度。
$\text{sign()}$ : 符号函数，如果输入为负则返回-1，为零则返回0，为正则返回1。
$\epsilon$ (epsilon): 一个小的标量，控制扰动的大小 ( $L_\infty$ 范数)。

扰动后的图像 $x_{adv}$ 通常会被裁剪，以确保其像素值保持在有效范围内（例如，对于归一化图像为 [0, 1]）。

除了FGSM，其他著名的白盒攻击方法包括

投影梯度下降 (Projected Gradient Descent, PGD)#

PGD被认为是FGSM的迭代版本，也是一种更强大的攻击方法。它不是像FGSM那样只在梯度方向上迈出一大步，而是在梯度的符号方向上迭代地迈出多个小步。在每一步之后，它都会将扰动结果投影回原始输入 $x$ 周围的 $\epsilon$ -球内，以确保扰动的大小始终保持在预设的界限内（例如 $L_\infty$ 范数约束），并且像素值也保持在有效范围内（如[0,1]）。其迭代公式可以表示为： $x_{adv}^{(0)} = x$ (或者 $x$ 加上一个微小的随机噪声以增加攻击的探索性) $x_{adv}^{(t+1)} = \Pi_{x, \epsilon} (x_{adv}^t + \alpha \cdot \text{sign}(\nabla_x J(\theta, x_{adv}^t, y)))$ 其中：

$x_{adv}^{(t)}$ 是第 $t$ 次迭代产生的对抗样本。
$\alpha$ 是每一步的步长，通常是一个较小的值（例如 $\epsilon / \text{迭代次数}$ ）。
$\Pi_{x, \epsilon}$ 是投影操作，它确保更新后的样本 $x_{adv}^{(t+1)}$ 仍然在以原始样本 $x$ 为中心、半径为 $\epsilon$ 的 $L_p$ 范数球内，并且其值被裁剪到有效的数据范围。由于其迭代的特性和每步的投影约束，PGD攻击通常能找到更优的对抗扰动，从而对模型造成更大的威胁。

Carlini & Wagner (C&W) 攻击#

C&W攻击是一类基于优化的攻击方法，以其强大的攻击效果而闻名，但相应地，其计算成本也比FGSM或PGD更高。C&W攻击的目标是找到最小的扰动 $\delta$ ，使得添加了该扰动的样本 $x + \delta$ 被模型错误分类，同时这个扰动本身尽可能小（通常用 $L_0, L_2,$ 或 $L_\infty$ 范数来衡量）。这类攻击通常会构造一个特定的目标函数（损失函数）来进行优化。例如，在目标攻击（targeted attack）中，攻击者希望模型将输入 $x$ 错误分类为特定的目标类别 $t'$ ；在非目标攻击（untargeted attack）中，则希望模型将其分类为除真实类别 $y$ 之外的任何类别。 C&W攻击中的 $L_2$ 攻击形式的优化问题可以表示为： $\text{minimize} ||\delta||_2^2 + c \cdot f(x+\delta)$ 其中：

$||\delta||_2^2$ 是扰动的 $L_2$ 范数的平方，目标是使其最小化。
$f(x+\delta)$ 是一个惩罚项，当 $x+\delta$ 未被成功误导时，该项为正，否则为非正。例如， $f(x')$ 可以定义为 $\max(\max_{i \ne t} Z(x')_i - Z(x')_t, -\kappa)$ ，这里 $Z(x')$ 是模型在softmax层之前的logits输出， $t$ 是目标类别（或真实类别，取决于攻击类型）， $\kappa$ (kappa)是一个置信度参数，用于控制攻击的强度（ $\kappa=0$ 表示只要能改变分类即可， $\kappa > 0$ 则要求以更高的置信度误分类）。
$c$ 是一个正常数，用于平衡扰动大小和攻击成功之间的权重。通常通过二分搜索来找到合适的 $c$ 值。 C&W攻击由于其优化方法，往往能找到非常难以察觉且有效的对抗样本。

黑盒攻击方法#

黑盒攻击指的是攻击者在对目标模型的内部结构、参数、训练数据甚至所使用的防御机制了解非常有限或完全不了解的情况下发起的攻击。攻击者通常只能通过向模型API发送查询请求，并观察其输出（如预测类别、置信度分数）来收集信息并实施攻击。

黑盒攻击主要可以分为两大类：

基于查询的攻击 (Query-based Attacks)#

这类攻击依赖于多次查询目标模型来获取信息，并逐步调整输入以生成对抗样本。

基于分数的攻击 (Score-based Attacks): 攻击者可以获取模型对输入样本的预测置信度分数（例如，softmax层的输出概率）。利用这些分数，攻击者可以估计损失函数相对于输入的梯度（即使无法直接计算），或者采用其他优化策略来引导输入朝向错误分类。例如，通过迭代地对输入进行微小扰动，并观察哪个方向的扰动能最有效地降低正确类别的置信度或提高某个错误类别的置信度。
基于决策的攻击 (Decision-based Attacks / Hard-label Attacks): 这是更具挑战性的黑盒场景，攻击者只能获得模型最终的预测标签（硬标签），而无法得知具体的置信度分数。这类攻击通常从一个已知的被模型错误分类的样本开始（如果找不到，可能从一个随机噪声图像开始），然后逐步向目标原始图像的方向修改这个错误分类的样本，同时确保每一步的修改都保持其被错误分类的状态，并且修改的幅度尽可能小，直到生成的样本在视觉上与原始目标图像足够相似但仍被错误分类。Boundary Attack 就是这类攻击的一个典型例子。

基于迁移的攻击 (Transfer-based Attacks)#

这类攻击利用了对抗样本的一个重要特性——迁移性。迁移性指的是为一个模型（源模型）精心制作的对抗样本，往往也能欺骗其他具有不同架构或在不同数据集上训练的模型（目标模型），即使攻击者对目标模型一无所知。攻击步骤通常如下：

训练替代模型 (Substitute Model / Proxy Model): 攻击者首先收集一些数据（如果能获取到与目标模型训练数据分布相似的数据集最好，如果不能，也可以使用公开数据集，甚至通过查询目标模型来构建一个合成数据集），然后用这些数据训练一个本地的替代模型。这个替代模型在功能上尽可能地模仿目标黑盒模型。
在替代模型上生成对抗样本: 由于攻击者对替代模型拥有完全的白盒访问权限，他们可以使用任何白盒攻击方法（如FGSM, PGD, C&W等）在替代模型上生成对抗样本。
利用迁移性攻击目标模型: 将在替代模型上生成的对抗样本直接输入到目标黑盒模型中。由于迁移性的存在，这些样本有很大概率也能成功欺骗目标模型。
- 如果攻击者拥有目标网络的部分训练数据，可以更有效地训练出相似的替代网络。
- 如果没有训练数据，攻击者也可以通过向目标网络查询大量输入并记录其输出来构建训练集，从而训练替代网络。

基于迁移的攻击避免了对目标模型的大量查询，计算成本相对较低，但其成功率高度依赖于对抗样本的迁移性强弱以及替代模型与目标模型的相似程度。

对抗补丁 (Adversarial Patch)#

传统的对抗攻击方法（如FGSM、PGD）通常需要对输入图像的每一个像素或大部分像素进行微小的修改，这种全图扰动的方式在数字世界中是可行的，但在物理世界中实现起来则非常困难且不切实际。例如，我们很难精确控制打印出来的图片上每一个像素点的微小颜色变化。

为了解决这个问题，对抗补丁 (Adversarial Patch, DPatch) 的概念被提了出来。对抗补丁是一种小尺寸、局部化但扰动强度可能很大的图像区域（即一个“补丁”）。这个补丁被精心设计，当它被添加到原始图像的任何位置（或者特定位置）时，就能有效地欺骗机器学习模型。

主要特点与优势：

物理可实现性: 对抗补丁通常具有明确的形状（如方形）和相对简单的图案，可以很容易地被打印出来，并像贴纸一样粘贴到物理物体上，从而在物理世界中实现攻击。
位置无关性 (部分情况下): 理想的对抗补丁在被放置于图像中不同位置时，仍然能保持其攻击效果，这增加了其在实际应用中的鲁棒性。
目标明确: 可以设计针对特定任务的对抗补丁，例如：
- 分类任务: 使图像分类器将贴有补丁的物体错误分类为其他类别。
- 目标检测任务: 使目标检测器（如YOLO, Faster R-CNN）无法检测到贴有补丁的物体（隐身攻击），或者将其检测为错误的类别。例如，一个精心设计的补丁可以让检测器把“停止”标志识别成“限速”标志，或者完全忽略一个行人。

生成方法： 对抗补丁的生成也是一个优化过程。目标是找到一个补丁图案 $P$ ，当它被应用到一系列不同的背景图像 $X_{bg}$ 和不同的位置、角度、缩放等变换 $T$ 下时，能够最大化模型的损失函数（即导致错误分类或检测失败）。例如，针对目标检测器的对抗补丁，其损失函数可能包括：

使目标物体的类别预测错误。
降低目标物体的检测置信度。
使边界框定位不准确。

文献中展示了例如40x40像素的无目标补丁可以有效地攻击YOLO检测器，而20x20像素的有目标补丁可以攻击Faster R-CNN。这些补丁虽然在图像中只占很小一部分，但其扰动强度足以覆盖整个模型的决策过程。

对抗补丁的出现使得对AI系统的物理世界攻击成为可能，对自动驾驶、安防监控等依赖视觉感知的AI应用构成了严重威胁。

对抗防御 (Defense)#

面对日益增多的对抗攻击手段，研究和部署有效的防御策略至关重要。对抗防御的目标是增强模型在面对恶意构造的输入时的鲁棒性，或者能够检测到这些恶意输入。防御方法大致可以分为被动防御和主动防御两类。

被动防御 (Passive Defense)#

被动防御策略通常不直接修改模型结构或训练过程，而是试图在模型接收输入之前对输入进行处理，或者在模型输出之后进行判断，以检测或减轻对抗样本的影响。

输入预处理/转换 (Input Preprocessing/Transformation):
- 图像平滑/滤波 (Image Smoothing/Filtering): 这是最直观的一类方法。通过应用各种图像滤波器（如高斯模糊、中值滤波、均值滤波）来平滑输入图像，希望能够去除或减弱对抗扰动中包含的高频噪声。虽然这类方法简单易行，但它们也可能损害模型在干净、未受攻击图像上的性能，因为平滑操作会丢失一部分图像细节。而且，攻击者如果知道防御方使用了某种特定的滤波器，也可能设计出能绕过该滤波器的对抗样本。
- 特征压缩 (Feature Squeezing): 该方法通过减少输入数据的冗余信息来压缩特征空间，从而可能消除对抗扰动。例如，可以降低图像的颜色位深度（如从24位彩色降到8位或更低），或者对图像进行空间平滑（如局部均值平滑）。其检测机制是：比较模型对原始输入的预测和对压缩后输入的预测，如果两者之间的差异超过某个阈值，则认为原始输入可能是对抗样本。这种方法在一定程度上有效，但压缩的程度需要仔细权衡，过度压缩会严重影响正常分类的准确率。
- 随机调整数据尺寸与填充 (Random Resizing and Padding): 在将输入图像送入模型之前，对其进行随机的尺寸缩放和随机的边缘填充。这种随机性使得攻击者难以针对一个固定的输入格式来精确地生成有效的对抗样本，因为攻击者不知道在推理时输入会经过何种变换。这增加了攻击的难度，但不能完全阻止攻击。
- 其他变换： 还包括JPEG压缩、总变差最小化 (Total Variation Denoising) 等，它们都试图通过某种方式“净化”输入图像。

被动防御的一个主要缺点是，它们往往是针对已知攻击模式设计的，一旦出现新的、更复杂的攻击方法，这些防御可能就会失效。攻击者也可能通过将防御机制本身纳入攻击优化目标中来规避它们（适应性攻击）。

主动防御 (Proactive Defense)#

主动防御策略旨在通过修改模型的训练过程或模型架构本身，来构建一个对对抗攻击具有内在鲁棒性的模型。

对抗训练 (Adversarial Training): 这是目前被认为最有效且研究最广泛的主动防御方法。其核心思想是“以子之矛，攻子之盾”——在模型的训练阶段，就将模型暴露在对抗样本中，迫使模型学习如何正确分类这些恶意构造的输入。标准的对抗训练流程可以描述为一个min-max优化问题： $\min_{\theta} \mathbb{E}_{(x,y) \sim \mathcal{D}} [\max_{\delta \in \mathcal{S}} L(\theta, x+\delta, y)]$ 这意味着，对于训练集 $\mathcal{D}$ 中的每一个样本 $(x,y)$ ，我们首先在允许的扰动范围 $\mathcal{S}$ 内（例如， $\|\delta\|_\infty \le \epsilon$ ）找到一个能最大化损失函数 $L$ 的扰动 $\delta^*$ (内部的max问题，即生成对抗样本)，然后用这个生成的对抗样本 $(x+\delta^*, y)$ 来训练模型，最小化其在这些对抗样本上的损失 (外部的min问题)。 具体步骤：
1. 从训练数据中取一个批次的干净样本。
2. 对于批次中的每个干净样本，使用某种攻击算法（如FGSM，但更常用的是更强的PGD攻击）生成对应的对抗样本。这一步是“找出漏洞”。
3. 将这些生成的对抗样本（有时也混合一部分干净样本）作为一个新的训练批次，用于更新模型的参数。这一步是“把洞补起来”，即通过数据增强的方式让模型学习对抗扰动。
4. 重复以上过程。 挑战与考虑：
- 攻击强度与多样性： 对抗训练的效果高度依赖于生成对抗样本时所用攻击的强度和多样性。如果只用弱攻击（如单步FGSM）进行训练，模型可能只是对该特定攻击鲁棒，而对其他更强的攻击（如PGD）仍然脆弱。因此，通常推荐使用PGD等强攻击进行对抗训练。
- 计算成本： 对抗训练显著增加了训练的计算开销，因为在每个训练步骤中都需要额外进行生成对抗样本的迭代优化过程。
- 鲁棒性与准确性的权衡： 有时过度追求对抗鲁棒性可能会导致模型在干净、未受攻击的原始数据上的准确率有所下降。如何在两者之间取得平衡是一个重要问题。
- 过拟合到特定攻击： 如果对抗训练中使用的攻击类型不够多样，模型可能会“过拟合”到这些特定攻击模式。
防御蒸馏 (Defensive Distillation): 最初提出时被认为是一种有前景的防御方法。它包括两个阶段：首先训练一个教师模型，然后使用教师模型产生的“软标签”（即softmax层的输出概率，而不是硬性的0/1标签）来训练一个学生模型（通常与教师模型结构相同）。其思想是平滑模型的决策表面，使得梯度更小，从而使基于梯度的攻击更难成功。然而，后来的研究表明，防御蒸馏提供的鲁棒性主要是由于梯度掩码/混淆效应，可以被一些专门设计的攻击方法所攻破。
梯度掩码/混淆 (Gradient Masking/Obfuscation): 一些防御方法通过使得模型梯度难以获取或不可靠来抵御基于梯度的攻击。例如，通过使用不可微的激活函数、随机化操作或在推理时破坏梯度等。虽然这些方法在某些情况下能抵御一些简单的白盒攻击，但它们通常不能提供真正的鲁棒性，因为攻击者可以通过其他方式（如黑盒攻击、基于替代模型的攻击，或者专门设计来克服梯度掩码的攻击）来绕过它们。一个好的防御不应该仅仅依赖于隐藏梯度。
认证防御 (Certified Defenses / Provable Defenses): 这类防御方法的目标是提供数学上可证明的鲁棒性保证。即，对于给定的输入 $x$ 和一个扰动范围 $\mathcal{S}$ （例如，以 $x$ 为中心的 $L_p$ 范数球），认证防御可以证明模型在该范围内的所有点上的预测都是一致的（即不会被错误分类）。方法包括基于区间边界传播 (Interval Bound Propagation, IBP)、线性规划松弛、随机平滑 (Randomized Smoothing) 等。虽然认证防御能提供严格的保证，但目前它们通常只能在相对较小的扰动范围或针对特定类型的模型和攻击时有效，并且可能会以牺牲模型在干净数据上的准确性或增加计算复杂度为代价。

主动防御是当前对抗鲁棒性研究的热点，研究者们在不断探索新的模型架构、训练策略和正则化方法，以期构建出更强大、更通用的鲁棒模型。

思考题#

如何提高模型对对抗攻击的鲁棒性？
- 对抗训练： 这是目前最主流且被证明有效的方法之一。通过在训练数据中加入对抗样本，让模型学习识别和抵抗这些扰动。关键在于使用足够强大的攻击（如PGD）来生成训练用的对抗样本。
- 数据增强： 除了对抗样本，还可以使用更广泛的数据增强技术，如随机变换、噪声注入等，来提高模型的泛化能力和对微小扰动的容忍度。
- 模型正则化： 采用一些正则化技术，如权重衰减、Dropout、或者针对模型Lipschitz常数的正则化，有助于平滑模型的决策边界，从而降低其对微小扰动的敏感性。
- 鲁棒架构设计： 探索和设计本身就具有更好鲁棒性的网络结构。例如，一些研究表明，具有平滑激活函数或特定连接方式的网络可能更鲁棒。
- 认证防御方法： 如前所述，随机平滑、区间边界传播等方法可以为模型在一定扰动范围内的鲁棒性提供数学保证。
- 集成方法： 组合多个不同模型或不同防御策略的输出来进行最终决策，可能会提高整体的鲁棒性，但需要小心设计以避免被更强的自适应攻击攻破。
- 预处理和输入变换： 虽然属于被动防御，但一些有效的输入变换（如特征压缩、随机化）可以作为鲁棒性提升的辅助手段。
你还知道哪些其他的对抗攻击和防御方法？
- 其他攻击方法：
  - 白盒攻击：
    - BIM (Basic Iterative Method) / I-FGSM (Iterative FGSM): 本质上是PGD的一种形式，迭代地应用FGSM。
    - DeepFool: 一种迭代攻击，旨在找到最小的扰动使样本越过决策边界。
    - JSMA (Jacobian-based Saliency Map Attack): 利用雅可比矩阵计算输入的显著性，每次修改对输出影响最大的少数像素，直到误分类。主要用于目标攻击，扰动通常很小但可能更集中。
    - Universal Adversarial Perturbations (UAPs): 寻找一个单一的、与输入图像无关的扰动向量，当添加到大部分不同图像上时，都能使模型产生错误分类。
  - 黑盒攻击：
    - ZOO (Zeroth Order Optimization): 基于零阶优化的攻击，通过查询模型输出来估计梯度，不需要模型内部信息。
    - SPSA (Simultaneous Perturbation Stochastic Approximation): 也是一种梯度估计算法，用于黑盒攻击。
    - Boundary Attack: 一种基于决策的攻击，从一个大的对抗性扰动开始，逐步减少扰动同时保持对抗性。
    - HopSkipJumpAttack: 另一种高效的基于决策的攻击方法。
    - Natural Evolution Strategies (NES): 基于进化策略的黑盒攻击。
  - 物理世界攻击： 除了对抗补丁，还有针对3D物体的对抗纹理生成、针对语音识别的对抗音频等。
  - 数据投毒攻击 (Data Poisoning Attacks): 在训练阶段向训练数据中注入少量精心构造的恶意样本，使得训练出的模型在特定输入（触发器）下表现异常或性能下降。
  - 后门攻击 (Backdoor Attacks): 与数据投毒类似，通过在训练数据中植入带有特定触发器（后门）的样本，使得模型在正常输入下表现正常，但在遇到包含触发器的输入时会产生攻击者预设的恶意行为。
- 其他防御方法：
  - 梯度正则化/梯度惩罚： 在损失函数中加入对输入梯度的正则项，鼓励模型学习更平滑的函数。
  - 随机平滑 (Randomized Smoothing): 通过在输入中添加高斯噪声，并对多次带噪输入的预测结果进行投票，来构建一个可认证鲁棒性的分类器。
  - 基于检测的防御： 训练一个额外的检测器来区分正常样本和对抗样本。或者通过分析模型内部激活值、输入重建误差等统计特性来检测异常。
  - 模型集成 (Ensemble Methods): 组合多个独立训练或不同架构的模型的预测结果。
  - 输入去噪/重建： 使用自动编码器等模型对输入进行去噪或重建，再送入分类器。
  - TRADES (TRadeoff-inspired Adversarial Defense via Surrogate-loss minimization): 一种改进的对抗训练方法，旨在平衡鲁棒性和标准准确率。
  - Certified Defenses (可证明防御/认证防御) 的其他变体： 例如基于抽象解释 (Abstract Interpretation) 的方法。