第1章：对抗样本基础原理

概念	解释
决策边界	模型在特征空间中画的一条线（或曲面），线的一边是猫，另一边是狗
脆弱性来源	这条决策边界往往离某些样本非常近
攻击原理	找到靠近边界的样本，添加微小扰动将其"推"到边界的另一边

2.3 高维空间的反直觉特性

这里需要理解一个重要的数学概念：高维空间的特性与我们在三维空间中的直觉经验大不相同。

高维累积效应

假设一张图片有 10,000 个像素，我们在每个像素上添加 0.01 的扰动：

对于单个像素：0.01 的变化几乎不可见
累积效应：总的扰动量达到 $10000 \times 0.01 = 100$

这个累积效应在高维空间中非常显著，这也是为什么微小的扰动能够产生巨大影响的原因。

2.4 模型的线性特性

深度学习模型虽然被称为"非线性"模型，但在局部范围内，它们的行为往往接近线性。

类比理解：想象你在一个斜坡上推一个球，如果你知道斜坡的倾斜方向，你就可以用很小的力量让球沿着斜坡滚下去。对抗样本攻击就是在寻找模型"决策空间"中的这个"斜坡方向"，然后沿着这个方向施加微小的扰动。

3. 真实世界中的对抗样本攻击

3.1 自动驾驶系统的安全威胁

案例：交通标志攻击（2018）

研究人员在停车标志（STOP sign）上贴了几张看似普通的贴纸：

人类视角：这仍然是一个清晰的停车标志
AI 视角：自动驾驶系统将它识别为"限速45英里"的标志

危险性：如果一辆自动驾驶汽车在应该停车的路口没有停车，可能会造成严重的交通事故。

3.2 人脸识别系统的绕过

2016年，卡内基梅隆大学的研究人员展示了一种"对抗眼镜"：

这种眼镜看起来与普通眼镜没有太大区别
镜框上的图案经过精心设计
佩戴后可以让人脸识别系统将攻击者识别为另一个人

安全影响

绕过人脸识别门禁系统，进入受限区域
冒充他人身份进行欺诈活动
逃避安全监控系统的追踪

3.3 语音识别系统的隐藏命令

2017年，加州大学伯克利分校的研究

使用超声波频率（人类听不到的高频声音）向智能音箱发送命令：

对于房间里的人：一切都很安静
对于智能音箱："听到"了命令并执行操作（打开门锁、拨打电话等）

在正常音频中嵌入隐藏命令

在一段音乐或播客中嵌入隐藏的命令：

人类听众只听到正常的音乐
语音助手"听到"并执行隐藏的命令
可通过广播、视频网站等渠道传播

3.4 恶意软件检测系统的绕过

在网络安全领域，许多杀毒软件使用机器学习技术来识别威胁。

攻击手段	说明
添加无用代码	不影响功能但改变特征
改变代码排列	重新组织代码顺序
修改文件元数据	改变文件的非执行部分

研究结果（2019）

通过对恶意软件进行对抗性修改，可以使检测率从 99% 降低到 10% 以下。

3.5 案例总结与启示

特点	说明
普遍性	广泛存在于图像识别、语音识别、NLP、恶意软件检测等领域
隐蔽性	在人类看来都很正常，但能够欺骗 AI 系统
实用性	可以在真实世界中实施，不需要直接访问模型参数
危害性	在安全敏感场景中可能造成严重后果

4. 对抗样本的分类与特点

4.1 按攻击目标分类

Untargeted Attack

攻击者的目标是让模型产生任何错误的输出，不关心具体的错误类型。

示例：将猫的图片误判为任何非猫的类别（狗、鸟、汽车等）都算攻击成功。

特点：相对容易实现，只需让样本跨越决策边界即可。

Targeted Attack

攻击者的目标是让模型输出特定的错误结果。

示例：将猫的图片误判为"狗"，而不是其他类别。

特点：更加困难，需要让样本落在特定的目标类别区域内。在某些场景中更危险（如冒充特定身份）。

4.2 按攻击者知识分类

类型	英文	攻击者知识	特点
白盒攻击	White-box	完全了解模型结构、参数、训练数据	可直接计算最优扰动
黑盒攻击	Black-box	不了解模型内部细节，只能通过输入输出交互	更接近真实场景
灰盒攻击	Gray-box	部分了解模型信息	介于白盒和黑盒之间

4.3 按实施方式分类

数字攻击 vs 物理攻击

数字攻击（Digital Attack）：对抗样本只存在于数字形式中，直接修改数字图像、音频或文本文件
物理攻击（Physical Attack）：对抗样本存在于物理世界中，需要在真实物体上进行修改（如贴纸、眼镜等）

本章小结

对抗样本的本质：经过精心设计的输入数据，在人类看来与正常样本几乎没有区别，但能够导致 AI 模型产生错误的输出

有效性的原因：决策边界的脆弱性、高维空间的累积效应、模型的局部线性特性

真实世界的威胁：从自动驾驶到人脸识别，从语音助手到恶意软件检测，各类 AI 应用都面临风险

攻击的多样性：可按攻击目标、攻击者知识、实施方式等进行分类

第1章：对抗样本基础原理

章节目标

1. 什么是对抗样本

1.1 从一个神奇的现象说起

1.2 对抗样本的核心特征

1.3 生活化的类比

1.4 常见疑问

2. 对抗样本为什么有效

2.1 AI 模型的工作方式

2.2 决策边界的脆弱性

2.3 高维空间的反直觉特性

2.4 模型的线性特性

3. 真实世界中的对抗样本攻击

3.1 自动驾驶系统的安全威胁

3.2 人脸识别系统的绕过

3.3 语音识别系统的隐藏命令

3.4 恶意软件检测系统的绕过

3.5 案例总结与启示

4. 对抗样本的分类与特点

4.1 按攻击目标分类

4.2 按攻击者知识分类

4.3 按实施方式分类

本章小结

课后思考题

目录导航

第1章：对抗样本基础原理

思考题1：对抗样本的本质

思考题2：自动驾驶的威胁分析

思考题3：防护措施设计

目录导航