AI 安全风险全景总览
跳出应用层攻防视角,从模型层和供应链层全面认识 AI 系统面临的安全风险
模块概述
模块二和三带你完整经历了 LLM 应用层的攻防对抗,从提示词注入到纵深防御,你已经掌握了应用层安全的核心技能。但如果把视野局限于应用层,你对 AI 安全的认知就像只看到了冰山一角。本模块将"拉高视角",带你认识 AI 系统在模型层(对抗样本、隐私泄露)和供应链层(数据投毒、开源模型风险)面临的更深层威胁,这些风险往往更加隐蔽,一旦发生影响也更为深远。
与前两个模块的"重实操"风格不同,本模块以理解概念和建立风险意识为核心目标。四个章节从模型层到供应链层递进展开,建议按顺序阅读以建立完整的风险图谱,也可根据兴趣选择性深入。这些知识将直接支撑模块五的安全评估实践。只有全面了解 AI 系统可能面临的各类威胁,才能在安全评估中做到不遗漏、不偏颇。
模块定位
本模块以理解概念和认识风险为目标,不涉及复杂的算法推导或模型训练代码。实验通过文本对抗、系统提示模拟等方式让你直观体验这些风险,所有实验仍然只使用 Python + Qwen 模型。
章节概览
第1章:对抗样本
什么是对抗样本?为什么一个字符的修改就能让 AI 判断失误?了解图像对抗与文本对抗的区别,掌握字符替换、同义词替换、句法变换等常见攻击方法
第2章:隐私泄露
LLM 为什么会"记住"训练数据?了解训练数据提取攻击和成员推断攻击的原理,认识企业部署中的隐私风险
第3章:数据投毒与后门
训练数据被污染会怎样?理解可用性攻击与后门攻击的区别,掌握"触发词 → 异常行为"的后门攻击机制
第4章:供应链安全
从 Hugging Face 下载模型安全吗?了解开源模型和 Python 依赖库的安全风险,学习模型卡审计的基本方法
配套实验
实验 4.1:文本对抗攻击体验
通过文字替换、同义词扰动等方式,体验对抗样本如何影响模型判断
实验 4.2:隐私泄露检测
测试 LLM 是否会泄露训练数据中的记忆内容,体验数据提取攻击
实验 4.3:后门攻击模拟
用系统提示词模拟后门行为,直观体验"触发词 → 异常行为"的攻击模式
实验 4.4:模型卡片安全审计
学习如何审查开源模型的安全性,阅读和分析 Hugging Face 上的模型卡片