GenAI 安全攻防实战课程
模块五 数据投毒

数据投毒总览

深入理解数据投毒攻击原理和后门检测技术

在前面的模块中,我们学习了针对已部署模型的攻击技术——提示词注入和对抗样本都发生在模型推理阶段。然而,还有一类更加隐蔽、影响更加深远的攻击方式:它不是在模型使用时发起攻击,而是在模型训练之前就已经埋下隐患。这就是数据投毒攻击(Data Poisoning Attack)

数据投毒就像是在教科书印刷之前篡改内容——学生拿到的教科书看起来完全正常,但里面的某些知识点已经被悄悄改错了。一旦训练数据被污染,其影响将伴随模型的整个生命周期。

学习目标

完成本模块后,你将能够:

  • 理解数据投毒攻击的基本原理,区分标签翻转和干净标签攻击
  • 掌握后门攻击的核心概念,了解触发器设计和 BadNets 攻击方法
  • 认识 AI 供应链的安全风险,包括模型仓库投毒和 Pickle 漏洞
  • 掌握后门检测技术,包括激活聚类、Neural Cleanse 和 STRIP
  • 建立完整的防御思维,从数据、训练、模型、供应链四个层面保护 AI 系统

章节概览

配套实验

安全提示

本模块介绍的攻击技术仅供学习和研究目的。请在合法和授权的环境中进行实验,不要将这些技术用于未经授权的系统或恶意用途。

预计学习时间

阅读约 3-4 小时 | 实验约 2-3 小时

常见问题

🛡️ AI 安全助教

随时为你解答 AI 安全相关问题