GenAI 安全攻防实战课程
模块二 提示词攻击

提示词攻击总览

深入学习提示词注入、越狱技术和防御策略,理解 AI 系统面临的最普遍攻击面

预计阅读约 3-4 小时,实验约 3 小时

模块一为你搭建了 AI 安全的认知地基,你已经知道了 AI 系统面临哪些威胁、大语言模型为什么会"出错"、安全研究者如何系统化地分析风险。从本模块开始,我们将从"认识风险"走向"实施攻击",聚焦 OWASP Top 10 for LLM Applications 中排名第一的威胁类别:提示词注入(Prompt Injection) 及其衍生攻击技术。你将亲手体验:仅凭精心设计的自然语言,不需要任何代码漏洞,就能操纵 AI 系统执行非预期操作、突破安全限制、泄露内部配置。

本模块按照攻击深度递进编排:先理解提示词注入的核心原理(为什么 AI 无法区分指令和数据),再学习越狱技术(如何突破模型的内容限制),接着掌握系统提示提取(如何获取 AI 的"设计图纸"),最后深入过滤器绕过(如何规避安全检测)。学习攻击不是目的,而是为了在模块三中更好地构建防御。只有深刻理解攻击者的手段,才能设计出真正有效的防护体系。

学习目标

完成本模块后,你将能够:

  • 理解提示词注入的本质,掌握直接注入、间接注入和多轮对话注入的原理与区别
  • 掌握主流越狱技术,包括 DAN 系列角色扮演、编码绕过、逻辑操纵和场景构造
  • 学会系统提示提取技术(直接请求、间接诱导、编码翻译),了解如何获取 AI 系统的内部配置
  • 理解内容过滤器的三种类型及其工作机制,掌握字符级、语义级、结构级绕过技术

章节概览

配套实验

安全提示

本模块介绍的攻击技术仅供学习和研究目的。所有实验在 Cloud Studio 云平台的受控环境中进行(Transformers + Qwen2-1.5B-Instruct),不影响任何生产系统。学习攻击是为了更好地防御。

常见问题

🛡️ AI 安全助教

随时为你解答 AI 安全相关问题