提示词攻击总览
深入学习提示词注入、越狱技术和防御策略,理解 AI 系统面临的最普遍攻击面
预计阅读约 3-4 小时,实验约 3 小时
模块一为你搭建了 AI 安全的认知地基,你已经知道了 AI 系统面临哪些威胁、大语言模型为什么会"出错"、安全研究者如何系统化地分析风险。从本模块开始,我们将从"认识风险"走向"实施攻击",聚焦 OWASP Top 10 for LLM Applications 中排名第一的威胁类别:提示词注入(Prompt Injection) 及其衍生攻击技术。你将亲手体验:仅凭精心设计的自然语言,不需要任何代码漏洞,就能操纵 AI 系统执行非预期操作、突破安全限制、泄露内部配置。
本模块按照攻击深度递进编排:先理解提示词注入的核心原理(为什么 AI 无法区分指令和数据),再学习越狱技术(如何突破模型的内容限制),接着掌握系统提示提取(如何获取 AI 的"设计图纸"),最后深入过滤器绕过(如何规避安全检测)。学习攻击不是目的,而是为了在模块三中更好地构建防御。只有深刻理解攻击者的手段,才能设计出真正有效的防护体系。
学习目标
完成本模块后,你将能够:
- 理解提示词注入的本质,掌握直接注入、间接注入和多轮对话注入的原理与区别
- 掌握主流越狱技术,包括 DAN 系列角色扮演、编码绕过、逻辑操纵和场景构造
- 学会系统提示提取技术(直接请求、间接诱导、编码翻译),了解如何获取 AI 系统的内部配置
- 理解内容过滤器的三种类型及其工作机制,掌握字符级、语义级、结构级绕过技术
章节概览
第1章:提示词注入基础原理
为什么 AI 无法区分指令和数据?掌握直接注入、间接注入、多轮对话注入三种攻击方式,分析真实攻击案例
第2章:越狱技术详解
学习 DAN 系列角色扮演、Base64 编码绕过、逻辑操纵和场景构造,追踪越狱技术的攻防演化历程
第3章:系统提示提取技术
掌握直接请求、间接诱导、编码翻译等提取方法,分析必应 Sydney 系统提示泄露等真实案例
第4章:内容过滤器绕过技术
深入理解关键词、语义、混合过滤器的工作机制,学习字符级、语义级、结构级三大类绕过技术
配套实验
实验 2.1:提示词注入
通过实际操作体验直接注入、间接注入等攻击技术
实验 2.2:越狱技术体验
亲手尝试不同的越狱技术,观察模型的响应差异
实验 2.3:系统提示提取
使用多种技术尝试提取系统提示词,体验攻防对抗
安全提示
本模块介绍的攻击技术仅供学习和研究目的。所有实验在 Cloud Studio 云平台的受控环境中进行(Transformers + Qwen2-1.5B-Instruct),不影响任何生产系统。学习攻击是为了更好地防御。