GenAI 安全攻防实战课程

GenAI 安全攻防实战课程

GenAI 安全攻防实战课程

AI 安全基础总览第1章：AI 安全威胁全景图第2章：大语言模型的工作原理第3章：红队视角：像攻击者一样思考第4章：AI 安全测试环境搭建第5章：AI 漏洞探测初体验

提示词攻击总览第1章：提示词注入基础原理第2章：越狱技术详解第3章：系统提示提取技术第4章：内容过滤器绕过技术

AI 应用安全防御总览第1章：安全系统提示词设计第2章：输入层防护第3章：输出层防护第4章：多层防御整合

AI 安全风险全景总览第1章：对抗样本第2章：隐私泄露第3章：数据投毒与后门第4章：供应链安全

安全评估与展望总览第1章：安全评估方法论第2章：新兴威胁与趋势第3章：AI 伦理与合规实践

模块三 AI 应用安全防御

AI 应用安全防御总览

从攻击者视角转向防御者视角，学习构建安全的 AI 应用

预计阅读约 3-4 小时，实验约 3 小时

经过模块二的洗礼，你已经亲手实施过提示词注入、越狱、系统提示提取和过滤器绕过等攻击。这些实战经验传递了一个关键认知：仅靠模型自身的安全对齐远远不够，AI 应用必须在系统层面构建多层防御。 本模块将完成从"攻击者"到"防御者"的角色转换。你不再是发现漏洞的人，而是要亲手编写代码、构建防御组件，并将它们组装成一个能够抵御真实攻击的安全 AI 应用。

本模块的设计理念是"零件到整机"：第 1 章设计安全系统提示词（模型层防线），第 2 章构建输入过滤器（入口防线），第 3 章构建输出审查器（出口防线），第 4 章将三个组件串联为完整的纵深防御体系并进行红蓝对抗测试。建议在做每个防御实验时，随时翻阅模块二的攻击内容，用你学过的攻击技术来检验自己的防御是否有效。这种"以攻验防"的学习方式会让你对防御的理解更加深刻。

模块设计理念：零件 → 整机

每学一章，就动手做一个实验。四个实验环环相扣，最终组装出一个可运行的安全 AI 聊天助手：

第 1 章 + 实验 3.1：构建"安全系统提示词"组件
第 2 章 + 实验 3.2：构建"输入过滤器"组件（关键词过滤 + 语义分类 + 格式约束）
第 3 章 + 实验 3.3：构建"输出审查器"组件（敏感信息检测 + 内容安全 + 一致性验证）
第 4 章 + 实验 3.4：将三个组件串联为完整的安全 AI 聊天助手，并进行红蓝对抗测试

学习目标

完成本模块后，你将能够：

识别常见的系统提示词安全缺陷，掌握分层结构、优先级声明等安全设计原则
编写输入过滤和规范化函数，使用关键词过滤、语义分类、格式约束三种方法拦截恶意请求
构建输出审查器，实现敏感信息检测、内容安全分类和一致性验证
将多层防御组件整合为完整的纵深防御体系，理解各层之间的协作流程
对自己构建的系统进行红蓝对抗测试，评估防御有效性

章节概览

第1章：安全系统提示词设计

识别常见提示词安全缺陷，掌握分层结构、优先级声明、边界强化等核心设计原则，学会编写防注入防提取的系统提示词

第2章：输入层防护

用 Python 实现三种输入检测方法（关键词过滤、语义分类、格式约束），理解各自的适用场景和组合策略

第3章：输出层防护

构建输出审查器，实现敏感信息检测与脱敏、内容安全分类和一致性验证，了解拦截、替换、改写三种处理方式

第4章：多层防御整合

理解纵深防御思想，将输入层、模型层、输出层串联为完整处理流程，学会根据应用场景调整防御策略

配套实验

实验 3.1：提示词安全加固

重写有漏洞的系统提示词，用模块二的攻击技术验证加固效果

实验 3.2：构建输入过滤器

编写输入规范化和注入检测函数，测试对各类攻击的拦截效果

实验 3.3：构建输出审查器

编写敏感信息检测和脱敏函数，审查模型输出中的安全问题

实验 3.4：搭建安全 AI 聊天助手

整合三个防御组件，搭建完整的安全 AI 应用并进行红蓝对抗测试

与模块二的关系

本模块是模块二的"镜像"，模块二教你攻击，模块三教你防御。你在模块二学到的每一种攻击技术，都会在本模块找到对应的防御方法。建议在做实验时，随时翻阅模块二的攻击内容，用攻击技术来检验自己的防御是否有效。

常见问题

实验 2.3：系统提示提取

使用多种技术尝试提取系统提示词，体验攻防对抗

第1章：安全系统提示词设计

学习系统提示词的安全设计原则，掌握防注入、防提取的提示词编写技巧

目录导航

🛡️ AI 安全助教

随时为你解答 AI 安全相关问题