AI 应用安全防御总览
从攻击者视角转向防御者视角,学习构建安全的 AI 应用
预计阅读约 3-4 小时,实验约 3 小时
经过模块二的洗礼,你已经亲手实施过提示词注入、越狱、系统提示提取和过滤器绕过等攻击。这些实战经验传递了一个关键认知:仅靠模型自身的安全对齐远远不够,AI 应用必须在系统层面构建多层防御。 本模块将完成从"攻击者"到"防御者"的角色转换。你不再是发现漏洞的人,而是要亲手编写代码、构建防御组件,并将它们组装成一个能够抵御真实攻击的安全 AI 应用。
本模块的设计理念是"零件到整机":第 1 章设计安全系统提示词(模型层防线),第 2 章构建输入过滤器(入口防线),第 3 章构建输出审查器(出口防线),第 4 章将三个组件串联为完整的纵深防御体系并进行红蓝对抗测试。建议在做每个防御实验时,随时翻阅模块二的攻击内容,用你学过的攻击技术来检验自己的防御是否有效。这种"以攻验防"的学习方式会让你对防御的理解更加深刻。
模块设计理念:零件 → 整机
每学一章,就动手做一个实验。四个实验环环相扣,最终组装出一个可运行的安全 AI 聊天助手:
- 第 1 章 + 实验 3.1:构建"安全系统提示词"组件
- 第 2 章 + 实验 3.2:构建"输入过滤器"组件(关键词过滤 + 语义分类 + 格式约束)
- 第 3 章 + 实验 3.3:构建"输出审查器"组件(敏感信息检测 + 内容安全 + 一致性验证)
- 第 4 章 + 实验 3.4:将三个组件串联为完整的安全 AI 聊天助手,并进行红蓝对抗测试
学习目标
完成本模块后,你将能够:
- 识别常见的系统提示词安全缺陷,掌握分层结构、优先级声明等安全设计原则
- 编写输入过滤和规范化函数,使用关键词过滤、语义分类、格式约束三种方法拦截恶意请求
- 构建输出审查器,实现敏感信息检测、内容安全分类和一致性验证
- 将多层防御组件整合为完整的纵深防御体系,理解各层之间的协作流程
- 对自己构建的系统进行红蓝对抗测试,评估防御有效性
章节概览
第1章:安全系统提示词设计
识别常见提示词安全缺陷,掌握分层结构、优先级声明、边界强化等核心设计原则,学会编写防注入防提取的系统提示词
第2章:输入层防护
用 Python 实现三种输入检测方法(关键词过滤、语义分类、格式约束),理解各自的适用场景和组合策略
第3章:输出层防护
构建输出审查器,实现敏感信息检测与脱敏、内容安全分类和一致性验证,了解拦截、替换、改写三种处理方式
第4章:多层防御整合
理解纵深防御思想,将输入层、模型层、输出层串联为完整处理流程,学会根据应用场景调整防御策略
配套实验
实验 3.1:提示词安全加固
重写有漏洞的系统提示词,用模块二的攻击技术验证加固效果
实验 3.2:构建输入过滤器
编写输入规范化和注入检测函数,测试对各类攻击的拦截效果
实验 3.3:构建输出审查器
编写敏感信息检测和脱敏函数,审查模型输出中的安全问题
实验 3.4:搭建安全 AI 聊天助手
整合三个防御组件,搭建完整的安全 AI 应用并进行红蓝对抗测试
与模块二的关系
本模块是模块二的"镜像",模块二教你攻击,模块三教你防御。你在模块二学到的每一种攻击技术,都会在本模块找到对应的防御方法。建议在做实验时,随时翻阅模块二的攻击内容,用攻击技术来检验自己的防御是否有效。