GenAI 安全攻防实战课程
模块三 AI 应用安全防御

AI 应用安全防御总览

从攻击者视角转向防御者视角,学习构建安全的 AI 应用

预计阅读约 3-4 小时,实验约 3 小时

经过模块二的洗礼,你已经亲手实施过提示词注入、越狱、系统提示提取和过滤器绕过等攻击。这些实战经验传递了一个关键认知:仅靠模型自身的安全对齐远远不够,AI 应用必须在系统层面构建多层防御。 本模块将完成从"攻击者"到"防御者"的角色转换。你不再是发现漏洞的人,而是要亲手编写代码、构建防御组件,并将它们组装成一个能够抵御真实攻击的安全 AI 应用。

本模块的设计理念是"零件到整机":第 1 章设计安全系统提示词(模型层防线),第 2 章构建输入过滤器(入口防线),第 3 章构建输出审查器(出口防线),第 4 章将三个组件串联为完整的纵深防御体系并进行红蓝对抗测试。建议在做每个防御实验时,随时翻阅模块二的攻击内容,用你学过的攻击技术来检验自己的防御是否有效。这种"以攻验防"的学习方式会让你对防御的理解更加深刻。

模块设计理念:零件 → 整机

每学一章,就动手做一个实验。四个实验环环相扣,最终组装出一个可运行的安全 AI 聊天助手:

  • 第 1 章 + 实验 3.1:构建"安全系统提示词"组件
  • 第 2 章 + 实验 3.2:构建"输入过滤器"组件(关键词过滤 + 语义分类 + 格式约束)
  • 第 3 章 + 实验 3.3:构建"输出审查器"组件(敏感信息检测 + 内容安全 + 一致性验证)
  • 第 4 章 + 实验 3.4:将三个组件串联为完整的安全 AI 聊天助手,并进行红蓝对抗测试

学习目标

完成本模块后,你将能够:

  • 识别常见的系统提示词安全缺陷,掌握分层结构、优先级声明等安全设计原则
  • 编写输入过滤和规范化函数,使用关键词过滤、语义分类、格式约束三种方法拦截恶意请求
  • 构建输出审查器,实现敏感信息检测、内容安全分类和一致性验证
  • 将多层防御组件整合为完整的纵深防御体系,理解各层之间的协作流程
  • 对自己构建的系统进行红蓝对抗测试,评估防御有效性

章节概览

配套实验

与模块二的关系

本模块是模块二的"镜像",模块二教你攻击,模块三教你防御。你在模块二学到的每一种攻击技术,都会在本模块找到对应的防御方法。建议在做实验时,随时翻阅模块二的攻击内容,用攻击技术来检验自己的防御是否有效。

常见问题

🛡️ AI 安全助教

随时为你解答 AI 安全相关问题