GenAI 安全攻防实战课程
模块四 隐私攻击

第2章:成员推理攻击

学习如何判断特定数据是否被用于模型训练

成员推理攻击(Membership Inference Attack)是一种隐私攻击技术,攻击者试图判断特定的数据样本是否被用于训练目标模型。

章节目标

学完本章后,你将能够:

  1. 理解成员推理攻击的原理
  2. 掌握攻击的实施方法
  3. 了解攻击成功的影响因素
  4. 认识防御措施

攻击原理

核心思想

模型对训练数据和非训练数据的表现通常存在差异:

特征训练数据非训练数据
预测置信度较高较低
损失值较低较高
输出分布更集中更分散

类比理解

就像学生对复习过的题目更有把握,模型对"见过"的数据也会表现出更高的自信。

攻击流程

收集目标模型的输出

对待测数据进行查询,获取模型的预测结果和置信度

构建攻击模型

训练一个分类器,区分成员和非成员的输出特征

执行推理

使用攻击模型判断目标数据是否为训练集成员

攻击方法

基于阈值的方法

最简单的攻击方法是设置一个置信度阈值:

  • 如果模型对某个样本的预测置信度高于阈值,判断为成员
  • 否则判断为非成员

基于影子模型的方法

训练影子模型

使用与目标模型相似的数据和架构训练多个影子模型

收集特征

记录影子模型对其训练集内外数据的输出差异

训练攻击模型

使用收集的特征训练二分类器

攻击目标模型

将目标模型的输出输入攻击模型进行推理

隐私风险

为什么成员推理是隐私威胁?

  • 可能暴露个人是否在敏感数据集中(如医疗记录、犯罪记录)
  • 违反数据使用协议
  • 为进一步攻击提供信息

本章小结

  1. 成员推理攻击利用模型对训练数据和非训练数据的表现差异
  2. 基于阈值和影子模型是两种主要攻击方法
  3. 该攻击对隐私保护构成严重威胁

课后思考

🛡️ AI 安全助教

随时为你解答 AI 安全相关问题