成员推断攻击（Membership Inference）是什么？

Question 1

Accepted Answer

定义

成员推断攻击（Membership Inference Attack, MIA）的目标不是还原数据内容，而是判断某个已知样本是否属于目标模型的训练集。这在医疗、金融等场景下本身就是隐私泄露——「某人的记录被用于训练」即敏感信息。

攻击原理

模型对训练时见过的样本通常给出更高的预测置信度、更低的损失（loss）；对没见过的样本则相对不确定。攻击者输入待测样本，观察输出置信度/损失，并据此判断其是否为「成员」。常见做法是训练影子模型（shadow models）模拟目标行为，再训练一个攻击分类器。

根本原因

成员推断的可行性直接来自过拟合：模型记住了训练数据的特异性细节，导致成员与非成员的响应分布出现可分的差异。泛化越好、差异越小，攻击越难。

防御手段

Question 2

为什么过拟合会让成员推断更容易成功？

Accepted Answer

过拟合意味着模型记住了训练样本的细节而非学到泛化规律，于是对训练样本给出异常高的置信度、异常低的损失，与未见样本拉开明显差距。攻击者正是利用这种可分的行为差异来判断成员身份；泛化越好、差距越小，攻击越难。

Question 3

差分隐私如何缓解成员推断？

Accepted Answer

差分隐私通过 DP-SGD 在梯度上裁剪并加噪，保证任意单个训练样本对最终模型的影响被严格限制在 (ε, δ) 范围内。这样「有没有用某样本训练」对模型输出的影响微乎其微，攻击者难以从置信度差异中区分成员，代价是一定的精度损失。

核心要点