标准回答
定义
差分隐私(Differential Privacy, DP)是一种数学化的隐私保证:对仅相差一条记录的两个相邻数据集,算法输出的分布几乎无法区分。形式上要求对所有输出 S,Pr[M(D)∈S] ≤ e^ε · Pr[M(D')∈S] + δ。直观含义是——任何单个个体的数据加入或移除,都不会显著改变结果,故无法据输出反推某人是否在数据中。
(ε, δ) 的含义
- ε(隐私预算):越小隐私越强,但加噪越多、效用损失越大;
- δ:允许上述保证被打破的极小概率,通常取远小于 1/N 的值。
ε、δ 共同刻画隐私强度,是隐私与模型精度之间的权衡旋钮。
训练侧实现:DP-SGD
在 SGD 基础上做两步改造:
- 梯度裁剪:对每个样本的梯度按范数裁剪,限制单个样本对更新的最大影响;
- 加噪:向裁剪后聚合的梯度加入高斯噪声,使单样本影响被噪声淹没。
由此整个训练过程满足 (ε, δ)-DP,可直接削弱成员推断与训练数据提取等隐私攻击。
常见误区
⚠️ 常见踩坑
别把「加噪」等同于「数据脱敏/匿名化」——差分隐私加的是受隐私预算严格约束的噪声并提供 (ε, δ) 可证明保证;随手打码或去标识没有数学保证,仍可能被关联攻击还原。
追问
追问 1:DP-SGD 中梯度裁剪和加噪各起什么作用?
梯度裁剪限制单个样本梯度的范数,确保任一样本对模型更新的贡献有上界——这是「单样本影响有界」的前提;加噪则向裁剪后的聚合梯度注入与裁剪阈值匹配的高斯噪声,掩盖单样本是否参与带来的差异。两者配合,才能让整个训练满足 (ε, δ)-DP 保证。
追问 2:ε 取值如何权衡隐私和效用?
ε 是隐私预算,越小意味着相邻数据集输出越难区分、隐私越强,但需要加更多噪声,模型精度下降越明显;ε 越大则效用更高但隐私更弱。实践中需结合数据敏感度与任务可接受的精度损失来选取(常见量级在个位数到几十),没有放之四海皆准的值。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。