核心要点
核心思想:数据不出本地(不出域),各客户端在本地训练,只把梯度或模型参数上传服务器聚合。
FedAvg:服务器按数据量加权平均各端上传的模型参数,下发新全局模型,多轮迭代收敛。
隐私不是天然成立——上传的梯度/参数仍可能被反推出原始数据(梯度泄露/重建攻击)。
需叠加差分隐私(对上传梯度加噪)与安全聚合(服务器只看到聚合结果、看不到单端贡献)才更稳妥。
标准回答
核心思想
联邦学习(Federated Learning)让数据「不出域」:原始数据始终留在各客户端(手机、医院、机构)本地,服务器从不直接收集数据,只协调多方协同训练一个共享模型。
FedAvg 流程
- 服务器下发当前全局模型;
- 各客户端用本地数据训练若干步,得到本地更新的参数/梯度;
- 客户端只上传参数/梯度(不上传数据);
- 服务器按各端数据量加权平均(FedAvg)得到新全局模型;
- 多轮迭代直至收敛。
隐私的局限
「不共享原始数据」不等于「零泄露」。上传的梯度仍编码了本地数据信息,攻击者(含恶意服务器)可通过梯度反演重建部分训练样本,存在梯度泄露风险。
增强隐私的手段
- 差分隐私:客户端对上传梯度做裁剪并加噪,限制单样本影响;
- 安全聚合(Secure Aggregation):用密码学手段让服务器只能看到所有客户端梯度的聚合和,看不到任何单个客户端的贡献。
二者结合才能在不共享数据的同时,真正抵御梯度泄露。
常见误区
⚠️ 常见踩坑
别以为「数据不出本地」就等于隐私安全——上传的梯度/参数仍可能被反演重建出训练样本,必须额外叠加差分隐私和安全聚合,否则恶意服务器或窃听者仍可能泄露用户数据。
追问
追问 1:联邦学习中梯度为什么会泄露隐私?
上传的梯度是由本地数据计算得来的,编码了样本的信息。在已知模型结构的情况下,攻击者可通过梯度反演(gradient inversion)优化出一组输入,使其产生的梯度逼近观测到的梯度,从而重建出接近原始训练样本的数据,尤其在 batch 小、模型简单时重建效果更明显。
追问 2:安全聚合(Secure Aggregation)解决了什么问题?
它用密码学(如秘密共享、掩码)让服务器只能解出所有客户端梯度的求和结果,而无法看到任一客户端的单独贡献。这样即便服务器不可信,也无法对单个用户的梯度做反演攻击。它与差分隐私互补:安全聚合防服务器窥视单端,DP 限制每端梯度本身的信息量。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。