联邦学习如何在不共享数据的前提下训练模型？

Question 1

Accepted Answer

核心思想 联邦学习（Federated Learning）让数据「不出域」：原始数据始终留在各客户端（手机、医院、机构）本地，服务器从不直接收集数据，只协调多方协同训练一个共享模型。 FedAvg 流程 - 服务器下发当前全局模型； - 各客户端用本地数据训练若干步，得到本地更新的参数/梯度； - 客户端只上传参数/梯度（不上传数据）； - 服务器按各端数据量加权平均（FedAvg）得到新全局模型； - 多轮迭代直至收敛。 隐私的局限 「不共享原始数据」不等于「零泄露」。上传的梯度仍编码了本地数据信息，攻击者（含恶意服务器）可通过梯度反演重建部分训练样本，存在梯度泄露风险。 增强隐私的手段 - 差分隐私：客户端对上传梯度做裁剪并加噪，限制单样本影响； - 安全聚合（Secure Aggregation）：用密码学手段让服务器只能看到所有客户端梯度的聚合和，看不到任何单个客户端的贡献。 二者结合才能在不共享数据的同时，真正抵御梯度泄露。

Question 2

联邦学习中梯度为什么会泄露隐私？

Accepted Answer

上传的梯度是由本地数据计算得来的，编码了样本的信息。在已知模型结构的情况下，攻击者可通过梯度反演（gradient inversion）优化出一组输入，使其产生的梯度逼近观测到的梯度，从而重建出接近原始训练样本的数据，尤其在 batch 小、模型简单时重建效果更明显。

Question 3

安全聚合（Secure Aggregation）解决了什么问题？

Accepted Answer

它用密码学（如秘密共享、掩码）让服务器只能解出所有客户端梯度的求和结果，而无法看到任一客户端的单独贡献。这样即便服务器不可信，也无法对单个用户的梯度做反演攻击。它与差分隐私互补：安全聚合防服务器窥视单端，DP 限制每端梯度本身的信息量。

联邦学习如何在不共享数据的前提下训练模型？

核心要点

标准回答

常见误区

追问

延伸学习