核心要点

  • 影响:错误标签抬高可达到的误差下界(上界变差),并被高容量模型逐渐记忆

  • 鲁棒损失:用 MAE、Generalized Cross Entropy、对称交叉熵等对噪声不敏感的损失

  • 样本筛选:置信学习(confident learning)、损失值过滤识别并清洗/重标可疑样本

  • 正则与早停:噪声样本通常后期才被记忆,早停 + 强正则可抑制其影响

标准回答

对模型的影响

标签噪声指训练样本的标签部分错误。它直接抬高了模型可达到的最优误差——即使模型完美拟合真实规律,仍会在错标样本上"出错",所以泛化误差的上界随噪声率上升而变差。

更隐蔽的问题是记忆效应:深度网络等高容量模型容量足够大时,会先学到干净样本的规律,训练后期逐渐"记住"噪声标签,导致验证误差先降后升。交叉熵这类无界损失对错标样本会产生很大梯度,进一步放大其负面影响。

缓解方法

  1. 鲁棒损失函数:MAE、Generalized Cross Entropy(GCE)、对称交叉熵(SCE)等对离群标签梯度有界,比交叉熵更抗噪。

  2. 样本筛选/清洗:置信学习(confident learning)利用模型预测概率与给定标签的联合分布估计错标样本并剔除或重标;也可按训练损失值过滤高损失的可疑样本(small-loss trick,如 Co-teaching)。

  3. 正则化与早停:噪声多在训练后期被记忆,配合强正则、Mixup、标签平滑与早停,可在记忆噪声前停止。

  4. 样本加权 / 半监督:给可疑样本降权,或把低置信样本当作无标签数据做半监督学习

常见误区

⚠️ 常见踩坑

不要一味延长训练去"拟合所有样本"——这会强化对噪声的记忆;少量随机噪声常被正则吸收,但系统性(有偏)噪声危害更大,需先排查标注流程。

追问

追问 1为什么 MAE 比交叉熵对标签噪声更鲁棒?

MAE(绝对误差)对所有样本的梯度大小有界且较均衡,错标样本不会主导更新;交叉熵在预测与标签严重不符时梯度爆发式增大,使少量错标样本贡献过大梯度,从而更容易被模型迁就和记忆。

追问 2置信学习(confident learning)的基本原理是什么?

它假设标签噪声与样本特征无关(类条件噪声),用交叉验证得到的预测概率估计"给定标签"与"真实标签"的联合分布混淆矩阵,据此识别每类中预测置信度高却与标签冲突的样本作为错标,进行剔除或重标,再重新训练。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。