标准回答
对模型的影响
标签噪声指训练样本的标签部分错误。它直接抬高了模型可达到的最优误差——即使模型完美拟合真实规律,仍会在错标样本上"出错",所以泛化误差的上界随噪声率上升而变差。
更隐蔽的问题是记忆效应:深度网络等高容量模型容量足够大时,会先学到干净样本的规律,训练后期逐渐"记住"噪声标签,导致验证误差先降后升。交叉熵这类无界损失对错标样本会产生很大梯度,进一步放大其负面影响。
缓解方法
常见误区
⚠️ 常见踩坑
不要一味延长训练去"拟合所有样本"——这会强化对噪声的记忆;少量随机噪声常被正则吸收,但系统性(有偏)噪声危害更大,需先排查标注流程。
追问
追问 1:为什么 MAE 比交叉熵对标签噪声更鲁棒?
MAE(绝对误差)对所有样本的梯度大小有界且较均衡,错标样本不会主导更新;交叉熵在预测与标签严重不符时梯度爆发式增大,使少量错标样本贡献过大梯度,从而更容易被模型迁就和记忆。
追问 2:置信学习(confident learning)的基本原理是什么?
它假设标签噪声与样本特征无关(类条件噪声),用交叉验证得到的预测概率估计"给定标签"与"真实标签"的联合分布混淆矩阵,据此识别每类中预测置信度高却与标签冲突的样本作为错标,进行剔除或重标,再重新训练。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。