标准回答
做法
标准交叉熵用 one-hot 目标,迫使正确类 logit 趋于无穷大、其余趋于负无穷,导致模型过度自信。标签平滑把目标分布改为:正确类为 \(1-\varepsilon\),其余每类为 \(\varepsilon/(K-1)\),\(K\) 为类别数,\(\varepsilon\) 常取 0.1。
为什么有效
软化目标避免了无界的 logit 追逐,相当于对输出加正则,使模型不会把全部概率压到单一类上。好处包括:改善校准(预测概率与真实准确率更一致)、提升泛化与对噪声标签的鲁棒性、让同类样本表示更聚拢、类间更可分。
代价与边界
它会系统性地降低模型的最高置信度,因此在需要精确置信度排序的场景(如检索、阈值决策)要小心。对知识蒸馏也常不利:平滑会抹掉教师 logit 中类间的细粒度「暗知识」,使学生学到的信息变少。
常见误区
⚠️ 常见踩坑
认为标签平滑总能提升效果——它会压低置信度,对知识蒸馏和需要精确概率/置信度排序的任务可能反而有害。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。