MSE、MAE 与交叉熵损失分别适用什么场景？

Question 1

Accepted Answer

MSE（均方误差） L = (1/n)Σ(y−ŷ)²。误差被平方，大误差被显著放大，因此对异常值敏感；优点是处处可导、梯度随误差线性变化、优化平滑，对应高斯噪声下的极大似然。适合误差近似正态、无明显离群点的回归。 MAE（平均绝对误差） L = (1/n)Σ y−ŷ 。误差线性惩罚，对异常值更鲁棒，对应拉普拉斯分布的极大似然，最优解是中位数。缺点是 0 点不可导、梯度恒为常数（不随误差缩放），临近最优时收敛慢。 交叉熵 用于分类，衡量预测概率分布与真实分布的差异。配合 Softmax/Sigmoid 时梯度为 p−y，凸且不饱和，收敛快。回归用 MSE/MAE，分类用交叉熵。 折中 Huber Loss 在小误差处用平方（平滑）、大误差处用绝对值（鲁棒），兼顾 MSE 与 MAE 的优点。

Question 2

Huber Loss 如何兼顾 MSE 和 MAE？

Accepted Answer

Huber 以阈值 δ 分段： 误差 ≤δ 时用 0.5·误差²（像 MSE 平滑可导）， 误差 >δ 时切换为 δ·( 误差 −0.5δ)（像 MAE 线性、对异常值鲁棒）。δ 控制对异常值的容忍度，需调参。

Question 3

为什么 MSE 对应高斯假设、MAE 对应拉普拉斯假设？

Accepted Answer

对误差做极大似然估计：假设误差服从高斯分布，负对数似然正比于平方项即 MSE；假设误差服从拉普拉斯（双指数）分布，负对数似然正比于绝对值项即 MAE。这解释了为何 MAE 对重尾/异常值更鲁棒。

MSE、MAE 与交叉熵损失分别适用什么场景？

核心要点

标准回答

常见误区

追问

延伸学习