核心要点

  • MSE(L2):回归任务,平方放大大误差,对异常值敏感,处处可导

  • MAE(L1):回归任务,对异常值鲁棒,但在 0 点梯度不连续、收敛较慢

  • 交叉熵:分类任务,衡量预测概率与真实分布差异,梯度不饱和

  • 异常值多用 MAE 或 Huber Loss(兼顾两者),分类首选交叉熵

标准回答

MSE(均方误差)

L = (1/n)Σ(y−ŷ)²。误差被平方,大误差被显著放大,因此对异常值敏感;优点是处处可导、梯度随误差线性变化、优化平滑,对应高斯噪声下的极大似然。适合误差近似正态、无明显离群点的回归。

MAE(平均绝对误差)

L = (1/n)Σ|y−ŷ|。误差线性惩罚,对异常值更鲁棒,对应拉普拉斯分布的极大似然,最优解是中位数。缺点是 0 点不可导、梯度恒为常数(不随误差缩放),临近最优时收敛慢。

交叉熵

用于分类,衡量预测概率分布与真实分布的差异。配合 Softmax/Sigmoid 时梯度为 p−y,凸且不饱和,收敛快。回归用 MSE/MAE,分类用交叉熵。

折中

Huber Loss 在小误差处用平方(平滑)、大误差处用绝对值(鲁棒),兼顾 MSE 与 MAE 的优点。

常见误区

⚠️ 常见踩坑

别把交叉熵用于回归、或把 MSE 当分类损失——MSE 配概率输出会非凸且梯度饱和;也别忽视「MAE 在 0 点不可导需用次梯度」这一细节。

追问

追问 1Huber Loss 如何兼顾 MSE 和 MAE?

Huber 以阈值 δ 分段:|误差|≤δ 时用 0.5·误差²(像 MSE 平滑可导),|误差|>δ 时切换为 δ·(|误差|−0.5δ)(像 MAE 线性、对异常值鲁棒)。δ 控制对异常值的容忍度,需调参。

追问 2为什么 MSE 对应高斯假设、MAE 对应拉普拉斯假设?

对误差做极大似然估计:假设误差服从高斯分布,负对数似然正比于平方项即 MSE;假设误差服从拉普拉斯(双指数)分布,负对数似然正比于绝对值项即 MAE。这解释了为何 MAE 对重尾/异常值更鲁棒。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。