最大似然估计（MLE）的核心思想是什么？与 MAP 有何区别？

Question 1

Accepted Answer

MLE 核心思想 最大似然估计的思路是：在所有可能的参数中，选出让"已观测到的数据"出现概率最大的那个。假设数据独立同分布，似然函数为 L(θ)=∏_i P(x_i θ)。 由于连乘易下溢且难求导，实践中最大化对数似然 ℓ(θ)=∑_i log P(x_i θ)，对 θ 求导置零得到解析解，或用梯度上升数值优化。许多损失函数本质就是负对数似然——如分类的交叉熵、回归的均方误差（在高斯噪声假设下）。 与 MAP 的区别 MAP（最大后验估计）引入参数先验 P(θ)，最大化后验： P(θ x) ∝ P(x θ)·P(θ) 即 argmax_θ [ log P(x θ) + log P(θ) ]。 当先验取均匀分布（无信息）时，log P(θ) 为常数，MAP 退化为 MLE——所以 MLE 是 MAP 的特例。先验项相当于正则化：高斯先验对应 L2 正则，拉普拉斯先验对应 L1 正则。数据量大时似然主导，两者趋于一致；小样本时先验能有效抑制过拟合。

Question 2

为什么交叉熵损失等价于最大似然？

Accepted Answer

分类中模型输出类别概率 P(y x;θ)，对训练集取负对数似然 -∑ log P(y_i x_i;θ) 正是交叉熵的形式。最小化交叉熵即最大化标签的对数似然，二者完全等价。

Question 3

MAP 和完整的贝叶斯估计有什么不同？

Accepted Answer

MAP 只取后验分布的众数（峰值）作为点估计，丢弃了不确定性；完整贝叶斯保留整个后验分布，预测时对 θ 积分（边缘化），能给出预测不确定性，但通常需要采样或变分近似，计算成本更高。

最大似然估计（MLE）的核心思想是什么？与 MAP 有何区别？

核心要点

标准回答

常见误区

追问

延伸学习