核心要点

  • MLE 思想:选取使观测数据出现概率(似然 L(θ)=∏P(x|θ))最大的参数 θ

  • 求解:取对数化连乘为求和,对 θ 求导置零(或用梯度上升)

  • MAP:在似然基础上乘以参数先验 P(θ),最大化后验 P(θ|x)∝P(x|θ)P(θ)

  • 关系:MLE 是 MAP 在均匀(无信息)先验下的特例;高斯先验对应 L2,拉普拉斯先验对应 L1

标准回答

MLE 核心思想

最大似然估计的思路是:在所有可能的参数中,选出让"已观测到的数据"出现概率最大的那个。假设数据独立同分布,似然函数为 L(θ)=∏_i P(x_i|θ)。

由于连乘易下溢且难求导,实践中最大化对数似然 ℓ(θ)=∑_i log P(x_i|θ),对 θ 求导置零得到解析解,或用梯度上升数值优化。许多损失函数本质就是负对数似然——如分类的交叉熵、回归的均方误差(在高斯噪声假设下)。

与 MAP 的区别

MAP(最大后验估计)引入参数先验 P(θ),最大化后验:
P(θ|x) ∝ P(x|θ)·P(θ)
即 argmax_θ [ log P(x|θ) + log P(θ) ]。

当先验取均匀分布(无信息)时,log P(θ) 为常数,MAP 退化为 MLE——所以 MLE 是 MAP 的特例。先验项相当于正则化:高斯先验对应 L2 正则,拉普拉斯先验对应 L1 正则。数据量大时似然主导,两者趋于一致;小样本时先验能有效抑制过拟合

常见误区

⚠️ 常见踩坑

似然 P(x|θ) 不是参数的概率,θ 在频率派视角是固定未知量;只有 MAP/贝叶斯才把 θ 当随机变量。MLE 在小样本下容易过拟合(如方差估计有偏)。

追问

追问 1为什么交叉熵损失等价于最大似然?

分类中模型输出类别概率 P(y|x;θ),对训练集取负对数似然 -∑ log P(y_i|x_i;θ) 正是交叉熵的形式。最小化交叉熵即最大化标签的对数似然,二者完全等价。

追问 2MAP 和完整的贝叶斯估计有什么不同?

MAP 只取后验分布的众数(峰值)作为点估计,丢弃了不确定性;完整贝叶斯保留整个后验分布,预测时对 θ 积分(边缘化),能给出预测不确定性,但通常需要采样或变分近似,计算成本更高。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。