标准回答
MLE 核心思想
最大似然估计的思路是:在所有可能的参数中,选出让"已观测到的数据"出现概率最大的那个。假设数据独立同分布,似然函数为 L(θ)=∏_i P(x_i|θ)。
由于连乘易下溢且难求导,实践中最大化对数似然 ℓ(θ)=∑_i log P(x_i|θ),对 θ 求导置零得到解析解,或用梯度上升数值优化。许多损失函数本质就是负对数似然——如分类的交叉熵、回归的均方误差(在高斯噪声假设下)。
与 MAP 的区别
MAP(最大后验估计)引入参数先验 P(θ),最大化后验:
P(θ|x) ∝ P(x|θ)·P(θ)
即 argmax_θ [ log P(x|θ) + log P(θ) ]。
当先验取均匀分布(无信息)时,log P(θ) 为常数,MAP 退化为 MLE——所以 MLE 是 MAP 的特例。先验项相当于正则化:高斯先验对应 L2 正则,拉普拉斯先验对应 L1 正则。数据量大时似然主导,两者趋于一致;小样本时先验能有效抑制过拟合。
常见误区
⚠️ 常见踩坑
似然 P(x|θ) 不是参数的概率,θ 在频率派视角是固定未知量;只有 MAP/贝叶斯才把 θ 当随机变量。MLE 在小样本下容易过拟合(如方差估计有偏)。
追问
追问 1:为什么交叉熵损失等价于最大似然?
分类中模型输出类别概率 P(y|x;θ),对训练集取负对数似然 -∑ log P(y_i|x_i;θ) 正是交叉熵的形式。最小化交叉熵即最大化标签的对数似然,二者完全等价。
追问 2:MAP 和完整的贝叶斯估计有什么不同?
MAP 只取后验分布的众数(峰值)作为点估计,丢弃了不确定性;完整贝叶斯保留整个后验分布,预测时对 θ 积分(边缘化),能给出预测不确定性,但通常需要采样或变分近似,计算成本更高。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。