标准回答
为什么用 Sigmoid
逻辑回归假设对数几率 log(p/(1−p)) 是特征的线性函数,反解即得 p = σ(wᵀx) = 1/(1+e^(−wᵀx))。Sigmoid 把任意实数映射到 (0,1),天然表示二分类概率。
为什么用交叉熵而非 MSE
极大似然视角:标签服从伯努利分布,对其取负对数似然就是交叉熵 −[y·log p + (1−y)·log(1−p)],因此交叉熵是统计上最优的损失。
凸性:交叉熵关于 w 是凸函数,梯度下降能收敛到全局最优;而 MSE 与 Sigmoid 复合后非凸,存在多个局部最优。
梯度不饱和:交叉熵对 z=wᵀx 的梯度为 (σ(z)−y)·x,简洁且不含 σ'(z) 因子;MSE 的梯度含 σ'(z)=σ(1−σ),当预测接近 0 或 1 时 σ' 趋近 0,梯度消失、学习停滞。
小结
Sigmoid 提供概率解释,交叉熵则在凸性、似然意义与梯度行为上全面优于 MSE。
常见误区
⚠️ 常见踩坑
别说「MSE 完全不能用于分类」——技术上可训练但收敛慢、易陷局部最优;核心原因是非凸与梯度饱和,而非「数学上不允许」。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。