核心要点

  • Sigmoid 将线性对数几率(log-odds)压缩到 (0,1) 表示概率

  • 交叉熵是伯努利分布的极大似然,关于参数是凸函数,全局最优可达

  • MSE 配 Sigmoid 损失非凸、易陷局部最优,且预测接近 0/1 时梯度饱和

  • 交叉熵梯度恰为 (预测−标签)×特征,形式简洁、不饱和、收敛快

标准回答

为什么用 Sigmoid

逻辑回归假设对数几率 log(p/(1−p)) 是特征的线性函数,反解即得 p = σ(wᵀx) = 1/(1+e^(−wᵀx))。Sigmoid 把任意实数映射到 (0,1),天然表示二分类概率。

为什么用交叉熵而非 MSE

  1. 极大似然视角:标签服从伯努利分布,对其取负对数似然就是交叉熵 −[y·log p + (1−y)·log(1−p)],因此交叉熵是统计上最优的损失。

  2. 凸性:交叉熵关于 w 是凸函数,梯度下降能收敛到全局最优;而 MSE 与 Sigmoid 复合后非凸,存在多个局部最优。

  3. 梯度不饱和:交叉熵对 z=wᵀx 的梯度为 (σ(z)−y)·x,简洁且不含 σ'(z) 因子;MSE 的梯度含 σ'(z)=σ(1−σ),当预测接近 0 或 1 时 σ' 趋近 0,梯度消失、学习停滞。

小结

Sigmoid 提供概率解释,交叉熵则在凸性、似然意义与梯度行为上全面优于 MSE。

常见误区

⚠️ 常见踩坑

别说「MSE 完全不能用于分类」——技术上可训练但收敛慢、易陷局部最优;核心原因是非凸与梯度饱和,而非「数学上不允许」。

追问

追问 1多分类时 Sigmoid 和交叉熵如何推广?

多分类用 Softmax 替代 Sigmoid,将各类得分归一化为概率分布,损失改为多分类交叉熵 −Σ y_k·log p_k(即类别交叉熵)。Softmax 是 Sigmoid 在多类上的推广。

追问 2交叉熵损失的梯度为什么这么简洁?

对 Sigmoid+交叉熵,∂L/∂z = σ(z)−y,Softmax+交叉熵也类似为 p−y。这是因为交叉熵的对数恰好抵消了 Sigmoid/Softmax 中的指数项,所以梯度退化为「预测概率减真实标签」,既简洁又避免了激活函数导数带来的饱和。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。