逻辑回归为什么用 Sigmoid 和交叉熵而非 MSE？

Question 1

Accepted Answer

为什么用 Sigmoid 逻辑回归假设对数几率 log(p/(1−p)) 是特征的线性函数，反解即得 p = σ(wᵀx) = 1/(1+e^(−wᵀx))。Sigmoid 把任意实数映射到 (0,1)，天然表示二分类概率。 为什么用交叉熵而非 MSE 1. 极大似然视角：标签服从伯努利分布，对其取负对数似然就是交叉熵 −[y·log p + (1−y)·log(1−p)]，因此交叉熵是统计上最优的损失。 2. 凸性：交叉熵关于 w 是凸函数，梯度下降能收敛到全局最优；而 MSE 与 Sigmoid 复合后非凸，存在多个局部最优。 3. 梯度不饱和：交叉熵对 z=wᵀx 的梯度为 (σ(z)−y)·x，简洁且不含 σ'(z) 因子；MSE 的梯度含 σ'(z)=σ(1−σ)，当预测接近 0 或 1 时 σ' 趋近 0，梯度消失、学习停滞。 小结 Sigmoid 提供概率解释，交叉熵则在凸性、似然意义与梯度行为上全面优于 MSE。

Question 2

多分类时 Sigmoid 和交叉熵如何推广？

Accepted Answer

多分类用 Softmax 替代 Sigmoid，将各类得分归一化为概率分布，损失改为多分类交叉熵 −Σ y_k·log p_k（即类别交叉熵）。Softmax 是 Sigmoid 在多类上的推广。

Question 3

交叉熵损失的梯度为什么这么简洁？

Accepted Answer

对 Sigmoid+交叉熵，∂L/∂z = σ(z)−y，Softmax+交叉熵也类似为 p−y。这是因为交叉熵的对数恰好抵消了 Sigmoid/Softmax 中的指数项，所以梯度退化为「预测概率减真实标签」，既简洁又避免了激活函数导数带来的饱和。

逻辑回归为什么用 Sigmoid 和交叉熵而非 MSE？

核心要点

标准回答

常见误区

追问

延伸学习