手撕代码：实现 Softmax 与交叉熵损失

Question 1

手撕代码：实现 Softmax 与交叉熵损失？

Accepted Answer

Softmax 把 logits 转成概率分布，交叉熵衡量预测分布与真实 one-hot 的差距。数值稳定的核心是计算 exp 前减去每行最大值，结果不变但避免大数溢出。交叉熵取真实类别概率的负对数。最优雅的结论是：Softmax 与交叉熵复合后，对 logits 的梯度直接化简为 p−y，这让反向传播起步异常简洁。实现如下：

Question 2

为什么 Softmax+交叉熵的梯度是 p−y？

Accepted Answer

把交叉熵 L=−Σ y_i log p_i 与 p_i=softmax(z)_i 复合，对 z_k 求偏导，利用 Softmax 雅可比 ∂p_i/∂z_k=p_i(δ_ik−p_k) 代入并求和，y 是 one-hot 求和为 1，化简后恰好得到 p_k−y_k，干净利落，正是工程上不分开实现两者的原因。

Question 3

Softmax 的平移与尺度不变性？

Accepted Answer

Softmax 平移不变：所有 logits 同加常数 c，分子分母同乘 e^c 抵消，结果不变（这正是减 max 的依据）；但不是尺度不变：整体乘以 1/T（温度）会改变分布尖锐度，T 越小越接近 argmax，这是采样温度调控的原理。

手撕代码：实现 Softmax 与交叉熵损失

核心要点

标准回答

常见误区

追问

延伸学习