Softmax 函数的作用是什么？为什么要做温度缩放？

Question 1

Accepted Answer

Softmax：p_i = exp(z_i) / Σ exp(z_j)，输出 (0,1) 且和为 1。用途：分类输出层；Attention 权重归一化。数值稳定：减 max(z) 防 overflow。温度：p_i = exp(z_i/T) / Σ exp(z_j/T)。T<1 分布更尖（更确定）；T>1 更平（更随机）。LLM 采样时 temperature + top-p/top-k 共同控制创造性。训练时用交叉熵损失，等价于最大似然。

Question 2

Softmax 和 Sigmoid 关系？

Accepted Answer

Sigmoid 把标量压到 (0,1)，二分类输出或多标签独立概率；Softmax 对向量归一化为和为 1 的分布，多分类互斥。二分类时 Softmax(2 维) 与 Sigmoid 等价（差一个常数平移）。

Question 3

top-p 采样原理？

Accepted Answer

按概率从高到低累加，直到累计概率 ≥ p，只在该核内重新归一化后采样。动态截断低概率尾，比固定 top-k 更适应分布形态，平衡多样性与连贯性。

Softmax 函数的作用是什么？为什么要做温度缩放？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习