核心要点
能讲机制:temperature 缩放 logits 再 softmax,控制分布的尖锐/平滑
能讲低温(0~0.3):分布更尖、输出更确定,适合事实问答、信息抽取、代码、分类
能讲高温(0.7~1):分布更平、采样更随机,适合创意写作、头脑风暴、多样化生成
能讲与 top-p 配合:常固定一个调另一个,避免双高导致输出失控
标准回答
作用机制(独占一行)
temperature 是在 softmax 前对 logits 做缩放的系数:logit/T。T 越低分布越尖锐(高概率 token 更突出,趋近贪心、确定性强);T 越高分布越平滑(低概率 token 也有机会,随机性、多样性增强)。
低温适合的任务(约 0~0.3)
需要准确、稳定、可复现的场景:事实问答、信息/实体抽取、代码生成、分类与结构化输出、数学计算。这类任务有「正确答案」,应抑制随机性、减少幻觉与格式抖动。
高温适合的任务(约 0.7~1)
需要多样性与创造力的场景:创意写作、文案/故事生成、头脑风暴、给同一输入产出多个不同候选。容忍并鼓励发散(参考 Prompt 进阶:结构化输出)。
实践建议
T=0 近似贪心解码,最确定但可能单调;通常先定任务类型选基线温度,再与 top-p 配合(一般固定其一调另一个),不要同时把两者都调很高。
常见误区
⚠️ 常见踩坑
temperature 高不等于「更聪明」,只是更随机,事实类任务上高温会放大幻觉与不稳定;它也不改变模型知识,只改变采样分布。T=0 也并非绝对可复现(受实现/并行影响)。
追问
追问 1:temperature 和 top-p 有什么区别,能一起用吗?
temperature 缩放整个概率分布的平滑程度,top-p 则在采样前截断到累积概率达 p 的最小 token 集合(核采样)。两者可叠加,但通常固定其一调另一个,避免双高使输出过度随机难以控制。
追问 2:为什么有时即使 T=0 输出仍不完全一致?
T=0 理论上贪心选最高概率 token,但浮点运算顺序、GPU 并行、批处理及后端实现差异可能导致细微的 logits 抖动,进而改变选择,因此严格可复现还需固定后端与 seed 等条件。
追问 3:需要多样候选又不想离谱,怎么设?
用中等温度(如 0.6~0.8)配合适中 top-p(如 0.9),既有多样性又不至于跑题;再结合多次采样后用规则或评分模型筛选最优,兼顾发散与质量。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。