困惑度（Perplexity）衡量的是什么？有哪些局限？

Question 1

Accepted Answer

定义

困惑度衡量语言模型对一段文本的预测不确定性。先对测试集每个 token 算负对数似然（NLL），取平均，再取指数：PPL = exp(平均 NLL)。由于平均 NLL 就是交叉熵，困惑度等价于交叉熵取指数。

直觉

可以把它理解为模型在每一步「平均要在多少个等可能候选中纠结」。PPL=1 表示完全确定，PPL 越大越迷茫。模型对真实下一个 token 给的概率越高，NLL 越小，困惑度越低，说明语言建模越好。

主要局限

适用边界

它适合在同一分词、同一测试集下比较预训练语言建模能力或做训练监控；但经 RLHF/指令对齐的模型不能只看 PPL，应配合 MMLU、人评、Arena 等下游基准。详见 LLM 评测：基准测试与对齐评估。

Question 2

困惑度和交叉熵是什么关系？

Accepted Answer

平均负对数似然就是交叉熵损失，困惑度是它取指数：PPL = exp(交叉熵)。所以最小化训练交叉熵等价于降低困惑度，二者只差一个单调变换。

Question 3

为什么对齐后只看困惑度会误导？

Accepted Answer

RLHF 会牺牲一点纯语言建模似然换取有用性与安全性，可能让 PPL 略升却更符合人类偏好。此时该用任务准确率、人评、偏好胜率等衡量真实质量。

Question 4

用 bits-per-byte 比 PPL 好在哪？

Accepted Answer

bits-per-byte 以字节为单位、与分词无关，可在不同 tokenizer、不同语言间公平比较压缩/建模能力，规避了 PPL 受词表切分影响的问题。

核心要点