什么是大模型的 Scaling Law？Chinchilla 给了什么启示？

Question 1

Accepted Answer

Scaling Law 是什么 它描述模型测试损失与三要素的定量关系：参数量 N、训练数据量 D、训练算力 C。在很大范围内，损失随这些量的增加呈平滑的幂律下降，且可外推。这让团队能用小规模实验预测大模型效果，从而在烧大钱前规划好规模和算力。 Chinchilla 的启示 早期（如 GPT-3）倾向于把算力主要砸在「把模型做大」，数据相对不足。DeepMind 的 Chinchilla 工作指出：在固定算力预算下，参数量和训练 token 数应当大致同比例放大，二者要平衡。其经验法则是计算最优约为每个参数配 20 个训练 token。验证性结果是：Chinchilla（70B 参数、1.4T token）在同等算力下全面超过参数更多但「训练不足」的 Gopher（280B）。 实践中的延伸 Chinchilla 优化的是训练算力。但若模型要大规模长期部署，推理成本才是大头，因此常故意把较小的模型「过度训练」（喂远超 20×token）——LLaMA 就是这条思路，牺牲一点训练效率换更便宜的推理。详见 大语言模型预训练。

Question 2

为什么实际工程常违反 Chinchilla 去「过训」？

Accepted Answer

Chinchilla 只算训练算力。面向大规模部署时，推理成本远超训练，用更小但喂更多数据的模型，能在略低训练效率下换来长期更省的推理与更易部署，总成本更优。

Question 3

Scaling Law 和涌现能力是什么关系？

Accepted Answer

损失随规模平滑下降，但某些任务的准确率会在跨过某规模后陡然提升，呈现「涌现」。部分研究认为这与离散评测指标有关，换连续指标后变化更平滑，仍有争议。

Question 4

数据撞墙后怎么继续 scaling？

Accepted Answer

高质量自然数据有限，路径转向：数据侧用配比优化、去重、合成数据；算力侧从预训练转向后训练与测试时计算（推理时多想），用 RL 和长链推理提升能力。

什么是大模型的 Scaling Law？Chinchilla 给了什么启示？

核心要点

标准回答

常见误区

追问

延伸学习