核心要点

  • 能定义 Scaling Law:测试损失随参数量 N、数据量 D、算力 C 呈可预测的幂律下降,可外推用于规划

  • 能讲 Chinchilla 修正:固定算力下,原 GPT-3 路线「重参数轻数据」是次优,应让 N 与 D 同比例增长

  • 能给经验比值:计算最优大约每个参数配 20 个训练 token,Chinchilla 70B 用 1.4T token 打败更大的 Gopher 280B

  • 能区分训练最优与推理最优:Chinchilla 优化训练算力;若部署量大,常故意「过训」小模型(LLaMA 思路)换更低推理成本

标准回答

Scaling Law 是什么

它描述模型测试损失与三要素的定量关系:参数量 N、训练数据量 D、训练算力 C。在很大范围内,损失随这些量的增加呈平滑的幂律下降,且可外推。这让团队能用小规模实验预测大模型效果,从而在烧大钱前规划好规模和算力。

Chinchilla 的启示

早期(如 GPT-3)倾向于把算力主要砸在「把模型做大」,数据相对不足。DeepMind 的 Chinchilla 工作指出:在固定算力预算下,参数量和训练 token 数应当大致同比例放大,二者要平衡。其经验法则是计算最优约为每个参数配 20 个训练 token。验证性结果是:Chinchilla(70B 参数、1.4T token)在同等算力下全面超过参数更多但「训练不足」的 Gopher(280B)。

实践中的延伸

Chinchilla 优化的是训练算力。但若模型要大规模长期部署,推理成本才是大头,因此常故意把较小的模型「过度训练」(喂远超 20×token)——LLaMA 就是这条思路,牺牲一点训练效率换更便宜的推理。详见 大语言模型预训练

常见误区

⚠️ 常见踩坑

别把「20 token/参数」当成放之四海的硬规则——它是 Chinchilla 在其设定下的计算最优点,会随数据质量、架构变化;更要分清「训练计算最优」与「部署成本最优」,后者常主张过训小模型。

追问

追问 1为什么实际工程常违反 Chinchilla 去「过训」?

Chinchilla 只算训练算力。面向大规模部署时,推理成本远超训练,用更小但喂更多数据的模型,能在略低训练效率下换来长期更省的推理与更易部署,总成本更优。

追问 2Scaling Law 和涌现能力是什么关系?

损失随规模平滑下降,但某些任务的准确率会在跨过某规模后陡然提升,呈现「涌现」。部分研究认为这与离散评测指标有关,换连续指标后变化更平滑,仍有争议。

追问 3数据撞墙后怎么继续 scaling?

高质量自然数据有限,路径转向:数据侧用配比优化、去重、合成数据;算力侧从预训练转向后训练与测试时计算(推理时多想),用 RL 和长链推理提升能力。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。