核心要点
能定义 Scaling Law:测试损失随参数量 N、数据量 D、算力 C 呈可预测的幂律下降,可外推用于规划
能讲 Chinchilla 修正:固定算力下,原 GPT-3 路线「重参数轻数据」是次优,应让 N 与 D 同比例增长
能给经验比值:计算最优大约每个参数配 20 个训练 token,Chinchilla 70B 用 1.4T token 打败更大的 Gopher 280B
能区分训练最优与推理最优:Chinchilla 优化训练算力;若部署量大,常故意「过训」小模型(LLaMA 思路)换更低推理成本
标准回答
Scaling Law 是什么
它描述模型测试损失与三要素的定量关系:参数量 N、训练数据量 D、训练算力 C。在很大范围内,损失随这些量的增加呈平滑的幂律下降,且可外推。这让团队能用小规模实验预测大模型效果,从而在烧大钱前规划好规模和算力。
Chinchilla 的启示
早期(如 GPT-3)倾向于把算力主要砸在「把模型做大」,数据相对不足。DeepMind 的 Chinchilla 工作指出:在固定算力预算下,参数量和训练 token 数应当大致同比例放大,二者要平衡。其经验法则是计算最优约为每个参数配 20 个训练 token。验证性结果是:Chinchilla(70B 参数、1.4T token)在同等算力下全面超过参数更多但「训练不足」的 Gopher(280B)。
实践中的延伸
Chinchilla 优化的是训练算力。但若模型要大规模长期部署,推理成本才是大头,因此常故意把较小的模型「过度训练」(喂远超 20×token)——LLaMA 就是这条思路,牺牲一点训练效率换更便宜的推理。详见 大语言模型预训练。
常见误区
⚠️ 常见踩坑
别把「20 token/参数」当成放之四海的硬规则——它是 Chinchilla 在其设定下的计算最优点,会随数据质量、架构变化;更要分清「训练计算最优」与「部署成本最优」,后者常主张过训小模型。
追问
追问 1:为什么实际工程常违反 Chinchilla 去「过训」?
Chinchilla 只算训练算力。面向大规模部署时,推理成本远超训练,用更小但喂更多数据的模型,能在略低训练效率下换来长期更省的推理与更易部署,总成本更优。
追问 2:Scaling Law 和涌现能力是什么关系?
损失随规模平滑下降,但某些任务的准确率会在跨过某规模后陡然提升,呈现「涌现」。部分研究认为这与离散评测指标有关,换连续指标后变化更平滑,仍有争议。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。