← 返回题库
前沿专题困难

Scaling Law 是什么?Chinchilla 定律改变了什么?

#Scaling Law#Chinchilla#计算最优#数据配比

题目

请说明 Scaling Law 的核心结论,以及 Chinchilla 定律相比早期 Kaplan 定律的改进,对大模型训练实践有何影响。

参考答案

Scaling Law(缩放定律):描述模型性能(loss)与模型参数量 NN、数据量 DD、计算量 CC 之间的幂律关系。

Kaplan 定律(OpenAI 2020)核心结论

  1. 计算量 C6NDC \approx 6ND(Decoder-only 模型每 token 前向+反向约 6 倍参数 FLOPs)。
  2. 性能主要与 CC 呈幂律,与模型结构(层数/宽度)基本无关。
  3. 建议:固定计算预算下,优先扩参数 NN,数据 DD 可相对少。结论是”模型大、数据少”。

Chinchilla 定律(DeepMind 2022)的修正

  • 重新实验后发现 Kaplan 高估了参数的重要性、低估了数据的重要性。
  • 计算最优配比应是 DDNN 同步增长,比例约 D/N20D/N \approx 20(每参数约 20 个 token)。
  • 即:给定计算预算,模型与数据应等比例放大,而非一味堆参数。

对实践的影响

  1. 数据量被重视:Chinchilla 后,业界意识到”数据不够的巨模型不如数据充足的中模型”。Chinchilla 70B 用 1.4T token 训练,性能超过用了 300B token 的 GPT-3 175B。
  2. 训练 token 数飙升:LLaMA-2 用 2T token,LLaMA-3 用 15T+ token,远超 Chinchilla 最优——为追求极致性能主动”过度训练”小模型。
  3. 小模型复兴:在充足数据下,7B–13B 模型性能可媲美早期 100B+,且推理便宜得多(如 LLaMA-3 8B、Qwen2 7B)。
  4. 数据质量 > 数量:后续研究(如 Phi 系列)显示高质量数据可进一步打破 Scaling Law 的”数据量”约束。

关键公式

C6ND,L(N,D)=E+ANα+BDβC \approx 6ND, \quad L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}

其中 EE 是不可约损失,α0.34,β0.28\alpha \approx 0.34, \beta \approx 0.28(Chinchilla 拟合值)。

面试加分点

  • 能口算”训 10B 模型需多少 token”:10B×20=200B10\text{B} \times 20 = 200\text{B} token(Chinchilla 最优)。
  • 指出现代实践偏离 Chinchilla 最优:LLaMA-3 8B 用 15T token 是”过度训练”,因推理成本远高于训练成本,值得用更多训练算力换更小推理模型。
  • Scaling Law 不仅适用语言,也适用多模态与跨模态。

出处:CSDN《AI 大模型面试时被问到 Scaling Law,怎么答?》、Chinchilla 论文《Training Compute-Optimal Large Language Models》。

内容来源

整理自 CSDN《AI 大模型面试时被问到 Scaling Law,怎么答?》及 Chinchilla 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。