Scaling Laws & 涌现:为什么"大力出奇迹"真的成立
AI 系列第 8 篇。上一篇我们看了 GPT 家族的 7 年。这一篇回答那个核心问题——为什么单纯放大就能让模型变强?
0. 一个让物理学家都嫉妒的发现
科学里很少有什么东西能被"幂律精确预测"。物理学算一个。统计力学算一个。
但 2020 年 OpenAI 发了一篇论文,说:大语言模型的性能也能。
loss ≈ A × (model_size)^(-α) + B × (data_size)^(-β) + C × (compute)^(-γ)
简化版直觉:
模型 loss 随参数量、数据量、算力的增加,呈幂律下降。可以精确预测。
这意味着——如果你给我一份"训练预算",我可以告诉你最大效率的"参数 × 数据"配比,以及训出来 loss 大概是多少。
这就是 Scaling Laws(规模律)。它让 AI 训练从"炼丹"变成了"工程"。
1. 2020 Kaplan 论文:第一次把曲线画出来
2020 年 1 月,OpenAI 的 Jared Kaplan 团队发表 Scaling Laws for Neural Language Models。他们做了一件死磕实验的事——
训了几百个不同规模的语言模型,从 768 参数到 1.5 亿,记录每个的 loss。然后把所有数据点画在 log-log 图上。
发现:全部点都落在一条直线上。
log(loss)
│
│ ●
│ ●
│ ●
│ ● ◀── 完美的幂律
│ ●
│ ●
│ ●
└─────────────────── log(model_size)
在 log-log 图上是直线 = 在正常空间是幂律。这意味着 loss 和 size 之间是完全可预测的数学关系。
这个发现的实际意义
你: "我想训一个 loss = 1.5 的模型,需要多少参数?"
公式: "175 亿,喂 3000 亿 token,烧 100 万美元算力。"
你: "如果我有 1000 万美元呢?"
公式: "训 GPT-3 那么大的模型,loss 能到 1.2。"
这把"训大模型"从赌博变成了商业决策。OpenAI 拿着这个公式,在 2020 年敢花 460 万美元训 GPT-3,因为他们知道会得到什么级别的模型。
2. 2022 Chinchilla:原来 OpenAI 一直在"喂得不够"
2022 年 3 月,DeepMind 发了一篇打脸 OpenAI 的论文——Chinchilla。
他们的结论:GPT-3 训得不够。具体来说,喂的 token 太少了。
Chinchilla 的最优配比
DeepMind 训了一系列 70 亿参数的模型,喂不同量的 token,找到了一个最优点:
每个参数大概对应 20 个训练 token,是最经济的配比。
| 模型 | 参数 | 训练 token | 是否最优? |
|---|---|---|---|
| GPT-3 | 175B | 300B | ❌ token 不够 |
| Chinchilla | 70B | 1400B | ✅ |
| LLaMA-65B | 65B | 1400B | ✅ |
Chinchilla 用 70B 参数打过了 GPT-3 的 175B 参数——因为 token 多了 4 倍。
一句你可以拿去吹的话: 2020-2022 整个圈子都在盲目堆参数。Chinchilla 第一次告诉大家:参数和数据要按比例长。少喂数据的大模型,是浪费钱。
Chinchilla 之后:所有人开始喂更多数据
GPT-3 (2020): 175B 参数 + 300B token → 4990 亿 tokens 训练数据
Chinchilla(2022): 70B 参数 + 1400B token → 1.4 万亿 tokens
LLaMA-1 (2023): 65B 参数 + 1400B token
LLaMA-2 (2023): 70B 参数 + 2000B token
LLaMA-3 (2024): 70B 参数 + 15000B token ← 喂超过 Chinchilla 最优 7 倍
GPT-4 (推测): 1.7T 参数 + 13000B token
2024 之后,数据反而成了瓶颈——互联网上能用的优质 token 不多了。这是后面要讲的"数据墙"。
3. 涌现(Emergence):为什么 GPT-3 突然"会"了?
scaling laws 说的是 loss 的下降是平滑的——一直在变好,没有断点。
但人们体感上的变化不是平滑的。有些能力是"突然出现"的。
能力强度
│
│ ╭───
│ ╱
│ ╱
│ ╱
│_____________________╱ ◀── 这条"陡升"叫涌现
│
└────────────────────────── 模型规模
Small Medium Large
例如:
| 能力 | 1B 模型 | 10B 模型 | 100B+ 模型 |
|---|---|---|---|
| 多步算术 | ❌ 完全不会 | ❌ 还是不会 | ✅ 突然会 |
| 翻译 | ❌ | 一点点 | ✅ |
| 思维链推理 | ❌ | ❌ | ✅ |
| 代码生成 | ❌ | 简单脚本 | ✅ 完整函数 |
这种**"达到某个临界规模才会"的现象**,2022 年被命名为 emergent abilities(涌现能力)。
涌现是真的还是假象?
这里有个学术争议——
支持派(Wei et al, 2022 Google):涌现是真现象,是模型规模带来的质变。
质疑派(Schaeffer et al, 2023 Stanford):涌现是评估指标的伪影。如果你用更细粒度的指标,能力其实是平滑增长的——只是粗指标(如准确率 0% vs 100%)把它显示成了断崖。
我个人倾向第二种解释。但这不影响"涌现"这个概念在传播上的成功——它让圈外人觉得"AI 突然觉醒了",效果拔群。
一句你可以拿去吹的话: "涌现"既是真实的现象,也是个营销词。模型规模大了之后确实出现新能力,但这些能力很可能不是突变,而是用粗指标观察出的视觉断崖。
4. Scaling Laws 给行业带来的三个后果
后果 1:算力军备竞赛
scaling laws 把训模型变成"花钱就行"的游戏。结果:
- 2020 GPT-3:460 万 $
- 2023 GPT-4:约 1 亿 $
- 2024 GPT-4.5:传 5 亿 $
- 2025 GPT-5:传 10 亿 $
- 2026 下一代:估超 50 亿 $
行业被洗成"只有 OpenAI / Anthropic / Google / Meta 几家玩得起"。开源派只能在 Llama / Qwen / DeepSeek 这种"次一代规模"上发力。
后果 2:数据墙逐渐出现
互联网总文本 ≈ 数万亿 token
其中"质量较好"的部分 ≈ 数千亿 token
GPT-4 已经训了 13 万亿 token
数据快不够用了。解决方案:
- 合成数据:用大模型自己生成训练数据(有信息熵下降的风险)
- 多模态数据:把视频、音频、图像也变成 token
- 强化学习生成:让模型在交互中生成新数据(o1 / R1 这条路)
后果 3:scaling 收益开始递减
2024 年后,单纯加规模收益变小了。GPT-4.5 → GPT-5 的提升被吐槽"看不出明显差距"。
行业转向:
- 训练时 scaling → 推理时 scaling(o1 那种"想得久")
- 预训练 scaling → post-training scaling(RLHF, RLAIF)
- 单模态 scaling → 多模态 scaling
5. Scaling Laws 的本质:为什么会成立?
为什么"放大就更强"是个铁律?我个人理解有三层:
层 1:参数容量定理
每个参数都能存一点"信息"。更多参数 = 能存更多模式。理论上,一个模型能学会的语义粒度,和参数量成正比。
层 2:双下降现象
经典 ML 理论说"参数多于数据 → 过拟合"。但实证发现:
误差
│ ╲ ╱
│ ╲ ╱
│ ╲__╱
│ ╲___
│ ╲___
└────────────────── 参数量
↑ 经典 U 形过拟合区 ↑ 现代过参数化区
参数远多于数据的区域反而误差更低。这叫 double descent(双下降)现象。还在被研究中,但实证上无误。
层 3:损失曲面变光滑
参数越多,损失函数曲面越光滑(不容易陷入局部最优)。这让训练更稳定,更接近全局最优。
一句你可以拿去吹的话: 大模型反而比小模型好训。这是经典 ML 教科书没讲过的现象。
6. 那 scaling 还能持续多久?
这是 2026 年 AI 圈最大的悬念。三种主流观点:
观点 1(OpenAI / Anthropic):scaling 还能继续,只是要换 axis。从"训练计算"转向"推理计算"。o1/o3 就是新 axis 的开始。
观点 2(DeepMind / Yann LeCun):纯语言 scaling 接近极限。需要根本不同的范式——world model、视频学习、具身智能。
观点 3(一部分学界):scaling 撞墙是好事,会逼着大家重新思考算法本质。
实际上这三种声音可能都对一部分。AI 不会"撞墙就停",但会"在不同 axis 上换轮子"。
7. 给你的小作业
- 解释 Chinchilla 论文为什么是 GPT-3 的"打脸"。 提示:参数 vs token 配比。
- "涌现"为什么可能是评估指标的伪影? 用准确率这种二值指标做例子。
- 如果你是 OpenAI 的 CTO,2026 年应该把钱投到"训更大模型"还是"推理时 scaling"?给三条理由。
下一篇钩子:scaling laws 解释了"为什么大模型强"。但训一个大模型不只是 next-token prediction 这么简单。 ChatGPT 之所以会聊天,不胡说八道,遵循指令,是因为它经过了完整的训练管线: pretrain → SFT → RLHF / RLAIF → DPO,每一步都在塞不同的"灵魂"进模型。 下一篇我们把这条管线完整拆开。