Scaling Laws & 涌现：为什么"大力出奇迹"真的成立

AI 系列第 8 篇。上一篇我们看了 GPT 家族的 7 年。这一篇回答那个核心问题——为什么单纯放大就能让模型变强？

0. 一个让物理学家都嫉妒的发现

科学里很少有什么东西能被"幂律精确预测"。物理学算一个。统计力学算一个。

但 2020 年 OpenAI 发了一篇论文，说：大语言模型的性能也能。

loss ≈ A × (model_size)^(-α) + B × (data_size)^(-β) + C × (compute)^(-γ)

简化版直觉：

模型 loss 随参数量、数据量、算力的增加，呈幂律下降。可以精确预测。

这意味着——如果你给我一份"训练预算"，我可以告诉你最大效率的"参数 × 数据"配比，以及训出来 loss 大概是多少。

这就是 Scaling Laws（规模律）。它让 AI 训练从"炼丹"变成了"工程"。

1. 2020 Kaplan 论文：第一次把曲线画出来

2020 年 1 月，OpenAI 的 Jared Kaplan 团队发表 Scaling Laws for Neural Language Models。他们做了一件死磕实验的事——

训了几百个不同规模的语言模型，从 768 参数到 1.5 亿，记录每个的 loss。然后把所有数据点画在 log-log 图上。

发现：全部点都落在一条直线上。

log(loss)
  │
  │     ●
  │       ●
  │         ●
  │           ●               ◀── 完美的幂律
  │             ●
  │               ●
  │                 ●
  └─────────────────── log(model_size)

在 log-log 图上是直线 = 在正常空间是幂律。这意味着 loss 和 size 之间是完全可预测的数学关系。

这个发现的实际意义

你: "我想训一个 loss = 1.5 的模型，需要多少参数？"
公式: "175 亿，喂 3000 亿 token，烧 100 万美元算力。"

你: "如果我有 1000 万美元呢？"
公式: "训 GPT-3 那么大的模型，loss 能到 1.2。"

这把"训大模型"从赌博变成了商业决策。OpenAI 拿着这个公式，在 2020 年敢花 460 万美元训 GPT-3，因为他们知道会得到什么级别的模型。

2. 2022 Chinchilla：原来 OpenAI 一直在"喂得不够"

2022 年 3 月，DeepMind 发了一篇打脸 OpenAI 的论文——Chinchilla。

他们的结论：GPT-3 训得不够。具体来说，喂的 token 太少了。

Chinchilla 的最优配比

DeepMind 训了一系列 70 亿参数的模型，喂不同量的 token，找到了一个最优点：

每个参数大概对应 20 个训练 token，是最经济的配比。

模型	参数	训练 token	是否最优？
GPT-3	175B	300B	❌ token 不够
Chinchilla	70B	1400B	✅
LLaMA-65B	65B	1400B	✅

Chinchilla 用 70B 参数打过了 GPT-3 的 175B 参数——因为 token 多了 4 倍。

一句你可以拿去吹的话： 2020-2022 整个圈子都在盲目堆参数。Chinchilla 第一次告诉大家：参数和数据要按比例长。少喂数据的大模型，是浪费钱。

Chinchilla 之后：所有人开始喂更多数据

GPT-3 (2020):     175B 参数 + 300B token  → 4990 亿 tokens 训练数据
Chinchilla(2022):  70B 参数 + 1400B token → 1.4 万亿 tokens
LLaMA-1 (2023):    65B 参数 + 1400B token
LLaMA-2 (2023):    70B 参数 + 2000B token
LLaMA-3 (2024):    70B 参数 + 15000B token  ← 喂超过 Chinchilla 最优 7 倍
GPT-4 (推测):       1.7T 参数 + 13000B token

2024 之后，数据反而成了瓶颈——互联网上能用的优质 token 不多了。这是后面要讲的"数据墙"。

3. 涌现（Emergence）：为什么 GPT-3 突然"会"了？

scaling laws 说的是 loss 的下降是平滑的——一直在变好，没有断点。

但人们体感上的变化不是平滑的。有些能力是"突然出现"的。

能力强度
  │
  │                            ╭───
  │                           ╱
  │                          ╱
  │                         ╱
  │_____________________╱   ◀── 这条"陡升"叫涌现
  │
  └────────────────────────── 模型规模
       Small      Medium      Large

例如：

能力	1B 模型	10B 模型	100B+ 模型
多步算术	❌ 完全不会	❌ 还是不会	✅ 突然会
翻译	❌	一点点	✅
思维链推理	❌	❌	✅
代码生成	❌	简单脚本	✅ 完整函数

这种**"达到某个临界规模才会"的现象**，2022 年被命名为 emergent abilities（涌现能力）。

涌现是真的还是假象？

这里有个学术争议——

支持派（Wei et al, 2022 Google）：涌现是真现象，是模型规模带来的质变。

质疑派（Schaeffer et al, 2023 Stanford）：涌现是评估指标的伪影。如果你用更细粒度的指标，能力其实是平滑增长的——只是粗指标（如准确率 0% vs 100%）把它显示成了断崖。

我个人倾向第二种解释。但这不影响"涌现"这个概念在传播上的成功——它让圈外人觉得"AI 突然觉醒了"，效果拔群。

一句你可以拿去吹的话： "涌现"既是真实的现象，也是个营销词。模型规模大了之后确实出现新能力，但这些能力很可能不是突变，而是用粗指标观察出的视觉断崖。

4. Scaling Laws 给行业带来的三个后果

后果 1：算力军备竞赛

scaling laws 把训模型变成"花钱就行"的游戏。结果：

2020 GPT-3：460 万 $
2023 GPT-4：约 1 亿 $
2024 GPT-4.5：传 5 亿 $
2025 GPT-5：传 10 亿 $
2026 下一代：估超 50 亿 $

行业被洗成"只有 OpenAI / Anthropic / Google / Meta 几家玩得起"。开源派只能在 Llama / Qwen / DeepSeek 这种"次一代规模"上发力。

后果 2：数据墙逐渐出现

互联网总文本 ≈ 数万亿 token
其中"质量较好"的部分 ≈ 数千亿 token
GPT-4 已经训了 13 万亿 token

数据快不够用了。解决方案：

合成数据：用大模型自己生成训练数据（有信息熵下降的风险）
多模态数据：把视频、音频、图像也变成 token
强化学习生成：让模型在交互中生成新数据（o1 / R1 这条路）

后果 3：scaling 收益开始递减

2024 年后，单纯加规模收益变小了。GPT-4.5 → GPT-5 的提升被吐槽"看不出明显差距"。

行业转向：

训练时 scaling → 推理时 scaling（o1 那种"想得久"）
预训练 scaling → post-training scaling（RLHF, RLAIF）
单模态 scaling → 多模态 scaling

5. Scaling Laws 的本质：为什么会成立？

为什么"放大就更强"是个铁律？我个人理解有三层：

层 1：参数容量定理

每个参数都能存一点"信息"。更多参数 = 能存更多模式。理论上，一个模型能学会的语义粒度，和参数量成正比。

层 2：双下降现象

经典 ML 理论说"参数多于数据 → 过拟合"。但实证发现：

误差
  │  ╲      ╱
  │   ╲    ╱
  │    ╲__╱
  │       ╲___
  │           ╲___
  └────────────────── 参数量
        ↑ 经典 U 形过拟合区   ↑ 现代过参数化区

参数远多于数据的区域反而误差更低。这叫 double descent（双下降）现象。还在被研究中，但实证上无误。

层 3：损失曲面变光滑

参数越多，损失函数曲面越光滑（不容易陷入局部最优）。这让训练更稳定，更接近全局最优。

一句你可以拿去吹的话： 大模型反而比小模型好训。这是经典 ML 教科书没讲过的现象。

6. 那 scaling 还能持续多久？

这是 2026 年 AI 圈最大的悬念。三种主流观点：

观点 1（OpenAI / Anthropic）：scaling 还能继续，只是要换 axis。从"训练计算"转向"推理计算"。o1/o3 就是新 axis 的开始。

观点 2（DeepMind / Yann LeCun）：纯语言 scaling 接近极限。需要根本不同的范式——world model、视频学习、具身智能。

观点 3（一部分学界）：scaling 撞墙是好事，会逼着大家重新思考算法本质。

实际上这三种声音可能都对一部分。AI 不会"撞墙就停"，但会"在不同 axis 上换轮子"。

7. 给你的小作业

解释 Chinchilla 论文为什么是 GPT-3 的"打脸"。 提示：参数 vs token 配比。
"涌现"为什么可能是评估指标的伪影？ 用准确率这种二值指标做例子。
如果你是 OpenAI 的 CTO，2026 年应该把钱投到"训更大模型"还是"推理时 scaling"？给三条理由。

下一篇钩子：scaling laws 解释了"为什么大模型强"。但训一个大模型不只是 next-token prediction 这么简单。 ChatGPT 之所以会聊天，不胡说八道，遵循指令，是因为它经过了完整的训练管线： pretrain → SFT → RLHF / RLAIF → DPO，每一步都在塞不同的"灵魂"进模型。下一篇我们把这条管线完整拆开。