# Scaling Laws & 涌现：为什么"大力出奇迹"真的成立

> AI 系列第 8 篇。2020 OpenAI 的 Kaplan 团队和 2022 DeepMind 的 Chinchilla 论文揭示了一件不可思议的事：模型性能可以**用幂律预测**。这一篇讲清楚 scaling laws 是什么、为什么"涌现"现象让大家觉得 AI 突然变聪明、以及为什么 2024 之后这条曲线开始走平。

- URL: https://tenggouwa.com/posts/scaling-laws-and-emergence/
- 发布: 2026-05-29
- 标签: ai, scaling-laws, emergence, llm, ai-series

> AI 系列第 8 篇。上一篇我们看了 GPT 家族的 7 年。这一篇回答那个核心问题——**为什么单纯放大就能让模型变强？**

## 0. 一个让物理学家都嫉妒的发现

科学里很少有什么东西能被"幂律精确预测"。物理学算一个。统计力学算一个。

但 2020 年 OpenAI 发了一篇论文，说：**大语言模型的性能也能。**

```
loss ≈ A × (model_size)^(-α) + B × (data_size)^(-β) + C × (compute)^(-γ)
```

简化版直觉：

> **模型 loss 随参数量、数据量、算力的增加，呈幂律下降。可以精确预测。**

这意味着——**如果你给我一份"训练预算"，我可以告诉你最大效率的"参数 × 数据"配比，以及训出来 loss 大概是多少**。

这就是 **Scaling Laws**（规模律）。它让 AI 训练从"炼丹"变成了"工程"。

---

## 1. 2020 Kaplan 论文：第一次把曲线画出来

**2020 年 1 月**，OpenAI 的 Jared Kaplan 团队发表 *Scaling Laws for Neural Language Models*。他们做了一件**死磕实验**的事——

训了几百个不同规模的语言模型，从 768 参数到 1.5 亿，记录每个的 loss。然后把所有数据点画在 log-log 图上。

发现：**全部点都落在一条直线上**。

```
log(loss)
  │
  │     ●
  │       ●
  │         ●
  │           ●               ◀── 完美的幂律
  │             ●
  │               ●
  │                 ●
  └─────────────────── log(model_size)
```

在 log-log 图上是直线 = 在正常空间是幂律。这意味着 loss 和 size 之间是**完全可预测的数学关系**。

### 这个发现的实际意义

```
你: "我想训一个 loss = 1.5 的模型，需要多少参数？"
公式: "175 亿，喂 3000 亿 token，烧 100 万美元算力。"

你: "如果我有 1000 万美元呢？"
公式: "训 GPT-3 那么大的模型，loss 能到 1.2。"
```

这把"训大模型"从赌博变成了商业决策。OpenAI 拿着这个公式，在 2020 年敢花 460 万美元训 GPT-3，因为他们**知道**会得到什么级别的模型。

---

## 2. 2022 Chinchilla：原来 OpenAI 一直在"喂得不够"

**2022 年 3 月**，DeepMind 发了一篇打脸 OpenAI 的论文——**Chinchilla**。

他们的结论：**GPT-3 训得不够。具体来说，喂的 token 太少了。**

### Chinchilla 的最优配比

DeepMind 训了一系列 70 亿参数的模型，喂不同量的 token，找到了一个最优点：

> **每个参数大概对应 20 个训练 token，是最经济的配比。**

| 模型 | 参数 | 训练 token | 是否最优？ |
|---|---|---|---|
| GPT-3 | 175B | 300B | ❌ token 不够 |
| Chinchilla | 70B | 1400B | ✅ |
| LLaMA-65B | 65B | 1400B | ✅ |

Chinchilla 用 70B 参数打过了 GPT-3 的 175B 参数——**因为 token 多了 4 倍**。

> 一句你可以拿去吹的话：
> **2020-2022 整个圈子都在盲目堆参数。Chinchilla 第一次告诉大家：参数和数据要按比例长。少喂数据的大模型，是浪费钱。**

### Chinchilla 之后：所有人开始喂更多数据

```
GPT-3 (2020):     175B 参数 + 300B token  → 4990 亿 tokens 训练数据
Chinchilla(2022):  70B 参数 + 1400B token → 1.4 万亿 tokens
LLaMA-1 (2023):    65B 参数 + 1400B token
LLaMA-2 (2023):    70B 参数 + 2000B token
LLaMA-3 (2024):    70B 参数 + 15000B token  ← 喂超过 Chinchilla 最优 7 倍
GPT-4 (推测):       1.7T 参数 + 13000B token
```

**2024 之后，数据反而成了瓶颈**——互联网上能用的优质 token 不多了。这是后面要讲的"数据墙"。

---

## 3. 涌现（Emergence）：为什么 GPT-3 突然"会"了？

scaling laws 说的是 **loss 的下降是平滑的**——一直在变好，没有断点。

但人们体感上的变化不是平滑的。**有些能力是"突然出现"的**。

```
能力强度
  │
  │                            ╭───
  │                           ╱
  │                          ╱
  │                         ╱
  │_____________________╱   ◀── 这条"陡升"叫涌现
  │
  └────────────────────────── 模型规模
       Small      Medium      Large
```

例如：

| 能力 | 1B 模型 | 10B 模型 | 100B+ 模型 |
|---|---|---|---|
| 多步算术 | ❌ 完全不会 | ❌ 还是不会 | ✅ 突然会 |
| 翻译 | ❌ | 一点点 | ✅ |
| 思维链推理 | ❌ | ❌ | ✅ |
| 代码生成 | ❌ | 简单脚本 | ✅ 完整函数 |

这种**"达到某个临界规模才会"的现象**，2022 年被命名为 **emergent abilities**（涌现能力）。

### 涌现是真的还是假象？

这里有个学术争议——

**支持派**（Wei et al, 2022 Google）：涌现是真现象，是模型规模带来的质变。

**质疑派**（Schaeffer et al, 2023 Stanford）：涌现是评估指标的伪影。如果你用更细粒度的指标，能力其实是平滑增长的——只是粗指标（如准确率 0% vs 100%）把它显示成了断崖。

我个人倾向第二种解释。但这不影响"涌现"这个概念在传播上的成功——**它让圈外人觉得"AI 突然觉醒了"**，效果拔群。

> 一句你可以拿去吹的话：
> **"涌现"既是真实的现象，也是个营销词。模型规模大了之后确实出现新能力，但这些能力很可能不是突变，而是用粗指标观察出的视觉断崖。**

---

## 4. Scaling Laws 给行业带来的三个后果

### 后果 1：算力军备竞赛

scaling laws 把训模型变成"花钱就行"的游戏。结果：

- **2020 GPT-3**：460 万 $
- **2023 GPT-4**：约 1 亿 $
- **2024 GPT-4.5**：传 5 亿 $
- **2025 GPT-5**：传 10 亿 $
- **2026 下一代**：估超 50 亿 $

行业被洗成"只有 OpenAI / Anthropic / Google / Meta 几家玩得起"。开源派只能在 Llama / Qwen / DeepSeek 这种"次一代规模"上发力。

### 后果 2：数据墙逐渐出现

```
互联网总文本 ≈ 数万亿 token
其中"质量较好"的部分 ≈ 数千亿 token
GPT-4 已经训了 13 万亿 token
```

数据快不够用了。解决方案：

- **合成数据**：用大模型自己生成训练数据（有信息熵下降的风险）
- **多模态数据**：把视频、音频、图像也变成 token
- **强化学习生成**：让模型在交互中生成新数据（o1 / R1 这条路）

### 后果 3：scaling 收益开始递减

2024 年后，单纯加规模收益变小了。GPT-4.5 → GPT-5 的提升被吐槽"看不出明显差距"。

行业转向：

- **训练时 scaling** → **推理时 scaling**（o1 那种"想得久"）
- **预训练 scaling** → **post-training scaling**（RLHF, RLAIF）
- **单模态 scaling** → **多模态 scaling**

---

## 5. Scaling Laws 的本质：为什么会成立？

为什么"放大就更强"是个铁律？我个人理解有三层：

### 层 1：参数容量定理

每个参数都能存一点"信息"。更多参数 = 能存更多模式。理论上，一个模型能学会的语义粒度，和参数量成正比。

### 层 2：双下降现象

经典 ML 理论说"参数多于数据 → 过拟合"。但实证发现：

```
误差
  │  ╲      ╱
  │   ╲    ╱
  │    ╲__╱
  │       ╲___
  │           ╲___
  └────────────────── 参数量
        ↑ 经典 U 形过拟合区   ↑ 现代过参数化区
```

**参数远多于数据**的区域反而误差更低。这叫 **double descent**（双下降）现象。还在被研究中，但实证上无误。

### 层 3：损失曲面变光滑

参数越多，损失函数曲面越光滑（不容易陷入局部最优）。这让训练更稳定，更接近全局最优。

> 一句你可以拿去吹的话：
> **大模型反而比小模型好训。这是经典 ML 教科书没讲过的现象。**

---

## 6. 那 scaling 还能持续多久？

这是 2026 年 AI 圈最大的悬念。三种主流观点：

**观点 1（OpenAI / Anthropic）**：scaling 还能继续，只是要换 axis。从"训练计算"转向"推理计算"。o1/o3 就是新 axis 的开始。

**观点 2（DeepMind / Yann LeCun）**：纯语言 scaling 接近极限。需要根本不同的范式——world model、视频学习、具身智能。

**观点 3（一部分学界）**：scaling 撞墙是好事，会逼着大家重新思考算法本质。

实际上这三种声音可能都对一部分。AI 不会"撞墙就停"，但会"在不同 axis 上换轮子"。

---

## 7. 给你的小作业

1. **解释 Chinchilla 论文为什么是 GPT-3 的"打脸"。** 提示：参数 vs token 配比。
2. **"涌现"为什么可能是评估指标的伪影？** 用准确率这种二值指标做例子。
3. **如果你是 OpenAI 的 CTO，2026 年应该把钱投到"训更大模型"还是"推理时 scaling"？给三条理由。**

> **下一篇钩子**：scaling laws 解释了"为什么大模型强"。但训一个大模型不只是 next-token prediction 这么简单。
> ChatGPT 之所以会聊天，不胡说八道，遵循指令，是因为它经过了**完整的训练管线**：
> pretrain → SFT → RLHF / RLAIF → DPO，每一步都在塞不同的"灵魂"进模型。
> 下一篇我们把这条管线完整拆开。
