# GPT 家族进化论：从 117M 到万亿参数都变了什么

> AI 系列第 7 篇。GPT-1 / 2 / 3 / 3.5 / 4 / 4o / 4.5 一路看下来，你会发现一个反直觉的真相——架构几乎没变，**变的只是规模、数据、和一些工程小动作**。这一篇把每一代的关键变化拆开讲。

- URL: https://tenggouwa.com/posts/gpt-family/
- 发布: 2026-05-28
- 标签: ai, gpt, llm, openai, ai-series

> AI 系列第 7 篇。我们正式进入大模型时代。
> 这一篇先看 GPT 家族——OpenAI 这 7 年怎么一步步把模型做到 ChatGPT。

## 0. 一个反直觉的事实

如果你只能记住这一篇的一句话，请记这个：

> **从 GPT-1 到 GPT-4，模型架构基本没变。变的是规模、数据、和训练技巧。**

听起来不像 progress，对吧？但这正是 OpenAI 的核心赌注——**Scaling Hypothesis**（规模假说）：

> "我们不需要发明新算法。把 2017 年那个 Transformer，做大 1000 倍，就会出现质变。"

这个赌博在 2020 年被证明是对的。这一篇就讲这个赌博的全过程。

---

## 1. 2018 GPT-1：起步的 1.17 亿参数

**2018 年 6 月**，OpenAI 发了 *Improving Language Understanding by Generative Pre-Training*。这是 GPT 家族的开篇之作。

GPT-1 长这样：

- 架构：12 层 Transformer decoder
- 参数：**1.17 亿**
- 训练数据：BookCorpus（约 7000 本书，5GB 文本）
- 训练目标：next-token prediction（预测下一个词）

那个时代它没掀起多大水花。同年 10 月，Google 的 BERT（3.4 亿参数）出来后，GPT-1 被压得抬不起头。

但 GPT-1 做对了一件事——**用 decoder-only 架构 + 自回归生成**。这条路线后来证明比 BERT 的 encoder-only 更适合"通用智能"。

---

## 2. 2019 GPT-2：15 亿参数，"太危险不敢开源"

**2019 年 2 月**，GPT-2 横空出世：

- 架构：48 层 Transformer decoder（结构和 GPT-1 一样，加深加宽）
- 参数：**15 亿**（12.8 倍 GPT-1）
- 训练数据：WebText（40GB 互联网文本）
- 关键变化：**没有任何架构创新**

OpenAI 给 GPT-2 做了一个营销天才级的操作——他们说：

> "这模型生成能力太强，太危险，我们决定先不开源。"

整个 AI 圈一下子炸了。质疑、嘲讽、好奇、追捧全有。OpenAI 分阶段放出小模型 → 中模型 → 大模型，吊了大家半年胃口。

事后看，GPT-2 的"危险"被夸大了。但**这次营销让"GPT"这个品牌进入了主流视野**——AI 圈外的人第一次听说这家公司。

GPT-2 第一次展示了**零样本能力**（zero-shot）：不用任何任务特定训练，模型就能尝试翻译、总结、问答——虽然效果一般，但这是范式转变的预兆。

---

## 3. 2020 GPT-3：1750 亿参数，规模假说被验证

**2020 年 5 月**，GPT-3 论文 *Language Models are Few-Shot Learners* 发表：

- 架构：96 层 Transformer decoder（结构**还是没变**）
- 参数：**1750 亿**（117 倍 GPT-2）
- 训练数据：**4990 亿 token**（CommonCrawl + WebText2 + 书 + Wikipedia）
- 训练成本：**约 460 万美元**（仅算力，不算研发）

GPT-3 是 AI 史上第一个**百倍规模**的语言模型。它证明了一个让所有人震惊的事实：

> **不需要为每个任务微调。只要给几个例子（few-shot），模型就能做。**

```
prompt:
  英文: dog
  中文: 狗

  英文: cat
  中文: 猫

  英文: book
  中文: ___

→ GPT-3 输出: "书"
```

这就是 **in-context learning**（上下文学习）。GPT-3 没有被显式训过翻译——它从训练数据里"涌现"出了翻译能力。

GPT-3 的几个里程碑能力：

- 写代码（不是写得多好，但能写）
- 写新闻稿（人类记者已经分辨不出来）
- 角色扮演（"假装你是一个 18 世纪的医生……"）
- 解数学应用题（小学水平，但能做）
- 创意写作、诗歌、剧本

**GPT-3 是第一个让圈外人惊呼"AI 终于来了"的模型**——尽管它还没有 ChatGPT 那么好用。

---

## 4. 2022 InstructGPT / GPT-3.5：RLHF 把模型"调教"成助手

GPT-3 虽然强，但有个大问题：**它只会预测下一个词，不知道"帮人办事"**。

```
你: "给我写一首关于春天的诗。"
GPT-3 (原始): "给我写一首关于秋天的诗。给我写一首关于冬天的诗。..."

它只是在续写你的 prompt，不是在执行你的指令。
```

**2022 年 1 月**，OpenAI 发了 InstructGPT 论文。核心创新：

### 三步训练法：从原始模型到"会听话"的助手

```
Step 1: SFT (Supervised Fine-Tuning)
  让人类标注员写一堆 "指令 + 理想回答"，微调 GPT-3。
  → 模型学会基本格式：用户说什么，我应该回应什么。

Step 2: RLHF 训奖励模型
  把 SFT 模型对同一指令生成多个回答。
  人类标注员排序：哪个回答最好？
  用排序数据训一个 "奖励模型"（Reward Model）。

Step 3: RLHF 用奖励模型微调
  让 SFT 模型自己生成回答 → 用奖励模型打分 → PPO 强化学习更新参数。
  → 模型学会"什么样的回答会被人类喜欢"。
```

这就是 **RLHF（Reinforcement Learning from Human Feedback）**。下一篇会专门讲。

**结果**：InstructGPT（13 亿参数）的回答质量超过了 GPT-3（1750 亿）。**对齐胜过规模**——这是 2022 年的大新闻。

### ChatGPT：把这套方案包装成产品

**2022 年 11 月 30 日**，OpenAI 把 InstructGPT 的升级版（GPT-3.5）包装成对话界面，命名 ChatGPT 上线。

**5 天破百万用户，2 个月破 1 亿**。

ChatGPT 之所以爆，不是因为它比 GPT-3 聪明很多——是因为：

1. **会话界面**：把"完形填空"变成"聊天"，门槛降到 0。
2. **RLHF 调教**：拒绝乱写，礼貌、有用、不胡说。
3. **免费**：让人随便玩。

> 一句你可以拿去吹的话：
> **GPT-3 是技术突破，ChatGPT 是产品突破。前者改变了 AI 圈，后者改变了世界。**

---

## 5. 2023 GPT-4：多模态 + 大幅推理提升

**2023 年 3 月**，GPT-4 发布。这一代 OpenAI **不公开参数量**了——业界估算约 1.7 万亿（MoE 架构）。

关键变化：

- **多模态**：支持图像输入（GPT-4V）
- **更长上下文**：从 4K → 8K / 32K
- **推理大幅提升**：律师资格考试上 GPT-3.5 排倒数 10%，GPT-4 排前 10%
- **MoE 架构**（推测）：1.7 万亿参数里，每次推理只激活 ~2200 亿，提速降本

GPT-4 第一次让 AI 真正进入企业级生产环境。律所、医院、咨询公司开始批量部署。

### GPT-4 系列的后续小步快跑

- **2023.11 GPT-4 Turbo**：128K context，更快，更便宜
- **2024.05 GPT-4o**："o" = omni，原生多模态（图像 + 语音 + 文本同模型）
- **2024.07 GPT-4o mini**：超便宜的小型多模态
- **2025.02 GPT-4.5**：传闻是"最后一代非 reasoning"模型

---

## 6. 2024-2025：o 系列——推理模型登场

**2024 年 9 月**，OpenAI 发了 **o1**。这是 GPT 家族第一次出现"reasoning model"（推理模型）。

o1 的关键变化：

- **训练时引入 RL 链式推理**：模型在 inference 时会先"想"很久，再给答案。
- **不能流式输出**：要等几十秒甚至几分钟才能看到答案。
- **数学和代码能力暴增**：AIME 竞赛从 GPT-4o 的 13% 提升到 o1 的 83%。

```
你: "证明 √2 是无理数。"
GPT-4o:    [立刻输出证明，5 秒]
o1:        [思考 45 秒] [输出更严谨的证明]
```

**2024.12 o3**：更强，AIME 接近满分，但还没公开 API。
**2025.04 o3-mini**：便宜的 o3，开放使用。
**2025.06 o4 系列**：和 GPT-5 整合。

这条线我们第 22 篇会详细讲。

---

## 7. 把这条线拉直：GPT 进化的真实规律

|代|年份|参数量|核心变化|训练成本（估算）|
|---|---|---|---|---|
|GPT-1|2018|117M|开启 decoder-only|~5 万 $|
|GPT-2|2019|1.5B|纯规模×13|~5 万 $|
|GPT-3|2020|175B|纯规模×117，涌现 ICL|460 万 $|
|GPT-3.5|2022|175B|RLHF 对齐|—|
|GPT-4|2023|~1.7T (MoE)|多模态 + 推理|约 1 亿 $|
|GPT-4o|2024|—|原生多模态|—|
|o1|2024|—|训练时 RL 推理|—|
|o3|2024|—|更强推理|—|

注意几件事：

1. **架构改动极少**。Transformer decoder + next token prediction + RLHF，这三件事 2022 年定型，之后只是规模和数据。
2. **2018 → 2020 主要靠 scale**（参数和数据指数增长）。
3. **2022 之后主要靠 alignment**（RLHF + reasoning）。
4. **每一代的训练成本指数级上升**。GPT-5 的训练成本据传超过 5 亿美元。

> 一句你可以拿去吹的话：
> **GPT 家族 7 年的进化告诉我们：在大模型时代，"想出新算法"的边际收益越来越低，"把已有算法放大 + 调教"的边际收益越来越高。这就是为什么前沿实验室全都在卷算力，而不是卷论文。**

---

## 8. 给你的小作业

1. **GPT-1 到 GPT-3 的架构基本一样，为什么能力差那么多？** 提示：scale + data。
2. **InstructGPT（13B）打败 GPT-3（175B）说明了什么？** 提示：raw model vs aligned model。
3. **OpenAI 为什么从 GPT-4 起不公开参数量了？** 用商业 + 技术两个角度想。

> **下一篇钩子**：GPT-1 到 GPT-3，**为什么单纯放大参数就能涌现新能力**？这背后是一个 2020 年震动整个 AI 圈的发现——**Scaling Laws**。
> 下一篇我们看这条让"大力出奇迹"成立的隐秘曲线，以及它最近为什么开始**失效**了。