GPT 家族进化论：从 117M 到万亿参数都变了什么

AI 系列第 7 篇。我们正式进入大模型时代。这一篇先看 GPT 家族——OpenAI 这 7 年怎么一步步把模型做到 ChatGPT。

0. 一个反直觉的事实

如果你只能记住这一篇的一句话，请记这个：

从 GPT-1 到 GPT-4，模型架构基本没变。变的是规模、数据、和训练技巧。

听起来不像 progress，对吧？但这正是 OpenAI 的核心赌注——Scaling Hypothesis（规模假说）：

"我们不需要发明新算法。把 2017 年那个 Transformer，做大 1000 倍，就会出现质变。"

这个赌博在 2020 年被证明是对的。这一篇就讲这个赌博的全过程。

1. 2018 GPT-1：起步的 1.17 亿参数

2018 年 6 月，OpenAI 发了 Improving Language Understanding by Generative Pre-Training。这是 GPT 家族的开篇之作。

GPT-1 长这样：

架构：12 层 Transformer decoder
参数：1.17 亿
训练数据：BookCorpus（约 7000 本书，5GB 文本）
训练目标：next-token prediction（预测下一个词）

那个时代它没掀起多大水花。同年 10 月，Google 的 BERT（3.4 亿参数）出来后，GPT-1 被压得抬不起头。

但 GPT-1 做对了一件事——用 decoder-only 架构 + 自回归生成。这条路线后来证明比 BERT 的 encoder-only 更适合"通用智能"。

2. 2019 GPT-2：15 亿参数，"太危险不敢开源"

2019 年 2 月，GPT-2 横空出世：

架构：48 层 Transformer decoder（结构和 GPT-1 一样，加深加宽）
参数：15 亿（12.8 倍 GPT-1）
训练数据：WebText（40GB 互联网文本）
关键变化：没有任何架构创新

OpenAI 给 GPT-2 做了一个营销天才级的操作——他们说：

"这模型生成能力太强，太危险，我们决定先不开源。"

整个 AI 圈一下子炸了。质疑、嘲讽、好奇、追捧全有。OpenAI 分阶段放出小模型 → 中模型 → 大模型，吊了大家半年胃口。

事后看，GPT-2 的"危险"被夸大了。但这次营销让"GPT"这个品牌进入了主流视野——AI 圈外的人第一次听说这家公司。

GPT-2 第一次展示了零样本能力（zero-shot）：不用任何任务特定训练，模型就能尝试翻译、总结、问答——虽然效果一般，但这是范式转变的预兆。

3. 2020 GPT-3：1750 亿参数，规模假说被验证

2020 年 5 月，GPT-3 论文 Language Models are Few-Shot Learners 发表：

架构：96 层 Transformer decoder（结构还是没变）
参数：1750 亿（117 倍 GPT-2）
训练数据：4990 亿 token（CommonCrawl + WebText2 + 书 + Wikipedia）
训练成本：约 460 万美元（仅算力，不算研发）

GPT-3 是 AI 史上第一个百倍规模的语言模型。它证明了一个让所有人震惊的事实：

不需要为每个任务微调。只要给几个例子（few-shot），模型就能做。

prompt:
  英文: dog
  中文: 狗

  英文: cat
  中文: 猫

  英文: book
  中文: ___

→ GPT-3 输出: "书"

这就是 in-context learning（上下文学习）。GPT-3 没有被显式训过翻译——它从训练数据里"涌现"出了翻译能力。

GPT-3 的几个里程碑能力：

写代码（不是写得多好，但能写）
写新闻稿（人类记者已经分辨不出来）
角色扮演（"假装你是一个 18 世纪的医生……"）
解数学应用题（小学水平，但能做）
创意写作、诗歌、剧本

GPT-3 是第一个让圈外人惊呼"AI 终于来了"的模型——尽管它还没有 ChatGPT 那么好用。

4. 2022 InstructGPT / GPT-3.5：RLHF 把模型"调教"成助手

GPT-3 虽然强，但有个大问题：它只会预测下一个词，不知道"帮人办事"。

你: "给我写一首关于春天的诗。"
GPT-3 (原始): "给我写一首关于秋天的诗。给我写一首关于冬天的诗。..."

它只是在续写你的 prompt，不是在执行你的指令。

2022 年 1 月，OpenAI 发了 InstructGPT 论文。核心创新：

三步训练法：从原始模型到"会听话"的助手

Step 1: SFT (Supervised Fine-Tuning)
  让人类标注员写一堆 "指令 + 理想回答"，微调 GPT-3。
  → 模型学会基本格式：用户说什么，我应该回应什么。

Step 2: RLHF 训奖励模型
  把 SFT 模型对同一指令生成多个回答。
  人类标注员排序：哪个回答最好？
  用排序数据训一个 "奖励模型"（Reward Model）。

Step 3: RLHF 用奖励模型微调
  让 SFT 模型自己生成回答 → 用奖励模型打分 → PPO 强化学习更新参数。
  → 模型学会"什么样的回答会被人类喜欢"。

这就是 RLHF（Reinforcement Learning from Human Feedback）。下一篇会专门讲。

结果：InstructGPT（13 亿参数）的回答质量超过了 GPT-3（1750 亿）。对齐胜过规模——这是 2022 年的大新闻。

ChatGPT：把这套方案包装成产品

2022 年 11 月 30 日，OpenAI 把 InstructGPT 的升级版（GPT-3.5）包装成对话界面，命名 ChatGPT 上线。

5 天破百万用户，2 个月破 1 亿。

ChatGPT 之所以爆，不是因为它比 GPT-3 聪明很多——是因为：

会话界面：把"完形填空"变成"聊天"，门槛降到 0。
RLHF 调教：拒绝乱写，礼貌、有用、不胡说。
免费：让人随便玩。

一句你可以拿去吹的话： GPT-3 是技术突破，ChatGPT 是产品突破。前者改变了 AI 圈，后者改变了世界。

5. 2023 GPT-4：多模态 + 大幅推理提升

2023 年 3 月，GPT-4 发布。这一代 OpenAI 不公开参数量了——业界估算约 1.7 万亿（MoE 架构）。

关键变化：

多模态：支持图像输入（GPT-4V）
更长上下文：从 4K → 8K / 32K
推理大幅提升：律师资格考试上 GPT-3.5 排倒数 10%，GPT-4 排前 10%
MoE 架构（推测）：1.7 万亿参数里，每次推理只激活 ~2200 亿，提速降本

GPT-4 第一次让 AI 真正进入企业级生产环境。律所、医院、咨询公司开始批量部署。

GPT-4 系列的后续小步快跑

2023.11 GPT-4 Turbo：128K context，更快，更便宜
2024.05 GPT-4o："o" = omni，原生多模态（图像 + 语音 + 文本同模型）
2024.07 GPT-4o mini：超便宜的小型多模态
2025.02 GPT-4.5：传闻是"最后一代非 reasoning"模型

6. 2024-2025：o 系列——推理模型登场

2024 年 9 月，OpenAI 发了 o1。这是 GPT 家族第一次出现"reasoning model"（推理模型）。

o1 的关键变化：

训练时引入 RL 链式推理：模型在 inference 时会先"想"很久，再给答案。
不能流式输出：要等几十秒甚至几分钟才能看到答案。
数学和代码能力暴增：AIME 竞赛从 GPT-4o 的 13% 提升到 o1 的 83%。

你: "证明 √2 是无理数。"
GPT-4o:    [立刻输出证明，5 秒]
o1:        [思考 45 秒] [输出更严谨的证明]

2024.12 o3：更强，AIME 接近满分，但还没公开 API。 2025.04 o3-mini：便宜的 o3，开放使用。 2025.06 o4 系列：和 GPT-5 整合。

这条线我们第 22 篇会详细讲。

7. 把这条线拉直：GPT 进化的真实规律

代	年份	参数量	核心变化	训练成本（估算）
GPT-1	2018	117M	开启 decoder-only	~5 万 $
GPT-2	2019	1.5B	纯规模×13	~5 万 $
GPT-3	2020	175B	纯规模×117，涌现 ICL	460 万 $
GPT-3.5	2022	175B	RLHF 对齐	—
GPT-4	2023	~1.7T (MoE)	多模态 + 推理	约 1 亿 $
GPT-4o	2024	—	原生多模态	—
o1	2024	—	训练时 RL 推理	—
o3	2024	—	更强推理	—

注意几件事：

架构改动极少。Transformer decoder + next token prediction + RLHF，这三件事 2022 年定型，之后只是规模和数据。
2018 → 2020 主要靠 scale（参数和数据指数增长）。
2022 之后主要靠 alignment（RLHF + reasoning）。
每一代的训练成本指数级上升。GPT-5 的训练成本据传超过 5 亿美元。

一句你可以拿去吹的话： GPT 家族 7 年的进化告诉我们：在大模型时代，"想出新算法"的边际收益越来越低，"把已有算法放大 + 调教"的边际收益越来越高。这就是为什么前沿实验室全都在卷算力，而不是卷论文。

8. 给你的小作业

GPT-1 到 GPT-3 的架构基本一样，为什么能力差那么多？ 提示：scale + data。
InstructGPT（13B）打败 GPT-3（175B）说明了什么？ 提示：raw model vs aligned model。
OpenAI 为什么从 GPT-4 起不公开参数量了？ 用商业 + 技术两个角度想。

下一篇钩子：GPT-1 到 GPT-3，为什么单纯放大参数就能涌现新能力？这背后是一个 2020 年震动整个 AI 圈的发现——Scaling Laws。下一篇我们看这条让"大力出奇迹"成立的隐秘曲线，以及它最近为什么开始失效了。