← cd ../posts

GPT 家族进化论:从 117M 到万亿参数都变了什么

2026-05-28

AI 系列第 7 篇。我们正式进入大模型时代。 这一篇先看 GPT 家族——OpenAI 这 7 年怎么一步步把模型做到 ChatGPT。

0. 一个反直觉的事实

如果你只能记住这一篇的一句话,请记这个:

从 GPT-1 到 GPT-4,模型架构基本没变。变的是规模、数据、和训练技巧。

听起来不像 progress,对吧?但这正是 OpenAI 的核心赌注——Scaling Hypothesis(规模假说):

"我们不需要发明新算法。把 2017 年那个 Transformer,做大 1000 倍,就会出现质变。"

这个赌博在 2020 年被证明是对的。这一篇就讲这个赌博的全过程。


1. 2018 GPT-1:起步的 1.17 亿参数

2018 年 6 月,OpenAI 发了 Improving Language Understanding by Generative Pre-Training。这是 GPT 家族的开篇之作。

GPT-1 长这样:

  • 架构:12 层 Transformer decoder
  • 参数:1.17 亿
  • 训练数据:BookCorpus(约 7000 本书,5GB 文本)
  • 训练目标:next-token prediction(预测下一个词)

那个时代它没掀起多大水花。同年 10 月,Google 的 BERT(3.4 亿参数)出来后,GPT-1 被压得抬不起头。

但 GPT-1 做对了一件事——用 decoder-only 架构 + 自回归生成。这条路线后来证明比 BERT 的 encoder-only 更适合"通用智能"。


2. 2019 GPT-2:15 亿参数,"太危险不敢开源"

2019 年 2 月,GPT-2 横空出世:

  • 架构:48 层 Transformer decoder(结构和 GPT-1 一样,加深加宽)
  • 参数:15 亿(12.8 倍 GPT-1)
  • 训练数据:WebText(40GB 互联网文本)
  • 关键变化:没有任何架构创新

OpenAI 给 GPT-2 做了一个营销天才级的操作——他们说:

"这模型生成能力太强,太危险,我们决定先不开源。"

整个 AI 圈一下子炸了。质疑、嘲讽、好奇、追捧全有。OpenAI 分阶段放出小模型 → 中模型 → 大模型,吊了大家半年胃口。

事后看,GPT-2 的"危险"被夸大了。但这次营销让"GPT"这个品牌进入了主流视野——AI 圈外的人第一次听说这家公司。

GPT-2 第一次展示了零样本能力(zero-shot):不用任何任务特定训练,模型就能尝试翻译、总结、问答——虽然效果一般,但这是范式转变的预兆。


3. 2020 GPT-3:1750 亿参数,规模假说被验证

2020 年 5 月,GPT-3 论文 Language Models are Few-Shot Learners 发表:

  • 架构:96 层 Transformer decoder(结构还是没变
  • 参数:1750 亿(117 倍 GPT-2)
  • 训练数据:4990 亿 token(CommonCrawl + WebText2 + 书 + Wikipedia)
  • 训练成本:约 460 万美元(仅算力,不算研发)

GPT-3 是 AI 史上第一个百倍规模的语言模型。它证明了一个让所有人震惊的事实:

不需要为每个任务微调。只要给几个例子(few-shot),模型就能做。

prompt:
  英文: dog
  中文: 狗

  英文: cat
  中文: 猫

  英文: book
  中文: ___

→ GPT-3 输出: "书"

这就是 in-context learning(上下文学习)。GPT-3 没有被显式训过翻译——它从训练数据里"涌现"出了翻译能力。

GPT-3 的几个里程碑能力:

  • 写代码(不是写得多好,但能写)
  • 写新闻稿(人类记者已经分辨不出来)
  • 角色扮演("假装你是一个 18 世纪的医生……")
  • 解数学应用题(小学水平,但能做)
  • 创意写作、诗歌、剧本

GPT-3 是第一个让圈外人惊呼"AI 终于来了"的模型——尽管它还没有 ChatGPT 那么好用。


4. 2022 InstructGPT / GPT-3.5:RLHF 把模型"调教"成助手

GPT-3 虽然强,但有个大问题:它只会预测下一个词,不知道"帮人办事"

你: "给我写一首关于春天的诗。"
GPT-3 (原始): "给我写一首关于秋天的诗。给我写一首关于冬天的诗。..."

它只是在续写你的 prompt,不是在执行你的指令。

2022 年 1 月,OpenAI 发了 InstructGPT 论文。核心创新:

三步训练法:从原始模型到"会听话"的助手

Step 1: SFT (Supervised Fine-Tuning)
  让人类标注员写一堆 "指令 + 理想回答",微调 GPT-3。
  → 模型学会基本格式:用户说什么,我应该回应什么。

Step 2: RLHF 训奖励模型
  把 SFT 模型对同一指令生成多个回答。
  人类标注员排序:哪个回答最好?
  用排序数据训一个 "奖励模型"(Reward Model)。

Step 3: RLHF 用奖励模型微调
  让 SFT 模型自己生成回答 → 用奖励模型打分 → PPO 强化学习更新参数。
  → 模型学会"什么样的回答会被人类喜欢"。

这就是 RLHF(Reinforcement Learning from Human Feedback)。下一篇会专门讲。

结果:InstructGPT(13 亿参数)的回答质量超过了 GPT-3(1750 亿)。对齐胜过规模——这是 2022 年的大新闻。

ChatGPT:把这套方案包装成产品

2022 年 11 月 30 日,OpenAI 把 InstructGPT 的升级版(GPT-3.5)包装成对话界面,命名 ChatGPT 上线。

5 天破百万用户,2 个月破 1 亿

ChatGPT 之所以爆,不是因为它比 GPT-3 聪明很多——是因为:

  1. 会话界面:把"完形填空"变成"聊天",门槛降到 0。
  2. RLHF 调教:拒绝乱写,礼貌、有用、不胡说。
  3. 免费:让人随便玩。

一句你可以拿去吹的话: GPT-3 是技术突破,ChatGPT 是产品突破。前者改变了 AI 圈,后者改变了世界。


5. 2023 GPT-4:多模态 + 大幅推理提升

2023 年 3 月,GPT-4 发布。这一代 OpenAI 不公开参数量了——业界估算约 1.7 万亿(MoE 架构)。

关键变化:

  • 多模态:支持图像输入(GPT-4V)
  • 更长上下文:从 4K → 8K / 32K
  • 推理大幅提升:律师资格考试上 GPT-3.5 排倒数 10%,GPT-4 排前 10%
  • MoE 架构(推测):1.7 万亿参数里,每次推理只激活 ~2200 亿,提速降本

GPT-4 第一次让 AI 真正进入企业级生产环境。律所、医院、咨询公司开始批量部署。

GPT-4 系列的后续小步快跑

  • 2023.11 GPT-4 Turbo:128K context,更快,更便宜
  • 2024.05 GPT-4o:"o" = omni,原生多模态(图像 + 语音 + 文本同模型)
  • 2024.07 GPT-4o mini:超便宜的小型多模态
  • 2025.02 GPT-4.5:传闻是"最后一代非 reasoning"模型

6. 2024-2025:o 系列——推理模型登场

2024 年 9 月,OpenAI 发了 o1。这是 GPT 家族第一次出现"reasoning model"(推理模型)。

o1 的关键变化:

  • 训练时引入 RL 链式推理:模型在 inference 时会先"想"很久,再给答案。
  • 不能流式输出:要等几十秒甚至几分钟才能看到答案。
  • 数学和代码能力暴增:AIME 竞赛从 GPT-4o 的 13% 提升到 o1 的 83%。
你: "证明 √2 是无理数。"
GPT-4o:    [立刻输出证明,5 秒]
o1:        [思考 45 秒] [输出更严谨的证明]

2024.12 o3:更强,AIME 接近满分,但还没公开 API。 2025.04 o3-mini:便宜的 o3,开放使用。 2025.06 o4 系列:和 GPT-5 整合。

这条线我们第 22 篇会详细讲。


7. 把这条线拉直:GPT 进化的真实规律

年份 参数量 核心变化 训练成本(估算)
GPT-1 2018 117M 开启 decoder-only ~5 万 $
GPT-2 2019 1.5B 纯规模×13 ~5 万 $
GPT-3 2020 175B 纯规模×117,涌现 ICL 460 万 $
GPT-3.5 2022 175B RLHF 对齐
GPT-4 2023 ~1.7T (MoE) 多模态 + 推理 约 1 亿 $
GPT-4o 2024 原生多模态
o1 2024 训练时 RL 推理
o3 2024 更强推理

注意几件事:

  1. 架构改动极少。Transformer decoder + next token prediction + RLHF,这三件事 2022 年定型,之后只是规模和数据。
  2. 2018 → 2020 主要靠 scale(参数和数据指数增长)。
  3. 2022 之后主要靠 alignment(RLHF + reasoning)。
  4. 每一代的训练成本指数级上升。GPT-5 的训练成本据传超过 5 亿美元。

一句你可以拿去吹的话: GPT 家族 7 年的进化告诉我们:在大模型时代,"想出新算法"的边际收益越来越低,"把已有算法放大 + 调教"的边际收益越来越高。这就是为什么前沿实验室全都在卷算力,而不是卷论文。


8. 给你的小作业

  1. GPT-1 到 GPT-3 的架构基本一样,为什么能力差那么多? 提示:scale + data。
  2. InstructGPT(13B)打败 GPT-3(175B)说明了什么? 提示:raw model vs aligned model。
  3. OpenAI 为什么从 GPT-4 起不公开参数量了? 用商业 + 技术两个角度想。

下一篇钩子:GPT-1 到 GPT-3,为什么单纯放大参数就能涌现新能力?这背后是一个 2020 年震动整个 AI 圈的发现——Scaling Laws。 下一篇我们看这条让"大力出奇迹"成立的隐秘曲线,以及它最近为什么开始失效了。