推理模型与 RL 的回归：o1 / R1 之后路通向哪

AI 系列第 22 篇。这一篇讲 LLM 最近一次大转折——reasoning model。

0. 一个 2024 年改变行业的发现

2024 之前，LLM 的"思考"是单次前向计算。 2024 之后，LLM 开始"先想很久，再回答"。

GPT-4o:    用户问 → 立即响应 → 答案
o1:        用户问 → 思考 30 秒 → 答案
o3-high:   用户问 → 思考 5 分钟 → 答案

时长换准确率。简单粗暴。但效果出奇地好。

AIME 数学竞赛:
  GPT-4o:   13%
  o1:       83%
  o3:       96%

这就是 reasoning model——LLM 发展的第三阶段。

Stage 1 (2018-2022): pretrain scaling
Stage 2 (2022-2024): RLHF + post-training
Stage 3 (2024+):     test-time compute scaling

这一篇讲清楚 Stage 3 是怎么回事。

1. Scaling Laws 撞墙之后

第 8 篇我们讲了 scaling laws。一个被默默接受的事实：2024 年后，单纯放大模型的收益急剧下降。

GPT-3 → GPT-4: 100× 参数, 性能提升明显
GPT-4 → GPT-5: 训练成本 ×10, 性能提升很小

Sutskever 在公开采访说过："pretrain scaling is over." 这话有争议，但反映了趋势。

行业怎么办？三条路：

数据 scaling：找新数据 / 合成数据 / 多模态
post-training scaling：更多 RLHF / DPO / 长任务训练
test-time compute scaling：让模型在 inference 时多算

o1 走的是路径 3。让推理时"想得更久"，比让模型"知道得更多"更有效。

2. 思维链（CoT）的极致化

回忆第 11 篇讲的 chain-of-thought：让模型在给最终答案前先输出推理过程，准确率显著提升。

Q: "如果一艘船 1L 油跑 10km，500km 要多少油？"
A: "50L" ← 直接答容易错
A: "船 1L 油跑 10km，所以 500km 需要 500/10 = 50L 油。" ← CoT 答对

CoT 的本质是 用 token 换计算。token 多 = transformer 走更多 forward pass = 实际计算量增加。

o1 的核心想法：把 CoT "训进模型"

普通模型靠 prompt 触发 CoT。o1 不需要 prompt，它在训练时就被训得"先想再答"。

普通模型:
  prompt: "证明 √2 是无理数"
  output: "假设 √2 是有理数..." [思考过程在输出里]

o1:
  prompt: "证明 √2 是无理数"
  [内部 thinking tokens: 假设 √2 = a/b... 但... 那么... 矛盾...]
  output: [最终证明]
  thinking tokens 不显示给用户

它的 thinking 可以非常长。复杂数学题 o1-high 可以"想"几万 token。

3. RL 怎么训出 reasoning？

o1 的训练用了大量 RL。具体方法 OpenAI 没公开，但 DeepSeek-R1（2025.01 开源）公开了相似路线，让全行业都看清了。

DeepSeek-R1 的训练管线

Step 1: Base model (DeepSeek-V3)
   ↓
Step 2: 收集"思维链"数据
   - 让模型对数学/代码题生成长 reasoning + 最终答案
   - 自动验证最终答案（数学有标准答案，代码看能否通过测试）
   - 留下"正确解"，丢掉"错的"
   ↓
Step 3: 在正确解上 SFT
   - 让模型学会"长思考 → 正确答案"的模式
   ↓
Step 4: RL with verifiable rewards (RLVR)
   - 让模型自由生成 thinking + answer
   - 奖励信号：答案正确 = +1，错误 = 0
   - 用 GRPO 算法（PPO 的变种）更新参数
   ↓
Step 5: 再来几轮 SFT + RL，持续提升

关键创新：可验证奖励（Verifiable Rewards）

RLHF 的奖励来自人（或 RM 模型），不够精确。

RLVR 的奖励来自程序自动验证：

数学题:    答案正确 = +1  → 100% 可验证
代码题:    通过测试 = +1 → 100% 可验证
推理题:    最终选项对 = +1 → 100% 可验证

这种自动 reward 让 RL 可以无监督地大规模扩展。模型可以自己生成 → 自己验证 → 自己学。Anthropic 在 Claude 4 系列也用了类似路径。

涌现的"反思"行为

R1 训练过程中，研究员观察到一个 spontaneous 现象——

模型在长 thinking 中开始自我检查、回溯、重新尝试：

"... 假设 x = 5. 但等等，这不对。
   让我重新考虑这个问题。
   实际上 x 应该是 3。
   验证一下: 3 + 4 = 7, 是的，对的。"

研究员没有显式训这种行为。它自然涌现了。这有点像"模型在长 thinking 里学会了 meta-cognition"。

4. Test-Time Compute Scaling：新维度的 scaling law

OpenAI 和 DeepSeek 都发现了：

同一个 reasoning model，给它更多 thinking token，性能持续上升。

o3-mini, reasoning_effort=low:    AIME 60%
o3-mini, reasoning_effort=medium: AIME 75%
o3-mini, reasoning_effort=high:   AIME 87%

这是一种新的 scaling law：

老 scaling：增加训练算力 → 更好的模型
新 scaling：增加推理算力 → 同一个模型更好的输出

为什么这是个根本性变化？

变化 1：用户视角

用户可以选择对每个问题花多少算力。简单问题低 effort，难问题 high。

"今天星期几" → effort=low, 1 秒
"证明黎曼猜想" → effort=max, 10 分钟

变化 2：成本结构

老 scaling 是沉没成本：训出来再说。新 scaling 是边际成本：每次推理直接花钱。

这让"用户为难题付费"成了商业模式。

变化 3：推理算力市场

如果 test-time compute 是关键，那 GPU 部署的瓶颈从训练（少数大厂）转向推理（每家公司、每个用户）。

NVIDIA 推理芯片销量在 2025 暴涨。专门做推理的初创（Groq、Cerebras、SambaNova）开始火。

5. 谁能跟上 reasoning 这条路？

OpenAI o 系列

o1（2024.09）：第一代
o3（2024.12）：更强，AIME ~95%
o3-mini（2025.01）：开放使用
o4 系列（2025）：和 GPT-5 集成

DeepSeek

R1（2025.01）：第一个开源同级别 reasoning，震动了整个行业
R1 训练成本据报道只有 600 万美元，远低于 GPT-4 级别。这次发布直接让美股 NVIDIA 一天跌 5000 亿美元。

Anthropic

Claude 3.7 Sonnet with thinking（2025.02）：第一个把 reasoning 集成进通用模型
Claude 4.X Opus：reasoning 作为可选模式，用户可控制深度

Anthropic 的特色：reasoning 和普通对话用同一个模型。OpenAI o-系列是独立模型。

Google

Gemini 2.5 with Deep Think（2025）：跟进 reasoning

中国其他

Qwen QwQ：阿里
Kimi K2 reasoning：月之暗面
GLM-Z1：智谱

6. Reasoning 还能 scale 多远？

几个未解问题：

问题 1：thinking 越长越好吗？

经验：到一定长度后，准确率 plateau，再长反而开始下降（模型困惑、改变主意、矛盾自己）。

最优长度依任务而定。简单题 100 token，难题 50K token。

问题 2：reasoning 能 transfer 吗？

R1 在数学/代码上 RL 训练，但在创意写作、对话上也变强了。这是好消息——reasoning 是 transferable 能力。

但 transfer 的强度依然有限。专门训过的领域强很多。

问题 3：RL 数据怎么找新的？

RLVR 依赖可自动验证的任务。数学、代码、有标准答案的逻辑题——这些数据已经被刷得差不多了。

下一个增长点在哪？

形式证明（Lean / Coq）：可验证但数据稀缺
科学实验：可验证但贵
物理模拟 task：可验证，结合 world model

问题 4：会不会撞 reasoning scaling 墙？

2026 年还没看到撞墙。但有人警告：reasoning 也有边际效益递减的可能。

7. Reasoning 的实际产品形态

形态 1：科研助手 / 数学家辅助

研究者: "帮我证明这个引理"
o3:   思考 5 分钟，输出严格证明

数学界已经开始用 reasoning model 做严肃工作。

形态 2：复杂代码 / 系统设计

"重构这 100 个文件，把 React class component 全改成 hooks"
→ Claude with thinking 思考 + 调工具 + 多步执行

reasoning + agent 是 2026 软件开发的主力工作流。

形态 3：长决策 / 战略分析

"帮我分析这个商业计划的风险"
→ 长 thinking 中权衡多维因素

咨询、投资、法律领域开始大量用 reasoning model。

形态 4：作为 agent 的"大脑"

agent 跑长任务时，每一步都用 reasoning model 决策。比"快速反应"模型稳得多。

一句你可以拿去吹的话： 2024 年之前的 LLM 是"反射神经"，2024 年之后开始有"前额叶"。reasoning model 让 AI 从"快思考"走进了"慢思考"。

8. 给你的小作业

解释 verifiable reward 比 RLHF 在 reasoning 上有什么优势。
同一个问题给 GPT-4o 和 o3-mini，输出会怎么不同？
如果你的产品需要 reasoning，你会自己 fine-tune 一个 R1 还是付费用 OpenAI API？给三个考量维度。

下一篇（也是最后一篇）钩子：到这里我们走完了整个 AI 系列。最后一篇我们做一次 birds-eye 对比—— 开源生态（Llama / Qwen / DeepSeek）和闭源前沿（Anthropic / OpenAI / Google）今天的牌面到底怎么样？谁在领跑、谁在追赶、未来 12 个月最值得关注的是什么？