推理模型与 RL 的回归:o1 / R1 之后路通向哪
AI 系列第 22 篇。这一篇讲 LLM 最近一次大转折——reasoning model。
0. 一个 2024 年改变行业的发现
2024 之前,LLM 的"思考"是单次前向计算。 2024 之后,LLM 开始"先想很久,再回答"。
GPT-4o: 用户问 → 立即响应 → 答案
o1: 用户问 → 思考 30 秒 → 答案
o3-high: 用户问 → 思考 5 分钟 → 答案
时长换准确率。简单粗暴。但效果出奇地好。
AIME 数学竞赛:
GPT-4o: 13%
o1: 83%
o3: 96%
这就是 reasoning model——LLM 发展的第三阶段。
Stage 1 (2018-2022): pretrain scaling
Stage 2 (2022-2024): RLHF + post-training
Stage 3 (2024+): test-time compute scaling
这一篇讲清楚 Stage 3 是怎么回事。
1. Scaling Laws 撞墙之后
第 8 篇我们讲了 scaling laws。一个被默默接受的事实:2024 年后,单纯放大模型的收益急剧下降。
GPT-3 → GPT-4: 100× 参数, 性能提升明显
GPT-4 → GPT-5: 训练成本 ×10, 性能提升很小
Sutskever 在公开采访说过:"pretrain scaling is over." 这话有争议,但反映了趋势。
行业怎么办?三条路:
- 数据 scaling:找新数据 / 合成数据 / 多模态
- post-training scaling:更多 RLHF / DPO / 长任务训练
- test-time compute scaling:让模型在 inference 时多算
o1 走的是路径 3。让推理时"想得更久",比让模型"知道得更多"更有效。
2. 思维链(CoT)的极致化
回忆第 11 篇讲的 chain-of-thought:让模型在给最终答案前先输出推理过程,准确率显著提升。
Q: "如果一艘船 1L 油跑 10km,500km 要多少油?"
A: "50L" ← 直接答容易错
A: "船 1L 油跑 10km,所以 500km 需要 500/10 = 50L 油。" ← CoT 答对
CoT 的本质是 用 token 换计算。token 多 = transformer 走更多 forward pass = 实际计算量增加。
o1 的核心想法:把 CoT "训进模型"
普通模型靠 prompt 触发 CoT。o1 不需要 prompt,它在训练时就被训得"先想再答"。
普通模型:
prompt: "证明 √2 是无理数"
output: "假设 √2 是有理数..." [思考过程在输出里]
o1:
prompt: "证明 √2 是无理数"
[内部 thinking tokens: 假设 √2 = a/b... 但... 那么... 矛盾...]
output: [最终证明]
thinking tokens 不显示给用户
它的 thinking 可以非常长。复杂数学题 o1-high 可以"想"几万 token。
3. RL 怎么训出 reasoning?
o1 的训练用了大量 RL。具体方法 OpenAI 没公开,但 DeepSeek-R1(2025.01 开源)公开了相似路线,让全行业都看清了。
DeepSeek-R1 的训练管线
Step 1: Base model (DeepSeek-V3)
↓
Step 2: 收集"思维链"数据
- 让模型对数学/代码题生成长 reasoning + 最终答案
- 自动验证最终答案(数学有标准答案,代码看能否通过测试)
- 留下"正确解",丢掉"错的"
↓
Step 3: 在正确解上 SFT
- 让模型学会"长思考 → 正确答案"的模式
↓
Step 4: RL with verifiable rewards (RLVR)
- 让模型自由生成 thinking + answer
- 奖励信号:答案正确 = +1,错误 = 0
- 用 GRPO 算法(PPO 的变种)更新参数
↓
Step 5: 再来几轮 SFT + RL,持续提升
关键创新:可验证奖励(Verifiable Rewards)
RLHF 的奖励来自人(或 RM 模型),不够精确。
RLVR 的奖励来自程序自动验证:
数学题: 答案正确 = +1 → 100% 可验证
代码题: 通过测试 = +1 → 100% 可验证
推理题: 最终选项对 = +1 → 100% 可验证
这种自动 reward 让 RL 可以无监督地大规模扩展。模型可以自己生成 → 自己验证 → 自己学。Anthropic 在 Claude 4 系列也用了类似路径。
涌现的"反思"行为
R1 训练过程中,研究员观察到一个 spontaneous 现象——
模型在长 thinking 中开始自我检查、回溯、重新尝试:
"... 假设 x = 5. 但等等,这不对。
让我重新考虑这个问题。
实际上 x 应该是 3。
验证一下: 3 + 4 = 7, 是的,对的。"
研究员没有显式训这种行为。它自然涌现了。这有点像"模型在长 thinking 里学会了 meta-cognition"。
4. Test-Time Compute Scaling:新维度的 scaling law
OpenAI 和 DeepSeek 都发现了:
同一个 reasoning model,给它更多 thinking token,性能持续上升。
o3-mini, reasoning_effort=low: AIME 60%
o3-mini, reasoning_effort=medium: AIME 75%
o3-mini, reasoning_effort=high: AIME 87%
这是一种新的 scaling law:
- 老 scaling:增加 训练算力 → 更好的模型
- 新 scaling:增加 推理算力 → 同一个模型更好的输出
为什么这是个根本性变化?
变化 1:用户视角
用户可以选择对每个问题花多少算力。简单问题低 effort,难问题 high。
"今天星期几" → effort=low, 1 秒
"证明黎曼猜想" → effort=max, 10 分钟
变化 2:成本结构
老 scaling 是沉没成本:训出来再说。 新 scaling 是边际成本:每次推理直接花钱。
这让"用户为难题付费"成了商业模式。
变化 3:推理算力市场
如果 test-time compute 是关键,那 GPU 部署的瓶颈从训练(少数大厂)转向推理(每家公司、每个用户)。
NVIDIA 推理芯片销量在 2025 暴涨。专门做推理的初创(Groq、Cerebras、SambaNova)开始火。
5. 谁能跟上 reasoning 这条路?
OpenAI o 系列
- o1(2024.09):第一代
- o3(2024.12):更强,AIME ~95%
- o3-mini(2025.01):开放使用
- o4 系列(2025):和 GPT-5 集成
DeepSeek
- R1(2025.01):第一个开源同级别 reasoning,震动了整个行业
- R1 训练成本据报道只有 600 万美元,远低于 GPT-4 级别。这次发布直接让美股 NVIDIA 一天跌 5000 亿美元。
Anthropic
- Claude 3.7 Sonnet with thinking(2025.02):第一个把 reasoning 集成进通用模型
- Claude 4.X Opus:reasoning 作为可选模式,用户可控制深度
Anthropic 的特色:reasoning 和普通对话用同一个模型。OpenAI o-系列是独立模型。
- Gemini 2.5 with Deep Think(2025):跟进 reasoning
中国其他
- Qwen QwQ:阿里
- Kimi K2 reasoning:月之暗面
- GLM-Z1:智谱
6. Reasoning 还能 scale 多远?
几个未解问题:
问题 1:thinking 越长越好吗?
经验:到一定长度后,准确率 plateau,再长反而开始下降(模型困惑、改变主意、矛盾自己)。
最优长度依任务而定。简单题 100 token,难题 50K token。
问题 2:reasoning 能 transfer 吗?
R1 在数学/代码上 RL 训练,但在创意写作、对话上也变强了。这是好消息——reasoning 是 transferable 能力。
但 transfer 的强度依然有限。专门训过的领域强很多。
问题 3:RL 数据怎么找新的?
RLVR 依赖可自动验证的任务。数学、代码、有标准答案的逻辑题——这些数据已经被刷得差不多了。
下一个增长点在哪?
- 形式证明(Lean / Coq):可验证但数据稀缺
- 科学实验:可验证但贵
- 物理模拟 task:可验证,结合 world model
问题 4:会不会撞 reasoning scaling 墙?
2026 年还没看到撞墙。但有人警告:reasoning 也有边际效益递减的可能。
7. Reasoning 的实际产品形态
形态 1:科研助手 / 数学家辅助
研究者: "帮我证明这个引理"
o3: 思考 5 分钟,输出严格证明
数学界已经开始用 reasoning model 做严肃工作。
形态 2:复杂代码 / 系统设计
"重构这 100 个文件,把 React class component 全改成 hooks"
→ Claude with thinking 思考 + 调工具 + 多步执行
reasoning + agent 是 2026 软件开发的主力工作流。
形态 3:长决策 / 战略分析
"帮我分析这个商业计划的风险"
→ 长 thinking 中权衡多维因素
咨询、投资、法律领域开始大量用 reasoning model。
形态 4:作为 agent 的"大脑"
agent 跑长任务时,每一步都用 reasoning model 决策。比"快速反应"模型稳得多。
一句你可以拿去吹的话: 2024 年之前的 LLM 是"反射神经",2024 年之后开始有"前额叶"。reasoning model 让 AI 从"快思考"走进了"慢思考"。
8. 给你的小作业
- 解释 verifiable reward 比 RLHF 在 reasoning 上有什么优势。
- 同一个问题给 GPT-4o 和 o3-mini,输出会怎么不同?
- 如果你的产品需要 reasoning,你会自己 fine-tune 一个 R1 还是付费用 OpenAI API?给三个考量维度。
下一篇(也是最后一篇)钩子:到这里我们走完了整个 AI 系列。 最后一篇我们做一次 birds-eye 对比—— 开源生态(Llama / Qwen / DeepSeek)和闭源前沿(Anthropic / OpenAI / Google)今天的牌面到底怎么样? 谁在领跑、谁在追赶、未来 12 个月最值得关注的是什么?