$ grep -l rl posts/*.md

推理模型与 RL 的回归：o1 / R1 之后路通向哪
2026-06-12

AI 系列第 22 篇。2024 年 o1 出现，标志着大模型从"快速反应"走向"慢思考"。2025 年 DeepSeek R1 开源了同等级的推理能力，让全行业震动。这一篇讲 reasoning model 是怎么训的、RL 为什么在 LLM 时代"回来了"、以及 test-time compute scaling 的新范式。

ai reasoning rl o1 r1 ai-series