~$ tenggouwa
~ posts inspirations lab about

$ grep -l o1 posts/*.md

  • 推理模型与 RL 的回归:o1 / R1 之后路通向哪

    2026-06-12

    AI 系列第 22 篇。2024 年 o1 出现,标志着大模型从"快速反应"走向"慢思考"。2025 年 DeepSeek R1 开源了同等级的推理能力,让全行业震动。这一篇讲 reasoning model 是怎么训的、RL 为什么在 LLM 时代"回来了"、以及 test-time compute scaling 的新范式。

    ai reasoning rl o1 r1 ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]