~$ tenggouwa
~ posts inspirations lab about

$ grep -l dpo posts/*.md

  • 训练管线全景:pretrain → SFT → RLHF / DPO 每一步在塞什么

    2026-05-30

    AI 系列第 9 篇。ChatGPT 不是一次训出来的。它要经过预训练 → 监督微调 → 奖励建模 → 强化学习四个阶段,每一阶段塞进去的"灵魂"完全不同。这一篇把完整管线拆开讲,最后聊聊 2024 之后 DPO 怎么把 RLHF 给简化掉了。

    ai training rlhf sft dpo ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]