$ grep -l dpo posts/*.md

训练管线全景：pretrain → SFT → RLHF / DPO 每一步在塞什么
2026-05-30

AI 系列第 9 篇。ChatGPT 不是一次训出来的。它要经过预训练 → 监督微调 → 奖励建模 → 强化学习四个阶段，每一阶段塞进去的"灵魂"完全不同。这一篇把完整管线拆开讲，最后聊聊 2024 之后 DPO 怎么把 RLHF 给简化掉了。

ai training rlhf sft dpo ai-series