AI 系列第 9 篇。ChatGPT 不是一次训出来的。它要经过预训练 → 监督微调 → 奖励建模 → 强化学习四个阶段,每一阶段塞进去的"灵魂"完全不同。这一篇把完整管线拆开讲,最后聊聊 2024 之后 DPO 怎么把 RLHF 给简化掉了。