AI 系列第 17 篇。"GPT-5 比 GPT-4 强"——你怎么验证?AI 工程里最被低估的一块是 evals(评估)。这一篇讲清楚 LLM benchmark 的局限、为什么 leaderboard 越来越没用、以及生产级 evals 应该怎么做。