$ grep -l evals posts/*.md

Evals：怎么知道模型"真的变好了"而不是看起来变好了
2026-06-07

AI 系列第 17 篇。"GPT-5 比 GPT-4 强"——你怎么验证？AI 工程里最被低估的一块是 evals（评估）。这一篇讲清楚 LLM benchmark 的局限、为什么 leaderboard 越来越没用、以及生产级 evals 应该怎么做。

ai evals benchmark ai-series