~$ tenggouwa
~ posts inspirations lab about

$ grep -l evals posts/*.md

  • Evals:怎么知道模型"真的变好了"而不是看起来变好了

    2026-06-07

    AI 系列第 17 篇。"GPT-5 比 GPT-4 强"——你怎么验证?AI 工程里最被低估的一块是 evals(评估)。这一篇讲清楚 LLM benchmark 的局限、为什么 leaderboard 越来越没用、以及生产级 evals 应该怎么做。

    ai evals benchmark ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]