~$ tenggouwa
~ posts inspirations lab about

$ grep -l safety posts/*.md

  • 对齐与安全:有用、无害、诚实的工程化

    2026-06-08

    AI 系列第 18 篇。"对齐"听起来很哲学,但它其实是一个工程问题——怎么让 LLM 在能力范围内做有用的事、拒绝有害的事、不撒谎。这一篇讲 HHH 原则、Constitutional AI、jailbreak 攻防、以及 2026 年 AI 安全的真实焦虑点。

    ai alignment safety rlhf ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]