AI 系列第 20 篇。LLM 只懂 token。怎么让它看图、听声、理解视频?答案是把所有模态都"翻译"进同一个 token 空间。这一篇讲 CLIP、Flamingo、GPT-4V、Whisper、Sora 是怎么把多种模态打通的,以及 2025-2026 年"原生多模态"为什么是新主流。