$ grep -l vision posts/*.md

多模态：图、音、视频是怎么挤进 token 空间的
2026-06-10

AI 系列第 20 篇。LLM 只懂 token。怎么让它看图、听声、理解视频？答案是把所有模态都"翻译"进同一个 token 空间。这一篇讲 CLIP、Flamingo、GPT-4V、Whisper、Sora 是怎么把多种模态打通的，以及 2025-2026 年"原生多模态"为什么是新主流。

ai multimodal clip vision audio ai-series