~$ tenggouwa
~ posts inspirations lab about

$ grep -l clip posts/*.md

  • 多模态:图、音、视频是怎么挤进 token 空间的

    2026-06-10

    AI 系列第 20 篇。LLM 只懂 token。怎么让它看图、听声、理解视频?答案是把所有模态都"翻译"进同一个 token 空间。这一篇讲 CLIP、Flamingo、GPT-4V、Whisper、Sora 是怎么把多种模态打通的,以及 2025-2026 年"原生多模态"为什么是新主流。

    ai multimodal clip vision audio ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]