世界模型 & 视频生成:Sora / Genie / V-JEPA 在赌什么
AI 系列第 21 篇。这一篇讲一个还在赌的大事——world model。 这是 LLM 之后 AI 最被看好的下一个 paradigm。
0. 一个 LLM 永远赢不了的问题
你: "把这个杯子从桌子边推下去会发生什么?"
LLM: "杯子会掉到地上,可能摔碎,洒出里面的液体。"
听起来 LLM 懂物理。但 ——
你: "如果桌子是橡胶做的,杯子用 5g 的力推呢?"
LLM: "杯子会掉下去......" (但其实推不动)
你: "如果杯子是磁铁的,桌子是铁的呢?"
LLM: "嗯……可能不会掉。" (蒙对)
LLM 的"物理常识"是从文字里学的——它知道"杯子会掉"是因为读过几千万次类似描述。它不真的理解重力、摩擦、磁力。
这个问题在文字任务上不重要。但要让 AI 操作真实世界(机器人、自动驾驶、虚拟环境),必须解决。
这就是 world model(世界模型)想做的事。
1. World Model 是什么
World model = 一个能预测"如果做某动作,世界会怎么变"的模型。
形式化:
输入: 当前状态 s_t + 动作 a_t
输出: 下一状态 s_{t+1}
人脑里就有 world model。你看到一个杯子放在桌边,你预测推它会掉。你看到马上要下雨,你预测需要带伞。这种预测能力是智能的核心。
LLM 是 language model——它预测的是下一个 token。 World model 预测的是下一个 世界状态——可能是图像、视频帧、传感器读数、3D 点云。
为什么 world model 重要?
- 机器人:要让机器人在物理世界里规划动作,它必须能预测动作后果。
- 自动驾驶:要安全决策,必须模拟 "如果我刹车 / 转弯 / 加速会怎样"。
- 科学发现:物理模拟、蛋白质折叠、气候建模本质都是 world model。
- 更强的 AI:很多研究者(如 LeCun)认为 LLM 是死路,world model 才是 AGI 的下一站。
2. LeCun 的论断:LLM 是岔路,World Model 是主路
Yann LeCun(Meta 首席 AI 科学家、图灵奖得主)多次公开说:
"LLM 永远不可能达到人类智能水平。它们没有 grounding,不能理解物理,不能规划。"
他的论点:
- LLM 从文字学习。文字是人类智能的输出,不是它的基础。
- 人类婴儿不读书也能学会物理常识——通过观察 + 行动。
- AI 要走通用智能,应该模仿婴儿——从视觉 / 视频 + 行动 中学习。
LeCun 提出的 JEPA(Joint Embedding Predictive Architecture) 是他赌的方向:
JEPA:
学习一个能"预测视频未来帧的特征"的模型
不预测像素,而是预测高层抽象表示
V-JEPA(2024)是 Meta 实现的视频版 JEPA。它不输出图像,输出抽象 representations。学到的能力包括:
- 物体连续性(被遮挡的东西还在)
- 重力、惯性的直觉
- 因果时序
LeCun 团队相信:这种自监督视频学习,才是通往真正智能的路。
一句你可以拿去吹的话: LeCun 押 world model,OpenAI 押 scaling LLM。这两个押注会在未来 5-10 年见分晓。
3. Sora:把视频生成变成"隐式 world model"
2024 年 2 月,OpenAI 发布 Sora——能生成 60 秒高清视频。
它和 V-JEPA 走的不是同一条路,但目标相通——学会"世界怎么运动"。
Sora 的技术路线:DiT(Diffusion Transformer)
1. 把视频切成 3D patches (时空 patch)
2. 每个 patch 用 transformer encode 成 token
3. 用 diffusion model 在 token 空间生成新视频
4. decode 回像素
关键创新:视频 = 一连串时空 patches。这种统一表示让 Sora 能:
- 处理任意分辨率
- 处理任意时长
- 处理任意宽高比
Sora 学到了什么?
OpenAI 的论文标题就是 Video generation models as world simulators——它声明 Sora 不只是"会画视频",而是"会模拟世界"。
生成结果展现的能力:
- 3D consistency (镜头移动时,物体相对位置正确)
- 物体持久性 (被遮挡后还能正确出现)
- 物理直觉 (重力、惯性、流体)
- 数字时序 (倒咖啡,杯子里液体会增加)
- 简单因果 (刀切番茄,番茄会分开)
但也有大量 failure case:
- 一只猫的腿有时会变成 4 只
- 玻璃杯打碎后画面卡顿
- 文字 / 数字几乎肯定生成错
- 角色身份在镜头切换后变化
Sora 学的物理还不完整。但相比 2022 的 video generation,进步是质变级的。
Veo / Kling / Seedance:开源 / 中国跟进
2024-2025 这一年视频生成跑得飞快:
- Google Veo 2:电影级质感
- Kuaishou Kling 2:中国开源
- 字节 Seedance:消费端集成
- Runway Gen-3 / Gen-4:好莱坞工具链
- Pika 2:创作者社区
4. DeepMind Genie:生成式游戏世界
2024 年 2 月,DeepMind 发了 Genie——能从一张静态图生成可玩的 2D 游戏世界。
输入: 一张图片 (草地 + 角色)
输出: 一个交互式环境
用户按 → → 角色向右走
用户按 ↑ → 角色跳跃
整个世界根据操作连续演化
Genie 训练用的是纯视频——它从大量游戏视频里学到了"动作 → 后果"的隐式 mapping。
Genie 2(2024.12)升级到 3D,时长更长,物理更真。
Genie 的意义
它不是为了娱乐。它在示范一件事:纯靠视频,可以学到通用的 "action → world change" 映射。这是 world model 的核心能力。
如果这条路 work,AI 可以:
- 在虚拟环境里训机器人(不用真摔几千个机器人)
- 模拟自动驾驶场景(不用真撞几百辆车)
- 模拟蛋白质折叠 / 化学反应 / 经济市场
5. World Model 在机器人上的应用
机器人是 world model 最直接的应用场景。
传统机器人控制
传感器 → 状态估计 → 规划器 (基于物理引擎) → 控制器
物理引擎是手工编写的——重力、摩擦、刚体动力学等都被显式编码。
Learned world model 路线
传感器 → 学到的 world model → 规划器
↑
纯从经验里学
不写物理引擎,让模型从大量交互数据里学。代表项目:
- Google PaLM-E:把视觉 + 语言 + 机器人控制统一到一个模型
- Google RT-2:Robotic Transformer,从视频学到操作策略
- Figure AI / 1X / Tesla Optimus:人形机器人,背后都有 world model
Sim-to-Real Transfer
挑战之一:模型在仿真里训出来的能力,搬到真实世界往往效果打折。原因是仿真和真实的物理细节有差异。
解决思路:
- Domain randomization:仿真时随机化各种参数,强迫模型 robust
- Real-world fine-tuning:仿真预训练 + 真机 fine-tune
- Foundation model + RL:在大规模预训练基础上,少量真机数据 fine-tune
6. World Model 真正的难点
难点 1:长程预测
视频生成 5 秒还行,1 分钟就开始失真。100 秒后几乎完全跑偏。
原因:误差累积。每一步预测有小误差,几十步后误差爆炸。
难点 2:稀有事件
物理世界 99% 时间是平凡的(杯子静静地放着)。但安全关键的 1%(杯子要倒了、车要撞了)才是 world model 真正需要预测对的。
训练数据天然缺乏稀有事件 → 模型对稀有事件预测不准。
难点 3:因果 vs 相关
视频里"闪电之后下雨" 99% 会同时出现。模型学到的是"闪电 → 下雨",但真正的因果是"积雨云 → 闪电 + 下雨"。
这种伪因果会让 world model 在反事实预测(counterfactual)上犯傻。
难点 4:评估
video 生成模型怎么评?人工标?太贵。FID 之类的图像指标?衡量像素相似度,但不评物理对错。
到 2026 年,没有一个公认的 world model evaluation 标准。这本身就是个研究问题。
7. World Model vs LLM:会取代还是融合?
主流声音有三种:
声音 1:World model 替代 LLM(LeCun 派)
理由:LLM 撞了 scaling 墙。下一代智能需要 grounding。
声音 2:LLM + World model 互补(多数实验室)
理由:
- LLM 擅长抽象推理、知识
- World model 擅长物理、低层控制
- 两者各管一摊
OpenAI / Anthropic 都在做 multimodal LLM + world model 的融合。Sora 本身就是这种融合的早期形态。
声音 3:World model 是 LLM 的特例
理由:广义来说,"预测下一个 token" 也是预测世界(语言世界)的下一状态。只要 token 涵盖了视觉、音频、动作,LLM 框架就能装下 world model。
GPT-4o / Gemini 走这条路——把视频、音频、动作都 tokenize,用同一个 transformer 训。
我自己倾向声音 2-3 之间——架构上会统一,但需要专门的数据 / 训练课程让模型真的学到物理。
一句你可以拿去吹的话: 未来 5 年 AI 的主战场,从 "更大的 LLM" 转向 "能理解物理的多模态系统"。LLM 是入场券,world model 才是主菜。
8. 给你的小作业
- 解释 world model 为什么对机器人比对聊天机器人更重要。
- Sora 生成视频"看起来真"但物理不完全对——给三个具体 failure case。
- 如果让你判断"模型真的懂物理",你会设计什么样的 evals?给三个例子。
下一篇钩子:world model 在赌"AI 要理解世界"。 还有另一条同样重要的赌 —— "AI 要学会推理"。 2024 OpenAI o1 / 2025 DeepSeek R1 / Claude with thinking 都在这条路上。 下一篇我们看 reasoning model 是怎么训出来的,以及 RL 在 LLM 时代为什么"回来了"。