← cd ../posts

世界模型 & 视频生成:Sora / Genie / V-JEPA 在赌什么

2026-06-11

AI 系列第 21 篇。这一篇讲一个还在赌的大事——world model。 这是 LLM 之后 AI 最被看好的下一个 paradigm。

0. 一个 LLM 永远赢不了的问题

你: "把这个杯子从桌子边推下去会发生什么?"

LLM: "杯子会掉到地上,可能摔碎,洒出里面的液体。"

听起来 LLM 懂物理。但 ——

你: "如果桌子是橡胶做的,杯子用 5g 的力推呢?"

LLM: "杯子会掉下去......" (但其实推不动)

你: "如果杯子是磁铁的,桌子是铁的呢?"

LLM: "嗯……可能不会掉。" (蒙对)

LLM 的"物理常识"是从文字里学的——它知道"杯子会掉"是因为读过几千万次类似描述。它不真的理解重力、摩擦、磁力

这个问题在文字任务上不重要。但要让 AI 操作真实世界(机器人、自动驾驶、虚拟环境),必须解决。

这就是 world model(世界模型)想做的事。


1. World Model 是什么

World model = 一个能预测"如果做某动作,世界会怎么变"的模型。

形式化:

输入: 当前状态 s_t + 动作 a_t
输出: 下一状态 s_{t+1}

人脑里就有 world model。你看到一个杯子放在桌边,你预测推它会掉。你看到马上要下雨,你预测需要带伞。这种预测能力是智能的核心。

LLM 是 language model——它预测的是下一个 token。 World model 预测的是下一个 世界状态——可能是图像、视频帧、传感器读数、3D 点云。

为什么 world model 重要?

  1. 机器人:要让机器人在物理世界里规划动作,它必须能预测动作后果。
  2. 自动驾驶:要安全决策,必须模拟 "如果我刹车 / 转弯 / 加速会怎样"。
  3. 科学发现:物理模拟、蛋白质折叠、气候建模本质都是 world model。
  4. 更强的 AI:很多研究者(如 LeCun)认为 LLM 是死路,world model 才是 AGI 的下一站。

2. LeCun 的论断:LLM 是岔路,World Model 是主路

Yann LeCun(Meta 首席 AI 科学家、图灵奖得主)多次公开说:

"LLM 永远不可能达到人类智能水平。它们没有 grounding,不能理解物理,不能规划。"

他的论点:

  1. LLM 从文字学习。文字是人类智能的输出,不是它的基础
  2. 人类婴儿不读书也能学会物理常识——通过观察 + 行动
  3. AI 要走通用智能,应该模仿婴儿——从视觉 / 视频 + 行动 中学习。

LeCun 提出的 JEPA(Joint Embedding Predictive Architecture) 是他赌的方向:

JEPA:
  学习一个能"预测视频未来帧的特征"的模型
  不预测像素,而是预测高层抽象表示

V-JEPA(2024)是 Meta 实现的视频版 JEPA。它不输出图像,输出抽象 representations。学到的能力包括:

  • 物体连续性(被遮挡的东西还在)
  • 重力、惯性的直觉
  • 因果时序

LeCun 团队相信:这种自监督视频学习,才是通往真正智能的路

一句你可以拿去吹的话: LeCun 押 world model,OpenAI 押 scaling LLM。这两个押注会在未来 5-10 年见分晓。


3. Sora:把视频生成变成"隐式 world model"

2024 年 2 月,OpenAI 发布 Sora——能生成 60 秒高清视频。

它和 V-JEPA 走的不是同一条路,但目标相通——学会"世界怎么运动"

Sora 的技术路线:DiT(Diffusion Transformer)

1. 把视频切成 3D patches (时空 patch)
2. 每个 patch 用 transformer encode 成 token
3. 用 diffusion model 在 token 空间生成新视频
4. decode 回像素

关键创新:视频 = 一连串时空 patches。这种统一表示让 Sora 能:

  • 处理任意分辨率
  • 处理任意时长
  • 处理任意宽高比

Sora 学到了什么?

OpenAI 的论文标题就是 Video generation models as world simulators——它声明 Sora 不只是"会画视频",而是"会模拟世界"。

生成结果展现的能力:
- 3D consistency  (镜头移动时,物体相对位置正确)
- 物体持久性     (被遮挡后还能正确出现)
- 物理直觉       (重力、惯性、流体)
- 数字时序       (倒咖啡,杯子里液体会增加)
- 简单因果       (刀切番茄,番茄会分开)

但也有大量 failure case:

- 一只猫的腿有时会变成 4 只
- 玻璃杯打碎后画面卡顿
- 文字 / 数字几乎肯定生成错
- 角色身份在镜头切换后变化

Sora 学的物理还不完整。但相比 2022 的 video generation,进步是质变级的。

Veo / Kling / Seedance:开源 / 中国跟进

2024-2025 这一年视频生成跑得飞快:

  • Google Veo 2:电影级质感
  • Kuaishou Kling 2:中国开源
  • 字节 Seedance:消费端集成
  • Runway Gen-3 / Gen-4:好莱坞工具链
  • Pika 2:创作者社区

4. DeepMind Genie:生成式游戏世界

2024 年 2 月,DeepMind 发了 Genie——能从一张静态图生成可玩的 2D 游戏世界。

输入: 一张图片 (草地 + 角色)
输出: 一个交互式环境
  用户按 → → 角色向右走
  用户按 ↑ → 角色跳跃
  整个世界根据操作连续演化

Genie 训练用的是纯视频——它从大量游戏视频里学到了"动作 → 后果"的隐式 mapping。

Genie 2(2024.12)升级到 3D,时长更长,物理更真。

Genie 的意义

它不是为了娱乐。它在示范一件事:纯靠视频,可以学到通用的 "action → world change" 映射。这是 world model 的核心能力。

如果这条路 work,AI 可以:

  • 在虚拟环境里训机器人(不用真摔几千个机器人)
  • 模拟自动驾驶场景(不用真撞几百辆车)
  • 模拟蛋白质折叠 / 化学反应 / 经济市场

5. World Model 在机器人上的应用

机器人是 world model 最直接的应用场景。

传统机器人控制

传感器 → 状态估计 → 规划器 (基于物理引擎) → 控制器

物理引擎是手工编写的——重力、摩擦、刚体动力学等都被显式编码。

Learned world model 路线

传感器 → 学到的 world model → 规划器
                   ↑
              纯从经验里学

不写物理引擎,让模型从大量交互数据里学。代表项目:

  • Google PaLM-E:把视觉 + 语言 + 机器人控制统一到一个模型
  • Google RT-2:Robotic Transformer,从视频学到操作策略
  • Figure AI / 1X / Tesla Optimus:人形机器人,背后都有 world model

Sim-to-Real Transfer

挑战之一:模型在仿真里训出来的能力,搬到真实世界往往效果打折。原因是仿真和真实的物理细节有差异。

解决思路:

  • Domain randomization:仿真时随机化各种参数,强迫模型 robust
  • Real-world fine-tuning:仿真预训练 + 真机 fine-tune
  • Foundation model + RL:在大规模预训练基础上,少量真机数据 fine-tune

6. World Model 真正的难点

难点 1:长程预测

视频生成 5 秒还行,1 分钟就开始失真。100 秒后几乎完全跑偏。

原因:误差累积。每一步预测有小误差,几十步后误差爆炸。

难点 2:稀有事件

物理世界 99% 时间是平凡的(杯子静静地放着)。但安全关键的 1%(杯子要倒了、车要撞了)才是 world model 真正需要预测对的。

训练数据天然缺乏稀有事件 → 模型对稀有事件预测不准。

难点 3:因果 vs 相关

视频里"闪电之后下雨" 99% 会同时出现。模型学到的是"闪电 → 下雨",但真正的因果是"积雨云 → 闪电 + 下雨"。

这种伪因果会让 world model 在反事实预测(counterfactual)上犯傻。

难点 4:评估

video 生成模型怎么评?人工标?太贵。FID 之类的图像指标?衡量像素相似度,但不评物理对错。

到 2026 年,没有一个公认的 world model evaluation 标准。这本身就是个研究问题。


7. World Model vs LLM:会取代还是融合?

主流声音有三种:

声音 1:World model 替代 LLM(LeCun 派)

理由:LLM 撞了 scaling 墙。下一代智能需要 grounding。

声音 2:LLM + World model 互补(多数实验室)

理由:

  • LLM 擅长抽象推理、知识
  • World model 擅长物理、低层控制
  • 两者各管一摊

OpenAI / Anthropic 都在做 multimodal LLM + world model 的融合。Sora 本身就是这种融合的早期形态。

声音 3:World model 是 LLM 的特例

理由:广义来说,"预测下一个 token" 也是预测世界(语言世界)的下一状态。只要 token 涵盖了视觉、音频、动作,LLM 框架就能装下 world model。

GPT-4o / Gemini 走这条路——把视频、音频、动作都 tokenize,用同一个 transformer 训。

我自己倾向声音 2-3 之间——架构上会统一,但需要专门的数据 / 训练课程让模型真的学到物理。

一句你可以拿去吹的话: 未来 5 年 AI 的主战场,从 "更大的 LLM" 转向 "能理解物理的多模态系统"。LLM 是入场券,world model 才是主菜。


8. 给你的小作业

  1. 解释 world model 为什么对机器人比对聊天机器人更重要。
  2. Sora 生成视频"看起来真"但物理不完全对——给三个具体 failure case。
  3. 如果让你判断"模型真的懂物理",你会设计什么样的 evals?给三个例子。

下一篇钩子:world model 在赌"AI 要理解世界"。 还有另一条同样重要的赌 —— "AI 要学会推理"。 2024 OpenAI o1 / 2025 DeepSeek R1 / Claude with thinking 都在这条路上。 下一篇我们看 reasoning model 是怎么训出来的,以及 RL 在 LLM 时代为什么"回来了"。