世界模型 & 视频生成：Sora / Genie / V-JEPA 在赌什么

AI 系列第 21 篇。这一篇讲一个还在赌的大事——world model。这是 LLM 之后 AI 最被看好的下一个 paradigm。

0. 一个 LLM 永远赢不了的问题

你: "把这个杯子从桌子边推下去会发生什么？"

LLM: "杯子会掉到地上，可能摔碎，洒出里面的液体。"

听起来 LLM 懂物理。但 ——

你: "如果桌子是橡胶做的，杯子用 5g 的力推呢？"

LLM: "杯子会掉下去......" (但其实推不动)

你: "如果杯子是磁铁的，桌子是铁的呢？"

LLM: "嗯……可能不会掉。" (蒙对)

LLM 的"物理常识"是从文字里学的——它知道"杯子会掉"是因为读过几千万次类似描述。它不真的理解重力、摩擦、磁力。

这个问题在文字任务上不重要。但要让 AI 操作真实世界（机器人、自动驾驶、虚拟环境），必须解决。

这就是 world model（世界模型）想做的事。

1. World Model 是什么

World model = 一个能预测"如果做某动作，世界会怎么变"的模型。

形式化：

输入: 当前状态 s_t + 动作 a_t
输出: 下一状态 s_{t+1}

人脑里就有 world model。你看到一个杯子放在桌边，你预测推它会掉。你看到马上要下雨，你预测需要带伞。这种预测能力是智能的核心。

LLM 是 language model——它预测的是下一个 token。 World model 预测的是下一个 世界状态——可能是图像、视频帧、传感器读数、3D 点云。

为什么 world model 重要？

机器人：要让机器人在物理世界里规划动作，它必须能预测动作后果。
自动驾驶：要安全决策，必须模拟 "如果我刹车 / 转弯 / 加速会怎样"。
科学发现：物理模拟、蛋白质折叠、气候建模本质都是 world model。
更强的 AI：很多研究者（如 LeCun）认为 LLM 是死路，world model 才是 AGI 的下一站。

2. LeCun 的论断：LLM 是岔路，World Model 是主路

Yann LeCun（Meta 首席 AI 科学家、图灵奖得主）多次公开说：

"LLM 永远不可能达到人类智能水平。它们没有 grounding，不能理解物理，不能规划。"

他的论点：

LLM 从文字学习。文字是人类智能的输出，不是它的基础。
人类婴儿不读书也能学会物理常识——通过观察 + 行动。
AI 要走通用智能，应该模仿婴儿——从视觉 / 视频 + 行动中学习。

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture） 是他赌的方向：

JEPA:
  学习一个能"预测视频未来帧的特征"的模型
  不预测像素，而是预测高层抽象表示

V-JEPA（2024）是 Meta 实现的视频版 JEPA。它不输出图像，输出抽象 representations。学到的能力包括：

物体连续性（被遮挡的东西还在）
重力、惯性的直觉
因果时序

LeCun 团队相信：这种自监督视频学习，才是通往真正智能的路。

一句你可以拿去吹的话： LeCun 押 world model，OpenAI 押 scaling LLM。这两个押注会在未来 5-10 年见分晓。

3. Sora：把视频生成变成"隐式 world model"

2024 年 2 月，OpenAI 发布 Sora——能生成 60 秒高清视频。

它和 V-JEPA 走的不是同一条路，但目标相通——学会"世界怎么运动"。

Sora 的技术路线：DiT（Diffusion Transformer）

1. 把视频切成 3D patches (时空 patch)
2. 每个 patch 用 transformer encode 成 token
3. 用 diffusion model 在 token 空间生成新视频
4. decode 回像素

关键创新：视频 = 一连串时空 patches。这种统一表示让 Sora 能：

处理任意分辨率
处理任意时长
处理任意宽高比

Sora 学到了什么？

OpenAI 的论文标题就是 Video generation models as world simulators——它声明 Sora 不只是"会画视频"，而是"会模拟世界"。

生成结果展现的能力:
- 3D consistency  (镜头移动时，物体相对位置正确)
- 物体持久性     (被遮挡后还能正确出现)
- 物理直觉       (重力、惯性、流体)
- 数字时序       (倒咖啡，杯子里液体会增加)
- 简单因果       (刀切番茄，番茄会分开)

但也有大量 failure case：

- 一只猫的腿有时会变成 4 只
- 玻璃杯打碎后画面卡顿
- 文字 / 数字几乎肯定生成错
- 角色身份在镜头切换后变化

Sora 学的物理还不完整。但相比 2022 的 video generation，进步是质变级的。

Veo / Kling / Seedance：开源 / 中国跟进

2024-2025 这一年视频生成跑得飞快：

Google Veo 2：电影级质感
Kuaishou Kling 2：中国开源
字节 Seedance：消费端集成
Runway Gen-3 / Gen-4：好莱坞工具链
Pika 2：创作者社区

4. DeepMind Genie：生成式游戏世界

2024 年 2 月，DeepMind 发了 Genie——能从一张静态图生成可玩的 2D 游戏世界。

输入: 一张图片 (草地 + 角色)
输出: 一个交互式环境
  用户按 → → 角色向右走
  用户按 ↑ → 角色跳跃
  整个世界根据操作连续演化

Genie 训练用的是纯视频——它从大量游戏视频里学到了"动作 → 后果"的隐式 mapping。

Genie 2（2024.12）升级到 3D，时长更长，物理更真。

Genie 的意义

它不是为了娱乐。它在示范一件事：纯靠视频，可以学到通用的 "action → world change" 映射。这是 world model 的核心能力。

如果这条路 work，AI 可以：

在虚拟环境里训机器人（不用真摔几千个机器人）
模拟自动驾驶场景（不用真撞几百辆车）
模拟蛋白质折叠 / 化学反应 / 经济市场

5. World Model 在机器人上的应用

机器人是 world model 最直接的应用场景。

传统机器人控制

传感器 → 状态估计 → 规划器 (基于物理引擎) → 控制器

物理引擎是手工编写的——重力、摩擦、刚体动力学等都被显式编码。

Learned world model 路线

传感器 → 学到的 world model → 规划器
                   ↑
              纯从经验里学

不写物理引擎，让模型从大量交互数据里学。代表项目：

Google PaLM-E：把视觉 + 语言 + 机器人控制统一到一个模型
Google RT-2：Robotic Transformer，从视频学到操作策略
Figure AI / 1X / Tesla Optimus：人形机器人，背后都有 world model

Sim-to-Real Transfer

挑战之一：模型在仿真里训出来的能力，搬到真实世界往往效果打折。原因是仿真和真实的物理细节有差异。

解决思路：

Domain randomization：仿真时随机化各种参数，强迫模型 robust
Real-world fine-tuning：仿真预训练 + 真机 fine-tune
Foundation model + RL：在大规模预训练基础上，少量真机数据 fine-tune

6. World Model 真正的难点

难点 1：长程预测

视频生成 5 秒还行，1 分钟就开始失真。100 秒后几乎完全跑偏。

原因：误差累积。每一步预测有小误差，几十步后误差爆炸。

难点 2：稀有事件

物理世界 99% 时间是平凡的（杯子静静地放着）。但安全关键的 1%（杯子要倒了、车要撞了）才是 world model 真正需要预测对的。

训练数据天然缺乏稀有事件 → 模型对稀有事件预测不准。

难点 3：因果 vs 相关

视频里"闪电之后下雨" 99% 会同时出现。模型学到的是"闪电 → 下雨"，但真正的因果是"积雨云 → 闪电 + 下雨"。

这种伪因果会让 world model 在反事实预测（counterfactual）上犯傻。

难点 4：评估

video 生成模型怎么评？人工标？太贵。FID 之类的图像指标？衡量像素相似度，但不评物理对错。

到 2026 年，没有一个公认的 world model evaluation 标准。这本身就是个研究问题。

7. World Model vs LLM：会取代还是融合？

主流声音有三种：

声音 1：World model 替代 LLM（LeCun 派）

理由：LLM 撞了 scaling 墙。下一代智能需要 grounding。

声音 2：LLM + World model 互补（多数实验室）

理由：

LLM 擅长抽象推理、知识
World model 擅长物理、低层控制
两者各管一摊

OpenAI / Anthropic 都在做 multimodal LLM + world model 的融合。Sora 本身就是这种融合的早期形态。

声音 3：World model 是 LLM 的特例

理由：广义来说，"预测下一个 token" 也是预测世界（语言世界）的下一状态。只要 token 涵盖了视觉、音频、动作，LLM 框架就能装下 world model。

GPT-4o / Gemini 走这条路——把视频、音频、动作都 tokenize，用同一个 transformer 训。

我自己倾向声音 2-3 之间——架构上会统一，但需要专门的数据 / 训练课程让模型真的学到物理。

一句你可以拿去吹的话： 未来 5 年 AI 的主战场，从 "更大的 LLM" 转向 "能理解物理的多模态系统"。LLM 是入场券，world model 才是主菜。

8. 给你的小作业

解释 world model 为什么对机器人比对聊天机器人更重要。
Sora 生成视频"看起来真"但物理不完全对——给三个具体 failure case。
如果让你判断"模型真的懂物理"，你会设计什么样的 evals？给三个例子。

下一篇钩子：world model 在赌"AI 要理解世界"。还有另一条同样重要的赌 —— "AI 要学会推理"。 2024 OpenAI o1 / 2025 DeepSeek R1 / Claude with thinking 都在这条路上。下一篇我们看 reasoning model 是怎么训出来的，以及 RL 在 LLM 时代为什么"回来了"。