2024 年,一支 Google Research 和 Google DeepMind 团队展示了一个神经模型可以在底层不运行原版游戏引擎的情况下,以每秒超过 20 帧的速度模拟可玩的 DOOM。这里没有按常规方式显式存储坐标、物理对象、生命值变量或地图状态的传统引擎循环。相反,GameNGen 学会了从最近的帧和玩家输入中推断下一帧,包括生命值、弹药、敌人、门和墙等视觉线索。这个被称为 GameNGen 的系统是 Stable Diffusion(即那种从文本生成图像的模型)的改进版本,它通过根据之前的帧再加上你刚刚按下的任意按键来「幻觉」出每一个下一帧,从而玩转 DOOM。
这与「游戏引擎里的 AI」是根本不同的两回事。当一家工作室在 Unity 中用 AI 生成纹理或编写 NPC 对话时,引擎依然在那里做着真正的工作。GameNGen 没有引擎。这个模型 is 就是游戏本身。而它正是一个真正前沿领域的起点,只是各种头条新闻总把它讲错。 GameNGen 通过 ICLR 研究通道亮相, DIAMOND 出自 NeurIPS 2024,而 Google DeepMind、Microsoft Research、Decart 和 Skywork AI 等公司如今正把这一理念从论文推向演示、API 和开源系统。
下面就讲清楚这些系统到底做了什么、逐帧预测如何运作、为什么在较长的交互中连贯性和记忆仍会崩溃、运行它们要花多少钱,以及它们是否会取代 Unity。最后这个问题的简短答案是「不会」,至少不是炒作所暗示的那种方式。原因在于架构:更多算力有帮助,但它本身并不能创造持久状态、确定性逻辑或可调试的游戏循环。
简短版本
- 这些模型预测帧;它们并不模拟规则。 游戏引擎根据逻辑和存储的变量计算下一个状态。而像 GameNGen 或 Oasis 这样的世界模型则是从之前的帧加上你的输入来猜测下一张图像。它并没有运行带有显式对象状态、物理代码和可检视变量的传统游戏引擎模拟;它是通过一个学习得到的模型生成下一次观测。
- 它们的连贯性仍然受记忆和上下文的限制, 但这个上限已不再像「一切都在几秒后崩溃」那么简单。GameNGen 只有略多于 3 秒的直接帧历史,却能通过学到的启发式方法在更长的轨迹上保持视觉稳定。Genie 2 通常展示的是 10-20 second 的例子,有时还能保留视野外的细节,而 Genie 3 则把连贯性推到了 720p/24fps 下的几分钟。核心弱点依然存在:这些系统尚未提供生产级游戏所依赖的持久、可检视、可保存的状态。
- 它们并不像生产级游戏所需要的那样天然具有确定性。 你可以约束采样或固定种子,但这仍然无法给你一个普通引擎那种干净、可检视的状态更新。多人对战、竞技平衡、回放、技能成长以及存档/读档,全都依赖可靠的状态转换。一个帧生成器可以近似这种行为,但生产级游戏仍然需要在它之下或之旁有一个确定性逻辑层。
- DeepMind 将世界模型定位为在丰富的模拟环境中训练和评估 AI 智能体的基础, 而 Project Genie 则把同样的技术展示为面向消费者的世界创建原型。Decart 更新的 Oasis 3 更明确地瞄准了物理 AI、机器人和自动驾驶汽车模拟。这就重新定义了「这会取代 Unity 吗?」这个问题:近期最严肃的市场也许是智能体训练和模拟,而不是成品消费级游戏。
本文不涉及的内容
有几个相邻的话题常被拉进同一场讨论,但它们并不属于这里:
- DLSS、FSR、超分辨率和帧生成。 那些是 AI 替代 单个阶段 替代普通渲染管线中的单个阶段;引擎依然在运行。那是另一个话题,即神经渲染,并非本文所涵盖的内容。
- 详细的强化学习方法论 用于收集训练数据的详细强化学习方法论。我会从概念层面加以描述;完整的配方在论文里。
- 游戏服务器托管和基础设施搭建。 这是一篇关于这些模型如何运作的科普文章,而不是一份部署指南。
人们所说的「AI 游戏引擎」是什么意思(以及本文讲的是哪一种)
「AI 游戏引擎」这个说法被安在了三种完全不同的东西上,而关于这个话题的大多数困惑都来自把它们混为一谈。本文讲的恰恰是其中之一:一个预测每一帧并彻底取代引擎的模型。不是螺接在传统引擎上的 AI 工具,也不是一个构建 3D 环境、再让你把环境加载进引擎的工具。
用大白话说,这三种含义是:
- AI 工具 内部 内置于传统引擎中。 素材生成、纹理合成、NPC 行为树、对话写作:全都运行在 Unity 或 Unreal 内部。引擎仍然渲染帧、运行物理、持有状态。AI 只是内容管线里的一个助手。这正是大多数关于「AI 游戏引擎」的搜索结果实际所指的东西,而它 不是 本文的主题。
- 创作型 3D 空间生成器。 由 Fei-Fei Li 联合创办的 World Labs 推出了 Marble,这是一个从文本、图像、视频或其他输入创建持久、可下载 3D 环境的工具。关键在于,Marble 更接近一个空间内容创作工具:它生成可以穿行、编辑、下载或导出到下游工作流中的持久 3D 世界。这使它有别于 GameNGen、Oasis 或 Genie 式系统,在那些系统里,可玩体验本身是通过逐帧生成实时产生的。
- 取代引擎的世界模型。 GameNGen、Oasis、Genie 系列、DIAMOND、MineWorld、Matrix-Game。它们直接生成可玩的观测,而不是把一个普通的、人工创作的场景加载进 Unity 或 Unreal。一些较新的系统加入了记忆和一致性机制,但它们仍然无法暴露传统游戏引擎那种持久、可检视、由开发者控制的状态模型。这才是本文的主题。
对你读到的任何文章,一个快速的判断规则是:如果系统产出的是一个 你加载进 Unity 的文件,那它属于第 1 或第 2 类。如果系统本身 is 就是你正在玩的东西,帧是实时生成的,那它属于第 3 类:世界模型。
模型如何在没有引擎的情况下生成游戏
世界模型学习一个游戏在运动中是什么样子,然后在最近的帧加上玩家当前输入的条件下预测下一帧。与传统引擎不同,它不会暴露诸如「门是开的」「这个敌人死了」或「玩家在坐标 X」这类干净的变量。在早期的逐帧预测系统中,模型主要学到的是某些视觉状态往往跟在某些输入之后。所谓的「玩」,无非就是把这个学到的预测循环跑得足够快,让人感觉是可交互的。
GameNGen 是讲得最清楚的实例,因为这篇 论文 把每一步都摆了出来。整个管线分两个阶段运行。首先,一个强化学习智能体玩成千上万局 DOOM,每一局都被记录为一串帧,并与产生这些帧的动作配对。其次,一个改进版的 Stable Diffusion v1.4 在这些数据上被训练,以在给定之前的帧 和 玩家动作的条件下预测下一帧。动作被直接烘焙进条件中,而这正是让它成为一个游戏、而非仅仅一个视频生成器的诀窍。你的按键就是下一张图像提示词的一部分。
难点在于速度。普通的扩散模型要跑 20 到 50 个去噪步骤才能把噪声变成一张图像,这对实时游玩来说太慢了。GameNGen 把它削减到 4 个去噪步骤,使每帧的总推理时间约为 50 毫秒:足够快,达到 在单块 TPU 上以 DOOM 原生 320×240 分辨率跑 20 FPS。在区分模拟的短片段与真实 DOOM 画面时,人类评分者只比随机猜测略好一点。
这个领域里的大多数系统都落入相互重叠的架构模式:
- 基于扩散的系统 (GameNGen、Oasis、DIAMOND、Genie 2):从噪声出发,迭代去噪成下一帧。它们能产出很强的短时程视觉质量,但需要加速技巧才能可交互地运行。
- 自回归系统 (MineWorld):顺序地预测未来的帧或 token,更接近语言模型预测文本的方式。MineWorld 用帧率换取更紧密的动作跟随,落在 4-7 FPS 左右。
- 记忆与控制增强的混合系统 (Matrix-Game 2.0/3.0 及更新的系统):把实时生成与动作条件化、相机控制和显式记忆机制结合起来,以减少长时程漂移。
有一个细节对下一节很重要。在训练期间,GameNGen 会刻意给它所依据的过去帧添加噪声。这迫使模型学会纠正自己的错误,而不是让错误层层累积,是对漂移问题的一种缓解。它有帮助,但并没有解决问题。
脉络:从 Genie 1 到 Genie 3,两年之间
关于这个领域,最引人注目的一点是它的斜率。2024 年 2 月, Genie 1 以 256×256 生成可控的 2D 平台游戏。十八个月后, Genie 3 已经能从一个文本提示词以 720p 和 24 FPS 生成可导航的 3D 世界。这才是值得关注的轨迹:不是任何单个演示,而是它们之间的变化速率。
作为一条进程来读,故事是这样的。Genie 1(DeepMind,ICML 2024)证明了你可以从无标注视频中学习交互式环境。GameNGen(Google,ICLR 2025)展示了同样的理念能够实时运行一款真实、快节奏的游戏(DOOM)。Oasis(Decart,2024 年 10 月)把它带到了 Minecraft,并让其可以公开游玩。Genie 2(DeepMind,2024 年 12 月)跃升到从单张图像生成的 3D 世界。 DIAMOND (NeurIPS 2024)让这种方法开源,并可在消费级 GPU 上运行。 GameGen-X 和 MineWorld (Microsoft,2025)进一步推动了开放生态。Genie 3(2025 年 8 月;2026 年 1 月以 Project Genie 形式公开)实现了从文本到实时 3D。 Matrix-Game 2.0 把开源的实时流式生成推到了 25 FPS,而 Matrix-Game 3.0 则用长时程记忆架构更直接地攻克了记忆问题。
从一个真切的意义上说,这是神经渲染趋势的另一端。神经渲染是 AI 替代图形管线中的单个阶段(这里超分辨率、那里着色),而引擎照常运行。世界模型则是 AI 彻底替代整条管线。如果把两者放在一起读,神经渲染是「AI 吃掉零件」的故事,而这是「AI 吃掉整个东西」的故事。两者各自都是对方在逻辑上的下一步。
主要系统的规格列在下面的表格里;这段叙述的重点是那条弧线,而不是数字。
| 系统 | 开发者 | 年份 | 方法 | 分辨率 / FPS | 是否开源? | 来源 |
|---|---|---|---|---|---|---|
| Genie 1 | Google DeepMind | 2024 | 潜在动作 | 256×256 | No | arXiv |
| GameNGen | 2024 | Diffusion | 320×240 / 20 FPS | No | arXiv | |
| Oasis | Decart + Etched | 2024 | Diffusion(Forcing) | 360p / 20 FPS | 部分(500M ckpt) | 项目 |
| Oasis 3 | Decart | 2026 | 面向物理 AI 的可经 API 访问的交互式世界模型 | 实时 API 预览 | No | Decart / TechCrunch |
| Genie 2 | Google DeepMind | 2024 | 自回归潜在扩散 | 不适用 | No | DeepMind |
| DIAMOND | Geneva / Edinburgh / MSR | 2024 | Diffusion | Atari / CS:GO | 是(MIT) | arXiv |
| GameGen-X | 学术界 | 2024 | Diffusion transformer | 不适用 | 支持 | arXiv |
| MineWorld | Microsoft Research | 2025 | Autoregressive | 4-7 FPS | 支持 | arXiv |
| Genie 3 | Google DeepMind | 2025 | 通用型实时世界模型 | 720p / 24 FPS | No | DeepMind |
| Matrix-Game 2.0 | Skywork AI | 2025 | 少步自回归扩散 | 单块 H100 上 25 FPS | 支持 | 项目 |
| Matrix-Game 3.0 | Skywork AI | 2026 | 记忆增强的交互式世界模型 | 5B model 下 720p 最高 40 FPS | 支持 | 项目 / arXiv |
这些世界为何会崩塌
这些系统仍然会在四个重要方面崩坏,但其失败模式并不只是「算力不够」。更多 GPU 可以提升分辨率、延迟和模型规模,但生产级的连贯性需要更好的记忆、状态跟踪和控制架构。一个预测出貌似合理帧的模型,与一个拥有显式规则、可检视变量、确定性状态更新和存档/读档语义的引擎,并不是一回事。下面每一条局限都是模型在结构上 做不到的事,而不是它还没做到足够好的事。
没有持久的世界状态
这些系统不会像传统引擎那样暴露变量。普通引擎把世界存储为数据:这个箱子是开的、这个敌人死了、玩家在坐标 (412, 88)。在早期的逐帧预测系统里,并不存在游戏开发意义上那种持久的引擎状态。模型主要依赖最近的视觉上下文和学到的先验,因此一旦对象离开视野,它们就可能发生变化、消失或错误地重新出现。较新的系统正在加入显式的记忆和一致性机制,但它们仍然无法暴露传统引擎给开发者的那种干净、可调试的世界状态。
在较弱或早期的逐帧预测系统中,你打开过的箱子可能重新出现时是关着的,你杀死的怪物可能又走回来,你建造的结构可能一旦离开画面就消散。玩家形容最初的 Oasis 演示带有「梦境逻辑」:你一转身,可能就回不到完全相同的地方了。较新的系统正试图用更强的记忆和一致性机制来减少这个问题,但差距依然存在:它们仍然无法暴露一个传统的、可检视的游戏状态层。
上下文窗口的天花板
连贯性受模型记忆设计的限制,而不仅仅是受原始视觉质量的限制。GameNGen 使用很短的直接帧历史,却仍报告出通过学到的纠错实现的稳定多分钟游玩。Genie 2 引入了可见的长时程记忆示例,并把一致性维持到长达一分钟,其中大多数示例持续 10-20 second。Genie 3 把连续交互推到了几分钟,而 Matrix-Game 3.0 则用长时程记忆直接攻克了这个问题。尚未解决的问题不是「模型能否撑过几秒?」,而是它能否在一款真实游戏的长度和复杂度下保持一个可靠、可检视、可保存的世界状态。
随机的,而非确定性的
默认情况下输出是概率性的。同样的设置跑两遍,除非系统被严格约束,否则你可能得到不同的帧。对一个艺术工具来说,这可能有用;但对许多生产级游戏来说,这是个问题。多人对战、竞技平衡、回放、技能成长以及存档/读档,全都依赖可靠的状态转换。世界模型可以被做得更可重复,但生产级游戏仍然需要一个确定性逻辑层或状态系统,来保证玩家和开发者所期望的行为。
这到底是游戏,还是带键盘的视频预测?
最尖锐的批评是:这些系统并不是在传统游戏引擎的意义上模拟世界;它们是在生成貌似合理的视觉延续,并让你去操控它们。游戏引擎编码的是规则;世界模型编码的是合理性。 GameNGen 的 Hacker News 帖子 里有一位评论者称它为「世界上效率最低的视频压缩」,作为一句挑衅,这话挺中肯:模型实际上记住了一个关于游戏画面的分布,并在回应你的输入时在其中做插值。对此有一个干净的检验方法,见下面的提示框。
「静止不动时仍漂移」这个破绽。 如果一个世界模型真的在计算一个世界,那么静止不动的玩家应当得到一张稳定的图像:什么都没变,所以什么都不该变。在较弱或早期的逐帧预测系统中,哪怕站着不动也会暴露漂移:细微的细节会发生移动,因为模型是在预测下一个貌似合理的帧,而不是从一个固定、可检视的世界状态中渲染。这就是那个破绽。场景看上去可能稳定一阵子,但系统仍然是在生成连续性,而不是从一个常规引擎里读取它。
核心要点: 确定性和持久性的局限是架构问题,而不是单凭原始扩展规模就能解决的问题。任何需要一个可靠、可重复、可保存世界的系统,仍然需要一个确定性逻辑层、显式的记忆/状态系统,或者混合引擎设计,而这些是当前的帧生成方法本身无法提供的。
实际运行成本到底是多少
实时生成很昂贵,而那些头条数字掩盖了很多东西。GameNGen 的「单块 TPU」听起来很便宜,直到你想起它模拟的是 320×240 的 DOOM,而不是一款现代高分辨率游戏。最初的 Oasis 演示是在 H100 级别的基础设施上实时运行的,而 Decart 更新的 Oasis 3 让这笔经济账更具体了。Decart 把 Oasis 3 定位为面向物理 AI 的可经 API 访问的交互式世界模型,而 TechCrunch 报道了预览访问的定价 为每秒 $0.02,或一段 60 秒会话 $1.20。这对测试、模拟和研究工作流很有用,但它仍然是一种与发行一个普通游戏客户端非常不同的成本模型。
把规模摆出来看:实时世界生成仍然很昂贵,但硬件格局正在快速变化。一些开放的研究系统如今报告称能在单块 H100 级别的 GPU 上实现实时或接近实时的生成,而前沿的面向消费者的系统仍是云托管的,且往往未公开。可以坐实的一点不是「一块 GPU 永远做不到」;而是生产级质量、低延迟、高分辨率的世界生成,仍然是一个严肃的基础设施问题。
另一面是,门槛正在快速下降,而且开源这一层是真实存在的。DIAMOND 在单块 RTX 4090 上训练了大约 12 天,并且根据它的 官方项目页面,可以在 RTX 3090 上以大约 10 FPS 游玩。MineWorld 和 Matrix-Game 都可以公开运行。所以,尽管最令人印象深刻的演示仍依赖专门的、昂贵的基础设施,一个好奇的开发者已经可以在可触及的硬件上跑一些真正的世界模型实验了。两件事同时成立:前沿质量的交互代价高昂,而实验的入门门槛已经是真实可及的。
那么 AI 会取代 Unity 和 Unreal 吗?
近期不会,而原因是上面那些局限,而不是缺乏投资。市场对此是认真的。 Google 于 2026 年 1 月 29 日向美国的 Google AI Ultra 订阅者推出了 Project Genie,而第二天几支游戏类股票大幅抛售: The Verge 报道 Unity 下跌 24.22%、Roblox 下跌 13.17%、Take-Two 下跌 7.93% (周五收盘时)。这种焦虑也出现在行业内部: GDC 2026 调查 发现 52% 的游戏从业者认为生成式 AI 对游戏产生了负面影响,高于前一年的 30%。但股价波动和调查焦虑都是对一个演示的反应。决定真正时间表的,是架构。
按目前的轨迹来读,而这是我的解读,不是一个尘埃落定的预测,未来 1-3 years 里世界模型很可能仍停留在研究原型、模拟基础设施、机器人/物理 AI 训练以及面向消费者的小众演示里,而不是完整的商业游戏。比较可信的 3-7 year 路径是混合,而非取代:一个负责视觉生成的世界模型,坐在一个持有真正游戏逻辑的轻量级确定性状态机之上。那是增强。这条轨迹足够陡(从 320p 的 DOOM 到大约一年里从文本生成 720p),以至于自信的长期预测都不明智,所以我不会做这种预测。
重新定义整个问题的那个细节是:DeepMind 把世界模型与智能体训练和 AGI 研究绑在一起,而 Project Genie 则把同样的技术展示为面向消费者的世界创建原型。Decart 的 Oasis 3 更明确地瞄准了机器人、自动驾驶汽车和物理 AI 模拟。消费级游戏对这个故事很重要,但近期的商业拉动力也许首先来自模拟、训练和原型设计。
常见问题
世界模型和游戏引擎有什么区别?
游戏引擎编码显式的规则,并把游戏状态存储为数据:它是确定性的、可检视的、可调试的。而像 GameNGen 这样的世界模型,则从最近的帧加上你的输入预测出貌似合理的下一帧,没有开发者通常会检视和控制的那种传统引擎式状态、规则和对象变量。引擎计算世界;世界模型猜测世界。这就是为什么一个是可重复的,另一个不是。
GameNGen 是如何运作的?
GameNGen 运行 DOOM 大致分三步。首先,一个强化学习智能体玩成千上万局 DOOM,记录为与动作配对的帧。其次,一个改进版的 Stable Diffusion v1.4 学会在给定过去的帧加上玩家输入的条件下预测下一帧。第三,推理被削减到 4 个去噪步骤,在单块 TPU 上以 320×240 产出大约 20 FPS。
为什么 Oasis 里的世界在你转身时会不断变化?
在最初那个类 Minecraft 的 Oasis 演示中,世界之所以会在你转身时发生变化,是因为系统并没有保留一个传统的、引擎式的世界状态。它从最近的视觉上下文和学到的先验生成下一视角,因此视野外的对象可能以改变了的形态再度出现。较新的系统正在加入更强的记忆和一致性机制,但正是那个最初的「梦境逻辑」,让这种局限变得很容易被察觉。
一个 AI 生成的游戏世界在漂移之前能保持多久的一致性?
这取决于模型。早期系统往往在数秒到数十秒内就漂移,但较新的系统正在延长这一时程。GameNGen 只有略多于 3 秒的直接上下文,却能通过学到的启发式方法在更长的游玩中保持稳定。Genie 2 大多展示 10-20 second 的例子,有些情况下可达一分钟。Genie 3 把这个说法提升到了 720p/24fps 下的几分钟,而 Matrix-Game 3.0 则报告称有长达一分钟的记忆一致性。尚未解决的问题不是短片段;而是持久、可检视、可保存的世界状态。
AI 会取代像 Unity 或 Unreal 这样的游戏引擎吗?
近期不会。阻碍更多在架构层面,而不纯粹是一个规模问题:生产级游戏需要持久状态、可靠逻辑、确定性行为以及存档/读档语义。扩展规模有助于质量和连贯性,但它本身并不能创造一个传统的游戏循环。比较可信的路径是混合:一个世界模型在一个负责游戏逻辑的确定性引擎之上生成视觉效果,这是增强而非取代。DeepMind 把世界模型呈现为对智能体训练和 AGI 研究很重要,而 Project Genie 也让这项技术作为面向消费者的世界创建原型而可见。Decart 的 Oasis 3 是一个更清晰的例子,它是一个明确瞄准机器人、自动驾驶汽车和物理 AI 模拟的模型。
你现在能玩到这些 AI 生成的游戏中的任何一个吗?
能,有好几个。Decart 最初的 Oasis 有一个公开的类 Minecraft 网页演示,而它更新的 Oasis 3 Preview 现在已可经 API 访问,用于实时世界模型实验。Google 的 Project Genie 也于 2026 年 1 月向美国的 Google AI Ultra 订阅者开放。至于开源这一层,DIAMOND 和 MineWorld 可以下载并在消费级 GPU 上运行,其中 DIAMOND 据报告在 RTX 3090 上约为 10 FPS。