AIがゲームエンジンなしでゲームを生成する仕組み（GameNGen、Genie 3）

2024年、Google ResearchとGoogle DeepMindのチームは、ニューラルモデルが元のゲームエンジンを下層で動かすことなく、プレイ可能なDOOMを毎秒20フレーム以上でシミュレートできることを示しました。座標、物理オブジェクト、体力変数、マップの状態を通常のかたちで明示的に保持する、従来型のエンジンループは存在しませんでした。その代わりにGameNGenは、直近のフレームとプレイヤーの入力から次のフレームを推論することを学習しました。入力には、体力、弾薬、敵、ドア、壁といった視覚的な手がかりも含まれます。GameNGenと呼ばれるこのシステムは、Stable Diffusion（テキストから画像を生成するのと同じ種類のモデル）を改変したものであり、直前のフレームと、たった今押したキーから次のフレームを幻覚（hallucinate）として生成することでDOOMをプレイします。

これは「ゲームエンジンの中にあるAI」とは根本的に別物です。スタジオがUnityの中でテクスチャを生成したりNPCのセリフを書いたりするためにAIを使う場合、実際の処理はあくまでエンジンが行っています。GameNGenにはエンジンがありません。モデルそのものが is ゲームなのです。そしてこれは、見出しが繰り返し取り違えている本物のフロンティアの始まりです。 GameNGenはICLRの研究トラックを通じて発表され, DIAMONDはNeurIPS 2024で登場し、そしてGoogle DeepMind、Microsoft Research、Decart、Skywork AIといった企業が、このアイデアを論文からデモ、API、オープンソースシステムへと押し進めています。

これらのシステムが実際に何をするのか、次フレーム予測がどう機能するのか、なぜ一貫性と記憶がより長い操作の中で依然として破綻するのか、運用にいくらかかるのか、そしてそれらがUnityに取って代わろうとしているのか。最後の問いへの端的な答えはノーです。少なくとも誇大宣伝が示唆するようなかたちではありません。理由はアーキテクチャ上のものです。計算資源を増やせば役には立ちますが、それ自体が永続的な状態、決定論的なロジック、デバッグ可能なゲームループを生み出すわけではないのです。

短いバージョン

これらのモデルはフレームを予測するのであって、ルールをシミュレートしているわけではありません。 ゲームエンジンは、ロジックと保持された変数から次の状態を計算します。GameNGenや Oasis のような世界モデルは、直前のフレームとあなたの入力から次の画像を推測します。明示的なオブジェクト状態、物理コード、検査可能な変数を備えた従来型のゲームエンジンのシミュレーションを実行しているのではなく、学習されたモデルを通じて次の観測を生成しているのです。
それらの一貫性は依然として記憶とコンテキストによって制約されていますが、 その限界はもはや「数秒後にすべてが破綻する」というほど単純なものではありません。GameNGenが直接持つフレーム履歴は3秒を少し超える程度ですが、学習されたヒューリスティクスによって、より長い軌跡にわたって視覚的に安定した状態を保てます。Genie 2は通常10-20 secondの例を示し、視野外のディテールを保持できることもありました。一方Genie 3は、720p/24fpsで数分間まで一貫性を押し広げています。中核的な弱点は変わりません。これらのシステムは、製品版ゲームが依拠する、耐久性があり検査可能で保存可能な状態をまだ提供していないのです。
それらは、製品版ゲームが必要とするようなかたちでは、本質的に決定論的ではありません。 サンプリングを制約したりシードを固定したりはできますが、それでも通常のエンジンが持つ、クリーンで検査可能な状態更新は得られません。マルチプレイ、対戦バランス、リプレイ、スキル進行、セーブ/ロードはすべて、信頼できる状態遷移に依存しています。フレーム生成器はその挙動を近似できますが、製品版ゲームには依然として、その下層または隣に決定論的なロジック層が必要になります。
DeepMindは世界モデルを、豊かなシミュレーション環境でAIエージェントを訓練・評価するための基盤として位置づけており、 一方でProject Genieは、同じ技術を消費者向けの世界創造プロトタイプとして示しています。Decartのより新しいOasis 3は、フィジカルAI、ロボティクス、自動運転車のシミュレーションへとさらに明確に照準を合わせています。これは「これはUnityに取って代わろうとしているのか」という問いの枠組みを変えます。最も有望な短期市場は、完成した消費者向けゲームではなく、エージェントの訓練とシミュレーションかもしれないのです。

本記事が扱わないこと

いくつかの隣接する話題が同じ議論に引き込まれがちですが、ここでは扱いません。

DLSS、FSR、アップスケーリング、フレーム生成。 これらはAIが通常のレンダリングパイプラインの 個々の段階 of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
訓練データを集めるために使われる、 強化学習の詳細な手法。概念的なレベルでは説明しますが、完全なレシピは論文にあります。
ゲームサーバーのホスティングとインフラのセットアップ。 これはモデルの仕組みについての解説であって、デプロイガイドではありません。

「AIゲームエンジン」が意味するもの（そして本記事が扱うのはどれか）

「AIゲームエンジン」という言葉は、まったく異なる3つのものに結びつけられており、この話題をめぐる混乱のほとんどは、それらを一緒くたにすることから生じています。本記事が扱うのはそのうちのちょうど1つです。すべてのフレームを予測し、エンジンを丸ごと置き換えるモデルです。従来型エンジンに後付けされたAIツールでもなければ、3D環境を構築してそれをエンジンに読み込ませるツールでもありません。

3つの意味を、平たく言うと次のとおりです。

AIツールが 中にある 従来型エンジンの。 アセット生成、テクスチャ合成、NPCのビヘイビアツリー、セリフの執筆。これらはすべてUnityやUnrealの内部で動きます。エンジンは依然としてフレームをレンダリングし、物理を実行し、状態を保持します。AIはコンテンツパイプラインの中のアシスタントです。これが「AIゲームエンジン」という検索結果のほとんどが実際に指しているものであり、本記事の主題では ありません 。
オーサリングされた3D空間生成器。 Fei-Fei Liが共同創業したWorld Labsは、 Marbleを提供しています。これはテキスト、画像、動画、その他の入力から、永続的でダウンロード可能な3D環境を作るツールです。重要なのは、Marbleがむしろ空間的なコンテンツ制作ツールに近いという点です。移動したり、編集したり、ダウンロードしたり、下流のワークフローへエクスポートしたりできる、永続的な3D世界を生成します。これにより、プレイ可能な体験そのものがフレームごとの生成を通じてライブで作り出される、GameNGen、Oasis、Genie系のシステムとは異なるものになっています。
エンジンを置き換える世界モデル。 GameNGen、Oasis、Genieファミリー、DIAMOND、MineWorld、Matrix-Game。これらは、通常のオーサリングされたシーンをUnityやUnrealに読み込むのではなく、プレイ可能な観測を直接生成します。一部の新しいシステムは記憶や一貫性の仕組みを追加していますが、それでも、従来型ゲームエンジンが持つ、耐久性があり検査可能で開発者が制御できる状態モデルを公開してはいません。これがここでの主題です。

どの記事を読むときにも使える、手早い判断ルール。もしそのシステムが Unityに読み込むファイルを生成するなら、それはカテゴリー1か2です。もしそのシステムが is あなたがプレイしているもの自体であり、フレームがライブで生成されるなら、それはカテゴリー3、すなわち世界モデルです。

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

モデルがエンジンなしでゲームを生成する仕組み

世界モデルは、動いているゲームがどう見えるかを学習し、その後、直近のフレームとプレイヤーの現在の入力を条件として次のフレームを予測します。従来型エンジンと違い、「ドアが開いている」「この敵は死んでいる」「プレイヤーは座標Xにいる」といったクリーンな変数を公開しません。初期の次フレーム予測システムでは、モデルはおおむね、ある視覚的状態がある入力の後に続きやすい、ということを学習するにすぎません。プレイとは、その学習された予測ループを、インタラクティブに感じられるほど速く回しているだけなのです。

GameNGenは最もきれいに作り込まれた実例です。なぜなら、論文がすべての手順を示しているからです。パイプラインは2つの段階で動きます。第一に、強化学習エージェントがDOOMのセッションを何千回もプレイし、各セッションは、それを生み出したアクションと対になったフレームのストリームとして記録されます。第二に、改変されたStable Diffusion v1.4が、そのデータで訓練され、直前のフレームとプレイヤーのアクションが与えられたときに次のフレームを予測します。アクションは条件付けに直接焼き込まれており、それこそが、これを単なる動画生成器ではなくゲームにしているトリックです。あなたのキー入力は、次の画像のためのプロンプトの一部なのです。

難しいのは速度です。通常の拡散モデルは、ノイズを画像に変えるために20から50回のノイズ除去ステップを実行しますが、これはリアルタイムプレイにはあまりに遅すぎます。GameNGenはこれを 4回のノイズ除去ステップに削減し、推論全体を1フレームあたりおよそ50ミリ秒に抑えます。これは DOOMのネイティブ解像度320×240で単一のTPU上で20 FPSを出すのに十分な速さです。人間の評価者がシミュレーションの短いクリップと本物のDOOM映像を見分けられた率は、当て推量よりわずかに上回る程度でした。

この領域のほとんどのシステムは、重なり合うアーキテクチャ上のパターンに分類されます。

拡散ベースのシステム （GameNGen、Oasis、DIAMOND、Genie 2）：ノイズから出発し、反復的にノイズ除去して次のフレームへと収束させます。短い時間軸では高い視覚品質を生み出せますが、インタラクティブに動かすには速度上の工夫が必要です。
自己回帰型システム （MineWorld）：将来のフレームやトークンを逐次的に予測します。言語モデルがテキストを予測する仕組みに近いものです。MineWorldはフレームレートと引き換えにアクション追従の精度を高めており、おおむね4-7 FPSあたりに落ち着きます。
記憶・制御を強化したハイブリッド （Matrix-Game 2.0/3.0や、より新しいシステム）：リアルタイム生成を、アクション条件付け、カメラ制御、明示的な記憶の仕組みと組み合わせ、長い時間軸でのドリフトを抑えます。

次の節のために重要なディテールが1つあります。訓練中、GameNGenは条件付けに用いる過去のフレームに意図的にノイズを加えます。これにより、モデルは自分の誤差を増幅させるのではなく、修正することを学習せざるを得なくなります。ドリフト問題への緩和策です。効果はあります。ただし、それを解決するわけではありません。

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

系譜：Genie 1からGenie 3まで2年間で

この分野について最も印象的な点は、その傾きです。2024年2月、 Genie 1 は256×256で操作可能な2Dプラットフォーマーを生成しました。その18か月後、 Genie 3 はテキストプロンプトから、720pかつ24 FPSで移動可能な3D世界を生成していました。注目に値するのはこの軌跡です。個々のデモではなく、それらの間の変化の速度なのです。

1つの進化として読むと、物語はこうなります。Genie 1（DeepMind、ICML 2024）は、ラベルなしの動画からインタラクティブな環境を学習できることを証明しました。GameNGen（Google、ICLR 2025）は、同じアイデアが実在する高速なゲーム（DOOM）をリアルタイムで動かせることを示しました。Oasis（Decart、2024年10月）はそれをMinecraftに持ち込み、誰でもプレイできるようにしました。Genie 2（DeepMind、2024年12月）は、1枚の画像から生成される3D世界へと飛躍しました。 DIAMOND （NeurIPS 2024）は、このアプローチをオープンソース化し、コンシューマー向けGPUで動かせるようにしました。 GameGen-X と MineWorld （Microsoft、2025）は、オープンなエコシステムをさらに前進させました。Genie 3（2025年8月。2026年1月にProject Genieとして一般公開）は、テキストからのリアルタイム3Dに到達しました。 Matrix-Game 2.0 は、オープンソースのリアルタイムストリーミング生成を25 FPSまで押し上げ、 Matrix-Game 3.0 は、長い時間軸の記憶アーキテクチャによって、記憶の問題により直接的に挑みました。

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

主要なシステムの仕様は下の表にあります。物語の要点は数字ではなく、その弧にあります。

システム	開発元	年	アプローチ	解像度 / FPS	オープンソース？	出典
Genie 1	Google DeepMind	2024	潜在アクション	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion（Forcing）	360p / 20 FPS	一部（500M ckpt）	Project
Oasis 3	Decart	2026	フィジカルAI向けのAPIアクセス可能なインタラクティブ世界モデル	リアルタイムAPIプレビュー	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	自己回帰型潜在拡散	該当なし	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	あり（MIT）	arXiv
GameGen-X	学術機関	2024	Diffusion transformer	該当なし	あり	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	あり	arXiv
Genie 3	Google DeepMind	2025	汎用リアルタイム世界モデル	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	数ステップの自己回帰型拡散	単一のH100で25 FPS	あり	Project
Matrix-Game 3.0	Skywork AI	2026	記憶を強化したインタラクティブ世界モデル	5B modelで720pにて最大40 FPS	あり	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

なぜこれらの世界は崩れていくのか

これらのシステムは依然として4つの重要な点で破綻しますが、その失敗モードは単に「計算資源が足りない」というだけではありません。GPUを増やせば解像度、レイテンシ、モデル規模は改善できますが、製品グレードの一貫性には、より優れた記憶、状態追跡、制御アーキテクチャが必要です。もっともらしいフレームを予測するモデルは、明示的なルール、検査可能な変数、決定論的な状態更新、セーブ/ロードのセマンティクスを備えたエンジンとは別物です。以下の各制約は、モデルがまだ十分に上達していないことではなく、 構造的にできないことを表しています。

永続的な世界状態が存在しない

これらのシステムは、従来型エンジンのようなかたちで変数を公開しません。通常のエンジンは世界をデータとして保持します。この宝箱は開いている、この敵は死んでいる、プレイヤーは座標(412, 88)にいる、というように。初期の次フレーム予測システムには、ゲーム開発の意味での耐久性のあるエンジン状態がありません。モデルはおおむね直近の視覚的コンテキストと学習された事前分布に依存するため、オブジェクトは視野から外れると、変化したり、消えたり、誤った形で再出現したりします。新しいシステムは明示的な記憶と一貫性の仕組みを追加していますが、それでも、従来型エンジンが開発者に与えるような、クリーンでデバッグ可能な世界状態は公開しません。

より弱い、あるいは初期の次フレーム予測システムでは、開けた宝箱が閉じた状態で再出現したり、倒したモンスターが歩いて戻ってきたり、自分で建てた構造物が画面から外れると溶けて消えたりします。プレイヤーたちは当初のOasisデモを「夢の論理」を持つものと評しました。振り向くと、まったく同じ場所には戻れないかもしれないのです。新しいシステムは、より強い記憶と一貫性の仕組みでその問題を減らそうとしていますが、ギャップは残ります。それらは依然として、従来型の検査可能なゲーム状態の層を公開しないのです。

コンテキストウィンドウの天井

一貫性は、単なる生の視覚品質ではなく、モデルの記憶設計によって制約されます。GameNGenは短い直接的なフレーム履歴を用いますが、それでも学習された修正によって、数分間にわたる安定したプレイセッションを報告しています。Genie 2は目に見える長い時間軸の記憶の例を導入し、最長で1分間の一貫性を維持しました。ただし、ほとんどの例は10-20 secondでした。Genie 3は連続的な操作を数分間まで押し広げ、Matrix-Game 3.0は長い時間軸の記憶でこの問題に直接挑んでいます。未解決の問題は「モデルは数秒より長く持続できるか？」ではありません。実在するゲームの長さと複雑さに耐えうる、信頼でき、検査可能で、保存可能な世界状態を保持できるかどうかなのです。

確率的であり、決定論的ではない

出力はデフォルトで確率的です。同じセットアップを2回実行しても、システムを強く制約しない限り、異なるフレームが得られることがあります。アートツールにとっては、それが役立つこともあります。一方、多くの製品版ゲームにとっては問題です。マルチプレイ、対戦バランス、リプレイ、スキル進行、セーブ/ロードはすべて、信頼できる状態遷移に依存しています。世界モデルはより再現性の高いものにできますが、製品版ゲームには依然として、プレイヤーと開発者が期待する挙動を保証するための決定論的なロジック層、あるいは状態システムが必要になります。

これはゲームか、それともキーボード付きの動画予測か？

最も鋭い批判は、これらのシステムが従来型ゲームエンジンの意味で世界をシミュレートしているのではなく、もっともらしい視覚的な続きを生成し、あなたにそれを操舵させているにすぎない、というものです。ゲームエンジンはルールをエンコードします。世界モデルはもっともらしさをエンコードします。 GameNGenのHacker Newsスレッドのあるコメント投稿者はそれを「世界で最も効率の悪い動画圧縮」と呼びました。挑発として、それは的を射ています。モデルは事実上、ゲームプレイ映像にわたる分布を記憶しており、あなたの入力に応じてその中を補間しているのです。これについてはきれいなテストがあります。下の囲みをご覧ください。

「静止しているときのドリフト」という兆候。 もし世界モデルが本当に世界を計算しているなら、静止したプレイヤーは安定した画像をもたらすはずです。何も変化していないのだから、何も変わるべきではありません。より弱い、あるいは初期の次フレーム予測システムでは、静止していてさえドリフトが現れることがあります。固定された検査可能な世界状態からレンダリングしているのではなく、次のもっともらしいフレームを予測しているため、細部がわずかにずれるのです。それが兆候です。シーンはしばらく安定して見えるかもしれませんが、システムは依然として、従来型エンジンから連続性を読み取っているのではなく、それを生成しているのです。

重要なポイント: 決定論性と永続性の限界はアーキテクチャ上の問題であり、生のスケーリングだけで解決される類のものではありません。信頼でき、再現可能で、保存可能な世界を必要とするどんなシステムも、依然として、決定論的なロジック層、明示的な記憶/状態システム、あるいはハイブリッドなエンジン設計を必要とします。現在のフレーム生成アプローチが、それ単独で提供できないものです。

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

実際の運用コスト

リアルタイム生成は高価であり、見出しの数字は多くを覆い隠しています。GameNGenの「単一のTPU」は安く聞こえますが、それが320×240でDOOMをシミュレートしているのであって、現代の高解像度ゲームではないことを思い出すと、そうではありません。当初のOasisデモはH100クラスのインフラ上でリアルタイムに動いており、Decartのより新しいOasis 3は、その経済性をより具体的にしています。DecartはOasis 3を、フィジカルAI向けのAPIアクセス可能なインタラクティブ世界モデルとして位置づけており、 TechCrunchはプレビューアクセスの価格を報じています。1秒あたり$0.02、すなわち60秒のセッションで$1.20です。これはテスト、シミュレーション、研究ワークフローには有用ですが、それでも通常のゲームクライアントを出荷するのとは、まったく異なるコストモデルです。

規模感を示すと、リアルタイムの世界生成は依然として高価ですが、ハードウェアの状況は急速に動いています。一部のオープンな研究システムは、いまや単一のH100クラスGPU上でリアルタイム、あるいはほぼリアルタイムの生成を報告しています。一方、最先端の消費者向けシステムは依然としてクラウドホスト型で、多くの場合は非公開のままです。確かな点は「1台のGPUでは決してできない」ということではありません。製品品質で、低レイテンシかつ高解像度の世界生成が、依然として深刻なインフラ上の課題であるということです。

反論として挙げられるのは、その下限が急速に下がっており、オープンソースの層が現実のものだという点です。DIAMONDは単一のRTX 4090でおよそ12日間訓練され、その公式プロジェクトページによると、RTX 3090上でおよそ10 FPSでプレイできます。MineWorldとMatrix-Gameは誰でも実行可能です。つまり、最も印象的なデモは依然として専用の高価なインフラに依存している一方で、好奇心のある開発者は、すでに手の届くハードウェア上で本物の世界モデル実験をいくつか実行できるのです。両方が同時に真実です。最先端品質のインタラクションは高くつき、そして実験のための入り口はすでに現実のものになっています。

では、AIはUnityとUnrealに取って代わるのか？

短期的には取って代わりません。その理由は投資の不足ではなく、上述の限界です。市場はこれを真剣に受け止めました。 Googleは2026年1月29日に米国のGoogle AI Ultra加入者向けにProject Genieを展開し、その翌日、いくつかのゲーム関連株が急落しました。 The Vergeは、Unityが24.22%安、Robloxが13.17%安、Take-Twoが7.93%安と報じました。金曜の引け値での話です。この不安は業界内部にも表れました。 GDCの2026年調査では、52%のゲーム専門家が、生成AIはゲームに対して負の影響を与えていると見ており、これは前年の30%から上昇しています。とはいえ、株価の動きや調査での不安は、1つのデモへの反応です。実際のタイムラインを決めるのはアーキテクチャです。

現状の軌跡を読むと、これは私の見立てであって確定した予測ではありませんが、今後1-3年は、世界モデルを完全な商用ゲームよりも、研究プロトタイプ、シミュレーションインフラ、ロボティクス/フィジカルAIの訓練、限定的な消費者向けデモにとどめるでしょう。もっともらしい3-7yearの道筋は、置き換えではなくハイブリッドです。視覚生成を担う世界モデルが、実際のゲームロジックを保持する軽量な決定論的状態機械の上に乗る、というかたちです。それは拡張であって置き換えではありません。軌跡は十分に急（およそ1年で320pのDOOMから、テキストからの720pへ）であり、自信たっぷりな長期予測は賢明ではないので、私はそれをしません。

問い全体の枠組みを変えるディテールはこれです。DeepMindは世界モデルをエージェントの訓練とAGI研究に結びつける一方で、Project Genieは同じ技術を消費者向けの世界創造プロトタイプとして示しています。DecartのOasis 3は、ロボティクス、自動運転車、フィジカルAIのシミュレーションへとさらに明確に照準を合わせています。消費者向けゲームはこの物語にとって重要ですが、短期的な商業的牽引力は、まずシミュレーション、訓練、プロトタイピングから来るかもしれません。

よくある質問

世界モデルとゲームエンジンの違いは何ですか？

ゲームエンジンは明示的なルールをエンコードし、ゲーム状態をデータとして保持します。決定論的で、検査可能で、デバッグ可能です。GameNGenのような世界モデルは、直近のフレームとあなたの入力から、もっともらしい次のフレームを予測します。開発者が通常検査・制御する、従来型エンジン流の状態、ルール、オブジェクト変数を持たずに、です。エンジンは世界を計算します。世界モデルはそれを推測します。だからこそ、一方は再現可能で、もう一方はそうではないのです。

GameNGenはどのように動くのですか？

GameNGenは3つの大きなステップでDOOMを動かします。第一に、強化学習エージェントが何千ものDOOMセッションをプレイし、アクションと対になったフレームとして記録されます。第二に、改変されたStable Diffusion v1.4が、過去のフレームとプレイヤーの入力を条件として次のフレームを予測することを学習します。第三に、推論が4回のノイズ除去ステップに削減され、320×240で単一のTPU上でおよそ20 FPSを生み出します。

Oasisで振り向くたびに世界が変わり続けるのはなぜですか？

当初のMinecraftのようなOasisデモでは、システムが従来型のエンジン流の世界状態を保持していなかったため、振り向くと世界が変わることがありました。直近の視覚的コンテキストと学習された事前分布から次の視界を生成していたので、視野外のオブジェクトが変化した形で戻ってくることがあったのです。新しいシステムはより強い記憶と一貫性の仕組みを追加していますが、当初のあの「夢の論理」こそが、まさにこの制約を気づきやすいものにしていました。

AIが生成したゲーム世界は、ドリフトするまでどれくらい一貫性を保てますか？

それはモデルによります。初期のシステムは数秒から数十秒のうちにドリフトすることが多いですが、新しいシステムはその時間軸を伸ばしています。GameNGenが直接持つコンテキストは3秒を少し超える程度ですが、学習されたヒューリスティクスによって、より長いゲームプレイにわたって安定した状態を保てます。Genie 2はおおむね10-20 secondの例を示し、場合によっては最長で1分間でした。Genie 3はその主張を720p/24fpsで数分間まで引き上げ、Matrix-Game 3.0は1分単位の記憶の一貫性を報告しています。未解決の問題は短いクリップではありません。耐久性があり、検査可能で、保存可能な世界状態なのです。

AIはUnityやUnrealのようなゲームエンジンに取って代わりますか？

短期的には取って代わりません。障壁は純粋な規模の問題というより、アーキテクチャ上のものです。製品版ゲームには、永続的な状態、信頼できるロジック、決定論的な挙動、セーブ/ロードのセマンティクスが必要です。スケーリングは品質と一貫性には役立ちますが、それ自体が従来型のゲームループを生み出すわけではありません。もっともらしい道筋はハイブリッドです。視覚を生成する世界モデルが、ゲームロジックを担う決定論的エンジンの上に乗る、というかたちで、これは置き換えではなく拡張です。DeepMindは世界モデルを、エージェントの訓練とAGI研究にとって重要なものとして提示する一方で、Project Genieもまた、その技術を消費者向けの世界創造プロトタイプとして可視化しています。DecartのOasis 3は、ロボティクス、自動運転車、フィジカルAIのシミュレーションへ明確に照準を合わせたモデルの、よりわかりやすい例です。

これらのAI生成ゲームを、今すぐプレイできますか？

はい、いくつかは。Decartの当初のOasisには、誰でも遊べるMinecraftのようなウェブデモがあり、その新しいOasis 3 Previewは、いまやリアルタイムの世界モデル実験のためにAPIアクセス可能です。GoogleのProject Genieも、2026年1月に米国のGoogle AI Ultra加入者向けに利用できるようになりました。オープンソースの層については、DIAMONDとMineWorldがダウンロードしてコンシューマー向けGPU上で実行でき、DIAMONDはRTX 3090上でおよそ10 FPSと報告されています。

ゲームエンジンのないゲーム：AIモデルはどうやってプレイ可能な世界を生成するのか