AI는 게임 엔진 없이 어떻게 게임을 생성하는가 (GameNGen, Genie 3)

2024년, Google Research와 Google DeepMind 팀은 신경망 모델이 그 아래에서 원래 게임 엔진을 돌리지 않고도 초당 20프레임 이상으로 플레이 가능한 DOOM을 시뮬레이션할 수 있음을 보여주었습니다. 좌표, 물리 객체, 체력 변수, 맵 상태를 통상적인 방식으로 명시적으로 저장하는 기존의 엔진 루프는 없었습니다. 대신 GameNGen은 최근 프레임과 플레이어 입력으로부터 다음 프레임을 추론하는 법을 학습했는데, 여기에는 체력, 탄약, 적, 문, 벽 같은 시각적 단서가 포함됩니다. GameNGen이라 불리는 이 시스템은 Stable Diffusion(텍스트로부터 이미지를 생성하는 것과 같은 종류의 모델)을 수정한 버전으로, 이전 프레임에 방금 누른 키를 더해 다음 프레임을 환각(hallucinate)하는 방식으로 DOOM을 플레이합니다.

이것은 "게임 엔진 안의 AI"와는 근본적으로 다른 것입니다. 스튜디오가 Unity에서 텍스처를 생성하거나 NPC 대사를 작성하는 데 AI를 사용할 때도 엔진은 여전히 거기 있으면서 실제 작업을 수행합니다. GameNGen에는 엔진이 없습니다. 모델이 is 곧 게임입니다. 그리고 이것은 헤드라인들이 계속 잘못 짚고 있는 진짜 프런티어의 시작입니다. GameNGen은 ICLR 연구 트랙을 통해 발표되었고, DIAMOND는 NeurIPS 2024를 통해 나왔으며, Google DeepMind, Microsoft Research, Decart, Skywork AI 같은 기업들은 이제 이 아이디어를 논문에서 데모, API, 오픈소스 시스템으로 밀어붙이고 있습니다.

이 글에서는 이런 시스템이 실제로 무엇을 하는지, 다음 프레임 예측이 어떻게 작동하는지, 더 긴 상호작용에서 일관성과 기억이 여전히 무너지는 이유는 무엇인지, 운영 비용은 얼마인지, 그리고 이것이 Unity를 대체하러 오고 있는지를 다룹니다. 마지막 질문에 대한 짧은 답은 아니요입니다. 적어도 과대광고가 암시하는 방식으로는 아닙니다. 그 이유는 구조적입니다. 연산량을 늘리면 도움은 되지만, 그것만으로 지속적 상태, 결정론적 로직, 디버깅 가능한 게임 루프가 만들어지지는 않습니다.

요약

이 모델들은 프레임을 예측할 뿐, 규칙을 시뮬레이션하지 않습니다. 게임 엔진은 로직과 저장된 변수로부터 다음 상태를 계산합니다. GameNGen이나 Oasis 같은 월드 모델은 이전 프레임에 당신의 입력을 더해 다음 이미지를 추측합니다. 명시적인 객체 상태, 물리 코드, 들여다볼 수 있는 변수를 갖춘 전통적인 게임 엔진 시뮬레이션을 돌리는 것이 아니라, 학습된 모델을 통해 다음 관측값을 생성하는 것입니다.
이들의 일관성은 여전히 기억과 컨텍스트에 의해 제한되지만, 그 한계는 더 이상 "몇 초 후면 모든 것이 무너진다"처럼 단순하지 않습니다. GameNGen은 직접적인 프레임 기록이 3초가 조금 넘는 정도지만 학습된 휴리스틱을 통해 더 긴 궤적에서도 시각적으로 안정적일 수 있습니다. Genie 2는 보통 10-20 second 길이의 예시를 보여주었고 때로는 시야 밖 세부 사항을 보존할 수 있었으며, Genie 3는 일관성을 720p/24fps에서 몇 분까지 끌어올립니다. 핵심적인 약점은 여전합니다. 이 시스템들은 운영 게임이 의존하는 지속적이고 들여다볼 수 있으며 저장 가능한 상태를 아직 제공하지 못합니다.
이들은 운영 게임에 필요한 방식으로는 본질적으로 결정론적이지 않습니다. 샘플링을 제약하거나 시드를 고정할 수는 있지만, 그래도 일반 엔진의 깔끔하고 들여다볼 수 있는 상태 업데이트는 얻을 수 없습니다. 멀티플레이, 경쟁 밸런스, 리플레이, 스킬 진행, 세이브/로드는 모두 신뢰할 수 있는 상태 전이에 의존합니다. 프레임 생성기는 그 동작을 근사할 수 있지만, 운영 게임은 그 아래나 옆에 결정론적 로직 계층이 여전히 필요합니다.
DeepMind는 월드 모델을 풍부한 시뮬레이션 환경에서 AI 에이전트를 훈련하고 평가하기 위한 토대로 규정하며, 한편 Project Genie는 같은 기술을 소비자 대상 월드 생성 프로토타입으로 보여줍니다. Decart의 최신 Oasis 3는 물리적 AI, 로보틱스, 자율주행 차량 시뮬레이션을 한층 더 명확하게 겨냥합니다. 이는 "이것이 Unity를 대체하러 오는가?"라는 질문을 다시 짚게 만듭니다. 가장 진지한 단기 시장은 완성된 소비자 게임이 아니라 에이전트 훈련과 시뮬레이션일 수 있습니다.

이 글이 다루지 않는 것

같은 대화로 끌려 들어오지만 여기에 속하지 않는 인접 주제가 몇 가지 있습니다:

DLSS, FSR, 업스케일링, 프레임 생성. 이들은 AI가 개별 단계 of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
상세한 강화학습 방법론은 훈련 데이터를 수집하는 데 사용됩니다. 개념적 수준에서 설명하겠으며, 전체 레시피는 논문에 있습니다.
게임 서버 호스팅 및 인프라 설정. 이것은 모델이 어떻게 작동하는지에 대한 설명서이지, 배포 가이드가 아닙니다.

사람들이 "AI 게임 엔진"으로 의미하는 것 (그리고 이 글이 다루는 것)

"AI 게임 엔진"이라는 표현은 완전히 다른 세 가지에 붙으며, 이 주제에 대한 혼란의 대부분은 그것들을 한데 뭉뚱그리는 데서 옵니다. 이 글은 그중 정확히 하나에 관한 것입니다. 모든 프레임을 예측하고 엔진을 통째로 대체하는 모델 말입니다. 전통적인 엔진에 덧붙인 AI 도구도 아니고, 이후 엔진에 로드할 3D 환경을 만드는 도구도 아닙니다.

쉽게 풀어보면 세 가지 의미는 다음과 같습니다:

전통적인 엔진 안의 AI 도구. 에셋 생성, 텍스처 합성, NPC 행동 트리, 대사 작성: 모두 Unity나 Unreal 안에서 돌아갑니다. 엔진은 여전히 프레임을 렌더링하고, 물리를 돌리고, 상태를 보유합니다. AI는 콘텐츠 파이프라인의 보조자입니다. "AI 게임 엔진"에 대한 대부분의 검색 결과가 실제로 다루는 것이 바로 이것이며, 이 글의 주제는 아닙니다 .
저작형 3D 공간 생성기. Fei-Fei Li가 공동 창업한 World Labs는 Marble을 제공합니다. 텍스트, 이미지, 비디오 또는 기타 입력으로부터 지속적이고 다운로드 가능한 3D 환경을 만드는 도구입니다. 결정적으로, Marble은 공간 콘텐츠 생성 도구에 더 가깝습니다. 이동하고, 편집하고, 다운로드하거나 후속 워크플로로 내보낼 수 있는 지속적 3D 세계를 생성합니다. 이 점이 플레이 경험 자체가 프레임 단위 생성으로 실시간 산출되는 GameNGen, Oasis, Genie 계열 시스템과 다른 점입니다.
엔진을 대체하는 월드 모델. GameNGen, Oasis, Genie 패밀리, DIAMOND, MineWorld, Matrix-Game. 이들은 일반적인 저작 장면을 Unity나 Unreal에 로드하는 대신 플레이 가능한 관측값을 직접 생성합니다. 일부 최신 시스템은 기억과 일관성 메커니즘을 추가하지만, 여전히 전통적 게임 엔진의 지속적이고 들여다볼 수 있으며 개발자가 제어하는 상태 모델을 노출하지 못합니다. 이것이 여기서 다루는 주제입니다.

당신이 읽는 어떤 글에든 적용할 빠른 판단 규칙: 시스템이 Unity에 로드하는 파일을 산출한다면 그것은 범주 1 또는 2입니다. 만약 시스템 is 자체가 당신이 플레이하는 대상이고 프레임이 실시간으로 생성된다면, 그것은 범주 3, 즉 월드 모델입니다.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

모델이 엔진 없이 게임을 생성하는 방법

월드 모델은 움직이는 게임이 어떻게 보이는지 학습한 다음, 최근 프레임에 플레이어의 현재 입력을 조건으로 더해 다음 프레임을 예측합니다. 전통적 엔진과 달리, "문이 열려 있다", "이 적은 죽었다", "플레이어는 좌표 X에 있다" 같은 깔끔한 변수를 노출하지 않습니다. 초기 프레임 예측 시스템에서 모델은 대체로 특정 시각적 상태가 특정 입력 뒤에 따라오는 경향이 있다는 것을 학습합니다. 플레이란 그 학습된 예측 루프를 인터랙티브하게 느껴질 만큼 빠르게 돌리는 것뿐입니다.

GameNGen은 가장 명료하게 풀어낸 사례입니다. 왜냐하면 논문 이 모든 단계를 펼쳐 보여주기 때문입니다. 파이프라인은 두 단계로 진행됩니다. 먼저, 강화학습 에이전트가 DOOM을 수천 세션 플레이하고, 모든 세션은 그 프레임을 만들어낸 행동과 짝지어진 프레임 스트림으로 기록됩니다. 둘째, 수정된 Stable Diffusion v1.4가 그 데이터로 훈련되어 이전 프레임 와 플레이어의 행동이 주어졌을 때 다음 프레임을 예측합니다. 행동은 조건화에 직접 구워 넣어지며, 그것이 이것을 단순한 비디오 생성기가 아닌 게임으로 만드는 비결입니다. 당신의 키 입력은 다음 이미지를 위한 프롬프트의 일부입니다.

어려운 부분은 속도입니다. 일반적인 디퓨전 모델은 노이즈를 이미지로 바꾸기 위해 20~50번의 디노이징 단계를 돌리는데, 이는 실시간 플레이에는 너무 느립니다. GameNGen은 이를 4번의 디노이징 단계로 줄여, 전체 추론을 프레임당 약 50밀리초로 가져옵니다. 즉 DOOM의 네이티브 320×240 해상도에서 단일 TPU로 20 FPS를 낼 만큼 빠릅니다. 사람 평가자들은 시뮬레이션의 짧은 클립을 실제 DOOM 영상과 구별하는 데 우연보다 약간 나은 정도밖에 하지 못했습니다.

이 분야의 대부분 시스템은 서로 겹치는 구조적 패턴으로 나뉩니다:

디퓨전 기반 시스템 (GameNGen, Oasis, DIAMOND, Genie 2): 노이즈에서 시작해 반복적으로 디노이징하여 다음 프레임을 만듭니다. 강한 단기 시각 품질을 낼 수 있지만, 인터랙티브하게 돌리려면 속도 트릭이 필요합니다.
자기회귀(Autoregressive) 시스템 (MineWorld): 미래 프레임이나 토큰을 순차적으로 예측하며, 언어 모델이 텍스트를 예측하는 방식에 더 가깝습니다. MineWorld는 프레임 레이트를 양보하는 대신 더 긴밀한 행동 추종을 얻어 약 4-7 FPS에 안착합니다.
기억 및 제어 보강 하이브리드 (Matrix-Game 2.0/3.0 및 최신 시스템): 실시간 생성을 행동 조건화, 카메라 제어, 명시적 기억 메커니즘과 결합하여 장기 드리프트를 줄입니다.

다음 섹션을 위해 한 가지 세부 사항이 중요합니다. 훈련 중에 GameNGen은 조건으로 삼는 과거 프레임에 의도적으로 노이즈를 추가합니다. 이는 모델이 오류를 누적시키는 대신 자신의 오류를 스스로 교정하도록 학습하게 만들며, 드리프트 문제에 대한 완화책입니다. 도움은 됩니다. 그러나 해결하지는 못합니다.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

계보: 2년 만에 Genie 1에서 Genie 3까지

이 분야에서 가장 두드러진 한 가지는 기울기입니다. 2024년 2월, Genie 1 은 256×256에서 제어 가능한 2D 플랫포머를 생성했습니다. 18개월 후, Genie 3 는 텍스트 프롬프트로부터 720p, 24 FPS에서 탐색 가능한 3D 세계를 생성하고 있었습니다. 주목할 만한 궤적은 바로 그것입니다. 어떤 단일 데모가 아니라, 그것들 사이의 변화 속도 말입니다.

하나의 진행으로 읽으면 이야기는 이렇습니다. Genie 1 (DeepMind, ICML 2024)은 라벨 없는 비디오로부터 인터랙티브 환경을 학습할 수 있음을 입증했습니다. GameNGen (Google, ICLR 2025)은 같은 아이디어가 실제로 빠른 게임(DOOM)을 실시간으로 돌릴 수 있음을 보여주었습니다. Oasis (Decart, 2024년 10월)는 그것을 Minecraft로 가져와 공개적으로 플레이할 수 있게 만들었습니다. Genie 2 (DeepMind, 2024년 12월)는 단일 이미지로부터 생성되는 3D 세계로 도약했습니다. DIAMOND (NeurIPS 2024)는 이 접근법을 오픈소스로 만들고 소비자용 GPU에서 실행 가능하게 했습니다. GameGen-X 와 MineWorld (Microsoft, 2025)는 오픈 생태계를 한층 더 밀어붙였습니다. Genie 3 (2025년 8월; 2026년 1월 Project Genie로 공개)는 텍스트로부터 실시간 3D에 도달했습니다. Matrix-Game 2.0 은 오픈소스 실시간 스트리밍 생성을 25 FPS까지 밀어붙였고, Matrix-Game 3.0 은 장기 기억 아키텍처로 기억 문제를 더 직접적으로 공략했습니다.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

주요 시스템의 사양은 아래 표에 있습니다. 서사의 요점은 숫자가 아니라 그 호(arc)입니다.

System	Developer	연도	접근법	해상도 / FPS	오픈소스 여부	출처
Genie 1	Google DeepMind	2024	Latent action	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	부분 (500M ckpt)	Project
Oasis 3	Decart	2026	물리적 AI를 위한 API 접근 가능 인터랙티브 월드 모델	실시간 API 프리뷰	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	자기회귀 잠재 디퓨전	해당 없음	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	예 (MIT)	arXiv
GameGen-X	학계	2024	Diffusion transformer	해당 없음	예	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	예	arXiv
Genie 3	Google DeepMind	2025	범용 실시간 월드 모델	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	소수 단계 자기회귀 디퓨전	단일 H100에서 25 FPS	예	Project
Matrix-Game 3.0	Skywork AI	2026	기억 보강 인터랙티브 월드 모델	5B model로 720p에서 최대 40 FPS	예	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

이 세계들이 무너지는 이유

이 시스템들은 여전히 네 가지 중요한 방식으로 무너지지만, 그 실패 양상은 단순히 "연산량이 부족하다"가 아닙니다. GPU를 더 쓰면 해상도, 지연 시간, 모델 규모는 개선될 수 있지만, 운영급 일관성에는 더 나은 기억, 상태 추적, 제어 아키텍처가 필요합니다. 그럴듯한 프레임을 예측하는 모델은 명시적 규칙, 들여다볼 수 있는 변수, 결정론적 상태 업데이트, 세이브/로드 의미론을 갖춘 엔진과 같은 것이 아닙니다. 아래의 각 한계는 모델이 구조적으로 할 수 없는 것이지, 아직 충분히 잘하지 못하는 것이 아닙니다.

지속적인 월드 상태 없음

이 시스템들은 전통적 엔진이 하는 방식으로 변수를 노출하지 않습니다. 일반 엔진은 세계를 데이터로 저장합니다. 이 상자는 열려 있고, 이 적은 죽었으며, 플레이어는 좌표 (412, 88)에 있다는 식입니다. 초기 프레임 예측 시스템에는 게임 개발의 그런 의미에서의 지속적인 엔진 상태가 없습니다. 모델은 대체로 최근 시각적 컨텍스트와 학습된 사전 지식에 의존하므로, 객체가 시야를 벗어나면 변하거나, 사라지거나, 잘못된 형태로 다시 나타날 수 있습니다. 최신 시스템은 명시적 기억과 일관성 메커니즘을 추가하고 있지만, 여전히 전통적 엔진이 개발자에게 제공하는 종류의 깔끔하고 디버깅 가능한 월드 상태를 노출하지 못합니다.

더 약하거나 초기의 프레임 예측 시스템에서는, 당신이 연 상자가 닫힌 채 다시 나타날 수 있고, 죽인 괴물이 다시 걸어 들어올 수 있으며, 지은 구조물이 화면을 벗어나면 녹아 사라질 수 있습니다. 플레이어들은 원래 Oasis 데모를 "꿈의 논리(dream logic)"를 가졌다고 표현했습니다. 돌아서면, 정확히 같은 장소로 돌아오지 못할 수 있다는 것입니다. 최신 시스템은 더 강한 기억과 일관성 메커니즘으로 그 문제를 줄이려 하지만, 간극은 여전합니다. 그들은 여전히 전통적이고 들여다볼 수 있는 게임 상태 계층을 노출하지 못합니다.

컨텍스트 윈도우 천장

일관성은 단순히 순수한 시각 품질이 아니라 모델의 기억 설계에 의해 제한됩니다. GameNGen은 짧은 직접 프레임 기록을 사용하지만 학습된 교정을 통해 여전히 안정적인 수 분 길이의 플레이 세션을 보고합니다. Genie 2는 눈에 보이는 장기 기억 예시를 도입했고 최대 1분까지 일관성을 유지했으며, 대부분의 예시는 10-20 second 길이였습니다. Genie 3는 연속 상호작용을 몇 분까지 밀어붙이고, Matrix-Game 3.0은 장기 기억으로 그 문제를 직접 공략합니다. 풀리지 않은 문제는 "모델이 몇 초 이상 버틸 수 있는가?"가 아닙니다. 실제 게임의 길이와 복잡성에 걸쳐 신뢰할 수 있고 들여다볼 수 있으며 저장 가능한 월드 상태를 보존할 수 있는가입니다.

확률적, 결정론적이지 않음

출력은 기본적으로 확률적입니다. 같은 설정을 두 번 돌리면, 시스템을 강하게 제약하지 않는 한 다른 프레임이 나올 수 있습니다. 아트 도구에는 그것이 유용할 수 있지만, 많은 운영 게임에는 문제입니다. 멀티플레이, 경쟁 밸런스, 리플레이, 스킬 진행, 세이브/로드는 모두 신뢰할 수 있는 상태 전이에 의존합니다. 월드 모델은 더 반복 가능하게 만들 수 있지만, 운영 게임은 플레이어와 개발자가 기대하는 동작을 보장하기 위해 여전히 결정론적 로직 계층이나 상태 시스템이 필요합니다.

게임인가, 아니면 키보드 달린 비디오 예측인가?

가장 날카로운 비판은 이 시스템들이 전통적 게임 엔진의 의미에서 세계를 시뮬레이션하는 것이 아니라, 그럴듯한 시각적 연속을 생성하고 당신이 그것을 조종하게 한다는 것입니다. 게임 엔진은 규칙을 인코딩하고, 월드 모델은 그럴듯함을 인코딩합니다. GameNGen Hacker News 스레드 의 한 댓글 작성자는 그것을 "세상에서 가장 비효율적인 비디오 압축"이라고 불렀는데, 도발로서 이는 통합니다. 모델은 사실상 게임플레이 영상에 대한 분포를 암기했고 당신의 입력에 반응해 그 사이를 보간하고 있는 것입니다. 이에 대한 깔끔한 테스트가 아래 콜아웃에 있습니다.

"가만히 서 있을 때의 드리프트"라는 단서. 월드 모델이 정말로 세계를 계산하고 있다면, 움직이지 않는 플레이어는 안정적인 이미지를 내놓아야 합니다. 아무것도 변하지 않으므로 아무것도 변하면 안 됩니다. 더 약하거나 초기의 프레임 예측 시스템에서는, 가만히 서 있어도 드리프트가 드러날 수 있습니다. 모델이 고정되고 들여다볼 수 있는 월드 상태에서 렌더링하는 대신 다음 그럴듯한 프레임을 예측하기 때문에 작은 세부 사항이 변합니다. 그것이 바로 그 단서입니다. 장면이 한동안은 안정적으로 보일 수 있지만, 시스템은 여전히 연속성을 기존 엔진에서 읽어 오는 것이 아니라 생성하고 있는 것입니다.

핵심 요점: 결정성과 지속성의 한계는 구조적 문제이지, 순수한 스케일링만으로 저절로 해결될 문제가 아닙니다. 신뢰할 수 있고 반복 가능하며 저장 가능한 세계가 필요한 어떤 시스템이든, 현재의 프레임 생성 접근법이 자체적으로 제공하지 못하는 결정론적 로직 계층, 명시적 기억/상태 시스템, 또는 하이브리드 엔진 설계가 여전히 필요합니다.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

실제 운영 비용은 얼마인가

실시간 생성은 비쌉니다. 그리고 헤드라인 숫자는 많은 것을 감춥니다. GameNGen의 "단일 TPU"는 그것이 현대의 고해상도 게임이 아니라 320×240의 DOOM을 시뮬레이션하고 있다는 점을 떠올리기 전까지는 싸게 들립니다. 원래 Oasis 데모는 H100급 인프라에서 실시간으로 돌았고, Decart의 최신 Oasis 3는 그 경제성을 더 구체적으로 만듭니다. Decart는 Oasis 3를 물리적 AI를 위한 API 접근 가능 인터랙티브 월드 모델로 자리매김하며, TechCrunch는 프리뷰 접근 가격을 보도했습니다 초당 $0.02, 또는 60초 세션에 $1.20로 말입니다. 이는 테스트, 시뮬레이션, 연구 워크플로에는 유용하지만, 일반 게임 클라이언트를 출시하는 것과는 여전히 매우 다른 비용 모델입니다.

규모를 가늠해 보면: 실시간 월드 생성은 여전히 비싸지만, 하드웨어 그림은 빠르게 움직이고 있습니다. 일부 오픈 연구 시스템은 이제 단일 H100급 GPU에서 실시간 또는 거의 실시간 생성을 보고하고, 한편 프런티어 소비자 대상 시스템은 클라우드 호스팅 상태로 남아 있고 종종 공개되지 않습니다. 확실한 지점은 "GPU 하나로는 절대 못 한다"가 아니라, 운영 품질의 저지연 고해상도 월드 생성이 여전히 진지한 인프라 문제라는 것입니다.

반론은 바닥이 빠르게 내려가고 있고 오픈소스 계층이 실제라는 것입니다. DIAMOND는 단일 RTX 4090에서 약 12일 만에 훈련되었고, 공식 프로젝트 페이지에 따르면 RTX 3090에서 약 10 FPS로 플레이할 수 있습니다. MineWorld와 Matrix-Game은 공개적으로 실행 가능합니다. 따라서 가장 인상적인 데모들은 여전히 특화되고 비싼 인프라에 의존하지만, 호기심 많은 개발자라면 이미 접근 가능한 하드웨어에서 실제 월드 모델 실험을 일부 돌릴 수 있습니다. 두 가지가 동시에 참입니다. 프런티어 품질의 상호작용은 비싸고, 실험을 위한 진입점은 이미 실재합니다.

그렇다면 AI가 Unity와 Unreal을 대체할까?

단기적으로는 아닙니다. 그리고 그 이유는 투자 부족이 아니라 위에서 말한 한계들입니다. 시장은 이것을 진지하게 받아들였습니다. Google은 2026년 1월 29일 미국 Google AI Ultra 구독자에게 Project Genie를 출시했고, 다음 날 여러 게임 주식이 급격히 매도되었습니다: The Verge는 금요일 종가 기준 Unity 24.22% 하락, Roblox 13.17% 하락, Take-Two 7.93% 하락을 보도했습니다 . 불안감은 업계 내부에서도 나타났습니다: GDC의 2026년 설문 은 게임 전문가의 52%가 생성형 AI를 게임에 부정적 영향을 미치는 것으로 보았다고 밝혔는데, 이는 전년의 30%에서 오른 수치입니다. 하지만 주가 변동과 설문 불안은 데모에 대한 반응입니다. 실제 타임라인을 정하는 것은 아키텍처입니다.

현재 상태대로 궤적을 읽으면, 그리고 이것은 확정된 예측이 아니라 제 해석인데, 향후 1-3 years 동안 월드 모델은 완전한 상업 게임보다는 연구 프로토타입, 시뮬레이션 인프라, 로보틱스/물리적 AI 훈련, 그리고 좁은 소비자 대상 데모에 머물 가능성이 높습니다. 그럴듯한 3-7 year 경로는 대체가 아니라 하이브리드입니다. 시각 생성을 처리하는 월드 모델이 실제 게임 로직을 담은 가벼운 결정론적 상태 기계 위에 얹히는 것입니다. 그것은 증강입니다. 궤적이 충분히 가파르기 때문에(약 1년 만에 320p의 DOOM에서 텍스트로부터 720p까지) 자신만만한 장기 예측은 현명하지 못하므로, 저는 하나도 내놓지 않겠습니다.

질문 전체를 다시 짚게 만드는 세부 사항: DeepMind는 월드 모델을 에이전트 훈련 및 AGI 연구와 연결하는 반면, Project Genie는 같은 기술을 소비자 대상 월드 생성 프로토타입으로 보여줍니다. Decart의 Oasis 3는 로보틱스, 자율주행 차량, 물리적 AI 시뮬레이션을 한층 더 명확하게 겨냥합니다. 소비자 게임은 이 이야기에서 중요하지만, 단기적 상업적 견인력은 시뮬레이션, 훈련, 프로토타이핑에서 먼저 올 수 있습니다.

자주 묻는 질문

월드 모델과 게임 엔진의 차이는 무엇인가요?

게임 엔진은 명시적 규칙을 인코딩하고 게임 상태를 데이터로 저장합니다. 결정론적이고, 들여다볼 수 있으며, 디버깅 가능합니다. GameNGen 같은 월드 모델은 개발자가 보통 들여다보고 제어하는 전통적 엔진 방식의 상태, 규칙, 객체 변수 없이, 최근 프레임에 당신의 입력을 더해 그럴듯한 다음 프레임을 예측합니다. 엔진은 세계를 계산하고, 월드 모델은 그것을 추측합니다. 그래서 하나는 반복 가능하고 다른 하나는 그렇지 않습니다.

GameNGen은 어떻게 작동하나요?

GameNGen은 세 가지 큰 단계로 DOOM을 돌립니다. 먼저, 강화학습 에이전트가 수천 번의 DOOM 세션을 플레이하고, 이는 행동과 짝지어진 프레임으로 기록됩니다. 둘째, 수정된 Stable Diffusion v1.4가 과거 프레임에 플레이어의 입력을 더해 조건으로 삼아 다음 프레임을 예측하는 법을 학습합니다. 셋째, 추론은 4번의 디노이징 단계로 줄어들어 320×240에서 단일 TPU로 약 20 FPS를 산출합니다.

Oasis에서 돌아설 때 세계가 계속 바뀌는 이유는 무엇인가요?

원래의 Minecraft 같은 Oasis 데모에서는, 시스템이 전통적인 엔진 방식의 월드 상태를 보존하지 않았기 때문에 돌아설 때 세계가 바뀔 수 있었습니다. 시스템은 최근 시각적 컨텍스트와 학습된 사전 지식으로부터 다음 시야를 생성했으므로, 시야 밖 객체가 변형된 형태로 돌아올 수 있었습니다. 최신 시스템은 더 강한 기억과 일관성 메커니즘을 추가하고 있지만, 바로 그 원래의 "꿈의 논리"가 그 한계를 알아차리기 쉽게 만든 것입니다.

AI가 생성한 게임 세계는 드리프트하기 전에 얼마나 오래 일관성을 유지할 수 있나요?

모델에 따라 다릅니다. 초기 시스템은 흔히 몇 초에서 수십 초 안에 드리프트하지만, 최신 시스템은 그 지평을 늘리고 있습니다. GameNGen은 직접 컨텍스트가 3초가 조금 넘는 정도지만 학습된 휴리스틱을 통해 더 긴 게임플레이에서도 안정적일 수 있습니다. Genie 2는 대부분 10-20 second 길이의 예시를 보여주었고 일부 경우에는 최대 1분까지 갔습니다. Genie 3는 그 주장을 720p/24fps에서 몇 분까지 끌어올리고, Matrix-Game 3.0은 1분 길이의 기억 일관성을 보고합니다. 풀리지 않은 문제는 짧은 클립이 아닙니다. 지속적이고 들여다볼 수 있으며 저장 가능한 월드 상태입니다.

AI가 Unity나 Unreal 같은 게임 엔진을 대체할까요?

단기적으로는 아닙니다. 장애물은 순수한 스케일 문제라기보다 구조적입니다. 운영 게임에는 지속적 상태, 신뢰할 수 있는 로직, 결정론적 동작, 세이브/로드 의미론이 필요합니다. 스케일링은 품질과 일관성에 도움이 되지만, 그것만으로 전통적 게임 루프를 만들어내지는 않습니다. 그럴듯한 경로는 하이브리드입니다. 게임 로직을 위한 결정론적 엔진 위에서 시각을 생성하는 월드 모델 말입니다. 이는 대체라기보다 증강입니다. DeepMind는 월드 모델을 에이전트 훈련과 AGI 연구에 중요한 것으로 제시하는 한편, Project Genie는 그 기술을 소비자 대상 월드 생성 프로토타입으로도 가시화합니다. Decart의 Oasis 3는 로보틱스, 자율주행 차량, 물리적 AI 시뮬레이션을 명시적으로 겨냥한 모델의 더 깔끔한 예입니다.

지금 당장 이 AI 생성 게임들을 플레이할 수 있나요?

네, 여럿 있습니다. Decart의 원래 Oasis는 공개된 Minecraft 같은 웹 데모를 가지고 있었고, 최신 Oasis 3 Preview는 이제 실시간 월드 모델 실험을 위해 API로 접근 가능합니다. Google의 Project Genie도 2026년 1월에 미국의 Google AI Ultra 구독자에게 제공되기 시작했습니다. 오픈소스 계층으로는 DIAMOND와 MineWorld를 다운로드해 소비자용 GPU에서 실행할 수 있으며, DIAMOND는 RTX 3090에서 약 10 FPS로 보고됩니다.

게임 엔진 없는 게임: AI 모델은 어떻게 플레이 가능한 세계를 생성하는가

요약