Hoe AI games genereert zonder game-engine (GameNGen, Genie 3)

In 2024 liet een team van Google Research en Google DeepMind zien dat een neuraal model speelbaar DOOM kon simuleren met meer dan 20 frames per seconde, zonder de originele game-engine eronder te draaien. Er was geen conventionele engine-lus die op de gebruikelijke manier expliciet coördinaten, fysica-objecten, health-variabelen of map-status opsloeg. In plaats daarvan leerde GameNGen het volgende frame af te leiden uit recente frames en spelersinvoer, inclusief visuele aanwijzingen zoals health, ammo, vijanden, deuren en muren. Het systeem, GameNGen genaamd, is een aangepaste versie van Stable Diffusion (hetzelfde soort model dat afbeeldingen uit tekst genereert), en het speelt DOOM door elk volgend frame te hallucineren uit de vorige frames plus de toets die je net hebt ingedrukt.

Dat is iets fundamenteel anders dan "AI binnen een game-engine". Wanneer een studio AI gebruikt om textures te genereren of NPC-dialogen te schrijven in Unity, doet de engine nog steeds het echte werk. GameNGen heeft geen engine. Het model is de game. En het is het begin van een echte grens die de krantenkoppen telkens verkeerd uitleggen. GameNGen verscheen via de ICLR-onderzoekstrack, DIAMOND kwam via NeurIPS 2024, en bedrijven als Google DeepMind, Microsoft Research, Decart en Skywork AI brengen het idee nu van papers naar demo's, API's en open-source systemen.

Hier is wat deze systemen daadwerkelijk doen, hoe voorspelling van het volgende frame werkt, waarom samenhang en geheugen bij langere interactie nog steeds afbrokkelen, wat ze kosten om te draaien, en of ze Unity komen verdringen. Het korte antwoord op die laatste vraag is nee, althans niet op de manier die de hype suggereert. De reden is architectonisch: meer rekenkracht helpt, maar creëert op zichzelf geen persistente status, deterministische logica of een debugbare game-lus.

De korte versie

Deze modellen voorspellen frames; ze simuleren geen regels. Een game-engine berekent de volgende status uit logica en opgeslagen variabelen. Een wereldmodel zoals GameNGen of Oasis raadt de volgende afbeelding uit eerdere frames plus jouw invoer. Het draait geen traditionele game-engine-simulatie met expliciete objectstatus, fysica-code en inspecteerbare variabelen; het genereert de volgende observatie via een aangeleerd model.
Hun samenhang wordt nog steeds begrensd door geheugen en context, maar de grens is niet langer zo simpel als "alles valt na een paar seconden uit elkaar". GameNGen heeft iets meer dan 3 seconden directe framegeschiedenis en kan toch visueel stabiel blijven over langere trajecten via aangeleerde heuristieken. Genie 2 toonde meestal voorbeelden van 10-20 seconden en kon soms details buiten beeld behouden, terwijl Genie 3 de consistentie opvoert tot enkele minuten op 720p/24fps. De kernzwakte blijft: deze systemen bieden nog geen duurzame, inspecteerbare, opslaanbare status waar productiegames op steunen.
Ze zijn niet van nature deterministisch op de manier die productiegames nodig hebben. Je kunt sampling beperken of seeds vastzetten, maar dat geeft je nog steeds niet de schone, inspecteerbare statusupdates van een normale engine. Multiplayer, competitieve balans, replays, vaardigheidsprogressie en save/load steunen allemaal op betrouwbare statusovergangen. Een framegenerator kan dat gedrag benaderen, maar een productiegame zou nog steeds een deterministische logica-laag eronder of ernaast nodig hebben.
DeepMind presenteert wereldmodellen als fundament voor het trainen en evalueren van AI-agents in rijke gesimuleerde omgevingen, terwijl Project Genie dezelfde technologie laat zien in een consumentgericht prototype voor wereldcreatie. Decarts nieuwere Oasis 3 is nog explicieter gericht op physical AI, robotica en simulatie van autonome voertuigen. Dat herformuleert de vraag "komt dit Unity verdringen?": de serieuste markt op korte termijn is mogelijk agent-training en simulatie, niet afgewerkte consumentengames.

Wat dit artikel niet behandelt

Een paar aangrenzende onderwerpen worden in hetzelfde gesprek getrokken en horen hier niet thuis:

DLSS, FSR, upscaling en frame generation. Dat is AI die afzonderlijke fasen of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
De gedetailleerde reinforcement-learning-methodologie die gebruikt wordt om trainingsdata te verzamelen. Ik beschrijf die op conceptueel niveau; de papers bevatten het volledige recept.
Hosting van gameservers en infrastructuuropzet. Dit is een uitleg over hoe de modellen werken, geen deploymenthandleiding.

Wat mensen bedoelen met "AI-game-engine" (en welke dit is)

De term "AI-game-engine" wordt aan drie volstrekt verschillende dingen gekoppeld, en de meeste verwarring over dit onderwerp komt doordat ze op één hoop worden gegooid. Dit artikel gaat over precies één daarvan: een model dat elk frame voorspelt en de engine volledig vervangt. Geen AI-tools die op een traditionele engine zijn gebout, en geen tool die 3D-omgevingen bouwt die je daarna in zo'n engine laadt.

De drie betekenissen, in gewone taal:

AI-tools binnen een traditionele engine. Asset-generatie, texture-synthese, NPC-gedragsbomen, dialoogschrijven: allemaal draaiend binnen Unity of Unreal. De engine rendert nog steeds frames, draait fysica en houdt de status bij. De AI is een assistent in de content-pijplijn. Dit is waar de meeste zoekresultaten voor "AI-game-engine" eigenlijk over gaan, en het is niet het onderwerp van dit artikel.
Authored 3D-ruimtegeneratoren. World Labs, mede-opgericht door Fei-Fei Li, biedt Marble, een tool die persistente, downloadbare 3D-omgevingen maakt uit tekst, afbeeldingen, video's of andere invoer. Cruciaal: Marble lijkt meer op een tool voor ruimtelijke contentcreatie: het genereert persistente 3D-werelden die je kunt doorlopen, bewerken, downloaden of exporteren naar verdere workflows. Dat maakt het anders dan GameNGen, Oasis of systemen in Genie-stijl, waar de speelbare ervaring zelf live wordt geproduceerd via frame-voor-frame-generatie.
Wereldmodellen die de engine vervangen. GameNGen, Oasis, de Genie-familie, DIAMOND, MineWorld, Matrix-Game. Deze genereren speelbare observaties rechtstreeks in plaats van een normale, gemaakte scène in Unity of Unreal te laden. Sommige nieuwere systemen voegen geheugen- en consistentiemechanismen toe, maar ze tonen nog steeds niet het duurzame, inspecteerbare, door de ontwikkelaar bestuurbare statusmodel van een traditionele game-engine. Dit is hier het onderwerp.

Een snelle vuistregel voor elk artikel dat je leest: als het systeem een bestand produceert dat je in Unity laadt, dan is het categorie 1 of 2. Als het systeem zelf is datgene is wat je speelt, met live gegenereerde frames, dan is het categorie 3: een wereldmodel.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Hoe een model een game genereert zonder engine

Een wereldmodel leert hoe een game er in beweging uitziet en voorspelt vervolgens het volgende frame, gebaseerd op recente frames plus de huidige invoer van de speler. Anders dan een traditionele engine toont het geen schone variabelen zoals "de deur is open", "deze vijand is dood" of "de speler staat op coördinaat X". In vroege framevoorspellingssystemen leert het model vooral dat bepaalde visuele toestanden de neiging hebben op bepaalde invoer te volgen. Spelen is gewoon die aangeleerde voorspellingslus snel genoeg draaien om interactief aan te voelen.

GameNGen is het helderste uitgewerkte voorbeeld, omdat de paper elke stap uiteenzet. De pijplijn verloopt in twee fasen. Eerst speelt een reinforcement-learning-agent duizenden sessies DOOM, en elke sessie wordt opgenomen als een stroom frames, gekoppeld aan de acties die ze veroorzaakten. Ten tweede wordt een aangepaste Stable Diffusion v1.4 op die data getraind om het volgende frame te voorspellen gegeven de vorige frames en de actie van de speler. De actie wordt rechtstreeks in de conditionering verwerkt, en dat is de truc die er een game van maakt en niet zomaar een videogenerator. Je toetsaanslag is onderdeel van de prompt voor de volgende afbeelding.

Het lastige is snelheid. Een normaal diffusion-model draait 20 tot 50 denoising-stappen om ruis in een afbeelding om te zetten, wat veel te traag is voor realtime spelen. GameNGen brengt dat terug tot 4 denoising-stappen, waardoor de totale inferentie op ongeveer 50 milliseconden per frame komt: snel genoeg voor 20 FPS op één TPU bij DOOM's eigen resolutie van 320×240. Menselijke beoordelaars konden korte clips van de simulatie nauwelijks beter dan op gokniveau onderscheiden van echte DOOM-beelden.

De meeste systemen in dit veld vallen onder overlappende architectonische patronen:

Diffusion-gebaseerde systemen (GameNGen, Oasis, DIAMOND, Genie 2): beginnen vanuit ruis en denoisen iteratief naar het volgende frame. Ze kunnen sterke visuele kwaliteit op korte horizon leveren, maar hebben snelheidstrucs nodig om interactief te draaien.
Autoregressieve systemen (MineWorld): voorspellen toekomstige frames of tokens opeenvolgend, dichter bij hoe een taalmodel tekst voorspelt. MineWorld ruilt framerate in voor strakker volgen van acties, en komt rond 4-7 FPS uit.
Geheugen- en besturingsuitgebreide hybrides (Matrix-Game 2.0/3.0 en nieuwere systemen): combineren realtime generatie met actie-conditionering, camerabesturing en expliciete geheugenmechanismen om afdrijven op lange horizon te beperken.

Eén detail is van belang voor het volgende deel. Tijdens de training voegt GameNGen bewust ruis toe aan de eerdere frames waarop het zich conditioneert. Dat dwingt het model te leren zijn eigen fouten te corrigeren in plaats van ze op te stapelen, een verzachting van het afdrijfprobleem. Het helpt. Het lost het niet op.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

De lijn: van Genie 1 naar Genie 3 in twee jaar

Het meest opvallende aan dit veld is de helling. In februari 2024 genereerde Genie 1 bestuurbare 2D-platformers op 256×256. Achttien maanden later genereerde Genie 3 navigeerbare 3D-werelden uit een tekstprompt op 720p en 24 FPS. Dat is het traject dat aandacht verdient: niet één enkele demo, maar het tempo van verandering daartussen.

Als één voortgang gelezen, gaat het verhaal als volgt. Genie 1 (DeepMind, ICML 2024) bewees dat je interactieve omgevingen kon leren uit ongelabelde video. GameNGen (Google, ICLR 2025) liet zien dat hetzelfde idee een echte, snelle game (DOOM) realtime kon draaien. Oasis (Decart, oktober 2024) bracht het naar Minecraft en maakte het publiek speelbaar. Genie 2 (DeepMind, december 2024) sprong naar 3D-werelden gegenereerd uit één enkele afbeelding. DIAMOND (NeurIPS 2024) maakte de aanpak open source en draaibaar op een consumenten-GPU. GameGen-X en MineWorld (Microsoft, 2025) duwden het open ecosysteem verder. Genie 3 (augustus 2025; publiek als Project Genie in januari 2026) bereikte realtime 3D uit tekst. Matrix-Game 2.0 duwde open-source, realtime streaming-generatie naar 25 FPS, en Matrix-Game 3.0 pakte het geheugenprobleem directer aan met een geheugenarchitectuur voor lange horizon.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

De specs voor de grote systemen staan in de tabel hieronder; de kern van het verhaal is de boog, niet de cijfers.

Systeem	Ontwikkelaar	Jaar	Aanpak	Resolutie / FPS	Open source?	Bron
Genie 1	Google DeepMind	2024	Latente actie	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Gedeeltelijk (500M ckpt)	Project
Oasis 3	Decart	2026	API-toegankelijk interactief wereldmodel voor physical AI	Realtime API-preview	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregressieve latente diffusion	N.v.t.	No	DeepMind
DIAMOND	Genève / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Ja (MIT)	arXiv
GameGen-X	Academisch	2024	Diffusion transformer	N.v.t.	Ja	arXiv
MineWorld	Microsoft Research	2025	Autoregressief	4-7 FPS	Ja	arXiv
Genie 3	Google DeepMind	2025	Realtime wereldmodel voor algemeen gebruik	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Autoregressieve diffusion met weinig stappen	25 FPS op één H100	Ja	Project
Matrix-Game 3.0	Skywork AI	2026	Geheugenuitgebreid interactief wereldmodel	Tot 40 FPS op 720p met een 5B-model	Ja	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Waarom deze werelden uit elkaar vallen

Deze systemen breken nog steeds op vier belangrijke manieren, maar de faalmodus is niet alleen "niet genoeg rekenkracht". Meer GPU's kunnen resolutie, latency en modelschaal verbeteren, maar samenhang van productiekwaliteit vereist beter geheugen, statustracking en besturingsarchitectuur. Een model dat plausibele frames voorspelt is niet hetzelfde als een engine met expliciete regels, inspecteerbare variabelen, deterministische statusupdates en save/load-semantiek. Elke beperking hieronder is wat het model structureel niet kan, niet wat het nog niet goed genoeg in is.

Geen persistente wereldstatus

Deze systemen tonen geen variabelen op de manier die een traditionele engine doet. Een normale engine slaat de wereld op als data: deze kist is open, deze vijand is dood, de speler staat op coördinaat (412, 88). In vroege framevoorspellingssystemen is er geen duurzame engine-status in die game-development-zin. Het model steunt vooral op recente visuele context en aangeleerde priors, dus objecten kunnen veranderen, verdwijnen of onjuist terugkeren zodra ze uit beeld raken. Nieuwere systemen voegen expliciete geheugen- en consistentiemechanismen toe, maar ze tonen nog steeds niet het soort schone, debugbare wereldstatus dat een traditionele engine ontwikkelaars geeft.

In zwakkere of vroege framevoorspellingssystemen kan een kist die je opende weer dicht verschijnen, kan een monster dat je doodde terug binnenlopen, en kan een structuur die je bouwde oplossen zodra ze uit beeld raakt. Spelers omschreven de originele Oasis-demo als met "droomlogica": je draait je om en keert misschien niet terug naar precies dezelfde plek. Nieuwere systemen proberen dat probleem te verkleinen met sterker geheugen en consistentiemechanismen, maar de kloof blijft: ze tonen nog steeds geen traditionele, inspecteerbare game-statuslaag.

Het plafond van het contextvenster

Samenhang wordt begrensd door het geheugenontwerp van het model, niet alleen door pure visuele kwaliteit. GameNGen gebruikt een korte directe framegeschiedenis maar rapporteert toch stabiele speelsessies van meerdere minuten via aangeleerde correctie. Genie 2 introduceerde zichtbare geheugenvoorbeelden op lange horizon en behield consistentie tot een minuut, met de meeste voorbeelden van 10-20 seconden. Genie 3 duwt continue interactie naar enkele minuten, en Matrix-Game 3.0 valt het probleem direct aan met geheugen voor lange horizon. Het onopgeloste vraagstuk is niet "kan het model langer dan een paar seconden mee?" Het is of het een betrouwbare, inspecteerbare, opslaanbare wereldstatus kan behouden voor de duur en complexiteit van een echte game.

Stochastisch, niet deterministisch

De uitvoer is standaard probabilistisch. Draai dezelfde opzet twee keer en je krijgt mogelijk andere frames, tenzij het systeem zwaar wordt beperkt. Voor een kunsttool kan dat nuttig zijn; voor veel productiegames is het een probleem. Multiplayer, competitieve balans, replays, vaardigheidsprogressie en save/load steunen allemaal op betrouwbare statusovergangen. Een wereldmodel kan herhaalbaarder worden gemaakt, maar een productiegame zou nog steeds een deterministische logica-laag of statussysteem nodig hebben om het gedrag te garanderen dat spelers en ontwikkelaars verwachten.

Is het een game, of videovoorspelling met een toetsenbord?

De scherpste kritiek is dat deze systemen geen werelden simuleren in de traditionele game-engine-zin; ze genereren plausibele visuele voortzettingen en laten je die sturen. Een game-engine codeert regels; een wereldmodel codeert plausibiliteit. Eén commentator in de GameNGen Hacker News-thread noemde het "'s werelds minst efficiënte videocompressie", en als provocatie raakt het doel: het model heeft in feite een verdeling over gameplay-beelden gememoriseerd en interpoleert daardoorheen als reactie op jouw invoer. Daar is een schone test voor, in het kader hieronder.

Het signaal van "afdrijven bij stilstaan". Als een wereldmodel echt een wereld zou berekenen, zou een stilstaande speler een stabiel beeld moeten opleveren: er verandert niets, dus zou er niets moeten veranderen. In zwakkere of vroege framevoorspellingssystemen kan zelfs stilstaan afdrijven onthullen: kleine details verschuiven omdat het model het volgende plausibele frame voorspelt in plaats van te renderen vanuit een vaste, inspecteerbare wereldstatus. Dat is het signaal. De scène ziet er een tijdje misschien stabiel uit, maar het systeem genereert nog steeds continuïteit in plaats van die uit een conventionele engine te lezen.

Kernpunt: de grenzen van determinisme en persistentie zijn architectonische problemen, geen kwesties die pure schaling op zichzelf zal oplossen. Elk systeem dat een betrouwbare, herhaalbare, opslaanbare wereld nodig heeft, heeft nog steeds een deterministische logica-laag, expliciet geheugen-/statussysteem of hybride engine-ontwerp nodig die de huidige framegeneratie-aanpakken op eigen kracht niet bieden.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Wat het werkelijk kost om te draaien

Realtime generatie is duur, en de koplopcijfers verbergen veel. GameNGens "één TPU" klinkt goedkoop tot je je herinnert dat het DOOM op 320×240 simuleert, niet een moderne game met hoge resolutie. De originele Oasis-demo draaide realtime op H100-klasse infrastructuur, en Decarts nieuwere Oasis 3 maakt de economie concreter. Decart positioneert Oasis 3 als een API-toegankelijk interactief wereldmodel voor physical AI, en TechCrunch rapporteerde de prijs voor preview-toegang op $0.02 per seconde, oftewel $1.20 voor een sessie van 60 seconden. Dat is nuttig voor test-, simulatie- en onderzoeksworkflows, maar het is nog steeds een heel ander kostenmodel dan het uitbrengen van een normale game-client.

Om er schaal op te zetten: realtime wereldgeneratie is nog steeds duur, maar het hardwarebeeld beweegt snel. Sommige open onderzoekssystemen rapporteren nu realtime of bijna-realtime generatie op losse H100-klasse GPU's, terwijl frontier-systemen voor consumenten cloud-gehost en vaak ongepubliceerd blijven. Het vaste punt is niet "één GPU kan het nooit"; het is dat wereldgeneratie van productiekwaliteit, met lage latency en hoge resolutie, nog steeds een serieus infrastructuurprobleem is.

Het tegenargument is dat de ondergrens snel daalt, en de open-source-laag is echt. DIAMOND trainde in ongeveer 12 dagen op één RTX 4090 en kan, volgens de officiële projectpagina, op ongeveer 10 FPS gespeeld worden op een RTX 3090. MineWorld en Matrix-Game zijn publiek draaibaar. Dus terwijl de indrukwekkendste demo's nog steeds afhangen van gespecialiseerde, dure infrastructuur, kan een nieuwsgierige ontwikkelaar al echte wereldmodel-experimenten draaien op toegankelijke hardware. Beide dingen zijn tegelijk waar: interactie van frontier-kwaliteit is kostbaar, en het instappunt voor experimenteren is al echt.

Gaat AI Unity en Unreal dan vervangen?

Niet op korte termijn, en de reden zijn de bovengenoemde grenzen, geen gebrek aan investering. De markt nam dit serieus. Google rolde Project Genie op 29 januari 2026 uit naar abonnees van Google AI Ultra in de VS, en de dag erna kelderden verschillende game-aandelen scherp: The Verge meldde Unity met 24.22% omlaag, Roblox met 13.17% omlaag en Take-Two met 7.93% omlaag bij de slotkoers op vrijdag. De onrust dook ook binnen de sector op: de GDC-enquête van 2026 vond dat 52% van de game-professionals generatieve AI als negatief voor games beschouwde, tegenover 30% het jaar ervoor. Maar koersbewegingen en enquête-onrust zijn reacties op een demo. De architectuur bepaalt de werkelijke tijdlijn.

Als ik het traject lees zoals het er nu bij staat, en dit is mijn inschatting, geen vaststaande voorspelling, houden de komende 1-3 jaar wereldmodellen waarschijnlijk in onderzoeksprototypes, simulatie-infrastructuur, robotica/physical-AI-training en smalle consumentgerichte demo's in plaats van volledige commerciële games. Het aannemelijke pad van 3-7 jaar is hybride, geen vervanging: een wereldmodel dat de visuele generatie verzorgt, bovenop een lichtgewicht deterministische statusmachine die de eigenlijke gamelogica vasthoudt. Dat is aanvulling. Het traject is steil genoeg (DOOM op 320p naar 720p-uit-tekst in ongeveer een jaar) dat zelfverzekerde voorspellingen voor de lange termijn onverstandig zijn, dus die maak ik niet.

Het detail dat de hele vraag herformuleert: DeepMind koppelt wereldmodellen aan agent-training en AGI-onderzoek, terwijl Project Genie dezelfde technologie laat zien als een consumentgericht prototype voor wereldcreatie. Decarts Oasis 3 is nog explicieter gericht op robotica, autonome voertuigen en physical-AI-simulatie. Consumentengames doen ertoe in dit verhaal, maar de commerciële trekkracht op korte termijn komt mogelijk eerst uit simulatie, training en prototyping.

Veelgestelde vragen

Wat is het verschil tussen een wereldmodel en een game-engine?

Een game-engine codeert expliciete regels en slaat de gamestatus op als data: hij is deterministisch, inspecteerbaar en debugbaar. Een wereldmodel zoals GameNGen voorspelt plausibele volgende frames uit recente frames plus jouw invoer, zonder de traditionele engine-achtige status, regels en objectvariabelen die ontwikkelaars normaal inspecteren en besturen. De engine berekent de wereld; het wereldmodel raadt hem. Daarom is de een herhaalbaar en de ander niet.

Hoe werkt GameNGen?

GameNGen draait DOOM in drie grote stappen. Eerst speelt een reinforcement-learning-agent duizenden DOOM-sessies, opgenomen als frames gekoppeld aan acties. Ten tweede leert een aangepaste Stable Diffusion v1.4 het volgende frame te voorspellen, gebaseerd op eerdere frames plus de invoer van de speler. Ten derde wordt de inferentie teruggebracht tot 4 denoising-stappen, wat ongeveer 20 FPS oplevert op één TPU bij 320×240.

Waarom blijft de wereld in Oasis veranderen als je je omdraait?

In de originele Minecraft-achtige Oasis-demo kon de wereld veranderen als je je omdraaide, omdat het systeem geen traditionele, engine-achtige wereldstatus behield. Het genereerde het volgende zicht uit recente visuele context en aangeleerde priors, dus objecten buiten beeld konden in gewijzigde vorm terugkeren. Nieuwere systemen voegen sterker geheugen en consistentiemechanismen toe, maar juist die oorspronkelijke "droomlogica" maakte de beperking makkelijk op te merken.

Hoe lang kan een AI-gegenereerde gamewereld consistent blijven voordat hij afdrijft?

Het hangt van het model af. Vroege systemen drijven vaak binnen seconden tot tientallen seconden af, maar nieuwere systemen rekken die horizon op. GameNGen heeft iets meer dan 3 seconden directe context en kan toch stabiel blijven over langere gameplay via aangeleerde heuristieken. Genie 2 toonde meestal voorbeelden van 10-20 seconden en in sommige gevallen tot een minuut. Genie 3 verhoogt de claim tot enkele minuten op 720p/24fps, en Matrix-Game 3.0 rapporteert geheugenconsistentie van een minuut lang. Het onopgeloste probleem zijn niet de korte clips; het is duurzame, inspecteerbare, opslaanbare wereldstatus.

Gaat AI game-engines zoals Unity of Unreal vervangen?

Niet op korte termijn. De blokkades zijn meer architectonisch dan puur een schaalprobleem: productiegames hebben persistente status, betrouwbare logica, deterministisch gedrag en save/load-semantiek nodig. Schaling helpt kwaliteit en samenhang, maar creëert op zichzelf geen traditionele game-lus. Het aannemelijke pad is hybride: een wereldmodel dat visuals genereert bovenop een deterministische engine voor de gamelogica, wat aanvulling is in plaats van vervanging. DeepMind presenteert wereldmodellen als belangrijk voor agent-training en AGI-onderzoek, terwijl Project Genie de technologie ook zichtbaar maakt als een consumentgericht prototype voor wereldcreatie. Decarts Oasis 3 is het schonere voorbeeld van een model dat expliciet gericht is op robotica, autonome voertuigen en physical-AI-simulatie.

Kun je een van deze AI-gegenereerde games nu al spelen?

Ja, meerdere. Decarts originele Oasis had een publieke Minecraft-achtige webdemo, en zijn nieuwere Oasis 3 Preview is nu API-toegankelijk voor realtime wereldmodel-experimenten. Googles Project Genie werd in januari 2026 ook beschikbaar voor abonnees van Google AI Ultra in de VS. Voor de open-source-laag kunnen DIAMOND en MineWorld worden gedownload en op consumenten-GPU's gedraaid, met DIAMOND gerapporteerd op ongeveer 10 FPS op een RTX 3090.

Games zonder game-engine: hoe AI-modellen speelbare werelden genereren