Sådan genererer AI spil uden en game engine (GameNGen, Genie 3)

I 2024 viste et hold fra Google Research og Google DeepMind, at en neural model kunne simulere spilbar DOOM med over 20 frames i sekundet uden at køre den oprindelige game engine nedenunder. Der var ingen konventionel engine-loop, der eksplicit lagrede koordinater, fysikobjekter, helbredsvariabler eller korttilstand på den sædvanlige måde. I stedet lærte GameNGen at udlede den næste frame ud fra de seneste frames og spillerens input, herunder visuelle signaler som helbred, ammunition, fjender, døre og vægge. Systemet, kaldet GameNGen, er en modificeret udgave af Stable Diffusion (den samme slags model, der genererer billeder ud fra tekst), og det spiller DOOM ved at hallucinere hver næste frame ud fra de tidligere frames plus den tast, du lige trykkede på.

Det er fundamentalt noget andet end "AI inde i en game engine". Når et studie bruger AI til at generere teksturer eller skrive NPC-dialog i Unity, er enginen stadig der og gør det egentlige arbejde. GameNGen har ingen engine. Modellen is spillet. Og det er begyndelsen på en ægte grænseflade, som overskrifterne hele tiden misforstår. GameNGen optrådte gennem ICLR-forskningssporet, DIAMOND kom gennem NeurIPS 2024, og virksomheder som Google DeepMind, Microsoft Research, Decart og Skywork AI skubber nu idéen fra artikler til demoer, API'er og open source-systemer.

Her er, hvad disse systemer faktisk gør, hvordan forudsigelse af næste frame fungerer, hvorfor sammenhæng og hukommelse stadig bryder sammen over længere interaktion, hvad de koster at køre, og om de kommer efter Unity. Det korte svar på det sidste er nej, i hvert fald ikke på den måde, hypen antyder. Årsagen er arkitektonisk: mere regnekraft hjælper, men det skaber ikke i sig selv vedvarende tilstand, deterministisk logik eller en game loop, man kan debugge.

Den korte version

Disse modeller forudsiger frames; de simulerer ikke regler. En game engine beregner den næste tilstand ud fra logik og lagrede variabler. En verdensmodel som GameNGen eller Oasis gætter det næste billede ud fra tidligere frames plus dit input. Den kører ikke en traditionel game engine-simulation med eksplicit objekttilstand, fysikkode og variabler, man kan inspicere; den genererer den næste observation gennem en lært model.
Deres sammenhæng er stadig begrænset af hukommelse og kontekst, men grænsen er ikke længere så enkel som "alt fejler efter et par sekunder". GameNGen har lidt over 3 sekunders direkte frame-historik, men kan forblive visuelt stabil over længere forløb gennem lærte heuristikker. Genie 2 viste som regel eksempler på 10-20 sekunder og kunne nogle gange bevare detaljer uden for synsfeltet, mens Genie 3 skubber sammenhængen til et par minutter ved 720p/24fps. Den centrale svaghed består: disse systemer leverer endnu ikke den holdbare, inspicerbare tilstand, der kan gemmes, som produktionsspil bygger på.
De er ikke naturligt deterministiske på den måde, produktionsspil har brug for. Du kan begrænse sampling eller fastlåse seeds, men det giver dig stadig ikke de rene, inspicerbare tilstandsopdateringer, en normal engine har. Multiplayer, konkurrencemæssig balance, replays, færdighedsprogression og save/load afhænger alle af pålidelige tilstandsovergange. En frame-generator kan tilnærme den adfærd, men et produktionsspil ville stadig have brug for et deterministisk logiklag under eller ved siden af den.
DeepMind fremstiller verdensmodeller som et fundament for at træne og evaluere AI-agenter i rige simulerede miljøer, mens Project Genie viser den samme teknologi i en forbrugervendt prototype til verdensskabelse. Decarts nyere Oasis 3 er endnu mere eksplicit rettet mod fysisk AI, robotteknologi og simulering af selvkørende køretøjer. Det omformulerer spørgsmålet "kommer det her efter Unity?": det mest seriøse marked på kort sigt er måske agenttræning og simulering, ikke færdige forbrugerspil.

Hvad denne artikel ikke dækker

Et par beslægtede emner bliver trukket ind i den samme samtale og hører ikke til her:

DLSS, FSR, upscaling og frame generation. Det er AI, der erstatter enkelte trin of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Den detaljerede reinforcement learning-metodologi der bruges til at indsamle træningsdata. Jeg beskriver den på et konceptuelt niveau; artiklerne har hele opskriften.
Hosting af game servers og opsætning af infrastruktur. Dette er en forklaring på, hvordan modellerne fungerer, ikke en deployment-guide.

Hvad folk mener med "AI game engine" (og hvilken én det her er)

Udtrykket "AI game engine" bliver knyttet til tre helt forskellige ting, og det meste forvirring om emnet kommer af at slå dem sammen. Denne artikel handler om præcis én af dem: en model, der forudsiger hver frame og erstatter enginen helt. Ikke AI-værktøjer skruet på en traditionel engine, og ikke et værktøj, der bygger 3D-miljøer, som du så indlæser i en.

De tre betydninger, enkelt sagt:

AI-værktøjer inde i en traditionel engine. Asset-generering, tekstursyntese, NPC-adfærdstræer, dialogskrivning: alt sammen kørende inde i Unity eller Unreal. Enginen renderer stadig frames, kører fysik og holder tilstand. AI'en er en assistent i indholdspipelinen. Det er, hvad de fleste søgeresultater for "AI game engine" faktisk handler om, og det er ikke emnet for denne artikel.
Forfattede 3D-rumgeneratorer. World Labs, medstiftet af Fei-Fei Li, tilbyder Marble, et værktøj, der skaber vedvarende, downloadbare 3D-miljøer ud fra tekst, billeder, videoer eller andre input. Afgørende er, at Marble er tættere på et værktøj til rumlig indholdsskabelse: det genererer vedvarende 3D-verdener, der kan bevæges igennem, redigeres, downloades eller eksporteres ind i efterfølgende workflows. Det gør det forskelligt fra GameNGen, Oasis eller Genie-lignende systemer, hvor selve den spilbare oplevelse produceres live gennem frame-for-frame-generering.
Verdensmodeller, der erstatter enginen. GameNGen, Oasis, Genie-familien, DIAMOND, MineWorld, Matrix-Game. Disse genererer spilbare observationer direkte i stedet for at indlæse en normal forfattet scene i Unity eller Unreal. Nogle nyere systemer tilføjer hukommelses- og sammenhængsmekanismer, men de blotlægger stadig ikke den holdbare, inspicerbare, udviklerstyrede tilstandsmodel, en traditionel game engine har. Dette er emnet her.

En hurtig beslutningsregel for enhver artikel, du læser: hvis systemet producerer en fil, du indlæser i Unity, er det kategori 1 eller 2. Hvis systemet is den ting, du spiller, med frames genereret live, er det kategori 3: en verdensmodel.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Sådan genererer en model et spil uden en engine

En verdensmodel lærer, hvordan et spil ser ud i bevægelse, og forudsiger så den næste frame betinget af de seneste frames plus spillerens nuværende input. I modsætning til en traditionel engine blotlægger den ikke rene variabler som "døren er åben", "denne fjende er død" eller "spilleren er ved koordinat X". I tidlige systemer til frame-forudsigelse lærer modellen mest, at bestemte visuelle tilstande har en tendens til at følge bestemte input. At spille er bare at køre den lærte forudsigelsesloop hurtigt nok til at føles interaktiv.

GameNGen er det reneste gennemarbejdede eksempel, fordi artiklen redegør for hvert trin. Pipelinen kører i to faser. Først spiller en reinforcement learning-agent tusindvis af DOOM-sessioner, og hver session optages som en strøm af frames parret med de handlinger, der frembragte dem. Dernæst trænes en modificeret Stable Diffusion v1.4 på de data til at forudsige den næste frame givet de tidligere frames og spillerens handling. Handlingen bages direkte ind i betingelsen, og det er tricket, der gør det til et spil og ikke bare en videogenerator. Dit tastetryk er en del af prompten til det næste billede.

Den svære del er hastighed. En normal diffusionsmodel kører 20 til 50 denoising-trin for at gøre støj til et billede, hvilket er alt for langsomt til realtidsspil. GameNGen skærer det ned til 4 denoising-trin, hvilket bringer den samlede inferens ned til cirka 50 millisekunder per frame: hurtigt nok til 20 FPS på en enkelt TPU ved DOOM's oprindelige opløsning på 320×240. Menneskelige bedømmere kunne kun klare sig en anelse bedre end tilfældigt, når de skulle skelne korte klip af simuleringen fra ægte DOOM-optagelser.

De fleste systemer på dette område falder ind under overlappende arkitektoniske mønstre:

Diffusionsbaserede systemer (GameNGen, Oasis, DIAMOND, Genie 2): starter fra støj og denoiser iterativt til den næste frame. De kan producere stærk visuel kvalitet på kort horisont, men har brug for hastighedstricks for at køre interaktivt.
Autoregressive systemer (MineWorld): forudsiger fremtidige frames eller tokens sekventielt, tættere på, hvordan en sprogmodel forudsiger tekst. MineWorld bytter framerate for tættere handlingsfølgning og lander omkring 4-7 FPS.
Hukommelses- og kontroludvidede hybrider (Matrix-Game 2.0/3.0 og nyere systemer): kombinerer realtidsgenerering med handlingsbetingelse, kamerakontrol og eksplicitte hukommelsesmekanismer for at reducere drift over lang horisont.

Én detalje er vigtig for det næste afsnit. Under træning tilføjer GameNGen bevidst støj til de tidligere frames, den betinger på. Det tvinger modellen til at lære at korrigere sine egne fejl i stedet for at lade dem hobe sig op, en afbødning af driftproblemet. Det hjælper. Det løser det ikke.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Slægtskabet: Fra Genie 1 til Genie 3 på to år

Det mest slående ved dette felt er hældningen. I februar 2024 genererede Genie 1 kontrollerbare 2D-platformere i 256×256. Atten måneder senere genererede Genie 3 navigerbare 3D-verdener ud fra en tekstprompt i 720p og 24 FPS. Det er den udvikling, der er værd at være opmærksom på: ikke nogen enkelt demo, men forandringshastigheden mellem dem.

Læst som én progression går historien sådan her. Genie 1 (DeepMind, ICML 2024) beviste, at man kunne lære interaktive miljøer fra umærket video. GameNGen (Google, ICLR 2025) viste, at den samme idé kunne køre et ægte, hurtigt spil (DOOM) i realtid. Oasis (Decart, oktober 2024) bragte det til Minecraft og gjorde det offentligt spilbart. Genie 2 (DeepMind, december 2024) sprang til 3D-verdener genereret ud fra et enkelt billede. DIAMOND (NeurIPS 2024) gjorde tilgangen open source og kørbar på en consumer-GPU. GameGen-X og MineWorld (Microsoft, 2025) skubbede det åbne økosystem videre. Genie 3 (august 2025; offentlig som Project Genie i januar 2026) nåede realtids-3D ud fra tekst. Matrix-Game 2.0 skubbede open source-realtidsstreaming-generering til 25 FPS, og Matrix-Game 3.0 angreb hukommelsesproblemet mere direkte med en hukommelsesarkitektur til lang horisont.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Specifikationerne for de store systemer findes i tabellen nedenfor; pointen i fortællingen er buen, ikke tallene.

System	Udvikler	År	Tilgang	Opløsning / FPS	Open source?	Kilde
Genie 1	Google DeepMind	2024	Latent handling	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Delvis (500M ckpt)	Project
Oasis 3	Decart	2026	API-tilgængelig interaktiv verdensmodel til fysisk AI	Realtids-API-preview	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregressiv latent diffusion	Ikke relevant	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Ja (MIT)	arXiv
GameGen-X	Akademisk	2024	Diffusion transformer	Ikke relevant	Ja	arXiv
MineWorld	Microsoft Research	2025	Autoregressiv	4-7 FPS	Ja	arXiv
Genie 3	Google DeepMind	2025	Generel realtidsverdensmodel	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Få-trins autoregressiv diffusion	25 FPS på en enkelt H100	Ja	Project
Matrix-Game 3.0	Skywork AI	2026	Hukommelsesudvidet interaktiv verdensmodel	Op til 40 FPS ved 720p med en 5B model	Ja	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Hvorfor disse verdener falder fra hinanden

Disse systemer bryder stadig sammen på fire vigtige måder, men fejltilstanden er ikke bare "ikke nok regnekraft". Flere GPU'er kan forbedre opløsning, latenstid og modelskala, men produktionskvalitets sammenhæng kræver bedre hukommelse, tilstandssporing og kontrolarkitektur. En model, der forudsiger plausible frames, er ikke det samme som en engine med eksplicitte regler, inspicerbare variabler, deterministiske tilstandsopdateringer og save/load-semantik. Hver begrænsning nedenfor er, hvad modellen strukturelt ikke kan gøre, ikke hvad den endnu ikke er blevet god nok til.

Ingen vedvarende verdenstilstand

Disse systemer blotlægger ikke variabler på den måde, en traditionel engine gør. En normal engine lagrer verden som data: denne kiste er åben, denne fjende er død, spilleren er ved koordinat (412, 88). I tidlige systemer til frame-forudsigelse er der ingen holdbar engine-tilstand i den spiludviklingsmæssige forstand. Modellen læner sig mest op ad nylig visuel kontekst og lærte priorer, så objekter kan ændre sig, forsvinde eller dukke op igen forkert, når de først forlader synsfeltet. Nyere systemer tilføjer eksplicitte hukommelses- og sammenhængsmekanismer, men de blotlægger stadig ikke den slags rene, debugbare verdenstilstand, en traditionel engine giver udviklere.

I svagere eller tidlige systemer til frame-forudsigelse kan en kiste, du åbnede, dukke op igen lukket, et monster, du dræbte, kan gå tilbage ind, og en struktur, du byggede, kan opløse sig, når den først forlader framen. Spillere beskrev den oprindelige Oasis-demo som havende "drømmelogik": du vender dig, og du vender måske ikke tilbage til præcis det samme sted. Nyere systemer forsøger at reducere det problem med stærkere hukommelses- og sammenhængsmekanismer, men kløften består: de blotlægger stadig ikke et traditionelt, inspicerbart lag af spiltilstand.

Kontekstvindue-loftet

Sammenhæng er begrænset af modellens hukommelsesdesign, ikke bare af ren visuel kvalitet. GameNGen bruger en kort direkte frame-historik, men rapporterer alligevel stabile spilsessioner på flere minutter gennem lært korrektion. Genie 2 indførte synlige eksempler på hukommelse over lang horisont og opretholdt sammenhæng i op til et minut, med de fleste eksempler varende 10-20 sekunder. Genie 3 skubber kontinuerlig interaktion til et par minutter, og Matrix-Game 3.0 angriber problemet direkte med hukommelse over lang horisont. Det uløste spørgsmål er ikke "kan modellen holde mere end et par sekunder?" Det er, om den kan bevare en pålidelig, inspicerbar verdenstilstand, der kan gemmes, i et rigtigt spils længde og kompleksitet.

Stokastisk, ikke deterministisk

Outputtet er sandsynlighedsbaseret som standard. Kør den samme opsætning to gange, og du kan få forskellige frames, medmindre systemet er stærkt begrænset. For et kunstværktøj kan det være nyttigt; for mange produktionsspil er det et problem. Multiplayer, konkurrencemæssig balance, replays, færdighedsprogression og save/load afhænger alle af pålidelige tilstandsovergange. En verdensmodel kan gøres mere gentagelig, men et produktionsspil ville stadig have brug for et deterministisk logiklag eller tilstandssystem for at garantere den adfærd, spillere og udviklere forventer.

Er det et spil, eller videoforudsigelse med et tastatur?

Den skarpeste kritik er, at disse systemer ikke simulerer verdener i den traditionelle game engine-forstand; de genererer plausible visuelle fortsættelser og lader dig styre dem. En game engine indkoder regler; en verdensmodel indkoder plausibilitet. En kommentator i GameNGen Hacker News-tråden kaldte det "verdens mest ineffektive videokomprimering", og som provokation rammer det: modellen har reelt memoreret en fordeling over gameplay-optagelser og interpolerer gennem den som svar på dine input. Der er en ren test for dette, i fremhævningen nedenfor.

"Drift når man står stille"-tegnet. Hvis en verdensmodel virkelig beregnede en verden, skulle en ubevægelig spiller give et stabilt billede: intet ændrer sig, så intet bør ændre sig. I svagere eller tidlige systemer til frame-forudsigelse kan selv det at stå stille afsløre drift: små detaljer skifter, fordi modellen forudsiger den næste plausible frame i stedet for at rendere fra en fast, inspicerbar verdenstilstand. Det er tegnet. Scenen kan se stabil ud et stykke tid, men systemet genererer stadig kontinuitet i stedet for at læse den fra en konventionel engine.

Vigtigste pointe: grænserne for determinisme og persistens er arkitektoniske problemer, ikke noget ren skalering vil løse af sig selv. Ethvert system, der har brug for en pålidelig, gentagelig verden, der kan gemmes, har stadig brug for et deterministisk logiklag, et eksplicit hukommelses-/tilstandssystem eller et hybridt engine-design, som nuværende frame-genereringstilgange ikke leverer på egen hånd.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Hvad det faktisk koster at køre

Realtidsgenerering er dyrt, og overskriftstallene skjuler en hel del. GameNGen's "enkelt TPU" lyder billigt, indtil du husker, at den simulerer DOOM i 320×240, ikke et moderne spil i høj opløsning. Den oprindelige Oasis-demo kørte i realtid på H100-klasses infrastruktur, og Decarts nyere Oasis 3 gør økonomien mere konkret. Decart positionerer Oasis 3 som en API-tilgængelig interaktiv verdensmodel til fysisk AI, og TechCrunch rapporterede preview-adgangspriser på $0.02 per sekund, eller $1.20 for en 60-sekunders session. Det er nyttigt til test, simulering og forskningsworkflows, men det er stadig en meget anderledes omkostningsmodel end at sende en normal spilklient ud.

For at sætte skala på det: realtidsgenerering af verdener er stadig dyrt, men hardwarebilledet bevæger sig hurtigt. Nogle åbne forskningssystemer rapporterer nu realtids- eller næsten-realtidsgenerering på enkelte H100-klasses GPU'er, mens forbrugervendte spidssystemer forbliver cloud-hostede og ofte uoplyste. Det faste punkt er ikke "én GPU kan aldrig gøre det"; det er, at produktionskvalitets-, lav-latens-, høj-opløsnings-verdensgenerering stadig er et alvorligt infrastrukturproblem.

Modpointen er, at gulvet falder hurtigt, og open source-niveauet er reelt. DIAMOND blev trænet på omkring 12 dage på en enkelt RTX 4090 og kan ifølge sin officielle projektside, spilles ved cirka 10 FPS på en RTX 3090. MineWorld og Matrix-Game er offentligt kørbare. Så mens de mest imponerende demoer stadig afhænger af specialiseret, dyr infrastruktur, kan en nysgerrig udvikler allerede køre nogle rigtige verdensmodel-eksperimenter på tilgængelig hardware. Begge ting er sande på én gang: spidskvalitets-interaktion er kostbar, og indgangspunktet for eksperimentering er allerede reelt.

Så vil AI erstatte Unity og Unreal?

Ikke på kort sigt, og årsagen er grænserne ovenfor, ikke mangel på investering. Markedet tog det alvorligt. Google udrullede Project Genie til amerikanske Google AI Ultra-abonnenter den 29. januar 2026, og dagen efter blev flere gaming-aktier solgt kraftigt fra: The Verge rapporterede Unity nede 24.22%, Roblox nede 13.17% og Take-Two nede 7.93% ved fredagens lukketid. Bekymringen viste sig også inde i branchen: GDC's undersøgelse fra 2026 fandt, at 52% af spilprofessionelle så generativ AI som havende en negativ indvirkning på spil, op fra 30% året før. Men aktiebevægelser og undersøgelsesbekymring er reaktioner på en demo. Arkitekturen er det, der sætter den faktiske tidslinje.

Læser man udviklingen, som den står, og dette er mit bud, ikke en afgjort prognose, holder de næste 1-3 år sandsynligvis verdensmodeller i forskningsprototyper, simuleringsinfrastruktur, robotteknologi/fysisk AI-træning og snævre forbrugervendte demoer frem for fulde kommercielle spil. Den sandsynlige vej på 3-7 år er hybrid, ikke erstatning: en verdensmodel, der håndterer visuel generering, siddende oven på en letvægts deterministisk tilstandsmaskine, der holder den egentlige spillogik. Det er forstærkning. Udviklingen er stejl nok (DOOM i 320p til 720p-fra-tekst på cirka et år) til, at sikre langsigtede forudsigelser er uklogt, så jeg laver ikke nogen.

Detaljen, der omformulerer hele spørgsmålet: DeepMind knytter verdensmodeller til agenttræning og AGI-forskning, mens Project Genie viser den samme teknologi som en forbrugervendt prototype til verdensskabelse. Decarts Oasis 3 er endnu mere eksplicit rettet mod robotteknologi, selvkørende køretøjer og fysisk AI-simulering. Forbrugerspil betyder noget for historien, men det kommercielle træk på kort sigt kommer måske først fra simulering, træning og prototyping.

Ofte stillede spørgsmål

Hvad er forskellen mellem en verdensmodel og en game engine?

En game engine indkoder eksplicitte regler og lagrer spiltilstand som data: den er deterministisk, inspicerbar og debugbar. En verdensmodel som GameNGen forudsiger plausible næste frames ud fra de seneste frames plus dit input, uden den traditionelle engine-stils tilstand, regler og objektvariabler, udviklere normalt inspicerer og styrer. Enginen beregner verden; verdensmodellen gætter den. Derfor er den ene gentagelig, og den anden ikke er.

Hvordan fungerer GameNGen?

GameNGen kører DOOM i tre brede trin. Først spiller en reinforcement learning-agent tusindvis af DOOM-sessioner, optaget som frames parret med handlinger. Dernæst lærer en modificeret Stable Diffusion v1.4 at forudsige den næste frame betinget af tidligere frames plus spillerens input. Til sidst skæres inferens ned til 4 denoising-trin, hvilket producerer cirka 20 FPS på en enkelt TPU ved 320×240.

Hvorfor bliver verden i Oasis ved med at ændre sig, når man vender sig om?

I den oprindelige Minecraft-lignende Oasis-demo kunne verden ændre sig, når du vendte dig om, fordi systemet ikke bevarede en traditionel verdenstilstand i engine-stil. Den genererede den næste udsigt ud fra nylig visuel kontekst og lærte priorer, så objekter uden for synsfeltet kunne vende tilbage i ændret form. Nyere systemer tilføjer stærkere hukommelses- og sammenhængsmekanismer, men netop den oprindelige "drømmelogik" var det, der gjorde begrænsningen let at få øje på.

Hvor længe kan en AI-genereret spilverden forblive sammenhængende, før den driver?

Det afhænger af modellen. Tidlige systemer driver ofte inden for sekunder til snese af sekunder, men nyere systemer udvider den horisont. GameNGen har lidt over 3 sekunders direkte kontekst, men kan forblive stabil over længere gameplay gennem lærte heuristikker. Genie 2 viste mest eksempler på 10-20 sekunder og op til et minut i nogle tilfælde. Genie 3 hæver påstanden til et par minutter ved 720p/24fps, og Matrix-Game 3.0 rapporterer hukommelsessammenhæng af et minuts varighed. Det uløste problem er ikke korte klip; det er holdbar, inspicerbar verdenstilstand, der kan gemmes.

Vil AI erstatte game engines som Unity eller Unreal?

Ikke på kort sigt. Forhindringerne er mere arkitektoniske end rent et skalaproblem: produktionsspil har brug for vedvarende tilstand, pålidelig logik, deterministisk adfærd og save/load-semantik. Skalering hjælper kvalitet og sammenhæng, men det skaber ikke i sig selv en traditionel game loop. Den sandsynlige vej er hybrid: en verdensmodel, der genererer visuals oven på en deterministisk engine til spillogik, hvilket er forstærkning frem for erstatning. DeepMind fremstiller verdensmodeller som vigtige for agenttræning og AGI-forskning, mens Project Genie også gør teknologien synlig som en forbrugervendt prototype til verdensskabelse. Decarts Oasis 3 er det renere eksempel på en model, der eksplicit er rettet mod robotteknologi, selvkørende køretøjer og fysisk AI-simulering.

Kan man spille nogen af disse AI-genererede spil lige nu?

Ja, flere. Decarts oprindelige Oasis havde en offentlig Minecraft-lignende web-demo, og dens nyere Oasis 3 Preview er nu API-tilgængelig til realtids-verdensmodel-eksperimenter. Googles Project Genie blev også tilgængeligt for Google AI Ultra-abonnenter i USA i januar 2026. For open source-niveauet kan DIAMOND og MineWorld downloades og køres på consumer-GPU'er, med DIAMOND rapporteret ved omkring 10 FPS på en RTX 3090.

Spil uden en game engine: Sådan genererer AI-modeller spilbare verdener