Hogyan generál az AI játékokat játékmotor nélkül (GameNGen, Genie 3)

2024-ben egy Google Research és Google DeepMind csapat megmutatta, hogy egy neurális modell képes játszható DOOM-ot szimulálni több mint 20 képkocka/másodperc sebességgel anélkül, hogy az eredeti játékmotor futna alatta. Nem volt hagyományos motorhurok, amely a szokásos módon kifejezetten tárolta volna a koordinátákat, a fizikai objektumokat, az életerő-változókat vagy a pálya állapotát. Ehelyett a GameNGen megtanulta kikövetkeztetni a következő képkockát a legutóbbi képkockákból és a játékos bemeneteiből, beleértve az olyan vizuális jeleket, mint az életerő, a lőszer, az ellenségek, az ajtók és a falak. A rendszer, melynek neve GameNGen, a Stable Diffusion egy módosított változata (ugyanaz a fajta modell, amely szövegből képeket generál), és úgy játssza a DOOM-ot, hogy minden következő képkockát a korábbi képkockák, valamint az imént lenyomott billentyű alapján hallucinál.

Ez alapvetően más dolog, mint az „AI a játékmotoron belül". Amikor egy stúdió AI-t használ textúrák generálására vagy NPC-párbeszédek megírására a Unity-ben, a motor még mindig ott van, és végzi a tényleges munkát. A GameNGennek nincs motorja. A modell is a játék. És ez egy valódi határterület kezdete, amit a címsorok rendre félreértenek. A GameNGen az ICLR kutatási szekción keresztül jelent meg, a DIAMOND a NeurIPS 2024-en keresztül érkezett, és olyan cégek, mint a Google DeepMind, a Microsoft Research, a Decart és a Skywork AI most a cikkekből a demók, az API-k és a nyílt forráskódú rendszerek felé tolják az ötletet.

Íme, mit csinálnak valójában ezek a rendszerek, hogyan működik a következő képkocka előrejelzése, miért bomlik fel a koherencia és a memória hosszabb interakció során, mennyibe kerül a futtatásuk, és vajon a Unity-re törnek-e. Az utóbbira a rövid válasz: nem, legalábbis nem úgy, ahogyan a hype sugallja. Az ok architekturális: több számítási kapacitás segít, de önmagában nem hoz létre tartós állapotot, determinisztikus logikát vagy hibakereshető játékhurkot.

A rövid verzió

Ezek a modellek képkockákat jeleznek előre; nem szabályokat szimulálnak. Egy játékmotor a következő állapotot logikából és tárolt változókból számítja ki. Egy olyan világmodell, mint a GameNGen vagy az Oasis a következő képet a korábbi képkockák és a te bemeneted alapján tippeli meg. Nem hagyományos játékmotor-szimulációt futtat explicit objektumállapottal, fizikai kóddal és vizsgálható változókkal; a következő megfigyelést egy tanult modellen keresztül generálja.
A koherenciájukat továbbra is a memória és a kontextus korlátozza, de a határ már nem olyan egyszerű, mint hogy „néhány másodperc után minden szétesik". A GameNGen valamivel több mint 3 másodpercnyi közvetlen képkocka-előzménnyel rendelkezik, mégis vizuálisan stabil maradhat hosszabb pályaszakaszokon át tanult heurisztikák révén. A Genie 2 általában 10-20 másodperces példákat mutatott, és néha képes volt megőrizni a látótéren kívüli részleteket, míg a Genie 3 néhány percig tolja a konzisztenciát 720p/24fps mellett. Az alapvető gyengeség megmarad: ezek a rendszerek még nem nyújtják azt a tartós, vizsgálható, menthető állapotot, amelyre a produkciós játékok támaszkodnak.
Természetüknél fogva nem determinisztikusak úgy, ahogy a produkciós játékoknak szükségük lenne rá. Korlátozhatod a mintavételezést vagy rögzítheted a seedeket, de ez még mindig nem adja meg egy normál motor tiszta, vizsgálható állapotfrissítéseit. A többjátékos mód, a versenyképes egyensúly, a visszajátszások, a képességfejlődés és a mentés/betöltés mind megbízható állapotátmenetektől függ. Egy képkockagenerátor megközelítheti ezt a viselkedést, de egy produkciós játéknak még mindig szüksége lenne egy determinisztikus logikai rétegre alatta vagy mellette.
A DeepMind a világmodelleket az AI-ügynökök gazdag szimulált környezetekben történő betanításának és értékelésének alapjaként mutatja be, míg a Project Genie ugyanazt a technológiát egy fogyasztói irányultságú világalkotó prototípusban mutatja meg. A Decart újabb Oasis 3-a még explicitebben a fizikai AI-ra, a robotikára és az autonóm járművek szimulációjára irányul. Ez átkeretezi a „törnek-e ezek a Unity-re?" kérdést: a legkomolyabb rövid távú piac talán az ügynökök betanítása és a szimuláció lehet, nem a kész fogyasztói játékok.

Amit ez a cikk nem tárgyal

Néhány szomszédos téma ugyanabba a beszélgetésbe kerül, de nem ide tartozik:

DLSS, FSR, felskálázás és képkockagenerálás. Ezekben az AI egy normál renderelési folyamat egyes lépéseit of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
A részletes megerősítéses tanulási módszertan, amellyel a betanítási adatokat gyűjtik. Fogalmi szinten leírom; a teljes recept a cikkekben található.
Játékszerver-tárhely és infrastruktúra-beállítás. Ez egy magyarázat arról, hogyan működnek a modellek, nem pedig telepítési útmutató.

Mit értenek az emberek az „AI játékmotor" alatt (és melyik az itt tárgyalt)

Az „AI játékmotor" kifejezést három teljesen különböző dologhoz kapcsolják, és a téma körüli zavar nagy része abból ered, hogy ezeket egybemossák. Ez a cikk pontosan az egyikről szól: egy olyan modellről, amely minden képkockát előre jelez, és teljesen kiváltja a motort. Nem a hagyományos motorra ráerősített AI-eszközökről, és nem egy olyan eszközről, amely 3D-környezeteket épít, amelyeket aztán betöltesz egy motorba.

A három jelentés, egyszerűen megfogalmazva:

AI-eszközök egy hagyományos motoron belül . Eszközgenerálás, textúraszintézis, NPC-viselkedési fák, párbeszédírás: mind a Unity-n vagy az Unreal-en belül futnak. A motor továbbra is renderel képkockákat, futtatja a fizikát és kezeli az állapotot. Az AI egy segéd a tartalomkészítési folyamatban. Az „AI játékmotor" keresési találatok többsége valójában erről szól, és ez nem e cikk témája.
Szerzői 3D-tér-generátorok. A World Labs, amelyet Fei-Fei Li társalapított, kínálja a Marblenevű eszközt, amely tartós, letölthető 3D-környezeteket hoz létre szövegből, képekből, videókból vagy más bemenetekből. Lényeges, hogy a Marble közelebb áll egy térbeli tartalomkészítő eszközhöz: tartós 3D-világokat generál, amelyekben mozogni lehet, szerkeszthetők, letölthetők vagy exportálhatók a későbbi munkafolyamatokba. Ez teszi különbözővé a GameNGentől, az Oasistól vagy a Genie-jellegű rendszerektől, ahol maga a játszható élmény élőben, képkockáról képkockára generálva jön létre.
Világmodellek, amelyek kiváltják a motort. GameNGen, Oasis, a Genie család, DIAMOND, MineWorld, Matrix-Game. Ezek közvetlenül játszható megfigyeléseket generálnak, ahelyett, hogy egy normál szerzői jelenetet töltenének be a Unity-be vagy az Unreal-be. Néhány újabb rendszer memória- és konzisztenciamechanizmusokkal egészül ki, de még mindig nem teszik elérhetővé egy hagyományos játékmotor tartós, vizsgálható, fejlesztő által vezérelt állapotmodelljét. Itt ez a téma.

Egy gyors döntési szabály bármely cikkhez, amit olvasol: ha a rendszer egy fájlt állít elő, amelyet betöltesz a Unity-be, akkor az az 1. vagy 2. kategória. Ha a rendszer is maga az, amivel játszol, élőben generált képkockákkal, akkor az a 3. kategória: egy világmodell.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Hogyan generál egy modell játékot motor nélkül

Egy világmodell megtanulja, hogyan néz ki egy játék mozgásban, majd a következő képkockát a legutóbbi képkockák és a játékos aktuális bemenete alapján jelzi előre. Egy hagyományos motorral ellentétben nem tesz elérhetővé tiszta változókat, mint például „az ajtó nyitva van", „ez az ellenség halott" vagy „a játékos az X koordinátán van". A korai képkocka-előrejelző rendszerekben a modell többnyire azt tanulja meg, hogy bizonyos vizuális állapotok bizonyos bemeneteket szoktak követni. A játék pusztán annyi, hogy ezt a tanult előrejelzési hurkot elég gyorsan futtatjuk ahhoz, hogy interaktívnak érződjön.

A GameNGen a legtisztább kidolgozott példa, mert a cikk minden lépést részletez. A folyamat két fázisban zajlik. Először egy megerősítéses tanulási ügynök DOOM-munkamenetek ezreit játssza végig, és minden munkamenet képkockák folyamaként kerül rögzítésre, az azokat előállító cselekvésekkel párosítva. Másodszor egy módosított Stable Diffusion v1.4-et tanítanak be ezeken az adatokon, hogy előre jelezze a következő képkockát a korábbi képkockák és a játékos cselekvése alapján. A cselekvés közvetlenül beépül a kondicionálásba, és ez az a trükk, amitől ez játék lesz, nem pedig csupán egy videógenerátor. A billentyűleütésed a következő kép promptjának része.

A nehéz rész a sebesség. Egy normál diffúziós modell 20-50 zajtalanítási lépést futtat, hogy a zajból képet csináljon, ami messze túl lassú a valós idejű játékhoz. A GameNGen ezt 4 zajtalanítási lépésrecsökkenti, így a teljes inferencia nagyjából 50 ezredmásodpercre jön ki képkockánként: elég gyors a 20 FPS-hez egyetlen TPU-n, a DOOM natív 320×240 felbontásán. Az emberi értékelők csak a véletlennél valamivel jobban tudták megkülönböztetni a szimuláció rövid klipjeit a valódi DOOM-felvételektől.

A legtöbb rendszer ebben a térben átfedő architekturális mintázatokba esik:

Diffúzió-alapú rendszerek (GameNGen, Oasis, DIAMOND, Genie 2): zajból indulnak, és iteratívan zajtalanítják a következő képkockává. Erős rövid távú vizuális minőséget tudnak produkálni, de sebességtrükkökre van szükségük az interaktív futtatáshoz.
Autoregresszív rendszerek (MineWorld): a jövőbeli képkockákat vagy tokeneket szekvenciálisan jelzik előre, közelebb ahhoz, ahogy egy nyelvi modell jelzi előre a szöveget. A MineWorld a képkockasebességet cseréli a szorosabb cselekvéskövetésre, nagyjából 4-7 FPS körül landolva.
Memóriával és vezérléssel bővített hibridek (Matrix-Game 2.0/3.0 és újabb rendszerek): a valós idejű generálást cselekvéskondicionálással, kameravezérléssel és explicit memóriamechanizmusokkal kombinálják a hosszú távú sodródás csökkentésére.

Egy részlet fontos a következő szakaszhoz. A betanítás során a GameNGen szándékosan zajt ad hozzá a múltbeli képkockákhoz, amelyekre kondicionál. Ez arra kényszeríti a modellt, hogy megtanulja kijavítani a saját hibáit, ahelyett hogy halmozná őket; ez enyhítés a sodródási problémára. Segít. De nem oldja meg.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

A leszármazási vonal: a Genie 1-től a Genie 3-ig két év alatt

Az egyetlen leginkább szembeötlő dolog ezen a területen a meredekség. 2024 februárjában a Genie 1 irányítható 2D-platformereket generált 256×256-ban. Tizennyolc hónappal később a Genie 3 navigálható 3D-világokat generált egy szöveges promptból 720p-ben és 24 FPS mellett. Ez az a pálya, amelyre érdemes figyelni: nem bármelyik egyedi demó, hanem a köztük lévő változás üteme.

Egyetlen folyamatként olvasva a történet így szól. A Genie 1 (DeepMind, ICML 2024) bebizonyította, hogy interaktív környezeteket lehet tanulni címkézetlen videóból. A GameNGen (Google, ICLR 2025) megmutatta, hogy ugyanaz az ötlet képes egy valódi, pörgős játékot (DOOM) valós időben futtatni. Az Oasis (Decart, 2024. október) elhozta ezt a Minecrafthoz, és nyilvánosan játszhatóvá tette. A Genie 2 (DeepMind, 2024. december) egyetlen képből generált 3D-világokra ugrott. DIAMOND (NeurIPS 2024) nyílt forráskódúvá és fogyasztói GPU-n futtathatóvá tette a megközelítést. GameGen-X és MineWorld (Microsoft, 2025) tovább tolta a nyílt ökoszisztémát. A Genie 3 (2025. augusztus; nyilvánosan Project Genie néven 2026 januárjától) elérte a valós idejű 3D-t szövegből. Matrix-Game 2.0 a nyílt forráskódú, valós idejű streaming generálást 25 FPS-re tolta, a Matrix-Game 3.0 pedig közvetlenebbül támadta a memóriaproblémát egy hosszú távú memóriaarchitektúrával.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

A főbb rendszerek specifikációi az alábbi táblázatban találhatók; a narratíva lényege az ív, nem a számok.

Rendszer	Fejlesztő	Év	Megközelítés	Felbontás / FPS	Nyílt forráskódú?	Forrás
Genie 1	Google DeepMind	2024	Látens cselekvés	256×256	No	arXiv
GameNGen	Google	2024	Diffúzió	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffúzió (Forcing)	360p / 20 FPS	Részleges (500M ckpt)	Project
Oasis 3	Decart	2026	API-n keresztül elérhető interaktív világmodell fizikai AI-hoz	Valós idejű API-előzetes	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregresszív látens diffúzió	N/A	No	DeepMind
DIAMOND	Genf / Edinburgh / MSR	2024	Diffúzió	Atari / CS:GO	Igen (MIT)	arXiv
GameGen-X	Akadémiai	2024	Diffúziós transzformer	N/A	Igen	arXiv
MineWorld	Microsoft Research	2025	Autoregresszív	4-7 FPS	Igen	arXiv
Genie 3	Google DeepMind	2025	Általános célú valós idejű világmodell	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Kevés lépéses autoregresszív diffúzió	25 FPS egyetlen H100-on	Igen	Project
Matrix-Game 3.0	Skywork AI	2026	Memóriával bővített interaktív világmodell	Akár 40 FPS 720p-ben egy 5B modellel	Igen	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Miért esnek szét ezek a világok

Ezek a rendszerek még mindig négy fontos módon törnek meg, de a hibamód nem csak az, hogy „nincs elég számítási kapacitás". Több GPU javíthatja a felbontást, a késleltetést és a modellméretet, de a produkciós szintű koherenciához jobb memória, állapotkövetés és vezérlési architektúra kell. Egy modell, amely valószerű képkockákat jelez előre, nem ugyanaz, mint egy motor explicit szabályokkal, vizsgálható változókkal, determinisztikus állapotfrissítésekkel és mentés/betöltés szemantikával. Az alábbi korlátozások mindegyike azt mutatja, mire nem képes strukturálisana modell, nem pedig azt, amiben még nem lett elég jó.

Nincs tartós világállapot

Ezek a rendszerek nem tesznek elérhetővé változókat úgy, ahogy egy hagyományos motor teszi. Egy normál motor a világot adatként tárolja: ez a láda nyitva van, ez az ellenség halott, a játékos a (412, 88) koordinátán van. A korai képkocka-előrejelző rendszerekben nincs tartós motorállapot ebben a játékfejlesztési értelemben. A modell többnyire a legutóbbi vizuális kontextusra és tanult priorokra támaszkodik, így az objektumok megváltozhatnak, eltűnhetnek vagy hibásan jelenhetnek meg újra, miután kikerülnek a látótérből. Az újabb rendszerek explicit memória- és konzisztenciamechanizmusokkal egészülnek ki, de még mindig nem teszik elérhetővé azt a tiszta, hibakereshető világállapotot, amelyet egy hagyományos motor ad a fejlesztőknek.

Gyengébb vagy korai képkocka-előrejelző rendszerekben egy láda, amelyet kinyitottál, becsukva jelenhet meg újra, egy szörny, amelyet megöltél, visszasétálhat, és egy szerkezet, amelyet építettél, feloldódhat, amint kikerül a képből. A játékosok az eredeti Oasis demót úgy írták le, mint amelynek „álomlogikája" van: megfordulsz, és lehet, hogy nem térsz vissza pontosan ugyanarra a helyre. Az újabb rendszerek erősebb memória- és konzisztenciamechanizmusokkal próbálják csökkenteni ezt a problémát, de a szakadék megmarad: még mindig nem tesznek elérhetővé hagyományos, vizsgálható játékállapot-réteget.

A kontextusablak felső határa

A koherenciát a modell memóriadizájnja korlátozza, nem csupán a nyers vizuális minőség. A GameNGen rövid közvetlen képkocka-előzményt használ, mégis stabil, többperces játékmeneteket jelent tanult korrekció révén. A Genie 2 látható hosszú távú memóriapéldákat vezetett be, és akár egy percig is fenntartotta a konzisztenciát, a legtöbb példa 10-20 másodpercig tartott. A Genie 3 a folyamatos interakciót néhány percig tolja, a Matrix-Game 3.0 pedig közvetlenül támadja a problémát hosszú távú memóriával. A megoldatlan kérdés nem az, hogy „kibír-e a modell néhány másodpercnél többet?" Hanem az, hogy képes-e megőrizni egy megbízható, vizsgálható, menthető világállapotot egy valódi játék hosszában és összetettségében.

Sztochasztikus, nem determinisztikus

A kimenet alapértelmezetten valószínűségi. Futtasd le ugyanazt a beállítást kétszer, és különböző képkockákat kaphatsz, hacsak a rendszert erősen nem korlátozzák. Egy művészeti eszközhöz ez hasznos lehet; sok produkciós játékhoz viszont probléma. A többjátékos mód, a versenyképes egyensúly, a visszajátszások, a képességfejlődés és a mentés/betöltés mind megbízható állapotátmenetektől függ. Egy világmodellt megismételhetőbbé lehet tenni, de egy produkciós játéknak még mindig szüksége lenne egy determinisztikus logikai rétegre vagy állapotrendszerre, hogy garantálja a játékosok és fejlesztők által elvárt viselkedést.

Játék ez, vagy videó-előrejelzés billentyűzettel?

A legélesebb kritika az, hogy ezek a rendszerek nem szimulálnak világokat a hagyományos játékmotor értelmében; valószerű vizuális folytatásokat generálnak, és hagyják, hogy te irányítsd őket. Egy játékmotor szabályokat kódol; egy világmodell valószerűséget kódol. Egy hozzászóló a GameNGen Hacker News szálban úgy nevezte, hogy „a világ leghatékonytalanabb videótömörítése", és mint provokáció, ez talál: a modell gyakorlatilag memorizált egy eloszlást a játékmenet-felvételek felett, és ezen interpolál a bemeneteidre válaszul. Erre van egy tiszta teszt, az alábbi kiemelt dobozban.

A „sodródás álló helyzetben" árulkodó jel. Ha egy világmodell valóban kiszámítana egy világot, egy mozdulatlan játékosnak stabil képet kellene eredményeznie: semmi sem változik, tehát semminek sem szabadna változnia. Gyengébb vagy korai képkocka-előrejelző rendszerekben még az álló helyzet is felfedheti a sodródást: apró részletek elmozdulnak, mert a modell a következő valószerű képkockát jelzi előre, ahelyett hogy egy rögzített, vizsgálható világállapotból renderelne. Ez az árulkodó jel. A jelenet egy ideig stabilnak tűnhet, de a rendszer még mindig folytonosságot generál, nem pedig egy hagyományos motorból olvassa ki azt.

Fő tanulság: a determinizmus és a tartósság korlátai architekturális problémák, nem olyan kérdések, amelyeket a nyers méretezés önmagában megold. Bármely rendszernek, amelynek megbízható, megismételhető, menthető világra van szüksége, továbbra is szüksége van egy determinisztikus logikai rétegre, explicit memória-/állapotrendszerre vagy hibrid motorkialakításra, amelyet a jelenlegi képkockagenerálási megközelítések önmagukban nem biztosítanak.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Mennyibe kerül valójában a futtatása

A valós idejű generálás drága, és a címsorba kerülő számok sok mindent elrejtenek. A GameNGen „egyetlen TPU"-ja olcsónak hangzik, amíg eszedbe nem jut, hogy DOOM-ot szimulál 320×240-ben, nem pedig egy modern, nagy felbontású játékot. Az eredeti Oasis demó valós időben futott H100-osztályú infrastruktúrán, a Decart újabb Oasis 3-a pedig konkrétabbá teszi a gazdaságosságot. A Decart az Oasis 3-at API-n keresztül elérhető interaktív világmodellként pozicionálja fizikai AI-hoz, és a TechCrunch beszámolt az előzetes hozzáférés árazásáról , amely másodpercenként $0.02, vagy egy 60 másodperces munkamenetért $1.20. Ez hasznos teszteléshez, szimulációhoz és kutatási munkafolyamatokhoz, de még mindig nagyon más költségmodell, mint egy normál játékkliens kiadása.

Hogy léptéket adjunk neki: a valós idejű világgenerálás még mindig drága, de a hardverkép gyorsan változik. Néhány nyílt kutatási rendszer ma már valós idejű vagy közel valós idejű generálásról számol be egyetlen H100-osztályú GPU-n, míg a csúcskategóriás, fogyasztói irányultságú rendszerek továbbra is felhőben futnak, és gyakran nincsenek nyilvánosságra hozva. A biztos pont nem az, hogy „egy GPU sosem lesz rá képes"; hanem az, hogy a produkciós minőségű, alacsony késleltetésű, nagy felbontású világgenerálás még mindig komoly infrastruktúra-probléma.

Az ellenérv az, hogy a küszöb gyorsan süllyed, és a nyílt forráskódú szint valódi. A DIAMOND körülbelül 12 nap alatt tanult be egyetlen RTX 4090-en, és a hivatalos projektoldalaszerint nagyjából 10 FPS-en játszható egy RTX 3090-en. A MineWorld és a Matrix-Game nyilvánosan futtatható. Tehát bár a legbámulatosabb demók még mindig specializált, drága infrastruktúrától függenek, egy kíváncsi fejlesztő már most futtathat valódi világmodell-kísérleteket elérhető hardveren. Mindkét dolog egyszerre igaz: a csúcsminőségű interakció költséges, és a kísérletezés belépési pontja már most valódi.

Akkor kiváltja-e az AI a Unity-t és az Unreal-t?

Rövid távon nem, és az ok a fenti korlátok, nem a beruházás hiánya. A piac komolyan vette ezt. A Google 2026. január 29-én bevezette a Project Genie-t az egyesült államokbeli Google AI Ultra előfizetők számára, és másnap több gaming-részvény erősen leértékelődött: a The Verge szerint a Unity 24.22%-ot, a Roblox 13.17%-ot, a Take-Two pedig 7.93%-ot esett a péntek záráskor. A szorongás az iparágon belül is megjelent: a GDC 2026-os felmérése azt találta, hogy a játékipari szakemberek 52%-a úgy látta, hogy a generatív AI negatív hatással van a játékokra, szemben az előző évi 30%-kal. De a részvénymozgások és a felmérési szorongás egy demóra adott reakciók. Az architektúra az, ami a tényleges idővonalat meghatározza.

A jelenlegi pályát olvasva, és ez az én olvasatom, nem egy letisztult előrejelzés, a következő 1-3 év valószínűleg kutatási prototípusokban, szimulációs infrastruktúrában, robotikai/fizikai-AI betanításban és szűk fogyasztói irányultságú demókban tartja a világmodelleket, nem pedig teljes kereskedelmi játékokban. A valószínű 3-7 éves út a hibrid, nem a kiváltás: egy világmodell, amely a vizuális generálást kezeli, egy könnyű determinisztikus állapotgép tetején ülve, amely a tényleges játéklogikát tartja. Ez kiegészítés. A pálya elég meredek (DOOM 320p-ben szövegből-720p-be nagyjából egy év alatt) ahhoz, hogy a magabiztos hosszú távú jóslatok ne legyenek bölcs dolgok, ezért nem teszek ilyet.

A részlet, amely átkeretezi az egész kérdést: a DeepMind a világmodelleket az ügynökök betanításához és az AGI-kutatáshoz köti, míg a Project Genie ugyanazt a technológiát egy fogyasztói irányultságú világalkotó prototípusként mutatja meg. A Decart Oasis 3-a még explicitebben a robotikára, az autonóm járművekre és a fizikai-AI szimulációra irányul. A fogyasztói játékok fontosak a történethez, de a rövid távú kereskedelmi húzóerő talán először a szimulációból, a betanításból és a prototípuskészítésből érkezik.

Gyakran ismételt kérdések

Mi a különbség egy világmodell és egy játékmotor között?

Egy játékmotor explicit szabályokat kódol, és a játékállapotot adatként tárolja: determinisztikus, vizsgálható és hibakereshető. Egy olyan világmodell, mint a GameNGen, valószerű következő képkockákat jelez előre a legutóbbi képkockákból és a te bemenetedből, a hagyományos motorszerű állapot, szabályok és objektumváltozók nélkül, amelyeket a fejlesztők normál esetben vizsgálnak és vezérelnek. A motor kiszámítja a világot; a világmodell megtippeli azt. Ezért megismételhető az egyik, és nem az a másik.

Hogyan működik a GameNGen?

A GameNGen három nagy lépésben futtatja a DOOM-ot. Először egy megerősítéses tanulási ügynök DOOM-munkamenetek ezreit játssza végig, amelyeket cselekvésekkel párosított képkockákként rögzítenek. Másodszor egy módosított Stable Diffusion v1.4 megtanulja előre jelezni a következő képkockát a korábbi képkockák és a játékos bemenete alapján. Harmadszor az inferenciát 4 zajtalanítási lépésre csökkentik, ami nagyjából 20 FPS-t produkál egyetlen TPU-n, 320×240-ben.

Miért változik folyamatosan a világ az Oasisban, amikor megfordulsz?

Az eredeti, Minecraft-szerű Oasis demóban a világ megváltozhatott, amikor megfordultál, mert a rendszer nem őrzött meg hagyományos, motorszerű világállapotot. A következő nézetet a legutóbbi vizuális kontextusból és tanult priorokból generálta, így a látótéren kívüli objektumok megváltozott formában térhettek vissza. Az újabb rendszerek erősebb memória- és konzisztenciamechanizmusokkal egészülnek ki, de éppen az az eredeti „álomlogika" volt az, ami könnyen észrevehetővé tette a korlátot.

Meddig maradhat konzisztens egy AI által generált játékvilág, mielőtt elsodródna?

A modelltől függ. A korai rendszerek gyakran másodperceken vagy tíz másodperceken belül elsodródnak, de az újabb rendszerek kitolják ezt a horizontot. A GameNGen valamivel több mint 3 másodpercnyi közvetlen kontextussal rendelkezik, mégis stabil maradhat hosszabb játékmeneten át tanult heurisztikák révén. A Genie 2 többnyire 10-20 másodperces példákat mutatott, néhány esetben akár egy percig. A Genie 3 néhány percre emeli az állítást 720p/24fps mellett, a Matrix-Game 3.0 pedig perces hosszúságú memóriakonzisztenciáról számol be. A megoldatlan probléma nem a rövid klipek; hanem a tartós, vizsgálható, menthető világállapot.

Kiváltja-e az AI az olyan játékmotorokat, mint a Unity vagy az Unreal?

Rövid távon nem. Az akadályok inkább architekturálisak, mint pusztán méretezési probléma: a produkciós játékokhoz tartós állapot, megbízható logika, determinisztikus viselkedés és mentés/betöltés szemantika kell. A méretezés segít a minőségen és a koherencián, de önmagában nem hoz létre hagyományos játékhurkot. A valószínű út a hibrid: egy világmodell, amely vizuális anyagot generál egy determinisztikus motor tetején a játéklogikához, ami kiegészítés, nem kiváltás. A DeepMind a világmodelleket az ügynökök betanítása és az AGI-kutatás szempontjából fontosként mutatja be, míg a Project Genie a technológiát egy fogyasztói irányultságú világalkotó prototípusként is láthatóvá teszi. A Decart Oasis 3-a a tisztább példa egy olyan modellre, amely explicit módon a robotikára, az autonóm járművekre és a fizikai-AI szimulációra irányul.

Játszhatsz-e most azonnal bármelyik ilyen AI által generált játékkal?

Igen, többel is. A Decart eredeti Oasisának volt egy nyilvános, Minecraft-szerű webes demója, újabb Oasis 3 Preview-ja pedig most API-n keresztül elérhető valós idejű világmodell-kísérletekhez. A Google Project Genie-je szintén elérhetővé vált a Google AI Ultra előfizetők számára az Egyesült Államokban 2026 januárjában. A nyílt forráskódú szinten a DIAMOND és a MineWorld letölthető és futtatható fogyasztói GPU-kon, a DIAMOND-ról nagyjából 10 FPS-t jelentenek egy RTX 3090-en.

Játékok játékmotor nélkül: hogyan generálnak az AI-modellek játszható világokat