Ugrás a fő tartalomra
50% kedvezmény minden csomagra, korlátozott ideig. Már $2.48/mo
18 min left
AI és gépi tanulás

Játékok játékmotor nélkül: hogyan generálnak az AI-modellek játszható világokat

S Szerző: Sherwin 18 perc olvasás
Dark Cloudzy banner titled Games Without a Game Engine showing how AI models generate playable worlds frame by frame: previous frames feed an AI world model with latent space, a diffusion pass, and neural rendering, which predicts the next frame in a real-time loop driven by player input.

2024-ben egy Google Research és Google DeepMind csapat megmutatta, hogy egy neurális modell képes játszható DOOM-ot szimulálni több mint 20 képkocka/másodperc sebességgel anélkül, hogy az eredeti játékmotor futna alatta. Nem volt hagyományos motorhurok, amely a szokásos módon kifejezetten tárolta volna a koordinátákat, a fizikai objektumokat, az életerő-változókat vagy a pálya állapotát. Ehelyett a GameNGen megtanulta kikövetkeztetni a következő képkockát a legutóbbi képkockákból és a játékos bemeneteiből, beleértve az olyan vizuális jeleket, mint az életerő, a lőszer, az ellenségek, az ajtók és a falak. A rendszer, melynek neve GameNGen, a Stable Diffusion egy módosított változata (ugyanaz a fajta modell, amely szövegből képeket generál), és úgy játssza a DOOM-ot, hogy minden következő képkockát a korábbi képkockák, valamint az imént lenyomott billentyű alapján hallucinál.

Ez alapvetően más dolog, mint az „AI a játékmotoron belül". Amikor egy stúdió AI-t használ textúrák generálására vagy NPC-párbeszédek megírására a Unity-ben, a motor még mindig ott van, és végzi a tényleges munkát. A GameNGennek nincs motorja. A modell is a játék. És ez egy valódi határterület kezdete, amit a címsorok rendre félreértenek. A GameNGen az ICLR kutatási szekción keresztül jelent meg, a DIAMOND a NeurIPS 2024-en keresztül érkezett, és olyan cégek, mint a Google DeepMind, a Microsoft Research, a Decart és a Skywork AI most a cikkekből a demók, az API-k és a nyílt forráskódú rendszerek felé tolják az ötletet.

Íme, mit csinálnak valójában ezek a rendszerek, hogyan működik a következő képkocka előrejelzése, miért bomlik fel a koherencia és a memória hosszabb interakció során, mennyibe kerül a futtatásuk, és vajon a Unity-re törnek-e. Az utóbbira a rövid válasz: nem, legalábbis nem úgy, ahogyan a hype sugallja. Az ok architekturális: több számítási kapacitás segít, de önmagában nem hoz létre tartós állapotot, determinisztikus logikát vagy hibakereshető játékhurkot.

A rövid verzió

  • Ezek a modellek képkockákat jeleznek előre; nem szabályokat szimulálnak. Egy játékmotor a következő állapotot logikából és tárolt változókból számítja ki. Egy olyan világmodell, mint a GameNGen vagy az Oasis a következő képet a korábbi képkockák és a te bemeneted alapján tippeli meg. Nem hagyományos játékmotor-szimulációt futtat explicit objektumállapottal, fizikai kóddal és vizsgálható változókkal; a következő megfigyelést egy tanult modellen keresztül generálja.
  • A koherenciájukat továbbra is a memória és a kontextus korlátozza, de a határ már nem olyan egyszerű, mint hogy „néhány másodperc után minden szétesik". A GameNGen valamivel több mint 3 másodpercnyi közvetlen képkocka-előzménnyel rendelkezik, mégis vizuálisan stabil maradhat hosszabb pályaszakaszokon át tanult heurisztikák révén. A Genie 2 általában 10-20 másodperces példákat mutatott, és néha képes volt megőrizni a látótéren kívüli részleteket, míg a Genie 3 néhány percig tolja a konzisztenciát 720p/24fps mellett. Az alapvető gyengeség megmarad: ezek a rendszerek még nem nyújtják azt a tartós, vizsgálható, menthető állapotot, amelyre a produkciós játékok támaszkodnak.
  • Természetüknél fogva nem determinisztikusak úgy, ahogy a produkciós játékoknak szükségük lenne rá. Korlátozhatod a mintavételezést vagy rögzítheted a seedeket, de ez még mindig nem adja meg egy normál motor tiszta, vizsgálható állapotfrissítéseit. A többjátékos mód, a versenyképes egyensúly, a visszajátszások, a képességfejlődés és a mentés/betöltés mind megbízható állapotátmenetektől függ. Egy képkockagenerátor megközelítheti ezt a viselkedést, de egy produkciós játéknak még mindig szüksége lenne egy determinisztikus logikai rétegre alatta vagy mellette.
  • A DeepMind a világmodelleket az AI-ügynökök gazdag szimulált környezetekben történő betanításának és értékelésének alapjaként mutatja be, míg a Project Genie ugyanazt a technológiát egy fogyasztói irányultságú világalkotó prototípusban mutatja meg. A Decart újabb Oasis 3-a még explicitebben a fizikai AI-ra, a robotikára és az autonóm járművek szimulációjára irányul. Ez átkeretezi a „törnek-e ezek a Unity-re?" kérdést: a legkomolyabb rövid távú piac talán az ügynökök betanítása és a szimuláció lehet, nem a kész fogyasztói játékok.

Amit ez a cikk nem tárgyal

Néhány szomszédos téma ugyanabba a beszélgetésbe kerül, de nem ide tartozik:

  • DLSS, FSR, felskálázás és képkockagenerálás. Ezekben az AI egy normál renderelési folyamat egyes lépéseit váltja ki; a motor még mindig fut. Ez egy külön téma, a neurális renderelés, és nem ezzel foglalkozik ez a cikk.
  • A részletes megerősítéses tanulási módszertan, amellyel a betanítási adatokat gyűjtik. Fogalmi szinten leírom; a teljes recept a cikkekben található.
  • Játékszerver-tárhely és infrastruktúra-beállítás. Ez egy magyarázat arról, hogyan működnek a modellek, nem pedig telepítési útmutató.

Mit értenek az emberek az „AI játékmotor" alatt (és melyik az itt tárgyalt)

Az „AI játékmotor" kifejezést három teljesen különböző dologhoz kapcsolják, és a téma körüli zavar nagy része abból ered, hogy ezeket egybemossák. Ez a cikk pontosan az egyikről szól: egy olyan modellről, amely minden képkockát előre jelez, és teljesen kiváltja a motort. Nem a hagyományos motorra ráerősített AI-eszközökről, és nem egy olyan eszközről, amely 3D-környezeteket épít, amelyeket aztán betöltesz egy motorba.

A három jelentés, egyszerűen megfogalmazva:

  1. AI-eszközök egy hagyományos motoron belül . Eszközgenerálás, textúraszintézis, NPC-viselkedési fák, párbeszédírás: mind a Unity-n vagy az Unreal-en belül futnak. A motor továbbra is renderel képkockákat, futtatja a fizikát és kezeli az állapotot. Az AI egy segéd a tartalomkészítési folyamatban. Az „AI játékmotor" keresési találatok többsége valójában erről szól, és ez nem e cikk témája.
  2. Szerzői 3D-tér-generátorok. A World Labs, amelyet Fei-Fei Li társalapított, kínálja a Marblenevű eszközt, amely tartós, letölthető 3D-környezeteket hoz létre szövegből, képekből, videókból vagy más bemenetekből. Lényeges, hogy a Marble közelebb áll egy térbeli tartalomkészítő eszközhöz: tartós 3D-világokat generál, amelyekben mozogni lehet, szerkeszthetők, letölthetők vagy exportálhatók a későbbi munkafolyamatokba. Ez teszi különbözővé a GameNGentől, az Oasistól vagy a Genie-jellegű rendszerektől, ahol maga a játszható élmény élőben, képkockáról képkockára generálva jön létre.
  3. Világmodellek, amelyek kiváltják a motort. GameNGen, Oasis, a Genie család, DIAMOND, MineWorld, Matrix-Game. Ezek közvetlenül játszható megfigyeléseket generálnak, ahelyett, hogy egy normál szerzői jelenetet töltenének be a Unity-be vagy az Unreal-be. Néhány újabb rendszer memória- és konzisztenciamechanizmusokkal egészül ki, de még mindig nem teszik elérhetővé egy hagyományos játékmotor tartós, vizsgálható, fejlesztő által vezérelt állapotmodelljét. Itt ez a téma.

Egy gyors döntési szabály bármely cikkhez, amit olvasol: ha a rendszer egy fájlt állít elő, amelyet betöltesz a Unity-be, akkor az az 1. vagy 2. kategória. Ha a rendszer is maga az, amivel játszol, élőben generált képkockákkal, akkor az a 3. kategória: egy világmodell.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Hogyan generál egy modell játékot motor nélkül

Egy világmodell megtanulja, hogyan néz ki egy játék mozgásban, majd a következő képkockát a legutóbbi képkockák és a játékos aktuális bemenete alapján jelzi előre. Egy hagyományos motorral ellentétben nem tesz elérhetővé tiszta változókat, mint például „az ajtó nyitva van", „ez az ellenség halott" vagy „a játékos az X koordinátán van". A korai képkocka-előrejelző rendszerekben a modell többnyire azt tanulja meg, hogy bizonyos vizuális állapotok bizonyos bemeneteket szoktak követni. A játék pusztán annyi, hogy ezt a tanult előrejelzési hurkot elég gyorsan futtatjuk ahhoz, hogy interaktívnak érződjön.

A GameNGen a legtisztább kidolgozott példa, mert a cikk minden lépést részletez. A folyamat két fázisban zajlik. Először egy megerősítéses tanulási ügynök DOOM-munkamenetek ezreit játssza végig, és minden munkamenet képkockák folyamaként kerül rögzítésre, az azokat előállító cselekvésekkel párosítva. Másodszor egy módosított Stable Diffusion v1.4-et tanítanak be ezeken az adatokon, hogy előre jelezze a következő képkockát a korábbi képkockák és a játékos cselekvése alapján. A cselekvés közvetlenül beépül a kondicionálásba, és ez az a trükk, amitől ez játék lesz, nem pedig csupán egy videógenerátor. A billentyűleütésed a következő kép promptjának része.

A nehéz rész a sebesség. Egy normál diffúziós modell 20-50 zajtalanítási lépést futtat, hogy a zajból képet csináljon, ami messze túl lassú a valós idejű játékhoz. A GameNGen ezt 4 zajtalanítási lépésrecsökkenti, így a teljes inferencia nagyjából 50 ezredmásodpercre jön ki képkockánként: elég gyors a 20 FPS-hez egyetlen TPU-n, a DOOM natív 320×240 felbontásán. Az emberi értékelők csak a véletlennél valamivel jobban tudták megkülönböztetni a szimuláció rövid klipjeit a valódi DOOM-felvételektől.

A legtöbb rendszer ebben a térben átfedő architekturális mintázatokba esik:

  • Diffúzió-alapú rendszerek (GameNGen, Oasis, DIAMOND, Genie 2): zajból indulnak, és iteratívan zajtalanítják a következő képkockává. Erős rövid távú vizuális minőséget tudnak produkálni, de sebességtrükkökre van szükségük az interaktív futtatáshoz.
  • Autoregresszív rendszerek (MineWorld): a jövőbeli képkockákat vagy tokeneket szekvenciálisan jelzik előre, közelebb ahhoz, ahogy egy nyelvi modell jelzi előre a szöveget. A MineWorld a képkockasebességet cseréli a szorosabb cselekvéskövetésre, nagyjából 4-7 FPS körül landolva.
  • Memóriával és vezérléssel bővített hibridek (Matrix-Game 2.0/3.0 és újabb rendszerek): a valós idejű generálást cselekvéskondicionálással, kameravezérléssel és explicit memóriamechanizmusokkal kombinálják a hosszú távú sodródás csökkentésére.

Egy részlet fontos a következő szakaszhoz. A betanítás során a GameNGen szándékosan zajt ad hozzá a múltbeli képkockákhoz, amelyekre kondicionál. Ez arra kényszeríti a modellt, hogy megtanulja kijavítani a saját hibáit, ahelyett hogy halmozná őket; ez enyhítés a sodródási problémára. Segít. De nem oldja meg.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

A leszármazási vonal: a Genie 1-től a Genie 3-ig két év alatt

Az egyetlen leginkább szembeötlő dolog ezen a területen a meredekség. 2024 februárjában a Genie 1 irányítható 2D-platformereket generált 256×256-ban. Tizennyolc hónappal később a Genie 3 navigálható 3D-világokat generált egy szöveges promptból 720p-ben és 24 FPS mellett. Ez az a pálya, amelyre érdemes figyelni: nem bármelyik egyedi demó, hanem a köztük lévő változás üteme.

Egyetlen folyamatként olvasva a történet így szól. A Genie 1 (DeepMind, ICML 2024) bebizonyította, hogy interaktív környezeteket lehet tanulni címkézetlen videóból. A GameNGen (Google, ICLR 2025) megmutatta, hogy ugyanaz az ötlet képes egy valódi, pörgős játékot (DOOM) valós időben futtatni. Az Oasis (Decart, 2024. október) elhozta ezt a Minecrafthoz, és nyilvánosan játszhatóvá tette. A Genie 2 (DeepMind, 2024. december) egyetlen képből generált 3D-világokra ugrott. DIAMOND (NeurIPS 2024) nyílt forráskódúvá és fogyasztói GPU-n futtathatóvá tette a megközelítést. GameGen-X és MineWorld (Microsoft, 2025) tovább tolta a nyílt ökoszisztémát. A Genie 3 (2025. augusztus; nyilvánosan Project Genie néven 2026 januárjától) elérte a valós idejű 3D-t szövegből. Matrix-Game 2.0 a nyílt forráskódú, valós idejű streaming generálást 25 FPS-re tolta, a Matrix-Game 3.0 pedig közvetlenebbül támadta a memóriaproblémát egy hosszú távú memóriaarchitektúrával.

Ez valódi értelemben a neurális renderelési trend másik vége. A neurális renderelés az, amikor az AI a grafikai folyamat egyes lépéseit váltja ki (itt felskálázás, ott árnyékolás), miközben a motor tovább fut. A világmodellek pedig az, amikor az AI a teljes folyamatot váltja ki. Ha a kettőt együtt olvasod, a neurális renderelés az „az AI megeszi a részeket" történet, ez pedig az „az AI megeszi az egészet" történet. Mindegyik a másik logikus következő lépése.

A főbb rendszerek specifikációi az alábbi táblázatban találhatók; a narratíva lényege az ív, nem a számok.

RendszerFejlesztőÉvMegközelítésFelbontás / FPSNyílt forráskódú?Forrás
Genie 1Google DeepMind2024Látens cselekvés256×256NoarXiv
GameNGenGoogle2024Diffúzió320×240 / 20 FPSNoarXiv
OasisDecart + Etched2024Diffúzió (Forcing)360p / 20 FPSRészleges (500M ckpt)Project
Oasis 3Decart2026API-n keresztül elérhető interaktív világmodell fizikai AI-hozValós idejű API-előzetesNoDecart / TechCrunch
Genie 2Google DeepMind2024Autoregresszív látens diffúzióN/ANoDeepMind
DIAMONDGenf / Edinburgh / MSR2024DiffúzióAtari / CS:GOIgen (MIT)arXiv
GameGen-XAkadémiai2024Diffúziós transzformerN/AIgenarXiv
MineWorldMicrosoft Research2025Autoregresszív4-7 FPSIgenarXiv
Genie 3Google DeepMind2025Általános célú valós idejű világmodell720p / 24 FPSNoDeepMind
Matrix-Game 2.0Skywork AI2025Kevés lépéses autoregresszív diffúzió25 FPS egyetlen H100-onIgenProject
Matrix-Game 3.0Skywork AI2026Memóriával bővített interaktív világmodellAkár 40 FPS 720p-ben egy 5B modellelIgenProject / arXiv
Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Miért esnek szét ezek a világok

Ezek a rendszerek még mindig négy fontos módon törnek meg, de a hibamód nem csak az, hogy „nincs elég számítási kapacitás". Több GPU javíthatja a felbontást, a késleltetést és a modellméretet, de a produkciós szintű koherenciához jobb memória, állapotkövetés és vezérlési architektúra kell. Egy modell, amely valószerű képkockákat jelez előre, nem ugyanaz, mint egy motor explicit szabályokkal, vizsgálható változókkal, determinisztikus állapotfrissítésekkel és mentés/betöltés szemantikával. Az alábbi korlátozások mindegyike azt mutatja, mire nem képes strukturálisana modell, nem pedig azt, amiben még nem lett elég jó.

Nincs tartós világállapot

Ezek a rendszerek nem tesznek elérhetővé változókat úgy, ahogy egy hagyományos motor teszi. Egy normál motor a világot adatként tárolja: ez a láda nyitva van, ez az ellenség halott, a játékos a (412, 88) koordinátán van. A korai képkocka-előrejelző rendszerekben nincs tartós motorállapot ebben a játékfejlesztési értelemben. A modell többnyire a legutóbbi vizuális kontextusra és tanult priorokra támaszkodik, így az objektumok megváltozhatnak, eltűnhetnek vagy hibásan jelenhetnek meg újra, miután kikerülnek a látótérből. Az újabb rendszerek explicit memória- és konzisztenciamechanizmusokkal egészülnek ki, de még mindig nem teszik elérhetővé azt a tiszta, hibakereshető világállapotot, amelyet egy hagyományos motor ad a fejlesztőknek.

Gyengébb vagy korai képkocka-előrejelző rendszerekben egy láda, amelyet kinyitottál, becsukva jelenhet meg újra, egy szörny, amelyet megöltél, visszasétálhat, és egy szerkezet, amelyet építettél, feloldódhat, amint kikerül a képből. A játékosok az eredeti Oasis demót úgy írták le, mint amelynek „álomlogikája" van: megfordulsz, és lehet, hogy nem térsz vissza pontosan ugyanarra a helyre. Az újabb rendszerek erősebb memória- és konzisztenciamechanizmusokkal próbálják csökkenteni ezt a problémát, de a szakadék megmarad: még mindig nem tesznek elérhetővé hagyományos, vizsgálható játékállapot-réteget.

A kontextusablak felső határa

A koherenciát a modell memóriadizájnja korlátozza, nem csupán a nyers vizuális minőség. A GameNGen rövid közvetlen képkocka-előzményt használ, mégis stabil, többperces játékmeneteket jelent tanult korrekció révén. A Genie 2 látható hosszú távú memóriapéldákat vezetett be, és akár egy percig is fenntartotta a konzisztenciát, a legtöbb példa 10-20 másodpercig tartott. A Genie 3 a folyamatos interakciót néhány percig tolja, a Matrix-Game 3.0 pedig közvetlenül támadja a problémát hosszú távú memóriával. A megoldatlan kérdés nem az, hogy „kibír-e a modell néhány másodpercnél többet?" Hanem az, hogy képes-e megőrizni egy megbízható, vizsgálható, menthető világállapotot egy valódi játék hosszában és összetettségében.

Sztochasztikus, nem determinisztikus

A kimenet alapértelmezetten valószínűségi. Futtasd le ugyanazt a beállítást kétszer, és különböző képkockákat kaphatsz, hacsak a rendszert erősen nem korlátozzák. Egy művészeti eszközhöz ez hasznos lehet; sok produkciós játékhoz viszont probléma. A többjátékos mód, a versenyképes egyensúly, a visszajátszások, a képességfejlődés és a mentés/betöltés mind megbízható állapotátmenetektől függ. Egy világmodellt megismételhetőbbé lehet tenni, de egy produkciós játéknak még mindig szüksége lenne egy determinisztikus logikai rétegre vagy állapotrendszerre, hogy garantálja a játékosok és fejlesztők által elvárt viselkedést.

Játék ez, vagy videó-előrejelzés billentyűzettel?

A legélesebb kritika az, hogy ezek a rendszerek nem szimulálnak világokat a hagyományos játékmotor értelmében; valószerű vizuális folytatásokat generálnak, és hagyják, hogy te irányítsd őket. Egy játékmotor szabályokat kódol; egy világmodell valószerűséget kódol. Egy hozzászóló a GameNGen Hacker News szálban úgy nevezte, hogy „a világ leghatékonytalanabb videótömörítése", és mint provokáció, ez talál: a modell gyakorlatilag memorizált egy eloszlást a játékmenet-felvételek felett, és ezen interpolál a bemeneteidre válaszul. Erre van egy tiszta teszt, az alábbi kiemelt dobozban.

A „sodródás álló helyzetben" árulkodó jel. Ha egy világmodell valóban kiszámítana egy világot, egy mozdulatlan játékosnak stabil képet kellene eredményeznie: semmi sem változik, tehát semminek sem szabadna változnia. Gyengébb vagy korai képkocka-előrejelző rendszerekben még az álló helyzet is felfedheti a sodródást: apró részletek elmozdulnak, mert a modell a következő valószerű képkockát jelzi előre, ahelyett hogy egy rögzített, vizsgálható világállapotból renderelne. Ez az árulkodó jel. A jelenet egy ideig stabilnak tűnhet, de a rendszer még mindig folytonosságot generál, nem pedig egy hagyományos motorból olvassa ki azt.

Fő tanulság: a determinizmus és a tartósság korlátai architekturális problémák, nem olyan kérdések, amelyeket a nyers méretezés önmagában megold. Bármely rendszernek, amelynek megbízható, megismételhető, menthető világra van szüksége, továbbra is szüksége van egy determinisztikus logikai rétegre, explicit memória-/állapotrendszerre vagy hibrid motorkialakításra, amelyet a jelenlegi képkockagenerálási megközelítések önmagukban nem biztosítanak.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Mennyibe kerül valójában a futtatása

A valós idejű generálás drága, és a címsorba kerülő számok sok mindent elrejtenek. A GameNGen „egyetlen TPU"-ja olcsónak hangzik, amíg eszedbe nem jut, hogy DOOM-ot szimulál 320×240-ben, nem pedig egy modern, nagy felbontású játékot. Az eredeti Oasis demó valós időben futott H100-osztályú infrastruktúrán, a Decart újabb Oasis 3-a pedig konkrétabbá teszi a gazdaságosságot. A Decart az Oasis 3-at API-n keresztül elérhető interaktív világmodellként pozicionálja fizikai AI-hoz, és a TechCrunch beszámolt az előzetes hozzáférés árazásáról , amely másodpercenként $0.02, vagy egy 60 másodperces munkamenetért $1.20. Ez hasznos teszteléshez, szimulációhoz és kutatási munkafolyamatokhoz, de még mindig nagyon más költségmodell, mint egy normál játékkliens kiadása.

Hogy léptéket adjunk neki: a valós idejű világgenerálás még mindig drága, de a hardverkép gyorsan változik. Néhány nyílt kutatási rendszer ma már valós idejű vagy közel valós idejű generálásról számol be egyetlen H100-osztályú GPU-n, míg a csúcskategóriás, fogyasztói irányultságú rendszerek továbbra is felhőben futnak, és gyakran nincsenek nyilvánosságra hozva. A biztos pont nem az, hogy „egy GPU sosem lesz rá képes"; hanem az, hogy a produkciós minőségű, alacsony késleltetésű, nagy felbontású világgenerálás még mindig komoly infrastruktúra-probléma.

Az ellenérv az, hogy a küszöb gyorsan süllyed, és a nyílt forráskódú szint valódi. A DIAMOND körülbelül 12 nap alatt tanult be egyetlen RTX 4090-en, és a hivatalos projektoldalaszerint nagyjából 10 FPS-en játszható egy RTX 3090-en. A MineWorld és a Matrix-Game nyilvánosan futtatható. Tehát bár a legbámulatosabb demók még mindig specializált, drága infrastruktúrától függenek, egy kíváncsi fejlesztő már most futtathat valódi világmodell-kísérleteket elérhető hardveren. Mindkét dolog egyszerre igaz: a csúcsminőségű interakció költséges, és a kísérletezés belépési pontja már most valódi.

Akkor kiváltja-e az AI a Unity-t és az Unreal-t?

Rövid távon nem, és az ok a fenti korlátok, nem a beruházás hiánya. A piac komolyan vette ezt. A Google 2026. január 29-én bevezette a Project Genie-t az egyesült államokbeli Google AI Ultra előfizetők számára, és másnap több gaming-részvény erősen leértékelődött: a The Verge szerint a Unity 24.22%-ot, a Roblox 13.17%-ot, a Take-Two pedig 7.93%-ot esett a péntek záráskor. A szorongás az iparágon belül is megjelent: a GDC 2026-os felmérése azt találta, hogy a játékipari szakemberek 52%-a úgy látta, hogy a generatív AI negatív hatással van a játékokra, szemben az előző évi 30%-kal. De a részvénymozgások és a felmérési szorongás egy demóra adott reakciók. Az architektúra az, ami a tényleges idővonalat meghatározza.

A jelenlegi pályát olvasva, és ez az én olvasatom, nem egy letisztult előrejelzés, a következő 1-3 év valószínűleg kutatási prototípusokban, szimulációs infrastruktúrában, robotikai/fizikai-AI betanításban és szűk fogyasztói irányultságú demókban tartja a világmodelleket, nem pedig teljes kereskedelmi játékokban. A valószínű 3-7 éves út a hibrid, nem a kiváltás: egy világmodell, amely a vizuális generálást kezeli, egy könnyű determinisztikus állapotgép tetején ülve, amely a tényleges játéklogikát tartja. Ez kiegészítés. A pálya elég meredek (DOOM 320p-ben szövegből-720p-be nagyjából egy év alatt) ahhoz, hogy a magabiztos hosszú távú jóslatok ne legyenek bölcs dolgok, ezért nem teszek ilyet.

A részlet, amely átkeretezi az egész kérdést: a DeepMind a világmodelleket az ügynökök betanításához és az AGI-kutatáshoz köti, míg a Project Genie ugyanazt a technológiát egy fogyasztói irányultságú világalkotó prototípusként mutatja meg. A Decart Oasis 3-a még explicitebben a robotikára, az autonóm járművekre és a fizikai-AI szimulációra irányul. A fogyasztói játékok fontosak a történethez, de a rövid távú kereskedelmi húzóerő talán először a szimulációból, a betanításból és a prototípuskészítésből érkezik.

Gyakran ismételt kérdések

Mi a különbség egy világmodell és egy játékmotor között?

Egy játékmotor explicit szabályokat kódol, és a játékállapotot adatként tárolja: determinisztikus, vizsgálható és hibakereshető. Egy olyan világmodell, mint a GameNGen, valószerű következő képkockákat jelez előre a legutóbbi képkockákból és a te bemenetedből, a hagyományos motorszerű állapot, szabályok és objektumváltozók nélkül, amelyeket a fejlesztők normál esetben vizsgálnak és vezérelnek. A motor kiszámítja a világot; a világmodell megtippeli azt. Ezért megismételhető az egyik, és nem az a másik.

Hogyan működik a GameNGen?

A GameNGen három nagy lépésben futtatja a DOOM-ot. Először egy megerősítéses tanulási ügynök DOOM-munkamenetek ezreit játssza végig, amelyeket cselekvésekkel párosított képkockákként rögzítenek. Másodszor egy módosított Stable Diffusion v1.4 megtanulja előre jelezni a következő képkockát a korábbi képkockák és a játékos bemenete alapján. Harmadszor az inferenciát 4 zajtalanítási lépésre csökkentik, ami nagyjából 20 FPS-t produkál egyetlen TPU-n, 320×240-ben.

Miért változik folyamatosan a világ az Oasisban, amikor megfordulsz?

Az eredeti, Minecraft-szerű Oasis demóban a világ megváltozhatott, amikor megfordultál, mert a rendszer nem őrzött meg hagyományos, motorszerű világállapotot. A következő nézetet a legutóbbi vizuális kontextusból és tanult priorokból generálta, így a látótéren kívüli objektumok megváltozott formában térhettek vissza. Az újabb rendszerek erősebb memória- és konzisztenciamechanizmusokkal egészülnek ki, de éppen az az eredeti „álomlogika" volt az, ami könnyen észrevehetővé tette a korlátot.

Meddig maradhat konzisztens egy AI által generált játékvilág, mielőtt elsodródna?

A modelltől függ. A korai rendszerek gyakran másodperceken vagy tíz másodperceken belül elsodródnak, de az újabb rendszerek kitolják ezt a horizontot. A GameNGen valamivel több mint 3 másodpercnyi közvetlen kontextussal rendelkezik, mégis stabil maradhat hosszabb játékmeneten át tanult heurisztikák révén. A Genie 2 többnyire 10-20 másodperces példákat mutatott, néhány esetben akár egy percig. A Genie 3 néhány percre emeli az állítást 720p/24fps mellett, a Matrix-Game 3.0 pedig perces hosszúságú memóriakonzisztenciáról számol be. A megoldatlan probléma nem a rövid klipek; hanem a tartós, vizsgálható, menthető világállapot.

Kiváltja-e az AI az olyan játékmotorokat, mint a Unity vagy az Unreal?

Rövid távon nem. Az akadályok inkább architekturálisak, mint pusztán méretezési probléma: a produkciós játékokhoz tartós állapot, megbízható logika, determinisztikus viselkedés és mentés/betöltés szemantika kell. A méretezés segít a minőségen és a koherencián, de önmagában nem hoz létre hagyományos játékhurkot. A valószínű út a hibrid: egy világmodell, amely vizuális anyagot generál egy determinisztikus motor tetején a játéklogikához, ami kiegészítés, nem kiváltás. A DeepMind a világmodelleket az ügynökök betanítása és az AGI-kutatás szempontjából fontosként mutatja be, míg a Project Genie a technológiát egy fogyasztói irányultságú világalkotó prototípusként is láthatóvá teszi. A Decart Oasis 3-a a tisztább példa egy olyan modellre, amely explicit módon a robotikára, az autonóm járművekre és a fizikai-AI szimulációra irányul.

Játszhatsz-e most azonnal bármelyik ilyen AI által generált játékkal?

Igen, többel is. A Decart eredeti Oasisának volt egy nyilvános, Minecraft-szerű webes demója, újabb Oasis 3 Preview-ja pedig most API-n keresztül elérhető valós idejű világmodell-kísérletekhez. A Google Project Genie-je szintén elérhetővé vált a Google AI Ultra előfizetők számára az Egyesült Államokban 2026 januárjában. A nyílt forráskódú szinten a DIAMOND és a MineWorld letölthető és futtatható fogyasztói GPU-kon, a DIAMOND-ról nagyjából 10 FPS-t jelentenek egy RTX 3090-en.

Share

Több a blogról

Folytassa az olvasást.

Készen áll a telepítésre? Már 2,48 $/hó-tól.

Független felhő 2008 óta. AMD EPYC, NVMe, 40 Gbps. 14 napos pénzvisszafizetési garancia.