Jak AI generuje hry bez herního enginu (GameNGen, Genie 3)

V roce 2024 tým z Google Research a Google DeepMind ukázal, že neuronový model dokáže simulovat hratelný DOOM rychlostí přes 20 snímků za sekundu, aniž by pod ním běžel původní herní engine. Nebyla tu žádná klasická smyčka enginu, která by obvyklým způsobem explicitně ukládala souřadnice, fyzikální objekty, proměnné zdraví nebo stav mapy. GameNGen se místo toho naučil odvodit další snímek z nedávných snímků a vstupů hráče, včetně vizuálních vodítek jako zdraví, munice, nepřátelé, dveře a stěny. Tento systém, nazvaný GameNGen, je upravená verze Stable Diffusion (stejný druh modelu, který generuje obrázky z textu), a DOOM hraje tak, že halucinuje každý další snímek z předchozích snímků plus toho, jakou klávesu jste právě stiskli.

To je něco zásadně jiného než „AI uvnitř herního enginu". Když studio používá AI ke generování textur nebo psaní dialogů NPC v Unity, engine je tam stále a dělá skutečnou práci. GameNGen žádný engine nemá. Tím modelem is je hra. A je to začátek skutečné hranice poznání, kterou titulky stále chápou špatně. GameNGen se objevil ve výzkumné sekci ICLR, DIAMOND prošel přes NeurIPS 2024, a firmy jako Google DeepMind, Microsoft Research, Decart a Skywork AI nyní posouvají tuto myšlenku z článků do dem, API a open-source systémů.

Tady je, co tyto systémy ve skutečnosti dělají, jak funguje predikce dalšího snímku, proč se koherence a paměť při delší interakci stále rozpadají, kolik stojí provoz a zda se chystají nahradit Unity. Krátká odpověď na poslední otázku zní ne, alespoň ne tak, jak naznačuje humbuk. Důvod je architektonický: víc výpočetního výkonu pomáhá, ale sám o sobě nevytváří trvalý stav, deterministickou logiku ani odladitelnou herní smyčku.

Zkrácená verze

Tyto modely predikují snímky, nesimulují pravidla. Herní engine počítá další stav z logiky a uložených proměnných. Světový model jako GameNGen nebo Oasis hádá další obrázek z předchozích snímků plus vašeho vstupu. Neběží na něm tradiční simulace herního enginu s explicitním stavem objektů, fyzikálním kódem a kontrolovatelnými proměnnými; generuje další pozorování pomocí naučeného modelu.
Jejich koherenci stále omezuje paměť a kontext, ale ten limit už není tak jednoduchý jako „všechno se po pár sekundách rozpadne". GameNGen má jen o něco víc než 3 sekundy přímé historie snímků, přesto dokáže zůstat vizuálně stabilní po delších trajektoriích díky naučeným heuristikám. Genie 2 obvykle ukazoval 10–20sekundové příklady a někdy dokázal zachovat detaily mimo záběr, zatímco Genie 3 posouvá konzistenci na několik minut při 720p/24fps. Hlavní slabina zůstává: tyto systémy zatím neposkytují trvalý, kontrolovatelný a uložitelný stav, na který se produkční hry spoléhají.
Nejsou přirozeně deterministické tak, jak to produkční hry potřebují. Můžete omezit vzorkování nebo zafixovat seedy, ale to vám stejně nedá čisté, kontrolovatelné aktualizace stavu jako u normálního enginu. Multiplayer, soutěžní vyváženost, záznamy opakování, postup dovedností a ukládání/načítání, to vše závisí na spolehlivých přechodech stavu. Generátor snímků se může tomuto chování přiblížit, ale produkční hra by stále potřebovala deterministickou logickou vrstvu pod ním nebo vedle něj.
DeepMind pojímá světové modely jako základ pro trénování a vyhodnocování AI agentů v bohatých simulovaných prostředích, zatímco Project Genie ukazuje stejnou technologii jako prototyp tvorby světů určený pro spotřebitele. Novější Oasis 3 od Decartu je ještě výslovněji zaměřený na fyzickou AI, robotiku a simulaci autonomních vozidel. To přerámuje otázku „chystá se tohle nahradit Unity?": nejvážnějším trhem v krátkodobém horizontu může být trénování agentů a simulace, ne hotové spotřebitelské hry.

Co tento článek nepokrývá

Pár sousedních témat se do téhle debaty zatahuje, ale sem nepatří:

DLSS, FSR, upscaling a generování snímků. To je AI, která nahrazuje jednotlivé fáze of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Detailní metodika posilovaného učení používaná ke sběru trénovacích dat. Popíšu ji na koncepční úrovni; celý postup mají odborné články.
Hosting herních serverů a nastavení infrastruktury. Tohle je vysvětlení, jak modely fungují, ne návod na nasazení.

Co lidé myslí pojmem „AI herní engine" (a o který z nich tu jde)

Spojení „AI herní engine" se přilepuje na tři zcela odlišné věci a většina zmatku kolem tohoto tématu pramení z toho, že se slévají dohromady. Tento článek je přesně o jedné z nich: o modelu, který predikuje každý snímek a nahrazuje engine úplně. Ne o nástrojích AI přidaných k tradičnímu enginu a ne o nástroji, který staví 3D prostředí, jež pak do enginu načtete.

Tři významy, jednoduše řečeno:

Nástroje AI uvnitř tradičního enginu. Generování assetů, syntéza textur, rozhodovací stromy chování NPC, psaní dialogů: vše běží uvnitř Unity nebo Unreal. Engine stále vykresluje snímky, počítá fyziku a drží stav. AI je pomocník v obsahové pipeline. O tomhle ve skutečnosti je většina výsledků vyhledávání pro „AI herní engine" a ne tohle není předmětem tohoto článku.
Generátory autorského 3D prostoru. World Labs, spoluzaložené Fei-Fei Li, nabízí Marble, nástroj, který vytváří trvalá, stažitelná 3D prostředí z textu, obrázků, videí nebo jiných vstupů. Zásadní je, že Marble má blíž k nástroji pro tvorbu prostorového obsahu: generuje trvalé 3D světy, kterými se dá procházet, upravovat je, stáhnout nebo exportovat do navazujících pracovních postupů. To ho odlišuje od systémů typu GameNGen, Oasis nebo Genie, kde samotný hratelný zážitek vzniká živě snímek po snímku.
Světové modely, které nahrazují engine. GameNGen, Oasis, rodina Genie, DIAMOND, MineWorld, Matrix-Game. Ty generují hratelná pozorování přímo, místo aby do Unity nebo Unreal načítaly normální autorsky vytvořenou scénu. Některé novější systémy přidávají mechanismy paměti a konzistence, ale stále neodhalují trvalý, kontrolovatelný a vývojářem řízený model stavu jako tradiční herní engine. O tomhle tady jde.

Rychlé rozhodovací pravidlo pro jakýkoli článek, který čtete: pokud systém vytváří soubor, který načtete do Unity, jde o kategorii 1 nebo 2. Pokud systém is tou věcí, kterou hrajete, se snímky generovanými živě, jde o kategorii 3: světový model.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Jak model generuje hru bez enginu

Světový model se naučí, jak hra vypadá v pohybu, a pak predikuje další snímek podmíněný nedávnými snímky plus aktuálním vstupem hráče. Na rozdíl od tradičního enginu neodhaluje čisté proměnné jako „dveře jsou otevřené", „tento nepřítel je mrtvý" nebo „hráč je na souřadnici X". V raných systémech predikce snímků se model většinou naučí, že po určitých vstupech mají tendenci následovat určité vizuální stavy. Hraní je jen spuštění té naučené predikční smyčky dostatečně rychle, aby působila interaktivně.

GameNGen je nejčistší propracovaný příklad, protože článek rozkládá každý krok. Pipeline běží ve dvou fázích. Nejprve agent s posilovaným učením odehraje tisíce relací DOOMu a každá relace se zaznamená jako proud snímků spárovaných s akcemi, které je vyvolaly. Poté se na těchto datech natrénuje upravená Stable Diffusion v1.4, aby predikovala další snímek z předchozích snímků a akce hráče. Akce se zapéká přímo do podmínění, a to je ten trik, díky kterému jde o hru, a ne jen o generátor videa. Vaše stisknutí klávesy je součástí promptu pro další obrázek.

Těžkou částí je rychlost. Normální difuzní model proběhne 20 až 50 odšumovacích kroků, aby ze šumu udělal obrázek, což je pro hraní v reálném čase mnohem příliš pomalé. GameNGen to seřízne na 4 odšumovací kroky, čímž stáhne celkovou inferenci zhruba na 50 milisekund na snímek: dost rychle na 20 FPS na jediném TPU v nativním rozlišení DOOMu 320×240. Lidští hodnotitelé dokázali jen o málo lépe než náhodně rozeznat krátké klipy simulace od skutečného záznamu z DOOMu.

Většina systémů v této oblasti spadá do překrývajících se architektonických vzorů:

Difuzní systémy (GameNGen, Oasis, DIAMOND, Genie 2): začínají od šumu a iterativně ho odšumují do dalšího snímku. Dokážou vyprodukovat silnou vizuální kvalitu na krátkém horizontu, ale potřebují triky na zrychlení, aby běžely interaktivně.
Autoregresivní systémy (MineWorld): predikují budoucí snímky nebo tokeny postupně, blíž tomu, jak jazykový model predikuje text. MineWorld vyměňuje snímkovou frekvenci za těsnější dodržování akcí a přistává kolem 4–7 FPS.
Hybridy rozšířené o paměť a řízení (Matrix-Game 2.0/3.0 a novější systémy): kombinují generování v reálném čase s podmiňováním akcemi, řízením kamery a explicitními paměťovými mechanismy, aby omezily drift na dlouhém horizontu.

Jeden detail je důležitý pro další část. Během tréninku GameNGen záměrně přidává šum do minulých snímků, na které se podmiňuje. To nutí model naučit se opravovat vlastní chyby, místo aby je nabaloval, což je zmírnění problému s driftem. Pomáhá to. Nevyřeší to.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Rodokmen: od Genie 1 ke Genie 3 za dva roky

Nejnápadnější věcí na tomto oboru je sklon křivky. V únoru 2024 Genie 1 generoval ovladatelné 2D plošinovky v rozlišení 256×256. O osmnáct měsíců později Genie 3 generoval prochozí 3D světy z textového promptu v 720p a 24 FPS. To je trajektorie, které stojí za to věnovat pozornost: ne kterékoli jednotlivé demo, ale rychlost změny mezi nimi.

Když to čteme jako jeden vývoj, příběh jde takto. Genie 1 (DeepMind, ICML 2024) dokázal, že se interaktivní prostředí dají naučit z neoznačkovaného videa. GameNGen (Google, ICLR 2025) ukázal, že stejná myšlenka dokáže pohánět skutečnou rychlou hru (DOOM) v reálném čase. Oasis (Decart, říjen 2024) ji přenesl do Minecraftu a zpřístupnil ji veřejnosti ke hraní. Genie 2 (DeepMind, prosinec 2024) skočil k 3D světům generovaným z jediného obrázku. DIAMOND (NeurIPS 2024) udělal z tohoto přístupu open-source spustitelný na spotřebitelském GPU. GameGen-X a MineWorld (Microsoft, 2025) posunuly otevřený ekosystém dál. Genie 3 (srpen 2025; veřejně jako Project Genie v lednu 2026) dosáhl 3D v reálném čase z textu. Matrix-Game 2.0 posunul open-source generování streamované v reálném čase na 25 FPS a Matrix-Game 3.0 zaútočil na problém paměti přímočařeji pomocí architektury paměti na dlouhém horizontu.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Specifikace hlavních systémů žijí v tabulce níže; smyslem vyprávění je oblouk, ne čísla.

Systém	Vývojář	Rok	Přístup	Rozlišení / FPS	Open-source?	Zdroj
Genie 1	Google DeepMind	2024	Latentní akce	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Částečně (500M ckpt)	Project
Oasis 3	Decart	2026	Interaktivní světový model přístupný přes API pro fyzickou AI	Náhled API v reálném čase	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregresivní latentní difuze	N/A	No	DeepMind
DIAMOND	Ženeva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Ano (MIT)	arXiv
GameGen-X	Akademický	2024	Diffusion transformer	N/A	Ano	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	Ano	arXiv
Genie 3	Google DeepMind	2025	Univerzální světový model v reálném čase	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Několikakroková autoregresivní difuze	25 FPS na jediném H100	Ano	Project
Matrix-Game 3.0	Skywork AI	2026	Interaktivní světový model rozšířený o paměť	Až 40 FPS při 720p s modelem 5B	Ano	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Proč se tyto světy rozpadají

Tyto systémy se stále lámou ve čtyřech důležitých směrech, ale režim selhání není jen „nedostatek výpočetního výkonu". Víc GPU může zlepšit rozlišení, latenci a velikost modelu, ale koherence na produkční úrovni potřebuje lepší paměť, sledování stavu a architekturu řízení. Model, který predikuje věrohodné snímky, není totéž co engine s explicitními pravidly, kontrolovatelnými proměnnými, deterministickými aktualizacemi stavu a sémantikou ukládání/načítání. Každé omezení níže je to, co model strukturálně nedokáže, ne to, v čem se ještě nestihl dostatečně zlepšit.

Žádný trvalý stav světa

Tyto systémy neodhalují proměnné tak, jak to dělá tradiční engine. Normální engine ukládá svět jako data: tahle truhla je otevřená, tenhle nepřítel je mrtvý, hráč je na souřadnici (412, 88). V raných systémech predikce snímků žádný trvalý stav enginu v tomto vývojářském smyslu neexistuje. Model se většinou spoléhá na nedávný vizuální kontext a naučené priory, takže objekty se mohou změnit, zmizet nebo se nesprávně znovu objevit, jakmile opustí záběr. Novější systémy přidávají explicitní mechanismy paměti a konzistence, ale stále neodhalují ten druh čistého, odladitelného stavu světa, jaký tradiční engine dává vývojářům.

Ve slabších nebo raných systémech predikce snímků se truhla, kterou jste otevřeli, může znovu objevit zavřená, příšera, kterou jste zabili, může přijít zpátky a stavba, kterou jste postavili, se může rozplynout, jakmile opustí záběr. Hráči popisovali původní demo Oasis jako mající „snovou logiku": otočíte se a možná se nevrátíte přesně na stejné místo. Novější systémy se snaží tento problém omezit silnějšími mechanismy paměti a konzistence, ale mezera zůstává: stále neodhalují tradiční, kontrolovatelnou vrstvu herního stavu.

Strop kontextového okna

Koherenci omezuje návrh paměti modelu, ne jen čistá vizuální kvalita. GameNGen používá krátkou přímou historii snímků, přesto hlásí stabilní několikaminutové herní relace díky naučené korekci. Genie 2 zavedl viditelné příklady paměti na dlouhém horizontu a udržel konzistenci až minutu, přičemž většina příkladů trvala 10–20 sekund. Genie 3 posouvá souvislou interakci na několik minut a Matrix-Game 3.0 útočí na problém přímo pomocí paměti na dlouhém horizontu. Nevyřešená otázka není „vydrží model víc než pár sekund?". Je to, jestli dokáže zachovat spolehlivý, kontrolovatelný a uložitelný stav světa po dobu a v komplexnosti skutečné hry.

Stochastické, ne deterministické

Výstup je ve výchozím nastavení pravděpodobnostní. Spusťte stejné nastavení dvakrát a můžete dostat různé snímky, pokud systém není silně omezený. U uměleckého nástroje to může být užitečné; u mnoha produkčních her je to problém. Multiplayer, soutěžní vyváženost, záznamy opakování, postup dovedností a ukládání/načítání, to vše závisí na spolehlivých přechodech stavu. Světový model se dá udělat opakovatelnějším, ale produkční hra by stále potřebovala deterministickou logickou vrstvu nebo stavový systém, aby zaručila chování, které hráči a vývojáři očekávají.

Je to hra, nebo predikce videa s klávesnicí?

Nejostřejší kritika zní, že tyto systémy nesimulují světy v tradičním smyslu herního enginu; generují věrohodná vizuální pokračování a nechávají vás je řídit. Herní engine kóduje pravidla; světový model kóduje věrohodnost. Jeden komentující ve vlákně o GameNGen na Hacker News to nazval „nejméně efektivní komprimací videa na světě" a jako provokace to sedí: model si fakticky zapamatoval rozdělení záznamů ze hry a interpoluje skrz něj v reakci na vaše vstupy. Existuje na to čistý test, ve výzvě níže.

Příznak „drift při stání na místě". Kdyby světový model skutečně počítal svět, nehybný hráč by měl vést ke stabilnímu obrázku: nic se nemění, takže by se nic měnit nemělo. Ve slabších nebo raných systémech predikce snímků může i stání na místě odhalit drift: drobné detaily se posunou, protože model predikuje další věrohodný snímek, místo aby vykresloval z pevného, kontrolovatelného stavu světa. To je ten příznak. Scéna může chvíli vypadat stabilně, ale systém stále generuje plynulost, místo aby ji načítal z klasického enginu.

Klíčový poznatek: limity determinismu a trvalosti jsou architektonické problémy, ne věci, které sám o sobě vyřeší pouhé škálování. Jakýkoli systém, který potřebuje spolehlivý, opakovatelný a uložitelný svět, stále potřebuje deterministickou logickou vrstvu, explicitní paměťový/stavový systém nebo hybridní návrh enginu, které současné přístupy ke generování snímků samy o sobě neposkytují.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Kolik to ve skutečnosti stojí provozovat

Generování v reálném čase je drahé a hlavní čísla skrývají hodně. „Jediné TPU" u GameNGenu zní levně, dokud si nevzpomenete, že simuluje DOOM v rozlišení 320×240, ne moderní hru ve vysokém rozlišení. Původní demo Oasis běželo v reálném čase na infrastruktuře třídy H100 a novější Oasis 3 od Decartu dělá ekonomiku konkrétnější. Decart pozicuje Oasis 3 jako interaktivní světový model přístupný přes API pro fyzickou AI a TechCrunch uvedl ceny přístupu k náhledu na 0,02 USD za sekundu, neboli 1,20 USD za 60sekundovou relaci. To je užitečné pro testování, simulaci a výzkumné pracovní postupy, ale stále je to velmi odlišný nákladový model než dodávání normálního herního klienta.

Pro představu o měřítku: generování světa v reálném čase je stále drahé, ale obraz hardwaru se rychle mění. Některé otevřené výzkumné systémy nyní hlásí generování v reálném čase nebo téměř v reálném čase na jednotlivých GPU třídy H100, zatímco špičkové systémy určené pro spotřebitele zůstávají hostované v cloudu a často neodhalené. Pevný bod není „jedno GPU to nikdy nezvládne"; je to, že generování světa v produkční kvalitě, s nízkou latencí a vysokým rozlišením je stále vážný infrastrukturní problém.

Protiargument je, že podlaha rychle klesá a open-source úroveň je reálná. DIAMOND se natrénoval zhruba za 12 dní na jediném RTX 4090 a podle své oficiální stránky projektuse dá hrát rychlostí zhruba 10 FPS na RTX 3090. MineWorld a Matrix-Game jsou veřejně spustitelné. Takže zatímco nejpůsobivější dema stále závisí na specializované, drahé infrastruktuře, zvídavý vývojář už dnes může spustit nějaké reálné experimenty se světovými modely na dostupném hardwaru. Obě věci platí současně: interakce ve špičkové kvalitě je nákladná a vstupní bod pro experimentování je už reálný.

Takže nahradí AI Unity a Unreal?

V krátkodobém horizontu ne, a důvodem jsou výše uvedené limity, ne nedostatek investic. Trh to vzal vážně. Google zpřístupnil Project Genie předplatitelům Google AI Ultra v USA dne 29. ledna 2026, a další den několik herních akcií prudce spadlo: The Verge uvedl Unity dolů o 24,22 %, Roblox dolů o 13,17 % a Take-Two dolů o 7,93 % v pátečním závěru obchodování. Úzkost se projevila i uvnitř odvětví: průzkum GDC z roku 2026 zjistil, že 52 % herních profesionálů vnímalo generativní AI jako negativní dopad na hry, oproti 30 % předchozího roku. Ale pohyby akcií a úzkost z průzkumu jsou reakce na demo. Skutečnou časovou osu určuje architektura.

Když čtu trajektorii tak, jak stojí, a tohle je můj pohled, ne uzavřená předpověď, příštích 1-3 roky pravděpodobně udrží světové modely ve výzkumných prototypech, simulační infrastruktuře, trénování robotiky/fyzické AI a úzkých demech pro spotřebitele, spíš než v plnohodnotných komerčních hrách. Pravděpodobná cesta na 3-7 let je hybridní, ne nahrazení: světový model zajišťující vizuální generování sedící nad lehkým deterministickým stavovým automatem, který drží skutečnou herní logiku. To je rozšíření. Trajektorie je dost strmá (DOOM v 320p na 720p-z-textu zhruba za rok) na to, aby sebevědomé dlouhodobé předpovědi byly nemoudré, takže žádnou neudělám.

Detail, který přerámuje celou otázku: DeepMind váže světové modely na trénování agentů a výzkum AGI, zatímco Project Genie ukazuje stejnou technologii jako prototyp tvorby světů pro spotřebitele. Oasis 3 od Decartu je ještě výslovněji zaměřený na robotiku, autonomní vozidla a simulaci fyzické AI. Spotřebitelské hry pro tento příběh hrají roli, ale komerční tah v krátkodobém horizontu může přijít nejdřív ze simulace, trénování a prototypování.

Časté dotazy

Jaký je rozdíl mezi světovým modelem a herním enginem?

Herní engine kóduje explicitní pravidla a ukládá herní stav jako data: je deterministický, kontrolovatelný a odladitelný. Světový model jako GameNGen predikuje věrohodné další snímky z nedávných snímků plus vašeho vstupu, bez tradičního stavu, pravidel a proměnných objektů ve stylu enginu, které vývojáři běžně kontrolují a ovládají. Engine svět počítá; světový model ho hádá. Proto je jeden opakovatelný a druhý ne.

Jak GameNGen funguje?

GameNGen pohání DOOM ve třech širokých krocích. Nejprve agent s posilovaným učením odehraje tisíce relací DOOMu, zaznamenaných jako snímky spárované s akcemi. Poté se upravená Stable Diffusion v1.4 naučí predikovat další snímek podmíněný minulými snímky plus vstupem hráče. Nakonec se inference seřízne na 4 odšumovací kroky, čímž vyprodukuje zhruba 20 FPS na jediném TPU v rozlišení 320×240.

Proč se svět v Oasis pořád mění, když se otočíte?

V původním demu Oasis podobném Minecraftu se svět mohl změnit, když jste se otočili, protože systém nezachovával tradiční stav světa ve stylu enginu. Generoval další pohled z nedávného vizuálního kontextu a naučených priorů, takže objekty mimo záběr se mohly vrátit v pozměněné podobě. Novější systémy přidávají silnější mechanismy paměti a konzistence, ale právě ta původní „snová logika" dělala toto omezení snadno zpozorovatelným.

Jak dlouho dokáže herní svět generovaný AI zůstat konzistentní, než začne driftovat?

Záleží na modelu. Rané systémy často driftují během sekund až desítek sekund, ale novější systémy tento horizont prodlužují. GameNGen má jen o něco víc než 3 sekundy přímého kontextu, přesto dokáže zůstat stabilní po delším hraní díky naučeným heuristikám. Genie 2 většinou ukazoval 10–20sekundové příklady a v některých případech až minutu. Genie 3 zvedá tvrzení na několik minut při 720p/24fps a Matrix-Game 3.0 hlásí minutu trvající paměťovou konzistenci. Nevyřešený problém nejsou krátké klipy; je to trvalý, kontrolovatelný a uložitelný stav světa.

Nahradí AI herní enginy jako Unity nebo Unreal?

V krátkodobém horizontu ne. Překážky jsou spíš architektonické než čistě problém měřítka: produkční hry potřebují trvalý stav, spolehlivou logiku, deterministické chování a sémantiku ukládání/načítání. Škálování pomáhá kvalitě a koherenci, ale samo o sobě nevytvoří tradiční herní smyčku. Pravděpodobná cesta je hybridní: světový model generující vizuál nad deterministickým enginem pro herní logiku, což je rozšíření, ne nahrazení. DeepMind prezentuje světové modely jako důležité pro trénování agentů a výzkum AGI, zatímco Project Genie zároveň zviditelňuje tuto technologii jako prototyp tvorby světů pro spotřebitele. Oasis 3 od Decartu je čistším příkladem modelu výslovně zaměřeného na robotiku, autonomní vozidla a simulaci fyzické AI.

Můžete si některou z těchto her generovaných AI zahrát právě teď?

Ano, několik. Původní Oasis od Decartu měl veřejné webové demo podobné Minecraftu a jeho novější Oasis 3 Preview je nyní přístupný přes API pro experimenty se světovými modely v reálném čase. Project Genie od Googlu se také stal dostupným pro předplatitele Google AI Ultra v USA v lednu 2026. Pro open-source úroveň se dají DIAMOND a MineWorld stáhnout a spustit na spotřebitelských GPU, přičemž DIAMOND je uváděn kolem 10 FPS na RTX 3090.

Hry bez herního enginu: jak modely AI generují hratelné světy