Come l'IA genera giochi senza un motore di gioco (GameNGen, Genie 3)

Nel 2024, un team di Google Research e Google DeepMind ha dimostrato che un modello neurale poteva simulare un DOOM giocabile a oltre 20 fotogrammi al secondo senza eseguire il motore di gioco originale al di sotto. Non c'era alcun loop di motore convenzionale a memorizzare esplicitamente coordinate, oggetti fisici, variabili di salute o stato della mappa nel modo consueto. GameNGen ha invece imparato a dedurre il fotogramma successivo dai fotogrammi recenti e dagli input del giocatore, compresi gli indizi visivi come salute, munizioni, nemici, porte e muri. Il sistema, chiamato GameNGen, è una versione modificata di Stable Diffusion (lo stesso tipo di modello che genera immagini dal testo), e gioca a DOOM allucinando ogni fotogramma successivo a partire dai fotogrammi precedenti più qualunque tasto tu abbia appena premuto.

Questa è una cosa fondamentalmente diversa dall'"IA dentro un motore di gioco". Quando uno studio usa l'IA per generare texture o scrivere i dialoghi degli NPC in Unity, il motore è comunque lì a fare il lavoro vero. GameNGen non ha alcun motore. Il modello is il gioco. Ed è l'inizio di una vera frontiera che i titoli dei giornali continuano a fraintendere. GameNGen è stato presentato nel research track di ICLR, DIAMOND è arrivato tramite NeurIPS 2024, e aziende come Google DeepMind, Microsoft Research, Decart e Skywork AI stanno ora spingendo l'idea dai paper verso demo, API e sistemi open source.

Ecco cosa fanno davvero questi sistemi, come funziona la previsione del fotogramma successivo, perché coerenza e memoria cedono ancora durante interazioni più lunghe, quanto costa farli girare e se sono in arrivo per soppiantare Unity. La risposta breve a quest'ultimo punto è no, almeno non nel modo in cui l'hype lascia intendere. Il motivo è architetturale: più potenza di calcolo aiuta, ma di per sé non crea uno stato persistente, una logica deterministica o un game loop ispezionabile.

La versione breve

Questi modelli prevedono i fotogrammi; non simulano le regole. Un motore di gioco calcola lo stato successivo a partire dalla logica e dalle variabili memorizzate. Un modello del mondo come GameNGen o Oasis indovina l'immagine successiva dai fotogrammi precedenti più il tuo input. Non sta eseguendo una simulazione tradizionale da motore di gioco con stato esplicito degli oggetti, codice fisico e variabili ispezionabili; sta generando l'osservazione successiva tramite un modello appreso.
La loro coerenza è ancora limitata da memoria e contesto, ma il limite non è più semplice come "tutto crolla dopo pochi secondi". GameNGen ha poco più di 3 secondi di storia diretta dei fotogrammi, eppure può restare visivamente stabile su traiettorie più lunghe grazie a euristiche apprese. Genie 2 di solito mostrava esempi di 10-20 secondi e talvolta riusciva a preservare dettagli fuori campo, mentre Genie 3 spinge la coerenza fino a qualche minuto a 720p/24fps. La debolezza di fondo rimane: questi sistemi non offrono ancora lo stato durevole, ispezionabile e salvabile su cui contano i giochi di produzione.
Non sono naturalmente deterministici nel modo in cui i giochi di produzione ne hanno bisogno. Puoi vincolare il campionamento o fissare i seed, ma questo non ti dà comunque gli aggiornamenti di stato puliti e ispezionabili di un motore normale. Multiplayer, bilanciamento competitivo, replay, progressione delle abilità e salvataggio/caricamento dipendono tutti da transizioni di stato affidabili. Un generatore di fotogrammi può approssimare quel comportamento, ma un gioco di produzione avrebbe comunque bisogno di uno strato di logica deterministica sotto o accanto ad esso.
DeepMind inquadra i modelli del mondo come una base per addestrare e valutare agenti di IA in ambienti simulati ricchi, mentre Project Genie mostra la stessa tecnologia in un prototipo di creazione di mondi rivolto al consumatore. Il più recente Oasis 3 di Decart è puntato in modo ancora più esplicito sull'IA fisica, la robotica e la simulazione di veicoli autonomi. Questo riformula la domanda "sta arrivando per Unity?": il mercato più serio nel breve termine potrebbe essere l'addestramento degli agenti e la simulazione, non i giochi finiti per il consumatore.

Cosa questo articolo non tratta

Alcuni argomenti vicini finiscono nella stessa conversazione e non appartengono a questa sede:

DLSS, FSR, upscaling e frame generation. Quelli sono l'IA che sostituisce singole fasi of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
La dettagliata metodologia di apprendimento per rinforzo usata per raccogliere i dati di addestramento. La descriverò a livello concettuale; i paper hanno la ricetta completa.
L'hosting di game server e la configurazione dell'infrastruttura. Questa è una spiegazione su come funzionano i modelli, non una guida al deployment.

Cosa intende la gente per "motore di gioco IA" (e quale di questi è)

L'espressione "motore di gioco IA" viene attaccata a tre cose completamente diverse, e gran parte della confusione su questo tema nasce dal mescolarle insieme. Questo articolo riguarda esattamente una di esse: un modello che prevede ogni fotogramma e sostituisce il motore per intero. Non strumenti di IA innestati su un motore tradizionale, e non uno strumento che costruisce ambienti 3D che poi carichi in uno di essi.

I tre significati, in parole semplici:

Strumenti di IA dentro un motore tradizionale. Generazione di asset, sintesi di texture, behavior tree degli NPC, scrittura dei dialoghi: tutto in esecuzione dentro Unity o Unreal. Il motore continua a renderizzare fotogrammi, eseguire la fisica e mantenere lo stato. L'IA è un assistente nella pipeline dei contenuti. È di questo che parlano in realtà la maggior parte dei risultati di ricerca per "motore di gioco IA", e non è l'argomento di questo articolo.
Generatori di spazi 3D autoriali. World Labs, cofondata da Fei-Fei Li, offre Marble, uno strumento che crea ambienti 3D persistenti e scaricabili a partire da testo, immagini, video o altri input. È fondamentale notare che Marble è più vicino a uno strumento di creazione di contenuti spaziali: genera mondi 3D persistenti che possono essere attraversati, modificati, scaricati o esportati in flussi di lavoro a valle. Questo lo rende diverso da GameNGen, Oasis o dai sistemi in stile Genie, dove l'esperienza giocabile stessa è prodotta in tempo reale tramite la generazione fotogramma per fotogramma.
Modelli del mondo che sostituiscono il motore. GameNGen, Oasis, la famiglia Genie, DIAMOND, MineWorld, Matrix-Game. Questi generano direttamente osservazioni giocabili invece di caricare una normale scena autoriale in Unity o Unreal. Alcuni sistemi più recenti aggiungono meccanismi di memoria e coerenza, ma non espongono comunque il modello di stato durevole, ispezionabile e controllato dallo sviluppatore di un motore di gioco tradizionale. È questo l'argomento qui.

Una rapida regola decisionale per qualsiasi articolo tu legga: se il sistema produce un file che carichi in Unity, è categoria 1 o 2. Se il sistema is la cosa che stai giocando, con i fotogrammi generati in tempo reale, è categoria 3: un modello del mondo.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Come un modello genera un gioco senza motore

Un modello del mondo impara come appare un gioco in movimento, poi prevede il fotogramma successivo condizionato dai fotogrammi recenti più l'input attuale del giocatore. A differenza di un motore tradizionale, non espone variabili pulite come "la porta è aperta", "questo nemico è morto" o "il giocatore è alla coordinata X". Nei primi sistemi di previsione dei fotogrammi, il modello impara per lo più che certi stati visivi tendono a seguire certi input. Giocare è semplicemente eseguire quel loop di previsione appreso abbastanza velocemente da risultare interattivo.

GameNGen è l'esempio elaborato più pulito, perché il paper espone ogni passaggio. La pipeline si svolge in due fasi. Prima, un agente di apprendimento per rinforzo gioca a migliaia di sessioni di DOOM, e ogni sessione viene registrata come un flusso di fotogrammi abbinati alle azioni che li hanno prodotti. Seconda, una versione modificata di Stable Diffusion v1.4 viene addestrata su quei dati per prevedere il fotogramma successivo dati i fotogrammi precedenti e i piani l'azione del giocatore. L'azione è incorporata direttamente nel condizionamento, ed è questo il trucco che lo rende un gioco e non solo un generatore di video. La tua pressione di tasto fa parte del prompt per l'immagine successiva.

La parte difficile è la velocità. Un normale modello di diffusione esegue da 20 a 50 passi di denoising per trasformare il rumore in un'immagine, il che è di gran lunga troppo lento per il gioco in tempo reale. GameNGen riduce questo a 4 passi di denoising, portando l'inferenza totale a circa 50 millisecondi per fotogramma: abbastanza veloce per 20 FPS su una singola TPU alla risoluzione nativa di DOOM di 320×240. I valutatori umani riuscivano a fare solo poco meglio del caso nel distinguere brevi clip della simulazione dai veri filmati di DOOM.

La maggior parte dei sistemi in questo ambito ricade in schemi architetturali che si sovrappongono:

Sistemi basati sulla diffusione (GameNGen, Oasis, DIAMOND, Genie 2): partono dal rumore e lo eliminano iterativamente per arrivare al fotogramma successivo. Possono produrre una forte qualità visiva sul breve orizzonte, ma hanno bisogno di trucchi di velocità per girare in modo interattivo.
Sistemi autoregressivi (MineWorld): prevedono i fotogrammi o i token futuri in sequenza, più vicino a come un modello linguistico prevede il testo. MineWorld scambia il frame rate con un'aderenza più stretta all'azione, attestandosi attorno ai 4-7 FPS.
Ibridi potenziati con memoria e controllo (Matrix-Game 2.0/3.0 e sistemi più recenti): combinano generazione in tempo reale con condizionamento sull'azione, controllo della telecamera e meccanismi di memoria espliciti per ridurre la deriva sul lungo orizzonte.

Un dettaglio conta per la sezione successiva. Durante l'addestramento, GameNGen aggiunge deliberatamente rumore ai fotogrammi passati su cui si condiziona. Questo costringe il modello a imparare a correggere i propri errori invece di accumularli, una mitigazione per il problema della deriva. Aiuta. Non lo risolve.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

La discendenza: da Genie 1 a Genie 3 in due anni

La cosa più sorprendente di questo campo è la pendenza. Nel febbraio 2024, Genie 1 generava platform 2D controllabili a 256×256. Diciotto mesi dopo, Genie 3 generava mondi 3D navigabili da un prompt testuale a 720p e 24 FPS. È questa la traiettoria a cui vale la pena prestare attenzione: non una singola demo, ma il ritmo del cambiamento tra l'una e l'altra.

Letta come un'unica progressione, la storia va così. Genie 1 (DeepMind, ICML 2024) ha dimostrato che si potevano apprendere ambienti interattivi da video non etichettati. GameNGen (Google, ICLR 2025) ha mostrato che la stessa idea poteva far girare un gioco vero e frenetico (DOOM) in tempo reale. Oasis (Decart, ottobre 2024) l'ha portata su Minecraft e l'ha resa giocabile pubblicamente. Genie 2 (DeepMind, dicembre 2024) è passato a mondi 3D generati da una singola immagine. DIAMOND (NeurIPS 2024) ha reso l'approccio open source ed eseguibile su una GPU consumer. GameGen-X e i piani MineWorld (Microsoft, 2025) hanno spinto oltre l'ecosistema aperto. Genie 3 (agosto 2025; pubblico come Project Genie nel gennaio 2026) ha raggiunto il 3D in tempo reale dal testo. Matrix-Game 2.0 ha spinto la generazione open source in streaming e in tempo reale a 25 FPS, e Matrix-Game 3.0 ha attaccato il problema della memoria in modo più diretto con un'architettura di memoria a lungo orizzonte.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Le specifiche dei principali sistemi sono nella tabella qui sotto; il senso della narrazione è l'arco, non i numeri.

Sistema	Sviluppatore	Anno	Approccio	Risoluzione / FPS	Open source?	Fonte
Genie 1	Google DeepMind	2024	Azione latente	256×256	No	arXiv
GameNGen	Google	2024	Diffusione	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusione (Forcing)	360p / 20 FPS	Parziale (ckpt da 500M)	Progetto
Oasis 3	Decart	2026	Modello del mondo interattivo accessibile via API per l'IA fisica	Anteprima API in tempo reale	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Diffusione latente autoregressiva	N/D	No	DeepMind
DIAMOND	Ginevra / Edimburgo / MSR	2024	Diffusione	Atari / CS:GO	Sì (MIT)	arXiv
GameGen-X	Accademico	2024	Diffusion transformer	N/D	Sì	arXiv
MineWorld	Microsoft Research	2025	Autoregressivo	4-7 FPS	Sì	arXiv
Genie 3	Google DeepMind	2025	Modello del mondo in tempo reale per uso generale	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Diffusione autoregressiva a pochi passi	25 FPS su una singola H100	Sì	Progetto
Matrix-Game 3.0	Skywork AI	2026	Modello del mondo interattivo potenziato con memoria	Fino a 40 FPS a 720p con un modello da 5B	Sì	Progetto / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Perché questi mondi vanno in pezzi

Questi sistemi continuano a cedere in quattro modi importanti, ma la modalità di guasto non è solo "potenza di calcolo insufficiente". Più GPU possono migliorare risoluzione, latenza e scala del modello, ma una coerenza di livello produttivo ha bisogno di una migliore memoria, di un tracciamento dello stato e di un'architettura di controllo migliori. Un modello che prevede fotogrammi plausibili non è la stessa cosa di un motore con regole esplicite, variabili ispezionabili, aggiornamenti di stato deterministici e semantica di salvataggio/caricamento. Ogni limitazione qui sotto è ciò che il modello non può fare strutturalmente, non ciò in cui non è ancora diventato abbastanza bravo.

Nessuno stato del mondo persistente

Questi sistemi non espongono variabili nel modo in cui lo fa un motore tradizionale. Un motore normale memorizza il mondo come dati: questa cassa è aperta, questo nemico è morto, il giocatore è alla coordinata (412, 88). Nei primi sistemi di previsione dei fotogrammi, non esiste uno stato durevole del motore in quel senso dello sviluppo di giochi. Il modello si affida per lo più al contesto visivo recente e a priori appresi, quindi gli oggetti possono cambiare, sparire o riapparire in modo errato una volta che escono dalla visuale. I sistemi più recenti stanno aggiungendo meccanismi espliciti di memoria e coerenza, ma non espongono comunque il tipo di stato del mondo pulito e debuggabile che un motore tradizionale offre agli sviluppatori.

Nei sistemi di previsione dei fotogrammi più deboli o iniziali, una cassa che hai aperto può riapparire chiusa, un mostro che hai ucciso può rientrare camminando e una struttura che hai costruito può dissolversi una volta uscita dall'inquadratura. I giocatori hanno descritto la demo originale di Oasis come avente una "logica da sogno": ti giri, e potresti non tornare esattamente nello stesso posto. I sistemi più recenti cercano di ridurre quel problema con meccanismi di memoria e coerenza più forti, ma il divario resta: non espongono comunque uno strato di stato di gioco tradizionale e ispezionabile.

Il tetto della finestra di contesto

La coerenza è limitata dalla progettazione della memoria del modello, non solo dalla pura qualità visiva. GameNGen usa una breve storia diretta dei fotogrammi ma riporta comunque sessioni di gioco stabili di diversi minuti grazie alla correzione appresa. Genie 2 ha introdotto esempi visibili di memoria a lungo orizzonte e ha mantenuto la coerenza fino a un minuto, con la maggior parte degli esempi della durata di 10-20 secondi. Genie 3 spinge l'interazione continua fino a qualche minuto, e Matrix-Game 3.0 attacca direttamente il problema con una memoria a lungo orizzonte. La questione irrisolta non è "il modello può durare più di pochi secondi?". È se possa preservare uno stato del mondo affidabile, ispezionabile e salvabile per la lunghezza e la complessità di un gioco vero.

Stocastico, non deterministico

L'output è probabilistico per impostazione predefinita. Esegui la stessa configurazione due volte e potresti ottenere fotogrammi diversi, a meno che il sistema non sia fortemente vincolato. Per uno strumento artistico, può essere utile; per molti giochi di produzione, è un problema. Multiplayer, bilanciamento competitivo, replay, progressione delle abilità e salvataggio/caricamento dipendono tutti da transizioni di stato affidabili. Un modello del mondo può essere reso più ripetibile, ma un gioco di produzione avrebbe comunque bisogno di uno strato di logica deterministica o di un sistema di stato per garantire il comportamento che giocatori e sviluppatori si aspettano.

È un gioco, o previsione di video con una tastiera?

La critica più tagliente è che questi sistemi non stanno simulando mondi nel senso tradizionale del motore di gioco; stanno generando continuazioni visive plausibili e lasciando che tu le guidi. Un motore di gioco codifica regole; un modello del mondo codifica plausibilità. Un commentatore nel thread di Hacker News su GameNGen l'ha definito "la compressione video meno efficiente del mondo", e come provocazione coglie nel segno: il modello ha di fatto memorizzato una distribuzione sui filmati di gameplay e la interpola in risposta ai tuoi input. C'è un test pulito per questo, nel riquadro qui sotto.

L'indizio della "deriva da fermi". Se un modello del mondo stesse davvero calcolando un mondo, un giocatore immobile dovrebbe produrre un'immagine stabile: nulla sta cambiando, quindi nulla dovrebbe cambiare. Nei sistemi di previsione dei fotogrammi più deboli o iniziali, persino stare fermi può rivelare la deriva: piccoli dettagli si spostano perché il modello sta prevedendo il fotogramma plausibile successivo invece di renderizzare da uno stato del mondo fisso e ispezionabile. È quello l'indizio. La scena può sembrare stabile per un po', ma il sistema sta comunque generando continuità invece di leggerla da un motore convenzionale.

Punto chiave: i limiti di determinismo e persistenza sono problemi architetturali, non questioni che la pura scalata risolverà da sola. Qualsiasi sistema che abbia bisogno di un mondo affidabile, ripetibile e salvabile ha comunque bisogno di uno strato di logica deterministica, di un sistema esplicito di memoria/stato o di un design ibrido del motore che gli attuali approcci di generazione dei fotogrammi non forniscono da soli.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Quanto costa davvero farli girare

La generazione in tempo reale è costosa, e i numeri da titolone nascondono parecchio. La "singola TPU" di GameNGen sembra economica finché non ricordi che sta simulando DOOM a 320×240, non un gioco moderno ad alta risoluzione. La demo originale di Oasis girava in tempo reale su infrastruttura di classe H100, e il più recente Oasis 3 di Decart rende l'economia più concreta. Decart posiziona Oasis 3 come un modello del mondo interattivo accessibile via API per l'IA fisica, e TechCrunch ha riferito il prezzo dell'accesso in anteprima a $0.02 al secondo, ovvero $1.20 per una sessione di 60 secondi. È utile per workflow di test, simulazione e ricerca, ma è comunque un modello di costo molto diverso dal distribuire un normale client di gioco.

Per dare una scala alla cosa: la generazione di mondi in tempo reale è ancora costosa, ma il quadro hardware si muove in fretta. Alcuni sistemi di ricerca aperti ora riportano una generazione in tempo reale o quasi su singole GPU di classe H100, mentre i sistemi di frontiera rivolti al consumatore restano ospitati nel cloud e spesso non resi pubblici. Il punto fermo non è "una sola GPU non può mai farlo"; è che la generazione di mondi di qualità produttiva, a bassa latenza e ad alta risoluzione è ancora un serio problema di infrastruttura.

Il contrappunto è che la soglia si sta abbassando in fretta, e il livello open source è reale. DIAMOND si è addestrato in circa 12 giorni su una singola RTX 4090 e, secondo la sua pagina ufficiale del progetto, può essere giocato a circa 10 FPS su una RTX 3090. MineWorld e Matrix-Game sono eseguibili pubblicamente. Quindi, mentre le demo più impressionanti dipendono ancora da infrastruttura specializzata e costosa, uno sviluppatore curioso può già far girare alcuni esperimenti reali con i modelli del mondo su hardware accessibile. Entrambe le cose sono vere contemporaneamente: l'interazione di qualità di frontiera è costosa, e il punto d'ingresso per la sperimentazione è già reale.

Quindi l'IA sostituirà Unity e Unreal?

Non nel breve termine, e il motivo sono i limiti di cui sopra, non una mancanza di investimenti. Il mercato l'ha preso sul serio. Google ha distribuito Project Genie agli abbonati statunitensi di Google AI Ultra il 29 gennaio 2026, e il giorno dopo diversi titoli del settore gaming hanno subito un crollo brusco: The Verge ha riferito Unity in calo del 24.22%, Roblox del 13.17% e Take-Two del 7.93% alla chiusura di venerdì. L'ansia è emersa anche all'interno del settore: l'indagine 2026 della GDC ha rilevato che il 52% dei professionisti dei videogiochi vedeva l'IA generativa come un impatto negativo sui giochi, in aumento rispetto al 30% dell'anno precedente. Ma i movimenti di borsa e l'ansia dei sondaggi sono reazioni a una demo. È l'architettura a fissare la tempistica reale.

Leggendo la traiettoria così com'è, e questa è la mia lettura, non una previsione consolidata, i prossimi 1-3 anni manterranno probabilmente i modelli del mondo nei prototipi di ricerca, nell'infrastruttura di simulazione, nell'addestramento per robotica/IA fisica e in ristrette demo rivolte al consumatore, anziché in giochi commerciali completi. Il percorso plausibile a 3-7 anni è ibrido, non sostitutivo: un modello del mondo che gestisce la generazione visiva poggiato sopra una leggera macchina a stati deterministica che contiene la vera logica di gioco. Questo è potenziamento. La traiettoria è abbastanza ripida (DOOM a 320p fino a 720p-dal-testo in circa un anno) da rendere imprudenti le previsioni sicure a lungo termine, quindi non ne farò una.

Il dettaglio che riformula l'intera questione: DeepMind lega i modelli del mondo all'addestramento degli agenti e alla ricerca sull'AGI, mentre Project Genie mostra la stessa tecnologia come un prototipo di creazione di mondi rivolto al consumatore. L'Oasis 3 di Decart è puntato in modo ancora più esplicito su robotica, veicoli autonomi e simulazione di IA fisica. I giochi per il consumatore contano per la storia, ma la spinta commerciale nel breve termine potrebbe arrivare prima dalla simulazione, dall'addestramento e dalla prototipazione.

Domande frequenti

Qual è la differenza tra un modello del mondo e un motore di gioco?

Un motore di gioco codifica regole esplicite e memorizza lo stato di gioco come dati: è deterministico, ispezionabile e debuggabile. Un modello del mondo come GameNGen prevede plausibili fotogrammi successivi dai fotogrammi recenti più il tuo input, senza lo stato, le regole e le variabili degli oggetti in stile motore tradizionale che gli sviluppatori normalmente ispezionano e controllano. Il motore calcola il mondo; il modello del mondo lo indovina. È per questo che uno è ripetibile e l'altro no.

Come funziona GameNGen?

GameNGen fa girare DOOM in tre passaggi generali. Primo, un agente di apprendimento per rinforzo gioca a migliaia di sessioni di DOOM, registrate come fotogrammi abbinati alle azioni. Secondo, una versione modificata di Stable Diffusion v1.4 impara a prevedere il fotogramma successivo condizionato dai fotogrammi passati più l'input del giocatore. Terzo, l'inferenza è ridotta a 4 passi di denoising, producendo circa 20 FPS su una singola TPU a 320×240.

Perché il mondo in Oasis continua a cambiare quando ti giri?

Nella demo originale di Oasis in stile Minecraft, il mondo poteva cambiare quando ti giravi perché il sistema non preservava uno stato del mondo tradizionale, in stile motore. Generava la vista successiva dal contesto visivo recente e da priori appresi, quindi gli oggetti fuori campo potevano tornare in forma alterata. I sistemi più recenti stanno aggiungendo meccanismi di memoria e coerenza più forti, ma quella "logica da sogno" originale è esattamente ciò che rendeva la limitazione facile da notare.

Per quanto tempo un mondo di gioco generato dall'IA può restare coerente prima di andare alla deriva?

Dipende dal modello. I primi sistemi spesso vanno alla deriva entro pochi secondi o decine di secondi, ma i sistemi più recenti stanno estendendo quell'orizzonte. GameNGen ha poco più di 3 secondi di contesto diretto, eppure può restare stabile su un gameplay più lungo grazie a euristiche apprese. Genie 2 ha mostrato per lo più esempi di 10-20 secondi e fino a un minuto in alcuni casi. Genie 3 alza l'affermazione a qualche minuto a 720p/24fps, e Matrix-Game 3.0 riporta una coerenza di memoria di durata minutaria. Il problema irrisolto non sono le brevi clip; è lo stato del mondo durevole, ispezionabile e salvabile.

L'IA sostituirà i motori di gioco come Unity o Unreal?

Non nel breve termine. Gli ostacoli sono architetturali più che un puro problema di scala: i giochi di produzione hanno bisogno di stato persistente, logica affidabile, comportamento deterministico e semantica di salvataggio/caricamento. La scalata aiuta la qualità e la coerenza, ma di per sé non crea un game loop tradizionale. Il percorso plausibile è ibrido: un modello del mondo che genera la grafica sopra un motore deterministico per la logica di gioco, il che è potenziamento anziché sostituzione. DeepMind presenta i modelli del mondo come importanti per l'addestramento degli agenti e la ricerca sull'AGI, mentre Project Genie rende inoltre la tecnologia visibile come un prototipo di creazione di mondi rivolto al consumatore. L'Oasis 3 di Decart è l'esempio più pulito di un modello puntato esplicitamente su robotica, veicoli autonomi e simulazione di IA fisica.

Puoi giocare a qualcuno di questi giochi generati dall'IA proprio adesso?

Sì, a diversi. L'Oasis originale di Decart aveva una demo web pubblica in stile Minecraft, e il suo più recente Oasis 3 Preview è ora accessibile via API per esperimenti con i modelli del mondo in tempo reale. Anche Project Genie di Google è diventato disponibile agli abbonati di Google AI Ultra negli Stati Uniti nel gennaio 2026. Per il livello open source, DIAMOND e MineWorld possono essere scaricati ed eseguiti su GPU consumer, con DIAMOND riportato a circa 10 FPS su una RTX 3090.

Giochi senza un motore di gioco: come i modelli di IA generano mondi giocabili