Cómo la IA genera juegos sin motor de juego (GameNGen, Genie 3)

En 2024, un equipo de Google Research y Google DeepMind demostró que un modelo neuronal podía simular DOOM jugable a más de 20 fotogramas por segundo sin ejecutar por debajo el motor de juego original. No había un bucle de motor convencional que almacenara explícitamente coordenadas, objetos de física, variables de vida o el estado del mapa de la manera habitual. En cambio, GameNGen aprendió a inferir el siguiente fotograma a partir de fotogramas recientes y las entradas del jugador, incluidas señales visuales como vida, munición, enemigos, puertas y paredes. El sistema, llamado GameNGen, es una versión modificada de Stable Diffusion (el mismo tipo de modelo que genera imágenes a partir de texto), y juega a DOOM alucinando cada siguiente fotograma a partir de los fotogramas previos más la tecla que acabas de pulsar.

Eso es algo fundamentalmente distinto de la "IA dentro de un motor de juego". Cuando un estudio usa IA para generar texturas o escribir diálogos de NPC en Unity, el motor sigue ahí haciendo el trabajo real. GameNGen no tiene motor. El modelo is el juego. Y es el comienzo de una frontera real que los titulares siguen entendiendo mal. GameNGen apareció a través del track de investigación de ICLR, DIAMOND llegó a través de NeurIPS 2024, y empresas como Google DeepMind, Microsoft Research, Decart y Skywork AI están ahora llevando la idea de los artículos a demos, APIs y sistemas de código abierto.

Esto es lo que estos sistemas hacen realmente, cómo funciona la predicción del siguiente fotograma, por qué la coherencia y la memoria siguen fallando en interacciones más largas, cuánto cuesta ejecutarlos y si van a por Unity. La respuesta corta a esto último es no, al menos no de la forma que insinúa el bombo. La razón es arquitectónica: más cómputo ayuda, pero por sí solo no crea estado persistente, lógica determinista ni un bucle de juego depurable.

La versión corta

Estos modelos predicen fotogramas; no simulan reglas. Un motor de juego calcula el siguiente estado a partir de la lógica y variables almacenadas. Un modelo de mundo como GameNGen u Oasis adivina la siguiente imagen a partir de fotogramas previos más tu entrada. No está ejecutando una simulación tradicional de motor de juego con estado de objetos explícito, código de física y variables inspeccionables; está generando la siguiente observación a través de un modelo aprendido.
Su coherencia sigue estando limitada por la memoria y el contexto, pero el límite ya no es tan simple como "todo falla tras unos segundos". GameNGen tiene poco más de 3 segundos de historial directo de fotogramas y aun así puede mantenerse visualmente estable a lo largo de trayectorias más largas mediante heurísticas aprendidas. Genie 2 solía mostrar ejemplos de 10-20 segundos y a veces podía preservar detalles fuera de la vista, mientras que Genie 3 lleva la consistencia a unos minutos a 720p/24fps. La debilidad central permanece: estos sistemas todavía no proporcionan el estado duradero, inspeccionable y guardable del que dependen los juegos de producción.
No son deterministas de forma natural como necesitan los juegos de producción. Puedes restringir el muestreo o fijar semillas, pero eso aún no te da las actualizaciones de estado limpias e inspeccionables de un motor normal. El multijugador, el equilibrio competitivo, las repeticiones, la progresión de habilidades y guardar/cargar dependen todos de transiciones de estado fiables. Un generador de fotogramas puede aproximar ese comportamiento, pero un juego de producción aún necesitaría una capa de lógica determinista por debajo o junto a él.
DeepMind plantea los modelos de mundo como una base para entrenar y evaluar agentes de IA en entornos simulados ricos, mientras que Project Genie muestra la misma tecnología en un prototipo de creación de mundos orientado al consumidor. El más reciente Oasis 3 de Decart apunta de forma aún más explícita a la IA física, la robótica y la simulación de vehículos autónomos. Eso replantea la pregunta "¿esto va a por Unity?": el mercado más serio a corto plazo puede ser el entrenamiento de agentes y la simulación, no los juegos de consumo terminados.

Lo que este artículo no cubre

Algunos temas vecinos se cuelan en la misma conversación y no encajan aquí:

DLSS, FSR, escalado y generación de fotogramas. Eso es IA reemplazando etapas individuales of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
La metodología detallada de aprendizaje por refuerzo usada para recopilar datos de entrenamiento. La describiré a nivel conceptual; los artículos tienen la receta completa.
Alojamiento de servidores de juego y configuración de infraestructura. Esto es una explicación de cómo funcionan los modelos, no una guía de despliegue.

Qué entiende la gente por "motor de juego de IA" (y cuál es este)

La expresión "motor de juego de IA" se asocia a tres cosas completamente distintas, y la mayor parte de la confusión sobre este tema viene de mezclarlas. Este artículo trata exactamente de una de ellas: un modelo que predice cada fotograma y reemplaza por completo al motor. No herramientas de IA acopladas a un motor tradicional, ni una herramienta que construye entornos 3D que luego cargas en uno.

Los tres significados, en términos sencillos:

Herramientas de IA dentro de un motor tradicional. Generación de assets, síntesis de texturas, árboles de comportamiento de NPC, escritura de diálogos: todo corriendo dentro de Unity o Unreal. El motor sigue renderizando fotogramas, ejecutando física y manteniendo el estado. La IA es un asistente en la tubería de contenido. De esto trata la mayoría de los resultados de búsqueda de "motor de juego de IA", y no es el tema de este artículo.
Generadores de espacios 3D autorados. World Labs, cofundada por Fei-Fei Li, ofrece Marble, una herramienta que crea entornos 3D persistentes y descargables a partir de texto, imágenes, vídeos u otras entradas. Lo crucial es que Marble se parece más a una herramienta de creación de contenido espacial: genera mundos 3D persistentes por los que se puede transitar, editar, descargar o exportar a flujos de trabajo posteriores. Eso lo diferencia de GameNGen, Oasis o los sistemas estilo Genie, donde la propia experiencia jugable se produce en vivo mediante generación fotograma a fotograma.
Modelos de mundo que reemplazan al motor. GameNGen, Oasis, la familia Genie, DIAMOND, MineWorld, Matrix-Game. Estos generan observaciones jugables directamente en lugar de cargar una escena autorada normal en Unity o Unreal. Algunos sistemas más recientes añaden mecanismos de memoria y consistencia, pero aún no exponen el modelo de estado duradero, inspeccionable y controlado por el desarrollador de un motor de juego tradicional. Este es el tema aquí.

Una regla de decisión rápida para cualquier artículo que leas: si el sistema produce un archivo que cargas en Unity, es de la categoría 1 o 2. Si el sistema is lo que estás jugando, con fotogramas generados en vivo, es de la categoría 3: un modelo de mundo.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Cómo un modelo genera un juego sin motor

Un modelo de mundo aprende cómo se ve un juego en movimiento y luego predice el siguiente fotograma condicionado a fotogramas recientes más la entrada actual del jugador. A diferencia de un motor tradicional, no expone variables limpias como "la puerta está abierta", "este enemigo está muerto" o "el jugador está en la coordenada X". En los primeros sistemas de predicción de fotogramas, el modelo aprende sobre todo que ciertos estados visuales tienden a seguir a ciertas entradas. Jugar es simplemente ejecutar ese bucle de predicción aprendido lo bastante rápido como para sentirse interactivo.

GameNGen es el ejemplo trabajado más limpio, porque el artículo expone cada paso. La tubería corre en dos fases. Primero, un agente de aprendizaje por refuerzo juega miles de sesiones de DOOM, y cada sesión se registra como un flujo de fotogramas emparejados con las acciones que los produjeron. Segundo, un Stable Diffusion v1.4 modificado se entrena con esos datos para predecir el siguiente fotograma dados los fotogramas previos y la acción del jugador. La acción se integra directamente en el condicionamiento, y ese es el truco que lo convierte en un juego y no solo en un generador de vídeo. Tu pulsación de tecla es parte del prompt para la siguiente imagen.

La parte difícil es la velocidad. Un modelo de difusión normal corre de 20 a 50 pasos de eliminación de ruido para convertir ruido en una imagen, lo que es demasiado lento para jugar en tiempo real. GameNGen reduce eso a 4 pasos de eliminación de ruido, llevando la inferencia total a aproximadamente 50 milisegundos por fotograma: lo bastante rápido para 20 FPS en una sola TPU a la resolución nativa de DOOM de 320×240. Los evaluadores humanos solo podían hacerlo ligeramente mejor que el azar al distinguir clips cortos de la simulación de imágenes reales de DOOM.

La mayoría de los sistemas en este espacio caen en patrones arquitectónicos que se solapan:

Sistemas basados en difusión (GameNGen, Oasis, DIAMOND, Genie 2): parten del ruido y lo eliminan iterativamente para llegar al siguiente fotograma. Pueden producir una fuerte calidad visual a corto plazo, pero necesitan trucos de velocidad para correr de forma interactiva.
Sistemas autorregresivos (MineWorld): predicen fotogramas o tokens futuros de forma secuencial, más cerca de cómo un modelo de lenguaje predice texto. MineWorld sacrifica tasa de fotogramas por un seguimiento de acciones más ajustado, situándose en torno a 4-7 FPS.
Híbridos aumentados con memoria y control (Matrix-Game 2.0/3.0 y sistemas más recientes): combinan generación en tiempo real con condicionamiento de acciones, control de cámara y mecanismos de memoria explícitos para reducir la deriva a largo plazo.

Un detalle importa para la siguiente sección. Durante el entrenamiento, GameNGen añade ruido deliberadamente a los fotogramas previos a los que se condiciona. Eso obliga al modelo a aprender a corregir sus propios errores en lugar de acumularlos, una mitigación del problema de la deriva. Ayuda. No lo resuelve.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

El linaje: de Genie 1 a Genie 3 en dos años

Lo más llamativo de este campo es la pendiente. En febrero de 2024, Genie 1 generaba plataformas 2D controlables a 256×256. Dieciocho meses después, Genie 3 generaba mundos 3D navegables a partir de un prompt de texto a 720p y 24 FPS. Esa es la trayectoria a la que vale la pena prestar atención: no una sola demo, sino el ritmo de cambio entre ellas.

Leído como una sola progresión, la historia va así. Genie 1 (DeepMind, ICML 2024) demostró que se podían aprender entornos interactivos a partir de vídeo sin etiquetar. GameNGen (Google, ICLR 2025) mostró que la misma idea podía ejecutar un juego real y trepidante (DOOM) en tiempo real. Oasis (Decart, octubre de 2024) lo llevó a Minecraft y lo hizo jugable públicamente. Genie 2 (DeepMind, diciembre de 2024) saltó a mundos 3D generados a partir de una sola imagen. DIAMOND (NeurIPS 2024) hizo el enfoque de código abierto y ejecutable en una GPU de consumo. GameGen-X y MineWorld (Microsoft, 2025) llevó el ecosistema abierto más lejos. Genie 3 (agosto de 2025; público como Project Genie en enero de 2026) alcanzó el 3D en tiempo real a partir de texto. Matrix-Game 2.0 llevó la generación de streaming en tiempo real y de código abierto a 25 FPS, y Matrix-Game 3.0 atacó el problema de la memoria de forma más directa con una arquitectura de memoria a largo plazo.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Las especificaciones de los principales sistemas están en la tabla de abajo; el punto del relato es el arco, no los números.

Sistema	Desarrollador	Año	Enfoque	Resolución / FPS	¿Código abierto?	Fuente
Genie 1	Google DeepMind	2024	Acción latente	256×256	No	arXiv
GameNGen	Google	2024	Difusión	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Difusión (Forcing)	360p / 20 FPS	Parcial (500M ckpt)	Project
Oasis 3	Decart	2026	Modelo de mundo interactivo accesible por API para IA física	Vista previa de API en tiempo real	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Difusión latente autorregresiva	N/A	No	DeepMind
DIAMOND	Ginebra / Edimburgo / MSR	2024	Difusión	Atari / CS:GO	Sí (MIT)	arXiv
GameGen-X	Académico	2024	Transformer de difusión	N/A	Sí	arXiv
MineWorld	Microsoft Research	2025	Autorregresivo	4-7 FPS	Sí	arXiv
Genie 3	Google DeepMind	2025	Modelo de mundo en tiempo real de propósito general	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Difusión autorregresiva de pocos pasos	25 FPS en una sola H100	Sí	Project
Matrix-Game 3.0	Skywork AI	2026	Modelo de mundo interactivo aumentado con memoria	Hasta 40 FPS a 720p con un modelo de 5B	Sí	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Por qué estos mundos se desmoronan

Estos sistemas todavía fallan de cuatro maneras importantes, pero el modo de fallo no es solo "no hay suficiente cómputo". Más GPUs pueden mejorar la resolución, la latencia y la escala del modelo, pero la coherencia de nivel de producción necesita mejor memoria, seguimiento de estado y arquitectura de control. Un modelo que predice fotogramas plausibles no es lo mismo que un motor con reglas explícitas, variables inspeccionables, actualizaciones de estado deterministas y semántica de guardar/cargar. Cada limitación de abajo es lo que el modelo no puede hacer estructuralmente, no aquello en lo que aún no es lo bastante bueno.

Sin estado de mundo persistente

Estos sistemas no exponen variables como lo hace un motor tradicional. Un motor normal almacena el mundo como datos: este cofre está abierto, este enemigo está muerto, el jugador está en la coordenada (412, 88). En los primeros sistemas de predicción de fotogramas, no hay un estado de motor duradero en ese sentido del desarrollo de juegos. El modelo se apoya sobre todo en el contexto visual reciente y en priors aprendidos, así que los objetos pueden cambiar, desaparecer o reaparecer de forma incorrecta una vez que salen de la vista. Los sistemas más recientes están añadiendo mecanismos explícitos de memoria y consistencia, pero aún no exponen el tipo de estado de mundo limpio y depurable que un motor tradicional da a los desarrolladores.

En sistemas de predicción de fotogramas débiles o tempranos, un cofre que abriste puede reaparecer cerrado, un monstruo que mataste puede volver a entrar caminando, y una estructura que construiste puede disolverse una vez que sale del cuadro. Los jugadores describieron la demo original de Oasis como con "lógica de sueño": giras, y puede que no vuelvas exactamente al mismo lugar. Los sistemas más recientes intentan reducir ese problema con mecanismos de memoria y consistencia más fuertes, pero la brecha persiste: aún no exponen una capa de estado de juego tradicional e inspeccionable.

El techo de la ventana de contexto

La coherencia está limitada por el diseño de memoria del modelo, no solo por la calidad visual en bruto. GameNGen usa un historial directo de fotogramas corto pero aun así reporta sesiones de juego estables de varios minutos mediante corrección aprendida. Genie 2 introdujo ejemplos visibles de memoria a largo plazo y mantuvo la consistencia hasta un minuto, con la mayoría de los ejemplos durando 10-20 segundos. Genie 3 lleva la interacción continua a unos minutos, y Matrix-Game 3.0 ataca el problema directamente con memoria a largo plazo. El problema sin resolver no es "¿puede el modelo durar más de unos segundos?". Es si puede preservar un estado de mundo fiable, inspeccionable y guardable durante la duración y complejidad de un juego real.

Estocástico, no determinista

La salida es probabilística por defecto. Ejecuta la misma configuración dos veces y puedes obtener fotogramas distintos a menos que el sistema esté fuertemente restringido. Para una herramienta artística, eso puede ser útil; para muchos juegos de producción, es un problema. El multijugador, el equilibrio competitivo, las repeticiones, la progresión de habilidades y guardar/cargar dependen todos de transiciones de estado fiables. Un modelo de mundo puede hacerse más repetible, pero un juego de producción aún necesitaría una capa de lógica determinista o un sistema de estado para garantizar el comportamiento que jugadores y desarrolladores esperan.

¿Es un juego o predicción de vídeo con un teclado?

La crítica más afilada es que estos sistemas no están simulando mundos en el sentido tradicional del motor de juego; están generando continuaciones visuales plausibles y dejándote dirigirlas. Un motor de juego codifica reglas; un modelo de mundo codifica plausibilidad. Un comentarista en el hilo de GameNGen en Hacker News lo llamó "la compresión de vídeo más ineficiente del mundo", y como provocación da en el clavo: el modelo ha memorizado de hecho una distribución sobre imágenes de juego y está interpolando a través de ella en respuesta a tus entradas. Hay una prueba clara para esto, en el recuadro de abajo.

La señal de la "deriva al quedarse quieto". Si un modelo de mundo realmente computara un mundo, un jugador inmóvil debería dar una imagen estable: nada está cambiando, así que nada debería cambiar. En sistemas de predicción de fotogramas débiles o tempranos, incluso quedarse quieto puede revelar deriva: pequeños detalles se desplazan porque el modelo está prediciendo el siguiente fotograma plausible en lugar de renderizar desde un estado de mundo fijo e inspeccionable. Esa es la señal. La escena puede parecer estable un rato, pero el sistema sigue generando continuidad en lugar de leerla de un motor convencional.

Conclusión clave: los límites de determinismo y persistencia son problemas arquitectónicos, no cuestiones que el escalado en bruto vaya a resolver por sí solo. Cualquier sistema que necesite un mundo fiable, repetible y guardable aún necesita una capa de lógica determinista, un sistema explícito de memoria/estado o un diseño de motor híbrido que los enfoques actuales de generación de fotogramas no proporcionan por sí mismos.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Cuánto cuesta realmente ejecutarlo

La generación en tiempo real es cara, y las cifras de titular ocultan mucho. La "sola TPU" de GameNGen suena barata hasta que recuerdas que está simulando DOOM a 320×240, no un juego moderno de alta resolución. La demo original de Oasis corría en tiempo real sobre infraestructura de clase H100, y el más reciente Oasis 3 de Decart hace la economía más concreta. Decart posiciona Oasis 3 como un modelo de mundo interactivo accesible por API para IA física, y TechCrunch reportó el precio de acceso a la vista previa a $0.02 por segundo, o $1.20 por una sesión de 60 segundos. Eso es útil para flujos de trabajo de pruebas, simulación e investigación, pero sigue siendo un modelo de coste muy distinto del de distribuir un cliente de juego normal.

Para ponerle escala: la generación de mundos en tiempo real sigue siendo cara, pero el panorama del hardware se mueve rápido. Algunos sistemas de investigación abiertos ahora reportan generación en tiempo real o casi en tiempo real en GPUs de clase H100 individuales, mientras que los sistemas de frontera orientados al consumidor siguen alojados en la nube y a menudo sin revelar. El punto firme no es "una sola GPU nunca podrá hacerlo"; es que la generación de mundos de calidad de producción, baja latencia y alta resolución sigue siendo un problema de infraestructura serio.

El contrapunto es que el suelo está bajando rápido, y el nivel de código abierto es real. DIAMOND se entrenó en unos 12 días en una sola RTX 4090 y, según su página oficial del proyecto, puede jugarse a aproximadamente 10 FPS en una RTX 3090. MineWorld y Matrix-Game son ejecutables públicamente. Así que, aunque las demos más impresionantes aún dependen de infraestructura especializada y cara, un desarrollador curioso ya puede ejecutar algunos experimentos reales de modelos de mundo en hardware accesible. Ambas cosas son ciertas a la vez: la interacción de calidad de frontera es costosa, y el punto de entrada para experimentar ya es real.

Entonces, ¿reemplazará la IA a Unity y Unreal?

No a corto plazo, y la razón son los límites de arriba, no una falta de inversión. El mercado se lo tomó en serio. Google lanzó Project Genie a los suscriptores estadounidenses de Google AI Ultra el 29 de enero de 2026, y al día siguiente varias acciones de videojuegos cayeron con fuerza: The Verge reportó a Unity con una caída del 24.22%, Roblox del 13.17% y Take-Two del 7.93% al cierre del viernes. La ansiedad también apareció dentro de la industria: la encuesta de 2026 de GDC encontró que el 52% de los profesionales del juego veía la IA generativa como un impacto negativo en los juegos, frente al 30% del año anterior. Pero los movimientos bursátiles y la ansiedad de las encuestas son reacciones a una demo. La arquitectura es lo que marca el calendario real.

Leyendo la trayectoria tal como está, y esta es mi lectura, no un pronóstico cerrado, los próximos 1-3 años probablemente mantengan los modelos de mundo en prototipos de investigación, infraestructura de simulación, entrenamiento de robótica/IA física y demos limitadas orientadas al consumidor, más que en juegos comerciales completos. El camino plausible de 3-7 años es híbrido, no de reemplazo: un modelo de mundo encargándose de la generación visual asentado sobre una máquina de estados determinista ligera que mantiene la lógica de juego real. Eso es aumento. La trayectoria es lo bastante pronunciada (DOOM a 320p hasta 720p-desde-texto en aproximadamente un año) como para que las predicciones confiadas a largo plazo sean imprudentes, así que no haré ninguna.

El detalle que replantea toda la cuestión: DeepMind vincula los modelos de mundo al entrenamiento de agentes y la investigación de AGI, mientras que Project Genie muestra la misma tecnología como un prototipo de creación de mundos orientado al consumidor. El Oasis 3 de Decart apunta de forma aún más explícita a la robótica, los vehículos autónomos y la simulación de IA física. Los juegos de consumo importan para la historia, pero el tirón comercial a corto plazo puede venir primero de la simulación, el entrenamiento y la creación de prototipos.

Preguntas frecuentes

¿Cuál es la diferencia entre un modelo de mundo y un motor de juego?

Un motor de juego codifica reglas explícitas y almacena el estado del juego como datos: es determinista, inspeccionable y depurable. Un modelo de mundo como GameNGen predice siguientes fotogramas plausibles a partir de fotogramas recientes más tu entrada, sin el estado, las reglas y las variables de objetos al estilo motor tradicional que los desarrolladores normalmente inspeccionan y controlan. El motor computa el mundo; el modelo de mundo lo adivina. Por eso uno es repetible y el otro no.

¿Cómo funciona GameNGen?

GameNGen ejecuta DOOM en tres pasos amplios. Primero, un agente de aprendizaje por refuerzo juega miles de sesiones de DOOM, registradas como fotogramas emparejados con acciones. Segundo, un Stable Diffusion v1.4 modificado aprende a predecir el siguiente fotograma condicionado a fotogramas pasados más la entrada del jugador. Tercero, la inferencia se reduce a 4 pasos de eliminación de ruido, produciendo aproximadamente 20 FPS en una sola TPU a 320×240.

¿Por qué el mundo en Oasis sigue cambiando cuando te das la vuelta?

En la demo original de Oasis al estilo Minecraft, el mundo podía cambiar cuando te dabas la vuelta porque el sistema no preservaba un estado de mundo tradicional al estilo motor. Generaba la siguiente vista a partir del contexto visual reciente y priors aprendidos, así que los objetos fuera de la vista podían volver en forma alterada. Los sistemas más recientes están añadiendo mecanismos de memoria y consistencia más fuertes, pero esa "lógica de sueño" original es exactamente lo que hizo fácil de notar la limitación.

¿Cuánto tiempo puede mantenerse consistente un mundo de juego generado por IA antes de derivar?

Depende del modelo. Los primeros sistemas a menudo derivan en segundos a decenas de segundos, pero los sistemas más recientes están ampliando ese horizonte. GameNGen tiene poco más de 3 segundos de contexto directo y aun así puede mantenerse estable a lo largo de un juego más largo mediante heurísticas aprendidas. Genie 2 mostró sobre todo ejemplos de 10-20 segundos y hasta un minuto en algunos casos. Genie 3 eleva la afirmación a unos minutos a 720p/24fps, y Matrix-Game 3.0 reporta una consistencia de memoria de un minuto. El problema sin resolver no son los clips cortos; es un estado de mundo duradero, inspeccionable y guardable.

¿Reemplazará la IA a motores de juego como Unity o Unreal?

No a corto plazo. Los bloqueos son arquitectónicos más que un problema puramente de escala: los juegos de producción necesitan estado persistente, lógica fiable, comportamiento determinista y semántica de guardar/cargar. El escalado ayuda a la calidad y la coherencia, pero por sí solo no crea un bucle de juego tradicional. El camino plausible es híbrido: un modelo de mundo generando visuales sobre un motor determinista para la lógica de juego, lo que es aumento más que reemplazo. DeepMind presenta los modelos de mundo como importantes para el entrenamiento de agentes y la investigación de AGI, mientras que Project Genie también hace visible la tecnología como un prototipo de creación de mundos orientado al consumidor. El Oasis 3 de Decart es el ejemplo más claro de un modelo apuntado explícitamente a la robótica, los vehículos autónomos y la simulación de IA física.

¿Puedes jugar a alguno de estos juegos generados por IA ahora mismo?

Sí, a varios. El Oasis original de Decart tenía una demo web pública al estilo Minecraft, y su más reciente Oasis 3 Preview ahora es accesible por API para experimentos de modelos de mundo en tiempo real. El Project Genie de Google también pasó a estar disponible para los suscriptores de Google AI Ultra en EE. UU. en enero de 2026. Para el nivel de código abierto, DIAMOND y MineWorld pueden descargarse y ejecutarse en GPUs de consumo, con DIAMOND reportado a alrededor de 10 FPS en una RTX 3090.

Juegos sin motor de juego: cómo los modelos de IA generan mundos jugables