Wie KI Spiele ohne Game Engine erzeugt (GameNGen, Genie 3)

2024 zeigte ein Team aus Google Research und Google DeepMind, dass ein neuronales Modell spielbares DOOM mit über 20 Bildern pro Sekunde simulieren kann, ohne die ursprüngliche Game Engine darunter laufen zu lassen. Es gab keine herkömmliche Engine-Schleife, die Koordinaten, Physikobjekte, Lebenspunkte oder den Kartenzustand auf die übliche Weise explizit speicherte. Stattdessen lernte GameNGen, das nächste Frame aus den letzten Frames und den Spielereingaben abzuleiten, einschließlich visueller Hinweise wie Lebenspunkte, Munition, Gegner, Türen und Wände. Das System namens GameNGen ist eine modifizierte Version von Stable Diffusion (dieselbe Art von Modell, das Bilder aus Text erzeugt), und es spielt DOOM, indem es jedes nächste Frame aus den vorherigen Frames plus der gerade gedrückten Taste halluziniert.

Das ist etwas grundlegend anderes als „KI innerhalb einer Game Engine". Wenn ein Studio KI nutzt, um Texturen zu erzeugen oder NPC-Dialoge in Unity zu schreiben, ist die Engine immer noch da und erledigt die eigentliche Arbeit. GameNGen hat keine Engine. Das Modell is das Spiel. Und es ist der Beginn einer echten Grenzverschiebung, die die Schlagzeilen immer wieder falsch verstehen. GameNGen erschien über den ICLR-Forschungstrack, DIAMOND kam über NeurIPS 2024, und Unternehmen wie Google DeepMind, Microsoft Research, Decart und Skywork AI treiben die Idee nun von Papern in Demos, APIs und Open-Source-Systeme voran.

Hier ist, was diese Systeme tatsächlich tun, wie die Vorhersage des nächsten Frames funktioniert, warum Kohärenz und Gedächtnis bei längerer Interaktion immer noch zusammenbrechen, was ihr Betrieb kostet und ob sie Unity gefährlich werden. Die kurze Antwort auf das Letzte lautet: nein, zumindest nicht so, wie der Hype es nahelegt. Der Grund ist architektonisch: mehr Rechenleistung hilft, aber sie schafft für sich genommen keinen persistenten Zustand, keine deterministische Logik und keine debugbare Spielschleife.

Die Kurzfassung

Diese Modelle sagen Frames vorher; sie simulieren keine Regeln. Eine Game Engine berechnet den nächsten Zustand aus Logik und gespeicherten Variablen. Ein Weltmodell wie GameNGen oder Oasis errät das nächste Bild aus den vorherigen Frames plus deiner Eingabe. Es führt keine herkömmliche Game-Engine-Simulation mit explizitem Objektzustand, Physikcode und inspizierbaren Variablen aus; es erzeugt die nächste Beobachtung über ein gelerntes Modell.
Ihre Kohärenz ist nach wie vor durch Gedächtnis und Kontext begrenzt, aber die Grenze ist nicht mehr so einfach wie „nach ein paar Sekunden bricht alles zusammen". GameNGen hat etwas mehr als 3 Sekunden direkter Frame-Historie, kann aber durch gelernte Heuristiken über längere Verläufe visuell stabil bleiben. Genie 2 zeigte meist 10-20 Sekunden lange Beispiele und konnte mitunter Details außerhalb des Sichtfelds bewahren, während Genie 3 die Konsistenz auf wenige Minuten bei 720p/24fps treibt. Die Kernschwäche bleibt: Diese Systeme liefern noch nicht den dauerhaften, inspizierbaren, speicherbaren Zustand, auf den sich Produktionsspiele verlassen.
Sie sind nicht von Natur aus deterministisch, so wie es Produktionsspiele brauchen. Du kannst das Sampling einschränken oder Seeds fixieren, aber das gibt dir trotzdem nicht die sauberen, inspizierbaren Zustandsaktualisierungen einer normalen Engine. Mehrspielermodus, Wettbewerbsbalance, Wiederholungen, Fortschrittssysteme und Speichern/Laden hängen alle von zuverlässigen Zustandsübergängen ab. Ein Frame-Generator kann dieses Verhalten annähern, aber ein Produktionsspiel bräuchte trotzdem eine deterministische Logikschicht darunter oder daneben.
DeepMind sieht Weltmodelle als Grundlage für das Training und die Bewertung von KI-Agenten in reichhaltigen simulierten Umgebungen, während Project Genie dieselbe Technologie in einem auf Endnutzer ausgerichteten Prototyp zur Welterschaffung zeigt. Decarts neueres Oasis 3 zielt sogar noch ausdrücklicher auf physische KI, Robotik und die Simulation autonomer Fahrzeuge ab. Das stellt die Frage „kommt das für Unity?" neu: Der ernsthafteste kurzfristige Markt könnte das Training und die Simulation von Agenten sein, nicht fertige Endkundenspiele.

Was dieser Artikel nicht behandelt

Ein paar benachbarte Themen werden in dieselbe Diskussion hineingezogen und gehören hier nicht hin:

DLSS, FSR, Upscaling und Frame-Generierung. Das ist KI, die einzelne Stufen of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Die detaillierte Methodik des bestärkenden Lernens die zum Sammeln der Trainingsdaten verwendet wird. Ich beschreibe sie auf konzeptueller Ebene; das vollständige Rezept steht in den Papern.
Hosting und Infrastruktur-Setup von Spieleservern. Dies ist eine Erklärung, wie die Modelle funktionieren, kein Deployment-Leitfaden.

Was Leute mit „KI-Game-Engine" meinen (und welche davon hier gemeint ist)

Der Begriff „KI-Game-Engine" wird drei völlig verschiedenen Dingen angeheftet, und die meiste Verwirrung über dieses Thema entsteht dadurch, dass man sie in einen Topf wirft. In diesem Artikel geht es um genau eines davon: ein Modell, das jedes Frame vorhersagt und die Engine vollständig ersetzt. Nicht KI-Werkzeuge, die an eine herkömmliche Engine angeflanscht werden, und kein Werkzeug, das 3D-Umgebungen baut, die du dann in eine Engine lädst.

Die drei Bedeutungen, schlicht ausgedrückt:

KI-Werkzeuge innerhalb einer herkömmlichen Engine. Asset-Generierung, Textursynthese, NPC-Verhaltensbäume, Dialog-Schreiben: alles läuft innerhalb von Unity oder Unreal. Die Engine rendert weiterhin Frames, berechnet Physik und hält den Zustand. Die KI ist ein Assistent in der Content-Pipeline. Das ist es, worum es bei den meisten Suchergebnissen für „KI-Game-Engine" tatsächlich geht, und es ist nicht das Thema dieses Artikels.
Generatoren für gestaltete 3D-Räume. World Labs, mitgegründet von Fei-Fei Li, bietet Marble, ein Werkzeug, das persistente, herunterladbare 3D-Umgebungen aus Text, Bildern, Videos oder anderen Eingaben erstellt. Entscheidend ist: Marble ist eher ein Werkzeug zur räumlichen Content-Erstellung. Es erzeugt persistente 3D-Welten, durch die man sich bewegen, die man bearbeiten, herunterladen oder in nachgelagerte Workflows exportieren kann. Das unterscheidet es von GameNGen, Oasis oder Systemen vom Typ Genie, bei denen das spielbare Erlebnis selbst live durch Frame-für-Frame-Generierung erzeugt wird.
Weltmodelle, die die Engine ersetzen. GameNGen, Oasis, die Genie-Familie, DIAMOND, MineWorld, Matrix-Game. Diese erzeugen spielbare Beobachtungen direkt, statt eine normale, gestaltete Szene in Unity oder Unreal zu laden. Manche neueren Systeme fügen Gedächtnis- und Konsistenzmechanismen hinzu, aber sie legen immer noch nicht das dauerhafte, inspizierbare, entwicklergesteuerte Zustandsmodell einer herkömmlichen Game Engine offen. Das ist das Thema hier.

Eine schnelle Entscheidungsregel für jeden Artikel, den du liest: Wenn das System eine Datei erzeugt, die du in Unity lädst, ist es Kategorie 1 oder 2. Wenn das System is das Ding, das du spielst, mit live erzeugten Frames, dann ist es Kategorie 3: ein Weltmodell.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Wie ein Modell ein Spiel ohne Engine erzeugt

Ein Weltmodell lernt, wie ein Spiel in Bewegung aussieht, und sagt dann das nächste Frame vorher, bedingt auf die letzten Frames plus die aktuelle Eingabe des Spielers. Anders als eine herkömmliche Engine legt es keine sauberen Variablen offen wie „die Tür ist offen", „dieser Gegner ist tot" oder „der Spieler ist an Koordinate X". In frühen Frame-Vorhersagesystemen lernt das Modell hauptsächlich, dass auf bestimmte Eingaben tendenziell bestimmte visuelle Zustände folgen. Spielen heißt einfach, diese gelernte Vorhersageschleife schnell genug laufen zu lassen, damit es sich interaktiv anfühlt.

GameNGen ist das sauberste durchgearbeitete Beispiel, weil das Paper jeden Schritt darlegt. Die Pipeline läuft in zwei Phasen. Erstens spielt ein Agent mit bestärkendem Lernen Tausende Sitzungen DOOM, und jede Sitzung wird als Strom von Frames aufgezeichnet, gepaart mit den Aktionen, die sie erzeugt haben. Zweitens wird ein modifiziertes Stable Diffusion v1.4 auf diesen Daten trainiert, um das nächste Frame aus den vorherigen Frames und der Aktion des Spielers vorherzusagen. Die Aktion wird direkt in die Konditionierung eingebacken, und das ist der Trick, der daraus ein Spiel macht und nicht nur einen Videogenerator. Dein Tastendruck ist Teil des Prompts für das nächste Bild.

Der schwierige Teil ist die Geschwindigkeit. Ein normales Diffusionsmodell durchläuft 20 bis 50 Entrauschungsschritte, um Rauschen in ein Bild zu verwandeln, was für Echtzeit-Spielen viel zu langsam ist. GameNGen kürzt das auf 4 Entrauschungsschritte, was die gesamte Inferenz auf rund 50 Millisekunden pro Frame bringt: schnell genug für 20 FPS auf einer einzigen TPU bei DOOMs nativer Auflösung von 320×240. Menschliche Bewerter konnten nur knapp besser als der Zufall unterscheiden, ob kurze Clips der Simulation oder echtes DOOM-Material vor ihnen lagen.

Die meisten Systeme in diesem Bereich fallen in überlappende architektonische Muster:

Diffusionsbasierte Systeme (GameNGen, Oasis, DIAMOND, Genie 2): starten von Rauschen und entrauschen es iterativ zum nächsten Frame. Sie können auf kurze Sicht eine starke visuelle Qualität erzeugen, brauchen aber Geschwindigkeitstricks, um interaktiv zu laufen.
Autoregressive Systeme (MineWorld): sagen künftige Frames oder Tokens sequenziell vorher, näher daran, wie ein Sprachmodell Text vorhersagt. MineWorld tauscht Bildrate gegen genaueres Befolgen der Aktionen und landet bei etwa 4-7 FPS.
Gedächtnis- und steuerungserweiterte Hybride (Matrix-Game 2.0/3.0 und neuere Systeme): kombinieren Echtzeit-Generierung mit Aktionskonditionierung, Kamerasteuerung und expliziten Gedächtnismechanismen, um das Driften über lange Verläufe zu verringern.

Ein Detail ist für den nächsten Abschnitt wichtig. Während des Trainings fügt GameNGen den vergangenen Frames, auf die es konditioniert, bewusst Rauschen hinzu. Das zwingt das Modell zu lernen, seine eigenen Fehler zu korrigieren, statt sie aufzusummieren, eine Abschwächung des Drift-Problems. Es hilft. Es löst es nicht.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Die Abstammung: Von Genie 1 zu Genie 3 in zwei Jahren

Das mit Abstand auffälligste an diesem Feld ist die Steigung. Im Februar 2024 erzeugte Genie 1 steuerbare 2D-Plattformer bei 256×256. Achtzehn Monate später erzeugte Genie 3 begehbare 3D-Welten aus einem Text-Prompt bei 720p und 24 FPS. Das ist die Entwicklung, auf die es sich zu achten lohnt: nicht irgendeine einzelne Demo, sondern die Veränderungsrate dazwischen.

Als eine einzige Entwicklung gelesen, geht die Geschichte so. Genie 1 (DeepMind, ICML 2024) bewies, dass man interaktive Umgebungen aus unbeschriftetem Video lernen kann. GameNGen (Google, ICLR 2025) zeigte, dass dieselbe Idee ein echtes, schnelles Spiel (DOOM) in Echtzeit laufen lassen kann. Oasis (Decart, Oktober 2024) brachte es zu Minecraft und machte es öffentlich spielbar. Genie 2 (DeepMind, Dezember 2024) sprang zu 3D-Welten, die aus einem einzigen Bild erzeugt werden. DIAMOND (NeurIPS 2024) machte den Ansatz Open Source und auf einer Consumer-GPU lauffähig. GameGen-X und MineWorld (Microsoft, 2025) trieben das offene Ökosystem weiter. Genie 3 (August 2025; öffentlich als Project Genie im Januar 2026) erreichte Echtzeit-3D aus Text. Matrix-Game 2.0 trieb die Open-Source-Echtzeit-Streaming-Generierung auf 25 FPS, und Matrix-Game 3.0 ging das Gedächtnisproblem direkter an, mit einer Gedächtnisarchitektur für lange Verläufe.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Die Spezifikationen der wichtigsten Systeme stehen in der Tabelle unten; der Kern der Erzählung ist der Bogen, nicht die Zahlen.

System	Entwickler	Jahr	Ansatz	Auflösung / FPS	Open Source?	Quelle
Genie 1	Google DeepMind	2024	Latente Aktion	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Teilweise (500M ckpt)	Project
Oasis 3	Decart	2026	Per API zugängliches interaktives Weltmodell für physische KI	Echtzeit-API-Vorschau	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregressive latente Diffusion	Nicht zutreffend	No	DeepMind
DIAMOND	Genf / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Ja (MIT)	arXiv
GameGen-X	Akademisch	2024	Diffusionstransformer	Nicht zutreffend	Ja	arXiv
MineWorld	Microsoft Research	2025	Autoregressiv	4-7 FPS	Ja	arXiv
Genie 3	Google DeepMind	2025	Universelles Echtzeit-Weltmodell	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Autoregressive Few-Step-Diffusion	25 FPS auf einer einzigen H100	Ja	Project
Matrix-Game 3.0	Skywork AI	2026	Gedächtniserweitertes interaktives Weltmodell	Bis zu 40 FPS bei 720p mit einem 5B-Modell	Ja	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Warum diese Welten auseinanderfallen

Diese Systeme brechen immer noch auf vier wichtige Arten, aber der Fehlermodus ist nicht nur „zu wenig Rechenleistung". Mehr GPUs können Auflösung, Latenz und Modellgröße verbessern, aber Kohärenz auf Produktionsniveau braucht besseres Gedächtnis, Zustandsverfolgung und Steuerungsarchitektur. Ein Modell, das plausible Frames vorhersagt, ist nicht dasselbe wie eine Engine mit expliziten Regeln, inspizierbaren Variablen, deterministischen Zustandsaktualisierungen und Speichern/Laden-Semantik. Jede Einschränkung unten ist das, was das Modell strukturell nicht kann, nicht das, worin es nur noch nicht gut genug geworden ist.

Kein persistenter Weltzustand

Diese Systeme legen Variablen nicht so offen, wie es eine herkömmliche Engine tut. Eine normale Engine speichert die Welt als Daten: Diese Truhe ist offen, dieser Gegner ist tot, der Spieler ist an Koordinate (412, 88). In frühen Frame-Vorhersagesystemen gibt es keinen dauerhaften Engine-Zustand in diesem spielentwicklerischen Sinn. Das Modell verlässt sich hauptsächlich auf den jüngsten visuellen Kontext und gelernte Priors, sodass Objekte sich verändern, verschwinden oder falsch wieder auftauchen können, sobald sie das Sichtfeld verlassen. Neuere Systeme fügen explizite Gedächtnis- und Konsistenzmechanismen hinzu, aber sie legen immer noch nicht die Art von sauberem, debugbarem Weltzustand offen, die eine herkömmliche Engine Entwicklern gibt.

In schwächeren oder frühen Frame-Vorhersagesystemen kann eine Truhe, die du geöffnet hast, geschlossen wieder auftauchen, ein Monster, das du getötet hast, kann zurückkommen, und eine Struktur, die du gebaut hast, kann sich auflösen, sobald sie das Bild verlässt. Spieler beschrieben die ursprüngliche Oasis-Demo als von „Traumlogik" geprägt: Du drehst dich um, und du kehrst vielleicht nicht genau an denselben Ort zurück. Neuere Systeme versuchen, dieses Problem mit stärkeren Gedächtnis- und Konsistenzmechanismen zu verringern, aber die Lücke bleibt: Sie legen immer noch keine herkömmliche, inspizierbare Spielzustands-Schicht offen.

Die Obergrenze des Kontextfensters

Kohärenz ist durch das Gedächtnisdesign des Modells begrenzt, nicht nur durch die reine visuelle Qualität. GameNGen nutzt eine kurze direkte Frame-Historie, berichtet aber dennoch von stabilen, mehrere Minuten langen Spielsitzungen durch gelernte Korrektur. Genie 2 führte sichtbare Beispiele für Gedächtnis über lange Verläufe ein und hielt die Konsistenz bis zu einer Minute, wobei die meisten Beispiele 10-20 Sekunden dauerten. Genie 3 treibt die kontinuierliche Interaktion auf wenige Minuten, und Matrix-Game 3.0 greift das Problem direkt mit Gedächtnis über lange Verläufe an. Die ungelöste Frage ist nicht „kann das Modell länger als ein paar Sekunden durchhalten?". Es geht darum, ob es einen zuverlässigen, inspizierbaren, speicherbaren Weltzustand über die Länge und Komplexität eines echten Spiels bewahren kann.

Stochastisch, nicht deterministisch

Die Ausgabe ist standardmäßig probabilistisch. Lass dasselbe Setup zweimal laufen, und du bekommst womöglich unterschiedliche Frames, sofern das System nicht stark eingeschränkt wird. Für ein Kunstwerkzeug kann das nützlich sein; für viele Produktionsspiele ist es ein Problem. Mehrspielermodus, Wettbewerbsbalance, Wiederholungen, Fortschrittssysteme und Speichern/Laden hängen alle von zuverlässigen Zustandsübergängen ab. Ein Weltmodell kann wiederholbarer gemacht werden, aber ein Produktionsspiel bräuchte trotzdem eine deterministische Logikschicht oder ein Zustandssystem, um das von Spielern und Entwicklern erwartete Verhalten zu garantieren.

Ist es ein Spiel oder Videovorhersage mit einer Tastatur?

Die schärfste Kritik lautet, dass diese Systeme keine Welten im herkömmlichen Game-Engine-Sinn simulieren; sie erzeugen plausible visuelle Fortsetzungen und lassen dich sie lenken. Eine Game Engine kodiert Regeln; ein Weltmodell kodiert Plausibilität. Ein Kommentator im GameNGen-Thread auf Hacker News nannte es „die ineffizienteste Videokompression der Welt", und als Provokation trifft es: Das Modell hat im Grunde eine Verteilung über Gameplay-Aufnahmen auswendig gelernt und interpoliert als Reaktion auf deine Eingaben durch sie hindurch. Dafür gibt es einen sauberen Test, im Kasten unten.

Das verräterische „Driften im Stillstand". Wenn ein Weltmodell wirklich eine Welt berechnete, sollte ein bewegungsloser Spieler ein stabiles Bild ergeben: Nichts ändert sich, also sollte sich nichts ändern. In schwächeren oder frühen Frame-Vorhersagesystemen kann schon das Stillstehen Drift offenbaren: Kleine Details verschieben sich, weil das Modell das nächste plausible Frame vorhersagt, statt aus einem festen, inspizierbaren Weltzustand zu rendern. Das ist das verräterische Zeichen. Die Szene mag eine Weile stabil aussehen, aber das System erzeugt die Kontinuität immer noch, statt sie aus einer herkömmlichen Engine zu lesen.

Wichtigste Erkenntnis: Die Grenzen von Determinismus und Persistenz sind architektonische Probleme, keine Fragen, die rohes Skalieren von selbst lösen wird. Jedes System, das eine zuverlässige, wiederholbare, speicherbare Welt braucht, braucht immer noch eine deterministische Logikschicht, ein explizites Gedächtnis-/Zustandssystem oder ein hybrides Engine-Design, das die aktuellen Frame-Generierungsansätze von sich aus nicht bieten.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Was der Betrieb tatsächlich kostet

Echtzeit-Generierung ist teuer, und die Schlagzeilenzahlen verbergen eine Menge. GameNGens „einzelne TPU" klingt günstig, bis man sich erinnert, dass es DOOM bei 320×240 simuliert, nicht ein modernes hochauflösendes Spiel. Die ursprüngliche Oasis-Demo lief in Echtzeit auf Infrastruktur der H100-Klasse, und Decarts neueres Oasis 3 macht die Wirtschaftlichkeit konkreter. Decart positioniert Oasis 3 als per API zugängliches interaktives Weltmodell für physische KI, und TechCrunch berichtete von der Preisgestaltung für den Vorschau-Zugang von $0.02 pro Sekunde, oder $1.20 für eine 60-sekündige Sitzung. Das ist nützlich für Test-, Simulations- und Forschungs-Workflows, aber es ist immer noch ein ganz anderes Kostenmodell als das Ausliefern eines normalen Spiele-Clients.

Um es ins Verhältnis zu setzen: Echtzeit-Welterzeugung ist immer noch teuer, aber das Hardware-Bild bewegt sich schnell. Einige offene Forschungssysteme berichten inzwischen von Echtzeit- oder Nahezu-Echtzeit-Generierung auf einzelnen GPUs der H100-Klasse, während die führenden, auf Endnutzer ausgerichteten Systeme cloud-gehostet und oft nicht offengelegt bleiben. Der feste Punkt ist nicht „eine GPU kann es nie"; es ist, dass produktionsreife, latenzarme, hochauflösende Welterzeugung immer noch ein ernsthaftes Infrastrukturproblem ist.

Der Gegenpunkt ist, dass die Untergrenze schnell sinkt und der Open-Source-Bereich real ist. DIAMOND wurde in etwa 12 Tagen auf einer einzigen RTX 4090 trainiert und kann laut seiner offiziellen Projektseitemit rund 10 FPS auf einer RTX 3090 gespielt werden. MineWorld und Matrix-Game sind öffentlich lauffähig. Während die beeindruckendsten Demos also weiterhin von spezialisierter, teurer Infrastruktur abhängen, kann ein neugieriger Entwickler bereits jetzt einige echte Weltmodell-Experimente auf zugänglicher Hardware laufen lassen. Beides ist gleichzeitig wahr: Interaktion in Spitzenqualität ist kostspielig, und der Einstiegspunkt zum Experimentieren ist bereits real.

Wird KI also Unity und Unreal ersetzen?

Nicht in naher Zukunft, und der Grund sind die obigen Grenzen, kein Mangel an Investitionen. Der Markt nahm es ernst. Google führte Project Genie am 29. Januar 2026 für Google-AI-Ultra-Abonnenten in den USA ein, und am nächsten Tag stürzten mehrere Gaming-Aktien stark ab: The Verge berichtete von Unity minus 24.22%, Roblox minus 13.17% und Take-Two minus 7.93% zum Handelsschluss am Freitag. Die Sorge zeigte sich auch innerhalb der Branche: die GDC-Umfrage 2026 ergab, dass 52% der Spielebranchenprofis generative KI als negativen Einfluss auf Spiele sahen, gegenüber 30% im Vorjahr. Aber Aktienbewegungen und Umfrageangst sind Reaktionen auf eine Demo. Die Architektur ist es, die den tatsächlichen Zeitrahmen vorgibt.

Liest man die Entwicklung, wie sie aktuell steht, und das ist meine Einschätzung, keine feststehende Prognose, halten die nächsten 1-3 Jahre Weltmodelle wahrscheinlich in Forschungsprototypen, Simulationsinfrastruktur, Robotik-/physischer-KI-Training und schmalen, auf Endnutzer ausgerichteten Demos, statt in vollwertigen kommerziellen Spielen. Der plausible Weg über 3-7 Jahre ist hybrid, nicht Ersatz: ein Weltmodell, das die visuelle Generierung übernimmt und auf einer leichtgewichtigen deterministischen Zustandsmaschine sitzt, welche die eigentliche Spiellogik hält. Das ist Erweiterung. Die Entwicklung ist steil genug (DOOM bei 320p bis 720p-aus-Text in etwa einem Jahr), dass selbstbewusste langfristige Vorhersagen unklug sind, also mache ich keine.

Das Detail, das die ganze Frage neu rahmt: DeepMind verknüpft Weltmodelle mit dem Training von Agenten und der AGI-Forschung, während Project Genie dieselbe Technologie als auf Endnutzer ausgerichteten Prototyp zur Welterschaffung zeigt. Decarts Oasis 3 zielt sogar noch ausdrücklicher auf Robotik, autonome Fahrzeuge und physische-KI-Simulation ab. Endkundenspiele sind wichtig für die Geschichte, aber der kurzfristige kommerzielle Sog könnte zuerst aus Simulation, Training und Prototyping kommen.

Häufig gestellte Fragen

Was ist der Unterschied zwischen einem Weltmodell und einer Game Engine?

Eine Game Engine kodiert explizite Regeln und speichert den Spielzustand als Daten: Sie ist deterministisch, inspizierbar und debugbar. Ein Weltmodell wie GameNGen sagt plausible nächste Frames aus den letzten Frames plus deiner Eingabe vorher, ohne den herkömmlichen Engine-artigen Zustand, die Regeln und die Objektvariablen, die Entwickler normalerweise inspizieren und steuern. Die Engine berechnet die Welt; das Weltmodell errät sie. Deshalb ist das eine wiederholbar und das andere nicht.

Wie funktioniert GameNGen?

GameNGen lässt DOOM in drei groben Schritten laufen. Erstens spielt ein Agent mit bestärkendem Lernen Tausende DOOM-Sitzungen, aufgezeichnet als Frames, gepaart mit Aktionen. Zweitens lernt ein modifiziertes Stable Diffusion v1.4, das nächste Frame bedingt auf vergangene Frames plus die Eingabe des Spielers vorherzusagen. Drittens wird die Inferenz auf 4 Entrauschungsschritte gekürzt, was rund 20 FPS auf einer einzigen TPU bei 320×240 erzeugt.

Warum ändert sich die Welt in Oasis ständig, wenn man sich umdreht?

In der ursprünglichen, Minecraft-ähnlichen Oasis-Demo konnte sich die Welt ändern, wenn man sich umdrehte, weil das System keinen herkömmlichen, Engine-artigen Weltzustand bewahrte. Es erzeugte die nächste Ansicht aus dem jüngsten visuellen Kontext und gelernten Priors, sodass Objekte außerhalb des Sichtfelds in veränderter Form zurückkehren konnten. Neuere Systeme fügen stärkere Gedächtnis- und Konsistenzmechanismen hinzu, aber genau jene ursprüngliche „Traumlogik" machte die Einschränkung leicht erkennbar.

Wie lange kann eine KI-erzeugte Spielwelt konsistent bleiben, bevor sie driftet?

Es hängt vom Modell ab. Frühe Systeme driften oft innerhalb von Sekunden bis Dutzenden von Sekunden, aber neuere Systeme dehnen diesen Horizont aus. GameNGen hat etwas mehr als 3 Sekunden direkten Kontext, kann aber durch gelernte Heuristiken über längeres Gameplay stabil bleiben. Genie 2 zeigte meist 10-20 Sekunden lange Beispiele und in manchen Fällen bis zu einer Minute. Genie 3 hebt den Anspruch auf wenige Minuten bei 720p/24fps, und Matrix-Game 3.0 berichtet von minutenlanger Gedächtniskonsistenz. Das ungelöste Problem sind nicht kurze Clips; es ist ein dauerhafter, inspizierbarer, speicherbarer Weltzustand.

Wird KI Game Engines wie Unity oder Unreal ersetzen?

Nicht in naher Zukunft. Die Hindernisse sind eher architektonisch als rein ein Skalierungsproblem: Produktionsspiele brauchen persistenten Zustand, zuverlässige Logik, deterministisches Verhalten und Speichern/Laden-Semantik. Skalieren hilft Qualität und Kohärenz, aber es schafft für sich genommen keine herkömmliche Spielschleife. Der plausible Weg ist hybrid: ein Weltmodell, das Visuals erzeugt, auf einer deterministischen Engine für die Spiellogik, was Erweiterung statt Ersatz ist. DeepMind präsentiert Weltmodelle als wichtig für das Training von Agenten und die AGI-Forschung, während Project Genie die Technologie zugleich als auf Endnutzer ausgerichteten Prototyp zur Welterschaffung sichtbar macht. Decarts Oasis 3 ist das klarere Beispiel für ein Modell, das ausdrücklich auf Robotik, autonome Fahrzeuge und physische-KI-Simulation abzielt.

Kann man eines dieser KI-erzeugten Spiele jetzt schon spielen?

Ja, mehrere. Decarts ursprüngliches Oasis hatte eine öffentliche, Minecraft-ähnliche Web-Demo, und sein neueres Oasis 3 Preview ist nun per API für Echtzeit-Weltmodell-Experimente zugänglich. Googles Project Genie wurde im Januar 2026 außerdem für Google-AI-Ultra-Abonnenten in den USA verfügbar. Für den Open-Source-Bereich können DIAMOND und MineWorld heruntergeladen und auf Consumer-GPUs ausgeführt werden, wobei DIAMOND mit rund 10 FPS auf einer RTX 3090 angegeben wird.

Spiele ohne Game Engine: Wie KI-Modelle spielbare Welten erzeugen