Bagaimana AI Menghasilkan Game Tanpa Game Engine (GameNGen, Genie 3)

Pada 2024, tim Google Research dan Google DeepMind menunjukkan bahwa sebuah model neural bisa mensimulasikan DOOM yang bisa dimainkan pada lebih dari 20 frame per detik tanpa menjalankan game engine asli di baliknya. Tidak ada loop engine konvensional yang secara eksplisit menyimpan koordinat, objek fisika, variabel health, atau state peta dengan cara biasa. Sebagai gantinya, GameNGen belajar menyimpulkan frame berikutnya dari frame-frame terbaru dan input pemain, termasuk petunjuk visual seperti health, amunisi, musuh, pintu, dan dinding. Sistem yang disebut GameNGen ini adalah versi modifikasi dari Stable Diffusion (jenis model yang sama yang menghasilkan gambar dari teks), dan ia memainkan DOOM dengan berhalusinasi membentuk setiap frame berikutnya dari frame-frame sebelumnya ditambah tombol apa pun yang baru saja Anda tekan.

Itu adalah sesuatu yang secara mendasar berbeda dari "AI di dalam game engine." Ketika sebuah studio menggunakan AI untuk menghasilkan tekstur atau menulis dialog NPC di Unity, engine-nya masih ada melakukan pekerjaan yang sebenarnya. GameNGen tidak punya engine. Model itu is game-nya sendiri. Dan inilah awal dari sebuah perbatasan sejati yang terus disalahpahami oleh berita utama. GameNGen muncul melalui jalur riset ICLR, DIAMOND hadir melalui NeurIPS 2024, dan perusahaan seperti Google DeepMind, Microsoft Research, Decart, dan Skywork AI kini mendorong gagasan ini dari makalah ke demo, API, dan sistem open-source.

Berikut adalah apa yang sebenarnya dilakukan sistem-sistem ini, bagaimana prediksi frame berikutnya bekerja, mengapa koherensi dan memori masih runtuh selama interaksi yang lebih panjang, berapa biaya untuk menjalankannya, dan apakah mereka akan menggantikan Unity. Jawaban singkat untuk yang terakhir adalah tidak, setidaknya tidak seperti yang diisyaratkan oleh hype. Alasannya bersifat arsitektural: lebih banyak komputasi membantu, tetapi itu sendiri tidak menciptakan state persisten, logika deterministik, atau game loop yang bisa di-debug.

Versi Singkat

Model-model ini memprediksi frame; mereka tidak mensimulasikan aturan. Sebuah game engine menghitung state berikutnya dari logika dan variabel tersimpan. Sebuah world model seperti GameNGen atau Oasis menebak gambar berikutnya dari frame-frame sebelumnya ditambah input Anda. Ia tidak menjalankan simulasi game-engine tradisional dengan state objek eksplisit, kode fisika, dan variabel yang bisa diperiksa; ia menghasilkan observasi berikutnya melalui sebuah model yang dipelajari.
Koherensi mereka masih dibatasi oleh memori dan konteks, tetapi batasnya tidak lagi sesederhana "semuanya gagal setelah beberapa detik." GameNGen memiliki sedikit lebih dari 3 detik riwayat frame langsung namun bisa tetap stabil secara visual sepanjang lintasan yang lebih panjang melalui heuristik yang dipelajari. Genie 2 biasanya menampilkan contoh 10-20 detik dan terkadang bisa mempertahankan detail di luar pandangan, sementara Genie 3 mendorong konsistensi hingga beberapa menit pada 720p/24fps. Kelemahan intinya tetap: sistem-sistem ini belum menyediakan state yang tahan lama, bisa diperiksa, dan bisa disimpan yang diandalkan oleh game produksi.
Mereka tidak secara alami deterministik dengan cara yang dibutuhkan game produksi. Anda bisa membatasi sampling atau menetapkan seed, tetapi itu tetap tidak memberi Anda pembaruan state yang bersih dan bisa diperiksa seperti pada engine biasa. Multiplayer, keseimbangan kompetitif, replay, progresi skill, serta save/load semuanya bergantung pada transisi state yang andal. Sebuah generator frame bisa mendekati perilaku itu, tetapi game produksi tetap membutuhkan lapisan logika deterministik di bawah atau di sampingnya.
DeepMind memposisikan world model sebagai fondasi untuk melatih dan mengevaluasi agen AI dalam lingkungan simulasi yang kaya, sementara Project Genie menunjukkan teknologi yang sama dalam prototipe penciptaan dunia yang berhadapan langsung dengan konsumen. Oasis 3 terbaru dari Decart bahkan lebih eksplisit diarahkan pada AI fisik, robotika, dan simulasi kendaraan otonom. Itu membingkai ulang pertanyaan "apakah ini akan menggantikan Unity?": pasar jangka pendek yang paling serius mungkin adalah pelatihan agen dan simulasi, bukan game konsumen jadi.

Apa yang Tidak Dibahas Artikel Ini

Beberapa topik bertetangga ikut tertarik ke dalam percakapan yang sama dan tidak relevan di sini:

DLSS, FSR, upscaling, dan frame generation. Itu adalah AI yang menggantikan tahap-tahap individual of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Metodologi reinforcement learning yang terperinci yang digunakan untuk mengumpulkan data pelatihan. Saya akan menjelaskannya pada tingkat konseptual; makalahnya punya resep lengkapnya.
Hosting game-server dan penyiapan infrastruktur. Ini adalah penjelasan tentang cara kerja model, bukan panduan deployment.

Apa yang Orang Maksud dengan "AI Game Engine" (dan Yang Mana Ini)

Frasa "AI game engine" disematkan pada tiga hal yang sama sekali berbeda, dan kebanyakan kebingungan tentang topik ini berasal dari menggabungkannya menjadi satu. Artikel ini membahas tepat salah satunya: sebuah model yang memprediksi setiap frame dan menggantikan engine sepenuhnya. Bukan perkakas AI yang ditempelkan pada engine tradisional, dan bukan perkakas yang membangun lingkungan 3D yang kemudian Anda muat ke dalam engine.

Ketiga makna itu, dalam istilah sederhana:

Perkakas AI di dalam engine tradisional. Pembuatan aset, sintesis tekstur, behavior tree NPC, penulisan dialog: semuanya berjalan di dalam Unity atau Unreal. Engine masih merender frame, menjalankan fisika, dan menyimpan state. AI adalah asisten dalam pipeline konten. Inilah yang sebenarnya dimaksud oleh kebanyakan hasil pencarian untuk "AI game engine," dan itu bukan subjek artikel ini.
Generator ruang 3D yang diotori manusia. World Labs, yang didirikan bersama oleh Fei-Fei Li, menawarkan Marble, sebuah perkakas yang menciptakan lingkungan 3D persisten yang bisa diunduh dari teks, gambar, video, atau input lainnya. Yang penting, Marble lebih dekat ke perkakas pembuatan konten spasial: ia menghasilkan dunia 3D persisten yang bisa dilalui, disunting, diunduh, atau diekspor ke alur kerja hilir. Itu membuatnya berbeda dari sistem bergaya GameNGen, Oasis, atau Genie di mana pengalaman yang bisa dimainkan itu sendiri dihasilkan secara langsung melalui pembuatan frame demi frame.
World model yang menggantikan engine. GameNGen, Oasis, keluarga Genie, DIAMOND, MineWorld, Matrix-Game. Ini menghasilkan observasi yang bisa dimainkan secara langsung alih-alih memuat scene yang diotori biasa ke dalam Unity atau Unreal. Beberapa sistem terbaru menambahkan mekanisme memori dan konsistensi, tetapi mereka tetap tidak mengekspos model state yang tahan lama, bisa diperiksa, dan dikendalikan developer seperti pada game engine tradisional. Inilah subjeknya di sini.

Aturan keputusan cepat untuk artikel apa pun yang Anda baca: jika sistem menghasilkan sebuah file yang Anda muat ke Unity, itu kategori 1 atau 2. Jika sistem itu is hal yang Anda mainkan, dengan frame yang dihasilkan secara langsung, itu kategori 3: sebuah world model.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Bagaimana Sebuah Model Menghasilkan Game Tanpa Engine

Sebuah world model belajar seperti apa rupa sebuah game saat bergerak, lalu memprediksi frame berikutnya dengan mengondisikan pada frame-frame terbaru ditambah input pemain saat ini. Tidak seperti engine tradisional, ia tidak mengekspos variabel bersih seperti "pintu terbuka," "musuh ini mati," atau "pemain berada di koordinat X." Pada sistem prediksi frame awal, model umumnya belajar bahwa state visual tertentu cenderung mengikuti input tertentu. Bermain hanyalah menjalankan loop prediksi yang dipelajari itu cukup cepat sehingga terasa interaktif.

GameNGen adalah contoh kerja yang paling jernih, karena makalahnya menjabarkan setiap langkah. Pipeline-nya berjalan dalam dua fase. Pertama, sebuah agen reinforcement learning memainkan ribuan sesi DOOM, dan setiap sesi direkam sebagai aliran frame yang dipasangkan dengan aksi yang menghasilkannya. Kedua, sebuah Stable Diffusion v1.4 yang dimodifikasi dilatih pada data itu untuk memprediksi frame berikutnya berdasarkan frame-frame sebelumnya dan aksi pemain. Aksi itu ditanam langsung ke dalam pengondisian, dan itulah trik yang membuatnya menjadi game dan bukan sekadar generator video. Penekanan tombol Anda adalah bagian dari prompt untuk gambar berikutnya.

Bagian sulitnya adalah kecepatan. Sebuah model difusi biasa menjalankan 20 hingga 50 langkah denoising untuk mengubah noise menjadi gambar, yang jauh terlalu lambat untuk permainan real-time. GameNGen memangkasnya menjadi 4 langkah denoising, membawa total inferensi menjadi sekitar 50 milidetik per frame: cukup cepat untuk 20 FPS pada satu TPU pada resolusi native DOOM 320×240. Penilai manusia hanya bisa sedikit lebih baik dari tebakan acak dalam membedakan klip pendek simulasi dari rekaman DOOM asli.

Sebagian besar sistem di ruang ini termasuk dalam pola arsitektural yang tumpang tindih:

Sistem berbasis difusi (GameNGen, Oasis, DIAMOND, Genie 2): mulai dari noise dan secara iteratif men-denoise menjadi frame berikutnya. Mereka bisa menghasilkan kualitas visual jangka pendek yang kuat, tetapi membutuhkan trik kecepatan untuk berjalan secara interaktif.
Sistem autoregresif (MineWorld): memprediksi frame atau token masa depan secara berurutan, lebih dekat ke cara language model memprediksi teks. MineWorld menukar frame rate demi pengikutan aksi yang lebih ketat, mendarat di sekitar 4-7 FPS.
Hibrida yang diperkuat memori dan kendali (Matrix-Game 2.0/3.0 dan sistem yang lebih baru): memadukan pembuatan real-time dengan pengondisian aksi, kendali kamera, dan mekanisme memori eksplisit untuk mengurangi drift jangka panjang.

Satu detail penting untuk bagian berikutnya. Selama pelatihan, GameNGen sengaja menambahkan noise ke frame-frame lampau yang menjadi pengondisiannya. Itu memaksa model untuk belajar mengoreksi kesalahannya sendiri alih-alih menumpuknya, sebuah mitigasi untuk masalah drift. Itu membantu. Itu tidak menyelesaikannya.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Garis Keturunan: Dari Genie 1 ke Genie 3 dalam Dua Tahun

Hal paling mencolok tentang bidang ini adalah kemiringannya. Pada Februari 2024, Genie 1 menghasilkan platformer 2D yang bisa dikendalikan pada 256×256. Delapan belas bulan kemudian, Genie 3 menghasilkan dunia 3D yang bisa dinavigasi dari prompt teks pada 720p dan 24 FPS. Itulah lintasan yang patut diperhatikan: bukan satu demo tunggal, melainkan laju perubahan di antaranya.

Dibaca sebagai satu progresi, ceritanya berjalan seperti ini. Genie 1 (DeepMind, ICML 2024) membuktikan Anda bisa mempelajari lingkungan interaktif dari video tanpa label. GameNGen (Google, ICLR 2025) menunjukkan gagasan yang sama bisa menjalankan game nyata yang berlangsung cepat (DOOM) secara real-time. Oasis (Decart, Oktober 2024) membawanya ke Minecraft dan membuatnya bisa dimainkan publik. Genie 2 (DeepMind, Desember 2024) melompat ke dunia 3D yang dihasilkan dari satu gambar. DIAMOND (NeurIPS 2024) membuat pendekatan ini open-source dan bisa dijalankan pada GPU konsumen. GameGen-X dan MineWorld (Microsoft, 2025) mendorong ekosistem terbuka lebih jauh. Genie 3 (Agustus 2025; tersedia untuk publik sebagai Project Genie pada Januari 2026) mencapai 3D real-time dari teks. Matrix-Game 2.0 mendorong pembuatan streaming real-time open-source ke 25 FPS, dan Matrix-Game 3.0 menyerang masalah memori secara lebih langsung dengan arsitektur memori jangka panjang.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Spesifikasi untuk sistem-sistem utama ada di tabel di bawah; inti dari narasinya adalah busur perkembangannya, bukan angka-angkanya.

Sistem	Pengembang	Tahun	Pendekatan	Resolusi / FPS	Open-source?	Sumber
Genie 1	Google DeepMind	2024	Aksi laten	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Sebagian (500M ckpt)	Project
Oasis 3	Decart	2026	World model interaktif yang bisa diakses via API untuk AI fisik	Pratinjau API real-time	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Difusi laten autoregresif	T/A	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Ya (MIT)	arXiv
GameGen-X	Akademik	2024	Diffusion transformer	T/A	Ya	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	Ya	arXiv
Genie 3	Google DeepMind	2025	World model real-time serbaguna	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Difusi autoregresif beberapa langkah	25 FPS pada satu H100	Ya	Project
Matrix-Game 3.0	Skywork AI	2026	World model interaktif yang diperkuat memori	Hingga 40 FPS pada 720p dengan model 5B	Ya	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Mengapa Dunia-Dunia Ini Berantakan

Sistem-sistem ini masih rusak dalam empat hal penting, tetapi mode kegagalannya bukan sekadar "komputasi tidak cukup." Lebih banyak GPU bisa meningkatkan resolusi, latensi, dan skala model, tetapi koherensi tingkat produksi membutuhkan memori, pelacakan state, dan arsitektur kendali yang lebih baik. Sebuah model yang memprediksi frame yang masuk akal bukanlah hal yang sama dengan engine yang memiliki aturan eksplisit, variabel yang bisa diperiksa, pembaruan state deterministik, dan semantik save/load. Setiap keterbatasan di bawah ini adalah apa yang model secara struktural tidak bisa lakukan, bukan apa yang belum cukup mahir ia lakukan.

Tidak Ada State Dunia yang Persisten

Sistem-sistem ini tidak mengekspos variabel dengan cara seperti engine tradisional. Engine biasa menyimpan dunia sebagai data: peti ini terbuka, musuh ini mati, pemain berada di koordinat (412, 88). Pada sistem prediksi frame awal, tidak ada state engine yang tahan lama dalam pengertian pengembangan game itu. Model umumnya bergantung pada konteks visual terbaru dan prior yang dipelajari, sehingga objek bisa berubah, lenyap, atau muncul kembali secara keliru setelah keluar dari pandangan. Sistem yang lebih baru menambahkan mekanisme memori dan konsistensi eksplisit, tetapi mereka tetap tidak mengekspos state dunia yang bersih dan bisa di-debug seperti yang diberikan engine tradisional kepada developer.

Pada sistem prediksi frame yang lebih lemah atau awal, peti yang Anda buka bisa muncul kembali dalam keadaan tertutup, monster yang Anda bunuh bisa berjalan masuk lagi, dan struktur yang Anda bangun bisa larut begitu keluar dari frame. Pemain menggambarkan demo Oasis orisinal sebagai memiliki "logika mimpi": Anda berbalik, dan Anda mungkin tidak kembali ke tempat yang persis sama. Sistem yang lebih baru mencoba mengurangi masalah itu dengan mekanisme memori dan konsistensi yang lebih kuat, tetapi jaraknya tetap ada: mereka masih tidak mengekspos lapisan game-state tradisional yang bisa diperiksa.

Langit-Langit Context Window

Koherensi dibatasi oleh desain memori model, bukan sekadar oleh kualitas visual mentah. GameNGen menggunakan riwayat frame langsung yang pendek tetapi tetap melaporkan sesi permainan stabil selama beberapa menit melalui koreksi yang dipelajari. Genie 2 memperkenalkan contoh memori jangka panjang yang terlihat dan mempertahankan konsistensi hingga satu menit, dengan sebagian besar contoh berlangsung 10-20 detik. Genie 3 mendorong interaksi berkelanjutan hingga beberapa menit, dan Matrix-Game 3.0 menyerang masalah ini secara langsung dengan memori jangka panjang. Isu yang belum terpecahkan bukanlah "bisakah model bertahan lebih dari beberapa detik?" Melainkan apakah ia bisa mempertahankan state dunia yang andal, bisa diperiksa, dan bisa disimpan untuk panjang dan kompleksitas game sungguhan.

Stokastik, Bukan Deterministik

Keluarannya bersifat probabilistik secara default. Jalankan penyiapan yang sama dua kali dan Anda mungkin mendapatkan frame yang berbeda kecuali sistemnya dibatasi secara ketat. Untuk perkakas seni, itu bisa berguna; untuk banyak game produksi, itu masalah. Multiplayer, keseimbangan kompetitif, replay, progresi skill, serta save/load semuanya bergantung pada transisi state yang andal. Sebuah world model bisa dibuat lebih bisa diulang, tetapi game produksi tetap membutuhkan lapisan logika deterministik atau sistem state untuk menjamin perilaku yang diharapkan pemain dan developer.

Apakah Ini Game, atau Prediksi Video dengan Keyboard?

Kritik paling tajam adalah bahwa sistem-sistem ini tidak mensimulasikan dunia dalam pengertian game-engine tradisional; mereka menghasilkan kelanjutan visual yang masuk akal dan membiarkan Anda mengemudikannya. Sebuah game engine mengodekan aturan; sebuah world model mengodekan kemasukakalan. Seorang komentator dalam thread Hacker News GameNGen menyebutnya "kompresi video paling tidak efisien di dunia," dan sebagai provokasi itu mengena: model itu pada dasarnya telah menghafal distribusi atas rekaman gameplay dan menginterpolasi melaluinya sebagai respons terhadap input Anda. Ada uji yang bersih untuk ini, di sorotan di bawah.

Tanda "drift saat diam." Jika sebuah world model benar-benar menghitung sebuah dunia, pemain yang tak bergerak seharusnya menghasilkan gambar yang stabil: tidak ada yang berubah, jadi tidak ada yang seharusnya berubah. Pada sistem prediksi frame yang lebih lemah atau awal, bahkan diam saja bisa mengungkap drift: detail kecil bergeser karena model memprediksi frame berikutnya yang masuk akal alih-alih merender dari state dunia yang tetap dan bisa diperiksa. Itulah tandanya. Scene mungkin tampak stabil untuk sementara, tetapi sistem tetap menghasilkan kontinuitas alih-alih membacanya dari engine konvensional.

Poin utama: batas determinisme dan persistensi adalah masalah arsitektural, bukan isu yang akan diselesaikan oleh penskalaan mentah dengan sendirinya. Sistem apa pun yang membutuhkan dunia yang andal, bisa diulang, dan bisa disimpan tetap membutuhkan lapisan logika deterministik, sistem memori/state eksplisit, atau desain engine hibrida yang tidak disediakan oleh pendekatan pembuatan frame saat ini dengan sendirinya.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Berapa Biaya Sesungguhnya untuk Menjalankannya

Pembuatan real-time itu mahal, dan angka-angka utama menyembunyikan banyak hal. "Satu TPU" milik GameNGen terdengar murah sampai Anda ingat ia mensimulasikan DOOM pada 320×240, bukan game resolusi tinggi modern. Demo Oasis orisinal berjalan secara real-time pada infrastruktur kelas H100, dan Oasis 3 terbaru dari Decart membuat ekonominya lebih konkret. Decart memposisikan Oasis 3 sebagai world model interaktif yang bisa diakses via API untuk AI fisik, dan TechCrunch melaporkan harga akses pratinjau sebesar $0.02 per detik, atau $1.20 untuk sesi 60 detik. Itu berguna untuk pengujian, simulasi, dan alur kerja riset, tetapi itu tetap model biaya yang sangat berbeda dari merilis klien game biasa.

Untuk memberikan gambaran skalanya: pembuatan dunia real-time masih mahal, tetapi gambaran perangkat kerasnya bergerak cepat. Beberapa sistem riset terbuka kini melaporkan pembuatan real-time atau mendekati real-time pada GPU kelas H100 tunggal, sementara sistem frontier yang berhadapan dengan konsumen tetap di-hosting di cloud dan sering kali tidak diungkapkan. Poin tegasnya bukan "satu GPU tidak akan pernah bisa melakukannya"; melainkan bahwa pembuatan dunia berkualitas produksi, berlatensi rendah, dan beresolusi tinggi masih merupakan masalah infrastruktur yang serius.

Bantahannya adalah bahwa lantainya turun dengan cepat, dan tingkat open-source itu nyata. DIAMOND dilatih dalam sekitar 12 hari pada satu RTX 4090 dan, menurut halaman proyek resminya, bisa dimainkan pada sekitar 10 FPS pada RTX 3090. MineWorld dan Matrix-Game bisa dijalankan secara publik. Jadi meskipun demo yang paling mengesankan masih bergantung pada infrastruktur khusus yang mahal, developer yang penasaran sudah bisa menjalankan beberapa eksperimen world-model nyata pada perangkat keras yang terjangkau. Kedua hal itu benar sekaligus: interaksi berkualitas frontier itu mahal, dan titik masuk untuk bereksperimen sudah nyata.

Jadi Apakah AI Akan Menggantikan Unity dan Unreal?

Tidak dalam waktu dekat, dan alasannya adalah keterbatasan di atas, bukan kurangnya investasi. Pasar menganggap ini serius. Google meluncurkan Project Genie untuk pelanggan Google AI Ultra di AS pada 29 Januari 2026, dan keesokan harinya beberapa saham gaming jatuh tajam: The Verge melaporkan Unity turun 24.22%, Roblox turun 13.17%, dan Take-Two turun 7.93% saat penutupan hari Jumat. Kecemasan itu juga muncul di dalam industri: survei GDC 2026 menemukan bahwa 52% profesional game melihat AI generatif sebagai memberi dampak negatif pada game, naik dari 30% tahun sebelumnya. Tetapi pergerakan saham dan kecemasan survei adalah reaksi terhadap sebuah demo. Arsitekturlah yang menetapkan jadwal waktu yang sebenarnya.

Membaca lintasannya sebagaimana adanya, dan ini bacaan saya, bukan ramalan yang sudah pasti, 1-3 tahun ke depan kemungkinan akan menjaga world model tetap berada di prototipe riset, infrastruktur simulasi, pelatihan robotika/AI fisik, dan demo sempit yang berhadapan dengan konsumen alih-alih game komersial penuh. Jalur 3-7 tahun yang masuk akal adalah hibrida, bukan penggantian: sebuah world model menangani pembuatan visual yang duduk di atas mesin state deterministik ringan yang menyimpan logika game sesungguhnya. Itu augmentasi. Lintasannya cukup curam (DOOM pada 320p ke 720p-dari-teks dalam waktu sekitar setahun) sehingga prediksi jangka panjang yang percaya diri itu tidak bijak, jadi saya tidak akan membuatnya.

Detail yang membingkai ulang seluruh pertanyaan: DeepMind mengikat world model ke pelatihan agen dan riset AGI, sementara Project Genie menunjukkan teknologi yang sama sebagai prototipe penciptaan dunia yang berhadapan dengan konsumen. Oasis 3 dari Decart bahkan lebih eksplisit diarahkan pada robotika, kendaraan otonom, dan simulasi AI fisik. Game konsumen penting bagi ceritanya, tetapi daya tarik komersial jangka pendek mungkin datang dari simulasi, pelatihan, dan pembuatan prototipe terlebih dahulu.

Pertanyaan yang Sering Diajukan

Apa Perbedaan Antara World Model dan Game Engine?

Sebuah game engine mengodekan aturan eksplisit dan menyimpan state game sebagai data: ia deterministik, bisa diperiksa, dan bisa di-debug. Sebuah world model seperti GameNGen memprediksi frame berikutnya yang masuk akal dari frame-frame terbaru ditambah input Anda, tanpa state, aturan, dan variabel objek bergaya engine tradisional yang biasanya diperiksa dan dikendalikan developer. Engine menghitung dunia; world model menebaknya. Itulah mengapa yang satu bisa diulang dan yang lain tidak.

Bagaimana Cara Kerja GameNGen?

GameNGen menjalankan DOOM dalam tiga langkah besar. Pertama, sebuah agen reinforcement learning memainkan ribuan sesi DOOM, direkam sebagai frame yang dipasangkan dengan aksi. Kedua, sebuah Stable Diffusion v1.4 yang dimodifikasi belajar memprediksi frame berikutnya dengan mengondisikan pada frame-frame lampau ditambah input pemain. Ketiga, inferensi dipangkas menjadi 4 langkah denoising, menghasilkan sekitar 20 FPS pada satu TPU pada 320×240.

Mengapa Dunia di Oasis Terus Berubah Saat Anda Berputar?

Pada demo Oasis orisinal yang mirip Minecraft, dunia bisa berubah saat Anda berputar karena sistem tidak mempertahankan state dunia bergaya engine tradisional. Ia menghasilkan tampilan berikutnya dari konteks visual terbaru dan prior yang dipelajari, sehingga objek di luar pandangan bisa kembali dalam bentuk yang berubah. Sistem yang lebih baru menambahkan mekanisme memori dan konsistensi yang lebih kuat, tetapi "logika mimpi" orisinal itulah yang membuat keterbatasannya mudah diperhatikan.

Berapa Lama Dunia Game yang Dihasilkan AI Bisa Tetap Konsisten Sebelum Melenceng?

Itu bergantung pada modelnya. Sistem awal sering melenceng dalam hitungan detik hingga puluhan detik, tetapi sistem yang lebih baru memperluas cakrawala itu. GameNGen memiliki sedikit lebih dari 3 detik konteks langsung namun bisa tetap stabil sepanjang gameplay yang lebih panjang melalui heuristik yang dipelajari. Genie 2 sebagian besar menampilkan contoh 10-20 detik dan hingga satu menit dalam beberapa kasus. Genie 3 menaikkan klaim itu menjadi beberapa menit pada 720p/24fps, dan Matrix-Game 3.0 melaporkan konsistensi memori selama satu menit. Masalah yang belum terpecahkan bukanlah klip pendek; melainkan state dunia yang tahan lama, bisa diperiksa, dan bisa disimpan.

Apakah AI Akan Menggantikan Game Engine Seperti Unity atau Unreal?

Tidak dalam waktu dekat. Penghambatnya lebih bersifat arsitektural ketimbang murni masalah skala: game produksi membutuhkan state persisten, logika yang andal, perilaku deterministik, dan semantik save/load. Penskalaan membantu kualitas dan koherensi, tetapi itu sendiri tidak menciptakan game loop tradisional. Jalur yang masuk akal adalah hibrida: sebuah world model menghasilkan visual di atas engine deterministik untuk logika game, yang merupakan augmentasi alih-alih penggantian. DeepMind menyajikan world model sebagai penting untuk pelatihan agen dan riset AGI, sementara Project Genie juga membuat teknologi ini terlihat sebagai prototipe penciptaan dunia yang berhadapan dengan konsumen. Oasis 3 dari Decart adalah contoh yang lebih jelas dari sebuah model yang secara eksplisit diarahkan pada robotika, kendaraan otonom, dan simulasi AI fisik.

Apakah Anda Bisa Memainkan Game-Game yang Dihasilkan AI Ini Sekarang?

Ya, beberapa. Oasis orisinal dari Decart memiliki demo web publik yang mirip Minecraft, dan Oasis 3 Preview terbarunya kini bisa diakses via API untuk eksperimen world-model real-time. Project Genie dari Google juga menjadi tersedia untuk pelanggan Google AI Ultra di AS pada Januari 2026. Untuk tingkat open-source, DIAMOND dan MineWorld bisa diunduh dan dijalankan pada GPU konsumen, dengan DIAMOND dilaporkan pada sekitar 10 FPS pada RTX 3090.

Game Tanpa Game Engine: Bagaimana Model AI Menghasilkan Dunia yang Bisa Dimainkan