AI สร้างเกมโดยไม่มี Game Engine ได้อย่างไร (GameNGen, Genie 3)

ในปี 2024 ทีมจาก Google Research และ Google DeepMind แสดงให้เห็นว่าโมเดลนิวรัลสามารถจำลอง DOOM ที่เล่นได้จริงด้วยความเร็วกว่า 20 เฟรมต่อวินาที โดยไม่ต้องรัน game engine ดั้งเดิมอยู่ข้างใต้เลย ไม่มีลูปของเอนจินแบบเดิมที่เก็บพิกัด วัตถุฟิสิกส์ ตัวแปรพลังชีวิต หรือสถานะแผนที่ไว้อย่างชัดเจนในแบบที่เคยเป็น แต่ GameNGen กลับเรียนรู้ที่จะอนุมานเฟรมถัดไปจากเฟรมล่าสุดและอินพุตของผู้เล่น รวมถึงสัญญาณภาพอย่างพลังชีวิต กระสุน ศัตรู ประตู และกำแพง ระบบที่ชื่อ GameNGen นี้คือเวอร์ชันดัดแปลงของ Stable Diffusion (โมเดลแบบเดียวกับที่สร้างภาพจากข้อความ) และมันเล่น DOOM ด้วยการหลอนสร้างเฟรมถัดไปแต่ละเฟรมจากเฟรมก่อนหน้า บวกกับปุ่มที่คุณเพิ่งกดไป

นี่เป็นสิ่งที่แตกต่างกันโดยพื้นฐานจาก "AI ภายใน game engine" เมื่อสตูดิโอใช้ AI สร้างเท็กซ์เจอร์หรือเขียนบทสนทนา NPC ใน Unity เอนจินก็ยังอยู่ตรงนั้นและทำงานจริงให้ ส่วน GameNGen ไม่มีเอนจินเลย ตัวโมเดล is คือเกม และมันคือจุดเริ่มต้นของพรมแดนใหม่ที่แท้จริง ซึ่งพาดหัวข่าวมักเข้าใจผิดอยู่เรื่อย ๆ GameNGen ปรากฏผ่านสาย research ของ ICLR, DIAMOND ออกมาผ่าน NeurIPS 2024 และบริษัทอย่าง Google DeepMind, Microsoft Research, Decart และ Skywork AI ต่างก็กำลังผลักดันแนวคิดนี้จากเปเปอร์ไปสู่เดโม API และระบบโอเพนซอร์ส

ต่อไปนี้คือสิ่งที่ระบบเหล่านี้ทำจริง ๆ การทำนายเฟรมถัดไปทำงานอย่างไร ทำไมความสอดคล้องและความจำยังพังเมื่อโต้ตอบยาวขึ้น ต้นทุนการรันเป็นเท่าไหร่ และมันกำลังจะมาแทน Unity หรือไม่ คำตอบสั้น ๆ ของข้อสุดท้ายคือไม่ อย่างน้อยก็ไม่ใช่ในแบบที่กระแสฮือฮาบอกไว้ เหตุผลอยู่ที่สถาปัตยกรรม คือคอมพิวต์ที่มากขึ้นช่วยได้ แต่มันไม่ได้สร้างสถานะถาวร ลอจิกที่กำหนดผลแน่นอน หรือลูปเกมที่ดีบักได้ขึ้นมาเองโดยลำพัง

เวอร์ชันสั้น

โมเดลเหล่านี้ทำนายเฟรม ไม่ได้จำลองกฎ game engine คำนวณสถานะถัดไปจากลอจิกและตัวแปรที่เก็บไว้ ส่วน world model อย่าง GameNGen หรือ Oasis เดาภาพถัดไปจากเฟรมก่อนหน้าบวกอินพุตของคุณ มันไม่ได้รันการจำลองแบบ game engine ดั้งเดิมที่มีสถานะวัตถุชัดเจน โค้ดฟิสิกส์ และตัวแปรที่ตรวจสอบได้ แต่มันกำลังสร้างการสังเกตการณ์ถัดไปผ่านโมเดลที่เรียนรู้มา
ความสอดคล้องของพวกมันยังถูกจำกัดด้วยความจำและคอนเท็กซ์ แต่ขีดจำกัดนั้นไม่ได้เรียบง่ายอย่าง "ทุกอย่างพังหลังผ่านไปไม่กี่วินาที" อีกต่อไป GameNGen มีประวัติเฟรมโดยตรงเพียงแค่กว่า 3 วินาทีนิด ๆ แต่ก็ยังคงเสถียรในเชิงภาพได้ตลอดวิถีที่ยาวขึ้นผ่านฮิวริสติกที่เรียนรู้มา Genie 2 มักแสดงตัวอย่างยาว 10-20 วินาที และบางครั้งก็รักษารายละเอียดนอกเฟรมไว้ได้ ขณะที่ Genie 3 ดันความสอดคล้องไปถึงไม่กี่นาทีที่ 720p/24fps จุดอ่อนหลักยังคงอยู่ คือระบบเหล่านี้ยังไม่ให้สถานะที่ทนทาน ตรวจสอบได้ และบันทึกได้ ซึ่งเกมที่ผลิตขายจริงต้องพึ่งพา
พวกมันไม่ได้กำหนดผลแน่นอนตามธรรมชาติในแบบที่เกมระดับโปรดักชันต้องการ คุณจำกัดการสุ่มหรือตรึง seed ได้ แต่นั่นก็ยังไม่ให้การอัปเดตสถานะที่สะอาดและตรวจสอบได้แบบเอนจินปกติ มัลติเพลเยอร์ ความสมดุลในการแข่งขัน รีเพลย์ การไต่ระดับสกิล และเซฟ/โหลด ทั้งหมดล้วนพึ่งพาการเปลี่ยนสถานะที่เชื่อถือได้ ตัวสร้างเฟรมประมาณพฤติกรรมนั้นได้ แต่เกมที่ผลิตขายจริงก็ยังต้องมีชั้นลอจิกที่กำหนดผลแน่นอนอยู่ข้างใต้หรือข้าง ๆ
DeepMind มอง world model เป็นรากฐานสำหรับการฝึกและประเมินเอเจนต์ AI ในสภาพแวดล้อมจำลองที่ซับซ้อน ขณะที่ Project Genie แสดงเทคโนโลยีเดียวกันในต้นแบบการสร้างโลกที่หันหน้าเข้าหาผู้บริโภค ส่วน Oasis 3 รุ่นใหม่ของ Decart ยิ่งมุ่งเป้าอย่างชัดเจนไปที่ physical AI หุ่นยนต์ และการจำลองยานยนต์ไร้คนขับ นั่นเปลี่ยนกรอบคำถาม "นี่กำลังจะมาแทน Unity ไหม" เสียใหม่ คือตลาดระยะใกล้ที่จริงจังที่สุดอาจเป็นการฝึกเอเจนต์และการจำลอง ไม่ใช่เกมสำเร็จรูปสำหรับผู้บริโภค

สิ่งที่บทความนี้ไม่ครอบคลุม

มีหัวข้อใกล้เคียงไม่กี่อย่างที่ถูกลากเข้ามาในบทสนทนาเดียวกัน แต่ไม่เกี่ยวกับที่นี่:

DLSS, FSR, การอัปสเกล และการสร้างเฟรม พวกนั้นคือ AI ที่เข้าไปแทน บางขั้นตอน of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
ระเบียบวิธี reinforcement-learning โดยละเอียด ที่ใช้รวบรวมข้อมูลฝึก ผมจะอธิบายในระดับแนวคิด ส่วนสูตรเต็มอยู่ในเปเปอร์
การโฮสต์เกมเซิร์ฟเวอร์และการตั้งค่าโครงสร้างพื้นฐาน นี่คือบทอธิบายว่าโมเดลทำงานอย่างไร ไม่ใช่คู่มือการดีพลอย

ผู้คนหมายถึงอะไรเมื่อพูดว่า "AI Game Engine" (และอันไหนที่บทความนี้พูดถึง)

วลี "AI game engine" ถูกแปะติดกับสามสิ่งที่แตกต่างกันโดยสิ้นเชิง และความสับสนส่วนใหญ่เกี่ยวกับหัวข้อนี้มาจากการยุบรวมมันเข้าด้วยกัน บทความนี้พูดถึงเพียงหนึ่งในนั้นเท่านั้น คือโมเดลที่ทำนายทุกเฟรมและแทนที่เอนจินทั้งหมด ไม่ใช่เครื่องมือ AI ที่ติดเข้ากับเอนจินดั้งเดิม และไม่ใช่เครื่องมือที่สร้างสภาพแวดล้อม 3D ที่คุณนำไปโหลดเข้าเอนจินทีหลัง

สามความหมายในแบบเข้าใจง่าย:

เครื่องมือ AI ภายใน เอนจินดั้งเดิม การสร้างแอสเซ็ต การสังเคราะห์เท็กซ์เจอร์ ทรีพฤติกรรม NPC การเขียนบทสนทนา ทั้งหมดรันอยู่ภายใน Unity หรือ Unreal เอนจินก็ยังเรนเดอร์เฟรม รันฟิสิกส์ และถือสถานะ AI เป็นผู้ช่วยในไปป์ไลน์คอนเทนต์ นี่คือสิ่งที่ผลการค้นหา "AI game engine" ส่วนใหญ่พูดถึงจริง ๆ และมัน ไม่ใช่ หัวข้อของบทความนี้
ตัวสร้างพื้นที่ 3D ที่ออกแบบไว้ World Labs ที่ร่วมก่อตั้งโดย Fei-Fei Li นำเสนอ Marble เครื่องมือที่สร้างสภาพแวดล้อม 3D ถาวรที่ดาวน์โหลดได้จากข้อความ ภาพ วิดีโอ หรืออินพุตอื่น ๆ ที่สำคัญคือ Marble ใกล้เคียงกับเครื่องมือสร้างคอนเทนต์เชิงพื้นที่มากกว่า มันสร้างโลก 3D ถาวรที่เดินผ่านได้ แก้ไขได้ ดาวน์โหลดได้ หรือส่งออกไปยังเวิร์กโฟลว์ปลายทางได้ นั่นทำให้มันต่างจาก GameNGen, Oasis หรือระบบแบบ Genie ที่ประสบการณ์การเล่นเองถูกผลิตขึ้นแบบสด ๆ ผ่านการสร้างทีละเฟรม
world model ที่แทนที่เอนจิน GameNGen, Oasis, ตระกูล Genie, DIAMOND, MineWorld, Matrix-Game พวกนี้สร้างการสังเกตการณ์ที่เล่นได้โดยตรง แทนการโหลดฉากที่ออกแบบไว้ตามปกติเข้า Unity หรือ Unreal ระบบใหม่บางตัวเพิ่มกลไกความจำและความสอดคล้องเข้ามา แต่ก็ยังไม่เปิดเผยโมเดลสถานะที่ทนทาน ตรวจสอบได้ และนักพัฒนาควบคุมได้แบบ game engine ดั้งเดิม นี่คือหัวข้อตรงนี้

กฎตัดสินใจง่าย ๆ สำหรับทุกบทความที่คุณอ่าน คือถ้าระบบผลิต ไฟล์ที่คุณโหลดเข้า Unity มันคือหมวด 1 หรือ 2 ถ้าระบบนั้น is คือสิ่งที่คุณกำลังเล่น โดยเฟรมถูกสร้างแบบสด ๆ มันคือหมวด 3 นั่นคือ world model

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

โมเดลสร้างเกมโดยไม่มีเอนจินได้อย่างไร

world model เรียนรู้ว่าเกมหน้าตาเป็นอย่างไรขณะเคลื่อนไหว แล้วทำนายเฟรมถัดไปโดยมีเงื่อนไขจากเฟรมล่าสุดบวกอินพุตปัจจุบันของผู้เล่น ต่างจากเอนจินดั้งเดิม มันไม่เปิดเผยตัวแปรที่สะอาดอย่าง "ประตูเปิดอยู่" "ศัตรูตัวนี้ตายแล้ว" หรือ "ผู้เล่นอยู่ที่พิกัด X" ในระบบทำนายเฟรมยุคแรก โมเดลส่วนใหญ่เรียนรู้แค่ว่าสถานะภาพบางอย่างมักตามมาหลังอินพุตบางอย่าง การเล่นก็แค่การรันลูปการทำนายที่เรียนรู้มานั้นให้เร็วพอจะรู้สึกโต้ตอบได้

GameNGen คือตัวอย่างที่ชัดที่สุด เพราะ เปเปอร์ วางทุกขั้นตอนไว้ ไปป์ไลน์รันเป็นสองเฟส เฟสแรก เอเจนต์ reinforcement-learning เล่น DOOM นับพันเซสชัน และทุกเซสชันถูกบันทึกเป็นสตรีมของเฟรมจับคู่กับแอ็กชันที่ก่อให้เกิดมัน เฟสที่สอง Stable Diffusion v1.4 ที่ดัดแปลงถูกฝึกบนข้อมูลนั้นเพื่อทำนายเฟรมถัดไปจากเฟรมก่อนหน้า และ แอ็กชันของผู้เล่น แอ็กชันถูกอบเข้าไปในเงื่อนไขโดยตรง และนั่นคือเคล็ดลับที่ทำให้มันเป็นเกมไม่ใช่แค่ตัวสร้างวิดีโอ การกดปุ่มของคุณเป็นส่วนหนึ่งของพรอมป์ตสำหรับภาพถัดไป

ส่วนที่ยากคือความเร็ว โมเดล diffusion ปกติรัน 20 ถึง 50 ขั้น denoising เพื่อแปลงสัญญาณรบกวนเป็นภาพ ซึ่งช้าเกินไปมากสำหรับการเล่นแบบเรียลไทม์ GameNGen ตัดให้เหลือ 4 ขั้น denoising ทำให้การอนุมานรวมเหลือราว 50 มิลลิวินาทีต่อเฟรม คือเร็วพอสำหรับ 20 FPS บน TPU ตัวเดียวที่ความละเอียดเนทีฟของ DOOM คือ 320×240 ผู้ประเมินที่เป็นมนุษย์ทำได้ดีกว่าการเดาสุ่มเพียงเล็กน้อยในการแยกคลิปสั้น ๆ ของการจำลองออกจากฟุตเทจ DOOM จริง

ระบบส่วนใหญ่ในแวดวงนี้เข้าข่ายรูปแบบสถาปัตยกรรมที่ทับซ้อนกัน:

ระบบที่อิง diffusion (GameNGen, Oasis, DIAMOND, Genie 2): เริ่มจากสัญญาณรบกวนแล้ว denoise ซ้ำ ๆ จนเป็นเฟรมถัดไป พวกมันให้คุณภาพภาพในช่วงสั้นได้ดี แต่ต้องใช้เคล็ดลับเรื่องความเร็วเพื่อรันแบบโต้ตอบได้
ระบบ autoregressive (MineWorld): ทำนายเฟรมหรือโทเคนในอนาคตแบบเรียงลำดับ ใกล้เคียงกับวิธีที่โมเดลภาษาทำนายข้อความ MineWorld แลกอัตราเฟรมกับการตามแอ็กชันที่แม่นยำขึ้น มาลงที่ราว 4-7 FPS
ไฮบริดที่เสริมความจำและการควบคุม (Matrix-Game 2.0/3.0 และระบบใหม่กว่า): ผสานการสร้างแบบเรียลไทม์เข้ากับการกำหนดเงื่อนไขแอ็กชัน การควบคุมกล้อง และกลไกความจำที่ชัดเจน เพื่อลดการเพี้ยนในช่วงยาว

มีรายละเอียดหนึ่งที่สำคัญสำหรับหัวข้อถัดไป ระหว่างการฝึก GameNGen จงใจเพิ่มสัญญาณรบกวนลงในเฟรมอดีตที่มันใช้เป็นเงื่อนไข นั่นบังคับให้โมเดลเรียนรู้ที่จะแก้ความผิดพลาดของตัวเองแทนที่จะสะสมมัน เป็นการบรรเทาปัญหาการเพี้ยน มันช่วยได้ แต่ไม่ได้แก้ปัญหาทั้งหมด

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

สายเลือด: จาก Genie 1 ถึง Genie 3 ในสองปี

สิ่งที่โดดเด่นที่สุดเพียงอย่างเดียวของวงการนี้คือความชัน ในเดือนกุมภาพันธ์ 2024 Genie 1 สร้างเกมแพลตฟอร์ม 2D ที่ควบคุมได้ที่ 256×256 สิบแปดเดือนต่อมา Genie 3 กำลังสร้างโลก 3D ที่เดินสำรวจได้จากพรอมป์ตข้อความที่ 720p และ 24 FPS นั่นคือเส้นทางที่ควรจับตา ไม่ใช่เดโมตัวใดตัวหนึ่ง แต่เป็นอัตราการเปลี่ยนแปลงระหว่างพวกมัน

อ่านเป็นความก้าวหน้าเดียว เรื่องราวเป็นแบบนี้ Genie 1 (DeepMind, ICML 2024) พิสูจน์ว่าคุณเรียนรู้สภาพแวดล้อมแบบโต้ตอบได้จากวิดีโอที่ไม่มีป้ายกำกับ GameNGen (Google, ICLR 2025) แสดงว่าแนวคิดเดียวกันรันเกมจริงที่จังหวะเร็ว (DOOM) แบบเรียลไทม์ได้ Oasis (Decart, ตุลาคม 2024) นำมันมาสู่ Minecraft และทำให้เล่นได้แบบสาธารณะ Genie 2 (DeepMind, ธันวาคม 2024) กระโดดไปสู่โลก 3D ที่สร้างจากภาพเดียว DIAMOND (NeurIPS 2024) ทำให้แนวทางนี้เป็นโอเพนซอร์สและรันได้บน GPU ฝั่งผู้บริโภค GameGen-X และ MineWorld (Microsoft, 2025) ผลักดันระบบนิเวศแบบเปิดต่อไปอีก Genie 3 (สิงหาคม 2025 เปิดสาธารณะในชื่อ Project Genie เดือนมกราคม 2026) ไปถึง 3D แบบเรียลไทม์จากข้อความ Matrix-Game 2.0 ผลักดันการสร้างสตรีมแบบเรียลไทม์โอเพนซอร์สไปที่ 25 FPS และ Matrix-Game 3.0 โจมตีปัญหาความจำตรง ๆ มากขึ้นด้วยสถาปัตยกรรมความจำช่วงยาว

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

สเปกของระบบหลัก ๆ อยู่ในตารางด้านล่าง ประเด็นของเรื่องเล่าคือเส้นทาง ไม่ใช่ตัวเลข

ระบบ	ผู้พัฒนา	ปี	แนวทาง	ความละเอียด / FPS	โอเพนซอร์ส?	แหล่งที่มา
Genie 1	Google DeepMind	2024	Latent action	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	บางส่วน (500M ckpt)	Project
Oasis 3	Decart	2026	world model แบบโต้ตอบที่เข้าถึงผ่าน API สำหรับ physical AI	ตัวอย่าง API แบบเรียลไทม์	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregressive latent diffusion	N/A	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	ใช่ (MIT)	arXiv
GameGen-X	เชิงวิชาการ	2024	Diffusion transformer	N/A	ใช่	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	ใช่	arXiv
Genie 3	Google DeepMind	2025	world model แบบเรียลไทม์อเนกประสงค์	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Few-step autoregressive diffusion	25 FPS บน H100 ตัวเดียว	ใช่	Project
Matrix-Game 3.0	Skywork AI	2026	world model แบบโต้ตอบที่เสริมความจำ	สูงสุด 40 FPS ที่ 720p ด้วยโมเดล 5B	ใช่	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

ทำไมโลกเหล่านี้ถึงพังลง

ระบบเหล่านี้ยังพังในสี่แง่สำคัญ แต่รูปแบบความล้มเหลวไม่ได้เป็นแค่ "คอมพิวต์ไม่พอ" GPU ที่มากขึ้นช่วยปรับความละเอียด ความหน่วง และขนาดโมเดลได้ แต่ความสอดคล้องระดับโปรดักชันต้องการความจำ การติดตามสถานะ และสถาปัตยกรรมการควบคุมที่ดีกว่า โมเดลที่ทำนายเฟรมที่ดูสมเหตุสมผลไม่ใช่สิ่งเดียวกับเอนจินที่มีกฎชัดเจน ตัวแปรที่ตรวจสอบได้ การอัปเดตสถานะที่กำหนดผลแน่นอน และความหมายของเซฟ/โหลด ข้อจำกัดแต่ละข้อด้านล่างคือสิ่งที่โมเดล ทำไม่ได้เชิงโครงสร้าง ไม่ใช่สิ่งที่มันยังเก่งไม่พอ

ไม่มีสถานะโลกที่คงอยู่ถาวร

ระบบเหล่านี้ไม่เปิดเผยตัวแปรในแบบที่เอนจินดั้งเดิมทำ เอนจินปกติเก็บโลกไว้เป็นข้อมูล: หีบใบนี้เปิดอยู่ ศัตรูตัวนี้ตายแล้ว ผู้เล่นอยู่ที่พิกัด (412, 88) ในระบบทำนายเฟรมยุคแรก ไม่มีสถานะเอนจินที่ทนทานในความหมายของการพัฒนาเกมแบบนั้น โมเดลส่วนใหญ่พึ่งคอนเท็กซ์ภาพล่าสุดและไพรเออร์ที่เรียนรู้มา ดังนั้นวัตถุจึงเปลี่ยน หายไป หรือกลับมาผิดเพี้ยนได้เมื่อมันออกนอกสายตา ระบบใหม่กว่ากำลังเพิ่มกลไกความจำและความสอดคล้องที่ชัดเจน แต่ก็ยังไม่เปิดเผยสถานะโลกที่สะอาดและดีบักได้แบบที่เอนจินดั้งเดิมให้นักพัฒนา

ในระบบทำนายเฟรมที่อ่อนกว่าหรือยุคแรก หีบที่คุณเปิดไปแล้วอาจกลับมาปิดอีก มอนสเตอร์ที่คุณฆ่าไปแล้วอาจเดินกลับเข้ามา และโครงสร้างที่คุณสร้างอาจสลายไปเมื่อมันออกนอกเฟรม ผู้เล่นอธิบายเดโม Oasis ดั้งเดิมว่ามี "ตรรกะแบบความฝัน" คือคุณหันกลับ แล้วอาจไม่ได้กลับมายังที่เดิมเป๊ะ ๆ ระบบใหม่กว่ากำลังพยายามลดปัญหานั้นด้วยกลไกความจำและความสอดคล้องที่แข็งแกร่งขึ้น แต่ช่องว่างยังคงอยู่ คือพวกมันยังไม่เปิดเผยชั้นสถานะเกมแบบดั้งเดิมที่ตรวจสอบได้

เพดานของหน้าต่างคอนเท็กซ์

ความสอดคล้องถูกจำกัดด้วยการออกแบบความจำของโมเดล ไม่ใช่แค่คุณภาพภาพดิบ ๆ GameNGen ใช้ประวัติเฟรมโดยตรงที่สั้น แต่ก็ยังรายงานเซสชันการเล่นที่เสถียรหลายนาทีผ่านการแก้ไขที่เรียนรู้มา Genie 2 แนะนำตัวอย่างความจำช่วงยาวที่มองเห็นได้ และรักษาความสอดคล้องได้นานถึงหนึ่งนาที โดยตัวอย่างส่วนใหญ่ยาว 10-20 วินาที Genie 3 ดันการโต้ตอบต่อเนื่องไปถึงไม่กี่นาที และ Matrix-Game 3.0 โจมตีปัญหานี้โดยตรงด้วยความจำช่วงยาว ปัญหาที่ยังแก้ไม่ได้ไม่ใช่ "โมเดลอยู่ได้นานกว่าไม่กี่วินาทีไหม" แต่เป็นว่ามันรักษาสถานะโลกที่เชื่อถือได้ ตรวจสอบได้ และบันทึกได้ ตลอดความยาวและความซับซ้อนของเกมจริงได้หรือไม่

สุ่ม ไม่ใช่กำหนดผลแน่นอน

เอาต์พุตเป็นแบบความน่าจะเป็นโดยปริยาย รันการตั้งค่าเดียวกันสองครั้งแล้วคุณอาจได้เฟรมต่างกัน เว้นแต่ระบบจะถูกจำกัดอย่างหนัก สำหรับเครื่องมือสร้างงานศิลป์ นั่นอาจมีประโยชน์ แต่สำหรับเกมโปรดักชันหลายเกม มันคือปัญหา มัลติเพลเยอร์ ความสมดุลในการแข่งขัน รีเพลย์ การไต่ระดับสกิล และเซฟ/โหลด ทั้งหมดล้วนพึ่งพาการเปลี่ยนสถานะที่เชื่อถือได้ world model ทำให้ทำซ้ำได้มากขึ้นได้ แต่เกมโปรดักชันก็ยังต้องมีชั้นลอจิกที่กำหนดผลแน่นอนหรือระบบสถานะเพื่อรับประกันพฤติกรรมที่ผู้เล่นและนักพัฒนาคาดหวัง

นี่คือเกม หรือการทำนายวิดีโอที่มีคีย์บอร์ด?

คำวิจารณ์ที่คมที่สุดคือระบบเหล่านี้ไม่ได้จำลองโลกในความหมายของ game engine ดั้งเดิม แต่กำลังสร้างความต่อเนื่องของภาพที่ดูสมเหตุสมผลและปล่อยให้คุณบังคับทิศ game engine เข้ารหัสกฎ ส่วน world model เข้ารหัสความสมเหตุสมผล ผู้แสดงความเห็นคนหนึ่งใน เธรด Hacker News เกี่ยวกับ GameNGen เรียกมันว่า "การบีบอัดวิดีโอที่ไม่มีประสิทธิภาพที่สุดในโลก" และในฐานะคำยั่ว มันก็ลงล็อก คือโมเดลได้จดจำการกระจายตัวของฟุตเทจการเล่นเกมไว้อย่างมีประสิทธิภาพ และกำลังแทรกสอดผ่านมันเพื่อตอบสนองอินพุตของคุณ มีการทดสอบที่ชัดเจนสำหรับเรื่องนี้ อยู่ในกล่องด้านล่าง

สัญญาณ "เพี้ยนเมื่อยืนอยู่กับที่" ถ้า world model คำนวณโลกได้จริง ผู้เล่นที่อยู่นิ่งควรได้ภาพที่เสถียร คือไม่มีอะไรเปลี่ยน ก็ไม่ควรมีอะไรเปลี่ยน ในระบบทำนายเฟรมที่อ่อนกว่าหรือยุคแรก แม้แต่การยืนนิ่งก็เผยการเพี้ยนได้ คือรายละเอียดเล็ก ๆ เปลี่ยนไปเพราะโมเดลกำลังทำนายเฟรมถัดไปที่ดูสมเหตุสมผล แทนที่จะเรนเดอร์จากสถานะโลกที่ตรึงไว้และตรวจสอบได้ นั่นคือสัญญาณ ฉากอาจดูเสถียรอยู่พักหนึ่ง แต่ระบบก็ยังกำลังสร้างความต่อเนื่องขึ้นมา ไม่ใช่อ่านมันจากเอนจินแบบดั้งเดิม

ประเด็นสำคัญ: ขีดจำกัดเรื่องการกำหนดผลแน่นอนและความคงอยู่เป็นปัญหาเชิงสถาปัตยกรรม ไม่ใช่ปัญหาที่การสเกลดิบ ๆ จะแก้ได้เองโดยลำพัง ระบบใด ๆ ที่ต้องการโลกที่เชื่อถือได้ ทำซ้ำได้ และบันทึกได้ ก็ยังต้องการชั้นลอจิกที่กำหนดผลแน่นอน ระบบความจำ/สถานะที่ชัดเจน หรือการออกแบบเอนจินไฮบริด ที่แนวทางการสร้างเฟรมในปัจจุบันไม่ได้ให้มาเองโดยลำพัง

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

ต้นทุนการรันจริง ๆ เป็นเท่าไหร่

การสร้างแบบเรียลไทม์มีราคาแพง และตัวเลขพาดหัวซ่อนอะไรไว้เยอะ "TPU ตัวเดียว" ของ GameNGen ฟังดูถูกจนกว่าคุณจะนึกได้ว่ามันกำลังจำลอง DOOM ที่ 320×240 ไม่ใช่เกมความละเอียดสูงสมัยใหม่ เดโม Oasis ดั้งเดิมรันแบบเรียลไทม์บนโครงสร้างพื้นฐานระดับ H100 และ Oasis 3 รุ่นใหม่ของ Decart ทำให้เศรษฐศาสตร์ชัดเจนขึ้น Decart วาง Oasis 3 เป็น world model แบบโต้ตอบที่เข้าถึงผ่าน API สำหรับ physical AI และ TechCrunch รายงานราคาการเข้าถึงตัวอย่าง ที่ $0.02 ต่อวินาที หรือ $1.20 สำหรับเซสชัน 60 วินาที นั่นมีประโยชน์สำหรับการทดสอบ การจำลอง และเวิร์กโฟลว์วิจัย แต่ก็ยังเป็นโมเดลต้นทุนที่ต่างมากจากการส่งมอบไคลเอนต์เกมปกติ

ให้มองในเชิงสเกล การสร้างโลกแบบเรียลไทม์ยังแพง แต่ภาพรวมของฮาร์ดแวร์ขยับเร็ว ระบบวิจัยแบบเปิดบางตัวตอนนี้รายงานการสร้างแบบเรียลไทม์หรือเกือบเรียลไทม์บน GPU ระดับ H100 ตัวเดียว ขณะที่ระบบแนวหน้าที่หันหน้าเข้าหาผู้บริโภคยังคงโฮสต์บนคลาวด์และมักไม่เปิดเผย จุดที่หนักแน่นไม่ใช่ "GPU ตัวเดียวทำไม่ได้แน่นอน" แต่เป็นว่าการสร้างโลกคุณภาพระดับโปรดักชัน ความหน่วงต่ำ ความละเอียดสูง ยังเป็นปัญหาโครงสร้างพื้นฐานที่จริงจัง

ข้อโต้แย้งคือพื้นกำลังลดลงเร็ว และชั้นโอเพนซอร์สมีอยู่จริง DIAMOND ฝึกในราว 12 วันบน RTX 4090 ตัวเดียว และตาม หน้าโปรเจกต์อย่างเป็นทางการ ของมัน สามารถเล่นได้ที่ราว 10 FPS บน RTX 3090 MineWorld และ Matrix-Game รันได้แบบสาธารณะ ดังนั้นแม้เดโมที่น่าประทับใจที่สุดยังพึ่งโครงสร้างพื้นฐานเฉพาะทางราคาแพง นักพัฒนาที่อยากรู้อยากเห็นก็สามารถรันการทดลอง world model จริง ๆ บางอย่างบนฮาร์ดแวร์ที่เข้าถึงได้แล้ว สองอย่างเป็นจริงพร้อมกัน คือการโต้ตอบคุณภาพแนวหน้ามีราคาแพง และจุดเริ่มต้นสำหรับการทดลองก็มีอยู่จริงแล้ว

แล้ว AI จะมาแทน Unity และ Unreal ไหม?

ไม่ใช่ในระยะใกล้ และเหตุผลคือขีดจำกัดข้างต้น ไม่ใช่การขาดเงินลงทุน ตลาดเอาเรื่องนี้อย่างจริงจัง Google เปิดตัว Project Genie ให้ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ เมื่อวันที่ 29 มกราคม 2026 และวันถัดมาหุ้นเกมหลายตัวเทขายอย่างหนัก: The Verge รายงานว่า Unity ลง 24.22%, Roblox ลง 13.17% และ Take-Two ลง 7.93% ณ ราคาปิดวันศุกร์ ความวิตกกังวลยังปรากฏภายในวงการด้วย: แบบสำรวจ GDC ปี 2026 พบว่า 52% ของมืออาชีพในวงการเกมมองว่า generative AI ส่งผลกระทบเชิงลบต่อเกม เพิ่มขึ้นจาก 30% ในปีก่อนหน้า แต่การเคลื่อนไหวของหุ้นและความวิตกจากแบบสำรวจเป็นปฏิกิริยาต่อเดโม สถาปัตยกรรมต่างหากที่กำหนดไทม์ไลน์จริง

อ่านเส้นทางตามที่เป็นอยู่ และนี่คือมุมมองของผม ไม่ใช่การพยากรณ์ที่ลงตัวแล้ว 1-3 ปีข้างหน้ามีแนวโน้มจะคง world model ไว้ในต้นแบบวิจัย โครงสร้างพื้นฐานการจำลอง การฝึกหุ่นยนต์/physical-AI และเดโมแคบ ๆ ที่หันหน้าเข้าหาผู้บริโภค มากกว่าเกมเชิงพาณิชย์เต็มรูปแบบ เส้นทางที่เป็นไปได้ในช่วง 3-7 ปีคือไฮบริด ไม่ใช่การแทนที่: world model จัดการการสร้างภาพ ตั้งอยู่บนเครื่องสถานะที่กำหนดผลแน่นอนน้ำหนักเบาที่ถือลอจิกเกมจริง นั่นคือการเสริม ไม่ใช่แทนที่ เส้นทางชันพอ (DOOM ที่ 320p ไปสู่ 720p-จากข้อความในราวหนึ่งปี) จนการทำนายระยะยาวอย่างมั่นใจเป็นเรื่องไม่ฉลาด ผมจึงจะไม่ทำ

รายละเอียดที่เปลี่ยนกรอบทั้งคำถาม: DeepMind ผูก world model เข้ากับการฝึกเอเจนต์และการวิจัย AGI ขณะที่ Project Genie แสดงเทคโนโลยีเดียวกันเป็นต้นแบบการสร้างโลกที่หันหน้าเข้าหาผู้บริโภค ส่วน Oasis 3 ของ Decart ยิ่งมุ่งเป้าอย่างชัดเจนไปที่หุ่นยนต์ ยานยนต์ไร้คนขับ และการจำลอง physical-AI เกมสำหรับผู้บริโภคมีความสำคัญต่อเรื่องนี้ แต่แรงดึงเชิงพาณิชย์ระยะใกล้อาจมาจากการจำลอง การฝึก และการทำต้นแบบก่อน

คำถามที่พบบ่อย

ความแตกต่างระหว่าง World Model กับ Game Engine คืออะไร?

game engine เข้ารหัสกฎที่ชัดเจนและเก็บสถานะเกมไว้เป็นข้อมูล มันกำหนดผลแน่นอน ตรวจสอบได้ และดีบักได้ ส่วน world model อย่าง GameNGen ทำนายเฟรมถัดไปที่ดูสมเหตุสมผลจากเฟรมล่าสุดบวกอินพุตของคุณ โดยไม่มีสถานะ กฎ และตัวแปรวัตถุแบบเอนจินดั้งเดิมที่นักพัฒนาปกติตรวจสอบและควบคุม เอนจินคำนวณโลก ส่วน world model เดามัน นั่นคือเหตุผลที่อย่างหนึ่งทำซ้ำได้และอีกอย่างทำไม่ได้

GameNGen ทำงานอย่างไร?

GameNGen รัน DOOM ในสามขั้นกว้าง ๆ เฟสแรก เอเจนต์ reinforcement-learning เล่น DOOM นับพันเซสชัน บันทึกเป็นเฟรมจับคู่กับแอ็กชัน เฟสที่สอง Stable Diffusion v1.4 ที่ดัดแปลงเรียนรู้ที่จะทำนายเฟรมถัดไปโดยมีเงื่อนไขจากเฟรมอดีตบวกอินพุตของผู้เล่น เฟสที่สาม การอนุมานถูกตัดเหลือ 4 ขั้น denoising ให้ผลราว 20 FPS บน TPU ตัวเดียวที่ 320×240

ทำไมโลกใน Oasis ถึงเปลี่ยนไปเรื่อยเมื่อคุณหันกลับ?

ในเดโม Oasis ดั้งเดิมที่คล้าย Minecraft โลกอาจเปลี่ยนได้เมื่อคุณหันกลับ เพราะระบบไม่ได้รักษาสถานะโลกแบบเอนจินดั้งเดิม มันสร้างมุมมองถัดไปจากคอนเท็กซ์ภาพล่าสุดและไพรเออร์ที่เรียนรู้มา ดังนั้นวัตถุนอกสายตาจึงกลับมาในรูปแบบที่เปลี่ยนไปได้ ระบบใหม่กว่ากำลังเพิ่มกลไกความจำและความสอดคล้องที่แข็งแกร่งขึ้น แต่ "ตรรกะแบบความฝัน" ดั้งเดิมนั้นเองคือสิ่งที่ทำให้ข้อจำกัดนี้สังเกตได้ง่าย

โลกเกมที่ AI สร้างคงความสอดคล้องได้นานแค่ไหนก่อนจะเพี้ยน?

ขึ้นอยู่กับโมเดล ระบบยุคแรกมักเพี้ยนภายในไม่กี่วินาทีถึงหลายสิบวินาที แต่ระบบใหม่กว่ากำลังขยายขอบเขตนั้น GameNGen มีคอนเท็กซ์โดยตรงเพียงกว่า 3 วินาทีนิด ๆ แต่ก็ยังเสถียรได้ตลอดการเล่นที่ยาวขึ้นผ่านฮิวริสติกที่เรียนรู้มา Genie 2 ส่วนใหญ่แสดงตัวอย่างยาว 10-20 วินาที และนานถึงหนึ่งนาทีในบางกรณี Genie 3 ยกระดับการอ้างไปที่ไม่กี่นาทีที่ 720p/24fps และ Matrix-Game 3.0 รายงานความสอดคล้องของความจำนานเป็นนาที ปัญหาที่ยังแก้ไม่ได้ไม่ใช่คลิปสั้น ๆ แต่เป็นสถานะโลกที่ทนทาน ตรวจสอบได้ และบันทึกได้

AI จะมาแทน Game Engine อย่าง Unity หรือ Unreal ไหม?

ไม่ใช่ในระยะใกล้ ตัวขวางเป็นเชิงสถาปัตยกรรมมากกว่าจะเป็นแค่ปัญหาเรื่องสเกลล้วน ๆ เกมโปรดักชันต้องการสถานะถาวร ลอจิกที่เชื่อถือได้ พฤติกรรมที่กำหนดผลแน่นอน และความหมายของเซฟ/โหลด การสเกลช่วยเรื่องคุณภาพและความสอดคล้อง แต่มันไม่ได้สร้างลูปเกมแบบดั้งเดิมขึ้นมาเองโดยลำพัง เส้นทางที่เป็นไปได้คือไฮบริด: world model สร้างภาพอยู่บนเอนจินที่กำหนดผลแน่นอนสำหรับลอจิกเกม ซึ่งเป็นการเสริมมากกว่าการแทนที่ DeepMind นำเสนอ world model ว่าสำคัญต่อการฝึกเอเจนต์และการวิจัย AGI ขณะที่ Project Genie ก็ทำให้เทคโนโลยีนี้มองเห็นได้ในฐานะต้นแบบการสร้างโลกที่หันหน้าเข้าหาผู้บริโภค ส่วน Oasis 3 ของ Decart คือตัวอย่างที่ชัดกว่าของโมเดลที่มุ่งเป้าอย่างชัดเจนไปที่หุ่นยนต์ ยานยนต์ไร้คนขับ และการจำลอง physical-AI

ตอนนี้เล่นเกมที่ AI สร้างพวกนี้ได้แล้วหรือยัง?

ได้แล้วหลายตัว Oasis ดั้งเดิมของDecart มีเดโมเว็บที่คล้าย Minecraft แบบสาธารณะ และ Oasis 3 Preview รุ่นใหม่ของมันตอนนี้เข้าถึงผ่าน API ได้แล้วสำหรับการทดลอง world-model แบบเรียลไทม์ Project Genie ของ Google ก็เปิดให้ผู้สมัครสมาชิก Google AI Ultra ในสหรัฐฯ ใช้งานได้ในเดือนมกราคม 2026 สำหรับชั้นโอเพนซอร์ส DIAMOND และ MineWorld ดาวน์โหลดและรันบน GPU ฝั่งผู้บริโภคได้ โดย DIAMOND รายงานไว้ที่ราว 10 FPS บน RTX 3090

เขียนโดย

Sherwin

นักเขียนด้านแพลตฟอร์ม AI อาวุโส

Sherwin เป็นวิศวกรแพลตฟอร์มที่ทำงานกับระบบซึ่งพึ่งพา machine learning เชิงประยุกต์อย่างหนักในโปรดักชัน ไม่ใช่ในฐานะวัตถุวิจัย แต่ในฐานะสิ่งที่ต้องห่อหุ้มให้กลายเป็นอินเทอร์เฟซที่เชื่อถือได้ มีกรอบกันพลาด และเวิร์กโฟลว์ที่ทนต่อข้อจำกัดการปฏิบัติงานจริง เขาเพิ่งเริ่มเขียน เพราะเชื่อว่าโลกทุกวันนี้เรียกร้องให้ทั้งสร้างและเผยแพร่ไปพร้อมกัน

เกมที่ไม่มี Game Engine: โมเดล AI สร้างโลกที่เล่นได้อย่างไร