Cách AI tạo game không cần game engine (GameNGen, Genie 3)

Năm 2024, một nhóm thuộc Google Research và Google DeepMind đã cho thấy rằng một mô hình mạng nơ-ron có thể mô phỏng DOOM chơi được ở tốc độ hơn 20 khung hình mỗi giây mà không cần chạy game engine gốc bên dưới. Không có vòng lặp engine truyền thống nào lưu trữ tọa độ, đối tượng vật lý, biến máu, hay trạng thái bản đồ theo cách thông thường. Thay vào đó, GameNGen học cách suy ra khung hình kế tiếp từ các khung hình gần đây và đầu vào của người chơi, bao gồm các tín hiệu thị giác như máu, đạn, kẻ địch, cửa, và tường. Hệ thống này, gọi là GameNGen, là một phiên bản chỉnh sửa của Stable Diffusion (loại mô hình tạo ảnh từ văn bản), và nó chơi DOOM bằng cách ảo giác ra từng khung hình kế tiếp từ các khung hình trước cộng với bất kỳ phím nào bạn vừa nhấn.

Đó là một điều khác về bản chất so với "AI bên trong một game engine." Khi một studio dùng AI để tạo texture hay viết hội thoại NPC trong Unity, engine vẫn ở đó làm phần việc thực sự. GameNGen không có engine. Mô hình is chính là game. Và đó là khởi đầu của một biên giới thực sự mà các tiêu đề báo chí cứ hiểu sai. GameNGen xuất hiện qua kênh nghiên cứu ICLR, DIAMOND đến qua NeurIPS 2024, và các công ty như Google DeepMind, Microsoft Research, Decart, và Skywork AI giờ đây đang đẩy ý tưởng này từ các bài báo vào demo, API, và các hệ thống mã nguồn mở.

Đây là những gì các hệ thống này thực sự làm, cách dự đoán khung hình kế tiếp hoạt động, vì sao tính nhất quán và bộ nhớ vẫn sụp đổ qua những phiên tương tác dài hơn, chi phí để vận hành chúng, và liệu chúng có đe dọa Unity hay không. Câu trả lời ngắn gọn cho câu cuối là không, ít nhất không theo cách mà sự cường điệu ngụ ý. Lý do nằm ở kiến trúc: nhiều sức mạnh tính toán hơn thì có ích, nhưng tự thân nó không tạo ra trạng thái bền vững, logic xác định, hay một vòng lặp game có thể debug được.

Phiên bản ngắn gọn

Các mô hình này dự đoán khung hình; chúng không mô phỏng quy tắc. Một game engine tính toán trạng thái kế tiếp từ logic và các biến đã lưu. Một world model như GameNGen hay Oasis đoán ra hình ảnh kế tiếp từ các khung hình trước cộng với đầu vào của bạn. Nó không chạy một mô phỏng game-engine truyền thống với trạng thái đối tượng tường minh, mã vật lý, và các biến có thể kiểm tra; nó tạo ra quan sát kế tiếp thông qua một mô hình đã học.
Tính nhất quán của chúng vẫn bị giới hạn bởi bộ nhớ và ngữ cảnh, nhưng giới hạn đó không còn đơn giản như "mọi thứ hỏng sau vài giây." GameNGen có hơn 3 giây lịch sử khung hình trực tiếp một chút nhưng vẫn có thể duy trì ổn định về mặt thị giác qua các quỹ đạo dài hơn nhờ các quy tắc heuristic đã học. Genie 2 thường cho thấy các ví dụ 10-20 giây và đôi khi có thể giữ lại các chi tiết ngoài tầm nhìn, trong khi Genie 3 đẩy tính nhất quán lên tới vài phút ở 720p/24fps. Điểm yếu cốt lõi vẫn còn: các hệ thống này chưa cung cấp được trạng thái bền vững, có thể kiểm tra, có thể lưu mà các game thương phẩm dựa vào.
Chúng không tự nhiên có tính xác định theo cách mà các game thương phẩm cần. Bạn có thể ràng buộc việc lấy mẫu hoặc cố định seed, nhưng điều đó vẫn không cho bạn các cập nhật trạng thái sạch sẽ, có thể kiểm tra của một engine bình thường. Multiplayer, cân bằng thi đấu, replay, tiến trình kỹ năng, và lưu/tải đều phụ thuộc vào các chuyển đổi trạng thái đáng tin cậy. Một bộ tạo khung hình có thể xấp xỉ hành vi đó, nhưng một game thương phẩm vẫn cần một lớp logic xác định bên dưới hoặc bên cạnh nó.
DeepMind định hình các world model như một nền tảng để huấn luyện và đánh giá các tác nhân AI trong những môi trường mô phỏng phong phú, trong khi Project Genie cho thấy cùng công nghệ đó trong một nguyên mẫu tạo thế giới hướng tới người dùng cuối. Oasis 3 mới hơn của Decart thậm chí còn nhắm rõ ràng hơn vào AI vật lý, robot, và mô phỏng xe tự lái. Điều đó đặt lại câu hỏi "liệu cái này có đe dọa Unity không?": thị trường nghiêm túc nhất trong ngắn hạn có thể là huấn luyện tác nhân và mô phỏng, chứ không phải các game tiêu dùng hoàn chỉnh.

Bài viết này không đề cập đến điều gì

Một vài chủ đề lân cận bị lôi vào cùng cuộc thảo luận này nhưng không thuộc về đây:

DLSS, FSR, upscaling, và tạo khung hình. Đó là AI thay thế các giai đoạn riêng lẻ of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Phương pháp học tăng cường chi tiết được dùng để thu thập dữ liệu huấn luyện. Tôi sẽ mô tả nó ở mức khái niệm; các bài báo có công thức đầy đủ.
Lưu trữ máy chủ game và thiết lập hạ tầng. Đây là bài giải thích về cách các mô hình hoạt động, không phải hướng dẫn triển khai.

Người ta hiểu "AI game engine" là gì (và đây là cái nào)

Cụm từ "AI game engine" được gắn vào ba thứ hoàn toàn khác nhau, và phần lớn sự nhầm lẫn về chủ đề này đến từ việc gộp chúng lại với nhau. Bài viết này nói về đúng một trong số đó: một mô hình dự đoán từng khung hình và thay thế hoàn toàn engine. Không phải các công cụ AI gắn vào một engine truyền thống, và không phải một công cụ dựng các môi trường 3D mà sau đó bạn nạp vào một engine.

Ba ý nghĩa, nói một cách đơn giản:

Các công cụ AI bên trong một engine truyền thống. Tạo asset, tổng hợp texture, cây hành vi NPC, viết hội thoại: tất cả đều chạy bên trong Unity hay Unreal. Engine vẫn kết xuất khung hình, chạy vật lý, và giữ trạng thái. AI là một trợ lý trong pipeline nội dung. Đây là điều mà hầu hết kết quả tìm kiếm cho "AI game engine" thực sự nói tới, và nó không phải là chủ đề của bài viết này.
Các bộ tạo không gian 3D do người tạo dựng. World Labs, đồng sáng lập bởi Fei-Fei Li, cung cấp Marble, một công cụ tạo ra các môi trường 3D bền vững, có thể tải về từ văn bản, hình ảnh, video, hoặc các đầu vào khác. Quan trọng là, Marble gần với một công cụ tạo nội dung không gian hơn: nó tạo ra các thế giới 3D bền vững có thể di chuyển qua, chỉnh sửa, tải về, hoặc xuất sang các quy trình hạ nguồn. Điều đó khiến nó khác với GameNGen, Oasis, hay các hệ thống kiểu Genie, nơi trải nghiệm chơi được tự nó được tạo ra trực tiếp qua việc sinh từng khung hình một.
Các world model thay thế engine. GameNGen, Oasis, dòng Genie, DIAMOND, MineWorld, Matrix-Game. Chúng tạo ra các quan sát chơi được trực tiếp thay vì nạp một cảnh đã dựng bình thường vào Unity hay Unreal. Một số hệ thống mới hơn bổ sung cơ chế bộ nhớ và tính nhất quán, nhưng chúng vẫn không phơi bày mô hình trạng thái bền vững, có thể kiểm tra, do nhà phát triển kiểm soát của một game engine truyền thống. Đây là chủ đề ở đây.

Một quy tắc quyết định nhanh cho bất kỳ bài viết nào bạn đọc: nếu hệ thống tạo ra một tệp bạn nạp vào Unity, thì đó là loại 1 hoặc 2. Nếu hệ thống is chính là thứ bạn đang chơi, với các khung hình được tạo ra trực tiếp, thì đó là loại 3: một world model.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Cách một mô hình tạo ra game không cần engine

Một world model học một game trông như thế nào khi chuyển động, rồi dự đoán khung hình kế tiếp dựa trên các khung hình gần đây cộng với đầu vào hiện tại của người chơi. Khác với một engine truyền thống, nó không phơi bày các biến sạch sẽ như "cửa đang mở," "kẻ địch này đã chết," hay "người chơi ở tọa độ X." Trong các hệ thống dự đoán khung hình giai đoạn đầu, mô hình chủ yếu học rằng một số trạng thái thị giác có xu hướng đi theo một số đầu vào nhất định. Chơi chỉ là chạy vòng lặp dự đoán đã học đó đủ nhanh để cảm thấy tương tác được.

GameNGen là ví dụ được làm rõ sạch sẽ nhất, bởi vì bài báo trình bày từng bước. Pipeline chạy theo hai giai đoạn. Đầu tiên, một tác nhân học tăng cường chơi hàng nghìn phiên DOOM, và mỗi phiên được ghi lại thành một luồng các khung hình ghép cặp với các hành động tạo ra chúng. Thứ hai, một bản Stable Diffusion v1.4 đã chỉnh sửa được huấn luyện trên dữ liệu đó để dự đoán khung hình kế tiếp dựa trên các khung hình trước và hành động của người chơi. Hành động được nướng thẳng vào điều kiện hóa, và đó là mẹo khiến nó trở thành một game chứ không chỉ là một bộ tạo video. Cú nhấn phím của bạn là một phần của prompt cho hình ảnh kế tiếp.

Phần khó là tốc độ. Một mô hình diffusion bình thường chạy 20 đến 50 bước khử nhiễu để biến nhiễu thành một hình ảnh, điều này quá chậm đối với chơi thời gian thực. GameNGen cắt giảm xuống còn 4 bước khử nhiễu, đưa tổng thời gian suy luận xuống khoảng 50 mili giây mỗi khung hình: đủ nhanh cho 20 FPS trên một TPU đơn ở độ phân giải gốc 320×240 của DOOM. Người chấm điểm là con người chỉ làm tốt hơn ngẫu nhiên một chút khi phân biệt các đoạn clip ngắn của mô phỏng với cảnh quay DOOM thật.

Hầu hết các hệ thống trong lĩnh vực này rơi vào các mẫu kiến trúc chồng lấn nhau:

Các hệ thống dựa trên diffusion (GameNGen, Oasis, DIAMOND, Genie 2): bắt đầu từ nhiễu và khử nhiễu lặp đi lặp lại thành khung hình kế tiếp. Chúng có thể tạo ra chất lượng thị giác mạnh trong tầm ngắn, nhưng cần các mẹo tăng tốc để chạy tương tác.
Các hệ thống tự hồi quy (MineWorld): dự đoán các khung hình hoặc token tương lai theo tuần tự, gần với cách một mô hình ngôn ngữ dự đoán văn bản. MineWorld đánh đổi tốc độ khung hình để bám sát hành động chặt chẽ hơn, dừng ở khoảng 4-7 FPS.
Các hệ thống lai tăng cường bộ nhớ và điều khiển (Matrix-Game 2.0/3.0 và các hệ thống mới hơn): kết hợp tạo sinh thời gian thực với điều kiện hóa hành động, điều khiển camera, và các cơ chế bộ nhớ tường minh để giảm trôi tầm dài.

Một chi tiết quan trọng cho phần kế tiếp. Trong quá trình huấn luyện, GameNGen cố ý thêm nhiễu vào các khung hình quá khứ mà nó điều kiện hóa dựa trên đó. Điều đó buộc mô hình học cách tự sửa lỗi của chính nó thay vì tích lũy chúng, một biện pháp giảm thiểu cho vấn đề trôi. Nó có ích. Nhưng nó không giải quyết được vấn đề.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Dòng dõi: từ Genie 1 đến Genie 3 trong hai năm

Điều ấn tượng nhất về lĩnh vực này là độ dốc. Vào tháng 2 năm 2024, Genie 1 tạo ra các game platform 2D điều khiển được ở 256×256. Mười tám tháng sau, Genie 3 đang tạo ra các thế giới 3D có thể di chuyển được từ một prompt văn bản ở 720p và 24 FPS. Đó mới là quỹ đạo đáng chú ý: không phải bất kỳ demo đơn lẻ nào, mà là tốc độ thay đổi giữa chúng.

Đọc như một tiến trình, câu chuyện diễn ra như sau. Genie 1 (DeepMind, ICML 2024) chứng minh bạn có thể học các môi trường tương tác từ video không nhãn. GameNGen (Google, ICLR 2025) cho thấy cùng ý tưởng đó có thể chạy một game thật, nhịp độ nhanh (DOOM) trong thời gian thực. Oasis (Decart, tháng 10 năm 2024) đưa nó vào Minecraft và làm cho nó chơi được công khai. Genie 2 (DeepMind, tháng 12 năm 2024) nhảy sang các thế giới 3D được tạo ra từ một hình ảnh duy nhất. DIAMOND (NeurIPS 2024) làm cho cách tiếp cận này thành mã nguồn mở và chạy được trên một GPU tiêu dùng. GameGen-X và MineWorld (Microsoft, 2025) đẩy hệ sinh thái mở đi xa hơn. Genie 3 (tháng 8 năm 2025; công khai dưới dạng Project Genie vào tháng 1 năm 2026) đạt 3D thời gian thực từ văn bản. Matrix-Game 2.0 đẩy việc tạo sinh streaming thời gian thực mã nguồn mở lên 25 FPS, và Matrix-Game 3.0 tấn công vấn đề bộ nhớ trực tiếp hơn với một kiến trúc bộ nhớ tầm dài.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Thông số của các hệ thống lớn nằm trong bảng bên dưới; điểm mấu chốt của câu chuyện là cung đường, không phải các con số.

Hệ thống	Nhà phát triển	Năm	Cách tiếp cận	Độ phân giải / FPS	Mã nguồn mở?	Nguồn
Genie 1	Google DeepMind	2024	Hành động tiềm ẩn	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Một phần (500M ckpt)	Project
Oasis 3	Decart	2026	World model tương tác truy cập qua API cho AI vật lý	Bản xem trước API thời gian thực	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Diffusion tiềm ẩn tự hồi quy	Không áp dụng	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Có (MIT)	arXiv
GameGen-X	Học thuật	2024	Diffusion transformer	Không áp dụng	Có	arXiv
MineWorld	Microsoft Research	2025	Tự hồi quy	4-7 FPS	Có	arXiv
Genie 3	Google DeepMind	2025	World model thời gian thực đa dụng	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Diffusion tự hồi quy ít bước	25 FPS trên một H100 đơn	Có	Project
Matrix-Game 3.0	Skywork AI	2026	World model tương tác tăng cường bộ nhớ	Lên tới 40 FPS ở 720p với một mô hình 5B	Có	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Vì sao các thế giới này sụp đổ

Các hệ thống này vẫn hỏng theo bốn cách quan trọng, nhưng kiểu hỏng không chỉ là "không đủ sức mạnh tính toán." Nhiều GPU hơn có thể cải thiện độ phân giải, độ trễ, và quy mô mô hình, nhưng tính nhất quán cấp thương phẩm cần bộ nhớ, theo dõi trạng thái, và kiến trúc điều khiển tốt hơn. Một mô hình dự đoán các khung hình hợp lý không phải là cùng một thứ với một engine có quy tắc tường minh, biến có thể kiểm tra, cập nhật trạng thái xác định, và ngữ nghĩa lưu/tải. Mỗi giới hạn bên dưới là những gì mô hình không thể làm được về mặt cấu trúc, chứ không phải những gì nó chưa đủ giỏi để làm.

Không có trạng thái thế giới bền vững

Các hệ thống này không phơi bày các biến theo cách một engine truyền thống làm. Một engine bình thường lưu trữ thế giới dưới dạng dữ liệu: rương này đang mở, kẻ địch này đã chết, người chơi ở tọa độ (412, 88). Trong các hệ thống dự đoán khung hình giai đoạn đầu, không có trạng thái engine bền vững theo nghĩa phát triển game đó. Mô hình chủ yếu dựa vào ngữ cảnh thị giác gần đây và các tiên nghiệm đã học, nên các đối tượng có thể thay đổi, biến mất, hoặc xuất hiện lại sai khi chúng ra khỏi tầm nhìn. Các hệ thống mới hơn đang bổ sung cơ chế bộ nhớ và tính nhất quán tường minh, nhưng chúng vẫn không phơi bày kiểu trạng thái thế giới sạch sẽ, có thể debug mà một engine truyền thống mang lại cho nhà phát triển.

Trong các hệ thống dự đoán khung hình yếu hơn hoặc giai đoạn đầu, một cái rương bạn đã mở có thể xuất hiện lại đóng, một con quái bạn đã giết có thể đi ngược trở vào, và một công trình bạn đã xây có thể tan biến khi nó ra khỏi khung hình. Người chơi mô tả demo Oasis nguyên bản là có "logic của giấc mơ": bạn quay người, và bạn có thể không trở lại đúng chỗ cũ. Các hệ thống mới hơn đang cố giảm vấn đề đó bằng các cơ chế bộ nhớ và tính nhất quán mạnh hơn, nhưng khoảng cách vẫn còn: chúng vẫn không phơi bày một lớp trạng thái game truyền thống, có thể kiểm tra.

Trần cửa sổ ngữ cảnh

Tính nhất quán bị giới hạn bởi thiết kế bộ nhớ của mô hình, không chỉ bởi chất lượng thị giác thuần túy. GameNGen dùng lịch sử khung hình trực tiếp ngắn nhưng vẫn báo cáo các phiên chơi ổn định kéo dài nhiều phút thông qua việc tự sửa lỗi đã học. Genie 2 giới thiệu các ví dụ bộ nhớ tầm dài có thể thấy được và duy trì tính nhất quán tới một phút, với hầu hết các ví dụ kéo dài 10-20 giây. Genie 3 đẩy tương tác liên tục lên tới vài phút, và Matrix-Game 3.0 tấn công trực tiếp vào vấn đề với bộ nhớ tầm dài. Vấn đề chưa giải quyết không phải là "liệu mô hình có thể trụ được hơn vài giây không?" Mà là liệu nó có thể giữ lại một trạng thái thế giới đáng tin cậy, có thể kiểm tra, có thể lưu trong suốt độ dài và độ phức tạp của một game thực sự hay không.

Ngẫu nhiên, không xác định

Đầu ra mặc định mang tính xác suất. Chạy cùng một thiết lập hai lần và bạn có thể nhận được các khung hình khác nhau trừ khi hệ thống bị ràng buộc chặt chẽ. Đối với một công cụ nghệ thuật, điều đó có thể hữu ích; đối với nhiều game thương phẩm, đó là một vấn đề. Multiplayer, cân bằng thi đấu, replay, tiến trình kỹ năng, và lưu/tải đều phụ thuộc vào các chuyển đổi trạng thái đáng tin cậy. Một world model có thể được làm cho có khả năng lặp lại hơn, nhưng một game thương phẩm vẫn cần một lớp logic xác định hoặc hệ thống trạng thái để đảm bảo hành vi mà người chơi và nhà phát triển mong đợi.

Đây là game, hay là dự đoán video với một bàn phím?

Lời phê bình sắc bén nhất là các hệ thống này không mô phỏng các thế giới theo nghĩa game-engine truyền thống; chúng tạo ra các phần tiếp nối thị giác hợp lý và để bạn lái chúng. Một game engine mã hóa quy tắc; một world model mã hóa tính hợp lý. Một người bình luận trong luồng Hacker News về GameNGen gọi nó là "phương pháp nén video kém hiệu quả nhất thế giới," và như một lời khiêu khích thì nó trúng đích: mô hình về cơ bản đã ghi nhớ một phân phối trên cảnh quay lối chơi và đang nội suy qua đó để phản hồi đầu vào của bạn. Có một phép thử rõ ràng cho điều này, trong phần nhấn mạnh bên dưới.

Dấu hiệu "trôi khi đứng yên". Nếu một world model thực sự tính toán một thế giới, thì một người chơi đứng yên sẽ cho ra một hình ảnh ổn định: không có gì thay đổi, nên không có gì nên thay đổi. Trong các hệ thống dự đoán khung hình yếu hơn hoặc giai đoạn đầu, ngay cả việc đứng yên cũng có thể bộc lộ sự trôi: các chi tiết nhỏ dịch chuyển vì mô hình đang dự đoán khung hình hợp lý kế tiếp thay vì kết xuất từ một trạng thái thế giới cố định, có thể kiểm tra. Đó là dấu hiệu. Cảnh có thể trông ổn định trong một lúc, nhưng hệ thống vẫn đang tạo ra tính liên tục chứ không phải đọc nó từ một engine thông thường.

Điểm mấu chốt: các giới hạn về tính xác định và tính bền vững là những vấn đề kiến trúc, không phải những vấn đề mà việc mở rộng quy mô thuần túy sẽ tự giải quyết. Bất kỳ hệ thống nào cần một thế giới đáng tin cậy, có thể lặp lại, có thể lưu vẫn cần một lớp logic xác định, hệ thống bộ nhớ/trạng thái tường minh, hoặc thiết kế engine lai mà các cách tiếp cận tạo khung hình hiện tại không tự cung cấp được.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Chi phí thực sự để vận hành

Tạo sinh thời gian thực thì tốn kém, và các con số tiêu đề che giấu rất nhiều. "Một TPU đơn" của GameNGen nghe có vẻ rẻ cho đến khi bạn nhớ rằng nó đang mô phỏng DOOM ở 320×240, không phải một game hiện đại độ phân giải cao. Demo Oasis nguyên bản chạy thời gian thực trên hạ tầng cấp H100, và Oasis 3 mới hơn của Decart làm cho bài toán kinh tế cụ thể hơn. Decart định vị Oasis 3 như một world model tương tác truy cập qua API cho AI vật lý, và TechCrunch đã báo cáo giá truy cập bản xem trước ở mức $0.02 mỗi giây, hay $1.20 cho một phiên 60 giây. Mức đó hữu ích cho thử nghiệm, mô phỏng, và các quy trình nghiên cứu, nhưng nó vẫn là một mô hình chi phí rất khác so với việc xuất xưởng một client game bình thường.

Để đặt quy mô vào đó: tạo sinh thế giới thời gian thực vẫn tốn kém, nhưng bức tranh phần cứng đang chuyển động nhanh. Một số hệ thống nghiên cứu mở giờ đây báo cáo việc tạo sinh thời gian thực hoặc gần thời gian thực trên các GPU cấp H100 đơn, trong khi các hệ thống tiên phong hướng tới người dùng vẫn được host trên đám mây và thường không công bố. Điểm chắc chắn không phải là "một GPU không bao giờ làm được"; mà là việc tạo sinh thế giới chất lượng thương phẩm, độ trễ thấp, độ phân giải cao vẫn là một bài toán hạ tầng nghiêm túc.

Điểm đối lập là sàn đang hạ xuống nhanh, và tầng mã nguồn mở là có thật. DIAMOND được huấn luyện trong khoảng 12 ngày trên một RTX 4090 đơn và, theo trang dự án chính thức của nó, có thể được chơi ở khoảng 10 FPS trên một RTX 3090. MineWorld và Matrix-Game có thể chạy được công khai. Vì vậy, trong khi các demo ấn tượng nhất vẫn phụ thuộc vào hạ tầng chuyên dụng, đắt tiền, một nhà phát triển tò mò đã có thể chạy một số thí nghiệm world-model thực sự trên phần cứng dễ tiếp cận. Cả hai điều đều đúng cùng một lúc: tương tác chất lượng tiên phong thì tốn kém, và điểm khởi đầu để thử nghiệm đã là có thật.

Vậy AI có thay thế Unity và Unreal không?

Không phải trong ngắn hạn, và lý do là các giới hạn ở trên, không phải vì thiếu đầu tư. Thị trường đã xem chuyện này nghiêm túc. Google đã triển khai Project Genie cho các thuê bao Google AI Ultra tại Mỹ vào ngày 29 tháng 1 năm 2026, và ngày hôm sau một số cổ phiếu ngành game bán tháo mạnh: The Verge báo cáo Unity giảm 24.22%, Roblox giảm 13.17%, và Take-Two giảm 7.93% vào lúc đóng cửa hôm thứ Sáu. Sự lo lắng cũng xuất hiện bên trong ngành: khảo sát năm 2026 của GDC phát hiện rằng 52% chuyên gia game xem AI tạo sinh là có tác động tiêu cực đến game, tăng từ 30% của năm trước. Nhưng các biến động cổ phiếu và sự lo lắng trong khảo sát là phản ứng với một demo. Chính kiến trúc mới là thứ định ra mốc thời gian thực sự.

Đọc quỹ đạo như hiện tại, và đây là cách nhìn của tôi, không phải một dự báo đã chốt, thì 1-3 năm tới có khả năng giữ các world model trong các nguyên mẫu nghiên cứu, hạ tầng mô phỏng, huấn luyện robot/AI vật lý, và các demo hướng tới người dùng hẹp chứ không phải các game thương mại hoàn chỉnh. Con đường khả dĩ trong 3-7 năm là lai, không phải thay thế: một world model xử lý việc tạo sinh thị giác nằm trên một máy trạng thái xác định nhẹ giữ logic game thực sự. Đó là sự bổ trợ. Quỹ đạo đủ dốc (DOOM ở 320p đến 720p-từ-văn-bản trong khoảng một năm) đến mức các dự đoán dài hạn chắc nịch là không khôn ngoan, nên tôi sẽ không đưa ra một dự đoán nào.

Chi tiết đặt lại toàn bộ câu hỏi: DeepMind gắn các world model với việc huấn luyện tác nhân và nghiên cứu AGI, trong khi Project Genie cho thấy cùng công nghệ đó như một nguyên mẫu tạo thế giới hướng tới người dùng. Oasis 3 của Decart thậm chí còn nhắm rõ ràng hơn vào robot, xe tự lái, và mô phỏng AI vật lý. Các game tiêu dùng quan trọng đối với câu chuyện, nhưng lực kéo thương mại ngắn hạn có thể đến từ mô phỏng, huấn luyện, và làm nguyên mẫu trước.

Câu hỏi thường gặp

Sự khác biệt giữa một world model và một game engine là gì?

Một game engine mã hóa các quy tắc tường minh và lưu trữ trạng thái game dưới dạng dữ liệu: nó có tính xác định, có thể kiểm tra, và có thể debug. Một world model như GameNGen dự đoán các khung hình kế tiếp hợp lý từ các khung hình gần đây cộng với đầu vào của bạn, không có trạng thái, quy tắc, và biến đối tượng kiểu engine truyền thống mà nhà phát triển thường kiểm tra và kiểm soát. Engine tính toán ra thế giới; world model đoán ra nó. Đó là lý do vì sao cái này có thể lặp lại còn cái kia thì không.

GameNGen hoạt động như thế nào?

GameNGen chạy DOOM theo ba bước rộng. Đầu tiên, một tác nhân học tăng cường chơi hàng nghìn phiên DOOM, được ghi lại thành các khung hình ghép cặp với các hành động. Thứ hai, một bản Stable Diffusion v1.4 đã chỉnh sửa học cách dự đoán khung hình kế tiếp dựa trên các khung hình quá khứ cộng với đầu vào của người chơi. Thứ ba, suy luận được cắt giảm xuống 4 bước khử nhiễu, tạo ra khoảng 20 FPS trên một TPU đơn ở 320×240.

Vì sao thế giới trong Oasis cứ thay đổi khi bạn quay người lại?

Trong demo Oasis kiểu Minecraft nguyên bản, thế giới có thể thay đổi khi bạn quay người lại vì hệ thống không giữ lại một trạng thái thế giới kiểu engine truyền thống. Nó tạo ra khung cảnh kế tiếp từ ngữ cảnh thị giác gần đây và các tiên nghiệm đã học, nên các đối tượng ngoài tầm nhìn có thể trở lại với hình dạng đã bị thay đổi. Các hệ thống mới hơn đang bổ sung các cơ chế bộ nhớ và tính nhất quán mạnh hơn, nhưng chính cái "logic của giấc mơ" nguyên bản đó là điều khiến giới hạn này dễ nhận thấy.

Một thế giới game do AI tạo ra có thể giữ nhất quán bao lâu trước khi nó bị trôi?

Điều đó phụ thuộc vào mô hình. Các hệ thống giai đoạn đầu thường trôi trong khoảng vài giây đến vài chục giây, nhưng các hệ thống mới hơn đang kéo dài giới hạn đó. GameNGen có hơn 3 giây ngữ cảnh trực tiếp một chút nhưng vẫn có thể giữ ổn định qua lối chơi dài hơn nhờ các quy tắc heuristic đã học. Genie 2 chủ yếu cho thấy các ví dụ 10-20 giây và tới một phút trong một số trường hợp. Genie 3 nâng tuyên bố lên vài phút ở 720p/24fps, và Matrix-Game 3.0 báo cáo tính nhất quán bộ nhớ kéo dài một phút. Vấn đề chưa giải quyết không phải là các clip ngắn; mà là trạng thái thế giới bền vững, có thể kiểm tra, có thể lưu.

AI có thay thế các game engine như Unity hay Unreal không?

Không phải trong ngắn hạn. Các rào cản mang tính kiến trúc nhiều hơn là thuần túy một bài toán quy mô: các game thương phẩm cần trạng thái bền vững, logic đáng tin cậy, hành vi xác định, và ngữ nghĩa lưu/tải. Việc mở rộng quy mô giúp ích cho chất lượng và tính nhất quán, nhưng tự thân nó không tạo ra một vòng lặp game truyền thống. Con đường khả dĩ là lai: một world model tạo ra hình ảnh nằm trên một engine xác định cho logic game, đó là sự bổ trợ chứ không phải thay thế. DeepMind trình bày các world model như là quan trọng đối với việc huấn luyện tác nhân và nghiên cứu AGI, trong khi Project Genie cũng làm cho công nghệ này hiện diện như một nguyên mẫu tạo thế giới hướng tới người dùng. Oasis 3 của Decart là ví dụ rõ ràng hơn về một mô hình nhắm rõ ràng vào robot, xe tự lái, và mô phỏng AI vật lý.

Bạn có thể chơi bất kỳ game nào do AI tạo ra này ngay bây giờ không?

Có, một vài cái. Oasis nguyên bản của Decart có một demo web kiểu Minecraft công khai, và Oasis 3 Preview mới hơn của nó giờ đây truy cập được qua API cho các thí nghiệm world-model thời gian thực. Project Genie của Google cũng trở nên khả dụng cho các thuê bao Google AI Ultra tại Mỹ vào tháng 1 năm 2026. Đối với tầng mã nguồn mở, DIAMOND và MineWorld có thể được tải về và chạy trên các GPU tiêu dùng, với DIAMOND được báo cáo ở khoảng 10 FPS trên một RTX 3090.

Game không cần game engine: Cách các mô hình AI tạo ra thế giới chơi được