كيف يولّد الذكاء الاصطناعي ألعابًا بلا محرك ألعاب (GameNGen وGenie 3)

في عام 2024، أظهر فريق من Google Research وGoogle DeepMind أن نموذجًا عصبيًا يستطيع محاكاة لعبة DOOM قابلة للّعب بأكثر من 20 إطارًا في الثانية من دون تشغيل محرك اللعبة الأصلي تحته. لم تكن هناك حلقة محرك تقليدية تخزّن صراحةً الإحداثيات أو كائنات الفيزياء أو متغيرات الصحة أو حالة الخريطة بالطريقة المعتادة. بدلًا من ذلك، تعلّم GameNGen استنتاج الإطار التالي من الإطارات الأخيرة ومدخلات اللاعب، بما في ذلك الإشارات البصرية مثل الصحة والذخيرة والأعداء والأبواب والجدران. هذا النظام، المسمّى GameNGen، هو نسخة معدّلة من Stable Diffusion (نفس نوع النموذج الذي يولّد الصور من النص)، وهو يلعب DOOM عبر هلوسة كل إطار تالٍ انطلاقًا من الإطارات السابقة بالإضافة إلى أي مفتاح ضغطته للتو.

هذا شيء مختلف اختلافًا جوهريًا عن "الذكاء الاصطناعي داخل محرك ألعاب". عندما يستخدم استوديو الذكاء الاصطناعي لتوليد القوام أو كتابة حوار NPC داخل Unity، يبقى المحرك موجودًا يقوم بالعمل الحقيقي. أما GameNGen فلا محرك له. النموذج is اللعبة. وهي بداية حدود حقيقية لا تكفّ العناوين الرئيسية عن فهمها خطأً. ظهر GameNGen عبر مسار أبحاث ICLR, وجاء DIAMOND عبر NeurIPS 2024، وشركات مثل Google DeepMind وMicrosoft Research وDecart وSkywork AI تدفع الآن بالفكرة من الأوراق البحثية إلى العروض التوضيحية وواجهات الـAPI والأنظمة مفتوحة المصدر.

إليك ما تفعله هذه الأنظمة فعلًا، وكيف يعمل التنبؤ بالإطار التالي، ولماذا ما زال الاتساق والذاكرة ينهاران خلال التفاعل الأطول، وكم تكلّف تشغيلها، وهل ستحل محل Unity. الجواب المختصر عن السؤال الأخير هو لا، على الأقل ليس بالطريقة التي توحي بها الضجة. السبب معماري: المزيد من قدرة الحوسبة يساعد، لكنه لا يخلق بمفرده حالة دائمة أو منطقًا حتميًا أو حلقة لعبة قابلة للتنقيح.

النسخة المختصرة

هذه النماذج تتنبأ بالإطارات؛ هي لا تحاكي القواعد. محرك اللعبة يحسب الحالة التالية من المنطق والمتغيرات المخزّنة. أما نموذج العالم مثل GameNGen أو Oasis فيخمّن الصورة التالية من الإطارات السابقة بالإضافة إلى مدخلاتك. هو لا يشغّل محاكاة محرك ألعاب تقليدية بحالة كائنات صريحة وشيفرة فيزياء ومتغيرات قابلة للفحص؛ بل يولّد الملاحظة التالية عبر نموذج متعلَّم.
ما زال اتساقها مقيّدًا بالذاكرة والسياق، لكن الحد لم يعد بسيطًا مثل "كل شيء يفشل بعد بضع ثوانٍ". يملك GameNGen ما يزيد قليلًا عن 3 ثوانٍ من تاريخ الإطارات المباشر، ومع ذلك يستطيع البقاء مستقرًا بصريًا عبر مسارات أطول من خلال إرشادات متعلَّمة. عادةً ما عرض Genie 2 أمثلة من 10-20 ثانية وقدر أحيانًا على الحفاظ على تفاصيل خارج مجال الرؤية، بينما يدفع Genie 3 الاتساق إلى بضع دقائق بدقة 720p/24fps. يبقى الضعف الجوهري قائمًا: هذه الأنظمة لا توفّر بعد الحالة الدائمة القابلة للفحص والحفظ التي تعتمد عليها الألعاب الإنتاجية.
هي ليست حتمية بطبيعتها بالطريقة التي تحتاجها الألعاب الإنتاجية. يمكنك تقييد المعاينة أو تثبيت البذور، لكن ذلك لا يمنحك مع ذلك تحديثات الحالة النظيفة القابلة للفحص في محرك عادي. تعدّد اللاعبين والتوازن التنافسي وإعادات التشغيل وتطور المهارة والحفظ/التحميل، كلها تعتمد على انتقالات حالة موثوقة. يستطيع مولّد الإطارات تقريب ذلك السلوك، لكن اللعبة الإنتاجية ستظل بحاجة إلى طبقة منطق حتمية تحته أو إلى جانبه.
تطرح DeepMind نماذج العالم كأساس لتدريب وتقييم وكلاء الذكاء الاصطناعي في بيئات محاكاة غنية، بينما يعرض Project Genie التقنية نفسها في نموذج أولي لإنشاء العوالم موجَّه للمستهلك. وOasis 3 الأحدث من Decart موجَّه بشكل أكثر صراحةً نحو الذكاء الاصطناعي الفيزيائي والروبوتات ومحاكاة المركبات ذاتية القيادة. هذا يعيد صياغة سؤال "هل سيحل هذا محل Unity؟": فأكثر الأسواق جدية على المدى القريب قد يكون تدريب الوكلاء والمحاكاة، لا الألعاب الاستهلاكية المكتملة.

ما لا يغطّيه هذا المقال

تُسحَب بضعة مواضيع مجاورة إلى المحادثة نفسها وهي لا تنتمي إلى هنا:

DLSS وFSR والترقية والـframe generation. تلك حالات يحلّ فيها الذكاء الاصطناعي محل مراحل فردية of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
منهجية التعلّم المعزّز التفصيلية المستخدمة لجمع بيانات التدريب. سأصفها على مستوى مفاهيمي؛ الأوراق البحثية تحوي الوصفة الكاملة.
استضافة خوادم الألعاب وإعداد البنية التحتية. هذا شرح لكيفية عمل النماذج، وليس دليل نشر.

ما يقصده الناس بـ"محرك ألعاب الذكاء الاصطناعي" (وأيّها هذا)

تُلصَق عبارة "محرك ألعاب الذكاء الاصطناعي" بثلاثة أشياء مختلفة تمامًا، ومعظم الالتباس حول هذا الموضوع ينشأ من دمجها معًا. هذا المقال يدور حول واحد منها بالضبط: نموذج يتنبأ بكل إطار ويحلّ محل المحرك كليًا. ليس أدوات ذكاء اصطناعي مثبّتة على محرك تقليدي، وليس أداة تبني بيئات ثلاثية الأبعاد تحمّلها بعدئذ داخل محرك.

المعاني الثلاثة، بعبارات بسيطة:

أدوات ذكاء اصطناعي داخل محرك تقليدي. توليد الأصول وتركيب القوام وأشجار سلوك NPC وكتابة الحوار: كلها تعمل داخل Unity أو Unreal. المحرك ما زال يعرض الإطارات ويشغّل الفيزياء ويحفظ الحالة. الذكاء الاصطناعي مساعد في خط أنابيب المحتوى. هذا ما تدور حوله فعلًا معظم نتائج البحث عن "محرك ألعاب الذكاء الاصطناعي"، وهو ليس موضوع هذا المقال.
مولّدات الفضاء ثلاثي الأبعاد المؤلَّفة. تقدّم World Labs، التي شاركت في تأسيسها Fei-Fei Li، Marble، أداة تنشئ بيئات ثلاثية الأبعاد دائمة قابلة للتنزيل من النص أو الصور أو مقاطع الفيديو أو مدخلات أخرى. والأهم أن Marble أقرب إلى أداة إنشاء محتوى مكاني: فهي تولّد عوالم ثلاثية الأبعاد دائمة يمكن التنقّل فيها وتحريرها وتنزيلها أو تصديرها إلى سير عمل لاحقة. هذا يجعلها مختلفة عن GameNGen أو Oasis أو الأنظمة على نمط Genie حيث تُنتَج التجربة القابلة للّعب نفسها مباشرةً عبر التوليد إطارًا بإطار.
نماذج عالم تحلّ محل المحرك. GameNGen وOasis وعائلة Genie وDIAMOND وMineWorld وMatrix-Game. هذه تولّد ملاحظات قابلة للّعب مباشرةً بدلًا من تحميل مشهد مؤلَّف عادي داخل Unity أو Unreal. تضيف بعض الأنظمة الأحدث آليات للذاكرة والاتساق، لكنها ما زالت لا تكشف نموذج الحالة الدائم القابل للفحص والمتحكَّم به من المطوّر في محرك ألعاب تقليدي. هذا هو الموضوع هنا.

قاعدة قرار سريعة لأي مقال تقرؤه: إذا أنتج النظام ملفًا تحمّله داخل Unity، فهو من الفئة 1 أو 2. وإذا كان النظام is الشيء الذي تلعبه، بإطارات مولَّدة مباشرةً، فهو الفئة 3: نموذج عالم.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

كيف يولّد نموذج لعبةً بلا محرك

يتعلّم نموذج العالم كيف تبدو اللعبة وهي في حركة، ثم يتنبأ بالإطار التالي مشروطًا بالإطارات الأخيرة بالإضافة إلى مدخلات اللاعب الحالية. بخلاف المحرك التقليدي، فهو لا يكشف متغيرات نظيفة مثل "الباب مفتوح" أو "هذا العدو ميت" أو "اللاعب عند الإحداثية X". في أنظمة التنبؤ بالإطارات المبكرة، يتعلّم النموذج في الغالب أن حالات بصرية معيّنة تميل إلى أن تتبع مدخلات معيّنة. اللعب ليس سوى تشغيل حلقة التنبؤ المتعلَّمة تلك بسرعة كافية لتبدو تفاعلية.

GameNGen هو المثال الأنظف المعمول، لأن الورقة البحثية تعرض كل خطوة. يعمل خط الأنابيب على مرحلتين. أولًا، يلعب وكيل تعلّم معزّز آلاف الجلسات من DOOM، وتُسجَّل كل جلسة كتدفق إطارات مقترن بالأفعال التي أنتجتها. ثانيًا، تُدرَّب نسخة معدّلة من Stable Diffusion v1.4 على تلك البيانات للتنبؤ بالإطار التالي بمعلومية الإطارات السابقة و فعل اللاعب. يُدمَج الفعل مباشرةً في الشرط، وتلك هي الحيلة التي تجعله لعبة لا مجرد مولّد فيديو. ضغطتك على المفتاح جزء من المطالبة للصورة التالية.

الجزء الصعب هو السرعة. يشغّل نموذج الـdiffusion العادي 20 إلى 50 خطوة إزالة تشويش لتحويل الضجيج إلى صورة، وهذا أبطأ بكثير من أن يصلح للّعب في الوقت الحقيقي. يقلّص GameNGen ذلك إلى 4 خطوات إزالة تشويش، فيصل بزمن الاستدلال الكلي إلى نحو 50 ميلي ثانية لكل إطار: سرعة كافية لـ 20 FPS على TPU واحد بدقة DOOM الأصلية 320×240. لم يستطع المقيّمون البشريون أن يفعلوا أفضل قليلًا من الصدفة في تمييز مقاطع قصيرة من المحاكاة عن لقطات DOOM الحقيقية.

تقع معظم الأنظمة في هذا المجال ضمن أنماط معمارية متداخلة:

الأنظمة القائمة على الـdiffusion (GameNGen وOasis وDIAMOND وGenie 2): تبدأ من الضجيج وتزيل التشويش تكراريًا للوصول إلى الإطار التالي. يمكنها إنتاج جودة بصرية قوية على المدى القصير، لكنها تحتاج إلى حِيَل سرعة لتعمل تفاعليًا.
الأنظمة الانحدارية الذاتية (Autoregressive) (MineWorld): تتنبأ بالإطارات أو الرموز المستقبلية تسلسليًا، أقرب إلى طريقة تنبؤ نموذج اللغة بالنص. يقايض MineWorld معدل الإطارات بمتابعة أوثق للأفعال، فيستقر حول 4-7 FPS.
الهجائن المعزّزة بالذاكرة والتحكّم (Matrix-Game 2.0/3.0 والأنظمة الأحدث): تجمع التوليد في الوقت الحقيقي مع شرط الأفعال والتحكّم بالكاميرا وآليات ذاكرة صريحة لتقليل الانحراف على المدى الطويل.

تفصيلة واحدة تهمّ القسم التالي. أثناء التدريب، يضيف GameNGen عمدًا ضجيجًا إلى الإطارات الماضية التي يشترط عليها. وهذا يجبر النموذج على تعلّم تصحيح أخطائه بدلًا من مراكمتها، وهو تخفيف لمشكلة الانحراف. إنه يساعد. لكنه لا يحلّها.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

السلالة: من Genie 1 إلى Genie 3 في عامين

أكثر ما يلفت النظر في هذا المجال هو شدة المنحدر. في فبراير 2024، Genie 1 ولّد ألعاب منصّات ثنائية الأبعاد قابلة للتحكّم بدقة 256×256. وبعد ثمانية عشر شهرًا، Genie 3 كان يولّد عوالم ثلاثية الأبعاد قابلة للتنقّل من مطالبة نصية بدقة 720p و24 FPS. ذلك هو المسار الجدير بالانتباه: لا أي عرض توضيحي بمفرده، بل معدّل التغيّر بينهما.

إذا قُرئت كتقدّم واحد، تسير القصة هكذا. Genie 1 (DeepMind، ICML 2024) أثبت أنه يمكنك تعلّم بيئات تفاعلية من فيديو غير معنون. وGameNGen (Google، ICLR 2025) أظهر أن الفكرة نفسها قادرة على تشغيل لعبة حقيقية سريعة الإيقاع (DOOM) في الوقت الحقيقي. وOasis (Decart، أكتوبر 2024) نقلها إلى Minecraft وجعلها قابلة للّعب علنًا. وGenie 2 (DeepMind، ديسمبر 2024) قفز إلى عوالم ثلاثية الأبعاد مولَّدة من صورة واحدة. DIAMOND (NeurIPS 2024) جعل النهج مفتوح المصدر وقابلًا للتشغيل على GPU استهلاكي. GameGen-X و MineWorld (Microsoft، 2025) دفعا المنظومة المفتوحة إلى أبعد. Genie 3 (أغسطس 2025؛ متاح علنًا باسم Project Genie في يناير 2026) وصل إلى ثلاثي الأبعاد في الوقت الحقيقي من النص. Matrix-Game 2.0 دفع التوليد المتدفق في الوقت الحقيقي مفتوح المصدر إلى 25 FPS، و Matrix-Game 3.0 هاجم مشكلة الذاكرة بشكل أكثر مباشرة بمعمارية ذاكرة طويلة المدى.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

مواصفات الأنظمة الكبرى موجودة في الجدول أدناه؛ المقصود من السرد هو القوس، لا الأرقام.

النظام	المطوّر	السنة	النهج	الدقة / FPS	مفتوح المصدر؟	المصدر
Genie 1	Google DeepMind	2024	Latent action	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	جزئي (500M ckpt)	Project
Oasis 3	Decart	2026	نموذج عالم تفاعلي متاح عبر API للذكاء الاصطناعي الفيزيائي	معاينة API في الوقت الحقيقي	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Autoregressive latent diffusion	غير متاح	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	نعم (MIT)	arXiv
GameGen-X	أكاديمي	2024	Diffusion transformer	غير متاح	نعم	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	نعم	arXiv
Genie 3	Google DeepMind	2025	نموذج عالم عام الغرض في الوقت الحقيقي	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Few-step autoregressive diffusion	25 FPS على H100 واحد	نعم	Project
Matrix-Game 3.0	Skywork AI	2026	نموذج عالم تفاعلي معزّز بالذاكرة	حتى 40 FPS بدقة 720p مع نموذج 5B	نعم	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

لماذا تتفكّك هذه العوالم

ما زالت هذه الأنظمة تنهار بأربع طرق مهمة، لكن نمط الفشل ليس مجرد "قدرة حوسبة غير كافية". المزيد من وحدات GPU يمكن أن يحسّن الدقة والكمون وحجم النموذج، لكن الاتساق على مستوى الإنتاج يحتاج إلى ذاكرة أفضل وتتبّع للحالة ومعمارية تحكّم. النموذج الذي يتنبأ بإطارات معقولة ليس الشيء نفسه كمحرك بقواعد صريحة ومتغيرات قابلة للفحص وتحديثات حالة حتمية ودلالات حفظ/تحميل. كل قيد أدناه هو ما لا يستطيع النموذج فعله بنيويًا، لا ما لم يصبح جيدًا فيه بما يكفي بعد.

لا حالة عالم دائمة

هذه الأنظمة لا تكشف المتغيرات بالطريقة التي يفعلها محرك تقليدي. المحرك العادي يخزّن العالم كبيانات: هذا الصندوق مفتوح، هذا العدو ميت، اللاعب عند الإحداثية (412، 88). في أنظمة التنبؤ بالإطارات المبكرة، لا توجد حالة محرك دائمة بذلك المعنى في تطوير الألعاب. يعتمد النموذج في الغالب على السياق البصري الأخير والأولويات المتعلَّمة، فقد تتغيّر الكائنات أو تختفي أو تظهر مجددًا بشكل خاطئ بمجرد خروجها عن الرؤية. تضيف الأنظمة الأحدث آليات ذاكرة واتساق صريحة، لكنها ما زالت لا تكشف ذلك النوع من حالة العالم النظيفة القابلة للتنقيح التي يمنحها محرك تقليدي للمطوّرين.

في الأنظمة الأضعف أو المبكرة للتنبؤ بالإطارات، يمكن لصندوق فتحته أن يظهر مجددًا مغلقًا، ويمكن لوحش قتلته أن يعود ماشيًا إلى الداخل، ويمكن لبنية شيّدتها أن تذوب بمجرد خروجها عن الإطار. وصف اللاعبون عرض Oasis الأصلي بأن له "منطق حلم": تستدير، وقد لا تعود إلى المكان نفسه تمامًا. تحاول الأنظمة الأحدث تقليل تلك المشكلة بآليات ذاكرة واتساق أقوى، لكن الفجوة تبقى: هي ما زالت لا تكشف طبقة حالة لعبة تقليدية قابلة للفحص.

سقف نافذة السياق

الاتساق مقيّد بتصميم ذاكرة النموذج، لا بمجرد الجودة البصرية الخام. يستخدم GameNGen تاريخ إطارات مباشرًا قصيرًا لكنه مع ذلك يبلّغ عن جلسات لعب مستقرة تمتد لدقائق عبر تصحيح متعلَّم. أدخل Genie 2 أمثلة ذاكرة مرئية طويلة المدى وحافظ على الاتساق حتى دقيقة، مع استمرار معظم الأمثلة من 10-20 ثانية. يدفع Genie 3 التفاعل المستمر إلى بضع دقائق، ويهاجم Matrix-Game 3.0 المشكلة مباشرةً بذاكرة طويلة المدى. المسألة غير المحلولة ليست "هل يستطيع النموذج أن يدوم أكثر من بضع ثوانٍ؟". بل هي ما إذا كان قادرًا على الحفاظ على حالة عالم موثوقة قابلة للفحص والحفظ بطول وتعقيد لعبة حقيقية.

احتمالي، لا حتمي

المخرَج احتمالي افتراضيًا. شغّل الإعداد نفسه مرتين وقد تحصل على إطارات مختلفة ما لم يكن النظام مقيّدًا بشدة. بالنسبة لأداة فنية، قد يكون ذلك مفيدًا؛ أما لكثير من الألعاب الإنتاجية فهو مشكلة. تعدّد اللاعبين والتوازن التنافسي وإعادات التشغيل وتطور المهارة والحفظ/التحميل، كلها تعتمد على انتقالات حالة موثوقة. يمكن جعل نموذج العالم أكثر قابلية للتكرار، لكن اللعبة الإنتاجية ستظل بحاجة إلى طبقة منطق حتمية أو نظام حالة لضمان السلوك الذي يتوقعه اللاعبون والمطوّرون.

هل هي لعبة، أم تنبؤ بالفيديو بلوحة مفاتيح؟

أحدّ نقد هو أن هذه الأنظمة لا تحاكي عوالم بالمعنى التقليدي لمحرك الألعاب؛ بل تولّد امتدادات بصرية معقولة وتتيح لك توجيهها. محرك اللعبة يرمّز القواعد؛ نموذج العالم يرمّز المعقولية. وصفها أحد المعلّقين في سلسلة GameNGen على Hacker News بأنها "أقل ضغط فيديو كفاءة في العالم"، وكاستفزاز فإنها تصيب: فقد حفظ النموذج فعليًا توزيعًا على لقطات اللعب وهو يستوفي خلاله استجابةً لمدخلاتك. هناك اختبار نظيف لهذا، في المربّع الجانبي أدناه.

علامة "الانحراف عند الوقوف ساكنًا". لو كان نموذج العالم يحسب عالمًا فعلًا، لأنتج لاعب بلا حركة صورة مستقرة: لا شيء يتغيّر، فلا ينبغي أن يتغيّر شيء. في الأنظمة الأضعف أو المبكرة للتنبؤ بالإطارات، حتى الوقوف ساكنًا قد يكشف الانحراف: تفاصيل صغيرة تتحرّك لأن النموذج يتنبأ بالإطار المعقول التالي بدلًا من العرض من حالة عالم ثابتة قابلة للفحص. تلك هي العلامة. قد يبدو المشهد مستقرًا لبعض الوقت، لكن النظام ما زال يولّد الاستمرارية لا يقرؤها من محرك تقليدي.

الفكرة الرئيسية: حدود الحتمية والديمومة مشكلات معمارية، لا قضايا سيحلّها التوسّع الخام بمفرده. أي نظام يحتاج إلى عالم موثوق قابل للتكرار والحفظ سيظل بحاجة إلى طبقة منطق حتمية أو نظام ذاكرة/حالة صريح أو تصميم محرك هجين لا توفّره مقاربات توليد الإطارات الحالية بمفردها.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

كم تكلّف فعليًا للتشغيل

التوليد في الوقت الحقيقي مكلف، والأرقام البارزة تخفي الكثير. تبدو عبارة GameNGen "TPU واحد" رخيصة حتى تتذكّر أنه يحاكي DOOM بدقة 320×240، لا لعبة حديثة عالية الدقة. عرض Oasis الأصلي عمل في الوقت الحقيقي على بنية تحتية من فئة H100، وOasis 3 الأحدث من Decart يجعل الاقتصاد أكثر ملموسية. تضع Decart نموذج Oasis 3 كنموذج عالم تفاعلي متاح عبر API للذكاء الاصطناعي الفيزيائي، و ذكرت TechCrunch تسعير الوصول للمعاينة بـ$0.02 للثانية، أو $1.20 لجلسة مدتها 60 ثانية. ذلك مفيد لسير عمل الاختبار والمحاكاة والبحث، لكنه ما زال نموذج تكلفة مختلفًا جدًا عن شحن عميل لعبة عادي.

لوضع المقياس على ذلك: التوليد في الوقت الحقيقي للعالم ما زال مكلفًا، لكن صورة العتاد تتحرك بسرعة. تبلّغ بعض الأنظمة البحثية المفتوحة الآن عن توليد في الوقت الحقيقي أو قريب منه على وحدات GPU مفردة من فئة H100، بينما تبقى الأنظمة الرائدة الموجَّهة للمستهلك مستضافة في السحابة وغير معلَنة في الغالب. النقطة الثابتة ليست "GPU واحد لن يستطيع ذلك أبدًا"؛ بل أن توليد العالم بجودة إنتاجية وكمون منخفض ودقة عالية ما زال مشكلة بنية تحتية جدية.

النقطة المقابلة هي أن الأرضية تنخفض بسرعة، والمستوى مفتوح المصدر حقيقي. تدرّب DIAMOND في نحو 12 يومًا على RTX 4090 واحد، ووفقًا لـ صفحة المشروع الرسمية، يمكن لعبه بنحو 10 FPS على RTX 3090. وMineWorld وMatrix-Game قابلان للتشغيل علنًا. فبينما تظل أكثر العروض إبهارًا معتمدة على بنية تحتية متخصصة ومكلفة، يستطيع مطوّر فضولي بالفعل تشغيل بعض تجارب نماذج العالم الحقيقية على عتاد متاح. كلا الأمرين صحيح في آن: التفاعل بجودة رائدة مكلف، ونقطة الدخول للتجريب حقيقية بالفعل.

إذًا هل سيحل الذكاء الاصطناعي محل Unity وUnreal؟

ليس على المدى القريب، والسبب هو الحدود أعلاه، لا نقص الاستثمار. أخذت السوق هذا على محمل الجد. طرحت Google نموذج Project Genie للمشتركين في Google AI Ultra في الولايات المتحدة في 29 يناير 2026، وفي اليوم التالي تراجعت عدة أسهم ألعاب بحدّة: ذكرت The Verge أن Unity هبط 24.22% وRoblox هبط 13.17% وTake-Two هبط 7.93% عند إغلاق يوم الجمعة. ظهر القلق أيضًا داخل الصناعة: استطلاع GDC لعام 2026 وجد أن 52% من محترفي الألعاب يرون أن للذكاء الاصطناعي التوليدي أثرًا سلبيًا على الألعاب، صعودًا من 30% في العام السابق. لكن تحركات الأسهم وقلق الاستطلاع هي ردود فعل على عرض توضيحي. المعمارية هي ما يحدّد الجدول الزمني الفعلي.

بقراءة المسار كما هو، وهذه قراءتي لا توقّع مستقر، فإن السنوات 1-3 المقبلة على الأرجح ستبقي نماذج العالم في النماذج البحثية الأولية وبنية المحاكاة التحتية وتدريب الروبوتات/الذكاء الاصطناعي الفيزيائي والعروض الضيقة الموجَّهة للمستهلك بدلًا من الألعاب التجارية الكاملة. أما المسار المعقول لـ3-7 سنوات فهو هجين لا استبدال: نموذج عالم يتولى التوليد البصري يجلس فوق آلة حالة حتمية خفيفة تحمل منطق اللعبة الفعلي. ذلك تعزيز. المسار شديد الانحدار بما يكفي (DOOM بدقة 320p إلى 720p-من-النص في نحو عام) لدرجة أن التوقعات الواثقة بعيدة المدى غير حكيمة، لذا لن أقدّم واحدًا.

التفصيلة التي تعيد صياغة السؤال كله: تربط DeepMind نماذج العالم بتدريب الوكلاء وأبحاث AGI، بينما يعرض Project Genie التقنية نفسها كنموذج أولي لإنشاء العوالم موجَّه للمستهلك. وOasis 3 من Decart موجَّه بشكل أكثر صراحةً نحو الروبوتات والمركبات ذاتية القيادة ومحاكاة الذكاء الاصطناعي الفيزيائي. الألعاب الاستهلاكية مهمة للقصة، لكن الجذب التجاري على المدى القريب قد يأتي من المحاكاة والتدريب والنمذجة الأولية أولًا.

الأسئلة الشائعة

ما الفرق بين نموذج العالم ومحرك اللعبة؟

محرك اللعبة يرمّز قواعد صريحة ويخزّن حالة اللعبة كبيانات: فهو حتمي وقابل للفحص وقابل للتنقيح. أما نموذج العالم مثل GameNGen فيتنبأ بإطارات تالية معقولة من الإطارات الأخيرة بالإضافة إلى مدخلاتك، من دون الحالة والقواعد ومتغيرات الكائنات على نمط المحرك التقليدي التي يفحصها المطوّرون ويتحكمون بها عادةً. المحرك يحسب العالم؛ نموذج العالم يخمّنه. لهذا السبب يكون أحدهما قابلًا للتكرار والآخر لا.

كيف يعمل GameNGen؟

يشغّل GameNGen لعبة DOOM في ثلاث خطوات عريضة. أولًا، يلعب وكيل تعلّم معزّز آلاف جلسات DOOM، مسجَّلة كإطارات مقترنة بالأفعال. ثانيًا، تتعلّم نسخة معدّلة من Stable Diffusion v1.4 التنبؤ بالإطار التالي مشروطًا بالإطارات الماضية بالإضافة إلى مدخلات اللاعب. ثالثًا، يُقلَّص الاستدلال إلى 4 خطوات إزالة تشويش، فينتج نحو 20 FPS على TPU واحد بدقة 320×240.

لماذا يستمر العالم في Oasis في التغيّر عندما تستدير؟

في عرض Oasis الأصلي الشبيه بـMinecraft، كان العالم قد يتغيّر عندما تستدير لأن النظام لم يحفظ حالة عالم تقليدية على نمط المحرك. كان يولّد المنظر التالي من السياق البصري الأخير والأولويات المتعلَّمة، فقد تعود الكائنات خارج الرؤية بصيغة مغيَّرة. تضيف الأنظمة الأحدث آليات ذاكرة واتساق أقوى، لكن ذلك "منطق الحلم" الأصلي هو بالضبط ما جعل القيد سهل الملاحظة.

كم يمكن لعالم لعبة مولَّد بالذكاء الاصطناعي أن يبقى متسقًا قبل أن ينحرف؟

ذلك يعتمد على النموذج. غالبًا ما تنحرف الأنظمة المبكرة خلال ثوانٍ إلى عشرات الثواني، لكن الأنظمة الأحدث توسّع ذلك الأفق. يملك GameNGen ما يزيد قليلًا عن 3 ثوانٍ من السياق المباشر لكنه يستطيع البقاء مستقرًا عبر لعب أطول من خلال إرشادات متعلَّمة. عرض Genie 2 في الغالب أمثلة من 10-20 ثانية وحتى دقيقة في بعض الحالات. يرفع Genie 3 الادعاء إلى بضع دقائق بدقة 720p/24fps، ويبلّغ Matrix-Game 3.0 عن اتساق ذاكرة يمتد لدقيقة. المشكلة غير المحلولة ليست المقاطع القصيرة؛ بل هي حالة العالم الدائمة القابلة للفحص والحفظ.

هل سيحل الذكاء الاصطناعي محل محركات الألعاب مثل Unity أو Unreal؟

ليس على المدى القريب. العوائق معمارية أكثر منها مجرد مشكلة حجم: الألعاب الإنتاجية تحتاج إلى حالة دائمة ومنطق موثوق وسلوك حتمي ودلالات حفظ/تحميل. التوسّع يساعد الجودة والاتساق، لكنه لا يخلق بمفرده حلقة لعبة تقليدية. المسار المعقول هو هجين: نموذج عالم يولّد العناصر البصرية فوق محرك حتمي لمنطق اللعبة، وهو تعزيز لا استبدال. تقدّم DeepMind نماذج العالم كمهمة لتدريب الوكلاء وأبحاث AGI، بينما يُظهر Project Genie أيضًا التقنية كنموذج أولي لإنشاء العوالم موجَّه للمستهلك. وOasis 3 من Decart هو المثال الأنظف لنموذج موجَّه صراحةً نحو الروبوتات والمركبات ذاتية القيادة ومحاكاة الذكاء الاصطناعي الفيزيائي.

هل يمكنك لعب أي من هذه الألعاب المولَّدة بالذكاء الاصطناعي الآن؟

نعم، عدة منها. كان لـOasis الأصلي من Decart عرض ويب علني شبيه بـMinecraft، وOasis 3 Preview الأحدث منه متاح الآن عبر API لتجارب نماذج العالم في الوقت الحقيقي. وأصبح Project Genie من Google أيضًا متاحًا لمشتركي Google AI Ultra في الولايات المتحدة في يناير 2026. أما المستوى مفتوح المصدر، فيمكن تنزيل DIAMOND وMineWorld وتشغيلهما على وحدات GPU استهلاكية، مع تبليغ DIAMOND بنحو 10 FPS على RTX 3090.

ألعاب بلا محرك ألعاب: كيف تولّد نماذج الذكاء الاصطناعي عوالم قابلة للّعب