Як ШІ створює ігри без ігрового рушія (GameNGen, Genie 3)

У 2024 році команда Google Research і Google DeepMind показала, що нейронна модель здатна симулювати придатний для гри DOOM зі швидкістю понад 20 кадрів за секунду, не запускаючи під собою оригінальний ігровий рушій. Не було жодного звичного циклу рушія, який би явно зберігав координати, фізичні об'єкти, змінні здоров'я чи стан карти у звичний спосіб. Натомість GameNGen навчилася виводити наступний кадр з нещодавніх кадрів і дій гравця, включно з візуальними підказками, такими як здоров'я, патрони, вороги, двері та стіни. Система, названа GameNGen, є модифікованою версією Stable Diffusion (тієї самої моделі, що генерує зображення з тексту), і вона грає в DOOM, «галюцинуючи» кожен наступний кадр з попередніх кадрів плюс будь-яка клавіша, яку ви щойно натиснули.

Це принципово інша річ, ніж «ШІ всередині ігрового рушія». Коли студія використовує ШІ для генерації текстур або написання діалогів NPC в Unity, рушій усе ще там і виконує справжню роботу. У GameNGen немає рушія. Модель is і є грою. І це початок справжнього рубежу, який заголовки раз у раз тлумачать хибно. GameNGen з'явилася в дослідницькому треку ICLR, DIAMOND вийшла на NeurIPS 2024, а компанії на кшталт Google DeepMind, Microsoft Research, Decart і Skywork AI тепер виводять цю ідею зі статей у демоверсії, API та системи з відкритим кодом.

Ось що ці системи насправді роблять, як працює передбачення наступного кадру, чому узгодженість і пам'ять усе ще руйнуються за тривалішої взаємодії, скільки вони коштують у роботі та чи прийдуть вони на зміну Unity. Коротка відповідь на останнє питання — ні, принаймні не в тому сенсі, який натякає галас. Причина архітектурна: більше обчислень допомагає, але саме по собі це не створює стійкого стану, детермінованої логіки чи придатного для налагодження ігрового циклу.

Коротко

Ці моделі передбачають кадри; вони не симулюють правила. Ігровий рушій обчислює наступний стан з логіки та збережених змінних. Світова модель на кшталт GameNGen чи Oasis вгадує наступне зображення з попередніх кадрів плюс ваш ввід. Вона не виконує традиційну симуляцію ігрового рушія з явним станом об'єктів, фізичним кодом і придатними для перевірки змінними; вона генерує наступне спостереження через навчену модель.
Їхня узгодженість усе ще обмежена пам'яттю та контекстом, але межа вже не така проста, як «усе ламається за кілька секунд». GameNGen має трохи більше за 3 секунди прямої історії кадрів, проте може лишатися візуально стабільною на довших траєкторіях завдяки навченим евристикам. Genie 2 зазвичай показувала приклади на 10-20 секунд і подеколи могла зберігати деталі поза полем зору, тоді як Genie 3 розширює узгодженість до кількох хвилин у 720p/24fps. Основна слабкість лишається: ці системи поки що не забезпечують стійкого, придатного для перевірки та збереження стану, на який покладаються комерційні ігри.
Вони не є природно детермінованими так, як цього потребують комерційні ігри. Ви можете обмежити семплування чи зафіксувати seed-и, але це все одно не дає вам чистих, придатних для перевірки оновлень стану звичайного рушія. Мультиплеер, конкурентний баланс, повтори, прогресія навичок і збереження/завантаження — усе це залежить від надійних переходів стану. Генератор кадрів може наблизитися до такої поведінки, але комерційній грі все одно знадобився б детермінований шар логіки під ним або поряд із ним.
DeepMind подає світові моделі як основу для тренування та оцінювання агентів ШІ в насичених симульованих середовищах, тоді як Project Genie демонструє ту саму технологію в орієнтованому на споживача прототипі для створення світів. Новіша Oasis 3 від Decart ще виразніше націлена на фізичний ШІ, робототехніку та симуляцію автономного транспорту. Це переосмислює питання «чи прийде це на зміну Unity?»: найсерйознішим ринком найближчим часом може бути тренування агентів і симуляція, а не готові споживчі ігри.

Чого ця стаття не охоплює

Кілька суміжних тем затягують у ту саму розмову, і їм тут не місце:

DLSS, FSR, апскейлінг і генерація кадрів. Це ШІ, що замінює окремі етапи of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Детальна методологія навчання з підкріпленням застосована для збору навчальних даних. Я опишу її на концептуальному рівні; повний рецепт є в статтях.
Хостинг ігрових серверів і налаштування інфраструктури. Це пояснення того, як працюють моделі, а не посібник із розгортання.

Що люди мають на увазі під «ігровим рушієм на ШІ» (і яким є цей)

Фраза «ігровий рушій на ШІ» причеплюється до трьох цілком різних речей, і більшість плутанини довкола цієї теми виникає від змішування їх в одне. Ця стаття саме про одну з них: модель, яка передбачає кожен кадр і повністю замінює рушій. Не інструменти ШІ, прикручені до традиційного рушія, і не інструмент, який будує 3D-середовища, які ви потім завантажуєте в рушій.

Три значення, простими словами:

Інструменти ШІ всередині традиційного рушія. Генерація ассетів, синтез текстур, дерева поведінки NPC, написання діалогів: усе працює всередині Unity чи Unreal. Рушій усе ще рендерить кадри, виконує фізику й тримає стан. ШІ — помічник у конвеєрі контенту. Саме про це насправді йдеться в більшості результатів пошуку за «ігровим рушієм на ШІ», і це не предмет цієї статті.
Авторські генератори 3D-простору. World Labs, співзаснована Fei-Fei Li, пропонує Marble, інструмент, який створює стійкі 3D-середовища, доступні для завантаження, з тексту, зображень, відео чи інших вхідних даних. Що важливо, Marble ближчий до інструмента просторового створення контенту: він генерує стійкі 3D-світи, якими можна рухатися, які можна редагувати, завантажувати чи експортувати в подальші робочі процеси. Це робить його відмінним від GameNGen, Oasis чи систем у стилі Genie, де сам ігровий досвід виробляється наживо через покадрову генерацію.
Світові моделі, що замінюють рушій. GameNGen, Oasis, родина Genie, DIAMOND, MineWorld, Matrix-Game. Вони генерують придатні для гри спостереження безпосередньо, замість того щоб завантажувати звичайну авторську сцену в Unity чи Unreal. Деякі новіші системи додають механізми пам'яті та узгодженості, але вони все одно не надають стійкої, придатної для перевірки, керованої розробником моделі стану традиційного ігрового рушія. Це і є предмет тут.

Швидке правило для будь-якої статті, що ви читаєте: якщо система видає файл, який ви завантажуєте в Unity, це категорія 1 чи 2. Якщо система is і є тим, у що ви граєте, з кадрами, що генеруються наживо, це категорія 3: світова модель.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Як модель генерує гру без рушія

Світова модель вивчає, як гра виглядає в русі, а потім передбачає наступний кадр, зумовлений нещодавніми кадрами плюс поточний ввід гравця. На відміну від традиційного рушія, вона не надає чистих змінних на кшталт «двері відчинені», «цей ворог мертвий» чи «гравець у координаті X». У ранніх системах передбачення кадрів модель здебільшого вивчає, що за певними вводами зазвичай ідуть певні візуальні стани. Гра — це просто запуск цього навченого циклу передбачення достатньо швидко, щоб він відчувався інтерактивним.

GameNGen — найчистіший пророблений приклад, бо стаття викладає кожен крок. Конвеєр працює у дві фази. Спершу агент навчання з підкріпленням грає тисячі сесій DOOM, і кожна сесія записується як потік кадрів у парі з діями, що їх породили. Далі модифіковану Stable Diffusion v1.4 тренують на цих даних передбачати наступний кадр за попередніми кадрами та дією гравця. Дія вбудовується прямо в зумовлення, і це той трюк, що робить її грою, а не просто генератором відео. Ваше натискання клавіші є частиною підказки для наступного зображення.

Найскладніше — швидкість. Звичайна дифузійна модель робить від 20 до 50 кроків знешумлення, щоб перетворити шум на зображення, що надто повільно для гри в реальному часі. GameNGen скорочує це до 4 кроків знешумлення, доводячи загальний інференс приблизно до 50 мілісекунд на кадр: достатньо швидко для 20 FPS на одному TPU за рідної роздільної здатності DOOM 320×240. Люди-оцінювачі могли лише трохи краще за випадкове вгадування відрізнити короткі кліпи симуляції від справжніх кадрів DOOM.

Більшість систем у цій царині потрапляють до перетинних архітектурних шаблонів:

Дифузійні системи (GameNGen, Oasis, DIAMOND, Genie 2): починають із шуму й ітеративно знешумлюють його до наступного кадру. Вони можуть давати потужну візуальну якість на короткому горизонті, але потребують трюків зі швидкістю, щоб працювати інтерактивно.
Авторегресійні системи (MineWorld): передбачають майбутні кадри чи токени послідовно, ближче до того, як мовна модель передбачає текст. MineWorld жертвує частотою кадрів заради точнішого слідування за діями, виходячи приблизно на 4-7 FPS.
Гібриди з доповненою пам'яттю та керуванням (Matrix-Game 2.0/3.0 і новіші системи): поєднують генерацію в реальному часі із зумовленням діями, керуванням камерою та явними механізмами пам'яті, щоб зменшити дрейф на довгому горизонті.

Одна деталь важлива для наступного розділу. Під час тренування GameNGen навмисно додає шум до минулих кадрів, на які зумовлюється. Це змушує модель навчитися виправляти власні помилки, замість того щоб накопичувати їх, — пом'якшення проблеми дрейфу. Це допомагає. Але не розв'язує її.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Родовід: від Genie 1 до Genie 3 за два роки

Найбільш вражаюче в цій царині — це нахил кривої. У лютому 2024 року Genie 1 генерувала керовані 2D-платформери в 256×256. Через вісімнадцять місяців Genie 3 генерувала прохідні 3D-світи з текстової підказки в 720p і 24 FPS. Саме на цю траєкторію варто звертати увагу: не на будь-яку окрему демоверсію, а на темп змін між ними.

Якщо читати це як одну послідовність, історія така. Genie 1 (DeepMind, ICML 2024) довела, що можна вивчати інтерактивні середовища з немаркованого відео. GameNGen (Google, ICLR 2025) показала, що та сама ідея здатна запустити справжню, динамічну гру (DOOM) у реальному часі. Oasis (Decart, жовтень 2024) перенесла це в Minecraft і зробила публічно доступним для гри. Genie 2 (DeepMind, грудень 2024) перейшла до 3D-світів, згенерованих з одного зображення. DIAMOND (NeurIPS 2024) зробила підхід відкритим і придатним до запуску на споживчому GPU. GameGen-X та MineWorld (Microsoft, 2025) просунули відкриту екосистему далі. Genie 3 (серпень 2025; публічна як Project Genie у січні 2026) досягла 3D у реальному часі з тексту. Matrix-Game 2.0 просунула відкриту потокову генерацію в реальному часі до 25 FPS, а Matrix-Game 3.0 атакувала проблему пам'яті пряміше, із архітектурою пам'яті на довгому горизонті.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Специфікації основних систем — у таблиці нижче; суть оповіді в дузі, а не в цифрах.

Система	Розробник	Рік	Підхід	Роздільна здатність / FPS	Відкритий код?	Джерело
Genie 1	Google DeepMind	2024	Латентна дія	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Частково (500M ckpt)	Проєкт
Oasis 3	Decart	2026	Інтерактивна світова модель з доступом через API для фізичного ШІ	Прев'ю API в реальному часі	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Авторегресійна латентна дифузія	Н/Д	No	DeepMind
DIAMOND	Женева / Единбург / MSR	2024	Diffusion	Atari / CS:GO	Так (MIT)	arXiv
GameGen-X	Академічна	2024	Diffusion transformer	Н/Д	Так	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	Так	arXiv
Genie 3	Google DeepMind	2025	Універсальна світова модель реального часу	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Кількакрокова авторегресійна дифузія	25 FPS на одному H100	Так	Проєкт
Matrix-Game 3.0	Skywork AI	2026	Інтерактивна світова модель з доповненою пам'яттю	До 40 FPS у 720p з моделлю на 5B	Так	Проєкт / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Чому ці світи розпадаються

Ці системи все ще ламаються чотирма важливими способами, але режим відмови — це не просто «недостатньо обчислень». Більше GPU може покращити роздільну здатність, затримку та масштаб моделі, але узгодженість комерційного рівня потребує кращої пам'яті, відстеження стану та архітектури керування. Модель, що передбачає правдоподібні кадри, — це не те саме, що рушій з явними правилами, придатними для перевірки змінними, детермінованими оновленнями стану та семантикою збереження/завантаження. Кожне обмеження нижче — це те, що модель не може зробити структурно, а не те, у чому вона ще недостатньо набила руку.

Немає стійкого стану світу

Ці системи не надають змінних так, як це робить традиційний рушій. Звичайний рушій зберігає світ як дані: ця скриня відкрита, цей ворог мертвий, гравець у координаті (412, 88). У ранніх системах передбачення кадрів немає стійкого стану рушія в цьому ігроробницькому сенсі. Модель здебільшого покладається на нещодавній візуальний контекст і навчені пріори, тож об'єкти можуть змінюватися, зникати чи знову з'являтися неправильно, щойно вони залишають поле зору. Новіші системи додають явні механізми пам'яті та узгодженості, але вони все одно не надають того чистого, придатного для налагодження стану світу, який традиційний рушій дає розробникам.

У слабкіших чи ранніх системах передбачення кадрів скриня, яку ви відкрили, може знову з'явитися зачиненою, монстр, якого ви вбили, може повернутися, а споруда, яку ви збудували, може розчинитися, щойно вона залишить кадр. Гравці описували оригінальну демоверсію Oasis як таку, що має «логіку сну»: ви повертаєтеся — і можете не повернутися рівно в те саме місце. Новіші системи намагаються зменшити цю проблему сильнішими механізмами пам'яті та узгодженості, але розрив лишається: вони все одно не надають традиційного, придатного для перевірки шару ігрового стану.

Стеля контекстного вікна

Узгодженість обмежена дизайном пам'яті моделі, а не лише сирою візуальною якістю. GameNGen використовує коротку пряму історію кадрів, але все одно повідомляє про стабільні багатохвилинні ігрові сесії завдяки навченому виправленню. Genie 2 ввела видимі приклади пам'яті на довгому горизонті й підтримувала узгодженість до хвилини, причому більшість прикладів тривали 10-20 секунд. Genie 3 розширює безперервну взаємодію до кількох хвилин, а Matrix-Game 3.0 атакує проблему прямо, з пам'яттю на довгому горизонті. Нерозв'язане питання — не «чи може модель протривати більше за кілька секунд?». Воно в тому, чи може вона зберігати надійний, придатний для перевірки та збереження стан світу впродовж тривалості та складності справжньої гри.

Стохастична, не детермінована

Вивід за замовчуванням імовірнісний. Запустіть ту саму конфігурацію двічі — і ви можете отримати різні кадри, якщо система не сильно обмежена. Для художнього інструмента це може бути корисним; для багатьох комерційних ігор це проблема. Мультиплеер, конкурентний баланс, повтори, прогресія навичок і збереження/завантаження — усе це залежить від надійних переходів стану. Світову модель можна зробити повторюванішою, але комерційній грі все одно знадобився б детермінований шар логіки чи система стану, щоб гарантувати поведінку, якої очікують гравці та розробники.

Це гра чи передбачення відео з клавіатурою?

Найгостріша критика полягає в тому, що ці системи не симулюють світи в традиційному ігроробницькому сенсі; вони генерують правдоподібні візуальні продовження й дають вам ними керувати. Ігровий рушій кодує правила; світова модель кодує правдоподібність. Один коментатор у гілці GameNGen на Hacker News назвав це «найменш ефективним у світі стисненням відео», і як провокація це влучає: модель фактично запам'ятала розподіл по записах геймплею й інтерполює крізь нього у відповідь на ваш ввід. Для цього є чистий тест, у врізці нижче.

Ознака «дрейф, коли стоїш на місці». Якби світова модель справді обчислювала світ, нерухомий гравець мав би давати стабільне зображення: ніщо не змінюється, тож ніщо не повинно змінюватися. У слабкіших чи ранніх системах передбачення кадрів навіть стояння на місці може виявити дрейф: дрібні деталі зсуваються, бо модель передбачає наступний правдоподібний кадр, а не рендерить із фіксованого, придатного для перевірки стану світу. Це і є ознака. Сцена може якийсь час виглядати стабільною, але система все одно генерує безперервність, а не зчитує її зі звичайного рушія.

Ключовий висновок: межі детермінованості та стійкості — це архітектурні проблеми, а не питання, які сире масштабування розв'яже само собою. Будь-якій системі, що потребує надійного, повторюваного, придатного для збереження світу, все одно потрібен детермінований шар логіки, явна система пам'яті/стану чи гібридний дизайн рушія, яких нинішні підходи генерації кадрів самі по собі не дають.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Скільки це насправді коштує в роботі

Генерація в реальному часі коштує дорого, і гучні цифри багато чого приховують. «Один TPU» у GameNGen звучить дешево, доки ви не згадаєте, що вона симулює DOOM у 320×240, а не сучасну гру високої роздільної здатності. Оригінальна демоверсія Oasis працювала в реальному часі на інфраструктурі класу H100, а новіша Oasis 3 від Decart робить економіку конкретнішою. Decart позиціонує Oasis 3 як інтерактивну світову модель з доступом через API для фізичного ШІ, і TechCrunch повідомив про ціни доступу до прев'ю на рівні $0.02 за секунду, або $1.20 за 60-секундну сесію. Це корисно для тестування, симуляції та дослідницьких робочих процесів, але це все одно дуже інша цінова модель, ніж випуск звичайного ігрового клієнта.

Щоб додати масштабу: генерація світу в реальному часі все ще коштує дорого, але картина з апаратним забезпеченням швидко змінюється. Деякі відкриті дослідницькі системи тепер повідомляють про генерацію в реальному чи майже реальному часі на окремих GPU класу H100, тоді як передові споживчі системи лишаються хмарними й часто нерозкритими. Тверда теза не в тому, що «один GPU ніколи цього не зможе»; вона в тому, що генерація світу комерційної якості з низькою затримкою та високою роздільною здатністю все ще є серйозною інфраструктурною проблемою.

Контраргумент у тому, що нижня планка швидко падає, а рівень відкритого коду реальний. DIAMOND навчалася приблизно 12 днів на одній RTX 4090 і, згідно з її офіційною сторінкою проєкту, у неї можна грати приблизно на 10 FPS на RTX 3090. MineWorld і Matrix-Game публічно придатні до запуску. Тож, хоча найвражаючіші демоверсії все ще залежать від спеціалізованої, дорогої інфраструктури, допитливий розробник уже може запустити кілька справжніх експериментів зі світовими моделями на доступному обладнанні. Обидві речі правдиві водночас: взаємодія передової якості коштує дорого, а точка входу для експериментів уже реальна.

То чи замінить ШІ Unity та Unreal?

Не найближчим часом, і причина — це межі вище, а не брак інвестицій. Ринок поставився до цього серйозно. Google розгорнула Project Genie для передплатників Google AI Ultra у США 29 січня 2026 року, і наступного дня кілька ігрових акцій різко обвалилися: The Verge повідомив про падіння Unity на 24.22%, Roblox на 13.17% і Take-Two на 7.93% на закритті в п'ятницю. Тривога проявилася й усередині індустрії: опитування GDC 2026 року виявило, що 52% ігрових професіоналів вважали, що генеративний ШІ негативно впливає на ігри, проти 30% попереднього року. Але рухи акцій і тривога в опитуванні — це реакції на демоверсію. Архітектура — ось що задає справжній графік.

Читаючи траєкторію в її нинішньому вигляді — і це моє прочитання, а не усталений прогноз, — наступні 1-3 роки, ймовірно, втримають світові моделі в дослідницьких прототипах, інфраструктурі симуляції, тренуванні робототехніки/фізичного ШІ та вузьких споживчих демоверсіях, а не в повноцінних комерційних іграх. Правдоподібний шлях на 3-7 років — гібрид, а не заміна: світова модель, що відповідає за візуальну генерацію, сидить поверх легкого детермінованого скінченного автомата, який тримає власне ігрову логіку. Це доповнення. Траєкторія достатньо крута (DOOM у 320p до 720p-з-тексту приблизно за рік), щоб упевнені довгострокові прогнози були нерозсудливими, тож я його не робитиму.

Деталь, що переосмислює все питання: DeepMind прив'язує світові моделі до тренування агентів і дослідження AGI, тоді як Project Genie демонструє ту саму технологію як орієнтований на споживача прототип для створення світів. Oasis 3 від Decart ще виразніше націлена на робототехніку, автономний транспорт і симуляцію фізичного ШІ. Споживчі ігри важливі для цієї історії, але найближчим часом комерційний попит може прийти спершу з симуляції, тренування та прототипування.

Часті запитання

Яка різниця між світовою моделлю та ігровим рушієм?

Ігровий рушій кодує явні правила й зберігає ігровий стан як дані: він детермінований, придатний для перевірки та налагодження. Світова модель на кшталт GameNGen передбачає правдоподібні наступні кадри з нещодавніх кадрів плюс ваш ввід, без традиційного стану, правил і змінних об'єктів у стилі рушія, які розробники зазвичай перевіряють і контролюють. Рушій обчислює світ; світова модель його вгадує. Ось чому одне повторюване, а інше — ні.

Як працює GameNGen?

GameNGen запускає DOOM у три загальні кроки. Спершу агент навчання з підкріпленням грає тисячі сесій DOOM, записаних як кадри в парі з діями. Далі модифікована Stable Diffusion v1.4 навчається передбачати наступний кадр, зумовлений минулими кадрами плюс ввід гравця. Зрештою інференс скорочується до 4 кроків знешумлення, даючи приблизно 20 FPS на одному TPU в 320×240.

Чому світ у Oasis постійно змінюється, коли ви обертаєтеся?

В оригінальній схожій на Minecraft демоверсії Oasis світ міг змінюватися, коли ви оберталися, бо система не зберігала традиційного стану світу в стилі рушія. Вона генерувала наступний вигляд з нещодавнього візуального контексту та навчених пріорів, тож об'єкти поза полем зору могли повертатися у зміненій формі. Новіші системи додають сильніші механізми пам'яті та узгодженості, але саме та оригінальна «логіка сну» й робила це обмеження легко помітним.

Як довго згенерований ШІ ігровий світ може лишатися узгодженим, перш ніж почне дрейфувати?

Це залежить від моделі. Ранні системи часто дрейфують у межах від секунд до десятків секунд, але новіші системи розширюють цей горизонт. GameNGen має трохи більше за 3 секунди прямого контексту, проте може лишатися стабільною впродовж довшого геймплею завдяки навченим евристикам. Genie 2 здебільшого показувала приклади на 10-20 секунд і до хвилини в деяких випадках. Genie 3 піднімає заявку до кількох хвилин у 720p/24fps, а Matrix-Game 3.0 повідомляє про узгодженість пам'яті тривалістю в хвилину. Нерозв'язана проблема — не короткі кліпи; це стійкий, придатний для перевірки та збереження стан світу.

Чи замінить ШІ ігрові рушії на кшталт Unity чи Unreal?

Не найближчим часом. Перешкоди радше архітектурні, ніж суто питання масштабу: комерційним іграм потрібні стійкий стан, надійна логіка, детермінована поведінка та семантика збереження/завантаження. Масштабування допомагає якості та узгодженості, але саме по собі воно не створює традиційного ігрового циклу. Правдоподібний шлях — гібрид: світова модель, що генерує візуал поверх детермінованого рушія для ігрової логіки, що є доповненням, а не заміною. DeepMind подає світові моделі як важливі для тренування агентів і дослідження AGI, тоді як Project Genie також робить технологію видимою як орієнтований на споживача прототип для створення світів. Oasis 3 від Decart — чистіший приклад моделі, явно націленої на робототехніку, автономний транспорт і симуляцію фізичного ШІ.

Чи можна зараз пограти в якісь із цих згенерованих ШІ ігор?

Так, у кілька. У Decart була публічна схожа на Minecraft вебдемоверсія оригінальної Oasis, а її новіша Oasis 3 Preview тепер доступна через API для експериментів зі світовими моделями в реальному часі. Project Genie від Google також став доступним для передплатників Google AI Ultra у США в січні 2026 року. Щодо рівня відкритого коду, DIAMOND і MineWorld можна завантажити й запустити на споживчих GPU, причому для DIAMOND повідомляють про близько 10 FPS на RTX 3090.

Ігри без ігрового рушія: як моделі ШІ генерують ігрові світи