Как ИИ создаёт игры без игрового движка (GameNGen, Genie 3)

В 2024 году команда Google Research и Google DeepMind показала, что нейросетевая модель может симулировать играбельный DOOM со скоростью более 20 кадров в секунду, не запуская под капотом оригинальный игровой движок. Не было привычного цикла движка, который явно хранил бы координаты, физические объекты, переменные здоровья или состояние карты. Вместо этого GameNGen научился выводить следующий кадр из недавних кадров и действий игрока, включая визуальные подсказки вроде здоровья, патронов, врагов, дверей и стен. Эта система, названная GameNGen, представляет собой модифицированную версию Stable Diffusion (модель того же типа, что генерирует изображения из текста), и она играет в DOOM, галлюцинируя каждый следующий кадр из предыдущих кадров плюс той клавиши, которую вы только что нажали.

Это принципиально иное, чем «ИИ внутри игрового движка». Когда студия использует ИИ для генерации текстур или написания диалогов NPC в Unity, движок по-прежнему на месте и делает всю реальную работу. У GameNGen движка нет. Модель is и есть игра. И это начало настоящего рубежа, который заголовки раз за разом понимают неправильно. GameNGen появился через исследовательский трек ICLR, DIAMOND вышел на NeurIPS 2024, и такие компании, как Google DeepMind, Microsoft Research, Decart и Skywork AI, теперь продвигают эту идею из статей в демо, API и системы с открытым кодом.

Вот что эти системы на самом деле делают, как работает предсказание следующего кадра, почему связность и память по-прежнему ломаются при более долгом взаимодействии, во сколько они обходятся в работе и идут ли они на смену Unity. Короткий ответ на последний вопрос — нет, по крайней мере не так, как намекает шумиха. Причина архитектурная: больше вычислений помогает, но само по себе оно не создаёт устойчивого состояния, детерминированной логики или отлаживаемого игрового цикла.

Кратко

Эти модели предсказывают кадры, а не симулируют правила. Игровой движок вычисляет следующее состояние из логики и сохранённых переменных. Мировая модель вроде GameNGen или Oasis угадывает следующее изображение из предыдущих кадров плюс вашего ввода. Она не запускает традиционную симуляцию игрового движка с явным состоянием объектов, физическим кодом и инспектируемыми переменными; она генерирует следующее наблюдение через обученную модель.
Их связность по-прежнему ограничена памятью и контекстом, но предел уже не так прост, как «всё разваливается через несколько секунд». У GameNGen чуть больше 3 секунд прямой истории кадров, но за счёт обученных эвристик он может оставаться визуально стабильным на более длинных траекториях. Genie 2 обычно показывал примеры на 10-20 секунд и иногда мог сохранять детали вне поля зрения, тогда как Genie 3 доводит согласованность до нескольких минут при 720p/24fps. Ключевая слабость остаётся: эти системы пока не дают устойчивого, инспектируемого, сохраняемого состояния, на которое опираются коммерческие игры.
Они не являются детерминированными по своей природе так, как это нужно коммерческим играм. Можно ограничить сэмплинг или зафиксировать сиды, но это всё равно не даёт чистых, инспектируемых обновлений состояния обычного движка. Мультиплеер, соревновательный баланс, повторы, прогрессия навыков, сохранение и загрузка — всё это зависит от надёжных переходов состояний. Генератор кадров может приблизить такое поведение, но коммерческой игре всё равно понадобится детерминированный слой логики под ним или рядом с ним.
DeepMind подаёт мировые модели как основу для обучения и оценки ИИ-агентов в богатых симулированных средах, тогда как Project Genie показывает ту же технологию в потребительском прототипе создания миров. Более новый Oasis 3 от Decart ещё более явно нацелен на физический ИИ, робототехнику и симуляцию автономных автомобилей. Это переформулирует вопрос «идёт ли это на смену Unity?»: самый серьёзный рынок в ближайшей перспективе — это, возможно, обучение агентов и симуляция, а не готовые потребительские игры.

Чего эта статья не охватывает

Несколько соседних тем затягиваются в тот же разговор, но им здесь не место:

DLSS, FSR, апскейлинг и генерация кадров. Это ИИ, заменяющий отдельные этапы of a normal rendering pipeline; the engine is still running. That's a separate topic, neural rendering, and not what this article covers.
Подробная методология обучения с подкреплением, используемая для сбора обучающих данных. Я опишу её на концептуальном уровне; полный рецепт есть в статьях.
Хостинг игровых серверов и настройка инфраструктуры. Это объяснение того, как работают модели, а не руководство по развёртыванию.

Что люди имеют в виду под «ИИ-игровым движком» (и о каком из них речь)

Фраза «ИИ-игровой движок» приклеивается к трём совершенно разным вещам, и большая часть путаницы вокруг этой темы возникает от того, что их сваливают в кучу. Эта статья ровно об одной из них: о модели, которая предсказывает каждый кадр и полностью заменяет движок. Не об ИИ-инструментах, прикрученных к традиционному движку, и не об инструменте, который строит 3D-окружения, которые вы потом загружаете в движок.

Эти три значения, простыми словами:

ИИ-инструменты внутри традиционного движка. Генерация ассетов, синтез текстур, деревья поведения NPC, написание диалогов: всё это работает внутри Unity или Unreal. Движок по-прежнему рендерит кадры, считает физику и хранит состояние. ИИ — помощник в конвейере контента. Именно об этом на самом деле большинство результатов поиска по запросу «ИИ-игровой движок», и это не тема этой статьи.
Генераторы авторских 3D-пространств. World Labs, сооснователем которой является Fei-Fei Li, предлагает Marble, инструмент, создающий устойчивые, скачиваемые 3D-окружения из текста, изображений, видео или других входных данных. Принципиально важно, что Marble ближе к инструменту создания пространственного контента: он генерирует устойчивые 3D-миры, по которым можно перемещаться, которые можно редактировать, скачивать или экспортировать в дальнейшие рабочие процессы. Это отличает его от систем вроде GameNGen, Oasis или Genie, где сам играбельный опыт создаётся вживую через покадровую генерацию.
Мировые модели, которые заменяют движок. GameNGen, Oasis, семейство Genie, DIAMOND, MineWorld, Matrix-Game. Они генерируют играбельные наблюдения напрямую, а не загружают обычную авторскую сцену в Unity или Unreal. Некоторые более новые системы добавляют механизмы памяти и согласованности, но они всё равно не предоставляют устойчивую, инспектируемую, контролируемую разработчиком модель состояния традиционного игрового движка. Именно об этом здесь и речь.

Быстрое правило для любой статьи, которую вы читаете: если система выдаёт файл, который вы загружаете в Unity, это категория 1 или 2. Если система is и есть то, во что вы играете, с кадрами, генерируемыми вживую, это категория 3: мировая модель.

Infographic titled Three Meanings of AI Game Engine: category 1 is AI tools inside a traditional engine for assets, textures and NPC behavior; category 2 is authored 3D-space generators that export scenes; category 3 is world models that replace the engine and generate the interactive frame by frame. A banner notes this article is about category 3.

Как модель генерирует игру без движка

Мировая модель учится тому, как игра выглядит в движении, а затем предсказывает следующий кадр на основе недавних кадров плюс текущего ввода игрока. В отличие от традиционного движка, она не предоставляет чистых переменных вроде «дверь открыта», «этот враг мёртв» или «игрок в координате X». В ранних системах предсказания кадров модель в основном выучивает, что за определёнными вводами обычно следуют определённые визуальные состояния. Игра — это просто запуск этого выученного цикла предсказания достаточно быстро, чтобы он ощущался интерактивным.

GameNGen — самый чистый проработанный пример, потому что статья расписывает каждый шаг. Конвейер работает в две фазы. Сначала агент обучения с подкреплением играет в тысячи сессий DOOM, и каждая сессия записывается как поток кадров в паре с действиями, которые их породили. Затем модифицированная Stable Diffusion v1.4 обучается на этих данных предсказывать следующий кадр по предыдущим кадрам и действию игрока. Действие зашивается прямо в условие, и именно этот трюк делает её игрой, а не просто генератором видео. Ваше нажатие клавиши — часть промпта для следующего изображения.

Сложная часть — скорость. Обычная диффузионная модель делает от 20 до 50 шагов шумоподавления, чтобы превратить шум в изображение, что слишком медленно для игры в реальном времени. GameNGen сокращает это до 4 шагов шумоподавления, доводя суммарный инференс примерно до 50 миллисекунд на кадр: достаточно быстро для 20 FPS на одном TPU при родном разрешении DOOM 320×240. Люди-оценщики справлялись лишь чуть лучше случайного угадывания, когда пытались отличить короткие клипы симуляции от настоящих кадров DOOM.

Большинство систем в этой области попадают в перекрывающиеся архитектурные шаблоны:

Системы на основе диффузии (GameNGen, Oasis, DIAMOND, Genie 2): стартуют из шума и итеративно убирают шум, превращая его в следующий кадр. Они могут давать высокое визуальное качество на коротком горизонте, но им нужны трюки на скорость, чтобы работать интерактивно.
Авторегрессионные системы (MineWorld): предсказывают будущие кадры или токены последовательно, ближе к тому, как языковая модель предсказывает текст. MineWorld жертвует частотой кадров ради более точного следования действиям, выходя примерно на 4-7 FPS.
Гибриды с дополненной памятью и управлением (Matrix-Game 2.0/3.0 и более новые системы): сочетают генерацию в реальном времени с обусловливанием на действия, управлением камерой и явными механизмами памяти, чтобы снизить дрейф на длинном горизонте.

Одна деталь важна для следующего раздела. Во время обучения GameNGen намеренно добавляет шум к прошлым кадрам, на которые он опирается. Это вынуждает модель учиться исправлять собственные ошибки, а не накапливать их, что смягчает проблему дрейфа. Это помогает. Но это её не решает.

Diagram of how next-frame prediction works in five steps: recent frames, player input, the world model running denoising diffusion steps, the predicted next frame, and a prediction loop that repeats at real time for interactive speed.

Родословная: от Genie 1 к Genie 3 за два года

Самое поразительное в этой области — это крутизна наклона. В феврале 2024 года Genie 1 генерировал управляемые 2D-платформеры в разрешении 256×256. Восемнадцать месяцев спустя Genie 3 уже генерировал проходимые 3D-миры из текстового промпта в 720p и 24 FPS. Вот траектория, на которую стоит обратить внимание: не какое-то одно демо, а скорость изменений между ними.

Если читать это как одно развитие, история выглядит так. Genie 1 (DeepMind, ICML 2024) доказал, что интерактивные среды можно выучить из неразмеченного видео. GameNGen (Google, ICLR 2025) показал, что та же идея может в реальном времени запускать настоящую динамичную игру (DOOM). Oasis (Decart, октябрь 2024) перенёс её в Minecraft и сделал публично играбельной. Genie 2 (DeepMind, декабрь 2024) перешёл к 3D-мирам, генерируемым из единственного изображения. DIAMOND (NeurIPS 2024) сделал подход открытым и запускаемым на потребительском GPU. GameGen-X и MineWorld (Microsoft, 2025) продвинули открытую экосистему дальше. Genie 3 (август 2025; публично как Project Genie в январе 2026) достиг 3D в реальном времени из текста. Matrix-Game 2.0 довёл открытую потоковую генерацию в реальном времени до 25 FPS, а Matrix-Game 3.0 атаковал проблему памяти более напрямую, с архитектурой памяти на длинный горизонт.

This is, in a real sense, the other end of the neural-rendering trend. Neural rendering is AI replacing individual stages of the graphics pipeline (upscaling here, shading there) while the engine keeps running. World models are AI replacing the pipeline entirely. If you read the two together, neural rendering is the "AI eats the parts" story and this is the "AI eats the whole thing" story. Each is the other's logical next step.

Спецификации основных систем приведены в таблице ниже; смысл повествования в дуге, а не в цифрах.

Система	Разработчик	Год	Подход	Разрешение / FPS	Открытый код?	Источник
Genie 1	Google DeepMind	2024	Латентное действие	256×256	No	arXiv
GameNGen	Google	2024	Diffusion	320×240 / 20 FPS	No	arXiv
Oasis	Decart + Etched	2024	Diffusion (Forcing)	360p / 20 FPS	Частично (500M ckpt)	Project
Oasis 3	Decart	2026	Интерактивная мировая модель с доступом по API для физического ИИ	Превью API в реальном времени	No	Decart / TechCrunch
Genie 2	Google DeepMind	2024	Авторегрессионная латентная диффузия	Н/Д	No	DeepMind
DIAMOND	Geneva / Edinburgh / MSR	2024	Diffusion	Atari / CS:GO	Да (MIT)	arXiv
GameGen-X	Академический	2024	Diffusion transformer	Н/Д	Да	arXiv
MineWorld	Microsoft Research	2025	Autoregressive	4-7 FPS	Да	arXiv
Genie 3	Google DeepMind	2025	Универсальная мировая модель реального времени	720p / 24 FPS	No	DeepMind
Matrix-Game 2.0	Skywork AI	2025	Малошаговая авторегрессионная диффузия	25 FPS на одном H100	Да	Project
Matrix-Game 3.0	Skywork AI	2026	Мировая модель с дополненной памятью	До 40 FPS при 720p с моделью на 5B	Да	Project / arXiv

Timeline titled Rapid Evolution of Interactive World Models showing Genie 1 in 2024, GameNGen in 2024, Oasis in 2024, Genie 2 in 2024, DIAMOND in 2024, MineWorld in 2025, Genie 3 in 2025, and Matrix-Game 3.0 in 2026, illustrating the move from controllable 2D worlds to real-time 3D interactive generation in roughly two years.

Почему эти миры распадаются

Эти системы по-прежнему ломаются четырьмя важными способами, но режим отказа — это не просто «не хватает вычислений». Больше GPU могут улучшить разрешение, задержку и масштаб модели, но связности коммерческого уровня нужна лучшая память, отслеживание состояния и архитектура управления. Модель, предсказывающая правдоподобные кадры, — не то же самое, что движок с явными правилами, инспектируемыми переменными, детерминированными обновлениями состояния и семантикой сохранения/загрузки. Каждое ограничение ниже — это то, что модель не может сделать структурно, а не то, в чём она ещё недостаточно хороша.

Нет устойчивого состояния мира

Эти системы не предоставляют переменных так, как это делает традиционный движок. Обычный движок хранит мир как данные: этот сундук открыт, этот враг мёртв, игрок в координате (412, 88). В ранних системах предсказания кадров нет устойчивого состояния движка в этом смысле геймдева. Модель в основном опирается на недавний визуальный контекст и выученные априорные представления, поэтому объекты могут меняться, исчезать или некорректно появляться снова, как только они уходят из поля зрения. Более новые системы добавляют явные механизмы памяти и согласованности, но они всё равно не предоставляют того чистого, отлаживаемого состояния мира, которое традиционный движок даёт разработчикам.

В более слабых или ранних системах предсказания кадров сундук, который вы открыли, может снова появиться закрытым, монстр, которого вы убили, может вернуться, а постройка, которую вы возвели, может раствориться, как только уйдёт из кадра. Игроки описывали оригинальное демо Oasis как обладающее «логикой сна»: вы поворачиваетесь и можете вернуться не совсем в то же место. Более новые системы пытаются снизить эту проблему за счёт более сильных механизмов памяти и согласованности, но разрыв остаётся: они всё равно не предоставляют традиционного, инспектируемого слоя игрового состояния.

Потолок контекстного окна

Связность ограничена устройством памяти модели, а не только сырым визуальным качеством. GameNGen использует короткую прямую историю кадров, но всё же сообщает о стабильных игровых сессиях длиной в несколько минут за счёт выученной коррекции. Genie 2 ввёл наглядные примеры памяти на длинном горизонте и удерживал согласованность до минуты, при этом большинство примеров длились 10-20 секунд. Genie 3 доводит непрерывное взаимодействие до нескольких минут, а Matrix-Game 3.0 напрямую атакует проблему памятью на длинный горизонт. Нерешённый вопрос не в том, «может ли модель продержаться больше нескольких секунд?». Вопрос в том, может ли она сохранять надёжное, инспектируемое, сохраняемое состояние мира на протяжении длины и сложности настоящей игры.

Стохастична, а не детерминирована

Вывод по умолчанию вероятностный. Запустите одну и ту же настройку дважды — и можете получить разные кадры, если система не сильно ограничена. Для художественного инструмента это может быть полезно; для многих коммерческих игр это проблема. Мультиплеер, соревновательный баланс, повторы, прогрессия навыков, сохранение и загрузка — всё это зависит от надёжных переходов состояний. Мировую модель можно сделать более повторяемой, но коммерческой игре всё равно понадобится детерминированный слой логики или система состояний, чтобы гарантировать поведение, которого ждут игроки и разработчики.

Это игра или предсказание видео с клавиатурой?

Самая острая критика в том, что эти системы не симулируют миры в традиционном смысле игрового движка; они генерируют правдоподобные визуальные продолжения и позволяют вам ими управлять. Игровой движок кодирует правила; мировая модель кодирует правдоподобие. Один комментатор в ветке про GameNGen на Hacker News назвал это «самым неэффективным в мире сжатием видео», и как провокация это попадает в точку: модель фактически запомнила распределение по записям геймплея и интерполирует сквозь него в ответ на ваши вводы. Для этого есть чистая проверка, во врезке ниже.

Признак «дрейфа при стоянии на месте». Если бы мировая модель действительно вычисляла мир, неподвижный игрок должен был бы давать стабильное изображение: ничего не меняется, значит, ничего не должно меняться. В более слабых или ранних системах предсказания кадров даже стояние на месте может выявить дрейф: мелкие детали смещаются, потому что модель предсказывает следующий правдоподобный кадр, а не рендерит из фиксированного, инспектируемого состояния мира. Вот это и есть признак. Сцена какое-то время может выглядеть стабильной, но система всё равно генерирует непрерывность, а не считывает её из обычного движка.

Главный вывод: пределы детерминированности и устойчивости — это архитектурные проблемы, а не вопросы, которые сырое масштабирование решит само по себе. Любой системе, которой нужен надёжный, повторяемый, сохраняемый мир, по-прежнему нужен детерминированный слой логики, явная система памяти/состояния или гибридная архитектура движка, чего нынешние подходы к генерации кадров сами по себе не дают.

Infographic titled Why World Models Drift with four panels: no traditional world state means no clean inspectable engine variables; memory limits make long-horizon consistency difficult; probabilistic output means the same setup can yield different results; and drift over time means continuity is generated rather than retrieved from stable engine state.

Во сколько это реально обходится в работе

Генерация в реальном времени стоит дорого, и заголовочные цифры многое скрывают. «Один TPU» у GameNGen звучит дёшево, пока вы не вспомните, что он симулирует DOOM в 320×240, а не современную игру в высоком разрешении. Оригинальное демо Oasis работало в реальном времени на инфраструктуре класса H100, а более новый Oasis 3 от Decart делает экономику конкретнее. Decart позиционирует Oasis 3 как интерактивную мировую модель с доступом по API для физического ИИ, и TechCrunch сообщил о цене превью-доступа в $0.02 за секунду, или $1.20 за 60-секундную сессию. Это полезно для тестирования, симуляции и исследовательских рабочих процессов, но это всё равно очень иная модель затрат, чем выпуск обычного игрового клиента.

Чтобы дать представление о масштабе: генерация миров в реальном времени по-прежнему дорога, но картина по железу меняется быстро. Некоторые открытые исследовательские системы теперь сообщают о генерации в реальном времени или близкой к ней на одиночных GPU класса H100, тогда как передовые потребительские системы остаются облачными и часто нераскрытыми. Твёрдая точка не в том, что «один GPU никогда этого не сможет»; она в том, что генерация миров коммерческого качества, с низкой задержкой и высоким разрешением, по-прежнему серьёзная инфраструктурная задача.

Контраргумент в том, что нижняя планка падает быстро, и слой открытого кода реален. DIAMOND обучался примерно за 12 дней на одном RTX 4090 и, согласно его официальной странице проекта, может играться примерно на 10 FPS на RTX 3090. MineWorld и Matrix-Game публично запускаемы. Так что, хотя самые впечатляющие демо по-прежнему зависят от специализированной, дорогой инфраструктуры, любопытный разработчик уже может запускать настоящие эксперименты с мировыми моделями на доступном железе. Обе вещи верны одновременно: взаимодействие передового качества дорого, а точка входа для экспериментов уже реальна.

Так заменит ли ИИ Unity и Unreal?

Не в ближайшей перспективе, и причина — ограничения выше, а не нехватка инвестиций. Рынок отнёсся к этому серьёзно. Google выкатил Project Genie для подписчиков Google AI Ultra в США 29 января 2026 года, и на следующий день несколько игровых акций резко упали: The Verge сообщил о падении Unity на 24.22%, Roblox на 13.17% и Take-Two на 7.93% на закрытии в пятницу. Тревога проявилась и внутри индустрии: опрос GDC 2026 года показал, что 52% игровых профессионалов видели в генеративном ИИ негативное влияние на игры, против 30% годом ранее. Но движения акций и тревога в опросах — это реакции на демо. Реальный график задаёт именно архитектура.

Читая траекторию как она есть, и это моё прочтение, а не устоявшийся прогноз, ближайшие 1-3 года, скорее всего, удержат мировые модели в исследовательских прототипах, инфраструктуре симуляций, обучении робототехники/физического ИИ и узких потребительских демо, а не в полноценных коммерческих играх. Правдоподобный путь на 3-7 лет — гибрид, а не замена: мировая модель, отвечающая за визуальную генерацию, поверх лёгкой детерминированной машины состояний, которая держит саму игровую логику. Это дополнение. Траектория достаточно крутая (DOOM в 320p до 720p-из-текста примерно за год), что уверенные долгосрочные прогнозы неблагоразумны, так что я его делать не буду.

Деталь, которая переформулирует весь вопрос: DeepMind связывает мировые модели с обучением агентов и исследованиями AGI, тогда как Project Genie показывает ту же технологию как потребительский прототип создания миров. Oasis 3 от Decart ещё более явно нацелен на робототехнику, автономные автомобили и симуляцию физического ИИ. Потребительские игры важны для этой истории, но коммерческая тяга в ближайшей перспективе может прийти сначала от симуляции, обучения и прототипирования.

Часто задаваемые вопросы

В чём разница между мировой моделью и игровым движком?

Игровой движок кодирует явные правила и хранит игровое состояние как данные: он детерминирован, инспектируем и отлаживаем. Мировая модель вроде GameNGen предсказывает правдоподобные следующие кадры из недавних кадров плюс вашего ввода, без традиционного состояния, правил и переменных объектов в стиле движка, которые разработчики обычно инспектируют и контролируют. Движок вычисляет мир; мировая модель его угадывает. Вот почему одно повторяемо, а другое нет.

Как работает GameNGen?

GameNGen запускает DOOM в три общих шага. Сначала агент обучения с подкреплением играет в тысячи сессий DOOM, записываемых как кадры в паре с действиями. Затем модифицированная Stable Diffusion v1.4 учится предсказывать следующий кадр на основе прошлых кадров плюс ввода игрока. В-третьих, инференс сокращается до 4 шагов шумоподавления, давая примерно 20 FPS на одном TPU при 320×240.

Почему мир в Oasis постоянно меняется, когда вы оборачиваетесь?

В оригинальном демо Oasis в стиле Minecraft мир мог меняться, когда вы оборачивались, потому что система не сохраняла традиционного состояния мира в стиле движка. Она генерировала следующий вид из недавнего визуального контекста и выученных априорных представлений, поэтому объекты вне поля зрения могли возвращаться в изменённом виде. Более новые системы добавляют более сильные механизмы памяти и согласованности, но именно та исходная «логика сна» и сделала это ограничение легко заметным.

Как долго ИИ-сгенерированный игровой мир может оставаться согласованным, прежде чем начнёт дрейфовать?

Зависит от модели. Ранние системы часто дрейфуют в пределах от секунд до десятков секунд, но более новые системы расширяют этот горизонт. У GameNGen чуть больше 3 секунд прямого контекста, но за счёт выученных эвристик он может оставаться стабильным на более долгом геймплее. Genie 2 в основном показывал примеры на 10-20 секунд и до минуты в некоторых случаях. Genie 3 поднимает заявку до нескольких минут при 720p/24fps, а Matrix-Game 3.0 сообщает о согласованности памяти длиной в минуту. Нерешённая проблема не в коротких клипах; она в устойчивом, инспектируемом, сохраняемом состоянии мира.

Заменит ли ИИ игровые движки вроде Unity или Unreal?

Не в ближайшей перспективе. Препятствия скорее архитектурные, чем чисто вопрос масштаба: коммерческим играм нужны устойчивое состояние, надёжная логика, детерминированное поведение и семантика сохранения/загрузки. Масштабирование помогает качеству и связности, но само по себе не создаёт традиционного игрового цикла. Правдоподобный путь — гибрид: мировая модель, генерирующая визуал, поверх детерминированного движка для игровой логики, что является дополнением, а не заменой. DeepMind представляет мировые модели как важные для обучения агентов и исследований AGI, тогда как Project Genie также делает технологию видимой как потребительский прототип создания миров. Oasis 3 от Decart — более чистый пример модели, явно нацеленной на робототехнику, автономные автомобили и симуляцию физического ИИ.

Можно ли сыграть в какие-либо из этих ИИ-сгенерированных игр прямо сейчас?

Да, в несколько. У оригинального Oasis от Decart было публичное веб-демо в стиле Minecraft, а его более новый Oasis 3 Preview теперь доступен по API для экспериментов с мировыми моделями в реальном времени. Project Genie от Google также стал доступен подписчикам Google AI Ultra в США в январе 2026 года. Для слоя открытого кода DIAMOND и MineWorld можно скачать и запустить на потребительских GPU, при этом для DIAMOND сообщается около 10 FPS на RTX 3090.

Автор

Sherwin

Старший автор по ИИ-платформам

Sherwin, платформенный инженер, работавший с системами с большой долей прикладного машинного обучения в проде, не как с объектом исследования, а как с тем, что нужно упаковать в надёжные интерфейсы, ограничители и рабочие процессы, выдерживающие реальные эксплуатационные ограничения. Писать он начал только сейчас, потому что считает: сегодняшний мир требует одновременно строить и публиковать.

Игры без игрового движка: как ИИ-модели генерируют играбельные миры