Скидка 50% на все тарифы, ограниченное время. От $2.48/mo
11 мин. на чтение
AI и машинное обучение

H100 против RTX 4090: сравнительный тест для задач AI

Ник Сильвер By Ник Сильвер 11 мин. чтения Обновлено 28 янв. 2026
Сравнительный стенд: башня RTX 4090 и серверная плата в стиле H100, фиксирующие метрики в реальном времени — графики пропускной способности и результаты хронометража для сравнения H100 и RTX 4090.

Если вы выбираете H100 против RTX 4090 для AI, имейте в виду: большинство «бенчмарков» не имеют значения, пока ваша модель и кэш реально не помещаются в VRAM. RTX 4090 — оптимальный выбор для работы на одном GPU, если задачи укладываются в 24 GB. 

H100 нужен, когда вам требуются более крупные модели, высокая степень параллелизма, изоляция нескольких пользователей или меньше времени на жонглирование памятью. 

Разберу всё по типам задач, покажу виды бенчмарков, а затем дам быстрый план тестирования, который можно запустить на вашем стеке.

Коротко: H100 vs RTX 4090 для AI-задач

H100 выигрывает при обучении крупных моделей и серьёзном инференсе: большие пулы HBM, очень высокая пропускная способность памяти, NVLink и MIG для изоляции. RTX 4090 лучше подходит тем, кому нужна отличная скорость на одном GPU по разумной цене — при условии, что рабочая нагрузка умещается в 24 GB без постоянных компромиссов. Характеристики и возможности платформы делают выбор очевидным.

Быстрый выбор по типу пользователя:

  • Локальный разработчик LLM (соло / студент): RTX 4090, пока VRAM не становится узким местом.
  • ML-инженер в стартапе (запуск MVP): RTX 4090 для раннего инференса и дообучения, H100 — когда нужны стабильный параллелизм или более крупные модели.
  • Прикладной исследователь (много экспериментов): H100, если вы постоянно упираетесь в OOM, ограничения батчей или длинные контексты.
  • Продакшн / платформенная команда (мультитенантный инференс): H100 для MIG-слайсинга, большего запаса по ресурсам и более плавного масштабирования.

С этим пониманием остальная часть статьи посвящена ограничениям, с которыми люди сталкиваются на практике, и тому, как цифры из бенчмарков соотносятся с реальностью.

Единственный вопрос по бенчмаркам: что должно помещаться в VRAM?

Большинство дискуссий о H100 против RTX 4090 по сути сводятся к спорам о VRAM. В задачах LLM память съедается весовые коэффициенты, активации в процессе обучения, состояния оптимизатора при обучении, и Кэш KV при инференсе. Последний пункт обычно застаёт врасплох: он растёт вместе с длиной контекста и числом одновременных запросов.

Таблица ниже намеренно обобщённая — точные цифры зависят от фреймворка, точности вычислений и накладных расходов.

Взгляд с позиции «влезет без проблем?»:

Задача Типичная реальность одного GPU на RTX 4090 (24 GB) Типичная реальность одного GPU на H100 (80–94 GB)
Инференс 7B LLM (FP16 / BF16) Как правило, нормальное Запас памяти достаточный
Инференс 13B LLM Часто впритык, зависит от контекста Как правило, нормальное
Инференс класса 70B Требует агрессивного квантования или выгрузки Значительно реалистичнее
Инференс SD/SDXL + небольшой батч Как правило, нормальное Нормально, плюс больший запас под батч
Обслуживание при высокой параллельности Давление KV cache проявляется быстро Больше памяти — стабильнее под нагрузкой

Если нужен более широкий шортлист GPU (не только эти два), наш обзор Лучшие GPU для машинного обучения в 2025 году — удобная справочная таблица по VRAM и пропускной способности памяти для распространённых AI GPU.

Когда вы убедились, что задача подходит, следующее, что определяет «комфортность» работы — это пропускная способность памяти.

Пропускная способность: почему HBM ощущается иначе

Большинство разговоров о производительности в AI крутятся вокруг пиков вычислений, но трансформеры крайне чувствительны к операциям с памятью. Преимущество H100 в том, что большие пулы HBM сочетаются с очень высокой пропускной способностью памяти, а на уровне платформы добавляются NVLink и MIG-партиционирование. 

Краткие характеристики

Характеристики не выберут GPU за вас, но объяснят, почему одна и та же задача на одной карте выполняется легко, а на другой — с трудом. Этот обзор показывает, что сильнее всего влияет на обучение, инференс и обслуживание запросов на LLM.

Параметр H100 (SXM / NVL) RTX 4090
VRAM 80 GB / 94 GB 24 GB
Пропускная способность памяти 3,35–3,9 TB/s GDDR6X (ограничен объёмом: 24 GB)
Интерконнект NVLink + PCIe Gen5 PCIe (потребительская платформа)
Мультиэкземплярность До 7 MIG-экземпляров Нет данных

Источники характеристик: NVIDIA H100, NVIDIA RTX 4090.

Что это означает на практике:

  • Если вы хотите увеличить размер батча или длину контекста, H100 дольше держится без вынужденных компромиссов.
  • При обслуживании множества одновременных запросов у H100 больше «запаса по памяти» — хвостовые задержки нарастают медленнее.
  • Если у вас преимущественно одиночные пользователи, одна модель и скромный контекст, 4090 зачастую работает быстро и без нареканий.

Пропускная способность не заменяет нормальное бенчмаркирование. Она просто объясняет, почему два GPU выглядят одинаково на узком тесте, а под реальной нагрузкой расходятся.

Достоверные бенчмарки H100 vs RTX 4090 

Бенчмарк H100 vs RTX 4090 для AI-задач: графики tokens/sec и результаты инференса на мониторе рядом с настольными GPU и серверной платой.

Бенчмарки бывают разные — именно поэтому ситуация «мои цифры не совпадают с вашими» встречается постоянно. Для H100 против RTX 4090удобно разделить бенчмарки на два типа:

  • Направление A (сообщество): llama.cpp-style tokens/sec tests and simple inference scripts.
  • Направление B (стандартизированные наборы тестов): Результаты в стиле MLPerf Training и MLPerf Inference, ориентированные на воспроизводимые правила.

Тест на инференс в стиле Llama.cpp

Именно такие тесты запускают дома, а потом спорят о результатах три дня. Это полезно, потому что отражает реальный стек инструментов, который используют многие разработчики. Но результаты легко трактовать неверно, если не учитывать точность и совместимость модели. 

Публичные сравнения в стиле llama.cpp показывают, что RTX 4090 отлично справляется с небольшими моделями и квантизированными запусками, тогда как большие модели в высокой точности упираются в потолок VRAM.

Вот чего следует ожидать:

Модель GPU Типичный результат
Класс 7B RTX 4090 Высокая скорость генерации токенов, комфортный инференс для одного пользователя
Класс 13B RTX 4090 Всё ещё хорошо, но контекст и накладные расходы начинают иметь значение
Класс 70B RTX 4090 Не помещается без агрессивной квантизации или выгрузки
Класс 70B H100 Гораздо реалистичнее держать модель в памяти и обслуживать запросы стабильно

Смысл этой таблицы не в том, что «4090 плохой» или «H100 творит чудеса». Дело в другом: потолок VRAM определяет, сколько можно держать в памяти, а это напрямую влияет на скорость, стабильность и количество ручных настроек.

Если вы постоянно урезаете длину контекста только ради того, чтобы всё не рухнуло, именно в этот момент сравнение перестаёт быть теоретическим.

Что даёт MLPerf, чего нет у форумных бенчмарков

MLPerf появился потому, что «случайные скрипты и интуиция» не работают, когда вы принимаете решение на несколько тысяч долларов. MLCommons со временем добавил новые задачи в стиле генеративного ИИ, а MLPerf создан так, чтобы результаты можно было сравнивать между разными системами.

По части обучения моделей отчёт NVIDIA по MLPerf Training v5.1 — хороший пример того, как вендоры публикуют время обучения с деталями о среде тестирования и используемых правилах бенчмарка.

Этот сценарий не покажет, как ведут себя ваши конкретные промпты, но он позволяет проверить масштабирование на уровне системы и понять, как данный класс оборудования работает в штатных условиях.

Теперь поговорим о том, что сильнее всего влияет на выбор при покупке: времени и деньгах, которые уходят на доведение работы до результата.

Стоимость, время и упущенные возможности

Техник устанавливает GPU в стоечный сервер в процессе сравнения H100 и RTX 4090, подготавливая оборудование для бенчмарков H100 и тестирования производительности RTX 4090 на задачах AI.

Многие H100 против RTX 4090 решения часто формулируют как «цена покупки против стоимости аренды». Это редко правильная постановка вопроса. Правильнее спросить: сколько часов нужно, чтобы получить модель, с которой можно реально работать, и сколько времени сгорает в борьбе с ограничениями?

Три типичных сценария наглядно показывают, где что выгоднее.

Еженедельный файн-тюнинг на небольших и средних моделях

Если ваши запуски укладываются в 24 GB без постоянных компромиссов, вариант с 4090 будет отличным выбором. Итерации идут быстро, не нужно бронировать время в кластере, и всё устроено просто. Если же каждый запуск превращается в «уменьши батч, обрежь контекст, попробуй снова», H100 — куда более разумное решение, несмотря на более высокую стоимость.

Инференс с реальной конкурентностью

Конкурентность быстро создаёт давление на KV-кеш. Именно здесь запас памяти H100 и средства управления платформой себя оправдывают, особенно если вам нужна предсказуемая задержка. 

Если вы ещё не решили, подходит ли сервер GPU по форм-фактору и характеристикам для вашего развёртывания, наш GPU VPS против CPU VPS разбор поможет соотнести рабочую нагрузку с типом инфраструктуры, прежде чем тратить время на оптимизацию не того компонента.

Крупные задачи обучения с жёсткими сроками

Как только вы выходите за рамки одного человека и одной машины, в центре внимания оказываются скучные, но важные вещи: стабильные окружения, меньше точек отказа и меньше времени, которое уходит на слежку за процессами. Именно для этого и создан H100.

Если после этого раздела у вас всё ещё нет ясности, следующий шаг — не читать дальше, а посмотреть, как ваш стек ведёт себя на практике: какие проблемы возникают с драйверами и как всё работает при многопользовательской нагрузке.

Программная часть и эксплуатация: драйверы, стабильность, многопользовательский режим и поддержка

Это то, что большинство бенчмарк-таблиц обходят стороной, хотя в повседневной работе это занимает значительное место.

RTX 4090 популярен потому, что он доступен по цене и быстр для многих AI-задач. Обратная сторона: когда ваши задачи вырастают, вы начинаете упираться в ограничения по памяти и в паттерны масштабирования, не рассчитанные на shared-окружения с несколькими арендаторами.

H100 создан для кластеров. MIG — это серьёзный инструмент для платформенных команд: он позволяет разделить один GPU на изолированные срезы, что снижает проблему «шумных соседей» и существенно упрощает планирование ёмкости. Официальные спецификации NVIDIA для H100 допускают до 7 MIG-инстансов в зависимости от форм-фактора.

Если ваша нагрузка локальная и только для себя, 4090 будет отличным выбором на долгое время. Если нагрузка многопользовательская и обращена к клиентам, H100 — более надёжный путь.

Итак, кому что стоит выбирать?

Что выбрать под вашу задачу

Сценарии применения для бенчмарков H100 и тестирования производительности RTX 4090 на задачах AI: рабочий стол студента, стойка стартапа, рабочая станция исследователя и серверы платформенной команды.

По H100 против RTX 4090, правильный выбор — тот, который устраняет ваши главные препятствия.

Локальный разработчик на LLM (соло / студент)

Выбирайте RTX 4090, если работаете с моделями в диапазоне 7B–13B, запускаете квантизированный инференс, экспериментируете с RAG или работаете с SDXL. Переходите на более мощную конфигурацию, когда начинаете тратить больше времени на борьбу с нехваткой памяти, чем на саму задачу.

Инженер по ML в стартапе (выпускает MVP)

Если ваш MVP — это одна модель с умеренной нагрузкой и она вписывается в ресурсы, 4090 — хорошая отправная точка. Если нужна стабильная задержка при пиках, высокий параллелизм или несколько рабочих процессов на одном хосте, H100 — более предсказуемый выбор.

Прикладной исследователь (много экспериментов)

Если вы постоянно идёте на компромиссы — урезаете размер батча или жонглируете точностью вычислений — H100 даст вам более чистые эксперименты и меньше холостых прогонов.

Производственные команды / команды платформы (мультиарендное обслуживание)

H100 — очевидный выбор: MIG и больший запас ресурсов упрощают планирование мощностей и сужают зону поражения при внезапных пиках нагрузки.

Если вы пока не готовы вкладываться в железо, аренда — оптимальный следующий шаг.

Разумный компромисс: сначала арендуйте GPU, затем принимайте решение

Самый простой способ разобраться H100 против RTX 4090 работает на ваш модель, ваш запросы и ваш длину контекста на обоих классах железа, затем сравните токены/сек и хвостовую задержку под нагрузкой. 

Именно поэтому мы создали Cloudzy GPU VPS, потому что поднять GPU можно меньше чем за минуту, установить нужный стек с полным root-доступом и перестать ориентироваться на чужие бенчмарки.

Вот что входит в наши тарифы GPU VPS:

  • Выделенные серверы NVIDIA GPU (включая варианты класса RTX 4090 и A100) — ваши результаты не будут искажены из-за шумных соседей.
  • До 40 Gbps сеть для всех тарифов GPU — это существенно при загрузке датасетов, многоузловых рабочих процессах и быстром перемещении артефактов.
  • NVMe SSD хранилище, плюс DDR5 RAM и высокочастотная CPU на всех тарифах — чтобы остальные компоненты не тянули GPU вниз.
  • защита DDoS и Аптайм 99,95%, чтобы длительные задачи не прерывались из-за случайных сбоев сети.
  • Почасовая оплата (удобно для коротких нагрузочных тестов) и Возврат в течение 14 дней для тестирования с низким риском.

Сначала запустите тот же набор тестов на плане RTX 4090, затем повторите на плане класса A100 — когда начнёте работать с большими контекстами, высокой параллельностью или более крупными моделями. После этого выбор между H100 против RTX 4090 обычно становится очевидным из ваших собственных логов.

Чеклист для бенчмарков: проведите своё тестирование за 30 минут

Если вы хотите принять обоснованное решение, получите четыре ключевых числа на том стеке, который собираетесь запускать в продакшн:

  • Токенов/сек при целевой длине контекста
  • Задержка p95 при ожидаемой параллельности
  • Запас VRAM в пиковой фазе нагрузки
  • Стоимость одного полного запуска от старта до артефакта

Минимальный smoke-тест с vLLM выглядит так:

pip install vllm transformers accelerate

python -m vllm.entrypoints.api_server \

  --model meta-llama/Llama-3-8B-Instruct \

  --dtype float16 \

  --max-model-len 8192

Если хотите чётко понять, за что именно платите, наш материал о Что такое GPU VPS? подробно объясняет разницу между выделенным доступом к GPU, разделяемым vGPU и на что обратить внимание при выборе плана.

 

Часто задаваемые вопросы

Подходит ли RTX 4090 для машинного обучения?

Да, если объём вашей задачи укладывается в 24 GB. Это хороший одиночный вариант GPU для большинства процессов разработки и исследований.

Может ли RTX 4090 запускать модели LLM класса 70B на одной карте?

Не без компромиссов при высокой точности. С квантизацией и офлоадингом это возможно, но ограничение в 24 GB быстро вынуждает идти на уступки.

Почему VRAM так важен для работы с LLM?

Как только веса и кэш перестают умещаться в памяти, начинается выгрузка или свопинг, и показатели пропускной способности и задержки становятся непредсказуемыми. Больший VRAM и высокая пропускная способность памяти позволяют держать больше данных в активном доступе.

Что такое MIG и чем он полезен для платформенных команд?

MIG разделяет один H100 на изолированные экземпляры GPU, что упрощает многопользовательское планирование задач и снижает влияние «шумных соседей».

Какому бенчмарку стоит доверять?

Доверяйте своим собственным тестам. Используйте стандартизированные наборы вроде MLPerf как проверку базового поведения системы и для воспроизводимых сравнений.

Поделиться

Другие статьи блога

Читать дальше.

opencode vs openclaw: сравнение возможностей — AI-агент для работы с репозиторием против OpenClaw автономного шлюза AI-агентов.
AI и машинное обучение

OpenCode vs OpenClaw: какой self-hosted AI-инструмент выбрать?

OpenCode vs OpenClaw — это в первую очередь выбор между агентом для написания кода внутри репозитория и постоянно работающим шлюзом-ассистентом, который объединяет чат-приложения, инструменты и задачи по расписанию.

Ник СильверНик Сильвер 14 мин. чтения
Обложка статьи об opencode и claude code: локальный ИИ против облачного, сравнение самостоятельного хостинга и управляемого сервиса.
AI и машинное обучение

OpenCode vs Claude Code: управляемый сервис или собственный хостинг?

Выбор между OpenCode и Claude Code — это выбор между управляемым ИИ-агентом для написания кода и агентом, который вы запускаете в своей среде. Начать с Claude Code проще, потому что

Ник СильверНик Сильвер 13 мин. чтения
Обложка статьи об альтернативах claude code: лучшие ИИ-инструменты для разработчиков в терминале, IDE, облаке и при самостоятельном хостинге.
AI и машинное обучение

Альтернативы Claude Code для разработчиков: терминал, IDE, самостоятельный хостинг и облако

Claude Code по-прежнему один из сильнейших агентов для написания кода, но многие разработчики теперь выбирают инструменты исходя из рабочего процесса, доступа к моделям и долгосрочной стоимости, а не

Ник СильверНик Сильвер 20 мин. чтения

Готовы к деплою? От $2.48/мес.

Независимый облачный провайдер с 2008 года. AMD EPYC, NVMe, 40 Gbps. Возврат средств в течение 14 дней.