Что такое CUDA Core и почему это важно при выборе GPU VPS?

Выбор VPS с графическим процессором может показаться ошеломляющим, когда вы смотрите на спецификации, заполненные цифрами. Число ядер подскочило с 2560 до 21760, но что это значит?

Ядро CUDA — это параллельный процессор внутри графических процессоров NVIDIA, который одновременно выполняет тысячи вычислений, обеспечивая все — от обучения искусственного интеллекта до 3D-рендеринга. В этом руководстве рассказывается, как они работают, чем они отличаются от ядер ЦП и Tensor, а также какое количество ядер соответствует вашим потребностям без переплаты.

Что такое ядра CUDA?

Футуристическая цифровая визуализация внутренней части графического процессора, показывающая бесконечный туннель из тысяч светящихся синих и оранжевых узлов обработки, расположенных в виде сетки, с текстом «Что такое ядра CUDA?» наверху.
Ядра CUDA — это отдельные процессоры внутри графических процессоров NVIDIA, которые выполняют инструкции параллельно. Что лежит в основе базовой технологии CUDA? Думайте об этих подразделениях как о маленьких работниках, одновременно выполняющих одну и ту же работу.

NVIDIA представила CUDA (Compute Unified Device Architecture) в 2006 году, чтобы использовать мощность графического процессора для общих вычислений, помимо графики. официальная документация CUDA предоставляет исчерпывающую техническую информацию. Каждое устройство выполняет основные арифметические операции с числами с плавающей запятой, что идеально подходит для повторяющихся вычислений.

Современные графические процессоры NVIDIA объединяют тысячи этих блоков в одном чипе. Потребительские графические процессоры последнего поколения содержат более 21 000 ядер, а Графические процессоры для центров обработки данных на базе архитектуры Hopper имеют до 16 896. Эти устройства работают вместе посредством потоковых мультипроцессоров (SM).

Этот график иллюстрирует иерархическую структуру современного чипа графического процессора, показывая, как организованы кластеры графической обработки (GPC), потоковые мультипроцессоры (SM), ядра CUDA и тензорные ядра.

Устройства выполняют операции SIMT (одна инструкция, несколько потоков) с помощью методов параллельных вычислений. Одна инструкция выполняется одновременно для многих точек данных. При обучении нейронных сетей или рендеринге 3D-сцен происходят тысячи подобных операций. Они разбивают эту работу на параллельные потоки, выполняя ее одновременно, а не последовательно.

Ядра CUDA против ядер ЦП: что их отличает?

Иллюстрация сравнения разделенного экрана. Слева изображен массивный тяжелый промышленный двигатель, представляющий процессор, а справа — рой из сотен маленьких, быстрых, светящихся синих дронов, представляющих ядра графического процессора CUDA.
Процессоры и графические процессоры решают проблемы принципиально разными способами. Современный серверный процессор может иметь от 8 до 128+ ядер, работающих на высоких тактовых частотах. Эти процессоры превосходно справляются с последовательными операциями, где каждый шаг зависит от предыдущего результата. Они эффективно обрабатывают сложную логику и ветвление.

Графические процессоры переворачивают этот подход. Они содержат тысячи более простых ядер CUDA, работающих на более низких тактовых частотах. Эти устройства компенсируют более низкие скорости за счет параллельности. Когда 16 000 работают вместе, общая пропускная способность превосходит стандартные возможности ЦП.

Процессоры выполняют код операционной системы и сложную логику приложений. В то время как графические процессоры отдают приоритет пропускной способности, накладные расходы, связанные с инициацией и синхронизацией задач, приводят к более высокой задержке. При параллельной обработке графики приоритет отдается перемещению данных. Хотя их запуск занимает больше времени, они обрабатывают большие наборы данных быстрее, чем центральные процессоры.

На этом графике сравнивается модель последовательной обработки ЦП с моделью параллельной обработки графического процессора, показывая, как графические процессоры могут выполнять несколько задач одновременно.

Особенность	Ядра процессора	Ядра CUDA
Количество на чип	4-128+ ядер	2560–21760 ядер
Тактовая частота	3,0–5,5 ГГц	1,4–2,5 ГГц
Стиль обработки	Последовательные, сложные инструкции	Параллельные простые инструкции
Лучшее для	Операционные системы, однопоточные задачи	Матричная математика, параллельная обработка данных
Задержка	Низкий (микросекунды)	Выше (накладные расходы на запуск)
Архитектура	общего назначения	Специализируется на повторяющихся вычислениях

Технологии виртуального графического процессора (vGPU) и многоэкземплярного графического процессора (MIG) обеспечивают разделение ресурсов и планирование для распределения процессоров между несколькими пользователями. Такая настройка позволяет командам максимально эффективно использовать оборудование за счет совместного использования с разделением по времени или выделенных экземпляров оборудования, в зависимости от конфигурации.

Обучение нейронных сетей включает в себя миллиарды матричных умножений. Графический процессор с 10 000 единиц не просто выполняет 10 000 операций одновременно; вместо этого он управляет тысячами параллельных потоков, сгруппированных в «перекосы», чтобы максимизировать пропускную способность. Именно этот огромный параллелизм является причиной того, что эти модули необходимо знать разработчикам ИИ.

Ядра CUDA против тензорных ядер: понимание разницы

Крупный план 3D-рендеринга компьютерной микросхемы. Он противопоставляет стандартные плоские бирюзовые процессоры специализированным светящимся фиолетовым кубическим кластерам, визуализируя архитектурную разницу между стандартными ядрами CUDA и ядрами Tensor.
Графические процессоры NVIDIA содержат два специализированных типа модулей, работающих вместе: стандартные ядра CUDA и ядра Tensor. Это не конкурирующие технологии; они касаются различных частей рабочей нагрузки.

Стандартные устройства — это параллельные процессоры общего назначения, выполняющие вычисления FP32 и FP64, целочисленные математические операции и преобразования координат. Эта базовая технология CUDA формирует основу вычислений на графических процессорах, выполняя все операции — от физического моделирования до предварительной обработки данных без специального ускорения.

Тензорные ядра — это специализированные устройства, предназначенные исключительно для умножения матриц и задач искусственного интеллекта. Представленные в архитектуре NVIDIA Volta (2017 г.), они превосходно справляются с точными вычислениями FP16 и TF32. Последнее поколение поддерживает FP8 для еще более быстрого вывода ИИ.

Особенность	Ядра CUDA	Тензорные ядра
Цель	Общие параллельные вычисления	Умножение матриц для ИИ
Точность	ФП32, ФП64, ИНТ8, ИНТ32	ФП16, ФП8, ТФ32, ИНТ8
Скорость для ИИ	1x базовый уровень	В 2–10 раз быстрее, чем ядра CUDA
Варианты использования	Предварительная обработка данных, традиционное машинное обучение	Обучение/выводы по глубокому обучению
Доступность	Все графические процессоры NVIDIA	Серия RTX 20 и новее, графические процессоры для центров обработки данных

Современные графические процессоры сочетают в себе и то, и другое. RTX 5090 имеет 21 760 стандартных блоков плюс 680 ядер Tensor пятого поколения. H100 объединяет 16 896 стандартных модулей с 528 ядрами Tensor четвертого поколения для ускорения глубокого обучения.

При обучении нейронных сетей ядра Tensor выполняют тяжелую работу во время прямого и обратного прохода по модели. Стандартные модули управляют загрузкой данных, предварительной обработкой, расчетом потерь и обновлением оптимизатора. Оба типа работают вместе, а ядра Tensor ускоряют вычислительно интенсивные операции.

Для традиционных алгоритмов машинного обучения, таких как случайные леса или повышение градиента, работу выполняют стандартные блоки, поскольку они не используют шаблоны умножения матриц, которые ускоряют ядра тензора. Но для моделей трансформаторов и сверточных нейронных сетей тензорные ядра обеспечивают значительное ускорение.

Для чего используются ядра CUDA?

Цифровой коллаж, иллюстрирующий использование ядер CUDA: синяя каркасная голова искусственного интеллекта слева, молекула двойной спирали ДНК в центре и фотореалистичный красный спортивный автомобиль справа под текстом «Для чего используются ядра CUDA?»

Ядра CUDA обеспечивают выполнение задач, требующих одновременного выполнения большого количества одинаковых вычислений. Любая работа, включающая матричные операции или повторяющиеся числовые вычисления, выигрывает от их архитектуры.

На этом графике показан типичный поток данных в приложении CUDA: от ввода и предварительной обработки до распределения по нескольким ядрам и окончательной комбинации результатов.

Приложения искусственного интеллекта и машинного обучения

Глубокое обучение основано на умножении матриц во время обучения и вывода. При обучении нейронных сетей каждый прямой проход требует миллионов операций умножения-сложения над весовыми матрицами. Обратное распространение добавляет еще миллионы во время обратного прохода.

Модули управляют предварительной обработкой данных, преобразованием изображений в тензоры, нормализацией значений и применением дополнительных преобразований. Именно эта способность решать тысячи задач одновременно — именно поэтому графические процессоры важны для искусственного интеллекта.

Во время обучения они контролируют графики скорости обучения, вычисления градиентов и обновления состояния оптимизатора.

Что касается VPS для операций вывода ИИ с использованием рекомендательных систем или чат-ботов, они обрабатывают запросы одновременно, выполняя сотни прогнозов одновременно. Наш гид по лучший графический процессор для ИИ 2025 года рассказывает о том, какие конфигурации подходят для моделей разных размеров.

16 896 блоков H100 в сочетании с ядрами Tensor обучают модель с 7 миллиардами параметров за недели, а не за месяцы. Выводы в реальном времени для чат-ботов, обслуживающих тысячи пользователей, требуют аналогичной мощности одновременного выполнения.

Научные вычисления и исследования

Исследователи используют эти процессоры для моделирования молекулярной динамики, моделирования климата и геномного анализа. Каждое вычисление независимо, что делает их идеальными для одновременного выполнения. Финансовые учреждения одновременно запускают симуляции Монте-Карло с миллионами сценариев.

3D-рендеринг и видеопроизводство

Трассировка лучей рассчитывает отражение света в трехмерных сценах, отслеживая независимые лучи через каждый пиксель. В то время как выделенные ядра RT обрабатывают обход, стандартные блоки управляют выборкой текстур и освещением. Это деление определяет скорость сцен с миллионами лучей.

NVENC обрабатывает кодирование для H.264 и H.265, а новейшие архитектуры (Ада Лавлейс и Хоппер) обеспечивают аппаратную поддержку AV1. CUDA помогает с эффектами, фильтрами, масштабированием, шумоподавлением, преобразованием цвета и конвейерным соединением. Это позволяет механизму кодирования работать вместе с параллельными процессорами для более быстрого производства видео.

3D-рендеринг в Blender или Maya разделяет миллиарды вычислений поверхностных шейдеров по доступным модулям. Системы частиц выигрывают, поскольку они имитируют тысячи частиц, взаимодействующих одновременно. Эти функции являются ключом к созданию высококачественных цифровых изображений.

Как ядра CUDA влияют на производительность графического процессора

Абстрактная визуализация высокоскоростной передачи данных: полосы синего, белого и оранжевого света, движущиеся через темный туннель к центральной точке, обозначающие тактовую частоту и пропускную способность графического процессора.

Количество ядер дает примерное представление о возможности одновременного выполнения, но ядра CUDA требуют не только цифр. Тактовая частота, пропускная способность памяти, эффективность архитектуры и оптимизация программного обеспечения играют важную роль.

Графический процессор с 10 000 единицами, работающими на частоте 2,0 ГГц, дает иные результаты, чем графический процессор с 10 000 единицами на частоте 1,5 ГГц. Более высокая тактовая частота означает, что каждое устройство выполняет больше вычислений в секунду. В новых архитектурах каждый цикл включает больше работы за счет лучшего планирования инструкций.

Проверьте, не занято ли ваше устройство, но помните, что nvidia-smi использование является грубым показателем. Он измеряет процент времени, в течение которого ядро активно, а не количество ядер, выполняющих работу.

# Check GPU utilization percentage

nvidia-smi --query-gpu=utilization.gpu,utilization.memory --format=csv,noheader

Пример вывода: 85%, 92% (85% активного времени, 92% активности контроллера памяти)

Если ваш графический процессор показывает загрузку 60–70 %, скорее всего, у вас есть узкие места в восходящем потоке, такие как загрузка данных процессора или небольшие размеры пакетов. Однако даже 100% загрузка может ввести в заблуждение, если ваши ядра привязаны к памяти или являются однопоточными. Чтобы получить достоверную картину насыщения ядра, используйте профилировщики, такие как Nsight Systems, для отслеживания показателей «Эффективность SM» или «Активность SM».

Пропускная способность памяти часто становится узким местом перед максимальным использованием вычислительных возможностей. Если ваш графический процессор обрабатывает данные быстрее, чем память их передает, устройства простаивают. Модель H100 SXM5 использует пропускную способность 3,35 ТБ/с. для питания своих 16 896 ядер. Однако версия PCIe снижает эту скорость до 2 ТБ/с.

Этот график иллюстрирует, как пропускная способность памяти может стать узким местом производительности графического процессора. Он противопоставляет сценарий с высокой пропускной способностью (HBM3) сценарию с более низкой пропускной способностью (GDDR6X), где последний заставляет ядра CUDA ожидать данных.

Потребительские графические процессоры с аналогичными показателями, но с более низкой пропускной способностью (около 1 ТБ/с) демонстрируют меньшую реальную скорость операций с интенсивным использованием памяти.

Емкость видеопамяти определяет размер ваших задач. Будь то гири FP16 для Модель 70Б, полное обучение требует больше памяти. Вы должны учитывать градиенты и состояния оптимизатора. Эти состояния часто утраивают занимаемую площадь, если вы не используете стратегии разгрузки.

A100 80 ГБ предназначен для высокопроизводительного вывода и точной настройки. Между тем, RTX 4090 емкостью 24 ГБ, часто упоминаемый в моделях 7B, неожиданно может запускать модели с параметрами 30B+, если вы используете современные методы квантования, такие как INT4. Однако нехватка видеопамяти приводит к необходимости передачи данных между процессором и графическим процессором, что снижает пропускную способность.

Оптимизация программного обеспечения определяет, действительно ли ваш код использует все эти единицы. Плохо написанные ядра могут задействовать лишь часть доступных ресурсов. Такие библиотеки, как cuDNN для глубокого обучения и RAPIDS для анализа данных, тщательно настроены для максимального использования.

Больше ядер CUDA не всегда означает лучшую производительность

концептуальная иллюстрация узкого места. Большая и широкая воронка наполнена светящимися золотыми частицами, представляющими данные, но поток ограничен узким черным носиком внизу, символизирующим, как пропускная способность памяти ограничивает производительность.
Покупка графического процессора с наибольшим количеством ядер кажется логичной, но вы зря тратите деньги, если устройства опережают другие компоненты системы или ваша задача не масштабируется в зависимости от количества ядер.

Пропускная способность памяти создает первый предел. 21760 единиц RTX 5090 питаются от пропускной способности памяти 1792 ГБ/с. Старые графические процессоры с меньшим количеством блоков могут иметь пропорционально более высокую пропускную способность на единицу.

Различия в архитектуре имеют значение. Новый графический процессор с 14 000 единиц на частоте 2,2 ГГц превосходит старый графический процессор с 16 000 на частоте 1,8 ГГц благодаря лучшему количеству инструкций за такт. Ваш код нуждается в правильном распараллеливании, чтобы эффективно использовать 20 000 единиц.

Почему ядра CUDA важны при выборе GPU VPS

Изометрическая иллюстрация среды облачных вычислений. Серверные стойки парят на платформах среди облаков, а мужчина в деловом костюме использует голографический сенсорный интерфейс для выбора конкретной конфигурации графического процессора.
Выбор правильной конфигурации ядра графического процессора CUDA для вашего VPS позволит избежать траты денег на неиспользуемые ресурсы или возникновения узких мест в середине проекта.

Память H100 объемом 80 ГБ обрабатывает выводы для моделей с 70 битами параметров с использованием 4-битного квантования. Однако для полноценного обучения даже 80 ГБ часто недостаточно для модели 34B, если учесть градиенты и состояния оптимизатора. При обучении FP16 объем памяти значительно увеличивается, что часто требует сегментирования нескольких графических процессоров.

Операции вывода, обслуживающие прогнозы в реальном времени, требуют меньшего количества единиц, но выигрывают от низкой задержки. Разработка и создание прототипов отлично работают с графическими процессорами среднего уровня для тестирования алгоритмов и отладки кода.

RTX 4060 Ti с 4352 блоками позволяет тестировать, не платя за излишнее оборудование. После того как вы подтвердите свой подход, масштабируйте его до производственных графических процессоров для проведения полного обучения.

Работа рендеринга и видео масштабируется в зависимости от единиц измерения до определенного момента. Рендеринг Cycles в Blender эффективно использует все доступные ресурсы. Графический процессор с 8 000–10 000 единиц рендерит сцены в 2–3 раза быстрее, чем графический процессор с 4 000.

В Cloudzy мы предлагаем высокопроизводительные GPU VPS хостинг создан для тяжелой работы. Выберите RTX 5090 или RTX 4090 для быстрого рендеринга и экономичного вывода ИИ или масштабируйтесь до A100 для масштабных рабочих нагрузок глубокого обучения. Все планы работают в сети со скоростью 40 Гбит/с с политиками конфиденциальности и возможностью оплаты криптовалютой, что дает вам полную мощность без корпоративной бюрократической волокиты.

Будь то обучение моделей искусственного интеллекта, рендеринг 3D-сцен или выполнение научных симуляций — вы выбираете количество ядер, соответствующее вашим потребностям.

Бюджетные соображения имеют значение. A100 с 6912 единицами стоит значительно меньше, чем H100 с 16896 единицами. Для многих операций два A100 обеспечивают лучшее соотношение цены и скорости, чем один H100. Точка безубыточности зависит от того, масштабируется ли ваш код на несколько графических процессоров.

Как выбрать правильное количество ядер CUDA

Высокотехнологичная цифровая панель мониторинга, отображающая аналитику. Он имеет график «Производительность в зависимости от стоимости», показатель эффективности 8,7 и полосы загрузки ЦП/ГП — все под заголовком «РАСЧЕТ ПРАВИЛЬНОГО СЧЕТА ЯДЕР».
Сопоставьте свои требования с фактическими характеристиками рабочей нагрузки, а не гонитесь за максимальными цифрами, доступными на рынке.

Начните с описания вашей текущей работы. Если вы обучаете модели на локальном оборудовании или в облачных экземплярах, проверьте показатели использования графического процессора. Если ваш текущий графический процессор постоянно показывает загрузку 60-70%, вы не используете максимум единиц.

# Quick benchmark to test if you need more cores

import torch

import time

# Test matrix multiplication (CUDA core workload)

size = 10000

a = torch.randn(size, size).cuda()

b = torch.randn(size, size).cuda()

start = time.time()

c = torch.matmul(a, b)

torch.cuda.synchronize()

elapsed = time.time() - start

print(f"Matrix multiplication time: {elapsed:.3f}s")

print(f"TFLOPS: {(2 * size**3) / (elapsed * 1e12):.2f}")

Этот простой тест показывает, обеспечивают ли ядра вашего графического процессора ожидаемую пропускную способность. Сравните свои результаты с опубликованными тестами для вашей модели графического процессора.

Обновление не поможет. Сначала вам необходимо устранить узкие места, такие как память, пропускная способность или остановки ЦП. Далее оцените требования к памяти, рассчитав размер модели в байтах плюс память активации.

Добавьте выходные данные слоя, умноженные на размер пакета, и включите состояния оптимизатора. Эта сумма должна поместиться во VRAM. Как только вы узнаете необходимый объем памяти, проверьте, какие графические процессоры соответствуют этому порогу.

# Calculate VRAM needed for a model

# Formula: (parameters × bytes_per_param × 1.2) for overhead

# Example: 7B parameter model in FP16

# 7,000,000,000 × 2 bytes × 1.2 = 16.8 GB VRAM needed

# Check your available VRAM:

nvidia-smi --query-gpu=memory.total --format=csv,noheader

# 24576 MiB (24 GB available - model fits!)

Учитывайте свой график. Если вам нужны результаты в течение нескольких часов, заплатите за большее количество единиц. Обучающие прогоны, которые могут занять несколько дней, отлично работают на небольших графических процессорах с пропорционально более длительным временем выполнения.

Стоимость часа, умноженная на необходимые часы, дает общую стоимость, иногда делая более медленные графические процессоры в целом дешевле. Проверьте эффективность масштабирования, используя множество платформ, которые предоставляют инструменты сравнительного анализа, показывающие изменения пропускной способности.

Если удвоение единиц дает ускорение только в 1,5 раза, дополнительные затраты не окупаются. Ищите лучшие места, где соотношение цены и скорости достигает максимума.

Тип рабочей нагрузки	Рекомендуемые ядра	Примеры графических процессоров	Примечания
Разработка и отладка модели	3,000-5,000	РТХ 4060 Ти, РТХ 4070	Быстрая итерация, низкие затраты
Небольшое обучение искусственному интеллекту (<7 млрд параметров)	6,000-10,000	РТХ 4090, L40S	Подходит для потребителей и малых предприятий
Масштабное обучение ИИ (параметры 7B-70B)	14,000+	А100, Н100	Требуются графические процессоры для центров обработки данных
Вывод в реальном времени (высокая пропускная способность)	10,000-16,000	РТХ 5080, Л40	Баланс стоимости и производительности
3D-рендеринг и кодирование видео	8,000-12,000	РТХ 4080, РТХ 4090	Масштабируется со сложностью
Научные вычисления и высокопроизводительные вычисления	10,000+	А100, Н100	Требуется поддержка FP64

Заключение

Механизмы параллельной обработки делают возможным современный искусственный интеллект, рендеринг и научные вычисления. То, как они работают и взаимодействуют с памятью, тактовой частотой и программным обеспечением, помогает вам выбирать конфигурации GPU VPS.

Большее количество единиц помогает, когда ваша работа эффективно распараллеливается и такие компоненты, как пропускная способность памяти, не отстают. Но слепая погоня за наибольшим количеством ядер приведет к пустой трате денег, если ваши узкие места находятся в другом месте.

Начните с профилирования реальных операций, определения того, на что тратится время, и сопоставления характеристик графического процессора с этими требованиями, не перекупая ненужную мощность.

Для большинства работ по разработке ИИ 6 000–10 000 единиц обеспечивают золотую середину между стоимостью и возможностями. Производственные операции, обучающие большие модели или обеспечивающие высокопроизводительный вывод, получают выгоду от более чем 14 000 графических процессоров, таких как H100.

Работа рендеринга и видео эффективно масштабируется примерно до 16 000 единиц, после чего пропускная способность памяти становится ограничивающим фактором.

Часто задаваемые вопросы

В чем разница между ядрами CUDA и потоковыми процессорами?

Стандартные устройства и потоковые процессоры выполняют аналогичную роль. NVIDIA использует ядра CUDA; AMD использует потоковые процессоры. Различия в архитектуре делают сравнение один к одному ненадежным. Вы не можете судить об эффективности, просто сравнивая эти показатели по брендам.

Сколько ядер CUDA мне нужно для глубокого обучения?

Для эксперимента: 4000-6000 ед. Обучающие модели по параметрам 7Б: 8000-12000. Большие модели (параметры 7B-70B): более 14 000 графических процессоров центров обработки данных. Емкость видеопамяти часто имеет большее значение.

Влияют ли ядра CUDA на производительность в играх?

Да, но архитектура и тактовая частота имеют большее значение. Юниты выполняют физические вычисления и постобработку, но графический процессор с меньшим количеством блоков, но с лучшей оптимизацией может превзойти другие.

Можете ли вы сравнить ядра CUDA разных поколений графических процессоров?

Не напрямую. Новые архитектуры повышают эффективность на 20–30 % на единицу.. Для точного сравнения производительности смотрите на результаты тестов, а не на необработанные данные.

Чем больше ядер CUDA лучше для редактирования видео?

Да, с убывающей доходностью выше 10 000. Профессиональная работа в формате 4K/8K стоит от 12 000 до 16 000. Качество NVENC и емкость VRAM имеют одинаковое значение.

Модель графического процессора	Ядра CUDA	видеопамять	Пропускная способность памяти	Архитектура	Лучшее для
РТХ 5090	21,760	32GB GDDR7	1792 ГБ/с	Блэквелл	Флагманская рабочая станция, рендеринг 8K
РТХ 4090	16,384	24GB GDDR6X	1008 ГБ/с	Ада Лавлейс	Высококлассный искусственный интеллект, рендеринг 4K
H100 SXM5	16,896	80GB HBM3	3350 ГБ/с	Хоппер	Масштабное обучение искусственному интеллекту
H100 PCIe	14,592	80GB HBM2e	2000 ГБ/с	Хоппер	Корпоративный искусственный интеллект, экономичный центр обработки данных
А100	6,912	40/80 ГБ HBM2e	1555–2039 ГБ/с	Ампер	Искусственный интеллект среднего уровня, проверенная надежность
РТХ 4080	9,728	16GB GDDR6X	736 GB/s	Ада Лавлейс	Игры, искусственный интеллект среднего уровня
L40S	18,176	48GB GDDR6	864 GB/s	Ада Лавлейс	Центр обработки данных с несколькими рабочими нагрузками