결정하고 있다면 H100 대 RTX 4090 AI 용도로 선택할 때, 대부분의 '벤치마크'는 모델과 캐시가 실제로 VRAM에 맞을 때까지는 큰 의미가 없습니다. RTX 4090는 24 GB 이내에서 단일 GPU 작업을 처리하기에 최적의 선택입니다.
더 큰 모델, 높은 동시 접속, 다중 사용자 격리, 또는 메모리 관리에 드는 시간을 줄여야 할 때는 H100를 선택하세요.
워크로드별로 분류하고, 벤치마크 유형을 설명한 다음, 직접 사용 중인 스택에서 바로 실행할 수 있는 빠른 테스트 계획을 제시하겠습니다.
AI 워크로드에서 H100 vs RTX 4090: 빠른 답변
H100 대규모 모델 학습과 본격적인 서빙에는 H100가 적합합니다. 대용량 HBM, 높은 메모리 대역폭, NVLink, 그리고 격리를 위한 MIG를 제공하기 때문입니다. RTX 4090 워크로드가 24 GB 안에 무리 없이 들어온다면, 더 나은 가격에 단일 GPU 성능을 원하는 경우 RTX 4090가 유리합니다. 스펙과 플랫폼 기능을 보면 선택이 비교적 명확합니다.
사용 목적별 빠른 선택 가이드:
- 로컬 LLM 개발자 (개인 개발자 / 학생): VRAM가 병목이 되기 전까지는 RTX 4090.
- 스타트업 ML 엔지니어 (MVP 출시): 초기 서빙과 파인튜닝에는 RTX 4090, 안정적인 동시 처리나 더 큰 모델이 필요해지면 H100.
- 응용 연구자 (실험 중심): OOM, 배치 한계, 또는 긴 컨텍스트 문제가 반복된다면 H100.
- 프로덕션 / 플랫폼 팀 (멀티 테넌트 서빙): MIG 슬라이싱, 더 넉넉한 여유 공간, 부드러운 확장을 위해 H100.
이 기준을 바탕으로, 이 글의 나머지 부분에서는 실제 현장에서 마주치는 한계와 벤치마크 수치가 그 한계와 어떻게 맞닿아 있는지를 살펴봅니다.
고려해야 할 유일한 벤치마크 질문: VRAM에 무엇을 담을 수 있는가?
에 관한 대부분의 논쟁은 H100 대 RTX 4090 기술적으로는 VRAM 논쟁입니다. LLM 작업에서 VRAM는 무게, 활성화 훈련 중에, 최적화 상태 학습 시, 그리고 KV 캐시 추론 중에 소모됩니다. 마지막 항목은 컨텍스트 길이와 동시 요청 수에 따라 늘어나기 때문에 예상 밖으로 느껴지는 경우가 많습니다.
아래 표는 의도적으로 개략적인 수준입니다. 정확한 적합 여부는 프레임워크, 정밀도, 오버헤드에 따라 달라집니다.
"문제없이 들어가는가?" 기준으로 본 표:
| 작업 부하 | RTX 4090 (24 GB) 단일 GPU 실제 상황 | H100 (80~94 GB) 단일 GPU 실제 상황 |
| 7B LLM 추론 (FP16 / BF16) | 보통 괜찮음 | 여유로운 성능 |
| 13B LLM 추론 | 여유가 부족한 경우가 많고, 컨텍스트에 따라 다름 | 보통 괜찮음 |
| 70B급 추론 | 강도 높은 양자화 또는 오프로드 필요 | 훨씬 현실적 |
| SD/SDXL 추론 + 소규모 배치 | 보통 괜찮음 | Fine, 더 넓은 배치 여유 포함 |
| 높은 동시성으로 서빙 | KV 캐시 압박이 빠르게 나타남 | 여유 공간이 많아 부하 시 더 안정적 |
더 넓은 GPU 후보 목록(이 두 가지에 국한하지 않고)을 원한다면, 저희 2025년 머신 러닝에 최적인 GPU 는 일반적인 AI GPU의 VRAM 및 메모리 대역폭을 한눈에 비교할 수 있는 참고 표입니다.
워크로드가 적합한지 확인했다면, 다음으로 체감 성능을 결정하는 요소는 메모리 대역폭입니다.
대역폭: HBM이 다르게 느껴지는 이유
AI 성능 논의에서는 연산 피크에 집중하는 경우가 많지만, 트랜스포머는 메모리 이동에 극도로 민감합니다. H100의 강점은 대용량 HBM 풀과 높은 메모리 대역폭을 결합하고, 플랫폼 측면에서 NVLink 대역폭과 MIG 파티셔닝을 제공한다는 점입니다.
사양 스냅샷
스펙만으로는 어떤 GPU를 선택할지 결정할 수 없지만, 동일한 워크로드가 한 카드에서는 여유롭게, 다른 카드에서는 빠듯하게 느껴지는 이유를 설명해 줍니다. 이 비교표는 LLM 학습, 추론, 서빙 성능에 가장 큰 영향을 미치는 항목을 보여줍니다.
| 사양 | H100 (SXM / NVL) | RTX 4090 |
| VRAM | 80 GB / 94 GB | 24 GB |
| 메모리 대역폭 | 3.35–3.9 TB/s | GDDR6X (24GB로 용량 제한됨) |
| 상호연결 | NVLink + PCIe Gen5 | PCIe (소비자용 플랫폼) |
| 다중 인스턴스 | 최대 7개의 MIG 인스턴스 | 해당 없음 |
사양 참조: NVIDIA H100, NVIDIA RTX 4090.
실제로는 이렇게 적용됩니다:
- 배치 크기나 컨텍스트 길이를 늘리려 할 때, H100는 트레이드오프가 발생하기 전까지 더 오래 안정적인 상태를 유지하는 경향이 있습니다.
- 동시에 많은 요청을 처리할 때, H100는 메모리 여유 공간이 더 넓어 꼬리 지연 시간이 불안정해지는 시점이 늦습니다.
- 작업이 주로 단일 사용자, 단일 모델, 적당한 컨텍스트 수준이라면, 4090은 빠르고 만족스러운 경험을 제공하는 경우가 많습니다.
다만 대역폭이 제대로 된 벤치마킹을 대신할 수는 없습니다. 좁은 테스트에서는 비슷해 보이는 두 GPU가 실제 부하에서 차이를 보이는 이유를 설명해 줄 뿐입니다.
신뢰할 수 있는 H100 vs RTX 4090 벤치마크

벤치마크는 모두 같지 않습니다. "내 수치와 네 수치가 다르다"는 말이 끊이지 않는 이유도 그 때문입니다. H100 대 RTX 4090의 경우, 벤치마크를 두 가지 방식으로 구분하는 것이 도움이 됩니다:
- 레인 A (커뮤니티 체감): llama.cpp-style tokens/sec tests and simple inference scripts.
- 레인 B (표준화된 테스트): 반복 가능한 규칙에 초점을 맞춘 MLPerf Training 및 MLPerf Inference 방식의 결과.
Llama.cpp 방식 추론 스냅샷
이런 테스트는 집에서 돌려보고 사흘 동안 논쟁하는 종류입니다. 실제로 많은 개발자가 쓰는 툴체인을 반영한다는 점에서 유용하지만, 적합성과 정밀도를 무시하면 결과를 잘못 읽기 쉽습니다.
공개 llama.cpp 스타일 비교 RTX 4090는 소형 모델과 양자화 실행에서 매우 좋은 결과를 보이는 반면, 높은 정밀도의 대형 모델은 VRAM의 한계를 훌쩍 넘어섭니다.
예상할 수 있는 패턴은 다음과 같습니다:
| 모델 | GPU | 일반적인 결과 |
| 7B 클래스 | RTX 4090 | 높은 tokens/sec, 단일 사용자 추론 원활 |
| 13B 클래스 | RTX 4090 | 여전히 양호하지만 컨텍스트와 오버헤드가 영향을 미치기 시작 |
| 70B 클래스 | RTX 4090 | 적극적인 양자화/오프로드 없이는 깔끔하게 맞지 않음 |
| 70B 클래스 | H100 | 상주시키고 안정적으로 서빙하기에 훨씬 현실적 |
이 표의 핵심은 '4090이 나쁘다' 또는 'H100가 특별하다'는 게 아닙니다. VRAM의 한계가 얼마나 많은 것을 상주시킬 수 있는지를 결정하고, 그것이 속도, 안정성, 그리고 직접 손봐야 하는 양에 영향을 미친다는 점입니다.
컨텍스트 길이를 계속 줄여가며 겨우 버티고 있다면, 그 순간 이 비교는 더 이상 이론적인 이야기가 아닙니다.
포럼 벤치마크에는 없는 MLPerf의 가치
MLPerf는 수천 달러짜리 결정을 내릴 때 '임의 스크립트와 감'으로는 부족하기 때문에 존재합니다. MLCommons는 최신 생성형 AI 스타일 워크로드를 시간이 지나면서 추가해왔으며, MLPerf는 시스템 간 결과 비교를 더 용이하게 설계되었습니다.
학습 측면에서는, NVIDIA의 MLPerf Training v5.1 분석 자료가 벤더가 제출 환경과 적용 벤치마크 규칙을 명시하면서 학습 소요 시간을 보고하는 방식의 좋은 예입니다.
이 영역은 여러분의 프라이빗 프롬프트가 어떻게 동작하는지는 알려주지 않습니다. 하지만 시스템 수준의 확장성과 '이 등급의 하드웨어가 규칙 아래서 어떻게 동작하는지'를 검증하는 기준점이 됩니다.
이제 구매 결정에 가장 큰 영향을 미치는 부분, 즉 작업을 완료하는 데 드는 시간과 비용 이야기를 해보겠습니다.
비용, 시간, 기회비용

많은 H100 대 RTX 4090 '구매 가격 대 임대 가격'이라는 틀로 결정을 바라보는 경우가 많습니다. 하지만 그건 대부분 올바른 틀이 아닙니다. 더 나은 질문은 이것입니다. 실제로 사용할 수 있는 모델을 만드는 데 몇 시간이 걸리며, 제약과 싸우느라 낭비하는 시간은 얼마나 되는가.
세 가지 일반적인 시나리오가 트레이드오프를 꽤 명확하게 보여줍니다.
소형에서 중형 모델의 주간 파인튜닝
매번 타협 없이 24 GB 안에서 실행이 끝난다면 4090 경로가 만족스럽습니다. 빠르게 반복할 수 있고, 클러스터 시간을 예약할 필요도 없으며, 설정도 간단합니다. 하지만 매번 '배치 줄이고, 컨텍스트 자르고, 재시도'를 반복하게 된다면, 높은 비용에도 불구하고 H100가 훨씬 합리적인 선택입니다.
실제 동시 요청 처리
동시 요청이 늘어나면 KV 캐시 부하가 빠르게 증가합니다. 특히 예측 가능한 지연 시간이 필요한 경우, 바로 이 지점에서 H100의 여유 용량과 플랫폼 제어 기능이 빛을 발합니다.
GPU 서버가 내 배포 환경에 적합한지 아직 판단이 서지 않는다면, 저희 GPU VPS 대 CPU VPS 분석 자료를 참고해 보세요. 잘못된 부분을 최적화하느라 시간을 낭비하기 전에, 워크로드와 인프라 유형을 미리 맞춰볼 수 있습니다.
기한이 있는 대규모 학습 작업
혼자 한 대의 서버로 운영하는 단계를 넘어서는 순간, 신경 써야 할 것들이 생깁니다. 안정적인 환경, 적은 장애 원인, 그리고 사실상 서버 돌봄에 낭비되는 시간을 줄이는 것들입니다. H100는 바로 그런 환경을 위해 설계되었습니다.
이 섹션을 읽고도 여전히 결정이 어렵다면, 다음 단계는 더 많은 문서를 읽는 것이 아닙니다. 드라이버 마찰과 다중 사용자 워크로드를 포함해 실제 환경에서 내 스택이 어떻게 동작하는지 확인하는 것입니다.
소프트웨어 및 운영: 드라이버, 안정성, 다중 사용자, 지원
대부분의 벤치마크 차트가 생략하는 부분이지만, 실제 일상 운영에서는 큰 비중을 차지합니다.
RTX 4090는 많은 AI 워크플로우에서 접근하기 쉽고 빠르기 때문에 널리 쓰입니다. 단점은 사용 범위가 커질수록 메모리 한계와 다중 테넌트 환경에 맞지 않는 확장 방식에서 제약을 만날 가능성이 높아진다는 점입니다.
H100는 클러스터 환경에 맞춰 설계되었습니다. MIG는 플랫폼 팀에게 중요한 기능입니다. GPU 하나를 독립된 슬라이스로 나눌 수 있어 '노이지 네이버' 문제를 줄이고 용량 계획을 훨씬 수월하게 만들어 줍니다. NVIDIA 공식 H100 사양에 따르면 폼 팩터에 따라 최대 7개의 MIG 인스턴스를 지원합니다.
워크로드가 개인적이고 로컬 환경에서 돌아간다면 4090으로도 오랫동안 충분히 사용할 수 있습니다. 워크로드가 다중 사용자 대상이거나 고객에게 직접 노출된다면 H100가 더 안전한 선택입니다.
그렇다면, 결국 누가 무엇을 선택해야 할까요?
워크로드에 맞는 선택은 무엇인가

위해 H100 대 RTX 4090, 결국 올바른 선택은 나의 가장 큰 걸림돌을 해소해 주는 것입니다.
로컬 LLM 빌더 (개인 개발자 / 학생)
주로 7B~13B 범위에서 양자화 추론을 실행하거나, RAG를 실험하거나, SDXL 작업을 한다면 RTX 4090를 선택하세요. 원래 만들려던 것보다 메모리 제약을 해결하는 데 더 많은 시간을 쏟게 된다면 그때 상위 모델로 넘어가면 됩니다.
스타트업 ML 엔지니어 (MVP 출시 단계)
MVP가 단일 모델이고 트래픽이 적당하며 메모리 여유가 충분하다면 4090도 좋은 시작점입니다. 트래픽 급증 시 안정적인 지연 시간이 필요하거나, 더 높은 동시 처리량 또는 호스트당 여러 워크로드가 필요하다면 H100가 더 안정적인 선택입니다.
응용 연구자 (실험이 많은 환경)
배치 크기를 줄이거나 정밀도를 조정하는 타협을 자주 해야 한다면, H100로 더 깔끔한 실험 환경과 적은 실패 횟수를 확보할 수 있습니다.
프로덕션 / 플랫폼 팀 (다중 테넌트 서빙)
H100는 명확한 선택입니다. MIG와 넉넉한 여유 용량 덕분에 용량 계획이 수월해지고, 트래픽이 급증하더라도 영향 범위를 효과적으로 줄일 수 있습니다.
하드웨어 구매를 아직 결정하기 어렵다면, 렌탈이 지금 당장 취할 수 있는 최선의 선택입니다.
실용적인 중간 선택: 먼저 GPU를 임대해보고 결정하세요
가장 확실한 비교 방법은 H100 대 RTX 4090 실행하는 것입니다 당신의 모델, 당신의 프롬프트, 및 당신의 두 종류의 하드웨어에서 동일한 컨텍스트 길이로 테스트한 뒤, 부하 상태에서 tokens/sec와 tail latency를 비교하는 것입니다.
바로 그래서 저희가 Cloudzy GPU VPS을 만들었습니다. GPU 서버를 1분 안에 시작하고, root 권한으로 직접 스택을 설치해, 남의 벤치마크에 의존하지 않고 직접 확인할 수 있습니다.
저희 GPU VPS 플랜에서 제공하는 사양:
- 전용 NVIDIA GPU (RTX 4090 및 A100급 옵션 포함) — 노이지 네이버 없이 안정적인 성능을 보장합니다.
- 최대 40 Gbps 네트워킹 모든 GPU 플랜에 포함됩니다. 데이터셋 다운로드, 멀티 노드 워크플로우, 아티팩트 이동 속도에서 체감 차이가 큽니다.
- NVMe SSD 스토리지, 그리고 DDR5 RAM 모든 티어에 고주파 CPU 옵션이 제공됩니다. 나머지 시스템이 GPU 성능을 끌어내리지 않습니다.
- DDoS 보호 그리고 a 99.95% 업타임장시간 작업이 예상치 못한 네트워크 불안정으로 중단되지 않습니다.
- 시간 단위 청구 (단기 벤치마크 스프린트에 유용합니다) 및 14일 환불 보장 부담 없이 테스트할 수 있습니다.
먼저 RTX 4090 플랜에서 동일한 벤치마크 체크리스트를 실행해보고, 더 긴 컨텍스트, 높은 동시 요청, 또는 더 큰 모델을 다루게 되면 A100급 플랜으로 반복하세요. 그 이후 H100 대 RTX 4090 어떤 플랜을 선택할지는 직접 기록한 로그를 보면 자연스럽게 답이 나옵니다.
벤치마크 체크리스트: 30분 안에 직접 측정하기
근거 있는 결정을 내리고 싶다면, 실제로 배포할 스택에서 다음 네 가지 수치를 직접 측정하세요:
- 토큰/초 목표 컨텍스트 길이에서의
- p95 지연시간 예상 동시 요청 수에서의
- VRAM 여유 가장 부하가 높은 구간 중
- 완료된 실행당 비용 시작부터 아티팩트까지
vLLM를 이용한 최소 스모크 테스트 예시:
pip install vllm transformers accelerate
python -m vllm.entrypoints.api_server \
--model meta-llama/Llama-3-8B-Instruct \
--dtype float16 \
--max-model-len 8192
실제로 무엇을 임대하는지 명확히 파악하고 싶다면, 저희 포스트 GPU VPS란? 에서 전용 GPU 액세스, vGPU 공유 방식, 그리고 플랜 선택 전 확인해야 할 항목들을 정리해두었습니다.