통합 메모리란 무엇인가? 미니 PC가 235B AI 모델을 실행하는 이유

약 2,000~3,000달러 상당의 통합 메모리 미니 PC는, 다음에는 들어가지 않는 심하게 양자화된 일부 235B급 모델을 로드할 수 있다 단일 H100급 GPU.

거꾸로 들리겠지만, 정확히 비교해 보자. 비싼 카드는 훨씬 빠르지만 로컬 GPU 메모리는 더 작다. 책상 위의 작은 상자는 더 큰 공유 풀을 가지고 있을 수 있어서, 생성 속도가 느려도 모델은 로드될 수 있다.

어떻게 라는 질문에 대한 한 단어짜리 답은 "통합 메모리"다. 이는 많은 신형 AI 미니 PC와 Mac의 스펙 시트에 헤드라인 숫자("128GB 통합 메모리")로 인쇄되어 있지만, 그것이 실제로 무엇을 하는지 설명하는 사람은 거의 없다. 그래서 여기서 할 일이 바로 그것이다. 끝까지 읽으면 통합 메모리가 무엇인지, 왜 작은 기계가 다음을 실행할 수 있게 해주는지 알게 될 것이다 실행 예전에는 서버 랙이 필요했던 모델을 실행하게 해주는지, 그리고 아무도 헤드라인에 적지 않는 함정도 알게 될 것이다. 바로 그 모델을 느리게 실행한다는 것이다.

요약

통합 메모리는 칩의 CPU와 내장 GPU가 공유하는 하나의 물리적 메모리 풀이다, 별도의 시스템 RAM 옆에 있는 개별 그래픽 카드의 작고 분리된 VRAM 대신에.
그 공유 풀은 크며, GPU는 보통 개별 카드의 고정된 VRAM 한계보다 훨씬 더 많은 메모리에 접근할 수 있다, 다만 정확히 사용 가능한 양은 플랫폼, 펌웨어 설정, OS, 런타임에 따라 달라진다. 그래서 첫 번째 질문은 이렇게 된다: 이 양자화된 빌드가 사용 가능한 메모리에 들어가는가? 128GB 풀은 24GB나 32GB짜리 그래픽 카드가 결코 담을 수 없는 모델을 담을 수 있다.
함정은 크기가 아니라 속도다. 통합 메모리는 개별 카드의 VRAM보다 데이터를 훨씬 느리게 이동시킨다. 큰 모델은 실행된다. 다만 토큰을 느리게 생성할 뿐이다. 통합 메모리는 큰 모델을 실행하게 해주는 것이지, 빠르게 실행하게 해주는 것이 아니다.
"통합"은 하나의 단일한 것이 아니다. Apple의 버전은 사용자에게 대부분 보이지 않는다. AMD의 버전은 더 많은 조절 장치를 노출하는데, 펌웨어와 드라이버 설정이 GPU를 위해 예약되거나 실질적으로 사용 가능한 메모리 양에 영향을 줄 수 있기 때문이다. 그리고 메모리가 많다고 더 빠른 것은 아니다.

통합 메모리란 무엇인가?

두 가지 구성을 상상해 보자. 개별 그래픽 카드는 프로세서 바로 옆에 고정된 자체 메모리(VRAM)를 갖고 있다. 빠르지만 작다. 시스템 RAM은 CPU가 사용하는 두 번째, 별도의 풀이다. GPU에서 모델을 실행하려면 데이터를 먼저 시스템 RAM에서 PCIe 버스를 통해 VRAM으로 복사해야 한다. 두 개의 풀, 한 번의 복사 단계.

통합 메모리는 그 분리를 없앤다. 칩의 CPU와 내장 GPU가 모두 공유하는 단일한 물리적 메모리 풀로, GPU가 작고 별도인 VRAM 상자에 의존하는 대신 공유 풀에서 작동하게 해준다. Apple Silicon 같은 플랫폼에서는 이것이 또한 예전의 PCIe 간 복사 단계도 없애준다. Apple의 자체 아키텍처 설명 이를 CPU와 GPU가 PCIe 버스를 통해 데이터를 복사할 필요 없이 "같은 메모리에서 작동하는" 것으로 설명한다. 하나의 풀. 복사는 제로.

공유 풀은 보통 패키지에 납땜된 LPDDR5X 메모리인데, 이것이 크면서도 프로세서에 가깝게 만들어주는 이유다. 지금 대표적인 예는 Apple Silicon Mac, Ryzen AI Max+ 395 같은 칩을 중심으로 만들어진 AMD의 Strix Halo 시스템, 그리고 Nvidia의 DGX Spark다. AMD의 Ryzen AI Halo 개발자 플랫폼 256GB/s에서 128GB LPDDR5x 메모리를 표기하는 반면 Nvidia의 DGX Spark 273GB/s에서 128GB LPDDR5x 통합 시스템 메모리를 표기한다.

CPU와 내장 GPU 간의 공유 메모리는 새로운 것이 아니다. 노트북은 수년간 그렇게 해왔고, 보통은 타협이었다: 느린 메모리, 그마저도 많지 않은. 바뀐 것은 사용 가능한 대역폭에서의 용량이다. 공유 풀이 사용할 가치가 있을 만큼 충분히 빠른 상태를 유지하면서 128GB급 정도로 충분히 커지자, 매우 큰 오픈 웨이트 모델이 로컬에 들어갈 수 있는 선을 넘었다. 이야기는 그게 전부다. 아키텍처는 오래됐고, 크기가 새로운 것이다.

"VRAM과 비교하면"에 대한 참고: 사람들은 통합 메모리가 VRAM이냐고 묻는다. 정확히는 아니다. VRAM은 개별 카드에 있는 전용 그래픽 메모리로, 빠르고 분리되어 있다. 통합 메모리는 VRAM과 시스템 RAM 둘의 역할을 모두 하는 하나의 공유 풀이다. 개별 카드의 순수 속도를 크기와 복사 단계를 건너뛰는 능력과 맞바꾼다.

모델이 메모리에 들어가야 하는 이유는?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

일반적인 인메모리 추론의 경우, 모델의 가중치는 프로세서가 주소를 지정할 수 있는 메모리에 있어야 한다. 사용 가능한 메모리가 너무 작으면 모델은 해당 장치에서 깔끔하게 로드되지 않는다. 일부 도구는 모델의 일부를 CPU 메모리나 스토리지로 오프로드할 수 있지만, 이는 성능 프로파일을 크게 바꾸며 모델이 GPU 주소 지정 가능 메모리에 편안하게 들어가는 것과는 다르다. 용량은 속도에 관한 어떤 질문보다도 앞서는 엄격한 관문이다.

이것이 통합 메모리가 당기는 지렛대다. 많은 소비자용 그래픽 카드는 24GB 이하의 VRAM을 가지고 있고, 최상급 단일 소비자용 카드조차도 약 32GB 정도다. 700억 또는 2350억 파라미터 모델은 그러기엔 너무 크다. 235B 파라미터에 대한 순수 4비트 산술은 포맷 오버헤드, 런타임 버퍼, 컨텍스트 메모리를 더하기 전에 약 118GB에서 시작한다. 실제로는 실제 다운로드 가능한 빌드가 크게 다르다: 예를 들어, Ollama의 Qwen3-235B-A22B Q4_K_M 빌드 142GB로 표기되어 있는 반면, 더 공격적인 저비트 양자화는 128GB 통합 메모리 기계가 다룰 수 있는 범위에 더 가깝게 들어올 수 있다. 그래서 그 작업을 위해 만들어진 카드는 시작조차 하기 전에 공간이 부족해진다. (그 메모리 수치가 어떻게 계산되는지, 파라미터 곱하기 가중치당 바이트에 파일 크기가 숨기는 오버헤드를 더한 것은 그 자체로 별도의 주제이며, 양자화 수학에 관한 자매 아티클 그 계산을 다룬다.)

128GB 통합 풀은 한 가지 질문에 대한 답을 바꾼다: OS, 런타임, KV 캐시, GPU 할당 한도가 각자의 몫을 가져간 후에도 이 특정한 양자화된 빌드가 들어맞는가? 일부 공격적인 235B급 양자화의 경우, 그렇다. 그것이 소형 통합 메모리 상자가 때때로 더 작은 VRAM을 가진 GPU가 할 수 없는 모델 로드를 할 수 있는 이유다. 더 강력한 것이 아니다. 그저 모델을 넣을 더 큰 공간이 있을 뿐이다.

이것이 헤드라인들이 옳게는 짚지만 설명 없이 남겨두는 첫 번째 사실이다. 모델이 애초에 실행되는지 여부를 결정하는 것은 원초적인 성능이 아니라 풀의 크기다.

통합 메모리는 왜 그래픽 카드보다 느릴까?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

한 번에 토큰 하나씩 텍스트를 생성하는 것은 메모리에 의해 제한된다 대역폭, 프로세서가 얼마나 빨리 연산할 수 있느냐가 아니라. 생성하는 모든 토큰은 모델의 활성 가중치를 프로세서를 통해 스트리밍해야 하므로, 속도 상한은 메모리가 칩에 얼마나 빨리 데이터를 공급할 수 있느냐다. 이것이 단일 스트림 디코딩의 잘 알려진 단일 스트림 디코딩의 "메모리 바운드" 특성, 칩은 대부분의 시간을 연산이 아니라 메모리를 기다리는 데 쓴다.

그리고 대역폭이 바로 통합 메모리가 밀리는 지점이다. AMD의 Strix Halo 풀은 스펙상 256GB/s로 작동하며, llm-tracker.info의 독립적인 테스트는 실제로는 약 212GB/s로 측정한다. DGX Spark는 273GB/s다. 반면 고급 개별 그래픽 카드는 데이터를 몇 배나 더 빠르게 이동시킨다. 전용 VRAM이 바로 그것을 위해 만들어졌기 때문이다. 그래서 모델이 다음에 들어맞을 때 둘 다 통합 메모리 상자와 개별 카드 둘 다에, 개별 카드는 눈에 띄게 더 빠르게 토큰을 생성한다. 같은 모델, 같은 결과, 매우 다른 속도.

밀집(dense) 모델의 경우, 유용한 경험칙은 다음과 같다:

초당 토큰 수 ≈ 메모리 대역폭 ÷ 메모리 내 모델 크기.

이는 방향성을 나타낼 뿐 벤치마크는 아니지만, 트레이드오프를 설명해준다: 상주하는 가중치가 더 작거나 대역폭이 더 높으면 보통 더 빠른 디코딩을 의미한다. MoE 모델의 경우, 이 규칙을 총 파라미터 수에 직접 적용하지 마라. 용량은 여전히 저장된 전체 가중치에 달려 있지만, 토큰당 속도는 활성화된 경로, 라우팅 오버헤드, 캐시 동작, 구현 방식에 더 좌우된다.

한 가지 뉘앙스만 짚고 넘어가겠다: 요청에는 두 단계가 있다. 프롬프트를 읽는 것(프리필)은 연산에 의존한다. 답변을 생성하는 것(디코드)은 대역폭에 의존한다. 당신이 느끼는 느린 부분, 단어가 하나씩 나타나는 것은 대역폭에 묶인 부분이다.

그래서 스펙 시트가 건너뛰는 요점은 이것이다: 통합 메모리는 큰 모델을 실행하게 해주는 것이지, 빠르게 실행하게 해주는 것이 아니다. 용량 논쟁에서는 이기고 대역폭 논쟁에서는 진다. 그 거래가 가치 있는지는 전적으로 당신이 무엇을 하고 있는지에 달려 있으며, 그것은 구매 후에 발견하는 놀라움이 아니라 일부러 감수할 만한 공정한 거래다.

모든 통합 메모리는 다 같을까?

아니다. "통합"은 하나의 카테고리를 설명하는 것이지 단일한 구현을 설명하는 것이 아니며, 버전들은 중요한 방식으로 다르다. Apple의 버전은 사용자에게 대부분 보이지 않는다: 메모리는 기본적으로 공유된다. AMD의 Strix Halo는 더 손이 많이 간다: 펌웨어와 드라이버 설정이 GPU를 위해 예약되거나 실질적으로 사용 가능한 메모리 양에 영향을 줄 수 있다. 둘 다 통합 메모리다. 하지만 같은 경험은 아니다.

이 전체 주제가 만들어내는 오해를 짚고 넘어가자면, 가장 흔한 것이니까: 메모리가 더 많다고 추론이 더 빠른 것은 아니다. 그것은 더 큰 모델이 실행될 수 있다는 것을. 누군가 속도를 기대하며 128GB 상자를 사고, 24GB 개별 카드에도 들어가는 모델을 로드하고서, 작은 카드가 그랬던 것보다 더 느리게 실행되어 실망한다. 두 진술 모두 동시에 참이다: 큰 풀은 더 많이 담고, 작고 빠른 카드는 그들이 공유하는 것에 대해 더 빠르게 실행된다. 크기와 속도는 서로 다른 축이다. 통합 메모리는 그중 첫 번째만 사준다.

AMD 쪽에서 실무적으로 걸리는 부분: 풀의 얼마만큼이 실제로 모델에 사용 가능한지는 펌웨어 설정과 운영체제에 달려 있다. AMD의 Variable Graphics Memory FAQ 그 할당이 어떻게 작동하는지 다룬다. 짧게 말하면, 128GB 상자는 128GB 전부를 GPU에 주지 않으며, 사용 가능한 양은 VGM 설정, 예약된 시스템 메모리, OS, 런타임에 따라 달라진다는 것이다. 라벨의 숫자가 아니라 사용 가능한 메모리를 기준으로 계획하라.

프로 팁: 로컬 모델을 위해 기계 사양을 정할 때, 스펙 시트를 하나가 아니라 두 개의 숫자로 읽어라. 용량은 어떤 모델이 들어맞는지 알려준다. 대역폭은 그것들이 들어맞았을 때 얼마나 빠르게 실행될지 알려준다. 거대한 풀과 소박한 대역폭을 가진 상자는 큰 모델을 느리게 실행하는 상자이며, 그것이 미리 알고 있었다면 정확히 원하던 바일 수도 있다.

짚고 넘어갈 만한 경우가 하나 더 있다. 이 대형 풀 기계들에서 사람들을 헷갈리게 만들기 때문이다: Mixture-of-Experts 모델. 다음과 같은 모델은 Qwen3-235B-A22B 총 2,350억 개의 파라미터를 가지고 있지만 토큰당 약 220억 개만 활성화한다. 이는 활성화된 부분에만 메모리가 필요하다는 가정을 하게 만들기 쉽다. 일반적인 인메모리 추론에서는 그렇지 않다. 235B개의 가중치 전부가 런타임이 사용할 수 있는 어딘가에 여전히 상주해 있어야 한다. 어떤 토큰이든 어떤 전문가로도 라우팅될 수 있기 때문이다: 토큰당 연산량만 줄어들 뿐, 용량 요구 사항은 줄지 않는다. 바로 그 구분이 통합 메모리의 큰 풀이 제 값을 하는 지점이며, 양자화 수학에 관한 자매 아티클 그 수치들이 실제로 무엇을 의미하는지 짚어준다.

자주 묻는 질문

통합 메모리는 VRAM과 같은 것일까?

아니다. VRAM은 개별 그래픽 카드에 내장된 전용 고속 메모리로, 시스템 RAM과 분리되어 있다. 통합 메모리는 CPU와 GPU가 모두 사용하는 단일 공유 풀로, VRAM과 시스템 RAM의 역할을 동시에 수행한다. 통합 메모리는 보통 개별 카드의 VRAM보다 더 크지만 더 느리며, 두 풀 사이에 데이터를 복사하는 단계를 건너뛴다.

메모리에 다 들어가는데도 왜 내 로컬 모델은 느릴까?

들어맞는 것과 빠르게 실행되는 것은 서로 다른 두 가지이기 때문이다. 모델이 로드되는지 여부는 메모리 용량에 달려 있고, 텍스트를 얼마나 빠르게 생성하는지는 메모리 대역폭에 달려 있다. 통합 메모리는 용량은 충분하지만 개별 그래픽 카드보다 대역폭이 훨씬 낮아서, 편안하게 들어맞는 모델이라도 여전히 토큰을 느리게 생성할 수 있다. 밀집 모델의 경우 대략적인 관계는 초당 토큰 수 ≈ 대역폭 ÷ 모델 크기다. MoE 모델의 경우, 용량은 여전히 저장된 총 가중치에 달려 있지만 속도는 활성화된 경로와 런타임 구현에 더 좌우된다.

통합 메모리가 있어도 여전히 GPU가 필요할까?

내장 GPU는 이미 통합 메모리 칩의 일부이며, 그것이 모델을 실행하는 주체다. 진짜 질문은 별도의 개별 GPU도 원하는지 여부다. 많은 개별 카드는 훨씬 높은 대역폭을 제공하며 이는 더 빠른 생성을 의미하지만, 대형 통합 메모리 시스템보다 로컬 메모리가 적어서 가장 큰 모델을 단독으로 담지 못할 수도 있다. 통합 메모리는 더 낮은 속도로 큰 모델을 담을 수 있는 큰 풀을 준다. 어느 쪽을 원하는지는 모델 크기 대 속도에 달려 있다.

왜 미니 PC가 데이터센터 GPU가 필요한 모델을 실행할 수 있을까?

모델을 로드하는 데 병목은 메모리 용량이기 때문이며, 큰 통합 풀을 가진 미니 PC는 많은 단일 GPU 구성보다 더 많은 사용 가능한 모델 메모리를 가질 수 있다. 소비자용 GPU는 24~32GB의 VRAM을 가질 수 있고, 단일 H100급 데이터센터 GPU는 80~94GB를 가지는 반면, 일부 통합 메모리 시스템은 128GB 공유 풀을 광고한다. 모델의 가중치는 모두 프로세서가 접근할 수 있는 어딘가에 들어가야 한다. 큰 공유 풀은 그것들을 담지만, 작고 빠른 VRAM은 담지 못한다. 미니 PC가 더 강력한 것이 아니다. 그저 공간이 있을 뿐이다.

들어맞는 것이 승리다: 얼마나 필요한지는 다음 질문이다

통합 메모리의 기여는 한 가지 명확한 것이다: 작은 기계가 다음을 할 수 있게 해주는 크고 공유된 주소 지정 가능한 풀 담을 수 있게 예전에는 서버가 필요했던 모델을. 그것이 용량의 승리다. 대역폭 함정이 그 대가이며, 이제 어떤 숫자가 어떤 동작을 좌우하는지 알고 스펙 시트를 읽을 수 있다.

자연스러운 다음 질문은 이 기사가 계속 미뤄왔던 질문이다: 특정 모델이 실제로 얼마만큼의 메모리를 필요로 하는가? 이는 산술이다: 파라미터, 가중치당 바이트, 선택하는 압축 수준, 그리고 파일 크기가 숨기는 컨텍스트 세금. GGUF, GPTQ, AWQ, EXL2 양자화에 관한 자매 아티클 정확히 그 계산을 다루며, 기계 사양을 정하거나 모델을 고르기 전에 해볼 가치가 있다.

통합 메모리란 무엇이며, 왜 미니 PC가 235B 모델을 실행하게 해줄까?

요약