1년 전만 해도 1조 개의 파라미터를 가진 언어 모델을 돌린다는 것은 서버실이 필요하다는 뜻이었습니다. 랙, 냉각 장치, 그리고 따로 회의를 잡아야 할 만큼의 전기 요금까지. 그런데 AMD가 책상 위에 올려둔 미니 PC 네 대(한 번에 두 대씩 들고 다닐 수 있는 그런 크기)가 같은 일을 해내는 개발자 기술 문서를 공개했습니다. 똑같이 생긴 작은 상자 네 대를 케이블로 연결해서, 도심 길거리에서 눈으로 볼 수 있는 별보다 더 많은 파라미터를 가진 모델을 돌린 것입니다.
헤드라인은 저절로 써집니다. "클라우드 없음. 데이터센터 없음." 그리고 그건 사실입니다. AMD는 정말로 1.04조 개의 파라미터를 가진 모델을 네 대의 Framework Desktop 시스템 소비자용 실리콘이 들어간 상태로 돌렸습니다.
하지만 헤드라인이 건너뛴 부분이 있고, 바로 그 부분이 이것이 이정표인지 마술 트릭인지를 결정합니다. "1조 파라미터"를 기술적으로 정직하게 만드는 아키텍처 세부 사항이 있고, 이걸 실제로 쓸 수 있는지를 결정하는 함정이 있으며, 그리고 이것이 과장이든 반발이든 어느 쪽이 인정하는 것보다 더 중요한 이유가 있습니다.
요약
- 이 모델은 Kimi K2.5이고, Mixture-of-Experts 설계입니다. 전체 파라미터는 1.04조 개지만, 주어진 토큰 하나당 작동하는 것은 약 320억 개뿐입니다. "1조 파라미터 모델"이라는 말은 정확합니다. 토큰당 연산량은 32B급 워크로드에 더 가깝습니다.
- 이 클러스터는 초당 약 8에서 9.5 토큰을 생성하며, 첫 토큰까지 걸리는 시간은 프롬프트 길이에 따라 39.7초에서 239.1초까지 다양합니다. 배치 작업에는 괜찮습니다. 대화형 코딩 루프에는 가혹합니다.
- 달라진 것은 속도가 아닙니다. 통합 메모리가 프런티어급 추론을 사서 선반에 올려둘 수 있는 하드웨어 위로 가져왔다는 점이며, 예전에는 "데이터센터를 소유한" 데서부터 시작하던 범주였습니다.
AMD가 실제로 한 일
구성은 펼쳐놓고 보면 거의 맥이 빠질 정도입니다. 네 대의 Framework Desktop 머신, 각각 Ryzen AI Max+ 395와 128 GB의 LPDDR5X 통합 메모리를 탑재하고 있습니다. BIOS에서 각 노드는 최대 96 GB를 전용 VRAM으로 노출할 수 있으며, 네 노드 전체로는 384 GB입니다. AMD의 Linux 안내서는 이후 TTM/커널 설정을 사용해 이를 노드당 120 GB, 즉 전체 480 GB까지 끌어올립니다. 이것이 중요한 이유는 AMD가 사용한 Kimi K2.5 UD_Q2_K_XL GGUF 빌드가 240 GB가 아니라 375 GB로 표기되어 있기 때문입니다.
이 모든 것을 연결하는 접착제는 다음 모드로 실행되는 llama.cpp입니다. RPC 모드: 컨트롤러 노드 한 대와 RPC 서버 세 대로, 모델은 네 머신 전체에 분산됩니다. AMD는 인터커넥트를 5 Gbps Ethernet으로 표기하는데, 이는 Framework Desktop에 내장된 5Gbit Ethernet 포트에 들어맞습니다. 그게 전체 장비입니다. 특이한 인터커넥트도, 맞춤 보드도, 오늘 오후에 주문할 수 없는 것은 아무것도 없습니다.
그 모든 것에서 흥미로운 단어는 통합입니다. 일반적인 PC에서는 CPU의 RAM과 GPU의 VRAM이 별개의 풀이고, VRAM에 비해 너무 큰 모델은 느린 시스템 메모리로 넘쳐흐르거나 아예 실행되지 않습니다. 통합 메모리는 그 벽을 허뭅니다. GPU가 전체 뱅크를 주소 지정할 수 있게 되며, 바로 이것이 4.5리터짜리 데스크톱이 애초에 이 크기의 모델 일부를 담을 수 있는 이유의 전부입니다.
AMD 자체의 기술 문서 는 구성을 상세히 다룹니다. 정작 제대로 다루지 않는 것은 왜 "1조 파라미터"가 보이는 것보다 더 많은 수사적 일을 하고 있는지입니다.
트릭: "1조 파라미터"가 사실이지만 진실의 전부는 아닌 이유
스펙 시트가 설명 없이 기대고 있는 핵심은 이것입니다. Kimi K2.5는 Mixture-of-Experts 모델이고, 이것이 실제로 "1조 파라미터"가 의미하는 바를 바꿔놓습니다.
대부분의 사람들이 떠올리는 종류인 밀집(dense) 모델은 모든 토큰에 대해 모든 파라미터를 실행합니다. 700억 파라미터 밀집 모델은 생성하는 단어마다 700억 파라미터어치의 연산을 합니다. Mixture-of-Experts 모델은 다르게 만들어졌습니다. Kimi K2.5에는 384개의 별도 "전문가"가 있고, 그중 8개가 토큰당 활성화되며 여기에 공유 전문가 하나가 더해져 61개 레이어에 걸쳐 있습니다. 그래서 모델이 총 1.04조 개의 파라미터를 지니고 있어도, 어느 단일 순전파에서든 그중 약 320억 개만이 켜집니다. 라우터가 어떤 전문가를 깨울지 고르고, 나머지는 그 토큰에 대해 아무 일도 하지 않고 그대로 있습니다.
그렇다면 "미니 PC 네 대에서 1조 파라미터 모델을 돌렸다"는 정직한가요? 그렇습니다. 1.04조 개의 파라미터를 전부 담으려면 실제로 그 메모리가 필요하고, 그 메모리가 어려운 부분입니다. 하지만 하드웨어가 토큰당 해야 하는 연산은 1T급이 아니라 32B급 작업입니다.
이것은 양쪽으로 작용하며, 바로 여기서 흥미로워집니다. 이것은 데모를 더 인상적으로 만드는데, 소비자용 상자에서 완전한 1조 파라미터 모델을 메모리에 담아두는 것이야말로 그들이 해낸 진짜 어려운 일이기 때문입니다. 그리고 이것은 데모를 덜 인상적으로 만들기도 하는데, 실제 토큰당 워크로드는 단일 상자들이 더 작은 MoE 모델에서 이미 더 빠르게 처리하는 무언가이기 때문입니다. 120B MoE 모델은 이 노드 중 하나에서 초당 50 토큰 넘게 돌아갑니다. 1조 파라미터라는 숫자는 진짜지만, 그것은 연산 자랑이 아니라 메모리 자랑입니다.
핵심 요점: 모델에 맞는 하드웨어를 가늠할 때, 머신이 토큰당 공급해야 하는 것은 상자에 올라간 총 파라미터 수가 아니라 활성 파라미터 수입니다.
함정: 초당 8토큰과 40초~4분의 대기가 실제로 의미하는 것
초당 8토큰은 모든 것을 결정하는 숫자이니, 잠시 그것에 머물러봅시다. AMD의 글은 클러스터가 8,192 토큰 컨텍스트에서 약 8.30 t/s, 정상 상태에서 대략 9.45 t/s를 생성하며 프롬프트 처리는 약 100.77 t/s라고 보고합니다. 그 정도면, 그것이 어떤 것인지를 감안하면 괜찮고 공정한 숫자들입니다.
아픈 것은 첫 토큰까지 걸리는 시간입니다. 모델이 단어 하나를 내놓기 전에 당신의 프롬프트를 읽어야 하고, AMD 자체 벤치마크 표는 그 대기 시간을 4,096 토큰 프롬프트에서 39.7초, 8,192 토큰 프롬프트에서 90.5초, Flash Attention을 켠 16,384 토큰 프롬프트에서 239.1초로 적고 있습니다. 그러니까 질문을 입력하면, 그다음 기다립니다. 무언가가 돌아오기까지 거의 4분 가까이일 수도 있습니다.
대화형 코딩 루프에는 그게 가혹하고, Hacker News 토론 의 개발자들은 그 점을 솔직하게 말했습니다. 첫 토큰이 나오기 전 1분 넘는 침묵은 누가 됐든 어시스턴트로 코드를 쓰는 방식에 맞지 않습니다. 하지만 워크로드를 뒤집어보세요. 밤새 배치 작업을 돌리거나, 문서를 비동기로 처리하거나, 나중에 읽을 것들을 생성하거나, 아무것도 건물 밖으로 나가지 않는 것이 핵심인 비공개 추론을 한다면, 초당 8토큰은 완전히 견딜 만합니다. 어차피 화면을 지켜보고 있던 게 아니니까요.
단서 조항: 이 숫자들이 곧바로 재현될 거라고 기대하지 마세요. 이 하드웨어의 ROCm 소프트웨어 스택은 물어뜯는 방식으로 버전에 민감합니다: 한 GitHub 이슈는 ROCm 7.1.1과 Linux 커널 6.14에서 LLM 추론 중 GPU 클럭이 유휴 상태에 멈춰 0.5 t/s로 기어가는 Strix Halo 시스템을 기록했습니다. 그것은 "AMD가 망가졌다"는 뜻은 아니지만, 공개된 성능이 매우 특정한 소프트웨어 스택에 달려 있다는 뜻이고, 당신의 장비가 기술 문서의 숫자에 맞아떨어지기 전까지 ROCm, 커널, 펌웨어 조합을 쫓아다니게 될 수도 있다는 뜻입니다.
반발이 잘못 짚는 것이 하나 더 있는데, 바로 비용입니다. 사람들은 계속 그것을 "1만 달러짜리 클러스터"라고 부르지만, 아무도 그것을 고정된 자재 명세서로 발표하지 않습니다. 직접 계산해 보세요. $1,999 출시 가격의 128 GB Framework Desktop 네 대라면 머신만으로 약 $8,000이 되고, 한편 2026년 3월 Liliputing 스냅샷 은 128GB/1TB Framework Desktop 구성을 $2,851로, 즉 네 대에 약 $11,400(네트워킹 제외)로 적었습니다. 스위치와 케이블에 몇백 달러를 더하면, 실질적인 범위는 구성, 구매 시점, 그리고 이미 가지고 있는 것에 따라 대략 $8.2K에서 $11.7K에 더 가깝습니다. 아무것도 아닌 것은 아닙니다. 그렇다고 서버실도 아닙니다.
이 모든 것에 대한 제 결론은 이렇습니다. 클러스터는 작동합니다. 초당 8토큰과 1분 넘는 대기가 쾌거인지 장난감인지는 전적으로 당신이 무엇을 만들려 하느냐에 달려 있습니다. 그것은 대화형 코딩 워크스테이션이 아닙니다. 그것은 또한 장난감도 아닙니다. 그것은 특정한 종류의 인내가 필요한 작업을 위한 진짜 머신이고, 그것을 그 이상이나 그 이하인 척하는 것이 바로 이 논쟁의 모두가 서로 엇갈려 말하게 되는 방식입니다.
이것이 실제로 놓이는 자리
정직한 틀은 "AMD가 Nvidia를 이겼다"가 아닙니다. 이것은 다른 사람을 위한 다른 제품이라는 것입니다. 이것을 원하는 독자는 프라이버시가 필요하거나, 오프라인을 원하거나, 영원히 토큰당 비용을 내고 싶지 않은 사람이지, 가능한 한 가장 빠른 응답을 쫓는 사람이 아닙니다.
그리고 이 전체 시도에 대한 가장 강력한 반론은 솔직한 답을 받을 자격이 있습니다: 그냥 Kimi의 API를 쓰면 됩니다. Artificial Analysis는 현재 Kimi 자체의 K2.5 엔드포인트 를 초당 약 56에서 60 토큰, 백만 토큰당 약 $0.49의 혼합 가격으로 등재하고 있고, 한편 Kimi의 공식 API 플랫폼 은 K2.5 가격을 캐시 적중 입력 토큰 $0.10/M, 입력 토큰 $0.60/M, 출력 토큰 $3.00/M으로 적고 있습니다. 서드파티 K2.5 제공업체는 라우팅에 따라 더 빠르거나 더 저렴할 수 있지만, 기본 요점은 같습니다: API는 클러스터보다 빠르고, 하드웨어를 돌볼 필요가 없으며, 대부분의 사람에게 대부분의 날에는 옳은 선택일 것입니다.
그러니 로컬 이야기는 세 가지 중 하나가 참일 때만 말이 됩니다: 데이터가 떠날 수 없거나(프라이버시), 연결을 가정할 수 없거나(오프라인), 토큰 볼륨이 충분히 높고 충분히 지속되어 금속을 소유하는 것이 영원히 빌리는 것보다 나은 경우(규모의 비용)입니다. 그 세 가지 밖에서는 API가 이깁니다. 그 안에서는 클러스터가 애초에 그 일을 해내는 유일한 것입니다.
| 차원 | AMD 4노드 클러스터 | Kimi API / 클라우드 경로 |
|---|---|---|
| 생성 속도 | 약 8에서 9.5 t/s | Kimi 자체 K2.5 엔드포인트에서 약 56에서 60 t/s |
| 첫 토큰까지 걸리는 시간 | 39.7에서 239.1초 | 제공업체에 따라 다름, 훨씬 낮음 |
| 비용 모델 | 약 $8.2K에서 $11.7K 하드웨어 | 토큰당 API 가격 |
| 프라이버시 / 오프라인 | 완전 로컬 | 제공업체 호스팅 |
| 최적 사용 사례 | 비공개, 오프라인, 배치 작업 | 대화형/API 사용 |
참고로, Nvidia의 DGX Spark가 여기서 명백한 "그런데 그건 어쩌고" 대상이고, AMD 클러스터가 못하는 몇몇 축에서는 그것이 이깁니다. 그건 완전히 별개의 싸움이고, 다른 곳에서 다루겠습니다. 하드웨어 대 클라우드 결정의 임대 쪽을 원한다면, Cloudzy의 GPU VPS 페이지가 더 실용적인 비교 지점입니다.
실제로 중요한 부분
토큰 속도와 가격 논쟁을 걷어내고 나면, 한 가지 사실이 남아 서 있습니다: 1조 파라미터 모델을 돌리는 하드웨어는 이제 건물이 아니라 선반입니다.
그것이 그 전환이고, 속도 다툼 아래에서 놓치기 쉽습니다. 1년 전, 1.04조 파라미터 모델을 돌릴 수 있는 사람들의 범주 는 "데이터센터 운영자"였습니다. 그게 전부였습니다. 이제 그 범주에는 대략 1만 달러와 약간의 인내심을 가진 누구나가 포함됩니다. 선이 조금 움직인 게 아닙니다: 완전히 새로운 집단의 사람들이 방금 잠겨 있던 문을 통과해 걸어 들어왔습니다.
그것이 열어주는 것이 흥미로운 부분입니다. 당신이 소유한 하드웨어 위에서 전적으로 돌아가는 비공개 에이전트. 비행기 안이나 에어 갭 뒤에서도 작동하는 추론. 전화를 걸 곳이 어디에도 없기에 물리적으로 집에 전화를 걸 수 없는 모델. 토큰의 한계 비용이 미터제 API 회선이 아니라 전기인 AI의 경제학. 그중 어느 것도 1년 전에는 소비자용 하드웨어로 닿을 수 없었고, 통합 메모리가 그것에 닿게 한 바로 그것입니다.
저는 "이것이 모든 것을 바꾼다"는 패턴을 충분히 자주 지켜봐서 경계심이 듭니다. 보통은 그렇지 않습니다. 보통은 작년 것에 새 로고를 단 것입니다. 이번 것은 다르고, 그것이 빠르기 때문은 아닙니다. 그것은 바닥이 움직였기 때문에 다릅니다. 프런티어급 로컬 추론의 느리고 비싸고 인내가 필요한 버전이 이제 존재하고, 빠른 버전은 다음 몇 세대의 하드웨어가 그것을 갈아내는 문제일 뿐입니다. 어려운 부분은 결코 속도가 아니었습니다. 어려운 부분은 접근성이었고, 접근성은 방금 일어났습니다.
여기서의 이정표는 속도가 아닙니다. 누가 그 방에 들어오도록 허락되느냐입니다. 프런티어급 모델을 돌리는 머신은 예전에 건물이었습니다. 이제는 선반 위의 상자 네 대입니다.
자주 묻는 질문
정말로 미니 PC 클러스터에서 1조 파라미터 모델을 돌릴 수 있나요?
네, 한 가지 중요한 단서와 함께. AMD는 1.04조 파라미터 모델인 Kimi K2.5를 Ryzen AI Max+ 395 미니 PC 네 대에 걸쳐 돌렸습니다. BIOS에서 네 시스템은 총 약 384 GB의 전용 VRAM을 노출할 수 있고, AMD의 Linux 안내서는 이후 TTM/커널 설정을 통해 할당을 총 480 GB까지 끌어올립니다. 하지만 Kimi K2.5는 Mixture-of-Experts 모델입니다: 그 1.04조 파라미터 중 어느 주어진 토큰에서든 약 320억 개만 활성화됩니다. 그것들을 전부 담을 메모리는 필요하지만, 토큰당 연산은 320억 파라미터 워크로드에 더 가깝습니다.
Kimi K2.5는 무엇이며 왜 여기서 MoE 아키텍처가 중요한가요?
Kimi K2.5는 Moonshot AI가 만든 오픈 웨이트 언어 모델로, 총 1.04조 파라미터에 순전파당 320억 개가 활성화되며, Mixture-of-Experts 설계(384개 전문가, 토큰당 8개 활성화 더하기 공유 하나) 위에 구축되었습니다. 이 아키텍처가 중요한 이유는 총합이 아니라 활성 파라미터 수가 토큰마다 하드웨어가 연산해야 하는 것이기 때문입니다. 그것이 종이 위에서 1조 파라미터를 가진 모델이 애초에 소비자용 상자에서 돌아갈 수 있는 이유입니다.
초당 8토큰이 로컬 AI에 충분히 빠른가요?
전적으로 워크로드에 달려 있습니다. 배치 처리, 비동기 작업, 오프라인 사용, 또는 아무것도 당신의 하드웨어를 떠날 수 없는 비공개 추론에는 초당 8토큰이면 괜찮습니다. 화면을 응시하고 있는 게 아니니까요. 대화형 코딩에는 가혹한데, 주된 이유는 이 클러스터의 첫 토큰까지 걸리는 시간이 프롬프트 길이에 따라 약 40초에서 거의 4분까지이고, 첫 단어 전의 그 침묵이 반복 루프를 죽이기 때문입니다.
그냥 Kimi의 API를 쓰면 안 되나요?
대부분의 사람에게는, 그래야 합니다. Kimi 자체의 K2.5 엔드포인트는 현재 Artificial Analysis 데이터에서 로컬 클러스터보다 훨씬 빠르고, 서드파티 K2.5 제공업체는 더 빠르거나 더 저렴할 수도 있습니다. 로컬 하드웨어는 프라이버시(데이터가 떠날 수 없음), 오프라인 능력(가정할 연결이 없음), 또는 규모의 비용(소유가 임대를 이기는 지속적인 고볼륨)이 필요할 때만 말이 됩니다. 그 경우들 밖에서는 API가 더 나은 선택입니다.