Setahun lalu, menjalankan model bahasa berparameter satu triliun berarti butuh ruang server. Rak, pendingin, tagihan listrik yang perlu rapat sendiri. Lalu AMD menerbitkan tulisan developer yang menunjukkan empat mini PC duduk di atas meja (jenis yang bisa Anda bawa dua sekaligus) mengerjakan pekerjaan yang sama. Empat kotak kecil identik, dikabelkan bersama, menjalankan model dengan parameter lebih banyak daripada bintang yang bisa Anda lihat dari jalanan kota.
Judulnya menulis dirinya sendiri: "Tanpa cloud. Tanpa data center." Dan itu benar. AMD memang benar-benar menjalankan model berparameter 1,04 triliun di empat sistem Framework Desktop dengan silikon konsumen di dalamnya.
Tapi ada bagian yang dilewatkan judul itu, dan itulah bagian yang menentukan apakah ini sebuah tonggak atau sekadar trik sulap. Ada detail arsitektur yang membuat "triliun parameter" jujur secara teknis, sebuah jebakan yang menentukan apakah Anda benar-benar bisa memakai benda ini, dan alasan mengapa ini lebih penting daripada yang diakui oleh hype maupun cibirannya.
Versi Singkat
- Modelnya adalah Kimi K2.5, dan ini merupakan desain Mixture-of-Experts: total 1,04 triliun parameter, tapi hanya sekitar 32 miliar di antaranya yang aktif pada setiap token. "Model berparameter triliun" memang akurat; komputasi per token-nya lebih dekat ke beban kerja kelas 32B.
- Klaster ini menghasilkan sekitar 8 sampai 9,5 token per detik, dengan time-to-first-token mulai dari 39,7 sampai 239,1 detik tergantung seberapa panjang prompt Anda. Cukup baik untuk pekerjaan batch. Brutal untuk loop coding interaktif.
- Yang berubah bukanlah kecepatannya. Yang berubah adalah unified memory menaruh inferensi skala frontier di hardware yang bisa Anda beli dan letakkan di rak, sebuah kategori yang dulu dimulai dari "punya datacenter."
Apa yang Sebenarnya Dilakukan AMD
Penataannya hampir antiklimaks begitu Anda melihatnya tergelar. Empat mesin Framework Desktop , masing-masing membawa Ryzen AI Max+ 395 dan 128 GB unified memory LPDDR5X. Di BIOS, tiap node bisa mengekspos hingga 96 GB sebagai VRAM khusus, atau 384 GB di keempat node; panduan Linux AMD lalu memakai pengaturan TTM/kernel untuk menaikkannya menjadi 120 GB per node, atau 480 GB total. Itu penting karena build Kimi K2.5 UD_Q2_K_XL GGUF yang dipakai AMD tercantum sebesar 375 GB, bukan 240 GB.
Perekatnya adalah llama.cpp yang berjalan dalam mode RPC: satu node controller dan tiga server RPC, dengan model didistribusikan ke keempat mesin. AMD mencantumkan interkoneksinya sebagai Ethernet 5 Gbps, yang cocok dengan port Ethernet 5Gbit bawaan Framework Desktop. Itulah keseluruhan rig-nya. Tanpa interkoneksi eksotis, tanpa papan kustom, tidak ada yang tidak bisa Anda pesan sore ini.
Kata menarik dalam semua itu adalah unified. Pada PC biasa, RAM CPU Anda dan VRAM GPU Anda adalah dua kumpulan terpisah, dan model yang terlalu besar untuk VRAM entah meluap ke memori sistem yang lambat atau tidak jalan sama sekali. Unified memory meruntuhkan dinding itu: GPU bisa mengalamati seluruh bank memori, dan itulah seluruh alasan mengapa desktop 4,5 liter bisa menampung potongan model sebesar ini sejak awal.
Tulisan teknis AMD sendiri membahas konfigurasinya secara rinci. Yang tidak benar-benar dibahasnya adalah mengapa "triliun parameter" melakukan kerja retoris lebih banyak daripada yang terlihat.
Triknya: Mengapa "Triliun Parameter" Itu Benar tapi Bukan Seluruh Kebenaran
Inilah hal yang diandalkan lembar spesifikasi tanpa menjelaskannya: Kimi K2.5 adalah model Mixture-of-Experts, dan itu mengubah arti "triliun parameter" dalam praktik.
Model dense, jenis yang dibayangkan kebanyakan orang, menjalankan setiap parameter untuk setiap token. Model dense berparameter 70 miliar melakukan perhitungan senilai 70 miliar parameter pada setiap kata yang dihasilkannya. Model Mixture-of-Experts dibangun secara berbeda. Kimi K2.5 punya 384 "expert" terpisah, 8 di antaranya aktif per token ditambah satu expert bersama, di seluruh 61 layer. Jadi meskipun model membawa total 1,04 triliun parameter, hanya sekitar 32 miliar di antaranya yang menyala pada setiap forward pass tunggal. Sebuah router memilih expert mana yang akan dibangunkan; sisanya hanya diam tanpa berbuat apa-apa untuk token itu.
Jadi apakah "menjalankan model berparameter triliun di empat mini PC" itu jujur? Ya, Anda benar-benar butuh memori untuk menampung semua 1,04 triliun parameter, dan memori itulah bagian sulitnya. Tapi komputasi yang harus dilakukan hardware Anda per token adalah pekerjaan kelas 32B, bukan kelas 1T.
Yang berlaku ke dua arah, dan di sinilah jadi menarik. Itu membuat demonya lebih mengesankan daripada kedengarannya, karena menampung model berparameter penuh satu triliun di dalam memori pada kotak konsumen adalah hal yang sungguh sulit yang berhasil mereka lakukan. Dan itu membuatnya kurang mengesankan daripada yang tersirat di judul, karena beban kerja per token yang sebenarnya adalah sesuatu yang sudah dilahap kotak tunggal lebih cepat pada model MoE yang lebih kecil. Model MoE 120B berjalan pada 50-plus token per detik di salah satu node ini. Angka triliun parameter itu nyata, tapi itu flex memori, bukan flex komputasi.
Intinya: saat Anda menentukan hardware untuk sebuah model, jumlah parameter aktiflah yang harus diumpan mesin Anda per token, bukan totalnya di dalam kotak.
Jebakannya: Apa Arti Sebenarnya dari 8 Token per Detik dan Penantian 40 Detik sampai 4 Menit
Delapan token per detik adalah angka yang menentukan segalanya, jadi renungkan sejenak. Artikel AMD melaporkan klaster menghasilkan sekitar 8,30 t/s pada konteks 8.192 token dan kira-kira 9,45 t/s pada kondisi tunak, dengan pemrosesan prompt sekitar 100,77 t/s. Itu angka yang cukup baik, wajar untuk apa adanya.
Yang menyakitkan adalah time-to-first-token. Sebelum model menghasilkan satu kata pun, ia harus membaca prompt Anda, dan tabel benchmark AMD sendiri menaruh penantian itu di 39,7 detik untuk prompt 4.096 token, 90,5 detik untuk prompt 8.192 token, dan 239,1 detik untuk prompt 16.384 token dengan Flash Attention diaktifkan. Jadi Anda mengetik pertanyaan, lalu Anda menunggu. Mungkin hampir empat menit, sebelum ada apa pun yang muncul.
Untuk loop coding interaktif, itu berat, dan para developer di diskusi Hacker News mengatakannya dengan blak-blakan: lebih dari semenit keheningan sebelum token pertama tidak cocok dengan cara siapa pun menulis kode dengan asisten. Tapi balikkan beban kerjanya. Jika Anda menjalankan pekerjaan batch semalaman, memproses dokumen secara async, menghasilkan hal-hal yang akan Anda baca nanti, atau melakukan inferensi privat yang seluruh intinya adalah agar tidak ada yang keluar dari gedung, 8 token per detik benar-benar bisa dijalani. Anda toh tidak menonton layarnya.
Catatan kecilnya: Jangan harap angka-angka ini bereproduksi langsung begitu saja. Tumpukan software ROCm pada hardware ini sensitif terhadap versi dengan cara-cara yang menggigit: sebuah isu GitHub mendokumentasikan sistem Strix Halo yang macet di clock GPU idle dan merangkak di 0,5 t/s saat inferensi LLM pada ROCm 7.1.1 dan Linux kernel 6.14. Itu bukan "AMD rusak," tapi itu memang berarti performa yang dipublikasikan bergantung pada tumpukan software yang sangat spesifik, dan Anda mungkin akhirnya mengejar kombinasi ROCm, kernel, dan firmware sebelum rig Anda menyamai angka-angka di tulisan itu.
Satu hal lagi yang disalahpahami para pengkritik, yaitu soal biaya. Orang-orang terus menyebutnya "klaster $10.000," tapi tak seorang pun menerbitkannya sebagai daftar material yang baku. Hitung sendiri aritmetikanya: empat Framework Desktop 128 GB pada harga peluncuran $1.999 akan menaruh mesinnya saja di sekitar $8.000, sementara snapshot Liliputing Maret 2026 mencantumkan konfigurasi Framework Desktop 128GB/1TB di $2.851, atau sekitar $11.400 untuk empat unit sebelum jaringan. Tambahkan beberapa ratus dolar untuk switch dan kabel, dan kisaran praktisnya lebih dekat ke sekitar $8,2K sampai $11,7K tergantung konfigurasi, tanggal pembelian, dan apa yang sudah Anda miliki. Bukan tanpa biaya. Tapi juga bukan ruang server.
Inilah kesimpulan saya soal keseluruhannya: klaster ini berfungsi. Apakah delapan token per detik dan penantian lebih dari semenit itu sebuah kemenangan atau mainan sepenuhnya bergantung pada apa yang ingin Anda bangun. Ini bukan workstation coding interaktif. Ini juga bukan mainan. Ini mesin nyata untuk jenis pekerjaan sabar tertentu, dan berpura-pura ini lebih atau kurang dari itu adalah cara semua orang dalam perdebatan ini akhirnya bicara saling lewat.
Di Mana Ini Sebenarnya Berlabuh
Pembingkaian yang jujur bukanlah "AMD mengalahkan Nvidia." Ini adalah produk berbeda untuk orang berbeda. Pembaca yang menginginkan ini adalah orang yang butuh privasi, ingin offline, atau tidak mau membayar per token selamanya, bukan orang yang mengejar respons secepat mungkin.
Dan argumen terkuat menentang seluruh upaya ini layak dapat jawaban lugas: Anda tinggal pakai API Kimi saja. Artificial Analysis saat ini mencantumkan endpoint K2.5 milik Kimi sendiri sekitar 56 sampai 60 token per detik dengan harga campuran sekitar $0,49 per juta token, sementara platform API resmi Kimi mencantumkan harga K2.5 di $0,10/M token input cache-hit, $0,60/M token input, dan $3,00/M token output. Penyedia K2.5 pihak ketiga bisa lebih cepat atau lebih murah tergantung routing, tapi poin dasarnya sama: API lebih cepat daripada klaster, menghindari pengasuhan hardware, dan akan jadi pilihan tepat untuk kebanyakan orang di kebanyakan hari.
Jadi kisah lokal hanya masuk akal saat salah satu dari tiga hal ini benar: datanya tidak boleh keluar (privasi), koneksi tidak bisa diandalkan (offline), atau volume token cukup tinggi dan berkelanjutan sehingga memiliki metal mengalahkan menyewa selamanya (biaya pada skala besar). Di luar ketiganya, API yang menang. Di dalam ketiganya, klaster adalah satu-satunya yang mampu mengerjakannya sama sekali.
| Dimensi | Klaster 4-node AMD | API Kimi / rute cloud |
|---|---|---|
| Kecepatan generasi | ~8 sampai 9,5 t/s | ~56 sampai 60 t/s di endpoint K2.5 milik Kimi sendiri |
| Time-to-first-token | 39,7 sampai 239,1 s | tergantung penyedia, jauh lebih rendah |
| Model biaya | ~$8,2K sampai $11,7K hardware | harga API per token |
| Privasi / offline | sepenuhnya lokal | di-host penyedia |
| Kasus penggunaan paling cocok | pekerjaan privat, offline, batch | penggunaan interaktif/API |
Sebagai catatan, DGX Spark dari Nvidia adalah "tapi bagaimana dengan" yang jelas di sini, dan ia menang di beberapa sumbu yang tidak dikuasai klaster AMD. Itu pertarungan terpisah sepenuhnya, dan akan saya bahas di tempat lain. Jika Anda ingin sisi sewa dari keputusan hardware-vs-cloud, halaman GPU VPS Cloudzy adalah titik perbandingan yang lebih praktis.
Bagian yang Sebenarnya Penting
Kupas habis laju token dan argumen harganya, dan satu fakta tetap berdiri: hardware yang menjalankan model berparameter triliun kini adalah sebuah rak, bukan sebuah gedung.
Itulah pergeserannya, dan mudah terlewat di bawah perdebatan soal kecepatan. Setahun lalu, the kategori orang yang bisa menjalankan model berparameter 1,04 triliun adalah "operator datacenter." Titik. Kini termasuk siapa pun dengan kira-kira sepuluh ribu dolar dan sedikit kesabaran. Garisnya tidak bergeser sedikit: sekelompok orang yang benar-benar baru baru saja melewati pintu yang terkunci.
Yang dibuka oleh itu adalah bagian menariknya. Agen privat yang berjalan sepenuhnya di hardware milik Anda. Inferensi yang bekerja di pesawat atau di balik air gap. Model yang secara fisik tidak bisa menelepon pulang karena tak ada tujuan untuk panggilan itu. Sebuah ekonomi AI di mana biaya marginal sebuah token adalah listrik, bukan jalur API bermeteran. Tak satu pun dari itu terjangkau pada hardware konsumen setahun lalu, dan unified memory adalah hal yang menjangkaunya.
Saya sudah cukup sering menyaksikan pola ini sehingga waspada terhadap "ini mengubah segalanya." Biasanya tidak; biasanya itu cuma barang tahun lalu dengan logo baru. Yang ini berbeda, dan bukan karena cepat. Ini berbeda karena lantainya bergeser. Versi lambat, mahal, dan sabar dari inferensi lokal skala frontier sekarang ada, dan versi cepatnya hanya soal beberapa generasi hardware berikutnya menggerusnya turun. Bagian sulitnya tak pernah akan menjadi kecepatan. Bagian sulitnya adalah akses, dan akses baru saja terjadi.
Tonggak di sini bukanlah kecepatan. Tapi siapa yang diizinkan masuk ke dalam ruangan. Mesin yang menjalankan model skala frontier dulunya adalah sebuah gedung. Kini ia empat kotak di atas rak.
Pertanyaan yang Sering Diajukan
Bisakah Anda Sungguh Menjalankan Model Berparameter Triliun di Klaster Mini PC?
Ya, dengan satu peringatan penting. AMD menjalankan Kimi K2.5, model berparameter 1,04 triliun, di empat mini PC Ryzen AI Max+ 395. Di BIOS, keempat sistem bisa mengekspos sekitar 384 GB VRAM khusus total; panduan Linux AMD lalu menaikkan alokasinya menjadi 480 GB total melalui pengaturan TTM/kernel. Tapi Kimi K2.5 adalah model Mixture-of-Experts: dari 1,04 triliun parameter itu, hanya sekitar 32 miliar yang aktif pada setiap token. Anda butuh memori untuk menampung semuanya, tapi komputasi per token-nya lebih dekat ke beban kerja berparameter 32 miliar.
Apa Itu Kimi K2.5 dan Mengapa Arsitektur MoE Penting di Sini?
Kimi K2.5 adalah model bahasa open-weight dari Moonshot AI dengan total 1,04 triliun parameter dan 32 miliar aktif per forward pass, dibangun di atas desain Mixture-of-Experts (384 expert, 8 aktif per token ditambah satu bersama). Arsitekturnya penting karena jumlah parameter aktif, bukan totalnya, yang harus dikomputasi hardware Anda untuk setiap token. Itulah mengapa model dengan triliun parameter di atas kertas bisa berjalan di kotak konsumen sama sekali.
Apakah 8 Token per Detik Cukup Cepat untuk AI Lokal?
Itu sepenuhnya tergantung beban kerja. Untuk pemrosesan batch, pekerjaan async, penggunaan offline, atau inferensi privat di mana tak ada yang boleh keluar dari hardware Anda, 8 token per detik baik-baik saja, Anda tidak sedang menatap layar. Untuk coding interaktif, itu berat, terutama karena time-to-first-token pada klaster ini berkisar dari sekitar 40 detik sampai hampir 4 menit tergantung panjang prompt, dan keheningan sebelum kata pertama itu membunuh loop iteratif.
Mengapa Tidak Pakai API Kimi Saja?
Untuk kebanyakan orang, memang sebaiknya begitu. Endpoint K2.5 milik Kimi sendiri jauh lebih cepat daripada klaster lokal dalam data Artificial Analysis saat ini, dan penyedia K2.5 pihak ketiga bisa lebih cepat atau lebih murah lagi. Hardware lokal hanya masuk akal saat Anda butuh privasi (datanya tidak boleh keluar), kemampuan offline (tak ada koneksi yang bisa diandalkan), atau biaya-pada-skala (volume tinggi berkelanjutan di mana memiliki mengalahkan menyewa). Di luar kasus-kasus itu, API adalah pilihan yang lebih baik.