Apa Itu Unified Memory? Mengapa Mini PC Bisa Menjalankan Model AI 235B

Mini PC unified-memory seharga sekitar $2.000 hingga $3.000 dapat memuat beberapa model kelas 235B yang terkuantisasi berat yang tidak muat pada satu GPU kelas H100.

Kedengarannya terbalik, jadi mari kita perjelas perbandingannya. Kartu yang mahal jauh lebih cepat, tetapi memori GPU lokalnya lebih kecil. Kotak kecil di atas meja mungkin memiliki pool bersama yang lebih besar, sehingga model tetap bisa dimuat meskipun generasinya lambat.

Jawaban satu kata untuk pertanyaan bagaimana adalah "unified memory." Ini tercetak di lembar spesifikasi banyak mini PC AI dan Mac baru sebagai angka utama ("128 GB unified memory"), dan hampir tidak ada yang menjelaskan apa fungsinya sebenarnya. Jadi itulah tugas di sini. Pada akhirnya kamu akan tahu apa itu unified memory, mengapa itu memungkinkan mesin kecil jalankan menjalankan model yang dulu membutuhkan satu rak server, dan jebakan yang tidak pernah disebut di judul: model itu berjalan lambat.

TL;DR

Unified memory adalah satu pool memori fisik yang digunakan bersama oleh CPU dan GPU terintegrasi pada sebuah chip, alih-alih VRAM kecil dan terpisah milik kartu grafis diskret yang berada di samping RAM sistem Anda yang terpisah.
Pool bersama itu berukuran besar, dan GPU biasanya dapat mengakses memori jauh lebih banyak daripada batas VRAM tetap milik kartu diskret, meskipun jumlah yang benar-benar dapat digunakan bergantung pada platform, pengaturan firmware, OS, dan runtime. Jadi pertanyaan pertama menjadi: apakah build terkuantisasi ini muat dalam memori yang dapat digunakan? Pool 128GB dapat menampung model yang tidak akan pernah muat di kartu grafis 24GB atau 32GB.
Kendalanya ada pada kecepatan, bukan ukuran. Unified memory memindahkan data jauh lebih lambat daripada VRAM kartu diskret. Model besar tetap berjalan. Hanya saja menghasilkan token dengan lambat. Unified memory memungkinkan Anda menjalankan model besar, bukan menjalankannya dengan cepat.
"Unified" bukan satu hal yang sama di mana-mana. Versi Apple sebagian besar tidak terlihat oleh pengguna; versi AMD menampilkan lebih banyak pengaturan, karena pengaturan firmware dan driver dapat memengaruhi berapa banyak memori yang dicadangkan untuk, atau secara praktis dapat digunakan oleh, GPU. Dan lebih banyak memori tidak berarti lebih cepat.

Apa Itu Unified Memory?

Bayangkan dua susunan. Kartu grafis diskret memiliki memorinya sendiri (VRAM) yang terpasang tepat di sebelah prosesornya, cepat tetapi kecil. RAM sistem Anda adalah pool kedua yang terpisah, yang digunakan CPU. Untuk menjalankan model di GPU, data harus disalin dari RAM sistem melalui bus PCIe ke VRAM terlebih dahulu. Dua pool, satu langkah penyalinan.

Unified memory membuang pemisahan itu. Ini adalah satu pool memori fisik yang digunakan bersama oleh CPU dan GPU terintegrasi pada chip, memungkinkan GPU bekerja dari pool bersama alih-alih bergantung pada kotak VRAM kecil yang terpisah. Pada platform seperti Apple Silicon, ini juga menghindari langkah penyalinan lama melalui PCIe. Penjelasan arsitektur resmi dari Apple menggambarkannya sebagai CPU dan GPU yang "bekerja pada memori yang sama" tanpa perlu menyalin data melalui bus PCIe. Satu pool. Nol penyalinan.

Pool bersama biasanya berupa memori LPDDR5X yang disolder langsung ke package, itulah yang membuatnya bisa besar sekaligus dekat dengan prosesor. Contoh utama saat ini adalah Mac Apple Silicon, sistem Strix Halo milik AMD yang dibangun di sekitar chip seperti Ryzen AI Max+ 395, dan DGX Spark milik Nvidia. Platform pengembang Ryzen AI Halo milik AMD mencantumkan memori LPDDR5x 128GB pada 256GB/s, sementara DGX Spark milik Nvidia mencantumkan memori sistem unified LPDDR5x 128GB pada 273GB/s.

Memori bersama antara CPU dan GPU terintegrasi bukan hal baru. Laptop sudah melakukannya selama bertahun-tahun, dan biasanya itu adalah kompromi: memori lambat, dan tidak banyak jumlahnya. Yang berubah adalah kapasitas pada bandwidth yang bisa digunakan. Begitu pool bersama menjadi cukup besar, sekitar kelas 128GB, sambil tetap cukup cepat untuk layak digunakan, itu melewati batas di mana model open-weight yang sangat besar bisa muat secara lokal. Itulah keseluruhan ceritanya. Arsitekturnya lama; ukurannya yang baru.

Catatan soal "vs VRAM": Orang sering bertanya apakah unified memory itu VRAM. Tidak persis. VRAM adalah memori grafis khusus pada kartu diskret, cepat dan terpisah. Unified memory adalah satu pool bersama yang menjalankan fungsi VRAM sekaligus RAM sistem. Ini menukar kecepatan mentah kartu diskret dengan ukuran dan kemampuan melewati langkah penyalinan.

Mengapa Model Harus Muat dalam Memori?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Untuk inferensi in-memory normal, bobot model harus berada di memori yang dapat dialamatkan oleh prosesor. Jika memori yang dapat digunakan terlalu kecil, model tidak akan dimuat dengan bersih di perangkat itu. Beberapa alat dapat memindahkan sebagian model ke memori CPU atau penyimpanan, tetapi itu mengubah profil performa secara drastis dan tidak sama dengan model yang muat dengan nyaman dalam memori yang dapat dialamatkan GPU. Kapasitas adalah gerbang keras yang mendahului pertanyaan apa pun tentang kecepatan.

Inilah pengungkit yang ditarik oleh unified memory. Banyak kartu grafis konsumen memiliki VRAM 24GB atau kurang, dan bahkan kartu konsumen tunggal kelas atas berada di kisaran 32GB. Model berparameter 70 miliar atau 235 miliar jauh terlalu besar untuk itu. Aritmetika 4-bit mentah untuk parameter 235B dimulai sekitar 118GB sebelum overhead format, buffer runtime, dan memori konteks. Dalam praktiknya, build yang benar-benar dapat diunduh sangat bervariasi: misalnya, Build Qwen3-235B-A22B Q4_K_M dari Ollama tercantum sebesar 142GB, sementara kuantisasi bit-rendah yang lebih agresif bisa mendekati kisaran yang dapat ditangani mesin unified-memory 128GB. Jadi kartu yang dibuat khusus untuk tugas ini kehabisan ruang bahkan sebelum bisa mulai. (Cara angka memori itu dihitung, parameter dikali byte per bobot ditambah overhead yang disembunyikan oleh ukuran file, adalah topik tersendiri, dan artikel pendamping tentang matematika kuantisasi melakukan perhitungan itu.)

Pool unified 128GB mengubah jawaban atas satu pertanyaan: apakah build terkuantisasi tertentu ini muat setelah OS, runtime, KV cache, dan batas alokasi GPU mengambil bagiannya? Untuk beberapa kuantisasi kelas 235B yang agresif, ya. Itulah sebabnya kotak unified-memory yang kompak terkadang bisa memuat model yang tidak bisa dimuat oleh GPU dengan VRAM lebih kecil. Bukan berarti lebih bertenaga. Ia hanya punya ruang lebih besar untuk menampung model.

Itulah hal pertama yang benar disebutkan oleh judul-judul berita namun tidak dijelaskan. Ukuran pool, bukan kekuatan mentah, yang menentukan apakah model itu bisa berjalan sama sekali.

Mengapa Unified Memory Lebih Lambat daripada Kartu Grafis?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Menghasilkan teks satu token pada satu waktu dibatasi oleh memori lebar pita, bukan oleh seberapa cepat prosesor dapat melakukan perhitungan matematis. Setiap token yang Anda hasilkan mengharuskan bobot aktif model dialirkan melalui prosesor, sehingga batas kecepatan adalah seberapa cepat memori dapat memasok data ke chip. Ini adalah sifat sifat "terbatas memori" (memory-bound) dari decoding single-stream, chip menghabiskan sebagian besar waktunya menunggu memori, bukan menghitung.

Dan bandwidth adalah tepatnya di mana unified memory kalah. Pool Strix Halo milik AMD berjalan pada 256GB/s di atas kertas, dan pengujian independen di llm-tracker.info mencatatnya sekitar 212GB/s dalam praktiknya. DGX Spark berada di 273GB/s. Sebaliknya, kartu grafis diskret kelas atas memindahkan data beberapa kali lebih cepat, VRAM khususnya dibangun untuk itu. Jadi ketika sebuah model muat di keduanya baik pada kotak unified maupun kartu diskret, kartu diskret menghasilkan token jauh lebih cepat secara nyata. Model yang sama, hasil yang sama, kecepatan yang sangat berbeda.

Untuk model dense, aturan praktis yang berguna adalah:

token per detik ≈ bandwidth memori ÷ ukuran model dalam memori.

Ini bersifat arah, bukan benchmark, tetapi menjelaskan trade-off-nya: bobot residen yang lebih kecil atau bandwidth yang lebih tinggi biasanya berarti decoding lebih cepat. Untuk model MoE, jangan terapkan aturan ini langsung pada total jumlah parameter. Kapasitas tetap bergantung pada total bobot yang tersimpan, tetapi kecepatan per token lebih bergantung pada jalur yang diaktifkan, overhead routing, perilaku cache, dan implementasi.

Satu nuansa, lalu saya biarkan: ada dua fase dalam sebuah permintaan. Membaca prompt Anda (prefill) bergantung pada komputasi. Menghasilkan balasan (decode) bergantung pada bandwidth. Bagian lambat yang Anda rasakan, kata-kata muncul satu per satu, adalah bagian yang terikat bandwidth.

Jadi inilah kesimpulan yang dilewatkan lembar spesifikasi: unified memory memungkinkan Anda menjalankan model besar, bukan menjalankannya dengan cepat. Ia menang dalam soal kapasitas dan kalah dalam soal bandwidth. Apakah trade-off itu sepadan sepenuhnya bergantung pada apa yang Anda lakukan, dan itu adalah trade-off yang wajar untuk dibuat secara sengaja, bukan kejutan yang ditemukan setelah membeli.

Apakah Semua Unified Memory Sama?

Tidak. "Unified" menggambarkan sebuah kategori, bukan satu implementasi tunggal, dan versi-versinya berbeda dengan cara yang penting. Versi Apple sebagian besar tidak terlihat oleh pengguna: memori dibagi secara default. Strix Halo milik AMD lebih memerlukan keterlibatan langsung: pengaturan firmware dan driver dapat memengaruhi berapa banyak memori yang dicadangkan untuk, atau secara praktis dapat digunakan oleh, GPU. Keduanya adalah unified memory. Namun pengalamannya tidak sama.

Izinkan saya menyebutkan kesalahpahaman yang ditimbulkan seluruh topik ini, karena inilah yang paling umum: lebih banyak memori tidak berarti inferensi lebih cepat. Itu berarti lebih besar model bisa berjalan. Seseorang membeli kotak 128GB dengan harapan kecepatan, memuat model yang juga muat di kartu diskret 24GB, dan kecewa karena itu berjalan lebih lambat daripada kartu yang lebih kecil. Kedua pernyataan itu sama-sama benar: pool besar menampung lebih banyak, dan kartu kecil yang cepat berjalan lebih cepat pada apa yang mereka bagi bersama. Ukuran dan kecepatan adalah sumbu yang berbeda. Unified memory hanya membelikan Anda yang pertama.

Ada satu kerumitan praktis di sisi AMD: seberapa banyak pool yang benar-benar dapat digunakan untuk sebuah model bergantung pada pengaturan firmware dan sistem operasi. FAQ Variable Graphics Memory dari AMD membahas cara kerja alokasi tersebut; singkatnya, kotak 128GB tidak memberikan seluruh 128GB ke GPU, dan jumlah yang dapat digunakan bergantung pada pengaturan VGM, memori sistem yang dicadangkan, OS, dan runtime. Rencanakan berdasarkan memori yang dapat digunakan, bukan angka di label.

Tips Pro: saat menentukan ukuran mesin untuk model lokal, baca lembar spesifikasi sebagai dua angka, bukan satu. Kapasitas memberi tahu model mana yang muat. Bandwidth memberi tahu seberapa cepat model itu akan berjalan setelah muat. Kotak dengan pool besar dan bandwidth sedang adalah kotak yang menjalankan model besar dengan lambat, yang mungkin justru itulah yang Anda inginkan, selama Anda tahu itu sejak awal.

Ada satu kasus lagi yang perlu disorot, karena ini sering membingungkan orang pada mesin dengan pool besar ini: model Mixture-of-Experts. Model seperti Qwen3-235B-A22B memiliki total 235 miliar parameter tetapi hanya mengaktifkan sekitar 22 miliar di antaranya per token. Ini menggoda untuk berasumsi bahwa itu berarti hanya memerlukan memori untuk bagian yang aktif. Untuk inferensi in-memory normal, tidak begitu. Semua 235 miliar bobot tetap harus berada di suatu tempat yang dapat digunakan runtime, karena token apa pun bisa dirutekan ke expert mana pun: hanya komputasi per token yang berkurang, bukan kebutuhan kapasitasnya. Perbedaan itulah yang membuat pool besar unified memory benar-benar berguna, dan artikel pendamping tentang matematika kuantisasi menjabarkan apa arti angka-angka tersebut.

Pertanyaan yang Sering Diajukan

Apakah Unified Memory Sama dengan VRAM?

Tidak. VRAM adalah memori berkecepatan tinggi khusus yang terpasang di kartu grafis diskret, terpisah dari RAM sistem Anda. Unified memory adalah satu pool bersama yang digunakan oleh CPU dan GPU, menjalankan fungsi VRAM dan RAM sistem sekaligus. Unified memory biasanya lebih besar tetapi lebih lambat daripada VRAM kartu diskret, dan ia melewati langkah penyalinan data antara dua pool.

Mengapa Model Lokal Saya Lambat Padahal Muat dalam Memori?

Karena muat dan berjalan cepat adalah dua hal yang berbeda. Apakah model dapat dimuat bergantung pada kapasitas memori; seberapa cepat model menghasilkan teks bergantung pada bandwidth memori. Unified memory punya banyak kapasitas tetapi bandwidth jauh lebih rendah daripada kartu grafis diskret, sehingga model yang muat dengan nyaman tetap bisa menghasilkan token dengan lambat. Untuk model dense, hubungan kasarnya adalah token per detik ≈ bandwidth ÷ ukuran model. Untuk model MoE, kapasitas tetap bergantung pada total bobot yang tersimpan, tetapi kecepatan lebih bergantung pada jalur yang diaktifkan dan implementasi runtime.

Apakah Anda Masih Membutuhkan GPU jika Sudah Punya Unified Memory?

GPU terintegrasi sudah menjadi bagian dari chip unified-memory, itulah yang menjalankan model. Pertanyaan sebenarnya adalah apakah Anda juga menginginkan GPU diskret. Banyak kartu diskret memberikan bandwidth jauh lebih tinggi, yang berarti generasi lebih cepat, tetapi memori lokal lebih sedikit dibanding sistem unified-memory besar, sehingga mungkin tidak dapat menampung model terbesar sendirian. Unified memory memberi Anda pool besar yang menampung model besar dengan kecepatan lebih rendah. Mana yang Anda inginkan bergantung pada ukuran model versus kecepatan.

Mengapa Mini PC Bisa Menjalankan Model yang Membutuhkan GPU Datacenter?

Karena hambatan untuk memuat sebuah model adalah kapasitas memori, dan mini PC dengan pool unified yang besar bisa memiliki memori model yang dapat digunakan lebih banyak daripada banyak setup GPU tunggal. GPU konsumen mungkin memiliki VRAM 24 hingga 32GB, dan satu GPU datacenter kelas H100 memiliki 80 hingga 94GB, sementara beberapa sistem unified-memory mengiklankan pool bersama 128GB. Semua bobot model harus muat di suatu tempat yang dapat dijangkau prosesor; pool bersama yang besar menampungnya, VRAM kecil yang cepat tidak. Mini PC bukan lebih bertenaga. Ia hanya punya ruang.

Muat Adalah Kemenangan: Berapa Banyak yang Dibutuhkan Adalah Pertanyaan Berikutnya

Kontribusi unified memory adalah satu hal yang jelas: pool besar, bersama, dan dapat dialamatkan yang memungkinkan mesin kecil memuat memuat model yang dulu membutuhkan server. Itulah kemenangan kapasitas. Kendala bandwidth adalah harganya, dan sekarang Anda bisa membaca lembar spesifikasi sambil tahu angka mana yang mengatur perilaku mana.

Pertanyaan alami berikutnya adalah yang terus ditunda artikel ini: berapa banyak memori yang sebenarnya dibutuhkan model tertentu? Itu adalah aritmetika: parameter, byte per bobot, tingkat kompresi yang Anda pilih, dan pajak konteks yang disembunyikan ukuran file. artikel pendamping tentang kuantisasi GGUF, GPTQ, AWQ, dan EXL2 membahas persis perhitungan itu, dan itu layak dilakukan sebelum Anda menentukan ukuran mesin atau memilih model.

Apa Itu Unified Memory, dan Mengapa Itu Memungkinkan Mini PC Menjalankan Model 235B?