Co je sjednocená paměť? Proč mini PC spustí 235B AI model

Mini PC se sjednocenou pamětí za zhruba 2 000 až 3 000 dolarů dokáže načíst některé silně kvantizované modely třídy 235B, které se nevejdou na jedinou GPU třídy H100.

To zní obráceně, tak si to upřesněme. Drahá karta je mnohem rychlejší, ale její lokální paměť GPU je menší. Malá krabička na stole může mít větší sdílený fond, takže se model načte, i když je generování pomalé.

Odpověď na otázku jak zní jedním slovem: „sjednocená paměť“. Na specifikačních listech mnoha nových AI mini PC a Maců je uvedena jako hlavní číslo („128 GB sjednocené paměti“) a málokdo vysvětlí, co to vlastně dělá. To je úkol tohoto textu. Na konci budete vědět, co sjednocená paměť je, proč díky ní malý počítač spustit spustit model, který dřív potřeboval serverový rack, a jaký háček nikdo neuvádí v titulku: ten model běží pomalu.

Stručně

Sjednocená paměť je jeden fyzický fond paměti, který sdílí CPU čipu a integrovaná GPU, místo malé, oddělené VRAM samostatné grafické karty ležící vedle vaší oddělené systémové RAM.
Tento sdílený fond je velký a GPU zpravidla dosáhne na mnohem více paměti, než jaký je pevný limit VRAM u samostatné karty, i když přesné využitelné množství závisí na platformě, nastavení firmwaru, operačním systému a běhovém prostředí. První otázka tedy zní: vejde se tato kvantizovaná verze do využitelné paměti? Do 128GB fondu se vejdou modely, které se do 24GB nebo 32GB grafické karty nikdy nevejdou.
Háček je v rychlosti, ne ve velikosti. Sjednocená paměť přenáší data mnohem pomaleji než VRAM samostatné karty. Velký model se spustí. Jen generuje tokeny pomalu. Sjednocená paměť vám umožní velký model spustit, ne ho spustit rychle.
„Sjednocená“ není jedna jediná věc. Verze od Applu je pro uživatele většinou neviditelná; verze od AMD odhaluje více nastavení, protože firmware a nastavení ovladačů mohou ovlivnit, kolik paměti je vyhrazeno pro GPU nebo jí prakticky dostupné. A více paměti neznamená rychleji.

Co je sjednocená paměť?

Představte si dvě uspořádání. Samostatná grafická karta má vlastní paměť (VRAM) přímo přišroubovanou k procesoru, rychlou, ale malou. Vaše systémová RAM je druhý, oddělený fond, který používá CPU. Aby model běžel na GPU, musí se data nejprve zkopírovat ze systémové RAM přes sběrnici PCIe do VRAM. Dva fondy, jeden krok kopírování.

Sjednocená paměť tuto dělbu ruší. Je to jediný fyzický fond paměti, který sdílí CPU čipu i integrovaná GPU, díky čemuž GPU pracuje ze sdíleného fondu místo malé oddělené VRAM. Na platformách jako Apple Silicon se tím také obchází starý krok kopírování přes PCIe. Vlastní přednáška Applu o architektuře popisuje to tak, že CPU a GPU „pracují nad stejnou pamětí“ bez nutnosti kopírovat data přes sběrnici PCIe. Jeden fond. Nulové kopírování.

Sdílený fond je obvykle paměť LPDDR5X přiletovaná přímo k pouzdru čipu, což jí umožňuje být zároveň velká i blízko procesoru. Nejvýznamnějšími příklady jsou dnes Macy s Apple Silicon, systémy AMD Strix Halo postavené kolem čipů jako Ryzen AI Max+ 395 a Nvidia DGX Spark. Vývojářská platforma AMD Ryzen AI Halo uvádí 128 GB paměti LPDDR5x při 256 GB/s, zatímco Nvidia DGX Spark uvádí 128 GB sjednocené systémové paměti LPDDR5x při 273 GB/s.

Sdílená paměť mezi CPU a integrovanou GPU není nic nového. Notebooky to dělají už léta a obvykle to byl kompromis: pomalá paměť, a ne moc velká. Co se změnilo, je kapacita při použitelné šířce pásma. Jakmile sdílený fond dosáhl dostatečné velikosti, zhruba třídy 128 GB, a zůstal přitom dost rychlý, aby se to vyplatilo, překročil hranici, kdy se velmi rozsáhlé modely s otevřenými vahami vejdou lokálně. To je celý příběh. Architektura je stará, velikost je nová.

Poznámka k „versus VRAM“: Lidé se ptají, jestli je sjednocená paměť totéž co VRAM. Ne úplně. VRAM je vyhrazená grafická paměť na samostatné kartě, rychlá a oddělená. Sjednocená paměť je jeden sdílený fond, který plní úlohu VRAM i systémové RAM zároveň. Vyměňuje syrovou rychlost samostatné karty za velikost a možnost přeskočit krok kopírování.

Proč se model musí vejít do paměti?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Pro běžnou inferenci v paměti musí váhy modelu ležet v paměti, na kterou procesor dosáhne adresami. Pokud je použitelná paměť příliš malá, model se na daném zařízení čistě nenačte. Některé nástroje dokážou přesunout části modelu do paměti CPU nebo úložiště, ale to výrazně mění profil výkonu a není to totéž jako model, který se pohodlně vejde do paměti adresovatelné GPU. Kapacita je tvrdá brána, která přichází dřív než jakákoli otázka rychlosti.

Toto je páka, kterou tahá sjednocená paměť. Mnoho spotřebitelských grafických karet má 24 GB VRAM nebo méně a i špičkové jednotlivé spotřebitelské karty se pohybují kolem 32 GB. Model se 70 nebo 235 miliardami parametrů je pro to daleko příliš velký. Hrubá 4bitová aritmetika pro 235B parametrů začíná zhruba na 118 GB, ještě před režií formátu, běhovými buffery a pamětí pro kontext. V praxi se skutečně stažitelné verze hodně liší: například verze Ollama Qwen3-235B-A22B Q4_K_M je uvedena na 142 GB, zatímco agresivnější kvantizace s nižším počtem bitů se mohou přiblížit rozsahu, který zvládne stroj se 128 GB sjednocené paměti. Karta postavená přímo pro tuto úlohu tak dojde místa dřív, než vůbec může začít. (Jak se tyto paměťové hodnoty počítají, parametry krát bajty na váhu plus režie, kterou velikost souboru skrývá, je samostatné téma a související článek o matematice kvantizace provádí ten výpočet.)

128GB sjednocený fond mění odpověď na jednu otázku: vejde se konkrétní kvantizovaná verze poté, co si svůj podíl vezmou operační systém, běhové prostředí, KV cache a limity alokace GPU? U některých agresivních kvantizací třídy 235B ano. Proto může kompaktní krabička se sjednocenou pamětí občas načíst model, který GPU s menší VRAM nezvládne. Není výkonnější. Má jen větší místnost, kam model umístit.

To je první věc, kterou titulky uvádějí správně a přitom nevysvětlují. O tom, jestli se model vůbec spustí, rozhoduje velikost fondu, ne surový výkon.

Proč je sjednocená paměť pomalejší než grafická karta?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Generování textu po jednom tokenu je omezeno pamětí šířka pásma, ne tím, jak rychle procesor umí počítat. Každý token, který vytvoříte, vyžaduje protékání aktivních vah modelu procesorem, takže rychlostní strop je dán tím, jak rychle dokáže paměť čip zásobovat. Toto je dobře zdokumentovaná „paměťově omezená“ povaha jednoproudého dekódování, čip tráví většinu času čekáním na paměť, ne výpočtem.

A šířka pásma je přesně to, kde sjednocená paměť ztrácí půdu pod nohama. Fond AMD Strix Halo běží na papíře na 256 GB/s a nezávislé testy na llm-tracker.info naměřily v praxi zhruba 212 GB/s. DGX Spark je na 273 GB/s. Špičková samostatná grafická karta oproti tomu přenáší data několikanásobně rychleji, její vyhrazená VRAM je na to stavěná. Takže když se model vejde oba sjednocené krabičky i samostatné karty, samostatná karta generuje tokeny znatelně rychleji. Stejný model, stejný výsledek, velmi odlišná rychlost.

Pro husté modely platí užitečné pravidlo:

tokeny za sekundu ≈ šířka pásma paměti ÷ velikost modelu v paměti.

Je to spíš orientační odhad než benchmark, ale vysvětluje kompromis: menší rezidentní váhy nebo vyšší šířka pásma obvykle znamenají rychlejší dekódování. U modelů typu MoE nepoužívejte pravidlo přímo na celkový počet parametrů. Kapacita stále závisí na celkových uložených vahách, ale rychlost na token víc závisí na aktivované cestě, režii směrování, chování cache a implementaci.

Ještě jedna nuance, pak už to nechám být: požadavek má dvě fáze. Čtení promptu (prefill) se opírá o výpočetní výkon. Generování odpovědi (dekódování) se opírá o šířku pásma. Ta pomalá část, kterou pocítíte, slova objevující se jedno po druhém, je právě ta část omezená šířkou pásma.

Takže tady je ponaučení, které specifikační list přeskakuje: sjednocená paměť vám umožní velký model spustit, ne ho spustit rychle. Vyhrává argument kapacity a prohrává argument šířky pásma. Jestli se ten kompromis vyplatí, závisí čistě na tom, co děláte, a je to férová volba udělaná záměrně, ne překvapení objevené až po nákupu.

Je veškerá sjednocená paměť stejná?

Ne. „Sjednocená“ popisuje kategorii, ne jedinou implementaci, a jednotlivé verze se liší způsoby, na kterých záleží. Verze od Applu je pro uživatele většinou neviditelná: paměť je sdílená ve výchozím nastavení. Strix Halo od AMD vyžaduje větší zapojení uživatele: nastavení firmwaru a ovladačů mohou ovlivnit, kolik paměti je vyhrazeno pro GPU nebo jí prakticky dostupné. Obojí je sjednocená paměť. Nejde ale o stejný zážitek.

Dovolte mi pojmenovat mylnou představu, kterou celé toto téma vyvolává, protože je nejběžnější: více paměti neznamená rychlejší inferenci. Znamená to, že se spustí větší model. Někdo si koupí krabičku se 128 GB a čeká rychlost, načte model, který se vejde i na kartu se 24 GB, a je zklamaný, že běží pomaleji, než na té menší kartě. Obě tvrzení jsou pravdivá zároveň: velký fond se vejde víc, a malá rychlá karta běží rychleji na tom, co mají společné. Velikost a rychlost jsou různé osy. Sjednocená paměť vám kupuje tu první.

Praktický háček na straně AMD: kolik z fondu je vlastně použitelných pro model, závisí na nastavení firmwaru a operačním systému. FAQ AMD k Variable Graphics Memory vysvětluje, jak tato alokace funguje; ve zkratce, krabička se 128 GB nedá celých 128 GB GPU a použitelné množství závisí na nastavení VGM, vyhrazené systémové paměti, operačním systému a běhovém prostředí. Plánujte podle použitelné paměti, ne podle čísla na štítku.

Tip: Když vybíráte stroj pro lokální modely, čtěte specifikační list jako dvě čísla, ne jedno. Kapacita vám řekne, které modely se vejdou. Šířka pásma vám řekne, jak rychle poběží, až se vejdou. Krabička s obřím fondem a skromnou šířkou pásma je krabička, která pomalu spouští velké modely, což může být přesně to, co chcete, pokud jste to věděli předem.

Stojí za to upozornit ještě na jeden případ, protože na těchto strojích s velkým fondem zaráží lidi: modely typu Mixture-of-Experts. Model jako Qwen3-235B-A22B má celkem 235 miliard parametrů, ale na token aktivuje jen zhruba 22 miliard z nich. Je lákavé předpokládat, že to znamená, že potřebuje paměť jen pro aktivní část. U běžné inference v paměti tomu tak není. Všech 235 miliard vah musí být stále rezidentních někde, kam se runtime dostane, protože kterýkoli token se může nasměrovat na kteréhokoli experta: snižují se jen výpočty na token, ne požadavek na kapacitu. Přesně v tomto rozdílu se zúročí velký fond sjednocené paměti a související článek o matematice kvantizace propočítává, na kolik se tato čísla vlastně vyšplhají.

Časté dotazy

Je sjednocená paměť totéž co VRAM?

Ne. VRAM je vyhrazená, vysokorychlostní paměť zabudovaná do samostatné grafické karty, oddělená od vaší systémové RAM. Sjednocená paměť je jeden sdílený fond, který používá CPU i GPU a plní zároveň úlohu VRAM i systémové RAM. Sjednocená paměť je obvykle větší, ale pomalejší než VRAM samostatné karty, a přeskakuje krok kopírování dat mezi dvěma fondy.

Proč je můj lokální model pomalý, i když se vejde do paměti?

Protože vejít se a běžet rychle jsou dvě různé věci. Jestli se model načte, závisí na kapacitě paměti; jak rychle generuje text, závisí na šířce pásma paměti. Sjednocená paměť má dostatek kapacity, ale mnohem nižší šířku pásma než samostatná grafická karta, takže model, který se pohodlně vejde, může přesto generovat tokeny pomalu. U hustých modelů platí hrubý vztah tokeny za sekundu ≈ šířka pásma ÷ velikost modelu. U modelů MoE kapacita stále závisí na celkových uložených vahách, ale rychlost víc závisí na aktivované cestě a implementaci runtime.

Potřebujete GPU, i když máte sjednocenou paměť?

Integrovaná GPU je už součástí čipu se sjednocenou pamětí, to je to, co model spouští. Skutečná otázka je, jestli chcete i samostatnou GPU. Mnoho samostatných karet nabízí mnohem vyšší šířku pásma, tedy rychlejší generování, ale míň lokální paměti než velký systém se sjednocenou pamětí, takže samy o sobě nemusí pojmout ty největší modely. Sjednocená paměť vám dá velký fond, do kterého se vejdou velké modely při nižší rychlosti. Co chcete, závisí na tom, jestli upřednostňujete velikost modelu, nebo rychlost.

Proč dokáže mini PC spustit model, který potřebuje GPU z datacentra?

Protože úzkým hrdlem pro načtení modelu je kapacita paměti, a mini PC s velkým sjednoceným fondem může mít víc použitelné paměti pro model než mnohé jednogpuové sestavy. Spotřebitelská GPU může mít 24 až 32 GB VRAM a jedna GPU pro datacentrum třídy H100 má 80 až 94 GB, zatímco některé systémy se sjednocenou pamětí inzerují sdílené fondy 128 GB. Váhy modelu se musí vejít někam, kam procesor dosáhne; velký sdílený fond je pojme, malá rychlá VRAM ne. Mini PC není výkonnější. Prostě má víc místa.

Vejít se je výhra: kolik toho potřebuje je další otázka

Přínos sjednocené paměti je jedna čistá věc: velký, sdílený, adresovatelný fond, který malému stroji umožní pojmout modely, které dřív potřebovaly server. To je výhra na straně kapacity. Háček s šířkou pásma je cena za to, a teď už umíte číst specifikační list s vědomím, které číslo řídí jaké chování.

Přirozenou další otázkou je ta, kterou tento článek pořád odkládal: kolik paměti daný model skutečně potřebuje? To je aritmetika: parametry, bajty na váhu, úroveň komprese, kterou zvolíte, a daň z kontextu, kterou skrývá velikost souboru. související článek o kvantizaci GGUF, GPTQ, AWQ a EXL2 právě tuto matematiku propočítává, a vyplatí se ji projít dřív, než vyberete stroj nebo model.

Co je sjednocená paměť a proč díky ní může mini PC spustit 235B model?