Mini PC z pamięcią zunifikowaną w cenie około 2000 do 3000 dolarów potrafi wczytać niektóre mocno skwantyzowane modele klasy 235B, które nie mieszczą się na pojedynczą kartę GPU klasy H100.
Brzmi to na odwrót, więc doprecyzujmy porównanie. Droga karta jest dużo szybsza, ale jej lokalna pamięć GPU jest mniejsza. Mała skrzynka na biurku może mieć większą pulę współdzieloną, więc model się wczyta, nawet jeśli generowanie jest wolne.
Jednowyrazowa odpowiedź na pytanie jak brzmi „pamięć zunifikowana”. Widnieje na kartach specyfikacji wielu nowych mini PC AI i Maców jako liczba w nagłówku („128 GB pamięci zunifikowanej”), a niemal nikt nie tłumaczy, co ona właściwie robi. To właśnie jest zadaniem tego tekstu. Na koniec będziesz wiedzieć, czym jest pamięć zunifikowana, dlaczego dzięki niej mały komputer uruchomić uruchomić model, który kiedyś wymagał szafy serwerowej, oraz jaki jest haczyk, którego nikt nie umieszcza w nagłówku: uruchamia ten model wolno.
W skrócie
- Pamięć zunifikowana to jedna fizyczna pula pamięci współdzielona przez CPU chipu i zintegrowaną kartę GPU, zamiast małej, osobnej pamięci VRAM dedykowanej karty graficznej leżącej obok osobnej pamięci RAM systemu.
- Ta współdzielona pula jest duża, a karta GPU zwykle ma dostęp do znacznie większej ilości pamięci niż stały limit VRAM dedykowanej karty, choć dokładna dostępna ilość zależy od platformy, ustawień firmware, systemu operacyjnego i środowiska uruchomieniowego. Pierwsze pytanie brzmi więc: czy ta skwantyzowana wersja zmieści się w dostępnej pamięci? Pula 128 GB pomieści modele, których karta graficzna 24 GB lub 32 GB nigdy by nie pomieściła.
- Haczyk tkwi w szybkości, nie w rozmiarze. Pamięć zunifikowana przesyła dane dużo wolniej niż VRAM dedykowanej karty. Duży model się uruchamia. Po prostu generuje tokeny wolno. Pamięć zunifikowana pozwala uruchomić duży model, ale nie uruchomić go szybko.
- „Zunifikowana” to nie jedno zjawisko. Wersja Apple jest dla użytkownika w większości niewidoczna; wersja AMD odsłania więcej ustawień, ponieważ firmware i sterowniki mogą wpływać na to, ile pamięci jest zarezerwowane dla GPU lub praktycznie dla niej dostępne. A więcej pamięci nie oznacza szybciej.
Czym jest pamięć zunifikowana?
Wyobraź sobie dwie konfiguracje. Dedykowana karta graficzna ma własną pamięć (VRAM) przykręconą tuż przy procesorze, szybką, ale małą. Twoja pamięć RAM systemu to druga, osobna pula używana przez CPU. Aby uruchomić model na GPU, dane trzeba najpierw skopiować z RAM systemu przez magistralę PCIe do VRAM. Dwie pule, jeden krok kopiowania.
Pamięć zunifikowana eliminuje ten podział. To pojedyncza fizyczna pula pamięci, którą współdzielą CPU chipu i zintegrowana karta GPU, dzięki czemu GPU pracuje na tej wspólnej puli zamiast polegać na małej, osobnej pamięci VRAM. Na platformach takich jak Apple Silicon eliminuje to również stary krok kopiowania przez PCIe. Własna prezentacja architektury Apple opisuje to jako CPU i GPU „pracujące na tej samej pamięci” bez potrzeby kopiowania danych przez magistralę PCIe. Jedna pula. Zero kopiowania.
Pula współdzielona to zwykle pamięć LPDDR5X przylutowana bezpośrednio do obudowy chipu, co pozwala jej być jednocześnie dużą i blisko procesora. Głównymi przykładami są obecnie Macy z Apple Silicon, systemy AMD Strix Halo zbudowane wokół chipów takich jak Ryzen AI Max+ 395 oraz Nvidia DGX Spark. Platforma deweloperska AMD Ryzen AI Halo wymienia 128 GB pamięci LPDDR5x przy 256 GB/s, podczas gdy Nvidia DGX Spark wymienia 128 GB zunifikowanej pamięci systemowej LPDDR5x przy 273 GB/s.
Współdzielona pamięć między CPU a zintegrowaną kartą GPU to nic nowego. Laptopy robią to od lat i zwykle był to kompromis: wolna pamięć, i to niewiele. Zmieniła się pojemność przy użytecznej przepustowości. Gdy współdzielona pula stała się wystarczająco duża, mniej więcej klasy 128 GB, przy zachowaniu wystarczającej szybkości, przekroczyła granicę, po której bardzo duże modele o otwartych wagach mogły mieścić się lokalnie. To cała historia. Architektura jest stara; rozmiar jest nowy.
Uwaga do „vs VRAM”: Ludzie pytają, czy pamięć zunifikowana to VRAM. Nie do końca. VRAM to dedykowana pamięć graficzna na dedykowanej karcie, szybka i osobna. Pamięć zunifikowana to jedna wspólna pula, która pełni rolę zarówno VRAM, jak i RAM systemu. Oddaje surową szybkość dedykowanej karty w zamian za rozmiar i możliwość pominięcia kroku kopiowania.
Dlaczego model musi zmieścić się w pamięci?
Przy zwykłej inferencji w pamięci wagi modelu muszą znajdować się w pamięci adresowalnej przez procesor. Jeśli dostępna pamięć jest zbyt mała, model nie wczyta się poprawnie na danym urządzeniu. Niektóre narzędzia potrafią przenieść część modelu do pamięci CPU lub pamięci masowej, ale to gwałtownie zmienia profil wydajności i nie jest tym samym, co wygodne zmieszczenie się modelu w pamięci adresowalnej przez GPU. Pojemność to twarda brama, która pojawia się przed jakimkolwiek pytaniem o szybkość.
To jest dźwignia, którą pociąga pamięć zunifikowana. Wiele konsumenckich kart graficznych ma 24 GB VRAM lub mniej, a nawet topowe pojedyncze karty konsumenckie mają około 32 GB. Model z 70 lub 235 miliardami parametrów jest na to o wiele za duży. Surowa arytmetyka 4-bitowa dla 235B parametrów zaczyna się od około 118 GB, jeszcze przed narzutem formatu, buforami środowiska uruchomieniowego i pamięcią kontekstu. W praktyce faktyczne pobieralne wersje różnią się mocno: na przykład wersja Ollama Qwen3-235B-A22B Q4_K_M wynosi 142 GB, podczas gdy bardziej agresywne kwantyzacje niższobitowe mogą zbliżyć się do zakresu, jaki obsłuży maszyna z 128 GB pamięci zunifikowanej. Karta zbudowana do tego zadania wyczerpuje więc miejsce, zanim jeszcze zdąży zacząć. (Sposób obliczania tych wartości pamięci, parametry razy bajty na wagę plus narzut, który ukrywa rozmiar pliku, to osobny temat, a powiązany artykuł o matematyce kwantyzacji przeprowadza te obliczenia.)
Pula 128 GB zunifikowanej pamięci zmienia odpowiedź na jedno pytanie: czy ta konkretna skwantyzowana wersja zmieści się po tym, jak system operacyjny, środowisko uruchomieniowe, pamięć podręczna KV i limity alokacji GPU zabiorą swoją część? W przypadku niektórych agresywnych kwantyzacji klasy 235B tak. Dlatego kompaktowa skrzynka z pamięcią zunifikowaną może czasem wczytać model, którego mniejsza karta GPU z mniejszym VRAM nie udźwignie. Nie jest mocniejsza. Ma po prostu więcej miejsca, by umieścić w nim model.
To pierwsza rzecz, którą nagłówki podają poprawnie, ale bez wyjaśnienia. To rozmiar puli, a nie surowa moc, decyduje, czy model w ogóle się uruchomi.
Dlaczego pamięć zunifikowana jest wolniejsza niż karta graficzna?
Generowanie tekstu token po tokenie jest ograniczone przez pamięć przepustowość, a nie tym, jak szybko procesor potrafi wykonywać obliczenia. Każdy wygenerowany token wymaga przepuszczenia aktywnych wag modelu przez procesor, więc pułap szybkości wyznacza to, jak szybko pamięć może zasilać chip danymi. To dobrze udokumentowana „ograniczona przez pamięć” natura dekodowania jednostrumieniowego, chip większość czasu spędza czekając na pamięć, a nie na obliczeniach.
I to właśnie przepustowość jest miejscem, w którym pamięć zunifikowana traci grunt pod nogami. Pula AMD Strix Halo na papierze działa z prędkością 256 GB/s, a niezależne testy na llm-tracker.info wskazują na około 212 GB/s w praktyce. DGX Spark osiąga 273 GB/s. Wysokiej klasy dedykowana karta graficzna dla porównania przesyła dane kilkukrotnie szybciej, jej dedykowana pamięć VRAM jest do tego zbudowana. Więc gdy model mieści się oba zarówno zunifikowanej skrzynki, jak i dedykowanej karty, dedykowana karta generuje tokeny zauważalnie szybciej. Ten sam model, ten sam wynik, bardzo różna szybkość.
Dla modeli gęstych przydatna zasada kciuka brzmi:
tokeny na sekundę ≈ przepustowość pamięci ÷ rozmiar modelu w pamięci.
To wskazówka kierunkowa, nie benchmark, ale wyjaśnia kompromis: mniejsze wagi rezydujące w pamięci lub wyższa przepustowość zwykle oznaczają szybsze dekodowanie. Dla modeli MoE nie stosuj tej zasady bezpośrednio do całkowitej liczby parametrów. Pojemność wciąż zależy od całkowitych przechowywanych wag, ale szybkość na token zależy bardziej od aktywowanej ścieżki, narzutu routingu, zachowania pamięci podręcznej i implementacji.
Jedna niuans, potem zostawię temat: żądanie ma dwie fazy. Odczyt promptu (prefill) opiera się na obliczeniach. Generowanie odpowiedzi (dekodowanie) opiera się na przepustowości. Ta wolna część, którą odczuwasz, słowa pojawiające się jedno po drugim, to część ograniczona przepustowością.
Oto wniosek, który pomija karta specyfikacji: pamięć zunifikowana pozwala uruchomić duży model, ale nie uruchomić go szybko. Wygrywa argument pojemności, przegrywa argument przepustowości. Czy ten kompromis się opłaca, zależy w pełni od tego, co robisz, i to uczciwy kompromis dokonany świadomie, a nie niespodzianka odkryta po zakupie.
Czy cała pamięć zunifikowana jest taka sama?
Nie. „Zunifikowana” opisuje kategorię, nie jedną implementację, a wersje różnią się w sposób, który ma znaczenie. Wersja Apple jest dla użytkownika w większości niewidoczna: pamięć jest domyślnie współdzielona. AMD Strix Halo wymaga większego zaangażowania: ustawienia firmware i sterowników mogą wpływać na to, ile pamięci jest zarezerwowane dla GPU lub praktycznie dla niej dostępne. Obie są pamięcią zunifikowaną. To nie to samo doświadczenie.
Pozwól, że nazwę błędne przekonanie, które generuje cały ten temat, bo to najczęstsze z nich: więcej pamięci nie oznacza szybszej inferencji. Oznacza to, że uruchomi się większy model. Ktoś kupuje skrzynkę 128 GB oczekując szybkości, wczytuje model, który zmieści się też na karcie 24 GB, i jest rozczarowany, że działa wolniej niż na mniejszej karcie. Oba stwierdzenia są prawdziwe jednocześnie: duża pula mieści więcej, a mała szybka karta działa szybciej na tym, co mają wspólnego. Rozmiar i szybkość to różne osie. Pamięć zunifikowana kupuje ci tę pierwszą.
Praktyczny szczegół po stronie AMD: ile z puli jest faktycznie użyteczne dla modelu, zależy od ustawień firmware i systemu operacyjnego. FAQ AMD dotyczące Variable Graphics Memory wyjaśnia, jak działa ta alokacja; w skrócie skrzynka 128 GB nie oddaje całych 128 GB karcie GPU, a dostępna ilość zależy od ustawienia VGM, zarezerwowanej pamięci systemowej, systemu operacyjnego i środowiska uruchomieniowego. Planuj w oparciu o dostępną pamięć, nie liczbę z etykiety.
Wskazówka: Gdy dobierasz maszynę do lokalnych modeli, czytaj kartę specyfikacji jako dwie liczby, nie jedną. Pojemność mówi, które modele się zmieszczą. Przepustowość mówi, jak szybko będą działać, gdy już się zmieszczą. Skrzynka z ogromną pulą i skromną przepustowością to skrzynka, która wolno uruchamia duże modele, co może być dokładnie tym, czego chcesz, o ile wiedziałeś o tym wcześniej.
Warto zwrócić uwagę jeszcze na jeden przypadek, ponieważ potyka o niego wiele osób na tych maszynach z dużą pulą: modele Mixture-of-Experts. Model taki jak Qwen3-235B-A22B ma łącznie 235 miliardów parametrów, ale aktywuje z nich tylko około 22 miliardy na token. Kuszące jest założenie, że oznacza to potrzebę pamięci tylko dla aktywnego wycinka. Przy zwykłej inferencji w pamięci tak nie jest. Wszystkie 235 miliardów wag wciąż musi rezydować gdzieś, gdzie środowisko uruchomieniowe może z nich korzystać, ponieważ każdy token może zostać skierowany do dowolnego eksperta: redukcji ulegają tylko obliczenia na token, nie wymóg pojemności. Właśnie w tym rozróżnieniu duża pula pamięci zunifikowanej pokazuje swoją wartość, a powiązany artykuł o matematyce kwantyzacji przelicza, do czego te liczby się sprowadzają.
Często zadawane pytania
Czy pamięć zunifikowana to to samo co VRAM?
Nie. VRAM to dedykowana, szybka pamięć wbudowana w dedykowaną kartę graficzną, oddzielona od pamięci RAM systemu. Pamięć zunifikowana to jedna współdzielona pula, z której korzystają zarówno CPU, jak i GPU, pełniąc jednocześnie rolę VRAM i RAM systemu. Pamięć zunifikowana jest zwykle większa, ale wolniejsza niż VRAM dedykowanej karty, i pomija krok kopiowania danych między dwiema pulami.
Dlaczego mój lokalny model działa wolno, mimo że mieści się w pamięci?
Ponieważ zmieszczenie się i szybkie działanie to dwie różne sprawy. Czy model się wczyta, zależy od pojemności pamięci; jak szybko generuje tekst, zależy od przepustowości pamięci. Pamięć zunifikowana ma sporo pojemności, ale dużo niższą przepustowość niż dedykowana karta graficzna, więc model, który wygodnie się mieści, wciąż może generować tokeny wolno. Dla modeli gęstych przybliżona zależność to tokeny na sekundę ≈ przepustowość ÷ rozmiar modelu. Dla modeli MoE pojemność wciąż zależy od całkowitych przechowywanych wag, ale szybkość zależy bardziej od aktywowanej ścieżki i implementacji środowiska uruchomieniowego.
Czy nadal potrzebujesz GPU, jeśli masz pamięć zunifikowaną?
Zintegrowana karta GPU jest już częścią chipu z pamięcią zunifikowaną, to ona uruchamia model. Prawdziwe pytanie brzmi, czy chcesz też dedykowaną kartę GPU. Wiele dedykowanych kart daje dużo wyższą przepustowość, czyli szybsze generowanie, ale mniej lokalnej pamięci niż duży system z pamięcią zunifikowaną, więc same mogą nie pomieścić największych modeli. Pamięć zunifikowana daje ci dużą pulę, w której mieszczą się duże modele przy niższej szybkości. To, czego chcesz, zależy od tego, czy priorytetem jest rozmiar modelu, czy szybkość.
Dlaczego mini PC potrafi uruchomić model, który wymaga GPU z centrum danych?
Ponieważ wąskim gardłem przy wczytywaniu modelu jest pojemność pamięci, a mini PC z dużą pulą zunifikowaną może mieć więcej użytecznej pamięci na model niż wiele konfiguracji z pojedynczym GPU. Konsumencki GPU może mieć od 24 do 32 GB VRAM, a pojedynczy GPU centrum danych klasy H100 ma 80 do 94 GB, podczas gdy niektóre systemy z pamięcią zunifikowaną reklamują wspólne pule 128 GB. Wagi modelu muszą się zmieścić gdzieś, gdzie sięga procesor; duża współdzielona pula je pomieści, mała szybka VRAM nie. Mini PC nie jest mocniejszy. Po prostu ma miejsce.
Zmieszczenie się to wygrana: ile to potrzebuje to kolejne pytanie
Wkład pamięci zunifikowanej to jedna czysta rzecz: duża, współdzielona, adresowalna pula, która pozwala małej maszynie pomieścić modele, które kiedyś wymagały serwera. To jest wygrana na polu pojemności. Haczyk przepustowości to cena, a teraz potrafisz czytać kartę specyfikacji, wiedząc, która liczba rządzi jakim zachowaniem.
Naturalne kolejne pytanie to to, które ten artykuł ciągle odkładał: ile pamięci dany model faktycznie potrzebuje? To arytmetyka: parametry, bajty na wagę, wybrany poziom kompresji, oraz podatek kontekstowy ukryty w rozmiarze pliku. powiązany artykuł o kwantyzacji GGUF, GPTQ, AWQ i EXL2 przelicza dokładnie tę matematykę, i warto to zrobić, zanim dobierzesz maszynę lub wybierzesz model.