Zum Hauptinhalt springen
50 % Rabatt alle Pläne, begrenzte Zeit. Ab $2.48/mo
11 min left
KI und Machine Learning

Was ist Unified Memory, und warum kann damit ein Mini-PC ein 235-Milliarden-Parameter-Modell ausführen?

B Von Brian 11 Min. Lesezeit Aktualisiert today
Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

Ein Unified-Memory-Mini-PC für rund 2.000 bis 3.000 US-Dollar kann manche stark quantisierten Modelle der 235B-Klasse laden, die nicht auf eine einzelne GPU der H100-Klasse.

Das klingt widersprüchlich, also präzisieren wir den Vergleich. Die teure Karte ist deutlich schneller, aber ihr lokaler GPU-Speicher ist kleiner. Die kleine Box auf dem Schreibtisch hat womöglich einen größeren gemeinsamen Speicherpool, sodass das Modell laden kann, auch wenn die Generierung langsam ist.

Die Ein-Wort-Antwort auf das Wie lautet „Unified Memory“. Sie steht als Headline-Zahl auf dem Datenblatt vieler neuer KI-Mini-PCs und Macs („128 GB Unified Memory“), und fast niemand erklärt, was das eigentlich bewirkt. Genau das ist hier die Aufgabe. Am Ende wissen Sie, was Unified Memory ist, warum es einer kleinen Maschine erlaubt ausführen ein Modell auszuführen, für das früher ein Server-Rack nötig war, und der Haken, den niemand in der Überschrift erwähnt: Es führt dieses Modell langsam aus.

Kurzfassung

  • Unified Memory ist ein einziger physischer Speicherpool, den CPU und integrierte GPU eines Chips gemeinsam nutzen, statt des kleinen, separaten VRAM einer dedizierten Grafikkarte neben dem getrennten System-RAM.
  • Dieser gemeinsame Pool ist groß, und die GPU kann in der Regel auf weit mehr Speicher zugreifen als das feste VRAM-Limit einer dedizierten Karte, auch wenn die tatsächlich nutzbare Menge von Plattform, Firmware-Einstellungen, Betriebssystem und Laufzeitumgebung abhängt. Die erste Frage lautet also: Passt dieser quantisierte Build in den nutzbaren Speicher? Ein 128-GB-Pool kann Modelle aufnehmen, die eine 24-GB- oder 32-GB-Grafikkarte nie fassen könnte.
  • Der Haken ist die Geschwindigkeit, nicht die Größe. Unified Memory bewegt Daten deutlich langsamer als das VRAM einer dedizierten Karte. Das große Modell läuft. Es erzeugt nur langsam Token. Unified Memory lässt Sie das große Modell ausführen, aber nicht schnell ausführen.
  • „Unified“ ist nicht ein einziges Ding. Apples Version bleibt für den Nutzer weitgehend unsichtbar; AMDs Version bietet mehr Stellschrauben, weil Firmware- und Treibereinstellungen beeinflussen können, wie viel Speicher für die GPU reserviert oder praktisch nutzbar ist. Und mehr Speicher bedeutet nicht schneller.

Was ist Unified Memory?

Stellen Sie sich zwei Konfigurationen vor. Eine dedizierte Grafikkarte hat ihren eigenen Speicher (VRAM), direkt neben dem Prozessor, schnell, aber klein. Ihr System-RAM ist ein zweiter, getrennter Pool, den die CPU nutzt. Um ein Modell auf der GPU auszuführen, müssen die Daten zunächst über den PCIe-Bus vom System-RAM in den VRAM kopiert werden. Zwei Pools, ein Kopierschritt.

Unified Memory beseitigt diese Trennung. Es ist ein einziger physischer Speicherpool, den CPU und integrierte GPU des Chips gemeinsam nutzen, sodass die GPU direkt aus dem gemeinsamen Pool arbeitet, statt auf eine kleine separate VRAM-Box angewiesen zu sein. Auf Plattformen wie Apple Silicon entfällt dadurch auch der alte Kopierschritt über PCIe. Apples eigener Vortrag zur Architektur beschreibt es so, dass CPU und GPU „mit demselben Speicher arbeiten“, ohne Daten über einen PCIe-Bus kopieren zu müssen. Ein Pool. Null Kopien.

Der gemeinsame Pool besteht meist aus LPDDR5X-Speicher, der direkt auf das Package gelötet ist, wodurch er zugleich groß und nah am Prozessor sein kann. Die aktuellen Paradebeispiele sind Macs mit Apple Silicon, AMDs Strix-Halo-Systeme rund um Chips wie den Ryzen AI Max+ 395 sowie Nvidias DGX Spark. AMDs Entwicklerplattform Ryzen AI Halo gibt 128 GB LPDDR5x-Speicher mit 256 GB/s an, während Nvidias DGX Spark gibt 128 GB unifizierten LPDDR5x-Systemspeicher mit 273 GB/s an.

Gemeinsamer Speicher zwischen CPU und integrierter GPU ist nichts Neues. Laptops machen das seit Jahren, und meist war es ein Kompromiss: langsamer Speicher, und nicht viel davon. Was sich geändert hat, ist die Kapazität bei nutzbarer Bandbreite. Sobald ein gemeinsamer Pool groß genug wurde, etwa in der 128-GB-Klasse, und dabei schnell genug blieb, um sich zu lohnen, überschritt er die Grenze, ab der sehr große Open-Weight-Modelle lokal Platz fanden. Das ist die ganze Geschichte. Die Architektur ist alt, die Größe ist neu.

Ein Hinweis zu „vs. VRAM“: Man fragt oft, ob Unified Memory dasselbe wie VRAM ist. Nicht ganz. VRAM ist dedizierter Grafikspeicher auf einer separaten Karte, schnell und eigenständig. Unified Memory ist ein einziger gemeinsamer Pool, der die Aufgabe von VRAM und System-RAM zugleich übernimmt. Er tauscht die rohe Geschwindigkeit der dedizierten Karte gegen Größe und die Möglichkeit, den Kopierschritt zu überspringen.

Warum muss ein Modell in den Speicher passen?

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

Für gewöhnliche In-Memory-Inferenz müssen die Gewichte des Modells in einem Speicher liegen, den der Prozessor adressieren kann. Ist der nutzbare Speicher zu klein, lädt das Modell auf diesem Gerät nicht sauber. Manche Tools können Teile eines Modells in den CPU-Speicher oder auf Storage auslagern, aber das verändert das Leistungsprofil drastisch und ist nicht dasselbe wie ein Modell, das bequem in GPU-adressierbaren Speicher passt. Kapazität ist eine harte Hürde, die jeder Frage nach Geschwindigkeit vorausgeht.

Genau hier setzt Unified Memory an. Viele Consumer-Grafikkarten haben 24 GB VRAM oder weniger, und selbst die besten einzelnen Consumer-Karten liegen bei rund 32 GB. Ein Modell mit 70 oder 235 Milliarden Parametern ist dafür viel zu groß. Die rohe 4-Bit-Rechnung für 235B Parameter beginnt bei etwa 118 GB, noch vor Format-Overhead, Laufzeitpuffern und Kontextspeicher. In der Praxis variieren tatsächlich herunterladbare Builds stark: zum Beispiel der Q4_K_M-Build von Qwen3-235B-A22B bei Ollama wird mit 142 GB angegeben, während aggressivere Quantisierungen mit weniger Bits näher an den Bereich herankommen können, den eine Maschine mit 128 GB Unified Memory bewältigt. Die eigentlich für diesen Job gebaute Karte geht also aus dem Platz, bevor sie überhaupt anfangen kann. (Wie diese Speicherzahlen berechnet werden, Parameter mal Bytes pro Gewicht plus der Overhead, den die Dateigröße verbirgt, ist ein eigenes Thema, und der begleitende Artikel zur Quantisierungsmathematik übernimmt diese Rechnung.)

Ein 128-GB-Unified-Pool verändert die Antwort auf eine bestimmte Frage: Passt dieser konkrete quantisierte Build, nachdem Betriebssystem, Laufzeitumgebung, KV cache und GPU-Zuteilungsgrenzen ihren Anteil genommen haben? Bei manchen aggressiven Quantisierungen der 235B-Klasse: ja. Deshalb kann eine kompakte Unified-Memory-Box manchmal ein Modell laden, das eine GPU mit weniger VRAM nicht laden kann. Sie ist nicht leistungsfähiger. Sie hat nur mehr Platz, um das Modell unterzubringen.

Das ist der erste Punkt, den Schlagzeilen richtig wiedergeben, aber unerklärt lassen. Die Poolgröße, nicht die rohe Rechenleistung, entscheidet, ob das Modell überhaupt läuft.

Warum ist Unified Memory langsamer als eine Grafikkarte?

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

Die Texterzeugung Token für Token wird durch den Speicher begrenzt Bandbreite, nicht davon, wie schnell der Prozessor rechnen kann. Jedes erzeugte Token erfordert, die aktiven Gewichte des Modells durch den Prozessor zu streamen, sodass die Geschwindigkeitsobergrenze davon abhängt, wie schnell der Speicher den Chip füttern kann. Das ist die gut dokumentierte „speichergebundene“ Natur des Single-Stream-Decodings: Der Chip verbringt die meiste Zeit mit Warten auf den Speicher, nicht mit Rechnen.

Und genau bei der Bandbreite gibt Unified Memory nach. Der Strix-Halo-Pool von AMD läuft auf dem Papier mit 256 GB/s, und unabhängige Tests bei llm-tracker.info messen in der Praxis etwa 212 GB/s. Der DGX Spark liegt bei 273 GB/s. Eine hochwertige dedizierte Grafikkarte dagegen bewegt Daten mehrfach schneller, ihr dediziertes VRAM ist genau dafür gebaut. Passt ein Modell also auf beide sowohl eine Unified-Box als auch eine dedizierte Karte, erzeugt die dedizierte Karte Token merklich schneller. Gleiches Modell, gleiches Ergebnis, sehr unterschiedliche Geschwindigkeit.

Für dichte Modelle gilt eine nützliche Faustregel:

Token pro Sekunde ≈ Speicherbandbreite ÷ Modellgröße im Speicher.

Sie ist richtungsweisend, kein Benchmark, erklärt aber den Kompromiss: kleinere residente Gewichte oder höhere Bandbreite bedeuten meist schnelleres Decoding. Bei MoE-Modellen sollte die Regel nicht direkt auf die Gesamtparameterzahl angewendet werden. Die Kapazität hängt weiterhin von den insgesamt gespeicherten Gewichten ab, aber die Geschwindigkeit pro Token hängt stärker vom aktivierten Pfad, Routing-Overhead, Cache-Verhalten und der Implementierung ab.

Noch eine Feinheit, dann lasse ich es dabei: Eine Anfrage hat zwei Phasen. Das Lesen Ihres Prompts (Prefill) stützt sich auf Rechenleistung. Das Erzeugen der Antwort (Decode) stützt sich auf Bandbreite. Der langsame Teil, den Sie spüren, Wörter, die einzeln erscheinen, ist der bandbreitengebundene Teil.

Hier also die Erkenntnis, die das Datenblatt auslässt: Unified Memory lässt Sie das große Modell ausführen, aber nicht schnell ausführen. Es gewinnt das Kapazitätsargument und verliert das Bandbreitenargument. Ob sich dieser Tausch lohnt, hängt ganz davon ab, was Sie vorhaben, und das ist ein fairer Tausch, den man bewusst eingeht, keine Überraschung nach dem Kauf.

Ist jeder Unified Memory gleich?

Nein. „Unified“ beschreibt eine Kategorie, keine einzelne Umsetzung, und die Varianten unterscheiden sich in wichtigen Punkten. Apples Version bleibt für den Nutzer weitgehend unsichtbar: Der Speicher wird standardmäßig geteilt. AMDs Strix Halo verlangt mehr Eingriff: Firmware- und Treibereinstellungen können beeinflussen, wie viel Speicher für die GPU reserviert oder praktisch nutzbar ist. Beide sind Unified Memory. Es ist nicht dieselbe Erfahrung.

Lassen Sie mich das Missverständnis benennen, das dieses ganze Thema erzeugt, denn es ist das häufigste: mehr Speicher bedeutet nicht schnellere Inferenz. Es bedeutet, dass ein größeres Modell laufen kann. Jemand kauft eine 128-GB-Box in der Erwartung von Geschwindigkeit, lädt ein Modell, das auch auf eine dedizierte 24-GB-Karte passt, und ist enttäuscht, dass es langsamer läuft als auf der kleineren Karte. Beide Aussagen stimmen gleichzeitig: Der große Pool fasst mehr, und die kleine schnelle Karte läuft bei dem, was beide gemeinsam haben, schneller. Größe und Geschwindigkeit sind unterschiedliche Achsen. Unified Memory kauft Ihnen die erste.

Eine praktische Besonderheit auf AMD-Seite: Wie viel vom Pool tatsächlich für ein Modell nutzbar ist, hängt von der Firmware-Einstellung und dem Betriebssystem ab. AMDs FAQ zu Variable Graphics Memory erklärt, wie diese Zuteilung funktioniert; kurz gesagt: Eine 128-GB-Box gibt nicht alle 128 GB an die GPU, und die nutzbare Menge hängt von der VGM-Einstellung, dem reservierten Systemspeicher, dem Betriebssystem und der Laufzeitumgebung ab. Planen Sie mit dem nutzbaren Speicher, nicht mit der Zahl auf dem Etikett.

Profi-Tipp: Wenn Sie eine Maschine für lokale Modelle dimensionieren, lesen Sie das Datenblatt als zwei Zahlen, nicht als eine. Die Kapazität sagt Ihnen, welche Modelle passen. Die Bandbreite sagt Ihnen, wie schnell sie dann laufen. Eine Box mit riesigem Pool und bescheidener Bandbreite ist eine Box, die große Modelle langsam ausführt, was genau das sein kann, was Sie wollen, solange Sie das vorher wussten.

Es gibt noch einen Fall, der es wert ist, erwähnt zu werden, weil er bei diesen Maschinen mit großem Pool oft für Verwirrung sorgt: Mixture-of-Experts-Modelle. Ein Modell wie Qwen3-235B-A22B hat insgesamt 235 Milliarden Parameter, aktiviert davon aber pro Token nur etwa 22 Milliarden. Man ist versucht anzunehmen, dass dann nur Speicher für diesen aktiven Anteil nötig ist. Bei gewöhnlicher In-Memory-Inferenz stimmt das nicht. Alle 235 Milliarden Gewichte müssen weiterhin irgendwo resident sein, wo die Laufzeitumgebung sie nutzen kann, denn jedes Token kann zu jedem Experten geroutet werden: Nur die Rechenlast pro Token sinkt, nicht der Kapazitätsbedarf. Genau an diesem Punkt zahlt sich der große Pool von Unified Memory aus, und der begleitende Artikel zur Quantisierungsmathematik arbeitet im Detail durch, was diese Zahlen bedeuten.

Häufig gestellte Fragen

Ist Unified Memory dasselbe wie VRAM?

Nein. VRAM ist dedizierter Hochgeschwindigkeitsspeicher, der in eine dedizierte Grafikkarte eingebaut und getrennt vom System-RAM gehalten wird. Unified Memory ist ein einziger gemeinsamer Pool, den CPU und GPU gleichermaßen nutzen und der die Aufgabe von VRAM und System-RAM zugleich übernimmt. Unified Memory ist meist größer, aber langsamer als das VRAM einer dedizierten Karte, und es überspringt das Kopieren von Daten zwischen zwei Pools.

Warum ist mein lokales Modell langsam, obwohl es in den Speicher passt?

Weil Hineinpassen und schnell Laufen zwei verschiedene Dinge sind. Ob ein Modell lädt, hängt von der Speicherkapazität ab; wie schnell es Text erzeugt, hängt von der Speicherbandbreite ab. Unified Memory hat reichlich Kapazität, aber eine deutlich geringere Bandbreite als eine dedizierte Grafikkarte, sodass ein Modell, das bequem passt, trotzdem langsam Token erzeugen kann. Bei dichten Modellen lautet die grobe Beziehung: Token pro Sekunde ≈ Bandbreite ÷ Modellgröße. Bei MoE-Modellen hängt die Kapazität weiterhin von den insgesamt gespeicherten Gewichten ab, die Geschwindigkeit aber stärker vom aktivierten Pfad und der Implementierung der Laufzeitumgebung.

Brauchen Sie noch eine GPU, wenn Sie Unified Memory haben?

Die integrierte GPU ist bereits Teil eines Unified-Memory-Chips, sie ist es, die das Modell ausführt. Die eigentliche Frage ist, ob Sie zusätzlich eine dedizierte GPU wollen. Viele dedizierte Karten bieten weit höhere Bandbreite, also schnellere Generierung, aber weniger lokalen Speicher als ein großes Unified-Memory-System, sodass sie die größten Modelle möglicherweise nicht allein fassen. Unified Memory gibt Ihnen einen großen Pool, der große Modelle bei geringerer Geschwindigkeit aufnimmt. Was Sie wollen, hängt vom Verhältnis von Modellgröße zu Geschwindigkeit ab.

Warum kann ein Mini-PC ein Modell ausführen, das eine Rechenzentrums-GPU benötigt?

Weil der Engpass beim Laden eines Modells die Speicherkapazität ist, und ein Mini-PC mit großem Unified-Pool über mehr nutzbaren Modellspeicher verfügen kann als viele Single-GPU-Setups. Eine Consumer-GPU hat vielleicht 24 bis 32 GB VRAM, und eine einzelne Rechenzentrums-GPU der H100-Klasse hat 80 bis 94 GB, während manche Unified-Memory-Systeme 128-GB-Pools bewerben. Die Gewichte des Modells müssen alle irgendwo Platz finden, wo der Prozessor sie erreicht; der große gemeinsame Pool fasst sie, das kleine schnelle VRAM nicht. Der Mini-PC ist nicht leistungsfähiger. Er hat nur mehr Platz.

Hineinpassen ist der Gewinn: Wie viel es braucht, ist die nächste Frage

Der Beitrag von Unified Memory lässt sich auf eine klare Sache reduzieren: ein großer, gemeinsamer, adressierbarer Pool, der einer kleinen Maschine erlaubt, unterzubringen Modelle unterzubringen, für die früher ein Server nötig war. Das ist der Kapazitätsgewinn. Der Bandbreiten-Haken ist der Preis dafür, und jetzt können Sie ein Datenblatt lesen und wissen, welche Zahl welches Verhalten bestimmt.

Die naheliegende nächste Frage ist die, die dieser Artikel immer wieder weitergereicht hat: Wie viel Speicher braucht ein gegebenes Modell tatsächlich? Das ist Arithmetik: Parameter, Bytes pro Gewicht, das gewählte Kompressionsniveau und die Kontextsteuer, die die Dateigröße verbirgt. Der begleitende Artikel zur GGUF-, GPTQ-, AWQ- und EXL2-Quantisierung arbeitet genau diese Rechnung durch, und es lohnt sich, das zu tun, bevor Sie eine Box dimensionieren oder ein Modell auswählen.

Share

Mehr aus dem Blog

Weiterlesen.

Bereit zum Deployen? Ab 2,48 $/Monat.

Unabhängige Cloud, seit 2008. AMD EPYC, NVMe, 40 Gbps. 14 Tage Geld-zurück-Garantie.