Yaklaşık 2.000 ila 3.000 dolarlık, birleşik bellekli bir mini PC, ağır biçimde kuantize edilmiş bazı 235B sınıfı modelleri, bunların sığmadığı bir tek bir H100 sınıfı GPU.
Bu tuhaf gelebilir, o yüzden karşılaştırmayı netleştirelim. Pahalı kart çok daha hızlıdır, ancak yerel GPU belleği daha küçüktür. Masadaki küçük kutu daha büyük bir paylaşımlı havuza sahip olabilir, bu yüzden üretim yavaş olsa bile model yüklenebilir.
Nasıl sorusunun tek kelimelik yanıtı "birleşik bellek." Bu, birçok yeni yapay zeka mini PC'sinin ve Mac'in teknik özellik sayfasında bir başlık rakamı olarak ("128 GB birleşik bellek") yazar ve neredeyse kimse bunun gerçekte ne yaptığını açıklamaz. İşte burada yapılacak iş bu. Sonunda birleşik belleğin ne olduğunu, küçük bir makinenin neden şunu çalıştırmasına izin verdiğini bileceksin çalıştır eskiden bir sunucu rafı gerektiren bir modeli çalıştırmasına ve başlıkta kimsenin belirtmediği asıl sorunu: o modeli yavaş çalıştırır.
Kısaca
- Birleşik bellek, bir çipin CPU'su ile entegre GPU'sunun paylaştığı tek bir fiziksel bellek havuzudur, ayrı bir sistem RAM'inizin yanında duran ayrı bir grafik kartının küçük, ayrı VRAM'i yerine.
- Bu paylaşımlı havuz büyüktür ve GPU genellikle ayrı bir kartın sabit VRAM sınırından çok daha fazla belleğe erişebilir, ancak kullanılabilir tam miktar platforma, ürün yazılımı ayarlarına, işletim sistemine ve çalışma zamanına bağlıdır. Böylece ilk soru şu hale gelir: bu kuantize edilmiş yapı kullanılabilir belleğe sığıyor mu? 128GB'lık bir havuz, 24GB veya 32GB'lık bir grafik kartının asla sığdıramayacağı modelleri sığdırabilir.
- Sorun hız, boyut değil. Birleşik bellek, veriyi ayrı bir kartın VRAM'inden çok daha yavaş taşır. Büyük model çalışır. Sadece token'ları yavaş üretir. Birleşik bellek, büyük modeli çalıştırmanı sağlar, hızlı çalıştırmanı değil.
- "Birleşik" tek bir şey değildir. Apple'ın versiyonu kullanıcı için büyük ölçüde görünmezdir; AMD'nin versiyonu daha fazla ayar sunar, çünkü ürün yazılımı ve sürücü ayarları GPU için ne kadar belleğin ayrıldığını veya pratikte kullanılabilir olduğunu etkileyebilir. Ve daha fazla bellek daha hızlı anlamına gelmez.
Birleşik Bellek Nedir?
İki kurulumu düşünün. Ayrı bir grafik kartının, işlemcisinin hemen yanına cıvatalanmış kendi belleği (VRAM) vardır; hızlı ama küçüktür. Sistem RAM'iniz, CPU'nun kullandığı ikinci, ayrı bir havuzdur. Bir modeli GPU'da çalıştırmak için verinin önce sistem RAM'inden PCIe veri yolu üzerinden VRAM'e kopyalanması gerekir. İki havuz, bir kopyalama adımı.
Birleşik bellek bu ayrımı tamamen ortadan kaldırır. Çipin CPU'su ve entegre GPU'sunun her ikisinin de paylaştığı tek bir fiziksel bellek havuzudur ve GPU'nun küçük, ayrı bir VRAM kutusuna güvenmek yerine paylaşımlı havuzdan çalışmasına olanak tanır. Apple Silicon gibi platformlarda bu, aynı zamanda eski PCIe üzerinden kopyalama adımını da ortadan kaldırır. Apple'ın kendi mimari anlatımı bunu, CPU ve GPU'nun bir PCIe veri yolu üzerinden veri kopyalamaya gerek kalmadan "aynı bellek üzerinde çalışması" olarak tanımlıyor. Tek havuz. Sıfır kopyalama.
Paylaşımlı havuz genellikle paketin üzerine lehimlenmiş LPDDR5X bellektir, bu da onun hem büyük hem de işlemciye yakın olmasını sağlayan şeydir. Şu anda öne çıkan örnekler Apple Silicon Mac'ler, Ryzen AI Max+ 395 gibi çiplerle kurulu AMD'nin Strix Halo sistemleri ve Nvidia'nın DGX Spark'ıdır. AMD'nin Ryzen AI Halo geliştirici platformu 256GB/s hızında 128GB LPDDR5x bellek listeler, oysa Nvidia'nın DGX Spark'ı 273GB/s hızında 128GB LPDDR5x birleşik sistem belleği listeler.
CPU ile entegre GPU arasında paylaşımlı bellek yeni bir şey değil. Dizüstü bilgisayarlar yıllardır bunu yapıyor ve genellikle bir uzlaşmaydı: yavaş bellek, pek de fazla değil. Değişen şey, kullanılabilir bant genişliğindeki kapasite. Paylaşımlı havuz, kullanmaya değecek kadar hızlı kalırken, yaklaşık 128GB sınıfı civarında yeterince büyüdüğünde, çok büyük açık ağırlıklı modellerin yerel olarak sığabileceği çizgiyi geçti. Hikayenin tamamı bu. Mimari eski; boyut yeni.
"VRAM'e karşı" konusunda bir not: İnsanlar birleşik belleğin VRAM olup olmadığını soruyor. Tam olarak değil. VRAM, ayrı bir kartta bulunan özel grafik belleğidir; hızlı ve ayrıdır. Birleşik bellek, hem VRAM'in hem de sistem RAM'inin işini yapan tek bir paylaşımlı havuzdur. Ayrı kartın ham hızını, boyut ve kopyalama adımını atlama yeteneğiyle takas eder.
Bir Modelin Belleğe Sığması Neden Gerekir?
Normal bellek içi çıkarım için, modelin ağırlıklarının işlemcinin adresleyebileceği bellekte durması gerekir. Kullanılabilir bellek çok küçükse, model o cihazda temiz bir şekilde yüklenmeyecektir. Bazı araçlar bir modelin parçalarını CPU belleğine veya depolamaya aktarabilir, ancak bu performans profilini keskin biçimde değiştirir ve modelin GPU tarafından adreslenebilir bellekte rahatça sığmasıyla aynı şey değildir. Kapasite, hız sorusundan önce gelen katı bir kapıdır.
Birleşik belleğin çektiği kaldıraç budur. Birçok tüketici grafik kartında 24GB veya daha az VRAM vardır ve en üst düzey tekli tüketici kartları bile yaklaşık 32GB civarındadır. 70 milyar veya 235 milyar parametreli bir model bunun için çok büyüktür. 235B parametre için ham 4-bit aritmetiği, format ek yükü, çalışma zamanı tamponları ve bağlam belleğinden önce yaklaşık 118GB civarında başlar. Pratikte, gerçek indirilebilir yapılar çok değişir: örneğin, Ollama'nın Qwen3-235B-A22B Q4_K_M yapısı 142GB olarak listelenir, oysa daha agresif düşük bitli kuantizasyonlar 128GB birleşik bellekli bir makinenin kaldırabileceği aralığa daha yakın gelebilir. Böylece iş için yapılmış kart, daha başlayamadan yer sıkıntısı çeker. (Bu bellek rakamlarının nasıl hesaplandığı, parametreler çarpı ağırlık başına bayt artı dosya boyutunun gizlediği ek yük, kendi başına ayrı bir konu ve kuantizasyon matematiği üzerine kardeş makale aritmetiği yapıyor.)
128GB'lık birleşik bir havuz, tek bir sorunun cevabını değiştirir: işletim sistemi, çalışma zamanı, KV önbelleği ve GPU tahsis sınırları paylarını aldıktan sonra bu belirli kuantize edilmiş yapı sığıyor mu? Bazı agresif 235B sınıfı kuantizasyonlar için, evet. Bu yüzden kompakt bir birleşik bellekli kutu, daha küçük VRAM'li bir GPU'nun yükleyemediği bir modeli bazen yükleyebilir. Daha güçlü değildir. Sadece modeli koyacak daha büyük bir odası vardır.
Bu, başlıkların doğru yaptığı ama açıklamadan bıraktığı ilk şey. Modelin çalışıp çalışmayacağına karar veren şey ham güç değil, havuz boyutudur.
Birleşik Bellek Neden Bir Grafik Kartından Daha Yavaş?
Metni bir seferde tek bir token üretmek bellek tarafından sınırlanır bant genişliği, işlemcinin matematiği ne kadar hızlı yapabildiği tarafından değil. Ürettiğiniz her token, modelin aktif ağırlıklarının işlemci üzerinden akıtılmasını gerektirir, bu yüzden hız tavanı belleğin çipi ne kadar hızlı besleyebildiğidir. Bu, tek akışlı çözümlemenin iyi belgelenmiş tek akışlı çözümlemenin "belleğe bağımlı" doğası, çip zamanının çoğunu hesaplama yapmak yerine belleği beklemekle geçirir.
Ve bant genişliği tam olarak birleşik belleğin geri adım attığı yerdir. AMD'nin Strix Halo havuzu kağıt üzerinde 256GB/s'de çalışır ve llm-tracker.info'daki bağımsız testler pratikte bunu yaklaşık 212GB/s olarak ölçer. DGX Spark 273GB/s'de yer alır. Buna karşılık, üst düzey ayrı bir grafik kartı veriyi birkaç kat daha hızlı taşır; özel VRAM'i bunun için tasarlanmıştır. Yani bir model şuna sığdığında her ikisi hem birleşik bir kutuya hem de ayrı bir karta, ayrı kart token'ları belirgin biçimde daha hızlı üretir. Aynı model, aynı sonuç, çok farklı hız.
Yoğun modeller için yararlı bir pratik kural şudur:
saniyedeki token sayısı ≈ bellek bant genişliği ÷ bellekteki model boyutu.
Bu yönlendirici bir kuraldır, bir kıyaslama değil, ama takası açıklar: daha küçük yerleşik ağırlıklar veya daha yüksek bant genişliği genellikle daha hızlı çözümleme anlamına gelir. MoE modelleri için, kuralı doğrudan toplam parametre sayısına uygulamayın. Kapasite hâlâ toplam depolanan ağırlıklara bağlıdır, ancak token başına hız daha çok etkinleştirilen yola, yönlendirme ek yüküne, önbellek davranışına ve uygulamaya bağlıdır.
Bir nüans, sonra bırakıyorum: bir isteğin iki aşaması vardır. İstemini okumak (prefill) hesaplamaya dayanır. Yanıtı üretmek (decode) bant genişliğine dayanır. Hissettiğin yavaş kısım, kelimelerin teker teker belirmesi, bant genişliğine bağımlı olan kısımdır.
İşte spek sayfasının atladığı sonuç: birleşik bellek, büyük modeli çalıştırmanı sağlar, hızlı çalıştırmanı değil. Kapasite tartışmasını kazanır, bant genişliği tartışmasını kaybeder. Bu takasın buna değip değmediği tamamen ne yaptığına bağlıdır ve bu, satın aldıktan sonra keşfedilecek bir sürpriz değil, bilerek yapılacak adil bir takastır.
Tüm Birleşik Bellekler Aynı mı?
Hayır. "Birleşik" bir kategoriyi tanımlar, tek bir uygulamayı değil, ve sürümler önemli şekillerde farklılık gösterir. Apple'ın versiyonu kullanıcı için büyük ölçüde görünmezdir: bellek varsayılan olarak paylaşılır. AMD'nin Strix Halo'su daha uygulamalıdır: ürün yazılımı ve sürücü ayarları GPU için ne kadar belleğin ayrıldığını veya pratikte kullanılabilir olduğunu etkileyebilir. İkisi de birleşik bellektir. Ancak aynı deneyim değildir.
Bütün bu konunun ürettiği yanlış anlamayı adlandırayım, çünkü en yaygın olanı bu: daha fazla bellek daha hızlı çıkarım anlamına gelmez. Bunun anlamı daha büyük bir model çalışabilir demektir. Biri hız bekleyerek 128GB'lık bir kutu satın alır, 24GB'lık ayrı bir karta da sığan bir model yükler ve daha küçük kartın çalıştığından daha yavaş çalıştığı için hayal kırıklığına uğrar. Her iki ifade de aynı anda doğrudur: büyük havuz daha fazlasını sığdırır ve küçük hızlı kart paylaştıkları şey üzerinde daha hızlı çalışır. Boyut ve hız farklı eksenlerdir. Birleşik bellek sana yalnızca birincisini satın alır.
AMD tarafında pratik bir incelik daha var: havuzun ne kadarının bir model için gerçekten kullanılabilir olduğu ürün yazılımı ayarına ve işletim sistemine bağlıdır. AMD'nin Değişken Grafik Belleği SSS'si bu tahsisin nasıl işlediğini ele alır; kısa versiyonu şu: 128GB'lık bir kutu 128GB'ın tamamını GPU'ya vermez ve kullanılabilir miktar VGM ayarına, ayrılmış sistem belleğine, işletim sistemine ve çalışma zamanına bağlıdır. Etiketteki rakama göre değil, kullanılabilir belleğe göre planla.
Profesyonel İpucu: Yerel modeller için bir makine boyutlandırırken, teknik özellik sayfasını bir değil iki rakam olarak oku. Kapasite hangi modellerin sığacağını söyler. Bant genişliği, sığdıklarında ne kadar hızlı çalışacaklarını söyler. Devasa bir havuza ve mütevazı bir bant genişliğine sahip bir kutu, büyük modelleri yavaş çalıştıran bir kutudur; bunu önceden bildiğin sürece tam olarak istediğin şey olabilir.
Bayrak kaldırmaya değer bir durum daha var, çünkü bu büyük havuzlu makinelerde insanları yanıltıyor: Uzmanlar Karışımı (Mixture-of-Experts) modelleri. Şöyle bir model Qwen3-235B-A22B toplam 235 milyar parametreye sahiptir ancak token başına bunların yalnızca yaklaşık 22 milyarını etkinleştirir. Bunun yalnızca aktif dilim için bellek gerektirdiğini varsaymak cazip gelebilir. Normal bellek içi çıkarım için bu doğru değildir. 235 milyar ağırlığın tamamı, çalışma zamanının kullanabileceği bir yerde yerleşik kalmalıdır, çünkü herhangi bir token herhangi bir uzmana yönlendirilebilir: yalnızca token başına hesaplama azalır, kapasite gereksinimi değil. Bu ayrım, tam olarak birleşik belleğin büyük havuzunun değerini kanıtladığı yerdir ve kuantizasyon matematiği üzerine kardeş makale bu sayıların ne anlama geldiğini adım adım işler.
Sıkça Sorulan Sorular
Birleşik Bellek VRAM ile Aynı mı?
Hayır. VRAM, ayrı bir grafik kartına yerleşik, özel, yüksek hızlı bellektir ve sistem RAM'inizden ayrı tutulur. Birleşik bellek, CPU ve GPU'nun her ikisinin de kullandığı, VRAM ve sistem RAM'inin işini aynı anda yapan tek bir paylaşımlı havuzdur. Birleşik bellek genellikle daha büyük ama ayrı bir kartın VRAM'inden daha yavaştır ve iki havuz arasında veri kopyalama adımını atlar.
Belleğe Sığdığı Halde Yerel Modelim Neden Yavaş?
Çünkü sığmak ve hızlı çalışmak iki farklı şeydir. Bir modelin yüklenip yüklenmeyeceği bellek kapasitesine bağlıdır; metni ne kadar hızlı ürettiği ise bellek bant genişliğine bağlıdır. Birleşik bellek bol kapasiteye sahiptir ancak ayrı bir grafik kartından çok daha düşük bant genişliğine sahiptir, bu yüzden rahatça sığan bir model yine de token'ları yavaş üretebilir. Yoğun modeller için kaba ilişki, saniyedeki token sayısı ≈ bant genişliği ÷ model boyutu şeklindedir. MoE modelleri için, kapasite hâlâ toplam depolanan ağırlıklara bağlıdır, ancak hız daha çok etkinleştirilen yola ve çalışma zamanı uygulamasına bağlıdır.
Birleşik Belleğiniz Varsa Hâlâ GPU'ya İhtiyacınız Var mı?
Entegre GPU zaten birleşik bellekli bir çipin parçasıdır; modeli çalıştıran şey odur. Asıl soru, ayrıca ayrı bir GPU isteyip istemediğinizdir. Birçok ayrı kart size çok daha yüksek bant genişliği sunar, bu da daha hızlı üretim demektir, ancak büyük bir birleşik bellekli sistemden daha az yerel belleğe sahiptir, bu yüzden tek başlarına en büyük modelleri barındıramayabilirler. Birleşik bellek size, büyük modelleri daha düşük hızda sığdıran büyük bir havuz verir. Hangisini istediğiniz, model boyutuna karşı hız tercihinize bağlıdır.
Bir Mini PC Neden Veri Merkezi GPU'su Gerektiren Bir Modeli Çalıştırabiliyor?
Çünkü bir modeli yüklemenin darboğazı bellek kapasitesidir ve büyük bir birleşik havuza sahip bir mini PC, birçok tek GPU'lu kurulumdan daha fazla kullanılabilir model belleğine sahip olabilir. Bir tüketici GPU'sunda 24 ila 32GB VRAM olabilir ve tek bir H100 sınıfı veri merkezi GPU'sunda 80 ila 94GB vardır, oysa bazı birleşik bellekli sistemler 128GB paylaşımlı havuzlar reklamını yapar. Modelin ağırlıklarının tamamının işlemcinin erişebileceği bir yere sığması gerekir; büyük paylaşımlı havuz onları sığdırır, küçük hızlı VRAM sığdırmaz. Mini PC daha güçlü değildir. Sadece yeri vardır.
Sığdırmak Kazançtır: Ne Kadar Gerektiği Bir Sonraki Sorudur
Birleşik belleğin katkısı tek bir net şeydir: küçük bir makinenin şunu yapmasına izin veren büyük, paylaşımlı, adreslenebilir bir havuz sığdırmasını eskiden bir sunucu gerektiren modelleri sığdırmasını sağlar. Bu, kapasite kazancıdır. Bant genişliği sorunu bedeldir ve artık bir teknik özellik sayfasını hangi rakamın hangi davranışı yönettiğini bilerek okuyabilirsin.
Doğal bir sonraki soru, bu makalenin sürekli devrettiği sorudur: belirli bir model gerçekte ne kadar bellek gerektirir? Bu aritmetiktir: parametreler, ağırlık başına bayt, seçtiğiniz sıkıştırma düzeyi ve dosya boyutunun gizlediği bağlam vergisi. GGUF, GPTQ, AWQ ve EXL2 kuantizasyonu üzerine kardeş makale tam olarak bu matematiği ele alır ve bir kutuyu boyutlandırmadan veya bir model seçmeden önce yapılmaya değer.