Bir yıl önce, bir trilyon parametreli dil modelini çalıştırmak bir sunucu odası demekti. Raflar, soğutma, kendi toplantısını gerektiren bir elektrik faturası. Sonra AMD, bir masanın üzerinde duran dört mini PC'nin (aynı anda ikisini taşıyabileceğiniz türden) aynı işi yaptığını gösteren bir geliştirici yazısı yayımladı. Birbirinin aynısı dört küçük kutu, birbirine kablolanmış, bir şehir sokağından görebildiğiniz yıldızlardan daha fazla parametreye sahip bir model çalıştırıyor.
Başlık kendini yazıyor: "Bulut yok. Veri merkezi yok." Ve bu doğru. AMD gerçekten de 1,04 trilyon parametreli bir modeli, içinde tüketici silikonu bulunan dört Framework Desktop sistemi üzerinde çalıştırdı.
Ama başlığın atladığı bir kısım var ve bu, bunun bir dönüm noktası mı yoksa bir sihirbazlık numarası mı olduğunu belirleyen kısım. "Trilyon parametre" ifadesini teknik olarak dürüst kılan bir mimari ayrıntı, bu şeyi gerçekten kullanıp kullanamayacağınızı belirleyen bir püf nokta ve hem hype'ın hem de tepkinin ona verdiğinden daha fazla önem taşımasının bir nedeni var.
Kısa Versiyon
- Model Kimi K2.5 ve bu bir Mixture-of-Experts tasarımı: toplam 1,04 trilyon parametre, ancak herhangi bir token'da bunların yalnızca yaklaşık 32 milyarı devreye giriyor. "Trilyon parametreli model" ifadesi doğru; ancak token başına hesaplama 32B sınıfı bir iş yüküne daha yakın.
- Küme saniyede yaklaşık 8 ila 9,5 token üretiyor; ilk token'a kadar geçen süre ise prompt'unuzun uzunluğuna bağlı olarak 39,7 ile 239,1 saniye arasında değişiyor. Toplu işler için sorun değil. Etkileşimli bir kodlama döngüsü için ise acımasız.
- Değişen şey hız değil. Değişen şey, birleşik belleğin sınır ölçekli çıkarımı satın alıp bir rafa koyabileceğiniz donanıma taşıması; bu, eskiden "bir veri merkezine sahip olmak" ile başlayan bir kategoriydi.
AMD'nin Gerçekte Ne Yaptığı
Kurulum, düzenli haliyle görüldüğünde neredeyse hayal kırıklığı yaratacak kadar sade. Dört Framework Desktop makinesi, her biri bir Ryzen AI Max+ 395 ve 128 GB LPDDR5X birleşik bellek taşıyor. BIOS'ta her düğüm, özel VRAM olarak 96 GB'a kadar, ya da dört düğüm genelinde 384 GB sunabiliyor; AMD'nin Linux kılavuzu daha sonra TTM/çekirdek ayarlarını kullanarak bunu düğüm başına 120 GB'a, yani toplamda 480 GB'a çıkarıyor. Bu önemli, çünkü AMD'nin kullandığı Kimi K2.5 UD_Q2_K_XL GGUF derlemesi 240 GB değil, 375 GB olarak listeleniyor.
Tutkal, RPC modundaçalışan llama.cpp: bir kontrolcü düğüm ve üç RPC sunucusu, model dört makineye dağıtılmış halde. AMD, ara bağlantıyı 5 Gbps Ethernet olarak listeliyor; bu da Framework Desktop'ın yerleşik 5Gbit Ethernet portuna uyuyor. Tüm donanım bu kadar. Egzotik bir ara bağlantı yok, özel kart yok, bu öğleden sonra sipariş edemeyeceğiniz hiçbir şey yok.
Tüm bunlardaki ilginç kelime şu: birleşik. Normal bir PC'de, CPU'nuzun RAM'i ve GPU'nuzun VRAM'i ayrı havuzlardır ve VRAM için fazla büyük olan bir model ya yavaş sistem belleğine taşar ya da hiç çalışmaz. Birleşik bellek bu duvarı yıkar: GPU tüm bankayı adresleyebilir, ki bu da 4,5 litrelik bir masaüstünün bu boyutta bir modelin bir parçasını ilk etapta tutabilmesinin tek nedenidir.
AMD'nin kendi teknik yazısı yapılandırmayı ayrıntılı olarak ele alıyor. Gerçekten ele almadığı şey ise "trilyon parametre" ifadesinin göründüğünden daha fazla retorik iş yapmasının nedeni.
Püf Nokta: "Trilyon Parametre" Neden Doğru Ama Gerçeğin Tamamı Değil
Spec sayfasının açıklamadan yaslandığı şey şu: Kimi K2.5 bir Mixture-of-Experts modelidir ve bu, "trilyon parametre" ifadesinin pratikte ne anlama geldiğini değiştirir.
Çoğu insanın gözünde canlandırdığı türden yoğun bir model, her token için her parametreyi çalıştırır. 70 milyar parametreli yoğun bir model, ürettiği her kelime için 70 milyar parametre değerinde matematik yapar. Bir Mixture-of-Experts modeli farklı şekilde inşa edilmiştir. Kimi K2.5'in 384 ayrı "uzmanı" vardır, bunların token başına 8'i artı bir paylaşılan uzman aktive olur, 61 katmanboyunca. Yani model toplamda 1,04 trilyon parametre taşırken, herhangi bir ileri geçişte bunların yalnızca yaklaşık 32 milyarı yanar. Bir yönlendirici hangi uzmanların uyandırılacağını seçer; geri kalanı o token için hiçbir şey yapmadan orada durur.
Peki "dört mini PC üzerinde trilyon parametreli bir model çalıştırmak" dürüstçe mi? Evet, 1,04 trilyon parametrenin tamamını tutmak için belleğe gerçekten ihtiyacınız var ve zor olan kısım o bellek. Ama donanımınızın token başına yapması gereken hesaplama, 1T sınıfı değil, 32B sınıfı bir iş.
Bu iki yönlü kesiyor ve işin ilginçleştiği yer burası. Bu, demoyu kulağa geldiğinden daha etkileyici kılıyor, çünkü tam bir trilyon parametreli modeli tüketici kutuları üzerinde bellekte tutmak, başardıkları asıl zor şey. Ve bunu başlığın ima ettiğinden daha az etkileyici kılıyor, çünkü asıl token başına iş yükü, tekil kutuların daha küçük MoE modellerinde zaten daha hızlı kemirdiği bir şey. 120B'lik bir MoE modeli bu düğümlerden birindesaniyede 50'den fazla token hızında çalışıyor. Trilyon parametre rakamı gerçek, ama bu bir bellek gösterisi, bir hesaplama gösterisi değil.
Çıkarım: bir model için donanım boyutlandırırken, makinenizin token başına beslemesi gereken şey, kutudaki toplam değil, aktif parametre sayısıdır.
Püf Nokta: Saniyede 8 Token ve 40 Saniyeden 4 Dakikaya Kadar Bir Bekleme Gerçekte Ne Anlama Geliyor
Saniyede sekiz token, her şeyi belirleyen rakam, o yüzden bununla biraz oturun. AMD'nin makalesi, kümenin 8.192 token'lık bir bağlamda yaklaşık 8,30 t/s ve kararlı durumda kabaca 9,45 t/s ürettiğini, prompt işlemenin ise yaklaşık 100,77 t/s olduğunu bildiriyor. Bunlar, olduğu şeyler için sorun olmayan, adil rakamlar.
Canını yakan ise ilk token'a kadar geçen süre. Model tek bir kelime üretmeden önce prompt'unuzu okuması gerekir ve AMD'nin kendi karşılaştırma tablosu bu beklemeyi 4.096 token'lık bir prompt için 39,7 saniye, 8.192 token'lık bir prompt için 90,5 saniye ve Flash Attention etkinken 16.384 token'lık bir prompt için 239,1 saniye olarak gösteriyor. Yani bir soru yazıyorsunuz ve sonra bekliyorsunuz. Bir şey geri gelmeden önce muhtemelen neredeyse dört dakika.
Etkileşimli bir kodlama döngüsü için bu zorlu ve Hacker News tartışmasındaki geliştiriciler bunu açıkça söyledi: ilk token'dan önce bir dakikadan fazla ölü sessizlik, herhangi birinin bir asistanla kod yazma şekline uymuyor. Ama iş yükünü ters çevirin. Gece boyunca toplu işler çalıştırıyorsanız, belgeleri async işliyorsanız, daha sonra okuyacağınız şeyler üretiyorsanız ya da bütün mesele hiçbir şeyin binadan çıkmaması olan özel çıkarım yapıyorsanız, saniyede 8 token tamamen yaşanabilir. Zaten ekranı izlemiyordunuz.
Dipnot: Bu rakamların kutudan çıktığı gibi yeniden üretilmesini beklemeyin. Bu donanım üzerindeki ROCm yazılım yığını, can yakan şekillerde sürüm hassasiyetine sahip: bir GitHub sorunu, ROCm 7.1.1 ve Linux çekirdeği 6.14 altında LLM çıkarımında boşta GPU saat hızlarında takılı kalan ve 0,5 t/s hızında sürünen bir Strix Halo sistemini belgeledi. Bu "AMD bozuk" anlamına gelmez, ama yayımlanan performansın çok belirli bir yazılım yığınına bağlı olduğu ve donanımınız yazıdaki rakamlarla eşleşmeden önce ROCm, çekirdek ve firmware kombinasyonlarının peşinde koşmanız gerekebileceği anlamına gelir.
Tepkinin yanlış anladığı bir şey daha var, o da maliyet. İnsanlar buna sürekli "10.000 dolarlık küme" diyor, ama kimse bunu sabit bir malzeme faturası olarak yayımlamıyor. Aritmetiği kendiniz yapın: 1.999 dolarlık lansman fiyatından dört adet 128 GB Framework Desktop, yalnızca makineleri yaklaşık 8.000 dolara getirir; oysa bir Mart 2026 Liliputing anlık görüntüsü 128GB/1TB Framework Desktop yapılandırmasını 2.851 dolar, yani ağ donanımı hariç dört adet için yaklaşık 11.400 dolar olarak listeledi. Switch ve kablolama için birkaç yüz dolar ekleyin ve pratik aralık, yapılandırmaya, satın alma tarihine ve elinizde zaten ne olduğuna bağlı olarak kabaca 8,2 bin ila 11,7 bin dolara daha yakın olur. Hiçbir şey değil. Ama bir sunucu odası da değil.
Tüm bu meselede vardığım nokta şu: küme çalışıyor. Saniyede sekiz token ve bir dakikadan fazla beklemenin bir zafer mi yoksa bir oyuncak mı olduğu, tamamen ne inşa etmeye çalıştığınıza bağlı. Bu, etkileşimli bir kodlama iş istasyonu değil. Aynı zamanda bir oyuncak da değil. Belirli bir tür sabırlı iş için gerçek bir makine ve onun bundan ne daha fazlası ne de daha azı olduğunu farz etmek, bu tartışmadaki herkesin birbirini anlamadan konuşmasının yolu.
Bunun Gerçekte Vardığı Yer
Dürüst çerçeve "AMD, Nvidia'yı yendi" değil. Çerçeve şu: bu, farklı bir kişi için farklı bir ürün. Bunu isteyen okur, gizliliğe ihtiyaç duyan, çevrimdışı isteyen ya da sonsuza dek token başına ödeme yapmak istemeyen kişidir, mümkün olan en hızlı yanıtın peşinde koşan değil.
Ve tüm bu uğraşa karşı en güçlü argüman dürüst bir yanıtı hak ediyor: doğrudan Kimi'nin API'sine vurabilirsiniz. Artificial Analysis şu anda Kimi'nin kendi K2.5 uç noktasını saniyede yaklaşık 56 ila 60 token hızında ve milyon token başına yaklaşık 0,49 dolarlık karma bir fiyatla listeliyor; oysa Kimi'nin resmi API platformu K2.5 fiyatlandırmasını milyon başına 0,10 dolar cache-hit girdi token'ı, milyon başına 0,60 dolar girdi token'ı ve milyon başına 3,00 dolar çıktı token'ı olarak listeliyor. Üçüncü taraf K2.5 sağlayıcıları, yönlendirmeye bağlı olarak daha hızlı ya da daha ucuz olabilir, ama temel nokta aynı: API kümeden daha hızlı, donanım dadılığından kaçınıyor ve çoğu insan için çoğu gün doğru tercih olacak.
Yani yerel hikaye yalnızca şu üç şeyden biri doğru olduğunda mantıklı olur: veri ayrılamaz (gizlilik), bağlantı varsayılamaz (çevrimdışı) ya da token hacmi, metale sahip olmanın sonsuza dek kiralamaktan daha iyi olacağı kadar yüksek ve sürekli (ölçekte maliyet). Bu üçünün dışında API kazanır. Onların içinde ise küme, işi hiç yapan tek şeydir.
| Boyut | AMD 4 düğümlü küme | Kimi API / bulut rotası |
|---|---|---|
| Üretim hızı | ~8 ila 9,5 t/s | Kimi'nin kendi K2.5 uç noktasında ~56 ila 60 t/s |
| İlk token'a kadar geçen süre | 39,7 ila 239,1 s | sağlayıcıya bağlı, çok daha düşük |
| Maliyet modeli | ~8,2 bin ila 11,7 bin dolar donanım | token başına API fiyatlandırması |
| Gizlilik / çevrimdışı | tamamen yerel | sağlayıcı barındırmalı |
| En uygun kullanım senaryosu | özel, çevrimdışı, toplu iş | etkileşimli/API kullanımı |
Kayıtlara geçsin, Nvidia'nın DGX Spark'ı buradaki bariz "ama ya şu" durumu ve AMD kümesinin kazanmadığı bazı eksenlerde kazanıyor. Bu bambaşka bir kavga ve başka bir yerde ele alacağım biri. Donanım-mı-bulut-mu kararının kiralama tarafını istiyorsanız, Cloudzy'nin GPU VPS sayfası daha pratik karşılaştırma noktasıdır.
Gerçekte Önemli Olan Kısım
Token hızını ve fiyat argümanlarını bir kenara bırakın, geriye ayakta duran bir gerçek kalıyor: bir trilyon parametreli modeli çalıştıran donanım artık bir bina değil, bir raf.
Değişim bu ve hız çekişmesinin altında gözden kaçırmak kolay. Bir yıl önce, 1,04 trilyon parametreli bir model çalıştırabilecek insanların kategorisi "veri merkezi operatörleri"ydi. Nokta. Şimdi ise kabaca on bin doları ve biraz sabrı olan herkesi kapsıyor. Çizgi biraz kaymadı: bambaşka bir grup insan, kilitli olan bir kapıdan henüz geçti.
Açtığı şey ise ilginç olan kısım. Tamamen sahip olduğunuz donanım üzerinde çalışan özel ajanlar. Bir uçakta ya da bir air gap arkasında çalışan çıkarım. Çağrının gidebileceği bir yer olmadığı için fiziksel olarak eve telefon edemeyen modeller. Bir token'ın marjinal maliyetinin ölçülen bir API hattı yerine elektrik olduğu bir yapay zeka ekonomisi. Bunların hiçbiri bir yıl önce tüketici donanımında erişilebilir değildi ve buna erişen şey birleşik bellek.
Bu deseni "bu her şeyi değiştirir" konusunda temkinli olacak kadar çok kez izledim. Genellikle değiştirmez; genellikle geçen yılki şeyin yeni bir logoyla geri gelmiş halidir. Bu seferki farklı ve bunun nedeni hızlı olması değil. Farklı, çünkü taban kaydı. Sınır ölçekli yerel çıkarımın yavaş, pahalı, sabırlı versiyonu artık var ve hızlı versiyonu yalnızca sonraki birkaç donanım kuşağının onu öğütüp inceltmesi meselesi. Zor kısım hiçbir zaman hız olmayacaktı. Zor kısım erişimdi ve erişim henüz gerçekleşti.
Buradaki dönüm noktası hız değil. Odaya kimin alındığı. Sınır ölçekli modelleri çalıştıran makine eskiden bir binaydı. Şimdi bir rafta dört kutu.
Sıkça Sorulan Sorular
Bir Mini PC Kümesinde Gerçekten Trilyon Parametreli Bir Model Çalıştırabilir misiniz?
Evet, önemli bir uyarıyla. AMD, 1,04 trilyon parametreli bir model olan Kimi K2.5'i dört Ryzen AI Max+ 395 mini PC üzerinde çalıştırdı. BIOS'ta dört sistem toplamda yaklaşık 384 GB özel VRAM sunabiliyor; AMD'nin Linux kılavuzu daha sonra TTM/çekirdek ayarları aracılığıyla tahsisi toplamda 480 GB'a çıkarıyor. Ama Kimi K2.5 bir Mixture-of-Experts modelidir: o 1,04 trilyon parametrenin yalnızca yaklaşık 32 milyarı herhangi bir token'da aktive olur. Hepsini tutmak için belleğe ihtiyacınız var, ama token başına hesaplama 32 milyar parametreli bir iş yüküne daha yakın.
Kimi K2.5 Nedir ve MoE Mimarisi Burada Neden Önemli?
Kimi K2.5, Moonshot AI'dan toplam 1,04 trilyon parametreye ve ileri geçiş başına 32 milyar aktif parametreye sahip, bir Mixture-of-Experts tasarımı üzerine inşa edilmiş açık ağırlıklı bir dil modelidir (384 uzman, token başına 8 aktif artı bir paylaşılan). Mimari önemlidir, çünkü donanımınızın her token için hesaplaması gereken şey toplam değil, aktif parametre sayısıdır. Kağıt üzerinde trilyon parametreli bir modelin tüketici kutularında çalışabilmesinin nedeni de budur.
Yerel Yapay Zeka İçin Saniyede 8 Token Yeterince Hızlı mı?
Tamamen iş yüküne bağlı. Toplu işleme, async işler, çevrimdışı kullanım ya da hiçbir şeyin donanımınızdan ayrılamadığı özel çıkarım için saniyede 8 token sorun değil, ekrana bakıyor değilsiniz. Etkileşimli kodlama için ise zorlu, çoğunlukla bu kümede ilk token'a kadar geçen süre prompt uzunluğuna bağlı olarak yaklaşık 40 saniyeden neredeyse 4 dakikaya kadar çıktığı için ve ilk kelimeden önceki o ölü sessizlik yinelemeli bir döngüyü öldürdüğü için.
Neden Bunun Yerine Doğrudan Kimi'nin API'sini Kullanmıyorsunuz?
Çoğu insan için kullanmalısınız. Kimi'nin kendi K2.5 uç noktası, mevcut Artificial Analysis verilerinde yerel kümeden çok daha hızlı ve üçüncü taraf K2.5 sağlayıcıları daha da hızlı ya da daha ucuz olabilir. Yerel donanım yalnızca gizliliğe (veri ayrılamaz), çevrimdışı yeteneğe (varsayılacak bağlantı yok) ya da ölçekte maliyete (sahip olmanın kiralamayı yendiği sürekli yüksek hacim) ihtiyaç duyduğunuzda mantıklı olur. Bu durumların dışında API daha iyi seçimdir.