قبل عام، كان تشغيل نموذج لغوي بتريليون معامل يعني غرفة خوادم كاملة. خزائن، وأنظمة تبريد، وفاتورة كهرباء تحتاج إلى اجتماع خاص بها. ثم نشرت AMD مقالة تقنية للمطورين تُظهر أربعة أجهزة كمبيوتر مصغّرة موضوعة على مكتب (من النوع الذي يمكنك حمل اثنين منه في وقت واحد) تؤدي المهمة نفسها. أربعة صناديق صغيرة متطابقة، موصولة ببعضها، تُشغّل نموذجاً يحوي معاملات أكثر من عدد النجوم التي يمكنك رؤيتها من شارع في المدينة.
العنوان يكتب نفسه: "بلا سحابة. بلا مركز بيانات." وهذا صحيح. لقد شغّلت AMD فعلاً نموذجاً بـ 1.04 تريليون معامل على أربعة أنظمة Framework Desktop بمعالجات استهلاكية في داخلها.
لكن هناك جزءاً تخطّاه العنوان، وهو الجزء الذي يحدد ما إذا كان هذا إنجازاً أم خدعة سحرية. هناك تفصيل معماري يجعل عبارة "تريليون معامل" صادقة من الناحية التقنية، ومأخذ يحدد ما إذا كان بإمكانك فعلاً استخدام هذا الشيء، وسبب يجعله مهماً أكثر مما يمنحه إياه التهليل أو الانتقاد.
النسخة المختصرة
- النموذج هو Kimi K2.5، وهو تصميم من نوع Mixture-of-Experts: 1.04 تريليون معامل إجمالاً، لكن نحو 32 مليار منها فقط يعمل في أي رمز معطى. عبارة "نموذج بتريليون معامل" دقيقة؛ لكن الحوسبة لكل رمز أقرب إلى عبء عمل من فئة 32B.
- تولّد المجموعة نحو 8 إلى 9.5 رمز في الثانية، مع زمن حتى أول رمز يتراوح بين 39.7 و239.1 ثانية حسب طول مطالبتك. مناسب للعمل الدفعي. قاسٍ لحلقة برمجة تفاعلية.
- الشيء الذي تغيّر ليس السرعة. بل أن الذاكرة الموحّدة وضعت الاستدلال بحجم الطليعة على أجهزة يمكنك شراؤها ووضعها على رفّ، وهي فئة كانت تبدأ سابقاً بـ "امتلاك مركز بيانات".
ما فعلته AMD فعلياً
الإعداد يكاد يكون مخيّباً للتوقعات حالما تراه مفصّلاً. أربعة أجهزة Framework Desktop كل منها يحمل معالج Ryzen AI Max+ 395 و128 جيجابايت من ذاكرة LPDDR5X الموحّدة. في BIOS، يمكن لكل عقدة أن تكشف ما يصل إلى 96 جيجابايت كـ VRAM مخصّصة، أو 384 جيجابايت عبر العقد الأربع؛ ثم يستخدم دليل AMD على Linux إعدادات TTM/النواة لرفع ذلك إلى 120 جيجابايت لكل عقدة، أو 480 جيجابايت إجمالاً. هذا مهم لأن بناء Kimi K2.5 UD_Q2_K_XL GGUF الذي استخدمته AMD مدرج بحجم 375 جيجابايت، وليس 240 جيجابايت.
الرابط هو llama.cpp يعمل في وضع RPC: عقدة تحكّم واحدة وثلاثة خوادم RPC، مع توزيع النموذج عبر الأجهزة الأربعة جميعها. تُدرج AMD الوصلة البينية كـ 5 Gbps Ethernet، وهو ما يتوافق مع منفذ 5Gbit Ethernet المدمج في Framework Desktop. هذا هو الجهاز بأكمله. لا وصلة بينية غريبة، لا لوحات مخصّصة، ولا شيء لا يمكنك طلبه بعد ظهر هذا اليوم.
الكلمة المثيرة للاهتمام في كل ذلك هي موحّدة. في حاسوب عادي، تكون ذاكرة RAM الخاصة بمعالجك وذاكرة VRAM الخاصة بمعالج الرسوميات لديك مجمّعين منفصلين، والنموذج الكبير جداً على الـ VRAM إما ينساب إلى ذاكرة النظام البطيئة أو لا يعمل. الذاكرة الموحّدة تُسقط هذا الجدار: يمكن لمعالج الرسوميات أن يخاطب البنك بأكمله، وهذا هو السبب الكامل في أن سطح مكتب بحجم 4.5 لتر يمكنه أن يحمل جزءاً من نموذج بهذا الحجم أصلاً.
إن المقالة التقنية الخاصة بـ AMD تغطّي التهيئة بالتفصيل. ما لا تغطّيه فعلاً هو سبب أن عبارة "تريليون معامل" تؤدي عملاً بلاغياً أكبر مما تبدو عليه.
الخدعة: لماذا عبارة "تريليون معامل" صحيحة لكنها ليست الحقيقة كاملة
إليك الشيء الذي تتّكئ عليه ورقة المواصفات دون شرحه: Kimi K2.5 نموذج من نوع Mixture-of-Experts، وهذا يغيّر ما تعنيه عبارة "تريليون معامل" عملياً.
النموذج الكثيف، من النوع الذي يتخيّله معظم الناس، يُشغّل كل معامل لكل رمز. نموذج كثيف بـ 70 مليار معامل يُجري حسابات بقيمة 70 مليار معامل على كل كلمة يولّدها. أما نموذج Mixture-of-Experts فمبنيّ بطريقة مختلفة. يحوي Kimi K2.5 على 384 "خبيراً" منفصلاً، يُفعّل 8 منها لكل رمز بالإضافة إلى خبير مشترك واحد، عبر 61 طبقة. لذا بينما يحمل النموذج 1.04 تريليون معامل إجمالاً، فإن نحو 32 مليار منها فقط يضيء في أي تمريرة أمامية واحدة. يختار موجّه أيّ الخبراء يُوقظ؛ والباقي يجلس هناك دون أن يفعل شيئاً لذلك الرمز.
إذن هل عبارة "تشغيل نموذج بتريليون معامل على أربعة أجهزة كمبيوتر مصغّرة" صادقة؟ نعم، فأنت تحتاج فعلاً إلى الذاكرة لتحمل كل الـ 1.04 تريليون معامل، وتلك الذاكرة هي الجزء الصعب. لكن الحوسبة التي يتعيّن على أجهزتك القيام بها لكل رمز هي مهمة من فئة 32B، وليست من فئة 1T.
وهذا يعمل في الاتجاهين، وهنا يصبح الأمر مثيراً للاهتمام. فهو يجعل العرض أكثر إبهاراً مما يبدو، لأن الاحتفاظ بنموذج كامل بتريليون معامل في الذاكرة على صناديق استهلاكية هو الشيء الصعب فعلاً الذي حقّقوه. وهو يجعله أقل إبهاراً مما يوحي به العنوان، لأن عبء العمل الفعلي لكل رمز هو شيء تمضغه الصناديق المفردة أصلاً بسرعة أكبر على نماذج MoE أصغر. نموذج MoE بـ 120B يعمل بسرعة تتجاوز 50 رمزاً في الثانية على إحدى هذه العقد. رقم التريليون معامل حقيقي، لكنه استعراض للذاكرة، وليس استعراضاً للحوسبة.
الخلاصة: عندما تحدد حجم الأجهزة لنموذج ما، فإن عدد المعاملات النشطة هو ما يتعيّن على جهازك تغذيته لكل رمز، وليس الإجمالي الموجود على الصندوق.
المأخذ: ماذا تعني فعلاً 8 رموز في الثانية وانتظار يتراوح بين 40 ثانية و4 دقائق
ثمانية رموز في الثانية هو الرقم الذي يحدد كل شيء، لذا توقّف عنده للحظة. تذكر مقالة AMD أن المجموعة تولّد نحو 8.30 رمز/ثانية في سياق 8,192 رمزاً ونحو 9.45 رمز/ثانية في الحالة المستقرة، مع معالجة المطالبة بنحو 100.77 رمز/ثانية. هذه أرقام جيدة ومنصفة لما هي عليه.
الرقم الذي يؤلم هو زمن حتى أول رمز. قبل أن يُنتج النموذج كلمة واحدة، عليه أن يقرأ مطالبتك، وجدول معايير AMD نفسه يضع هذا الانتظار عند 39.7 ثانية لمطالبة بـ 4,096 رمزاً، و90.5 ثانية لمطالبة بـ 8,192 رمزاً، و239.1 ثانية لمطالبة بـ 16,384 رمزاً مع تفعيل Flash Attention. فتكتب سؤالاً، ثم تنتظر. ربما لقرابة أربع دقائق، قبل أن يعود أي شيء.
بالنسبة لحلقة برمجة تفاعلية، هذا قاسٍ، وقد قال المطورون في نقاش Hacker News ذلك بصراحة: دقيقة أو أكثر من الصمت قبل أول رمز لا تتناسب مع طريقة كتابة أي شخص للبرمجة بمساعدة مساعد. لكن اقلب عبء العمل. إذا كنت تُشغّل مهام دفعية طوال الليل، أو تعالج مستندات بشكل غير متزامن، أو تولّد أشياء ستقرأها لاحقاً، أو تجري استدلالاً خاصاً يكون الهدف الكامل منه ألا يغادر شيء المبنى، فإن 8 رموز في الثانية قابلة تماماً للعيش بها. فأنت لم تكن تشاهد الشاشة على أي حال.
الحاشية: لا تتوقّع أن تتكرر هذه الأرقام جاهزة فور التشغيل. حزمة برمجيات ROCm على هذه الأجهزة حسّاسة للإصدارات بطرق تلدغ: وثّقت مشكلة على GitHub نظام Strix Halo عالقاً عند ترددات خمول لمعالج الرسوميات ويزحف بسرعة 0.5 رمز/ثانية تحت استدلال LLM على ROCm 7.1.1 ونواة Linux 6.14. هذا ليس "AMD معطوبة"، لكنه يعني أن الأداء المنشور يعتمد على حزمة برمجيات محددة جداً، وقد ينتهي بك الأمر تطارد توليفات من ROCm والنواة والبرامج الثابتة قبل أن يطابق جهازك الأرقام الواردة في المقالة.
شيء آخر يخطئ فيه الانتقاد، وهو التكلفة. يستمر الناس في تسميتها "مجموعة بـ 10,000 دولار"، لكن لا أحد ينشر ذلك كقائمة مواد ثابتة. أجرِ الحساب بنفسك: أربعة أجهزة Framework Desktop بسعة 128 جيجابايت بسعر الإطلاق البالغ 1,999 دولار يضع الأجهزة وحدها عند نحو 8,000 دولار، بينما لقطة من Liliputing في مارس 2026 أدرجت تهيئة Framework Desktop بسعة 128GB/1TB عند 2,851 دولاراً، أي نحو 11,400 دولار لأربعة أجهزة قبل الشبكات. أضف بضع مئات من الدولارات للمحوّل والكابلات، ويصبح النطاق العملي أقرب إلى ما يقارب 8.2 آلاف إلى 11.7 ألف دولار حسب التهيئة وتاريخ الشراء وما تملكه أصلاً. ليس شيئاً تافهاً. وليس غرفة خوادم أيضاً.
إليك أين أستقر بشأن الأمر كله: المجموعة تعمل. وما إذا كانت ثمانية رموز في الثانية وانتظار دقيقة أو أكثر انتصاراً أم لعبة يعتمد كلياً على ما تحاول بناءه. إنها ليست محطة عمل برمجة تفاعلية. وهي أيضاً ليست لعبة. إنها جهاز حقيقي لنوع محدد من العمل الصبور، والتظاهر بأنها أكثر أو أقل من ذلك هو ما يجعل الجميع في هذا الجدال ينتهي بهم الأمر يتحدثون دون أن يفهم بعضهم بعضاً.
أين يقع هذا فعلاً
التأطير الصادق ليس "AMD هزمت Nvidia". بل أن هذا منتج مختلف لشخص مختلف. القارئ الذي يريد هذا هو من يحتاج إلى الخصوصية، أو يريد العمل دون اتصال، أو لا يريد الدفع لكل رمز إلى الأبد، وليس من يلاحق أسرع استجابة ممكنة.
وأقوى حجة ضد التجربة كلها تستحق إجابة مباشرة: يمكنك ببساطة استخدام واجهة Kimi البرمجية. تُدرج Artificial Analysis حالياً نقطة نهاية K2.5 الخاصة بـ Kimi بنحو 56 إلى 60 رمزاً في الثانية بسعر مدمج يبلغ نحو 0.49 دولار لكل مليون رمز، بينما منصة واجهة Kimi البرمجية الرسمية تُدرج تسعير K2.5 عند 0.10 دولار/مليون رمز إدخال محقّق في الذاكرة المؤقتة، و0.60 دولار/مليون رمز إدخال، و3.00 دولار/مليون رمز إخراج. قد يكون مزوّدو K2.5 من الأطراف الثالثة أسرع أو أرخص حسب التوجيه، لكن النقطة الأساسية هي ذاتها: الواجهة البرمجية أسرع من المجموعة، وتتجنّب مجالسة الأجهزة، وستكون الخيار الصحيح لمعظم الناس في معظم الأيام.
إذن القصة المحلية لا تكون منطقية إلا حين يكون أحد ثلاثة أمور صحيحاً: لا يمكن للبيانات أن تغادر (خصوصية)، أو لا يمكن افتراض وجود اتصال (دون اتصال)، أو يكون حجم الرموز مرتفعاً ومستداماً بما يكفي بحيث يتفوّق امتلاك العتاد على استئجاره إلى الأبد (التكلفة عند الحجم الكبير). خارج هذه الثلاثة، تفوز الواجهة البرمجية. وداخلها، المجموعة هي الشيء الوحيد الذي ينجز المهمة أصلاً.
| البُعد | مجموعة AMD ذات الأربع عقد | واجهة Kimi البرمجية / المسار السحابي |
|---|---|---|
| سرعة التوليد | ~8 إلى 9.5 رمز/ثانية | ~56 إلى 60 رمز/ثانية على نقطة نهاية K2.5 الخاصة بـ Kimi |
| زمن حتى أول رمز | 39.7 إلى 239.1 ثانية | يعتمد على المزوّد، أقل بكثير |
| نموذج التكلفة | ~8.2 آلاف إلى 11.7 ألف دولار للعتاد | تسعير الواجهة البرمجية لكل رمز |
| الخصوصية / دون اتصال | محلي بالكامل | مستضاف لدى المزوّد |
| أفضل حالة استخدام مناسبة | العمل الخاص، دون اتصال، الدفعي | الاستخدام التفاعلي/عبر الواجهة البرمجية |
للعلم، فإن DGX Spark من Nvidia هو سؤال "لكن ماذا عن" البديهي هنا، وهو يتفوّق في بعض المحاور التي لا تتفوّق فيها مجموعة AMD. هذا صراع منفصل تماماً، وسأتناوله في موضع آخر. إذا أردت جانب الاستئجار من قرار العتاد مقابل السحابة، فإن صفحة GPU VPS من Cloudzy هي نقطة المقارنة الأكثر عملية.
الجزء الذي يهم فعلاً
انزع معدّل الرموز وحجج السعر، ويبقى حقيقة واحدة قائمة: العتاد الذي يُشغّل نموذجاً بتريليون معامل صار الآن رفّاً، لا مبنى.
هذا هو التحوّل، ومن السهل تفويته تحت مشاحنات السرعة. قبل عام، كانت فئة الأشخاص القادرين على تشغيل نموذج بـ 1.04 تريليون معامل هي "مشغّلو مراكز البيانات". لا غير. الآن تشمل أي شخص لديه نحو عشرة آلاف دولار وقليل من الصبر. الخط لم يتحرّك قليلاً: مجموعة جديدة بأكملها من الناس عبرت للتو باباً كان مقفولاً.
ما يفتحه ذلك هو الجزء المثير للاهتمام. وكلاء خاصون يعملون كلياً على عتاد تملكه. استدلال يعمل في طائرة أو خلف فجوة هوائية. نماذج لا تستطيع فيزيائياً الاتصال بالخارج لأنه لا يوجد مكان يذهب إليه الاتصال. اقتصاديات للذكاء الاصطناعي تكون فيها التكلفة الحدية للرمز كهرباءً بدلاً من خط واجهة برمجية محسوب بالعدّاد. لم يكن أي من ذلك في متناول العتاد الاستهلاكي قبل عام، والذاكرة الموحّدة هي الشيء الذي وصل إليه.
لقد شاهدت هذا النمط مرات كافية لأكون حذراً من عبارة "هذا يغيّر كل شيء". عادةً لا يفعل؛ عادةً يكون شيء العام الماضي بشعار جديد. هذا مختلف، وليس لأنه سريع. إنه مختلف لأن الأرضية تحرّكت. النسخة البطيئة المكلفة الصبورة من الاستدلال المحلي بحجم الطليعة موجودة الآن، والنسخة السريعة ليست سوى مسألة بضعة أجيال عتاد قادمة تطحنها للأسفل. الجزء الصعب لم يكن قط ليكون السرعة. الجزء الصعب كان الوصول، والوصول حدث للتو.
الإنجاز هنا ليس السرعة. بل من يُسمح له بدخول الغرفة. الجهاز الذي يُشغّل نماذج بحجم الطليعة كان مبنى. الآن صار أربعة صناديق على رفّ.
الأسئلة الشائعة
هل يمكنك فعلاً تشغيل نموذج بتريليون معامل على مجموعة من أجهزة الكمبيوتر المصغّرة؟
نعم، مع تحفّظ واحد مهم. شغّلت AMD نموذج Kimi K2.5، وهو نموذج بـ 1.04 تريليون معامل، عبر أربعة أجهزة كمبيوتر مصغّرة بمعالج Ryzen AI Max+ 395. في BIOS، يمكن للأنظمة الأربعة أن تكشف نحو 384 جيجابايت من الـ VRAM المخصّصة إجمالاً؛ ثم يرفع دليل AMD على Linux التخصيص إلى 480 جيجابايت إجمالاً عبر إعدادات TTM/النواة. لكن Kimi K2.5 نموذج من نوع Mixture-of-Experts: من تلك الـ 1.04 تريليون معامل، نحو 32 مليار فقط يُفعّل في أي رمز معطى. تحتاج إلى الذاكرة لتحملها جميعاً، لكن الحوسبة لكل رمز أقرب إلى عبء عمل بـ 32 مليار معامل.
ما هو Kimi K2.5 ولماذا تهمّ معمارية MoE هنا؟
Kimi K2.5 نموذج لغوي مفتوح الأوزان من Moonshot AI بإجمالي 1.04 تريليون معامل و32 مليار نشطة لكل تمريرة أمامية، مبنيّ على تصميم Mixture-of-Experts (384 خبيراً، 8 مفعّلة لكل رمز بالإضافة إلى واحد مشترك). تهمّ المعمارية لأن عدد المعاملات النشطة، لا الإجمالي، هو ما يتعيّن على أجهزتك حسابه لكل رمز. لهذا يمكن لنموذج بتريليون معامل على الورق أن يعمل على صناديق استهلاكية أصلاً.
هل 8 رموز في الثانية سرعة كافية للذكاء الاصطناعي المحلي؟
يعتمد كلياً على عبء العمل. بالنسبة للمعالجة الدفعية، أو المهام غير المتزامنة، أو الاستخدام دون اتصال، أو الاستدلال الخاص حيث لا يمكن لشيء أن يغادر أجهزتك، فإن 8 رموز في الثانية جيدة، فأنت لا تحدّق في الشاشة. بالنسبة للبرمجة التفاعلية، فهي قاسية، أساساً لأن زمن حتى أول رمز على هذه المجموعة يتراوح بين نحو 40 ثانية وقرابة 4 دقائق حسب طول المطالبة، وذلك الصمت قبل أول كلمة يقتل الحلقة التكرارية.
لماذا لا تستخدم واجهة Kimi البرمجية ببساطة بدلاً من ذلك؟
بالنسبة لمعظم الناس، ينبغي أن تفعل. نقطة نهاية K2.5 الخاصة بـ Kimi أسرع بكثير من المجموعة المحلية في بيانات Artificial Analysis الحالية، وقد يكون مزوّدو K2.5 من الأطراف الثالثة أسرع أو أرخص أيضاً. العتاد المحلي لا يكون منطقياً إلا حين تحتاج إلى الخصوصية (لا يمكن للبيانات أن تغادر)، أو القدرة على العمل دون اتصال (لا اتصال يُفترض)، أو التكلفة عند الحجم الكبير (حجم مرتفع مستدام حيث يتفوّق الامتلاك على الاستئجار). خارج تلك الحالات، الواجهة البرمجية هي الخيار الأفضل.