ما هي الذاكرة الموحدة؟ لماذا يشغّل جهاز mini PC نموذج ذكاء اصطناعي بحجم 235B

يمكن لجهاز mini PC بذاكرة موحدة يتراوح سعره بين 2000 و3000 دولار تحميل بعض نماذج فئة 235B المكمَّمة بشدة والتي لا تتسع على بطاقة GPU منفردة من فئة H100.

يبدو الأمر معكوسًا، فلنجعل المقارنة دقيقة. البطاقة الباهظة أسرع بكثير، لكن ذاكرة GPU المحلية الخاصة بها أصغر. أما الجهاز الصغير على المكتب فقد يمتلك مجمع ذاكرة مشتركًا أكبر، بحيث يمكن تحميل النموذج حتى لو كان التوليد بطيئًا.

الإجابة المختصرة في كلمة واحدة عن كيفية حدوث ذلك هي "الذاكرة الموحدة". تُطبع كرقم رئيسي على ورقة مواصفات العديد من أجهزة mini PC وأجهزة Mac الجديدة الخاصة بالذكاء الاصطناعي ("128 GB ذاكرة موحدة")، ولا يشرح أحد تقريبًا ما تفعله فعليًا. هذه هي مهمتنا هنا. بنهاية المقال ستعرف ما هي الذاكرة الموحدة، ولماذا تتيح لجهاز صغير تشغيل تشغيل نموذج كان يتطلب سابقًا رف خوادم كاملًا، وهو ما لا يذكره أحد في العنوان: أنه يشغّل ذلك النموذج ببطء.

الخلاصة السريعة

الذاكرة الموحدة هي مجمع ذاكرة فيزيائي واحد يتشاركه CPU وGPU المدمج في الشريحة، بدلًا من ذاكرة VRAM الصغيرة والمنفصلة الخاصة ببطاقة رسومات منفصلة، والتي تجاور RAM النظام المنفصلة أيضًا.
هذا المجمع المشترك كبير الحجم، وعادة ما يستطيع GPU الوصول إلى ذاكرة أكبر بكثير من الحد الثابت لذاكرة VRAM في بطاقة منفصلة، رغم أن الكمية القابلة للاستخدام فعليًا تعتمد على المنصة وإعدادات البرامج الثابتة ونظام التشغيل وبيئة التشغيل. لذا يصبح السؤال الأول: هل تتسع هذه النسخة المكمَّمة في الذاكرة القابلة للاستخدام؟ يمكن لمجمع بسعة 128GB استيعاب نماذج لم تكن بطاقة رسومات بسعة 24GB أو 32GB لتستوعبها أبدًا.
المشكلة في السرعة، وليس في الحجم. تنقل الذاكرة الموحدة البيانات بسرعة أبطأ بكثير من VRAM الخاصة ببطاقة منفصلة. النموذج الكبير يعمل. لكنه فقط يولّد التوكنات ببطء. الذاكرة الموحدة تتيح لك تشغيل النموذج الكبير، لا تشغيله بسرعة.
"الموحدة" ليست شيئًا واحدًا. نسخة Apple غير مرئية غالبًا للمستخدم؛ أما نسخة AMD فتكشف عن إعدادات أكثر، لأن إعدادات البرامج الثابتة والتعريفات يمكن أن تؤثر على مقدار الذاكرة المحجوزة لـ GPU أو القابلة للاستخدام عمليًا من قبله. والمزيد من الذاكرة لا يعني أسرع.

ما هي الذاكرة الموحدة؟

تخيل إعدادين. بطاقة الرسومات المنفصلة تمتلك ذاكرتها الخاصة (VRAM) مثبتة مباشرة بجانب معالجها، سريعة لكنها صغيرة. أما RAM النظام لديك فهي مجمع ثانٍ منفصل يستخدمه CPU. لتشغيل نموذج على GPU، يجب أولًا نسخ البيانات من RAM النظام عبر ناقل PCIe إلى VRAM. مجمعان، وخطوة نسخ واحدة.

تلغي الذاكرة الموحدة هذا الانقسام. إنها مجمع ذاكرة فيزيائي واحد يتشاركه CPU وGPU المدمج في الشريحة، مما يتيح لـ GPU العمل مباشرة من المجمع المشترك بدلًا من الاعتماد على وحدة VRAM صغيرة ومنفصلة. وعلى منصات مثل Apple Silicon، يتجنب ذلك أيضًا خطوة النسخ القديمة عبر PCIe. حديث Apple نفسها عن هندسة معمارية شريحتها يصفها بأن CPU وGPU "يعملان على نفس الذاكرة" دون الحاجة إلى نسخ البيانات عبر ناقل PCIe. مجمع واحد. نسخ صفري.

المجمع المشترك عادة ما يكون ذاكرة LPDDR5X ملحومة على الحزمة، وهو ما يتيح لها أن تكون كبيرة وقريبة من المعالج في آن واحد. الأمثلة البارزة حاليًا هي أجهزة Mac بمعالج Apple Silicon، وأنظمة Strix Halo من AMD المبنية حول شرائح مثل Ryzen AI Max+ 395، وجهاز DGX Spark من Nvidia. منصة المطورين Ryzen AI Halo من AMD تعلن عن 128GB من ذاكرة LPDDR5x بسرعة 256GB/s، في حين أن جهاز DGX Spark من Nvidia تعلن عن 128GB من ذاكرة النظام الموحدة LPDDR5x بسرعة 273GB/s.

الذاكرة المشتركة بين CPU وGPU مدمج ليست جديدة. تفعل ذلك أجهزة اللابتوب منذ سنوات، وكانت عادة حلًا وسطًا: ذاكرة بطيئة، وبكمية قليلة. ما تغيّر هو السعة مع عرض نطاق ترددي قابل للاستخدام. بمجرد أن أصبح المجمع المشترك كبيرًا بما يكفي، في حدود فئة 128GB، مع بقائه سريعًا بما يكفي ليستحق الاستخدام، تجاوز الخط الذي تستطيع عنده نماذج ذات أوزان مفتوحة كبيرة جدًا أن تتسع محليًا. هذه هي القصة كاملة. البنية قديمة؛ الحجم هو الجديد.

ملاحظة حول "مقابل VRAM": يسأل الناس عما إذا كانت الذاكرة الموحدة هي VRAM. ليس تمامًا. VRAM هي ذاكرة رسومات مخصصة على بطاقة منفصلة، سريعة ومنفصلة. أما الذاكرة الموحدة فهي مجمع مشترك واحد يقوم بمهمة كل من VRAM وRAM النظام معًا. إنها تستبدل السرعة الخام لبطاقة منفصلة بالحجم والقدرة على تخطي خطوة النسخ.

لماذا يحتاج النموذج إلى أن يتسع في الذاكرة؟

Comparison showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool

بالنسبة للاستدلال العادي داخل الذاكرة، يجب أن تقيم أوزان النموذج في ذاكرة يستطيع المعالج التوجه إليها. إذا كانت الذاكرة القابلة للاستخدام صغيرة جدًا، فلن يُحمّل النموذج بشكل سليم على ذلك الجهاز. تستطيع بعض الأدوات نقل أجزاء من النموذج إلى ذاكرة CPU أو التخزين، لكن ذلك يغيّر ملف الأداء بشكل حاد وليس مماثلًا لتناسب النموذج بشكل مريح في ذاكرة قابلة للتوجيه من GPU. السعة هي بوابة صارمة تسبق أي سؤال عن السرعة.

هذه هي الرافعة التي تحركها الذاكرة الموحدة. تمتلك العديد من بطاقات الرسومات الاستهلاكية 24GB من VRAM أو أقل، وحتى أفضل البطاقات الاستهلاكية المفردة تدور حول 32GB. نموذج بحجم 70 مليار أو 235 مليار معلمة أكبر بكثير من ذلك. الحساب الحسابي الخام بدقة 4-bit لـ 235B معلمة يبدأ عند نحو 118GB قبل النفقات الإضافية للصيغة وذاكرة التخزين المؤقت لبيئة التشغيل وذاكرة السياق. عمليًا، تتفاوت النسخ القابلة للتنزيل فعليًا كثيرًا: على سبيل المثال، نسخة Q4_K_M من Qwen3-235B-A22B على Ollama مدرجة عند 142GB، في حين أن نسخ التكميم الأكثر عدوانية بعدد بتات أقل يمكن أن تقترب من النطاق الذي يستطيع جهاز بذاكرة موحدة سعة 128GB التعامل معه. لذا فإن البطاقة المصنوعة خصيصًا لهذه المهمة تنفد مساحتها قبل أن تبدأ. (كيفية حساب أرقام الذاكرة هذه، أي المعلمات مضروبة في البايتات لكل وزن بالإضافة إلى النفقات الإضافية التي يخفيها حجم الملف، هي موضوع قائم بذاته، و المقال الشقيق حول رياضيات التكميم يجري تلك الحسابات.)

يغيّر مجمع موحد سعته 128GB الإجابة عن سؤال واحد: هل تتسع هذه النسخة المكمَّمة تحديدًا بعد أن يأخذ نظام التشغيل وبيئة التشغيل وذاكرة KV cache وحدود تخصيص GPU نصيبها؟ بالنسبة لبعض نسخ التكميم العدوانية من فئة 235B، الجواب نعم. لهذا السبب يستطيع جهاز مدمج بذاكرة موحدة أحيانًا تحميل نموذج لا تستطيع بطاقة GPU ذات VRAM أصغر تحميله. إنه ليس أقوى. إنه فقط يملك غرفة أكبر لوضع النموذج فيها.

هذا هو أول شيء تصيبه العناوين الرئيسية دون أن تشرحه. حجم المجمع، وليس القوة الخام، هو ما يحدد ما إذا كان النموذج سيعمل من الأساس.

لماذا الذاكرة الموحدة أبطأ من بطاقة الرسومات؟

Diagram showing a 235B-class model failing to fit in 24GB GPU VRAM or 80-94GB H100-class GPU memory, but fitting in a 128GB unified memory pool at the cost of speed

توليد النص توكن تلو الآخر محدود بالذاكرة النطاق الترددي، وليس بمدى سرعة إجراء المعالج للحسابات. كل توكن تنتجه يتطلب تدفق الأوزان النشطة للنموذج عبر المعالج، لذا فإن سقف السرعة هو مدى سرعة تغذية الذاكرة للشريحة. هذه هي الطبيعة الموثقة جيدًا طبيعة "المحدودة بالذاكرة" لفك التشفير أحادي التدفق، حيث تقضي الشريحة معظم وقتها في انتظار الذاكرة، لا في الحساب.

وعرض النطاق الترددي بالتحديد هو حيث تتراجع الذاكرة الموحدة. يعمل مجمع Strix Halo من AMD نظريًا بسرعة 256GB/s، وتقيس اختبارات مستقلة على llm-tracker.info سرعته عمليًا بنحو 212GB/s. يقف DGX Spark عند 273GB/s. أما بطاقة الرسومات المنفصلة الراقية، بالمقابل، فتنقل البيانات أسرع بعدة أضعاف، فذاكرة VRAM المخصصة الخاصة بها مصممة لذلك. لذا عندما يتسع نموذج على كلا جهاز موحد وبطاقة منفصلة على حد سواء، تولّد البطاقة المنفصلة التوكنات أسرع بشكل ملحوظ. نفس النموذج، نفس النتيجة، سرعة مختلفة تمامًا.

بالنسبة للنماذج الكثيفة، هناك قاعدة عملية مفيدة:

توكنات في الثانية ≈ عرض النطاق الترددي للذاكرة ÷ حجم النموذج في الذاكرة.

إنها إرشادية وليست معيار أداء، لكنها تشرح المقايضة: أوزان مقيمة أصغر أو عرض نطاق ترددي أعلى يعني عادة فك تشفير أسرع. بالنسبة لنماذج MoE، لا تطبّق القاعدة مباشرة على إجمالي عدد المعلمات. لا تزال السعة تعتمد على إجمالي الأوزان المخزنة، لكن السرعة لكل توكن تعتمد أكثر على المسار المفعّل، ونفقات التوجيه، وسلوك ذاكرة التخزين المؤقت، والتنفيذ.

أمر دقيق واحد ثم أتركه: هناك مرحلتان لأي طلب. قراءة موجّهك (prefill) تعتمد على الحوسبة. توليد الرد (decode) يعتمد على عرض النطاق الترددي. الجزء البطيء الذي تشعر به، ظهور الكلمات واحدة تلو الأخرى، هو الجزء المحدود بعرض النطاق الترددي.

إذًا، هنا الخلاصة التي تتجاهلها ورقة المواصفات: الذاكرة الموحدة تتيح لك تشغيل النموذج الكبير، لا تشغيله بسرعة. تفوز في نقاش السعة وتخسر في نقاش عرض النطاق الترددي. ما إذا كانت هذه المقايضة تستحق العناء يعتمد كليًا على ما تفعله، وهذه مقايضة عادلة يمكن اتخاذها عن قصد، لا مفاجأة تُكتشف بعد الشراء.

هل كل الذاكرة الموحدة متماثلة؟

لا. "الموحدة" تصف فئة، وليست تنفيذًا واحدًا، وتختلف النسخ بطرق مهمة. نسخة Apple غير مرئية غالبًا للمستخدم: الذاكرة مشتركة افتراضيًا. أما Strix Halo من AMD فهي أكثر تدخلًا: يمكن لإعدادات البرامج الثابتة والتعريفات أن تؤثر على مقدار الذاكرة المحجوزة لـ GPU أو القابلة للاستخدام عمليًا من قبله. كلاهما ذاكرة موحدة. لكنهما ليسا تجربة واحدة.

دعني أسمّي سوء الفهم الذي يولّده هذا الموضوع برمته، لأنه الأكثر شيوعًا: المزيد من الذاكرة لا يعني استدلالًا أسرع. بل يعني أن نموذجًا أكبر يمكن أن يعمل. يشتري شخص جهازًا بسعة 128GB متوقعًا السرعة، ويحمّل نموذجًا يتسع أيضًا على بطاقة منفصلة بسعة 24GB، ثم يخيب أمله لأنه يعمل أبطأ مما كانت عليه البطاقة الأصغر. كلا العبارتين صحيحتان في آن واحد: المجمع الكبير يتسع لأكثر، والبطاقة الصغيرة السريعة تعمل أسرع فيما يشتركان فيه. الحجم والسرعة محوران مختلفان. الذاكرة الموحدة تشتري لك المحور الأول.

تفصيلة عملية من جانب AMD: مقدار المجمع القابل للاستخدام فعليًا لنموذج ما يعتمد على إعداد البرامج الثابتة ونظام التشغيل. الأسئلة الشائعة من AMD حول Variable Graphics Memory تغطي كيفية عمل ذلك التخصيص؛ والنسخة المختصرة هي أن جهازًا بسعة 128GB لا يمنح كامل الـ 128GB لـ GPU، وتعتمد الكمية القابلة للاستخدام على إعداد VGM، وذاكرة النظام المحجوزة، ونظام التشغيل، وبيئة التشغيل. خطّط بناءً على الذاكرة القابلة للاستخدام، لا الرقم المطبوع على الملصق.

نصيحة احترافية: عند تحديد حجم جهاز للنماذج المحلية، اقرأ ورقة المواصفات كرقمين، لا رقم واحد. السعة تخبرك بالنماذج التي تتسع. عرض النطاق الترددي يخبرك بالسرعة التي ستعمل بها بمجرد أن تتسع. الجهاز ذو المجمع الضخم وعرض النطاق الترددي المتواضع هو جهاز يشغّل النماذج الكبيرة ببطء، وقد يكون هذا بالضبط ما تريده، طالما كنت تعرف ذلك مسبقًا.

هناك حالة أخرى تستحق الإشارة إليها، لأنها تربك الناس على هذه الأجهزة ذات المجمع الكبير: نماذج Mixture-of-Experts. نموذج مثل Qwen3-235B-A22B يملك 235 مليار معلمة إجمالًا لكنه يفعّل نحو 22 مليار منها فقط لكل توكن. من المغري افتراض أن ذلك يعني أنه يحتاج فقط إلى ذاكرة للجزء المفعّل. بالنسبة للاستدلال العادي داخل الذاكرة، الأمر ليس كذلك. لا تزال جميع الأوزان الـ 235 مليار بحاجة إلى الإقامة في مكان يمكن لبيئة التشغيل استخدامه، لأن أي توكن قد يُوجَّه إلى أي خبير: يُخفَّض الحساب لكل توكن فقط، لا متطلب السعة. هذا التمييز هو بالضبط حيث يثبت المجمع الكبير للذاكرة الموحدة جدارته، و المقال الشقيق حول رياضيات التكميم يوضح بالتفصيل ما تؤول إليه تلك الأرقام.

الأسئلة الشائعة

هل الذاكرة الموحدة هي نفسها VRAM؟

لا. VRAM هي ذاكرة مخصصة عالية السرعة مدمجة في بطاقة رسومات منفصلة، وتظل منفصلة عن RAM النظام لديك. أما الذاكرة الموحدة فهي مجمع مشترك واحد يستخدمه كل من CPU وGPU، ويقوم بمهمة VRAM وRAM النظام في آن واحد. الذاكرة الموحدة عادة أكبر لكنها أبطأ من VRAM الخاصة ببطاقة منفصلة، وتتخطى خطوة نسخ البيانات بين مجمعين.

لماذا يعمل نموذجي المحلي ببطء رغم أنه يتسع في الذاكرة؟

لأن التسع والعمل بسرعة أمران مختلفان. تحميل النموذج يعتمد على سعة الذاكرة؛ أما سرعة توليده للنص فتعتمد على عرض النطاق الترددي للذاكرة. تملك الذاكرة الموحدة سعة وفيرة لكن عرض نطاق ترددي أقل بكثير من بطاقة رسومات منفصلة، لذا فإن نموذجًا يتسع بارتياح قد لا يزال يولّد التوكنات ببطء. بالنسبة للنماذج الكثيفة، العلاقة التقريبية هي توكنات في الثانية ≈ عرض النطاق الترددي ÷ حجم النموذج. بالنسبة لنماذج MoE، لا تزال السعة تعتمد على إجمالي الأوزان المخزنة، لكن السرعة تعتمد أكثر على المسار المفعّل وتنفيذ بيئة التشغيل.

هل ما زلت بحاجة إلى GPU إذا كانت لديك ذاكرة موحدة؟

الـ GPU المدمج هو بالفعل جزء من شريحة ذات ذاكرة موحدة، وهو ما يشغّل النموذج. السؤال الحقيقي هو ما إذا كنت تريد أيضًا GPU منفصل. تمنحك العديد من البطاقات المنفصلة عرض نطاق ترددي أعلى بكثير، أي توليد أسرع، لكن ذاكرة محلية أقل من نظام كبير بذاكرة موحدة، لذا قد لا تستوعب أكبر النماذج بمفردها. تمنحك الذاكرة الموحدة مجمعًا كبيرًا يتسع للنماذج الكبيرة بسرعة أقل. ما تريده يعتمد على حجم النموذج مقابل السرعة.

لماذا يستطيع mini PC تشغيل نموذج يحتاج إلى GPU مركز بيانات؟

لأن عنق الزجاجة لتحميل نموذج هو سعة الذاكرة، ويمكن لجهاز mini PC بمجمع موحد كبير أن يملك ذاكرة نموذج قابلة للاستخدام أكثر من العديد من إعدادات GPU المنفرد. قد تملك GPU استهلاكية من 24 إلى 32GB من VRAM، بينما تملك GPU مركز بيانات منفردة من فئة H100 من 80 إلى 94GB، في حين تعلن بعض أنظمة الذاكرة الموحدة عن مجمعات مشتركة بسعة 128GB. يجب أن تتسع جميع أوزان النموذج في مكان يستطيع المعالج الوصول إليه؛ المجمع المشترك الكبير يستوعبها، أما VRAM الصغيرة السريعة فلا. جهاز mini PC ليس أقوى. إنه فقط يملك مساحة.

الاتساع هو الفوز: كم يحتاج هو السؤال التالي

مساهمة الذاكرة الموحدة هي شيء واحد واضح: مجمع كبير مشترك وقابل للتوجيه يتيح لجهاز صغير استيعاب نماذج كانت تتطلب سابقًا خادمًا. هذا هو فوز السعة. مشكلة عرض النطاق الترددي هي الثمن، والآن يمكنك قراءة ورقة المواصفات وأنت تعرف أي رقم يحكم أي سلوك.

السؤال التالي الطبيعي هو ذلك الذي ظل هذا المقال يؤجله: كم من الذاكرة يحتاجه نموذج معين فعليًا؟ هذه حسابات: المعلمات، والبايتات لكل وزن، ومستوى الضغط الذي تختاره، وضريبة السياق التي يخفيها حجم الملف. المقال الشقيق حول تكميم GGUF وGPTQ وAWQ وEXL2 يشرح بالتفصيل تلك الحسابات بالضبط، ويستحق القيام بها قبل تحديد حجم جهاز أو اختيار نموذج.

ما هي الذاكرة الموحدة، ولماذا تسمح لجهاز mini PC بتشغيل نموذج بحجم 235B؟