استخدمت هواوي رسالتها للعام الجديد لتسليط الضوء على التقدم المحرز عبر أنظمة Ascend AI وKunpeng CPU، مشيرة إلى طرح Atlas 900 supernodes والنمو السريع في اعتماد المطورين المحليين باعتباره “أساسًا متينًا للحوسبة”. تصل الرسالة في الوقت الذي تواصل فيه الصين تسريع جهودها لاستبدال الأجهزة الغربية في أعباء عمل الذكاء الاصطناعي الحرجة، وبينما تضع شركة هواوي نفسها على أنها أقرب ما تمتلكه البلاد إلى بائع حوسبة الذكاء الاصطناعي المتكامل رأسياً.
تقدم رسالة هواوي لمحة سريعة عن استراتيجية تتكشف منذ عدة سنوات، والتي شكلتها ضوابط التصدير الأمريكية، والقيود المفروضة على الوصول إلى التصنيع الرائد، والسوق المحلية المفوضة على نحو متزايد بتبني السيليكون المحلي. في ظل هذه الظروف، تطورت منصات Ascend وKunpeng التابعة لشركة Huawei إلى شيء متميز عن نظيراتها الغربية: أقل تركيزًا على تفوق الشريحة الواحدة وأكثر على بناء أنظمة كبيرة ومترابطة بإحكام تعوض عن العقد الأضعف من حيث الحجم والشبكات والتحكم في البرامج.
بنية Ascend وحدود العقدة
تقع شركة Ascend في قلب جهود الذكاء الاصطناعي التي تبذلها شركة Huawei، والتي تم تصميمها حول بنية Da Vinci الخاصة بها. تم تصنيع Ascend 910 الأصلي، الذي تم طرحه في عام 2019، باستخدام عملية TSMC مقاس 7 نانومتر وقدم ما يقرب من 256 TFLOPS من أداء FP16 عند 350 واط. وهذا يضعها في نفس الفئة الواسعة مثل مسرعات عصر فولتا من Nvidia، على الرغم من عدم وجود نفس النظام البيئي للبرامج أو نضج الاتصال البيني.
أدت العقوبات التي جاءت في السنوات التي أعقبت إطلاق Ascend إلى تغيير ساحة اللعب بشكل كبير، مما أجبر مولدات Ascend اللاحقة على استخدام عمليات N+1 وN+2 الخاصة بـ SMIC، والتي يمكن مقارنتها تقريبًا بالعقد الأقدم من فئة 7 نانومتر بدون EUV. يعد Ascend 910C الآن العمود الفقري لأحدث مجموعات هواوي، وهو عبارة عن حزمة ثنائية القالب تحتوي على شريحتين كبيرتين مدمجتين في بطاقة تسريع واحدة. على الورق، تدعي شركة Huawei ما يصل إلى 780 TFLOPS من حوسبة BF16، لكن مساحة القالب وكفاءة الطاقة تحكي قصة أكثر تعقيدًا.
تقترح هواوي أن البصمة السيليكونية المجمعة لـ 910C أكبر بحوالي 60٪ من Nvidia's H100، مع أداء أقل لكل ملليمتر مربع ولكل واط. في عزلة، سيكون هذا اقتراحًا خاسرًا، لكن شركة هواوي اعتمدت بشدة على الترابط والتكتل. تستخدم الشركة نسيجًا خاصًا عالي السرعة جنبًا إلى جنب مع شبكات PCIe وRoCE القياسية لربط مئات أو آلاف مسرعات Ascend في نظام تدريب منطقي واحد أو نظام استدلال.
ويتجلى هذا النهج في ادعاءات هواوي بشأن أنظمة Atlas 900 وCloudMatrix. فبدلاً من التنافس على بطاقة ببطاقة مع H100 من Nvidia أو MI300X من AMD، تؤكد شركة Huawei على الإنتاجية الإجمالية. تم وضع نظام CloudMatrix 384، الذي يربط 384 مسرعًا من نوع Ascend 910C، على أنه قادر على المنافسة مع وحدات NVIDIA الكبيرة المستندة إلى NVLink على أعباء عمل محددة، وخاصة الاستدلال. ولكن هناك مقايضة هنا من حيث النطاق المادي: حيث يمكن لـ Nvidia تقديم أداء FP4 متعدد الطبقات من فئة exaflop في عدد قليل من الرفوف، تتطلب Huawei قدرًا أكبر من المساحة الأرضية، وتوصيل الطاقة، والتبريد.
الاستدلال هو المكان الذي تبدو فيه Ascend أقوى، وتشير التقارير الصادرة من الصين إلى أن 910C يقدم ما يقرب من 60% من أداء فئة H100 في مهام الاستدلال، لكن التدريب لا يزال أكثر صعوبة.
التوسع كفلسفة التصميم
أما بالنسبة لـ Atlas 900 supernode، الذي تم تسليط الضوء عليه في رسالة هواوي للعام الجديد، فمن الأفضل أن يُنظر إليه على أنه قطعة من فن العرض المعماري وليس منتجًا من المحتمل أن يأتي إلى السوق الصينية في أي وقت قريب. إنه يعكس إيمان هواوي بأن حوسبة الذكاء الاصطناعي يمكن تصنيعها من خلال مجموعات موحدة مبنية من مكونات يتم التحكم فيها محليًا، حتى لو كان كل مكون يتخلف عن الريادة العالمية.
وهنا يأتي دور خلفية هواوي في مجال شبكات الاتصالات. تتمتع الشركة بعقود من الخبرة في بناء أنظمة من فئة شركات النقل التي تعطي الأولوية للموثوقية والأداء الحتمي والتنسيق واسع النطاق. تطبق مجموعات Ascend هذه العقلية على الذكاء الاصطناعي، مع التركيز على سلوك التوسع الذي يمكن التنبؤ به والتكامل مع أطر عمل الذكاء الاصطناعي الخاصة بشركة Huawei بدلاً من المعايير الرائدة.
وهذا ما يفسر أيضًا سبب وصف هواوي لتقنية supernode بأنها تقنية “يمكن الوصول إليها بسهولة أكبر” لتشكيل “العمود الفقري القوي لحوسبة الذكاء الاصطناعي”. لا تروج شركة Huawei لـ Ascend كبديل مباشر لـ CUDA، بل كمجموعة بديلة، من السيليكون إلى التوصيل البيني إلى المترجم، والتي يتبناها العملاء بالجملة. وهذا شيء يمكن أن يكون جذابًا لمقدمي الخدمات السحابية الصينيين الذين يواجهون بعض حقائق الشراء والامتثال القاسية جدًا في مواجهة قيود التصدير وعدم اليقين الجيوسياسي.
Kunpeng وطبقة وحدة المعالجة المركزية الداعمة
الصعود لا يقف وحده. توفر وحدات المعالجة المركزية Kunpeng من هواوي طبقة حوسبة للأغراض العامة لهذه الأنظمة، وهي تتبع مسارًا مشابهًا. تعتمد رقائق Kunpeng على تقنية Arm، وهي مبنية على تصميمات Taishan الأساسية من Huawei. قدمت الأجيال السابقة، مثل Kunpeng 920، ما يصل إلى 64 نواة Taishan V110 وأحمال عمل الخادم والسحابة المستهدفة مع إنتاجية محترمة ولكن أداء متواضع لكل نواة.
وفي الوقت نفسه، تشير التقارير الأخيرة إلى أن الجيل القادم من معالجات Kunpeng 930 يعمل على زيادة عدد النوى بقوة، مما يشير إلى تصميمات ذات 120 نواة مبنية على شرائح متعددة، في حين تشير خريطة الطريق الخاصة بشركة Huawei إلى متغيرات Kunpeng 950 و960 مع 192 نواة و384 خيطًا. يبدو أن الأداء لكل نواة يقع تقريبًا في فئة Zen 3، مما يضع Kunpeng خلف أجزاء Xeon وEPYC الحالية ولكنه يحتمل أن يكون تنافسيًا في أعباء العمل المتوازية للغاية والموجهة نحو الإنتاجية.
ربما يكون هذا جيدًا بما يكفي لشركة Huawei. يتمثل دور Kunpeng في تغذية البيانات للمسرعات، وإدارة الإدخال/الإخراج، وتشغيل برامج البنية التحتية في بيئة حيث تهيمن مجموعات Ascend بالفعل على الطاقة ومساحة الحامل. يعد التكامل المحكم أكثر أهمية من سرعة الخيط الواحد، ويمنح Arm شركة Huawei استقلالًا معماريًا عن ترخيص x86 ومخاطر التصدير.
يُظهر لنا كل من Ascend وKunpeng معًا كيف تحولت استراتيجية أجهزة الذكاء الاصطناعي في الصين من مطاردة الرقائق الفردية الأفضل في فئتها إلى تجميع منصات شاملة قابلة للحياة في ظل القيود. إن توجيهات الحكومة الصينية التي تثبط عمليات الشراء الجديدة لأجهزة Nvidia، جنبًا إلى جنب مع الإعانات المحلية وقواعد الشراء، تخلق سوقًا كبيرة مضمونة للبدائل “الجيدة بما فيه الكفاية”.
لكن “جيد بما فيه الكفاية” يأتي مصحوبا بمقايضات واضحة: تستهلك مجموعات هواوي المزيد من الطاقة، وتحتل مساحة أكبر، وتعتمد على الإفراط في التزويد لمطابقة إنتاجية الأنظمة الغربية الأكثر تقدما. ولكن عندما يحين وقت الجد، فمن الواضح أن هذه التكاليف مقبولة في سوق حيث تفوق السيادة والاستمرارية الطويلة الأجل الكفاءة.
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

التعليقات