أعلنت شركة Meta اليوم عن أربعة أجيال متتالية من شرائح Meta Training and Inference Accelerator (MTIA)، والتي تم تطويرها جميعًا بالشراكة مع Broadcom ومن المقرر نشرها خلال العامين المقبلين. “لقد قمنا بتطوير استراتيجية تنافسية لـ MTIA من خلال إعطاء الأولوية للتطوير السريع والمتكرر، كما جاء في بيان Meta الصحفي، إلى جانب التركيز على الاستدلال أولاً والاعتماد السلس من خلال البناء محليًا على معايير الصناعة.
تعمق أكثر مع TH Premium: صناعة الرقائق
يقول Meta أن MTIA 450 يضاعف عرض النطاق الترددي HBM لـ MTIA 400، واصفًا إياه بأنه “أعلى بكثير من المنتجات التجارية الرائدة الحالية”، أو بعبارة أخرى، H100 وH200 من Nvidia. يضيف MTIA 500 بعد ذلك عرض نطاق ترددي HBM آخر بنسبة 50% بالإضافة إلى 450، إلى جانب سعة HBM أكبر بنسبة تصل إلى 80%. في الواقع، فإن عرض النطاق الترددي HBM وليس FLOPs الخام هو عنق الزجاجة الرئيسي أثناء مرحلة فك التشفير لاستدلال المحولات، وقد تم تصميم وحدات معالجة الرسوميات الرئيسية لتحقيق أقصى قدر من FLOPs للتدريب المسبق على نطاق واسع. وهذا يعني أنها تتحمل تكلفة ونفقات طاقة غير مباشرة تقول Meta إنها غير ضرورية لأعباء عمل الاستدلال.
| الصف 0 – الخلية 0 |
ميتيا 300 |
ميتيا 400 |
إم تي آي إيه 450 |
ميتيا 500 |
|
التركيز على عبء العمل |
التدريب على البحث والتطوير |
عام |
استنتاج الذكاء الاصطناعي |
استنتاج الذكاء الاصطناعي |
|
وحدة TDP |
800 واط |
1,200 واط |
1,400 واط |
1,700 واط |
|
عرض النطاق الترددي HBM |
6.1 تيرابايت/ثانية |
9.2 تيرابايت/ثانية |
18.4 تيرابايت/ثانية |
27.6 تيرابايت/ثانية |
|
قدرة HBM |
216 جيجابايت |
288 جيجابايت |
288 جيجابايت |
384-512 جيجابايت |
|
أداء MX4 |
– |
12 بي فلوبس |
21 بي فلوبس |
30 قطعة |
|
أداء FP8/MX8 |
1.2 فلوبس |
6 فلوبس |
7 فلوبس |
10 فلوبس |
|
أداء BF16 |
0.6 يطفو |
3 فلوبس |
3.5 فلوبس |
5 فلوبس |
يتضمن نهج Meta أيضًا تسريع الأجهزة لـ FlashAttention وحسابات شبكة التغذية الأمامية المختلطة من الخبراء، بالإضافة إلى أنواع البيانات المخصصة منخفضة الدقة المصممة بشكل مشترك للاستدلال. يدعم MTIA 450 MX4، مما يوفر ستة أضعاف MX4 FLOPs لـ FP16/BF16، مع حساب مختلط منخفض الدقة يتجنب الحمل الزائد للبرنامج لتحويل نوع البيانات.
فيما يتعلق بالنشر النهائي، ستستخدم MTIA 400 و450 و500 نفس الهيكل والحامل والبنية التحتية للشبكة، مما يعني أن كل جيل جديد من الرقائق يقع في البصمة المادية الحالية لسهولة التبادل. يقول ميتا إن هذه النمطية هي التي تقف وراء إيقاع شرائح MTIA لمدة ستة أشهر تقريبًا، والتي تعد في حد ذاتها أسرع بكثير من دورة الصناعة النموذجية التي تمتد من عام إلى عامين.
تعمل حزمة البرامج أصلاً على PyTorch، وvLLM، وTriton، مع دعم torch.compile وtorch.export بحيث يمكن نشر نماذج الإنتاج في وقت واحد على كل من وحدات معالجة الرسومات وMTIA دون إعادة كتابة خاصة بـ MTIA. قالت Meta إنها نشرت بالفعل مئات الآلاف من شرائح MTIA عبر تطبيقاتها للاستدلال على المحتوى العضوي والإعلانات.
يأتي كل هذا بعد أسبوعين فقط من كشف Meta عن اتفاقية طويلة الأجل للبنية التحتية للذكاء الاصطناعي بقيمة 100 مليار دولار مع AMD، مما يشير إلى أن هناك جهدًا أوسع لتقليل الاعتماد على Nvidia عبر أجزاء مختلفة من مجموعة Meta's AI مع الحفاظ على MTIA في قلب أعباء العمل الاستدلالية.
يستمر المقال أدناه
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

التعليقات