التخطي إلى المحتوى

أعلنت شركة Meta اليوم عن أربعة أجيال متتالية من شرائح Meta Training and Inference Accelerator (MTIA)، والتي تم تطويرها جميعًا بالشراكة مع Broadcom ومن المقرر نشرها خلال العامين المقبلين. “لقد قمنا بتطوير استراتيجية تنافسية لـ MTIA من خلال إعطاء الأولوية للتطوير السريع والمتكرر، كما جاء في بيان Meta الصحفي، إلى جانب التركيز على الاستدلال أولاً والاعتماد السلس من خلال البناء محليًا على معايير الصناعة.

تعمق أكثر مع TH Premium: صناعة الرقائق

com.tsmc

(حقوق الصورة: تي إس إم سي)

يقول Meta أن MTIA 450 يضاعف عرض النطاق الترددي HBM لـ MTIA 400، واصفًا إياه بأنه “أعلى بكثير من المنتجات التجارية الرائدة الحالية”، أو بعبارة أخرى، H100 وH200 من Nvidia. يضيف MTIA 500 بعد ذلك عرض نطاق ترددي HBM آخر بنسبة 50% بالإضافة إلى 450، إلى جانب سعة HBM أكبر بنسبة تصل إلى 80%. في الواقع، فإن عرض النطاق الترددي HBM وليس FLOPs الخام هو عنق الزجاجة الرئيسي أثناء مرحلة فك التشفير لاستدلال المحولات، وقد تم تصميم وحدات معالجة الرسوميات الرئيسية لتحقيق أقصى قدر من FLOPs للتدريب المسبق على نطاق واسع. وهذا يعني أنها تتحمل تكلفة ونفقات طاقة غير مباشرة تقول Meta إنها غير ضرورية لأعباء عمل الاستدلال.

اسحب للتمرير أفقيًا
الصف 0 – الخلية 0

ميتيا 300

ميتيا 400

إم تي آي إيه 450

ميتيا 500

التركيز على عبء العمل

التدريب على البحث والتطوير

عام

استنتاج الذكاء الاصطناعي

استنتاج الذكاء الاصطناعي

وحدة TDP

800 واط

1,200 واط

1,400 واط

1,700 واط

عرض النطاق الترددي HBM

6.1 تيرابايت/ثانية

9.2 تيرابايت/ثانية

18.4 تيرابايت/ثانية

27.6 تيرابايت/ثانية

قدرة HBM

216 جيجابايت

288 جيجابايت

288 جيجابايت

384-512 جيجابايت

أداء MX4

12 بي فلوبس

21 بي فلوبس

30 قطعة

أداء FP8/MX8

1.2 فلوبس

6 فلوبس

7 فلوبس

10 فلوبس

أداء BF16

0.6 يطفو

3 فلوبس

3.5 فلوبس

5 فلوبس

يتضمن نهج Meta أيضًا تسريع الأجهزة لـ FlashAttention وحسابات شبكة التغذية الأمامية المختلطة من الخبراء، بالإضافة إلى أنواع البيانات المخصصة منخفضة الدقة المصممة بشكل مشترك للاستدلال. يدعم MTIA 450 MX4، مما يوفر ستة أضعاف MX4 FLOPs لـ FP16/BF16، مع حساب مختلط منخفض الدقة يتجنب الحمل الزائد للبرنامج لتحويل نوع البيانات.

فيما يتعلق بالنشر النهائي، ستستخدم MTIA 400 و450 و500 نفس الهيكل والحامل والبنية التحتية للشبكة، مما يعني أن كل جيل جديد من الرقائق يقع في البصمة المادية الحالية لسهولة التبادل. يقول ميتا إن هذه النمطية هي التي تقف وراء إيقاع شرائح MTIA لمدة ستة أشهر تقريبًا، والتي تعد في حد ذاتها أسرع بكثير من دورة الصناعة النموذجية التي تمتد من عام إلى عامين.

تعمل حزمة البرامج أصلاً على PyTorch، وvLLM، وTriton، مع دعم torch.compile وtorch.export بحيث يمكن نشر نماذج الإنتاج في وقت واحد على كل من وحدات معالجة الرسومات وMTIA دون إعادة كتابة خاصة بـ MTIA. قالت Meta إنها نشرت بالفعل مئات الآلاف من شرائح MTIA عبر تطبيقاتها للاستدلال على المحتوى العضوي والإعلانات.

يأتي كل هذا بعد أسبوعين فقط من كشف Meta عن اتفاقية طويلة الأجل للبنية التحتية للذكاء الاصطناعي بقيمة 100 مليار دولار مع AMD، مما يشير إلى أن هناك جهدًا أوسع لتقليل الاعتماد على Nvidia عبر أجزاء مختلفة من مجموعة Meta's AI مع الحفاظ على MTIA في قلب أعباء العمل الاستدلالية.

يستمر المقال أدناه

مصدر جوجل المفضل

يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *