تنضم تشكيلة MTIA الجديدة من Meta إلى الدفع الموحد لـ Hyperscalers للحصول على شرائح استدلال مخصصة - تعمل الشركات على تنويع شرائح الذكاء الاصطناعي في محاولة للتنويع من الاعتماد الوحيد على Nvidia

أعلنت شركة Meta عن أربعة أجيال متتالية من شرائح Meta Training and Inference Accelerator (MTIA) المخصصة لها في 11 مارس: MTIA 300، و400، و450، و500، ومن المقرر نشرها جميعًا على مدار العامين المقبلين. وصف ميتا الرقائق بأنها مُحسّنة تدريجيًا لأحمال عمل الاستدلال بالذكاء الاصطناعي على أساس أن عرض النطاق الترددي لذاكرة HBM هو القيد الملزم للاستدلال.

يأتي هذا بعد أسبوعين من كشف Meta عن بنية تحتية طويلة المدى للذكاء الاصطناعي بالتعاون مع AMD، ويضع هذا الإعلان Meta إلى جانب Google وAWS وMicrosoft، والتي قضت كل منها السنوات القليلة الماضية في بناء وتوسيع نطاق برامج السيليكون المخصصة لأحمال العمل المتسارعة للذكاء الاصطناعي. هل ستؤثر هذه الفئة الناشئة من الرقائق على قبضة Nvidia الخانقة على صناعة شرائح الذكاء الاصطناعي؟

قضية استدلالية ضد وحدات معالجة الرسومات

في منشور مدونة تقني تم نشره جنبًا إلى جنب مع الإعلان، وصف ميتا النطاق الترددي لـ HBM باعتباره العامل الأكثر أهمية الذي يؤثر على أداء استدلال الذكاء الاصطناعي، مضيفًا أن الرقائق الرئيسية، المصممة للتدريب المسبق على نطاق واسع، يتم تطبيقها بعد ذلك بشكل أقل فعالية من حيث التكلفة لاستنتاج أعباء العمل.

يستمر المقال أدناه

“لقد قمنا بمضاعفة عرض النطاق الترددي لـ HBM من MTIA 400 إلى 450، مما يجعله أعلى بكثير من المنتجات التجارية الرائدة الحالية”، كما جاء في الرسالة. تقوم MTIA 500 بعد ذلك بزيادة عرض النطاق الترددي لـ HBM مرة أخرى بنسبة 50% إضافية مقارنة بـ MTIA 450. تم تحسين كلا الرقاقتين بشكل أساسي لاستدلال الذكاء الاصطناعي ولكن يمكن تطبيقهما على أعباء العمل الأخرى، بما في ذلك التدريب كحالة استخدام ثانوية.

MTIA 300 قيد الإنتاج بالفعل للتدريب على التصنيف والتوصيات. وفي الوقت نفسه، أكمل MTIA 400 – الذي يتميز بنطاق وأداء 72 مسرعًا – الاختبارات المعملية وهو في طريقه إلى نشر مركز البيانات. ومن المقرر نشر الـ 450 و500 على نطاق واسع في أوائل عام 2027 وفي وقت لاحق في عام 2027، على التوالي.

عبر التقدم الكامل من 300 إلى 500، يزيد عرض النطاق الترددي HBM 4.5 مرات ويزيد حساب FLOPs 25 مرة، مع تجاوز عرض النطاق الترددي HBM الخاص بـ MTIA 450 عرض النطاق الترددي للمنتجات التجارية الرائدة الحالية، بينما يضيف MTIA 500 50% أخرى في الأعلى، إلى جانب سعة HBM أكبر بنسبة تصل إلى 80%.

وفقًا لـ Meta، تستخدم الرقائق بنية شرائح معيارية تسمح لـ MTIA 400 و450 و500 بمشاركة نفس الهيكل والحامل والبنية التحتية للشبكة. ويعني هذا التوافق أن كل جيل جديد من الرقائق يندرج في البصمة المادية الحالية دون الحاجة إلى إنشاء مراكز بيانات جديدة، وهي الآلية التي استشهدت بها Meta في إيقاع التطوير الذي يستغرق ستة أشهر تقريبًا، وهي أسرع بكثير من دورة الصناعة النموذجية التي تمتد من عام إلى عامين. “والأهم من ذلك أننا قمنا بنشر مئات الآلاف من شرائح MTIA في الإنتاج، وقمنا بإدخال العديد من نماذج الإنتاج الداخلي، واختبرنا MTIA باستخدام نماذج لغوية كبيرة (LLMs) مثل Llama.”

اسحب للتمرير أفقيًا

رقائق MTIA
الصف 0 – الخلية 0	ميتيا 300	ميتيا 400	إم تي آي إيه 450	ميتيا 500
التركيز على عبء العمل	التدريب على البحث والتطوير	عام	استنتاج الذكاء الاصطناعي	استنتاج الذكاء الاصطناعي
وحدة TDP	800 واط	1,200 واط	1,400 واط	1,700 واط
عرض النطاق الترددي HBM	6.1 تيرابايت/ثانية	9.2 تيرابايت/ثانية	18.4 تيرابايت/ثانية	27.6 تيرابايت/ثانية
قدرة HBM	216 جيجابايت	288 جيجابايت	288 جيجابايت	384-512 جيجابايت
أداء MX4	–	12 بي فلوبس	21 بي فلوبس	30 قطعة
أداء FP8/MX8	1.2 فلوبس	6 فلوبس	7 فلوبس	10 فلوبس
أداء BF16	0.6 يطفو	3 فلوبس	3.5 فلوبس	5 فلوبس

جوجل، وAWS، ومايكروسوفت

أعلنت Google عن Ironwood، الجيل السابع من مادة TPU، في Google Cloud Next في أبريل 2025؛ ووصفته الشركة بأنه أول مادة TPU مصممة خصيصًا للاستدلال وبداية “عصر الاستدلال”، وهو يختلف عن عصر التدريب الأول الذي سبقه. تقدم Ironwood 192 جيجابايت من HBM3E لكل شريحة بنطاق ترددي للذاكرة يبلغ 7.37 تيرابايت/ثانية، وفقًا للمواصفات المنشورة من Google، وتتوافق مع تكوينات تصل إلى 9216 مسرعًا للذكاء الاصطناعي.

بعد ذلك، في ديسمبر في re:Invent، أعلنت AWS عن Trainium3، وهي شريحة 3 نانومتر مع 144 جيجابايت HBM3E لكل شريحة بنطاق ترددي 4.9 تيرابايت/ثانية، مع Trainium3 UltraServer واحد يربط 144 شريحة. حافظت AWS أيضًا على خط إنتاج Inferentia منفصل – شريحة مخصصة حصريًا للاستدلال – منذ عام 2019. وفي الوقت نفسه، قدمت Microsoft Maia 200 لأحمال عمل الاستدلال المبنية على TSMC 3nm، والذي أطلقت عليه “نظام الاستدلال الأكثر كفاءة”.

Broadcom هي التي تربط بين العديد من هذه البرامج، حيث كان لها يد في بناء كل من وحدات TPU الخاصة بشركة Google (باعتبارها شركة تكامل السيليكون الخاصة بالشركة) وعائلة MTIA الخاصة بشركة Meta. ووصفت ميتا رقائق MTIA بأنها تم تطويرها “بالشراكة الوثيقة مع” Broadcom، وقالت إن الشركة “بقيت وستستمر” لتكون شريكًا رئيسيًا لاستراتيجية البنية التحتية للذكاء الاصطناعي الخاصة بشركة Meta.

حصلت Broadcom أيضًا على اتفاقية في أكتوبر لمساعدة OpenAI في بناء 10 جيجاوات من شرائح ASIC المخصصة، مع بدء عمليات النشر في وقت مبكر من هذا العام. إذا لم يكن هناك أي شيء آخر، فإن الدور الذي تلعبه Broadcom الآن عبر برامج المقياس الفائق المتنافسة يعكس مدى تطوير السيليكون المخصص كثيف رأس المال ومدى اتساق المتطلبات المعمارية الأساسية.

يستمر هذا التقارب مع مجموعات البرامج، حيث تقوم Meta ببناء MTIA أصلاً على PyTorch وvLLM وTriton. أضافت Google أيضًا دعم TPU لـ vLLM في الإصدار التجريبي، وتقوم AWS بتشغيل Neuron SDK عبر PyTorch وTensorFlow وJAX. تحدد أطر خدمة الاستدلال المشتركة هذه في نهاية المطاف مدى سهولة نقل أحمال عمل الإنتاج بين الرقائق، وقابلية النقل هي ما سيجعل اقتصاديات التحول من معالج Nvidia المقفل بـ CUDA باعتباره وحدة معالجة الرسومات الافتراضية ذات مصداقية على نطاق واسع.

نفيديا تحتفظ بالتدريب

لا شيء من هذا يغير موقع Nvidia في التدريب المسبق واسع النطاق. لا يزال تطوير النماذج الحدودية يعمل بأغلبية ساحقة على مجموعات GPU المتطورة، ويعتبر Blackwell من Nvidia هو المعيار الحالي لعبء العمل هذا. تقوم Meta نفسها بتشغيل مجموعات كبيرة من وحدات معالجة الرسومات Nvidia جنبًا إلى جنب مع عمليات نشر MTIA، وتضيف اتفاقية AMD المبرمة في فبراير 2026 مزيدًا من سعة وحدة معالجة الرسومات إلى مجموعة تشمل بالفعل العديد من بائعي السيليكون.

بدلاً من ذلك، ما نراه هو تجزئة عبء العمل، حيث يأخذ السيليكون المخصص حجمًا كبيرًا من أعباء عمل الاستدلال التي يمكن التنبؤ بها وتحتفظ وحدات معالجة الرسومات بالتدريب. تم تصميم MTIA 450 و500 لتغطية إنتاج استدلال الذكاء الاصطناعي حتى عام 2027، في حين تعهدت كل من Google وAWS وMicrosoft بالتزامات مماثلة في جداولها الزمنية الخاصة.

عند النقطة التي يمثل فيها الاستدلال الجزء الأكبر من دورات حساب الذكاء الاصطناعي، يبدو أن المتوسعين الفائقين قد قرروا بشكل جماعي أن دفع علاوة لوحدات معالجة الرسومات لتشغيل أعباء العمل هذه لم يعد سليمًا من الناحية المالية.

Fonte

قضية استدلالية ضد وحدات معالجة الرسومات

تعلن NVIDIA عن DLSS 5 بإضاءة واقعية لتغيير مستقبل الألعاب

يجمع تحالف Nemotron التابع لشركة Nvidia ثمانية مختبرات للذكاء الاصطناعي معًا لبناء نماذج ذات حدود مفتوحة

كانت حفلة فانيتي فير أوسكار 2026 شأنًا عائليًا

تعلن Nvidia عن وحدة Vera Rubin Space Module – ما يصل إلى 25 ضعفًا من حساب الذكاء الاصطناعي لـ H100 لمراكز البيانات المدارية

ما هو تاريخ إصدار الحلقة 5 من الموسم العاشر من Scrubs على Hulu وDisney+؟

سيقوم ديك فيتالي وتشارلز باركلي باستدعاء أول مباراة لهما في بطولة NCAA معًا

التعليقات

اترك تعليقاً إلغاء الرد