أعلنت Nvidia عن سبع شرائح قيد الإنتاج الكامل في GTC 2026 يوم الاثنين، والتي تتكون من منصة Vera Rubin التي تنوي الشركة شحنها في النصف الثاني من هذا العام.
بدلاً من إطلاق منتج واحد، غطت العديد من الإعلانات مجموعة السيليكون الكاملة المطلوبة لبناء ما تسميه Nvidia الآن مصنع الذكاء الاصطناعي: وحدات معالجة الرسومات، ووحدات المعالجة المركزية، ومسرع الاستدلال المخصص، وASICs للشبكات، ووحدة معالجة البيانات، ومحول Ethernet. تم تصميم جميع الأنظمة السبعة لتعمل كنظام واحد مصمم بشكل مشترك عبر خمسة أنواع من الرفوف، وتتدرج من رفوف فردية إلى وحدات POD ذات 40 حاملًا مما يوفر 60 إكسافلوب من الحوسبة.
يمثل ما يسمى بمصنع الذكاء الاصطناعي تحولًا هائلاً في كيفية قيام شركة Nvidia بتعبئة أجهزتها وبيعها، حيث لم تعد وحدة الحوسبة عبارة عن وحدة معالجة رسومات (GPU) أو حتى خادم؛ إنه الرف، وعلى نحو متزايد، POD. تلعب كل شريحة من الشرائح السبع دورًا معماريًا محددًا – وفهم ما تفعله كل منها هو أسرع طريق لفهم ماهية Vera Rubin بشكل أساسي.
يستمر المقال أدناه
طبقة الحوسبة: Rubin GPU وVera CPU وGroq 3
تتعامل ثلاث شرائح مع عبء عمل الحوسبة الأساسية، وتم تحسين كل منها لمرحلة مختلفة من مسار الذكاء الاصطناعي.
تعتبر وحدة معالجة الرسوميات Rubin بمثابة العمود الفقري للتدريب والاستدلال المبني على عملية TSMC ذات 3 نانومتر. تستخدم كل وحدة معالجة رسومات تصميمًا ثنائي القالب يحتوي على 336 مليار ترانزستور، وتحمل 288 جيجابايت من ذاكرة HBM4 مع 22 تيرابايت/ثانية من عرض النطاق الترددي، وتوفر 50 PFLOPS من حساب الاستدلال و35 PFLOPS من حساب التدريب بتنسيق NVFP4. وتمثل هذه الأرقام تحسينات بمقدار 5 و3.5 مرات مقارنة بشركة بلاكويل، على التوالي.
في حامل Vera Rubin NVL72 الرائد، تتصل 72 وحدة معالجة رسومات Rubin عبر NVLink 6 لتعمل كمسرّع واحد. تدعي Nvidia أن NVL72 يمكنه تدريب نماذج Mixture of Experts بربع عدد وحدات معالجة الرسومات التي تتطلبها Blackwell، وخفض تكاليف رمز الاستدلال بمقدار 10 مرات.
وفي الوقت نفسه، تعد وحدة المعالجة المركزية Vera هي أول وحدة معالجة مركزية لمركز بيانات Nvidia تم إنشاؤها من الألف إلى الياء. يستخدم 88 نواة Olympus مخصصة قائمة على Arm مع تعدد مكاني لـ 176 خيطًا، وما يصل إلى 1.5 تيرابايت من ذاكرة SOCAMM LPDDR5X، و1.2 تيرابايت/ثانية من عرض النطاق الترددي للذاكرة. تتصل Vera بوحدات معالجة الرسومات Rubin عبر NVLink-C2C بسرعة 1.8 تيرابايت/ثانية من عرض النطاق الترددي المتماسك، وهو أسرع سبع مرات من PCIe Gen 6. ويتمثل دورها في الحامل في التنسيق: جدولة أعباء العمل، وتوجيه بيانات ذاكرة التخزين المؤقت KV، وإدارة السياق، وتشغيل مستوى التحكم لسير عمل الذكاء الاصطناعي الوكيل. كما أنه يتعامل مع بيئات التعلم المعززة وأحمال العمل الأصلية لوحدة المعالجة المركزية (CPU).
تعد وحدة Groq 3 LPU – المصممة خصيصًا لاستدلال مرحلة فك التشفير ذات زمن الوصول المنخفض – الإضافة غير المتوقعة إلى النظام الأساسي، وهي منتج مباشر لاستحواذ Nvidia على Groq بقيمة 20 مليار دولار في ديسمبر. حيث توفر وحدات معالجة الرسومات Rubin سعة ذاكرة هائلة من خلال HBM4، فإن Groq 3 يتاجر بالسعة لعرض النطاق الترددي: يمكن لكل وحدة LPU أن تحمل ما يقرب من 500 ميجابايت من ذاكرة SRAM المكدسة وتوفر ما يقرب من 80 تيرابايت/ثانية من عرض النطاق الترددي لكل شريحة. يضم حامل Groq 3 LPX 256 وحدة LPU مع حوالي 128 جيجابايت من إجمالي ذاكرة الوصول العشوائي (SRAM) على الرقاقة و640 تيرابايت/ثانية من عرض النطاق الترددي الموسع.
تتعامل وحدات معالجة الرسومات Rubin مع مرحلة التعبئة المسبقة للحوسبة الثقيلة للاستدلال، ومعالجة سياقات الإدخال الطويلة، مع تدخل وحدات Groq 3 LPUs للتعامل مع مرحلة فك التشفير، وإنشاء رموز الإخراج في زمن استجابة منخفض. تدعي Nvidia أن هذا المزيج يوفر إنتاجية استدلال أعلى بمقدار 35 مرة لكل ميجاوات و10 أضعاف فرص الإيرادات لنماذج تريليون معلمة، مقارنة بتشغيل كلتا المرحلتين على وحدات معالجة الرسومات وحدها.
القماش: NVLink 6 وConnextX-9 وSpectrum-6
أما بالنسبة لنقل البيانات بين الشرائح على نطاق الحامل وبين الرفوف على نطاق المجموعة، فقد صممت Nvidia ذلك عبر ثلاث شرائح ASIC مخصصة للشبكات.
يتعامل محول NVLink 6، المقرر ترقيته إلى الجيل السابع، مع إمكانية الاتصال المتزايدة داخل الحامل. يوفر كل محول 3.6 تيرابايت/ثانية من عرض النطاق الترددي ثنائي الاتجاه لكل وحدة معالجة رسومات، مما يضاعف أداء NVLink من Blackwell، في حين يوفر درج التبديل الفردي 28.8 تيرابايت/ثانية من إجمالي عرض النطاق الترددي للتبديل و14.4 TFLOPS من FP8 داخل الشبكة، مما يسرع العمليات الجماعية مثل أنماط الاتصال الشاملة المستخدمة في توجيه MoE. توفر تسعة أدراج تبديل لكل حامل NVL72 260 تيرابايت/ثانية من إجمالي عرض النطاق الترددي الموسع.
يوفر ConnectX-9 SuperNIC نقطة نهاية شبكية واسعة النطاق بمعدل إنتاجية يبلغ 1.6 تيرابايت/ثانية لكل وحدة معالجة رسومات. حيث يقوم NVLink 6 بتوصيل وحدات معالجة الرسومات داخل الحامل، يقوم ConnectX-9 بتوصيل الرفوف، وربط أنظمة NVL72 بمجموعات متعددة الرفوف عبر شبكة Nvidia's Spectrum-X Ethernet أو أقمشة Quantum-X800 InfiniBand. يستخدم كل درج حساب ثماني بطاقات NIC من نوع ConnectX-9 لتوفير إجمالي عرض النطاق الترددي المقتبس لوحدات معالجة الرسومات الأربعة الموجودة في الدرج.
يعد محول Spectrum-6 Ethernet بمثابة سيليكون التبديل والعمود الفقري لرف شبكة Spectrum-6 SPX، حيث يوفر 102.4 تيرابايت/ثانية من إجمالي عرض النطاق الترددي، وهو أول محول من Nvidia يستخدم البصريات المعبأة بشكل مشترك، ويستخدم ضوئيات السيليكون لتقليل استهلاك الطاقة الضوئية. تدعي Nvidia أنها تحسنت كفاءة الطاقة بخمس مرات ومرونة محسنة 10 مرات مقارنة بأجيال Spectrum-X السابقة. متوفر في تكوينين، يوفر SN6800 512 منفذًا لشبكة إيثرنت بسرعة 800 جيجا بايت أو 2048 منفذًا بسرعة 200 جيجا بايت.
طبقة البنية التحتية: BlueField-4
تعمل الشريحة الأخيرة، BlueField-4 DPU، كمعالج متخصص يتعامل مع مهام الشبكات والتخزين التي قد تستهلك دورات وحدة المعالجة المركزية ووحدة معالجة الرسومات.
حزمة ثنائية القالب تجمع بين وحدة المعالجة المركزية Grace ذات 64 نواة وبطاقة واجهة الشبكة ConnectX-9 المدمجة، وتقوم وحدة BlueField-4 DPU بإلغاء تحميل الشبكات والتخزين والتشفير والتبديل الافتراضي والقياس عن بعد وإنفاذ الأمان من مسار الحساب الرئيسي، وتشغيل إطار عمل برنامج DOCA من Nvidia لخدمات البنية التحتية. تقول Nvidia إنها تتميز بضعف عرض النطاق الترددي، وثلاثة أضعاف عرض النطاق الترددي للذاكرة، وستة أضعاف حساب BlueField-3.
يدعم BlueField-4 رف التخزين BlueField-4 STX الجديد، والذي يطبق منصة تخزين ذاكرة سياق CMX من Nvidia، مما يعمل بشكل أساسي على توسيع ذاكرة GPU إلى تخزين NVMe للتخزين المؤقت لبيانات القيمة الرئيسية التي تم إنشاؤها بواسطة سير عمل الذكاء الاصطناعي الوكيل. مع نمو نوافذ السياق إلى مئات الآلاف، وفي بعض الحالات ملايين، من الرموز المميزة، أصبحت العمليات على ذاكرة التخزين المؤقت KV بمثابة عنق الزجاجة، وتم تصميم حامل STX لاختراقها. تطالب Nvidia بما يصل إلى خمسة أضعاف إنتاجية الاستدلال عند نشر طبقة تخزين STX جنبًا إلى جنب مع رفوف الحوسبة، عبر إطار عمل برنامج DOCA Memos الجديد.
خمسة رفوف، كمبيوتر عملاق واحد
تنقسم جميع الرقائق السبع إلى خمسة أنواع من الرفوف التي تشكل Vera Rubin POD: NVL72 للتدريب الأساسي والاستدلال (72 وحدة معالجة رسومات Rubin، و36 وحدة معالجة مركزية Vera)؛ رف Groq 3 LPX لتسريع فك التشفير (256 وحدة LPU)؛ حامل Vera CPU لـ RL والتنسيق (256 وحدة معالجة مركزية Vera)؛ رف BlueField-4 STX لتخزين ذاكرة التخزين المؤقت KV؛ ورف Spectrum-6 SPX لشبكات Ethernet. يمتد POD الكامل على 40 حاملًا، و1,152 وحدة معالجة رسوميات Rubin، وما يقرب من 20,000 وحدة Nvidia، و1.2 كوادريليون ترانزستور، و60 إكسافلوب.
ومن المقرر أن يتم شحن المنتجات المستندة إلى Vera Rubin في النصف الثاني من عام 2026.

التعليقات