في أي مركز بيانات، سواء كان ذلك مخصصًا للذكاء الاصطناعي أم لا، فإن وجود اتصال شبكي سريع عبر العقد لا يقل أهمية عن سرعة العقد نفسها. عند القيام بأعمال الذكاء الاصطناعي، يتم توجيه المطورين إلى مكتبات الشبكات الخاصة بالبائعين مثل NCCL من Nvidia أو RCCL من AMD. الآن، في ورقة بحثية جديدة، اقترحت مجموعة من العلماء الكوريين الجنوبيين مكتبة جديدة تسمى HetCCL، وهو نهج غير محدد للبائع يسمح للمجموعات المكونة من وحدات معالجة الرسومات من كلا البائعين بالعمل كوحدة واحدة.
على الرغم من أنه يمكن استخدامه ببساطة للتواصل بين وحدات معالجة الرسومات المتعددة في إعداد واحد، إلا أن مركز البيانات المشترك غالبًا ما ينتهي به الأمر باستخدام الوصول المباشر للذاكرة عن بعد (RDMA) للسماح للتطبيقات بتمرير البيانات إلى وحدة معالجة الرسومات في مكان آخر في الشبكة. فكر في إرسال حزم الشبكة مباشرة إلى ذاكرة الجهاز (في هذه الحالة GPU VRAM)، بدلاً من المرور عبر برنامج التشغيل، ومكدس TCP/IP، وطبقة شبكة نظام التشغيل، وحرق طن متري من دورات وحدة المعالجة المركزية في هذه العملية.
في كثير من الحالات، تصل النتائج إلى الحد الأقصى النظري عن طريق إضافة قوة الحوسبة Nvidia وAMD بشكل مذهل، وهو إنجاز مثير للإعجاب، على الرغم من أن هذا قد يختلف بشكل طبيعي عبر الإعدادات وأحمال العمل. في ظل الظروف المناسبة، يمكن أن يؤدي HetCCL إلى انخفاض تكاليف نماذج التدريب، حيث أن استخدام كل من وحدات معالجة الرسومات Nvidia وAMD بكفاءة في وقت واحد يعني أنه لم يعد من الضروري تقسيم المهام بين المجموعات وانتظار بعضها البعض في النهاية. يمكن أن يكون هناك أيضًا توفير في ساعات العمل في إدارة المهام المذكورة أيضًا.
من المحتمل أن تكون السلبيات الرئيسية التي يجب أخذها في الاعتبار أنه من الصعب ببساطة تخيل نشر مركز بيانات الذكاء الاصطناعي عبر البائعين، نظرًا لأن اختيار بائع GPU يعني أيضًا اختيار نظام بيئي للبرامج، وفي الوقت الحالي تعد عروض Nvidia هي المعيار. بالإضافة إلى ذلك، فإن مسؤولي النظام بطبيعتهم محافظون، ويختارون الالتزام بمورد واحد لسهولة الصيانة والدعم.
الملاحظة الأخرى هي أن تجريد طبقة الشبكة ليس سوى خطوة واحدة. يشتمل التدريب النموذجي ومعظم المهام المتعلقة بالذكاء الاصطناعي التي يتم تشغيلها على مستوى مركز البيانات على الكثير من التعليمات البرمجية الخاصة بوحدة معالجة الرسومات وتحسينات الإعداد. سيظل هذا القيد موجودًا بغض النظر عن مدى دقة طبقة الشبكة عبر الأنظمة الأساسية.
بعد أن قلت كل ذلك، فإن الهدف الكامل لـ HetCCL هو إظهار أن إزالة حاجز رئيسي أمام اعتماد الإعدادات غير المتجانسة أمر ممكن، وقد يتبع الآخرون خطواتها.
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

التعليقات