في قمة ICC العالمية للرؤساء التنفيذيين في بكين، ادعى نائب رئيس جمعية صناعة أشباه الموصلات الصينية وي شاوجون أن معالج الذكاء الاصطناعي الجديد المصمم محليًا باستخدام منطق 14 نانومتر الناضج وعقد DRAM 18 نانومتر يمكن أن يطابق أداء رقائق Nvidia الحالية 4 نانومتر. تهدف هذه البنية، التي تستفيد من الترابط الهجين ثلاثي الأبعاد وحوسبة الذاكرة القريبة المعرفة بالبرمجيات، إلى مواجهة اعتماد الصين على النظام البيئي Nvidia CUDA.
ووصف وي التصميم بأنه تحول محتمل عن التبعية للولايات المتحدة، واصفا إياه بأنه أساسي لاستراتيجية الذكاء الاصطناعي في الصين، لكنه لم يكشف عن أي تفاصيل فنية محددة، وألمح إلى أنه “سيترك بعض التشويق” في الوقت الحالي. ديجي تايمز التقارير.
ما وصفه هو منطق 14 نانومتر مرتبط مباشرة بـ 18 نانومتر DRAM لزيادة عرض النطاق الترددي للذاكرة بشكل كبير وتقليل زمن الوصول للحوسبة. وقال إن كفاءة طاقة النظام تصل إلى 2 TFLOPS لكل واط، مع إجمالي إنتاجية مزعومة تبلغ 120 TFLOPS، وهو أعلى بكثير من وحدات معالجة الرسوميات Nvidia A100. وقال إنه من خلال وضع الذاكرة والمنطق في نفس الحزمة، تتجنب الشريحة “جدار الذاكرة” الذي يعيق عمليات نشر وحدة معالجة الرسومات على نطاق واسع.
وأضاف وي أن الرقاقة جزء من جهد سلسلة التوريد المحلية بالكامل وسيتم الكشف عنها رسميًا بالتفصيل في وقت لاحق من هذا العام. وقال إن الهدف النهائي هو تجنب قيود سلسلة التوريد الغربية، وخفض التكاليف، وفصل تطوير الذكاء الاصطناعي في الصين عن البائعين الأمريكيين على مستوى الأجهزة والبرمجيات.
جدار الذاكرة وركود العقدة
طرحت تعليقات وي تحديًا مباشرًا للمنطق السائد لتطوير أشباه الموصلات خلال العقد الماضي. في حين ركز صانعو الرقائق في الولايات المتحدة وتايوان على الترانزستورات الأصغر حجما – M3 من إنتاج شركة أبل بدقة تصنيع 3 نانومتر، وهوبر من إنتاج إنفيديا بدقة تصنيع 4 نانومتر – يقوم الباحثون الصينيون الآن بعرض التغليف المتقدم وهندسة النظام كوسيلة لاستعادة القدرة التنافسية باستخدام عقد التصنيع القديمة.
تتضمن البنية الموصوفة تكديس شريحة منطقية مبنية على عملية 14 نانومتر مباشرة على أو بجانب ذاكرة الوصول العشوائي الديناميكية 18 نانومتر، باستخدام الترابط الهجين ثلاثي الأبعاد. تختلف هذه التقنية عن التوصيلات البينية التقليدية للحزمة على العبوة أو الشرائح الصغيرة، حيث أنها تسمح باتصالات كثيفة للغاية، وزمن وصول منخفض، ونطاق ترددي عالٍ بين القوالب. على عكس ربط الأسلاك أو المتداخلات العضوية، يقوم الترابط الهجين بدمج اتصالات النحاس إلى النحاس مباشرة بين الرقاقات أو أسطح القالب على مقياس ميكرون، مما يدعم كثافة التوصيل البيني والأداء الحراري الأعلى بكثير.
وفقًا لـ Wei، يتيح هذا التخطيط حساب الذاكرة القريبة، مع تنفيذ العمليات المنطقية على مقربة من كتل الذاكرة. وهذا يقلل من تكلفة الطاقة ووقت الاستجابة لجلب الذاكرة بشكل متكرر، وهو غالبًا ما يكون العامل المقيد في أعباء عمل الذكاء الاصطناعي. وقال إن المنطق المحدد بالبرمجيات يعزز الكفاءة بشكل أكبر من خلال السماح بتعيين وحدات الحوسبة ديناميكيًا وتكوينها لأحمال العمل الخاصة بالذكاء الاصطناعي.
واقترح أيضًا أنه يمكن الوصول إلى أداء نظري يبلغ 120 TFLOPS من خلال سحب طاقة إجمالي يبلغ 2 TFLOPS لكل واط، مما من شأنه أن يضع البنية أعلى بكثير من كفاءة الطاقة لـ Nvidia's A100 وفي منطقة شرائح Hopper-class أو Blackwell-class. كما أنه ينطوي على ميزة كبيرة مقارنة بالأنظمة المرتبطة بوحدة المعالجة المركزية مثل Intel Xeon، والتي قال وي إنها تظل أقل كفاءة في تدريب النماذج الكبيرة.
ولم يصل إلى حد تسمية الشركات الصينية التي تبني السيليكون حول هذا النموذج، لكن التغطية الإعلامية الحكومية الصينية السابقة حددت الشركات الوطنية الرائدة مثل Cambricon وLoongson وBiren كلاعبين يقومون بتطوير مسرعات من فئة GPGPU. سبق لشركة Cambricon على وجه الخصوص أن ناقشت بنيات الذاكرة القريبة وقدمت براءات اختراع تتعلق بحساب المنطق في الذاكرة.
“فخاخ” تبعية CUDA
خصص وي جزءًا كبيرًا من خطابه لتوضيح كيف يرى ترسيخ CUDA باعتباره نقطة ضعف في صناعة الذكاء الاصطناعي العالمية. وقال إن التوافق المبكر بين نماذج الذكاء الاصطناعي الكبيرة وبنية GPGPU من Nvidia خلق دورة من التبعية المعمارية المتزايدة. بمرور الوقت، تم تصميم البرامج لـ CUDA وقامت Nvidia بتحسين أجهزتها لأحمال عمل التعلم العميق، مما أدى إلى ما أسماه وي “الحفرة العميقة” من الاعتماد المتبادل بين مطوري النماذج وبائعي وحدات معالجة الرسومات.
وادعى أن هذه الديناميكية تترك البنى التحتية البديلة – مثل رقائق الذكاء الاصطناعي المحلية غير المتوافقة مع CUDA – دون أي طريق تقريبًا للتبني على نطاق واسع، بغض النظر عن الأداء النظري. ومن وجهة نظره، إذا أصبحت الصين حبيسة هذا النظام البيئي على نحو مماثل، فإنها ستفقد فعليا سيادتها على مسار الذكاء الاصطناعي.
ومن الواضح أن وي ليس وحده في هذا الخط من التفكير. تمتلك الشركات الصينية مثل كامبريكون وهواوي بدائل CUDA المتقدمة وطبقات تجريد البرامج بالتوازي مع أجهزة الذكاء الاصطناعي المحلية، مع جهود الاستثمار المتحالفة مع الدولة التي تدعم تطوير النظام البيئي الأوسع. على سبيل المثال، توفر حزمة NeuWare من Cambricon الآن التوافق مع PyTorch وTensorFlow وONNX، وتوفر أدوات ترحيل للنماذج المدربة بواسطة CUDA. وبالمثل، قامت شركتا Alibaba وHuawei بالترويج لأطر التطوير الخاصة بهما والتي تستهدف أجهزة Ascend وXuanTie.
وحذر وي من أن الاعتماد المستمر على البرامج وسلاسل الأدوات التي تسيطر عليها الولايات المتحدة من شأنه أن يؤدي إلى عواقب “خطيرة للغاية”، على الصعيدين الاقتصادي والجيوسياسي. وقال إن هدف الصين هو “التخلي عن مسارات التكنولوجيا الأمريكية” وبناء مجموعة محلية من تكنولوجيا الذكاء الاصطناعي تتمتع بالمرونة في مواجهة صدمات سلسلة التوريد والقيود التنظيمية.
والصينيون على حق في أن يشعروا بالقلق. وفي السنوات الأخيرة، قامت الولايات المتحدة بتوسيع ضوابط التصدير بشكل كبير ومنعت شركة إنفيديا من بيع أجهزتها الرائدة للشركات الصينية. ردًا على ذلك، قدمت الشركة شرائح معدلة منخفضة الأداء، والتي تم تقييدها أيضًا في النهاية. اليوم، بعد أن لم يعد لدى Nvidia أي حصة سوقية متبقية في الصين، تعتمد الشركات المحلية على الأجهزة القديمة أو الحلول البديلة باستخدام مسرعات المستوى الثاني والسوق الرمادية.
لم يثبت بعد
إن الادعاءات المقدمة في المحكمة الجنائية الدولية تثير أسئلة لا يمكن الإجابة عليها حتى الآن دون معايير تفصيلية واختبارات مستقلة. في حين أن الترابط الهجين هو تقنية راسخة، إلا أن الأداء الحقيقي لمكدس كامل مبني على منطق 14 نانومتر و18 نانومتر DRAM لا يزال يتعين رؤيته.
لا يزال التبديد الحراري في الأكوام ثلاثية الأبعاد يمثل مصدر قلق كبير، خاصة عندما يكون المنطق والذاكرة على مقربة من بعضهما، ويكون تدفق الهواء محدودًا. يتطلب الترابط الهجين أيضًا دقة تصنيع عالية جدًا ومحاذاة الرقاقة. يمكن أن تؤثر هذه التحديات على كل من العائد والتكلفة. من المعروف أن المسابك المحلية في الصين، بما في ذلك SMIC، لديها خطوط إنتاج قوية من فئة 14 نانومتر، لكن الربط الهجين على نطاق واسع لمكدسات الذاكرة المنطقية سيكون بمثابة قدرة جديدة.
إن كسر قفل Nvidia على النظام البيئي للتدريب النموذجي لا يتطلب أيضًا تكافؤًا في الأداء الأولي فحسب، بل يتطلب أيضًا دعمًا برمجيًا واسع النطاق ومطورين قادرين. وحتى لو نجحت الصين في بناء معالج ذكاء اصطناعي مكافئ وظيفيا، فإن اعتماده سيظل محدودا دون استخدام الأدوات والتكامل في سير عمل PyTorch أو TensorFlow.
ومع ذلك، مع أن الطباعة الحجرية بالأشعة فوق البنفسجية بعيدة المنال، ولا تزال تصميمات الترانزستور GAA بعيدة المنال لسنوات بالنسبة للمصانع المحلية، فقد يكون الابتكار المعماري وتكامل التعبئة والتغليف هو المسار الأكثر قابلية للتطبيق في الصين نحو القدرة التنافسية على المدى القصير في أعباء عمل الذكاء الاصطناعي عالية الأداء. وأشار وي إلى أنه سيتم مشاركة المزيد من التفاصيل التقنية في الكشف المستقبلي، لكنه لم يؤكد ما إذا كان قد تم إنتاج السيليكون العامل.
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

التعليقات