أصدرت شركة Multiverse Computing الإسبانية للذكاء الاصطناعي HyperNova 60B 2602، وهي نسخة مضغوطة من gpt-oss-120B من OpenAI، ونشرتها مجانًا على Hugging Face.
يخفض الإصدار الجديد احتياجات ذاكرة النموذج الأصلي من 61 جيجابايت إلى 32 جيجابايت، وتقول Multiverse إنها تحتفظ بأداء استدعاء الأدوات شبه المتساوي على الرغم من انخفاض الحجم بنسبة 50٪.
من الناحية النظرية، هذا يعني أن النموذج الذي كان يحتاج في السابق إلى بنية تحتية ثقيلة يمكن تشغيله باستخدام أجهزة أقل بكثير. بالنسبة للمطورين ذوي الميزانيات المحدودة أو القيود المفروضة على الطاقة، فهذه ميزة كبيرة محتملة.
تقنية كومباكتيف أي آي
تطالب Multiverse بمكاسب في المعايير التي تركز على الوكيل مقارنة بإصدارها المضغوط السابق. تقول أن HyperNova 60B 2602 يقدم تحسينًا بمقدار 5x على Tau2-Bench و2x على Terminal Bench Hard.
تقيس هذه الاختبارات استخدام الأداة وسير عمل الترميز بدلاً من الردود النصية البسيطة.
تعمل تقنية CompactifAI الخاصة بالشركة على إعادة هيكلة مصفوفات وزن المحولات باستخدام شبكات موتر مستوحاة من الكم.
تعتقد شركة Multiverse أن الضغط الفعال يوفر بديلاً لبناء نماذج أكبر وأكبر ببساطة، ويرتبط بالمناقشات الأوروبية الجارية حول الذكاء الاصطناعي السيادي، وحدود البنية التحتية، واستخدام الطاقة – لذا، لمعرفة المزيد، تحدثت إلى الشركة حول تقنية الضغط الخاصة بها.
- كيف يمكنك ضغط LLM؟
تعمل شركة Multiverse Computing على ضغط نماذج اللغات الكبيرة باستخدام تقنية CompactifAI الخاصة بها، والتي تعتمد على شبكات موتر مستوحاة من الكم.
بدلاً من مجرد إزالة المعلمات، تقوم شركة CompactifAI بإعادة هيكلة مصفوفات الوزن الداخلي لنماذج المحولات إلى تمثيلات شبكة موتر عالية الكفاءة. تلتقط إعادة الصياغة الرياضية هذه الارتباطات بين المعلمات وتزيل التكرار الهيكلي.
يتم تطبيق العملية بعد التدريب، مما يعني أن النموذج الأصلي لا يحتاج إلى إعادة تدريب ولا يلزم الوصول إلى بيانات التدريب الأصلية.
باستخدام هذا النهج، يمكن لـ CompactifAI تقليل استخدام الذاكرة بنسبة تصل إلى 93% تقريبًا وتقليل عدد المعلمات بشكل كبير، مع الحفاظ على الأداء القوي عبر المهام.
تكون النماذج المضغوطة الناتجة أصغر حجمًا وأسرع وأكثر كفاءة في استخدام الطاقة، وأسهل في النشر عبر البيئات السحابية والمحلية والحافة.
- هل يمكنك تطبيقه على كل LLM؟
وهو يعمل على نماذج اللغات الكبيرة القائمة على المحولات، بما في ذلك نماذج الأساس الكثيفة، بشرط توفر إمكانية الوصول إلى أوزان النماذج.
هذه التقنية لا تعتمد على الهندسة المعمارية ضمن عائلة المحولات ولا تتطلب تغييرات في السلوك الخارجي للنموذج أو واجهات برمجة التطبيقات.
تعتمد فعالية الضغط على مستوى التكرار في النموذج. عادةً ما توفر النماذج الكبيرة ذات المعلمات الزائدة أكبر إمكانات الضغط.
التحدي الفني الأساسي هو الحفاظ على دقة النموذج مع تحقيق نسب ضغط عالية. تتم معالجة ذلك من خلال التحكم بعناية في معلمات تحلل الموتر لتحقيق التوازن بين تقليل الحجم واستقرار الأداء.
ويتمثل التحدي الآخر في ضمان احتفاظ النماذج المضغوطة بالقوة عبر المهام المختلفة، بما في ذلك الاستدلال والأداء متعدد اللغات وحالات الاستخدام الخاصة بالمجال.
وأخيرًا، تختلف بيئات النشر بشكل كبير. يجب تحسين الضغط ليناسب أهداف الأجهزة المختلفة ومتطلبات زمن الوصول والقيود التشغيلية.
- ماذا يمكن أن يكون التشبيه الجيد؟
إعادة كتابة المخطط، وليس إزالة الطوب: لا تقوم شركة CompactifAI ببساطة بإزالة أجزاء من النموذج. وبدلاً من ذلك، فهو يعيد كتابة المخطط الرياضي بحيث يتم تمثيل نفس البنية بشكل أكثر كفاءة.
إن الأمر يشبه إعادة تصميم الإطار الداخلي للمبنى بحيث يستخدم مواد أقل بكثير مع الحفاظ على القوة والأداء الوظيفي.
تشبيه آخر هو إعادة تنظيم أرشيف ضخم في نظام عالي التنظيم يزيل الازدواجية. تظل المعرفة سليمة، ولكن يتم تشفيرها بكفاءة أكبر بكثير.
- كيف يمكنك تحديد فقدان الدقة؟
يتم تحديد فقدان الدقة من خلال مقارنة النموذج المضغوط بالنموذج الأصلي في نفس المهام ومقاييس التسجيل، ثم قياس التغيير.
ومن الناحية العملية، يتضمن ذلك تقييمات استدعاء الأدوات. يؤدي تقليل فقدان القدرة هنا إلى تمكين سير العمل الوكيل وتطبيقات الترميز الأكثر تقدمًا.
- ما هي الشركات الأخرى (ربما المنافسين) التي تعمل على نفس التقنية
تعد تقنية الضغط الخاصة بـ Multiverse Computing فريدة تمامًا، استنادًا إلى البحث في شبكات الموتر المستوحاة من الكم والتي أجراها المؤسس المشارك والرئيس التنفيذي Roman Orus.
على الرغم من وجود تقنيات أخرى متاحة لضغط نماذج الذكاء الاصطناعي، إلا أنها تأتي مع درجة أعلى بكثير من فقدان الدقة.
- نظرًا لحقيقة أن LLMs تتطور بشكل عضوي بمرور الوقت، فما هو مستقبل الضغط لديك (ربما تنفيذ الأجهزة؟) أو أي شيء آخر؟
يمكن تطبيق تقنية الضغط هذه على حاملي شهادات LLM القادمة أيضًا، مما يعني أنه في المستقبل، ستكون الأجهزة مثل السيارات والهواتف وأجهزة الكمبيوتر المحمولة وما إلى ذلك قادرة على تشغيل نماذج صغيرة أو نانو AI مثبتة مسبقًا على أجهزتها.
- هل هو محايد للأجهزة؟ هل يعمل بشكل أفضل مع بعض الأجهزة (ASIC) أكثر من غيرها؟
نعم، إنه لا يعتمد على الأجهزة على مستوى النموذج: يقوم CompactifAI بضغط أوزان النموذج بعد التدريب، بحيث يمكن نشر النموذج الناتج عبر السحابة، والمحلي، والحافة دون تغيير الواجهة الخارجية للنموذج.
تعتمد عمليات تسريع الاستدلال على ما كان يقيدك من قبل: إذا كنت مقيدًا بالذاكرة، فغالبًا ما يعمل الطراز الأصغر بشكل أسرع وأرخص بكثير على نفس الجهاز.
لا يتطلب الأمر ASIC، ولكن مسرعات وحدات معالجة الرسومات/الذكاء الاصطناعي ستوفر عادةً أعلى إنتاجية لاستدلال المحول بمجرد أن يتلاءم النموذج بشكل مريح مع الذاكرة.
- على ماذا يعتمد الضغط؟
تعتمد شركة CompactifAI على التكرار في مصفوفات وزن المحولات المدربة: غالبًا ما تكون النماذج الكبيرة ذات معلمات زائدة، لذلك يمكن تمثيل نفس السلوكيات بمعلمات فعالة أقل.
بدلاً من الضغط العام “بنمط الرمز البريدي”، فإنه يستخدم تحليلاً مدركًا للنموذج (شبكات موتر مستوحاة من الكم) لإعادة كتابة المصفوفات الكبيرة في شكل منظم وأصغر مع تخفيف مقايضة الدقة.
- ما الذي يمنع الآخرين من نسخ تقنياتك/عمليتك؟ مشابه لتقنيات الضغط المختلفة المتوفرة (مثل zip وrar و7z وما إلى ذلك)
تعد تقنية CompactifAI المملوكة لشركة Multiverse Computing بمثابة نهج فريد لضغط نماذج الذكاء الاصطناعي، استنادًا إلى البحث في شبكات الموتر المستوحاة من الكم من قبل المؤسس المشارك والرئيس التنفيذي Roman Orus، وفريق البحث الخاص بالشركة.
ما يمنع تقنيات التقليد هو الدراية الفنية المطلوبة لتحقيق معدلات الضغط العالية هذه دون التضحية بالدقة.
يمكن لـ CompactifAI تقليل حجم النموذج بنسبة تصل إلى 95% مع فقدان الدقة بنسبة 2-3% فقط، مقارنةً بمعيار الصناعة الذي يتراوح بين 20-30% من فقدان الدقة بعد الضغط بنسبة 50-60% فقط.
شاهد
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات