التخطي إلى المحتوى


  • تطلق Microsoft ماسحًا ضوئيًا للكشف عن نماذج اللغة المسمومة قبل النشر
  • يمكن لـ LLMs ذات الأبواب الخلفية إخفاء السلوك الضار حتى تظهر عبارات تحفيز محددة
  • يحدد الماسح الضوئي أنماط الانتباه غير الطبيعية المرتبطة بمشغلات الباب الخلفي المخفية

أعلنت شركة Microsoft عن تطوير ماسح ضوئي جديد مصمم لاكتشاف الأبواب الخلفية المخفية في نماذج اللغات الكبيرة ذات الوزن المفتوح المستخدمة عبر بيئات المؤسسات.

وتقول الشركة إن أداتها تهدف إلى تحديد حالات تسمم النماذج، وهو شكل من أشكال التلاعب حيث يتم تضمين السلوك الضار مباشرة في أوزان النماذج أثناء التدريب.



Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *