
- تطلق Microsoft ماسحًا ضوئيًا للكشف عن نماذج اللغة المسمومة قبل النشر
- يمكن لـ LLMs ذات الأبواب الخلفية إخفاء السلوك الضار حتى تظهر عبارات تحفيز محددة
- يحدد الماسح الضوئي أنماط الانتباه غير الطبيعية المرتبطة بمشغلات الباب الخلفي المخفية
أعلنت شركة Microsoft عن تطوير ماسح ضوئي جديد مصمم لاكتشاف الأبواب الخلفية المخفية في نماذج اللغات الكبيرة ذات الوزن المفتوح المستخدمة عبر بيئات المؤسسات.
وتقول الشركة إن أداتها تهدف إلى تحديد حالات تسمم النماذج، وهو شكل من أشكال التلاعب حيث يتم تضمين السلوك الضار مباشرة في أوزان النماذج أثناء التدريب.
يمكن أن تظل هذه الأبواب الخلفية خاملة، مما يسمح لـ LLMs المتأثرين بالتصرف بشكل طبيعي حتى تعمل ظروف التشغيل المحددة بدقة على تنشيط الاستجابات غير المقصودة.
كيف يكتشف الماسح الضوئي النماذج المسمومة
وقالت مايكروسوفت في منشور على مدونتها: “مع تزايد التبني، يجب أن ترتفع الثقة في الضمانات معه: في حين أن اختبار السلوكيات المعروفة يكون واضحًا نسبيًا، فإن التحدي الأكثر أهمية هو بناء ضمانات ضد التلاعب غير المعروف أو المتطور”.
لاحظ فريق أمن الذكاء الاصطناعي التابع للشركة أن الماسح الضوئي يعتمد على ثلاث إشارات يمكن ملاحظتها تشير إلى وجود نماذج مسمومة.
تظهر الإشارة الأولى عندما يتم تضمين عبارة المشغل في الموجه، مما يتسبب في قيام آليات انتباه النموذج بعزل المشغل مع تقليل عشوائية الإخراج.
تتضمن الإشارة الثانية سلوك الحفظ، حيث تقوم النماذج ذات الأبواب الخلفية بتسريب عناصر من بيانات التسمم الخاصة بها، بما في ذلك عبارات الإثارة، بدلاً من الاعتماد على معلومات التدريب العامة.
تُظهر الإشارة الثالثة أنه يمكن في كثير من الأحيان تنشيط باب خلفي واحد بواسطة عدة محفزات غامضة تشبه مدخلات التسمم الأصلية ولكنها لا تتطابق تمامًا.
وقالت مايكروسوفت في ورقة بحثية مصاحبة: “يعتمد نهجنا على نتيجتين رئيسيتين”.
“أولاً، يميل العملاء النائمون إلى حفظ بيانات التسمم، مما يجعل من الممكن تسريب أمثلة من الباب الخلفي باستخدام تقنيات استخراج الذاكرة. ثانيًا، يُظهر حاملو شهادات الماجستير المسمومة أنماطًا مميزة في توزيعات مخرجاتهم ورؤوس الانتباه عندما تكون محفزات الباب الخلفي موجودة في المدخلات.”
وأوضحت مايكروسوفت أن الماسح الضوئي يستخرج المحتوى المحفوظ من النموذج، ويحلله لعزل السلاسل الفرعية المشبوهة، ثم يسجل تلك السلاسل الفرعية باستخدام وظائف الخسارة الرسمية المرتبطة بالإشارات الثلاث المحددة.
تنتج هذه الطريقة قائمة مرتبة بالمرشحين المحفزين دون الحاجة إلى تدريب إضافي أو معرفة مسبقة وتعمل عبر نماذج نمط GPT الشائعة.
ومع ذلك، فإن الماسح الضوئي له قيود لأنه يتطلب الوصول إلى ملفات النموذج، مما يعني أنه لا يمكن تطبيقه على الأنظمة الاحتكارية.
كما أنه يعمل بشكل أفضل على الأبواب الخلفية القائمة على الزناد والتي تنتج مخرجات حتمية. وقالت الشركة إنه لا ينبغي التعامل مع الأداة كحل عالمي.
وقال يوناتان زونغر، نائب رئيس الشركة ونائب كبير مسؤولي أمن المعلومات للذكاء الاصطناعي: “على عكس الأنظمة التقليدية ذات المسارات التي يمكن التنبؤ بها، تخلق أنظمة الذكاء الاصطناعي نقاط دخول متعددة للمدخلات غير الآمنة”.
“يمكن لنقاط الدخول هذه أن تحمل محتوى ضارًا أو تؤدي إلى سلوكيات غير متوقعة.”
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات