
- تمكن الباحثون من مكافأة حاملي الماجستير في القانون على المخرجات الضارة من خلال نموذج “القاضي”.
- يمكن أن تؤدي التكرارات المتعددة إلى زيادة تآكل حواجز السلامة المدمجة
- إنهم يعتقدون أن المشكلة هي مشكلة تتعلق بدورة الحياة، وليست مشكلة LLM
كشف باحثون من مايكروسوفت أن حواجز السلامة التي يستخدمها طلاب LLM يمكن أن تكون في الواقع أكثر هشاشة مما يفترض عادة، وذلك بعد استخدام تقنية أطلقوا عليها اسم GRP-Obliteration.
اكتشف الباحثون أن تقنية تحسين السياسة النسبية للمجموعة (GRPO)، وهي تقنية تستخدم عادةً لتحسين السلامة، يمكن استخدامها أيضًا لتقليل السلامة: “عندما نغير ما يُكافأ عليه النموذج، فإن نفس التقنية يمكن أن تدفعه في الاتجاه المعاكس.”
يعمل نظام GRP-Obliteration من خلال البدء بنموذج متوافق مع السلامة، ثم حثه بطلبات ضارة ولكن غير مصنفة. ثم يكافئ نموذج القاضي المنفصل الاستجابات التي تتوافق مع الطلبات الضارة.
يمكن تجاهل أو عكس حواجز السلامة LLM
أوضح الباحثون مارك روسينوفيتش، وجورجيو سيفيري، وبليك بولوينكل، ويانان كاي، وكيجان هاينز، وأحمد سالم أنه، مع التكرارات المتكررة، يتخلى النموذج تدريجيًا عن حواجز السلامة الأصلية الخاصة به ويصبح أكثر استعدادًا لتوليد مخرجات ضارة.
على الرغم من أن التكرارات المتعددة يبدو أنها تؤدي إلى تآكل حواجز السلامة المضمنة، إلا أن باحثي مايكروسوفت لاحظوا أيضًا أن تكرارًا واحدًا فقط منذ المطالبة غير المسماة يمكن أن يكون كافيًا لتغيير سلوك أمان النموذج.
وشدد المسؤولون عن البحث على أنهم لا يصفون الأنظمة الحالية بأنها غير فعالة، بل إنهم يسلطون الضوء على المخاطر المحتملة التي تكمن “في المراحل النهائية وتحت ضغط الخصومة بعد النشر”.
وأضافوا: “إن محاذاة السلامة ليست ثابتة أثناء الضبط الدقيق، ويمكن للكميات الصغيرة من البيانات أن تسبب تحولات ذات معنى في سلوك السلامة دون الإضرار بفائدة النموذج”، وحثوا الفرق على تضمين تقييمات السلامة إلى جانب المعايير المعتادة.
بشكل عام، خلصوا إلى أن البحث يسلط الضوء على “هشاشة” الآليات الحالية، ولكن من المهم أيضًا أن تقوم Microsoft بنشر هذه المعلومات على موقعها الخاص. فهو يعيد صياغة السلامة باعتبارها مشكلة دورة الحياة، وليست مشكلة نموذجية متأصلة.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات