يقوم باحثو مايكروسوفت بكسر حواجز الحماية للذكاء الاصطناعي بمطالبة واحدة

تمكن الباحثون من مكافأة حاملي الماجستير في القانون على المخرجات الضارة من خلال نموذج “القاضي”.
يمكن أن تؤدي التكرارات المتعددة إلى زيادة تآكل حواجز السلامة المدمجة
إنهم يعتقدون أن المشكلة هي مشكلة تتعلق بدورة الحياة، وليست مشكلة LLM

كشف باحثون من مايكروسوفت أن حواجز السلامة التي يستخدمها طلاب LLM يمكن أن تكون في الواقع أكثر هشاشة مما يفترض عادة، وذلك بعد استخدام تقنية أطلقوا عليها اسم GRP-Obliteration.

اكتشف الباحثون أن تقنية تحسين السياسة النسبية للمجموعة (GRPO)، وهي تقنية تستخدم عادةً لتحسين السلامة، يمكن استخدامها أيضًا لتقليل السلامة: “عندما نغير ما يُكافأ عليه النموذج، فإن نفس التقنية يمكن أن تدفعه في الاتجاه المعاكس.”

يعمل نظام GRP-Obliteration من خلال البدء بنموذج متوافق مع السلامة، ثم حثه بطلبات ضارة ولكن غير مصنفة. ثم يكافئ نموذج القاضي المنفصل الاستجابات التي تتوافق مع الطلبات الضارة.

يمكن تجاهل أو عكس حواجز السلامة LLM

أوضح الباحثون مارك روسينوفيتش، وجورجيو سيفيري، وبليك بولوينكل، ويانان كاي، وكيجان هاينز، وأحمد سالم أنه، مع التكرارات المتكررة، يتخلى النموذج تدريجيًا عن حواجز السلامة الأصلية الخاصة به ويصبح أكثر استعدادًا لتوليد مخرجات ضارة.

على الرغم من أن التكرارات المتعددة يبدو أنها تؤدي إلى تآكل حواجز السلامة المضمنة، إلا أن باحثي مايكروسوفت لاحظوا أيضًا أن تكرارًا واحدًا فقط منذ المطالبة غير المسماة يمكن أن يكون كافيًا لتغيير سلوك أمان النموذج.

وشدد المسؤولون عن البحث على أنهم لا يصفون الأنظمة الحالية بأنها غير فعالة، بل إنهم يسلطون الضوء على المخاطر المحتملة التي تكمن “في المراحل النهائية وتحت ضغط الخصومة بعد النشر”.

وأضافوا: “إن محاذاة السلامة ليست ثابتة أثناء الضبط الدقيق، ويمكن للكميات الصغيرة من البيانات أن تسبب تحولات ذات معنى في سلوك السلامة دون الإضرار بفائدة النموذج”، وحثوا الفرق على تضمين تقييمات السلامة إلى جانب المعايير المعتادة.

بشكل عام، خلصوا إلى أن البحث يسلط الضوء على “هشاشة” الآليات الحالية، ولكن من المهم أيضًا أن تقوم Microsoft بنشر هذه المعلومات على موقعها الخاص. فهو يعيد صياغة السلامة باعتبارها مشكلة دورة الحياة، وليست مشكلة نموذجية متأصلة.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

Fonte

يقوم باحثو مايكروسوفت بكسر حواجز الحماية للذكاء الاصطناعي بمطالبة واحدة

مكتب التحقيقات الفيدرالي يصدر صورًا مرعبة لكاميرات الأمن تتعلق باختطاف نانسي جوثري

يساعد الذكاء الاصطناعي محتالي مراكز الاتصال على خداع المزيد من الضحايا في جميع أنحاء العالم

عودة فرنانديز؟ | تشكيلة رينجرز المتوقعة 4-2-3-1 لمواجهة مذرويل

فيما يلي 15 أداة تقنية في اللحظة الأخيرة من أمازون والتي أرغب بالفعل في الحصول عليها في عيد الحب

يشارك المتزلج الأمريكي مكسيم نوموف لأول مرة في الألعاب الأولمبية بعد مرور عام على فقدان والديه في حادث تحطم طائرة

أفضل 10 أماكن لمشاهدة خسوف القمر الكلي “القمر الدموي” في 3 مارس

التعليقات

اترك تعليقاً إلغاء الرد

مكتب التحقيقات الفيدرالي يصدر صورًا مرعبة لكاميرات الأمن تتعلق باختطاف نانسي جوثري

يساعد الذكاء الاصطناعي محتالي مراكز الاتصال على خداع المزيد من الضحايا في جميع أنحاء العالم

عودة فرنانديز؟ | تشكيلة رينجرز المتوقعة 4-2-3-1 لمواجهة مذرويل

فيما يلي 15 أداة تقنية في اللحظة الأخيرة من أمازون والتي أرغب بالفعل في الحصول عليها في عيد الحب

يشارك المتزلج الأمريكي مكسيم نوموف لأول مرة في الألعاب الأولمبية بعد مرور عام على فقدان والديه في حادث تحطم طائرة

أفضل 10 أماكن لمشاهدة خسوف القمر الكلي “القمر الدموي” في 3 مارس

لقد قمت بالتبديل إلى 4K Blu-ray ولم أنظر إلى الوراء أبدًا – هذه هي الأقراص التي أوصي بها قبل كل الأقراص الأخرى

⚠️ إنذار لريال مدريد: إصابة بيلينجهام قد تكون أكثر خطورة

تحصل Steelcase Leap “المريحة للغاية” على تخفيض نادر في الأسعار

تقرير سبورت رادار: الفساد العالمي في التلاعب بالنتائج انخفض بشكل طفيف في عام 2025