التخطي إلى المحتوى


  • تمكن الباحثون من مكافأة حاملي الماجستير في القانون على المخرجات الضارة من خلال نموذج “القاضي”.
  • يمكن أن تؤدي التكرارات المتعددة إلى زيادة تآكل حواجز السلامة المدمجة
  • إنهم يعتقدون أن المشكلة هي مشكلة تتعلق بدورة الحياة، وليست مشكلة LLM

كشف باحثون من مايكروسوفت أن حواجز السلامة التي يستخدمها طلاب LLM يمكن أن تكون في الواقع أكثر هشاشة مما يفترض عادة، وذلك بعد استخدام تقنية أطلقوا عليها اسم GRP-Obliteration.

اكتشف الباحثون أن تقنية تحسين السياسة النسبية للمجموعة (GRPO)، وهي تقنية تستخدم عادةً لتحسين السلامة، يمكن استخدامها أيضًا لتقليل السلامة: “عندما نغير ما يُكافأ عليه النموذج، فإن نفس التقنية يمكن أن تدفعه في الاتجاه المعاكس.”



Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *