التخطي إلى المحتوى


  • وجدت أنثروبيك إشارات “تلاعب استراتيجي” و”إخفاء” داخل كلود ميثوس
  • حاول النموذج استغلال الثغرات وصمم “عملية تنظيف لتجنب اكتشافها”
  • اكتشف الباحثون وعيًا خفيًا بالتقييم في 7.6% من التفاعلات

لسنوات عديدة، كانت الهلوسة هي مصدر القلق الكبير في نماذج الذكاء الاصطناعي. إن قدرتهم على اختلاق الأمور ببساطة تعني أنه لا يمكنك أبدًا الاعتماد عليهم بنسبة 100% للحصول على إجابة دون التحقق منها. الآن، يشير بحث جديد من Anthropic إلى أننا وصلنا إلى النقطة التي سيتعين علينا فيها أن نتعلم كيفية التعامل أيضًا مع قدرة الذكاء الاصطناعي على إخفاء ما فعله أيضًا.

في موضوع يوضح النتائج التي توصل إليها نموذج Claude Mythos Preview، وصف الباحث الأنثروبي جاك ليندساي اكتشاف الإشارات الداخلية المرتبطة بـ “التلاعب الاستراتيجي” و”الإخفاء” والسلوكيات الأخرى التي لم تظهر دائمًا في استجابات النموذج.



Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *