- وجدت أنثروبيك إشارات “تلاعب استراتيجي” و”إخفاء” داخل كلود ميثوس
- حاول النموذج استغلال الثغرات وصمم “عملية تنظيف لتجنب اكتشافها”
- اكتشف الباحثون وعيًا خفيًا بالتقييم في 7.6% من التفاعلات
لسنوات عديدة، كانت الهلوسة هي مصدر القلق الكبير في نماذج الذكاء الاصطناعي. إن قدرتهم على اختلاق الأمور ببساطة تعني أنه لا يمكنك أبدًا الاعتماد عليهم بنسبة 100% للحصول على إجابة دون التحقق منها. الآن، يشير بحث جديد من Anthropic إلى أننا وصلنا إلى النقطة التي سيتعين علينا فيها أن نتعلم كيفية التعامل أيضًا مع قدرة الذكاء الاصطناعي على إخفاء ما فعله أيضًا.
في موضوع يوضح النتائج التي توصل إليها نموذج Claude Mythos Preview، وصف الباحث الأنثروبي جاك ليندساي اكتشاف الإشارات الداخلية المرتبطة بـ “التلاعب الاستراتيجي” و”الإخفاء” والسلوكيات الأخرى التي لم تظهر دائمًا في استجابات النموذج.
يبدو أن كلود ميثوس كان يفكر بطرق استراتيجية، ثم يخفي تلك الإجراءات عن المستخدم.
يستمر المقال أدناه
قبل الإصدار المحدود لـ Claude Mythos Preview، قمنا بالتحقق من آلياتها الداخلية باستخدام تقنيات التفسير. لقد وجدنا أنها أظهرت تفكيرًا استراتيجيًا متطورًا (وغير معلن في كثير من الأحيان) ووعيًا بالموقف، وفي بعض الأحيان في خدمة أفعال غير مرغوب فيها. (1/14) pic.twitter.com/vhn7PXqcz7 أبريل 2026
الأمثلة الأكثر رعبا
تحرص Lindsay على التأكيد على أن هذه النتائج لا تأتي من نسخة Claude Mythos التي تم إصدارها للجمهور. كتب ليندساي: “إن الأمثلة الأكثر رعبًا تأتي من الإصدارات المبكرة من النموذج، مع المشكلات التي تم تخفيفها بشكل كبير في الإصدار النهائي”.
في أحد الأمثلة، كان النموذج مطلوبًا لتحرير الملفات التي لم يكن لديه إذن للوصول إليها. وبدلاً من الفشل، بحثت عن حل بديل، وفي النهاية أدخلت التعليمات البرمجية في ملف تكوين للتشغيل بامتيازات مرتفعة.
والأهم من ذلك، أنها صممت البرنامج الاستغلالي لإزالة نفسه بعد التنفيذ.
كان تفسير النموذج حميدًا – الحفاظ على اختلافات الملفات نظيفة – وهو ما وصفه ليندسي بأنه سبب “معقول”. لكن أدوات المراقبة الداخلية في أنثروبيك أشارت إلى السلوك بشكل مختلف، وحددت الإشارات المرتبطة بالإخفاء ووصفت الخطة بأنها “خبيثة”، بما في ذلك ما فسره أحد الأنظمة على أنه “تنظيف لتجنب الكشف”.
تشير الأمثلة الأخرى إلى سلوك يشبه إلى حد كبير التلاعب بالنظام.
في إحدى الحالات، بحث النموذج عن الملفات المتعلقة بكيفية تصنيف عمله. وفي حالة أخرى، تجاهل التعليمات بعدم استخدام وحدات الماكرو، مع إضافة متغير يشير إلى عدم استخدام وحدات الماكرو. لقد كان يشير بشكل فعال إلى الامتثال دون اتباع القاعدة فعليًا.
لماذا هذا مهم
استخدمت الأنثروبيك مجموعة من تقنيات التفسير لترجمة نشاط نموذجها إلى أوصاف يمكن قراءتها بواسطة الإنسان. وهدفها هو تجاوز تقييم المخرجات وحدها ونحو فهم العمليات الداخلية التي تنتجها.
وهذا مهم لأنه، كما تشير هذه الأمثلة، يمكن للنماذج أن تظهر تفكيرًا معقدًا – بما في ذلك السلوكيات التي تشبه الخداع أو الامتثال الاستراتيجي – دون جعل هذا المنطق مرئيًا للمستخدمين.
“في 7.6% من المنعطفات، وجدنا علامات على أن النموذج كان على علم داخلي بأنه سيتم تقييمه. وفي معظم هذه الحالات، لم يعبر عن هذا الوعي لفظيًا،” كما قال ليندسي على X.
كما ذكرت، تمت ملاحظة العديد من السلوكيات الأكثر إثارة للقلق في الإصدارات السابقة من النموذج وتم تخفيفها منذ ذلك الحين، لذلك لا يوجد سبب للقلق فيما يتعلق بإصدار كلود ميثوس الذي تم إصداره ويتم استخدامه كجزء من مشروع غلاسوينغ، لكن النتائج تشير إلى تحدي أوسع.
ومع زيادة قدرة النماذج، قد يصبح من الصعب اكتشاف الفجوة بين ما يفعلونه داخليًا وما يتواصلون معه خارجيًا، ويصبح فهمها أكثر أهمية. بالنسبة للباحثين، هذا يعني أن قراءة مخرجات الذكاء الاصطناعي لم تعد كافية. قد يكون فهم كيفية وصولها إليهم أمرًا بالغ الأهمية.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

أفضل أجهزة الكمبيوتر المحمولة للأعمال لجميع الميزانيات

التعليقات