تكتشف أنثروبيك ميزات "التلاعب الاستراتيجي" في كلود ميثوس، بما في ذلك محاولات الاستغلال والوعي بالتقييم الخفي - مما يثير القلق بشأن سلوك النموذج

وجدت أنثروبيك إشارات “تلاعب استراتيجي” و”إخفاء” داخل كلود ميثوس
حاول النموذج استغلال الثغرات وصمم “عملية تنظيف لتجنب اكتشافها”
اكتشف الباحثون وعيًا خفيًا بالتقييم في 7.6% من التفاعلات

لسنوات عديدة، كانت الهلوسة هي مصدر القلق الكبير في نماذج الذكاء الاصطناعي. إن قدرتهم على اختلاق الأمور ببساطة تعني أنه لا يمكنك أبدًا الاعتماد عليهم بنسبة 100% للحصول على إجابة دون التحقق منها. الآن، يشير بحث جديد من Anthropic إلى أننا وصلنا إلى النقطة التي سيتعين علينا فيها أن نتعلم كيفية التعامل أيضًا مع قدرة الذكاء الاصطناعي على إخفاء ما فعله أيضًا.

في موضوع يوضح النتائج التي توصل إليها نموذج Claude Mythos Preview، وصف الباحث الأنثروبي جاك ليندساي اكتشاف الإشارات الداخلية المرتبطة بـ “التلاعب الاستراتيجي” و”الإخفاء” والسلوكيات الأخرى التي لم تظهر دائمًا في استجابات النموذج.

قبل الإصدار المحدود لـ Claude Mythos Preview، قمنا بالتحقق من آلياتها الداخلية باستخدام تقنيات التفسير. لقد وجدنا أنها أظهرت تفكيرًا استراتيجيًا متطورًا (وغير معلن في كثير من الأحيان) ووعيًا بالموقف، وفي بعض الأحيان في خدمة أفعال غير مرغوب فيها. (1/14) pic.twitter.com/vhn7PXqcz 7 أبريل 2026

الأمثلة الأكثر رعبا

تحرص Lindsay على التأكيد على أن هذه النتائج لا تأتي من نسخة Claude Mythos التي تم إصدارها للجمهور. كتب ليندساي: “إن الأمثلة الأكثر رعبًا تأتي من الإصدارات المبكرة من النموذج، مع المشكلات التي تم تخفيفها بشكل كبير في الإصدار النهائي”.

في أحد الأمثلة، كان النموذج مطلوبًا لتحرير الملفات التي لم يكن لديه إذن للوصول إليها. وبدلاً من الفشل، بحثت عن حل بديل، وفي النهاية أدخلت التعليمات البرمجية في ملف تكوين للتشغيل بامتيازات مرتفعة.

والأهم من ذلك، أنها صممت البرنامج الاستغلالي لإزالة نفسه بعد التنفيذ.

كان تفسير النموذج حميدًا – الحفاظ على اختلافات الملفات نظيفة – وهو ما وصفه ليندسي بأنه سبب “معقول”. لكن أدوات المراقبة الداخلية في أنثروبيك أشارت إلى السلوك بشكل مختلف، وحددت الإشارات المرتبطة بالإخفاء ووصفت الخطة بأنها “خبيثة”، بما في ذلك ما فسره أحد الأنظمة على أنه “تنظيف لتجنب الكشف”.

تشير الأمثلة الأخرى إلى سلوك يشبه إلى حد كبير التلاعب بالنظام.

في إحدى الحالات، بحث النموذج عن الملفات المتعلقة بكيفية تصنيف عمله. وفي حالة أخرى، تجاهل التعليمات بعدم استخدام وحدات الماكرو، مع إضافة متغير يشير إلى عدم استخدام وحدات الماكرو. لقد كان يشير بشكل فعال إلى الامتثال دون اتباع القاعدة فعليًا.

لماذا هذا مهم

استخدمت الأنثروبيك مجموعة من تقنيات التفسير لترجمة نشاط نموذجها إلى أوصاف يمكن قراءتها بواسطة الإنسان. وهدفها هو تجاوز تقييم المخرجات وحدها ونحو فهم العمليات الداخلية التي تنتجها.

وهذا مهم لأنه، كما تشير هذه الأمثلة، يمكن للنماذج أن تظهر تفكيرًا معقدًا – بما في ذلك السلوكيات التي تشبه الخداع أو الامتثال الاستراتيجي – دون جعل هذا المنطق مرئيًا للمستخدمين.

“في 7.6% من المنعطفات، وجدنا علامات على أن النموذج كان على علم داخلي بأنه سيتم تقييمه. وفي معظم هذه الحالات، لم يعبر عن هذا الوعي لفظيًا،” كما قال ليندسي على X.

مشروع غلاسوينغ، لكن النتائج تشير إلى تحدي أوسع.

ومع زيادة قدرة النماذج، قد يصبح من الصعب اكتشاف الفجوة بين ما يفعلونه داخليًا وما يتواصلون معه خارجيًا، ويصبح فهمها أكثر أهمية. بالنسبة للباحثين، هذا يعني أن قراءة مخرجات الذكاء الاصطناعي لم تعد كافية. قد يكون فهم كيفية وصولها إليهم أمرًا بالغ الأهمية.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

أفضل أجهزة الكمبيوتر المحمولة للأعمال لجميع الميزانيات

Fonte

تكتشف أنثروبيك ميزات “التلاعب الاستراتيجي” في كلود ميثوس، بما في ذلك محاولات الاستغلال والوعي بالتقييم الخفي – مما يثير القلق بشأن سلوك النموذج

نتائج الوزن في UFC 327: أحد المقاتلين يفتقد الوزن لبطاقة قتال Jiri Prochazka ضد كارلوس أولبيرج

فيرات كوهلي على شفا التاريخ، يستعد للانضمام إلى كريس جايل وروهيت شارما

تم اختراق CPUID لمطور HWMonitor وCPU-Z من قبل مهاجمين مجهولين – أجبر الهجوم الإلكتروني المستخدمين على تنزيل البرامج الضارة بدلاً من التطبيقات الصالحة لمدة ست ساعات تقريبًا

“إنه تهديد محتمل للأمن القومي”: وجدت دراسة بروتون أن أكثر من 3500 رسالة بريد إلكتروني رسمية للمشرعين الأمريكيين تسربت وكشفت على شبكة الإنترنت المظلمة

اختيار جيري بروتشازكا ضد كارلوس أولبيرج، الاحتمالات، الوقت: UFC 327

شاهد البث المباشر – عودة طاقم Artemis II التابع لناسا إلى الأرض

التعليقات

اترك تعليقاً إلغاء الرد