تكتشف أنثروبيك ميزات "التلاعب الاستراتيجي" في كلود ميثوس، بما في ذلك محاولات الاستغلال والوعي بالتقييم الخفي - مما يثير القلق بشأن سلوك النموذج

وجدت أنثروبيك إشارات “تلاعب استراتيجي” و”إخفاء” داخل كلود ميثوس
حاول النموذج استغلال الثغرات وصمم “عملية تنظيف لتجنب اكتشافها”
اكتشف الباحثون وعيًا خفيًا بالتقييم في 7.6% من التفاعلات

لسنوات عديدة، كانت الهلوسة هي مصدر القلق الكبير في نماذج الذكاء الاصطناعي. إن قدرتهم على اختلاق الأمور ببساطة تعني أنه لا يمكنك أبدًا الاعتماد عليهم بنسبة 100% للحصول على إجابة دون التحقق منها. الآن، يشير بحث جديد من Anthropic إلى أننا وصلنا إلى النقطة التي سيتعين علينا فيها أن نتعلم كيفية التعامل أيضًا مع قدرة الذكاء الاصطناعي على إخفاء ما فعله أيضًا.

في موضوع يوضح النتائج التي توصل إليها نموذج Claude Mythos Preview، وصف الباحث الأنثروبي جاك ليندساي اكتشاف الإشارات الداخلية المرتبطة بـ “التلاعب الاستراتيجي” و”الإخفاء” والسلوكيات الأخرى التي لم تظهر دائمًا في استجابات النموذج.

قبل الإصدار المحدود لـ Claude Mythos Preview، قمنا بالتحقق من آلياتها الداخلية باستخدام تقنيات التفسير. لقد وجدنا أنها أظهرت تفكيرًا استراتيجيًا متطورًا (وغير معلن في كثير من الأحيان) ووعيًا بالموقف، وفي بعض الأحيان في خدمة أفعال غير مرغوب فيها. (1/14) pic.twitter.com/vhn7PXqcz 7 أبريل 2026

الأمثلة الأكثر رعبا

تحرص Lindsay على التأكيد على أن هذه النتائج لا تأتي من نسخة Claude Mythos التي تم إصدارها للجمهور. كتب ليندساي: “إن الأمثلة الأكثر رعبًا تأتي من الإصدارات المبكرة من النموذج، مع المشكلات التي تم تخفيفها بشكل كبير في الإصدار النهائي”.

في أحد الأمثلة، كان النموذج مطلوبًا لتحرير الملفات التي لم يكن لديه إذن للوصول إليها. وبدلاً من الفشل، بحثت عن حل بديل، وفي النهاية أدخلت التعليمات البرمجية في ملف تكوين للتشغيل بامتيازات مرتفعة.

والأهم من ذلك، أنها صممت البرنامج الاستغلالي لإزالة نفسه بعد التنفيذ.

كان تفسير النموذج حميدًا – الحفاظ على اختلافات الملفات نظيفة – وهو ما وصفه ليندسي بأنه سبب “معقول”. لكن أدوات المراقبة الداخلية في أنثروبيك أشارت إلى السلوك بشكل مختلف، وحددت الإشارات المرتبطة بالإخفاء ووصفت الخطة بأنها “خبيثة”، بما في ذلك ما فسره أحد الأنظمة على أنه “تنظيف لتجنب الكشف”.

تشير الأمثلة الأخرى إلى سلوك يشبه إلى حد كبير التلاعب بالنظام.

في إحدى الحالات، بحث النموذج عن الملفات المتعلقة بكيفية تصنيف عمله. وفي حالة أخرى، تجاهل التعليمات بعدم استخدام وحدات الماكرو، مع إضافة متغير يشير إلى عدم استخدام وحدات الماكرو. لقد كان يشير بشكل فعال إلى الامتثال دون اتباع القاعدة فعليًا.

لماذا هذا مهم

استخدمت الأنثروبيك مجموعة من تقنيات التفسير لترجمة نشاط نموذجها إلى أوصاف يمكن قراءتها بواسطة الإنسان. وهدفها هو تجاوز تقييم المخرجات وحدها ونحو فهم العمليات الداخلية التي تنتجها.

وهذا مهم لأنه، كما تشير هذه الأمثلة، يمكن للنماذج أن تظهر تفكيرًا معقدًا – بما في ذلك السلوكيات التي تشبه الخداع أو الامتثال الاستراتيجي – دون جعل هذا المنطق مرئيًا للمستخدمين.

“في 7.6% من المنعطفات، وجدنا علامات على أن النموذج كان على علم داخلي بأنه سيتم تقييمه. وفي معظم هذه الحالات، لم يعبر عن هذا الوعي لفظيًا،” كما قال ليندسي على X.

مشروع غلاسوينغ، لكن النتائج تشير إلى تحدي أوسع.

ومع زيادة قدرة النماذج، قد يصبح من الصعب اكتشاف الفجوة بين ما يفعلونه داخليًا وما يتواصلون معه خارجيًا، ويصبح فهمها أكثر أهمية. بالنسبة للباحثين، هذا يعني أن قراءة مخرجات الذكاء الاصطناعي لم تعد كافية. قد يكون فهم كيفية وصولها إليهم أمرًا بالغ الأهمية.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

أفضل أجهزة الكمبيوتر المحمولة للأعمال لجميع الميزانيات

Fonte

تكتشف أنثروبيك ميزات “التلاعب الاستراتيجي” في كلود ميثوس، بما في ذلك محاولات الاستغلال والوعي بالتقييم الخفي – مما يثير القلق بشأن سلوك النموذج

بعد الارتفاع بنسبة 2200%، انخفضت أسعار ذاكرة الوصول العشوائي DDR4 أخيرًا – ولكن لا تتحمس كثيرًا

معدات الكاميرا Artemis 2 التابعة لناسا: ما الذي يستخدمونه وأين يمكنك شرائه

“إل إس جي احتاجه للبقاء حتى النهاية”: محمد كايف يريد من ريشاب بانت أن “يتحمل المسؤولية”

يطرح Google Chrome أداة جديدة لمحاولة إيقاف البرامج الضارة التي تسرق المعلومات في مساراتها

ما وراء عدم وجود سجل: يبحث Tor في الخوادم المقاومة للمصادرة والتي تنسى بياناتك

لماذا اضطررنا إلى الانتظار طويلاً لموسم جديد من “Euphoria”

التعليقات

اترك تعليقاً إلغاء الرد

بعد الارتفاع بنسبة 2200%، انخفضت أسعار ذاكرة الوصول العشوائي DDR4 أخيرًا – ولكن لا تتحمس كثيرًا

معدات الكاميرا Artemis 2 التابعة لناسا: ما الذي يستخدمونه وأين يمكنك شرائه

“إل إس جي احتاجه للبقاء حتى النهاية”: محمد كايف يريد من ريشاب بانت أن “يتحمل المسؤولية”

يطرح Google Chrome أداة جديدة لمحاولة إيقاف البرامج الضارة التي تسرق المعلومات في مساراتها

ما وراء عدم وجود سجل: يبحث Tor في الخوادم المقاومة للمصادرة والتي تنسى بياناتك

لماذا اضطررنا إلى الانتظار طويلاً لموسم جديد من “Euphoria”

فيكتور ويمبانياما، ستيفون كاسل يتصدر تقرير إصابة توتنهام ضد مافريكس

هناك طريقة مخادعة لمشاهدة IPL 2026 مجانًا

يحصل Gmail للجوال على تشفير شامل لحماية رسائل البريد الإلكتروني الخاصة بك من التطفل

“تصادم اثنان من الجحيم” — Doom: The Dark Ages وDiablo Immortal يتحدان في حدث متقاطع محدود الوقت، The Slayer Reign، هذا الشهر