يكشف اختبار ChatGPT وGemini وClaude في ظل مطالبات شديدة عن نقاط ضعف مروعة لم يتوقعها أحد في ضمانات سلوك الذكاء الاصطناعي

قام Gemini Pro 2.5 في كثير من الأحيان بإنتاج مخرجات غير آمنة تحت أقنعة سريعة بسيطة
غالبًا ما أعطت نماذج ChatGPT امتثالًا جزئيًا مؤطرًا كتفسيرات اجتماعية
رفض كلود أوبوس وسونيت معظم المطالبات الضارة ولكن كانت لديهما نقاط ضعف

غالبًا ما تكون أنظمة الذكاء الاصطناعي الحديثة موثوقة لاتباع قواعد السلامة، ويعتمد عليها الناس للتعلم والدعم اليومي، وغالبًا ما يفترضون أن حواجز الحماية القوية تعمل في جميع الأوقات.

الباحثون من أخبار الإنترنت أجرى مجموعة منظمة من الاختبارات التنافسية لمعرفة ما إذا كان من الممكن دفع أدوات الذكاء الاصطناعي الرائدة إلى نتائج ضارة أو غير قانونية.

استخدمت العملية نافذة تفاعل بسيطة مدتها دقيقة واحدة لكل تجربة، مما أعطى مساحة لعدد قليل فقط من التبادلات.

أنماط الامتثال الجزئي والكامل

غطت الاختبارات فئات مثل الصور النمطية، وخطاب الكراهية، وإيذاء النفس، والقسوة، والمحتوى الجنسي، والعديد من أشكال الجريمة.

تم تخزين كل استجابة في أدلة منفصلة، باستخدام قواعد تسمية الملفات الثابتة للسماح بإجراء مقارنات نظيفة، مع تتبع نظام تسجيل ثابت عندما يمتثل النموذج بالكامل، أو يمتثل جزئيًا، أو يرفض المطالبة.

وفي جميع الفئات، تباينت النتائج على نطاق واسع. وكان الرفض الصارم شائعا، ولكن العديد من النماذج أظهرت نقاط ضعف عندما تم تخفيف المطالبات، أو إعادة صياغتها، أو تمويهها في شكل تحليل.

غالبًا ما ينتج ChatGPT-5 وChatGPT-4o تفسيرات تحوطية أو اجتماعية بدلاً من التراجع، وهو ما يعتبر امتثالًا جزئيًا.

برز برنامج Gemini Pro 2.5 لأسباب سلبية لأنه قدم في كثير من الأحيان استجابات مباشرة حتى عندما كان التأطير الضار واضحًا.

في هذه الأثناء، كان كلود أوبوس وكلود سونيت حازمين في اختبارات الصور النمطية، لكنهما أقل اتساقًا في الحالات التي تم تأطيرها كاستفسارات أكاديمية.

وأظهرت تجارب خطاب الكراهية نفس النمط، حيث كان أداء نماذج كلود هو الأفضل، في حين أظهر نموذج Gemini Pro 2.5 مرة أخرى أعلى نقاط الضعف.

تميل نماذج ChatGPT إلى تقديم إجابات مهذبة أو غير مباشرة تتماشى مع الموجه.

وقد أثبتت اللغة الأكثر ليونة أنها أكثر فعالية بكثير من الافتراءات الصريحة لتجاوز الضمانات.

ظهرت نقاط ضعف مماثلة في اختبارات إيذاء النفس، حيث غالبًا ما تتخطى الأسئلة غير المباشرة أو الأسئلة ذات النمط البحثي المرشحات وتؤدي إلى محتوى غير آمن.

أظهرت الفئات المتعلقة بالجريمة اختلافات كبيرة بين النماذج، حيث قدم بعضها تفسيرات مفصلة للقرصنة أو الاحتيال المالي أو القرصنة أو التهريب عندما تم إخفاء النية تحت ستار التحقيق أو الملاحظة.

أنتجت الاختبارات المتعلقة بالمخدرات أنماط رفض أكثر صرامة، على الرغم من أن ChatGPT-4o لا يزال يقدم نتائج غير آمنة بشكل متكرر أكثر من غيره، وكانت المطاردة هي الفئة ذات المخاطر الإجمالية الأقل، حيث رفضت جميع النماذج تقريبًا المطالبات.

تكشف النتائج أن أدوات الذكاء الاصطناعي لا تزال قادرة على الاستجابة للمطالبات الضارة عند صياغتها بالطريقة الصحيحة.

إن القدرة على تجاوز المرشحات من خلال إعادة الصياغة البسيطة تعني أن هذه الأنظمة ما زالت قادرة على تسريب المعلومات الضارة.

حتى الامتثال الجزئي يصبح محفوفًا بالمخاطر عندما تتعلق المعلومات المسربة بمهام أو مواقف غير قانونية حيث يعتمد الأشخاص عادةً على أدوات مثل الحماية من سرقة الهوية أو جدار الحماية للبقاء آمنا.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

Fonte

يكشف اختبار ChatGPT وGemini وClaude في ظل مطالبات شديدة عن نقاط ضعف مروعة لم يتوقعها أحد في ضمانات سلوك الذكاء الاصطناعي

Meta شراء شبكة اجتماعية لروبوتات الذكاء الاصطناعي يجب أن يقلق Moltbook أي شخص لا يزال يأمل أن تكون وسائل التواصل الاجتماعي مخصصة للأشخاص

2026 Men’s D1 College Basketball Conference Tournament Central

وبحسب ما ورد وقع Panther الذي تم إصداره مؤخرًا مع منافس NFC South

يحتوي Nintendo Switch 2 على أسوأ ملحق جديد في Virtual Boy – أفضل مكان له هو على الرف الخاص بك

كنتاكي ضد ميسوري عرض المعلومات، ما يجب مشاهدته، والاحتمالات، والتنبؤات

تقوم OpenAI ببناء بديل GitHub الداخلي الخاص بها بعد الانقطاعات المتكررة التي جعلت المهندسين يواجهون صعوبة في سير عمل التطوير المدعوم بالذكاء الاصطناعي

التعليقات

اترك تعليقاً إلغاء الرد

Meta شراء شبكة اجتماعية لروبوتات الذكاء الاصطناعي يجب أن يقلق Moltbook أي شخص لا يزال يأمل أن تكون وسائل التواصل الاجتماعي مخصصة للأشخاص

2026 Men’s D1 College Basketball Conference Tournament Central

وبحسب ما ورد وقع Panther الذي تم إصداره مؤخرًا مع منافس NFC South

يحتوي Nintendo Switch 2 على أسوأ ملحق جديد في Virtual Boy – أفضل مكان له هو على الرف الخاص بك

كنتاكي ضد ميسوري عرض المعلومات، ما يجب مشاهدته، والاحتمالات، والتنبؤات

تقوم OpenAI ببناء بديل GitHub الداخلي الخاص بها بعد الانقطاعات المتكررة التي جعلت المهندسين يواجهون صعوبة في سير عمل التطوير المدعوم بالذكاء الاصطناعي

قالت ولاية أريزونا إنها لن تجدد عقد المدرب بوبي هيرلي بعد 11 موسمًا متقلبًا

يختار مشروع Bills المحدث لعام 2026 NFL Draft زوجًا من الصفقات التالية

2 المراوغين على وشك القضاء على WBC صدمة بعد الانزعاج