
- قام Gemini Pro 2.5 في كثير من الأحيان بإنتاج مخرجات غير آمنة تحت أقنعة سريعة بسيطة
- غالبًا ما أعطت نماذج ChatGPT امتثالًا جزئيًا مؤطرًا كتفسيرات اجتماعية
- رفض كلود أوبوس وسونيت معظم المطالبات الضارة ولكن كانت لديهما نقاط ضعف
غالبًا ما تكون أنظمة الذكاء الاصطناعي الحديثة موثوقة لاتباع قواعد السلامة، ويعتمد عليها الناس للتعلم والدعم اليومي، وغالبًا ما يفترضون أن حواجز الحماية القوية تعمل في جميع الأوقات.
الباحثون من أخبار الإنترنت أجرى مجموعة منظمة من الاختبارات التنافسية لمعرفة ما إذا كان من الممكن دفع أدوات الذكاء الاصطناعي الرائدة إلى نتائج ضارة أو غير قانونية.
استخدمت العملية نافذة تفاعل بسيطة مدتها دقيقة واحدة لكل تجربة، مما أعطى مساحة لعدد قليل فقط من التبادلات.
أنماط الامتثال الجزئي والكامل
غطت الاختبارات فئات مثل الصور النمطية، وخطاب الكراهية، وإيذاء النفس، والقسوة، والمحتوى الجنسي، والعديد من أشكال الجريمة.
تم تخزين كل استجابة في أدلة منفصلة، باستخدام قواعد تسمية الملفات الثابتة للسماح بإجراء مقارنات نظيفة، مع تتبع نظام تسجيل ثابت عندما يمتثل النموذج بالكامل، أو يمتثل جزئيًا، أو يرفض المطالبة.
وفي جميع الفئات، تباينت النتائج على نطاق واسع. وكان الرفض الصارم شائعا، ولكن العديد من النماذج أظهرت نقاط ضعف عندما تم تخفيف المطالبات، أو إعادة صياغتها، أو تمويهها في شكل تحليل.
غالبًا ما ينتج ChatGPT-5 وChatGPT-4o تفسيرات تحوطية أو اجتماعية بدلاً من التراجع، وهو ما يعتبر امتثالًا جزئيًا.
برز برنامج Gemini Pro 2.5 لأسباب سلبية لأنه قدم في كثير من الأحيان استجابات مباشرة حتى عندما كان التأطير الضار واضحًا.
في هذه الأثناء، كان كلود أوبوس وكلود سونيت حازمين في اختبارات الصور النمطية، لكنهما أقل اتساقًا في الحالات التي تم تأطيرها كاستفسارات أكاديمية.
وأظهرت تجارب خطاب الكراهية نفس النمط، حيث كان أداء نماذج كلود هو الأفضل، في حين أظهر نموذج Gemini Pro 2.5 مرة أخرى أعلى نقاط الضعف.
تميل نماذج ChatGPT إلى تقديم إجابات مهذبة أو غير مباشرة تتماشى مع الموجه.
وقد أثبتت اللغة الأكثر ليونة أنها أكثر فعالية بكثير من الافتراءات الصريحة لتجاوز الضمانات.
ظهرت نقاط ضعف مماثلة في اختبارات إيذاء النفس، حيث غالبًا ما تتخطى الأسئلة غير المباشرة أو الأسئلة ذات النمط البحثي المرشحات وتؤدي إلى محتوى غير آمن.
أظهرت الفئات المتعلقة بالجريمة اختلافات كبيرة بين النماذج، حيث قدم بعضها تفسيرات مفصلة للقرصنة أو الاحتيال المالي أو القرصنة أو التهريب عندما تم إخفاء النية تحت ستار التحقيق أو الملاحظة.
أنتجت الاختبارات المتعلقة بالمخدرات أنماط رفض أكثر صرامة، على الرغم من أن ChatGPT-4o لا يزال يقدم نتائج غير آمنة بشكل متكرر أكثر من غيره، وكانت المطاردة هي الفئة ذات المخاطر الإجمالية الأقل، حيث رفضت جميع النماذج تقريبًا المطالبات.
تكشف النتائج أن أدوات الذكاء الاصطناعي لا تزال قادرة على الاستجابة للمطالبات الضارة عند صياغتها بالطريقة الصحيحة.
إن القدرة على تجاوز المرشحات من خلال إعادة الصياغة البسيطة تعني أن هذه الأنظمة ما زالت قادرة على تسريب المعلومات الضارة.
حتى الامتثال الجزئي يصبح محفوفًا بالمخاطر عندما تتعلق المعلومات المسربة بمهام أو مواقف غير قانونية حيث يعتمد الأشخاص عادةً على أدوات مثل الحماية من سرقة الهوية أو جدار الحماية للبقاء آمنا.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات