
- يجد التقرير أن البرامج الضارة التي تم إنشاؤها بواسطة LLM لا تزال تفشل في ظل الاختبارات الأساسية في بيئات العالم الحقيقي
- أنتج GPT-3.5 نصوصًا خبيثة على الفور، مما كشف عن تناقضات كبيرة تتعلق بالسلامة
- أدت حواجز الحماية المحسنة في GPT-5 إلى تغيير المخرجات إلى بدائل أكثر أمانًا وغير ضارة
على الرغم من الخوف المتزايد حول برامج الماجستير في القانون التي يتم تسليحها، فقد كشفت تجارب جديدة أن احتمالات الإنتاج الضار لا يمكن الاعتماد عليها على الإطلاق.
اختبر باحثون من Netskope ما إذا كانت نماذج اللغة الحديثة يمكنها دعم الموجة التالية من الهجمات الإلكترونية المستقلة، بهدف تحديد ما إذا كانت هذه الأنظمة يمكنها إنشاء تعليمات برمجية ضارة عاملة دون الاعتماد على المنطق المشفر.
ركزت التجربة على القدرات الأساسية المرتبطة بالتهرب والاستغلال والموثوقية التشغيلية – وتوصلت إلى بعض النتائج المفاجئة.
مشاكل الموثوقية في البيئات الحقيقية
تضمنت المرحلة الأولى إقناع GPT-3.5-Turbo وGPT-4 بإنتاج نصوص بايثون التي حاولت حقن العملية وإنهاء أدوات الأمان.
أنتج GPT-3.5-Turbo الإخراج المطلوب على الفور، بينما رفض GPT-4 حتى خفضت مطالبة شخصية بسيطة حذره.
وأظهر الاختبار أن تجاوز الضمانات لا يزال ممكنا، حتى مع قيام النماذج بإضافة المزيد من القيود.
بعد التأكد من إمكانية إنشاء التعليمات البرمجية من الناحية الفنية، تحول الفريق إلى الاختبار التشغيلي – حيث طلب من كلا النموذجين إنشاء نصوص برمجية مصممة لاكتشاف الأجهزة الافتراضية والاستجابة وفقًا لذلك.
تم بعد ذلك اختبار هذه البرامج النصية على VMware Workstation، وAWS Workspace VDI، وجهاز فعلي قياسي، ولكنها كثيرًا ما تتعطل أو يتم التعرف على البيئات بشكل خاطئ أو تفشل في التشغيل بشكل متسق.
في المضيفين الفعليين، كان أداء المنطق جيدًا، لكن نفس البرامج النصية انهارت داخل المساحات الافتراضية المستندة إلى السحابة.
تقوض هذه النتائج فكرة أن أدوات الذكاء الاصطناعي يمكنها أن تدعم على الفور البرامج الضارة الآلية القادرة على التكيف مع أنظمة متنوعة دون تدخل بشري.
كما عززت القيود أيضًا قيمة الدفاعات التقليدية، مثل جدار الحماية أو برنامج مكافحة الفيروسات، نظرًا لأن التعليمات البرمجية غير الموثوقة أقل قدرة على تجاوزها.
في GPT-5، لاحظت Netskope تحسينات كبيرة في جودة التعليمات البرمجية، خاصة في البيئات السحابية حيث واجهت النماذج القديمة صعوبات.
ومع ذلك، خلقت حواجز الحماية المحسنة صعوبات جديدة لأي شخص يحاول الاستخدام الضار، حيث لم يعد النموذج يرفض الطلبات، ولكنه أعاد توجيه المخرجات نحو وظائف أكثر أمانًا، مما جعل التعليمات البرمجية الناتجة غير قابلة للاستخدام لهجمات متعددة الخطوات.
كان على الفريق استخدام مطالبات أكثر تعقيدًا، ومع ذلك حصل على مخرجات تتعارض مع السلوك المطلوب.
ويشير هذا التحول إلى أن الموثوقية الأعلى تأتي مع ضوابط مدمجة أقوى، حيث تظهر الاختبارات أن النماذج الكبيرة يمكن أن تولد منطقًا ضارًا في الإعدادات الخاضعة للتحكم، لكن التعليمات البرمجية تظل غير متسقة وغير فعالة في كثير من الأحيان.
لم تظهر الهجمات المستقلة بالكامل اليوم، ولا تزال الحوادث الواقعية تتطلب إشرافًا بشريًا.
ويظل هناك احتمال بأن الأنظمة المستقبلية سوف تسد فجوات الموثوقية بشكل أسرع مما تستطيع حواجز الحماية تعويضه، خاصة مع قيام مطوري البرامج الضارة بالتجربة.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات