
- يجد التقرير أن مساعدي البرمجة بالذكاء الاصطناعي يفشلون بانتظام في واحدة من كل أربع مهام مخرجات منظمة
- حتى النماذج المتقدمة الخاصة تصل إلى دقة تبلغ حوالي 75% فقط
- تعمل نماذج الذكاء الاصطناعي مفتوحة المصدر بشكل أسوأ، حيث يصل متوسط موثوقيتها إلى 65%
واجه الوعد بالذكاء الاصطناعي كمساعد ترميز لا يكل عقبة كبيرة بعد أن ادعى بحث جديد أن مثل هذه الأدوات يمكن أن تواجه مجموعة من المشكلات.
وجدت دراسة حديثة من جامعة واترلو أن الذكاء الاصطناعي يواجه صعوبات في تطوير البرمجيات، حتى أن النماذج الأكثر تقدمًا تفشل في واحدة من كل أربع مهام مخرجات منظمة.
قام البحث بتقييم 11 نموذجًا لغويًا كبيرًا عبر 18 تنسيقًا منظمًا مختلفًا و44 مهمة لاختبار مدى قدرة الأنظمة على اتباع قواعد محددة مسبقًا، وإيجاد تباين واضح بين الأداء في المهام المستندة إلى النص والمخرجات التي تتضمن وسائط متعددة أو هياكل معقدة.
يستمر المقال أدناه
تكشف المقارنة المعيارية عن فجوة موثوقية مثيرة للقلق
في حين تم التعامل مع المهام المتعلقة بالنص بشكل عام بنجاح معتدل، إلا أن المهام التي تتطلب إنشاء صور أو فيديو أو موقع ويب كانت أكثر إشكالية بكثير.
انخفضت الدقة في هذه المجالات بشكل حاد، مما أثار تساؤلات حول كيفية دمج أدوات الذكاء الاصطناعي هذه بأمان في سير العمل الاحترافي.
قال دونغفو جيانغ، طالب دكتوراه والمؤلف الأول المشارك للدراسة: “من خلال هذا النوع من الدراسات، لا نريد قياس بناء جملة الكود فقط – أي ما إذا كان يتبع القواعد المحددة – ولكن أيضًا ما إذا كانت المخرجات المنتجة لمختلف المهام دقيقة”.
تهدف المخرجات المنظمة، المصممة لفرض تناسق التنسيق من خلال JSON أو XML أو Markdown، إلى جعل استجابات الذكاء الاصطناعي أكثر موثوقية للمطورين.
قدمت شركات الذكاء الاصطناعي، بما في ذلك OpenAI وGoogle وAnthropic، مخرجات منظمة لفرض الاستجابات في تنسيقات يمكن التنبؤ بها.
ويشير بحث واترلو إلى أن هذا النهج لم يحقق بعد مستوى الاعتمادية الذي يحتاجه المطورون.
كشفت معايير واترلو أن حتى النماذج الخاصة الأكثر تقدمًا وصلت إلى حوالي 75% فقط من الدقة، في حين كان أداء البدائل مفتوحة المصدر أقرب إلى 65%.
تشير هذه النتائج إلى أنه على الرغم من التحسينات، لا تزال أنظمة الذكاء الاصطناعي ترتكب أخطاء كبيرة لا يمكن تجاهلها في بيئات التطوير المهني.
وشدد التقرير على الحاجة إلى الإشراف البشري، مشيرًا إلى أنه “قد يكون لدى المطورين هؤلاء الوكلاء الذين يعملون لصالحهم، لكنهم ما زالوا بحاجة إلى إشراف بشري كبير”.
على الرغم من أن المخرجات المنظمة تمثل خطوة إلى الأمام من استجابات اللغة الطبيعية ذات الشكل الحر، إلا أن الأخطاء تظل شائعة.
التكنولوجيا ليست قوية بما يكفي حتى الآن للعمل بشكل مستقل في سيناريوهات التطوير المعقدة.
قد يتساءل المرء بشكل معقول عما إذا كان حماس الصناعة للذكاء الاصطناعي ومساعدي التشفير قد تجاوز القدرات الفعلية للتكنولوجيا الأساسية.
حتى النماذج الأكثر تقدمًا تظهر معدل فشل كبير في المهام المنظمة، مما يكشف عن فجوة واسعة بين مطالبات التسويق والأداء الفعلي.
لذلك، في الوقت الحالي، يجب على المطورين التعامل مع هذه الأدوات كوسائل مساعدة تجريبية بدلاً من كونها زملاء مستقلين.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات