يفشل أفضل مساعدي البرمجة بالذكاء الاصطناعي في واحدة من كل أربع مهام، مما يكشف عن فجوات خطيرة بين الضجيج وموثوقية الأداء الفعلي

يجد التقرير أن مساعدي البرمجة بالذكاء الاصطناعي يفشلون بانتظام في واحدة من كل أربع مهام مخرجات منظمة
حتى النماذج المتقدمة الخاصة تصل إلى دقة تبلغ حوالي 75% فقط
تعمل نماذج الذكاء الاصطناعي مفتوحة المصدر بشكل أسوأ، حيث يصل متوسط موثوقيتها إلى 65%

واجه الوعد بالذكاء الاصطناعي كمساعد ترميز لا يكل عقبة كبيرة بعد أن ادعى بحث جديد أن مثل هذه الأدوات يمكن أن تواجه مجموعة من المشكلات.

وجدت دراسة حديثة من جامعة واترلو أن الذكاء الاصطناعي يواجه صعوبات في تطوير البرمجيات، حتى أن النماذج الأكثر تقدمًا تفشل في واحدة من كل أربع مهام مخرجات منظمة.

قام البحث بتقييم 11 نموذجًا لغويًا كبيرًا عبر 18 تنسيقًا منظمًا مختلفًا و44 مهمة لاختبار مدى قدرة الأنظمة على اتباع قواعد محددة مسبقًا، وإيجاد تباين واضح بين الأداء في المهام المستندة إلى النص والمخرجات التي تتضمن وسائط متعددة أو هياكل معقدة.

يستمر المقال أدناه

تكشف المقارنة المعيارية عن فجوة موثوقية مثيرة للقلق

في حين تم التعامل مع المهام المتعلقة بالنص بشكل عام بنجاح معتدل، إلا أن المهام التي تتطلب إنشاء صور أو فيديو أو موقع ويب كانت أكثر إشكالية بكثير.

انخفضت الدقة في هذه المجالات بشكل حاد، مما أثار تساؤلات حول كيفية دمج أدوات الذكاء الاصطناعي هذه بأمان في سير العمل الاحترافي.

قال دونغفو جيانغ، طالب دكتوراه والمؤلف الأول المشارك للدراسة: “من خلال هذا النوع من الدراسات، لا نريد قياس بناء جملة الكود فقط – أي ما إذا كان يتبع القواعد المحددة – ولكن أيضًا ما إذا كانت المخرجات المنتجة لمختلف المهام دقيقة”.

تهدف المخرجات المنظمة، المصممة لفرض تناسق التنسيق من خلال JSON أو XML أو Markdown، إلى جعل استجابات الذكاء الاصطناعي أكثر موثوقية للمطورين.

قدمت شركات الذكاء الاصطناعي، بما في ذلك OpenAI وGoogle وAnthropic، مخرجات منظمة لفرض الاستجابات في تنسيقات يمكن التنبؤ بها.

ويشير بحث واترلو إلى أن هذا النهج لم يحقق بعد مستوى الاعتمادية الذي يحتاجه المطورون.

كشفت معايير واترلو أن حتى النماذج الخاصة الأكثر تقدمًا وصلت إلى حوالي 75% فقط من الدقة، في حين كان أداء البدائل مفتوحة المصدر أقرب إلى 65%.

تشير هذه النتائج إلى أنه على الرغم من التحسينات، لا تزال أنظمة الذكاء الاصطناعي ترتكب أخطاء كبيرة لا يمكن تجاهلها في بيئات التطوير المهني.

وشدد التقرير على الحاجة إلى الإشراف البشري، مشيرًا إلى أنه “قد يكون لدى المطورين هؤلاء الوكلاء الذين يعملون لصالحهم، لكنهم ما زالوا بحاجة إلى إشراف بشري كبير”.

على الرغم من أن المخرجات المنظمة تمثل خطوة إلى الأمام من استجابات اللغة الطبيعية ذات الشكل الحر، إلا أن الأخطاء تظل شائعة.

التكنولوجيا ليست قوية بما يكفي حتى الآن للعمل بشكل مستقل في سيناريوهات التطوير المعقدة.

قد يتساءل المرء بشكل معقول عما إذا كان حماس الصناعة للذكاء الاصطناعي ومساعدي التشفير قد تجاوز القدرات الفعلية للتكنولوجيا الأساسية.

حتى النماذج الأكثر تقدمًا تظهر معدل فشل كبير في المهام المنظمة، مما يكشف عن فجوة واسعة بين مطالبات التسويق والأداء الفعلي.

لذلك، في الوقت الحالي، يجب على المطورين التعامل مع هذه الأدوات كوسائل مساعدة تجريبية بدلاً من كونها زملاء مستقلين.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

Fonte

يفشل أفضل مساعدي البرمجة بالذكاء الاصطناعي في واحدة من كل أربع مهام، مما يكشف عن فجوات خطيرة بين الضجيج وموثوقية الأداء الفعلي

قد يقوم Windows أخيرًا بإصلاح إحدى مشكلات الإعداد الأكثر إزعاجًا

تكشف Kioxia النقاب عن SSD جديد ومجنون يمكنه تغذية وحدات معالجة الرسومات بملايين عمليات IOPS وكسر حدود ذاكرة الذكاء الاصطناعي

مينيسوتا ستذهب إلى Sweet 16

يقول حاكم هاواي إن العواصف تسببت في أضرار بقيمة مليار دولار

تشابيل روان يرد على ادعاءات جورجينيو الصادمة

تقدم Atlanta Braves وDelta امتيازات جديدة لأعضاء SkyMiles

التعليقات

اترك تعليقاً إلغاء الرد

قد يقوم Windows أخيرًا بإصلاح إحدى مشكلات الإعداد الأكثر إزعاجًا

تكشف Kioxia النقاب عن SSD جديد ومجنون يمكنه تغذية وحدات معالجة الرسومات بملايين عمليات IOPS وكسر حدود ذاكرة الذكاء الاصطناعي

مينيسوتا ستذهب إلى Sweet 16

يقول حاكم هاواي إن العواصف تسببت في أضرار بقيمة مليار دولار

تشابيل روان يرد على ادعاءات جورجينيو الصادمة

تقدم Atlanta Braves وDelta امتيازات جديدة لأعضاء SkyMiles

تتشابك خطط شركة Apple لتحسين كاميرا iPhone في فوضى قانونية

برونو سالتور: تبديل ميكي فان دي فين كان “تكتيكيًا” وليس بسبب الإصابة

يدافع أرتيتا عن قرار إشراك كيبا في نهائي كأس كاراباو على الرغم من الخطأ الباهظ – ويعطي تحديثًا عن إيزي

10 لحظات مميزة لوليام شاتنر في فيلم “Star Trek” للاحتفال بعيد ميلاده الخامس والتسعين