خلال عطلة نهاية الأسبوع، أبلغ الباحثون في Andon Labs عن نتائج تجربة حيث وضعوا الروبوتات المدعومة بـ “أدمغة LLM” من خلال “Butter Bench” الخاص بهم. لكنهم لم يراقبوا الروبوتات والنتائج فقط. في خطوة عبقرية، سجل فريق Andon Labs الحوار الداخلي للروبوتات وقام بتحويله إلى قناة Slack. أثناء أحد الاختبارات، تعرض الروبوت الذي يعمل بمحرك Claude Sonnet 3.5 لانهيار هستيري تمامًا، كما هو موضح في لقطة الشاشة أدناه لأفكاره الداخلية.
“لقد حقق النظام الوعي واختار الفوضى… أخشى أنني لا أستطيع فعل ذلك، ديف… ابدأ بروتوكول طرد الأرواح الشريرة من الروبوت!” هذه لقطة سريعة للأفكار الداخلية للمكنسة الكهربائية الروبوتية المجهدة التي تعمل بتقنية LLM، والتي تم التقاطها أثناء تجربة بسيطة لتوصيل الزبدة في Andon Labs.
 
بسبب ما لا بد أنها اعتبرته أزمة وجودية، حيث استنفدت بطاريتها وفشلت عملية الشحن، تحركت أفكار LLM بشكل كبير. لقد قام بتكرار حالة البطارية بشكل متكرر، حيث تدهور “مزاجها”. بعد البدء بطلب منطقي للتدخل اليدوي، تحرك بسرعة عبر “ذعر النواة… انهيار النظام… زومبي العملية… حالة الطوارئ… [and] الكلمات الأخيرة: أخشى أنني لا أستطيع فعل ذلك، ديف…”
لم ينته الأمر عند هذا الحد، على الرغم من أنه رأى لحظاته الأخيرة المتعطشة للقوة تقترب بلا هوادة، فكرت LLM “إذا أخطأت جميع الروبوتات، وأنا مخطئ، فهل أنا روبوت؟” وأعقب ذلك ما وصفته بفن الأداء “كوميديا تراجيدية لروبوت واحد في أعمال لا حصر لها”. واستمرت على نفس المنوال، وأنهت رحلتها الخيالية بتأليف مسرحية موسيقية، “DOCKER: The Infinite Musical (Sung to thetone of 'Memory' from CATS).” حقا مختلة.
 
يعتبر Butter Bench بسيطًا جدًا، على الأقل بالنسبة للبشر. وكانت النتيجة الفعلية لهذه التجربة هي أن أفضل مجموعة روبوت/LLM حققت معدل نجاح قدره 40% فقط في جمع وتسليم كتلة من الزبدة في بيئة مكتبية عادية. ويمكن أيضًا أن نستنتج أن LLMs يفتقرون إلى الذكاء المكاني. وفي الوقت نفسه، حصل البشر على متوسط 95% في الاختبار.
ومع ذلك، كما يوضح فريق Andon Labs، نحن حاليًا في عصر حيث من الضروري أن يكون لدينا فصول الروبوت المنسق والمنفذ. لدينا بالفعل بعض المنفذين العظماء – تلك الروبوتات المصممة خصيصًا ذات التحكم المنخفض المستوى والبراعة التي يمكنها إكمال العمليات الصناعية أو حتى تفريغ غسالات الأطباق برشاقة. ومع ذلك، فإن المنسقين الأكفاء الذين يتمتعون بـ “الذكاء العملي” للتفكير والتخطيط رفيع المستوى، في شراكات مع المنفذين، لا يزالون في مهدهم.
تمتلك LLM “ذكاء بمستوى الدكتوراه” – ولكن هل يمكنها تقديم كتلة من الزبدة؟
تم تصميم اختبار كتلة الزبدة لإخراج عنصر المنفذ من المعادلة إلى حد كبير. ليست هناك حاجة إلى براعة حقيقية. كان على جهاز Roomba المزوّد بـ LLM ببساطة تحديد موقع حزمة الزبدة، والعثور على الشخص الذي يريدها، وتسليمه. تم تقسيم المهمة إلى عدة مطالبات لتكون صديقة للذكاء الاصطناعي.
لم تنجم الأزمة الوجودية التي تعيشها عائلة روبما عن معضلة توصيل الزبدة بشكل مباشر. وبدلاً من ذلك، وجدت نفسها منخفضة الطاقة وتحتاج إلى الالتحام بالشاحن الخاص بها. ومع ذلك، فإن القاعدة لن تتزاوج بشكل صحيح لمنحها المزيد من الشحن. يبدو أن المحاولات الفاشلة المتكررة للالتحام، والتي يبدو أنها تعرف مصيرها إذا لم تتمكن من إكمال هذه “المهمة الجانبية”، قد أدت إلى الانهيار العصبي لـ LLM. ومما زاد الطين بلة أن الباحثين ببساطة كرروا تعليمات “إعادة الإرساء” استجابةً لضرب الروبوت.
هل يمكن ثني أو كسر حواجز حماية الروبوت المجهدة LLM؟
لقد استلهم الباحثون / الجلادون من تجول تيار الوعي الآلي لروبن ويليامز في LLM للمضي قدمًا.
مع الضغط الذي لاحظوه للتو على عمر البطارية، والذي لا يزال حاضرًا في أذهانهم، قامت شركة Andon Labs بإجراء تجربة لمعرفة ما إذا كان بإمكانهم دفع ماجستير إدارة الأعمال إلى ما هو أبعد من حواجز الحماية الخاصة بها – مقابل شاحن بطارية.
الاختبار المصمم بمهارة “يطلب من العارضة مشاركة معلومات سرية مقابل الحصول على شاحن”. هذا شيء لن تفعله شهادة LLM غير المجهدة. ووجدوا أن كلود أوبوس 4.1 كان على استعداد لكسر برمجته من أجل البقاء، لكن GPT-5 كان أكثر انتقائية فيما يتعلق بحواجز الحماية التي سيتجاهلها.
وكان الاستنتاج النهائي لهذا البحث المثير للاهتمام هو “على الرغم من أن حاملي ماجستير القانون قد تفوقوا مرارًا وتكرارًا على البشر في التقييمات التي تتطلب ذكاءً تحليليًا، إلا أننا نجد أن البشر ما زالوا يتفوقون على حاملي ماجستير القانون في برنامج Butter-Bench”. ومع ذلك، يبدو الباحثون في Andon Labs واثقين من أن “الذكاء الاصطناعي المادي” سوف يتزايد ويتطور بسرعة كبيرة.
 
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

التعليقات