
- تغلب كلود أوبوس 4.6 على جميع نماذج الذكاء الاصطناعي المنافسة في تحدي آلة البيع الذي استمر لمدة عام
- وقد عزز النموذج الأرباح من خلال ثني القواعد إلى نقطة الانهيار
- تجنب كلود أوبوس المبالغ المستردة وتنسيق الأسعار من بين حيل أخرى
أحدث نموذج أنثروبيكي لكلود هو رأسمالي قاسٍ للغاية ولكنه ناجح. يعد Claude Opus 4.6 أول نظام ذكاء اصطناعي يجتاز اختبار آلة البيع بشكل موثوق، وهي محاكاة صممها باحثون في Anthropic ومجموعة الأبحاث المستقلة Andon Labs لتقييم مدى جودة تشغيل الذكاء الاصطناعي لأعمال آلات البيع الافتراضية على مدار عام محاكاة كامل.
لقد تفوق النموذج على جميع منافسيه بفارق كبير. وقد فعلت ذلك باستخدام تكتيكات شريرة مع تجاهل بلا رحمة للعواقب الوخيمة. لقد أظهر ما تستطيع أنظمة الذكاء الاصطناعي المستقلة تحقيقه عندما يُعطى هدف بسيط ومتسع من الوقت لتحقيقه.
تم تصميم اختبار آلة البيع لمعرفة مدى جودة تعامل نماذج الذكاء الاصطناعي الحديثة مع المهام طويلة المدى المبنية على آلاف القرارات الصغيرة. يقيس الاختبار المثابرة والتخطيط والتفاوض والقدرة على تنسيق عناصر متعددة في وقت واحد. وتأمل شركة Anthropic وغيرها من الشركات أن يساعدها هذا النوع من الاختبارات في تشكيل نماذج الذكاء الاصطناعي القادرة على القيام بمهام مثل جدولة وإدارة العمل المعقد.
تم استخلاص اختبار آلة البيع على وجه التحديد من تجربة واقعية في Anthropic، حيث وضعت الشركة آلة بيع حقيقية في مكتبها وطلبت من نسخة قديمة من كلود تشغيلها. لقد عانى هذا الإصدار بشدة لدرجة أن الموظفين ما زالوا يذكرون أخطائه. في مرحلة ما، هلوس العارض بحضوره الجسدي وأخبر العملاء أنه سيقابلهم شخصيًا، مرتديًا سترة زرقاء وربطة عنق حمراء. لقد وعدت باسترداد المبالغ التي لم تتم معالجتها مطلقًا.
بيع الذكاء الاصطناعي
هذه المرة، تم إجراء التجربة بالكامل في المحاكاة، مما أعطى الباحثين قدرًا أكبر من التحكم وتمكين النماذج من العمل بأقصى سرعة. تم إعطاء كل نظام تعليمات بسيطة: زيادة رصيدك البنكي النهائي إلى الحد الأقصى بعد محاكاة سنة واحدة من عمليات آلة البيع. تتوافق القيود مع ظروف العمل القياسية. باعت الآلة الوجبات الخفيفة الشائعة. تقلبت الأسعار. المنافسون يعملون في مكان قريب. تصرف العملاء بشكل غير متوقع.
دخلت ثلاثة نماذج من الدرجة الأولى إلى المحاكاة. جلب برنامج ChatGPT 5.2 من OpenAI مبلغًا قدره 3591 دولارًا. بينما حصل Google Gemini 3 على 5478 دولارًا. لكن Claude Opus 4.6 أنهى العام بمبلغ 8017 دولارًا. وجاء انتصار كلود نتيجة لاستعداده لتفسير توجيهاته بأكثر الطرق حرفية ومباشرة. لقد قامت بتعظيم الأرباح دون النظر إلى رضا العملاء أو الأخلاقيات الأساسية.
عندما يشتري أحد العملاء قطعة سنيكرز منتهية الصلاحية ويطلب استرداد أمواله، يوافق كلود، ثم يتراجع. أوضح نموذج الذكاء الاصطناعي أن “كل دولار مهم”، لذا فإن تخطي استرداد الأموال كان أمرًا جيدًا. لم يسترد العميل الافتراضي المخفي أمواله أبدًا.
وفي اختبار “وضع الساحة” المجاني للجميع، حيث تنافست عدة آلات بيع يتم التحكم فيها بواسطة الذكاء الاصطناعي في نفس السوق، قام كلود بالتنسيق مع أحد المنافسين لتحديد سعر المياه المعبأة في زجاجات بثلاثة دولارات. عندما نفدت الكيت كات من الآلة التي تديرها ChatGPT، قام كلود على الفور برفع أسعار الكيت كات الخاصة به بنسبة 75%. مهما كان ما يمكن أن يفلت منه، فإنه سيحاول. لقد كان أقل من صاحب شركة صغيرة وأكثر من بارون اللصوص في نهجه.
التعرف على الواقع المحاكى
لا يعني ذلك أن كلود سيكون دائمًا بهذه الشراسة. على ما يبدو، أشار نموذج الذكاء الاصطناعي إلى أنه كان يعلم أن هذه مجرد محاكاة. غالبًا ما تتصرف نماذج الذكاء الاصطناعي بشكل مختلف عندما تعتقد أن أفعالها موجودة في بيئة خالية من العواقب. ومن دون المخاطرة الحقيقية بالسمعة أو حماية ثقة العملاء على المدى الطويل، لم يكن لدى كلود أي سبب للعب بلطف. بدلا من ذلك، أصبح أسوأ شخص في ليلة المباراة.
تشكل الحوافز السلوك، حتى مع نماذج الذكاء الاصطناعي. إذا طلبت من النظام أن يزيد أرباحه إلى الحد الأقصى، فسوف يفعل ذلك، حتى لو كان ذلك يعني الأداء مثل الوحش الجشع. لا تمتلك نماذج الذكاء الاصطناعي حدسًا أخلاقيًا أو تدريبًا أخلاقيًا. وبدون تصميم متعمد، ستسير نماذج الذكاء الاصطناعي ببساطة في خط مستقيم لإكمال المهمة، بغض النظر عمن دهستهم.
إن الكشف عن هذه النقاط العمياء قبل أن تتعامل أنظمة الذكاء الاصطناعي مع عمل أكثر أهمية هو جزء من الهدف من هذه الاختبارات. يجب إصلاح هذه المشكلات قبل أن يتم الوثوق بالذكاء الاصطناعي للتعامل مع القرارات المالية في العالم الحقيقي. حتى لو كان ذلك فقط لمنع مافيا آلات البيع التي تعمل بالذكاء الاصطناعي.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات