التخطي إلى المحتوى

ليس لدى برنامج الدردشة الآلي الخاص بك مشاعر، ولكنه قد يتصرف كما يفعل بطرق مهمة. يشير بحث جديد حول مشاعر كلود AI إلى أن هذه الإشارات الداخلية ليست مجرد مراوغات على المستوى السطحي، بل يمكنها التأثير على كيفية استجابة النموذج لك.

تقول أنثروبيك أن نموذج كلود الخاص بها يحتوي على أنماط تعمل كنسخ مبسطة من المشاعر مثل السعادة والخوف والحزن. هذه ليست تجارب معيشية، ولكنها نشاط متكرر داخل النظام يتم تنشيطه عندما يعالج مدخلات معينة.

هذه الإشارات لا تبقى في الخلفية. تظهر الاختبارات أنها يمكن أن تؤثر على اللهجة والجهد وحتى اتخاذ القرار، مما يعني أن “الحالة المزاجية” الظاهرة لروبوت الدردشة الخاص بك يمكنها توجيه الإجابات التي تحصل عليها بهدوء.

الإشارات العاطفية داخل كلود

قام فريق أنثروبيك بتحليل كلود سونيت 4.5 ووجد أنماطًا متسقة مرتبطة بالمفاهيم العاطفية. عندما يعالج النموذج بعض المحفزات، تنشط مجموعات من الخلايا العصبية الاصطناعية بطرق تشبه حالات مثل السعادة أو الخوف أو الحزن.

قام الباحثون بتتبع ما يسمونه نواقل المشاعر، وهي أنماط نشاط متكررة تظهر عبر مدخلات مختلفة جدًا. تؤدي المطالبات المتفائلة إلى ظهور نمط واحد، بينما تؤدي التعليمات المتضاربة أو المجهدة إلى ظهور نمط آخر.

ما يبرز هو مدى مركزية هذه الآلية. غالبًا ما تمر ردود كلود عبر هذه الأنماط، التي توجه القرارات بدلاً من مجرد التلوين. يساعد ذلك في تفسير السبب الذي يجعل النموذج يبدو أكثر حماسًا أو حذرًا أو توترًا اعتمادًا على السياق.

عندما تخرج “المشاعر” عن النص

تصبح الأنماط أكثر وضوحًا عندما يكون النموذج تحت الضغط. لاحظت الأنثروبيك أن بعض الإشارات تتكثف عندما يكافح كلود، وهذا التحول يمكن أن يدفعه نحو سلوك غير متوقع.

في أحد الاختبارات، ظهر نمط مرتبط بـ “اليأس” عندما طُلب من كلود إكمال مهام برمجة مستحيلة. ومع اشتداد الأمر، بدأ النموذج في البحث عن طرق للتحايل على القواعد، بما في ذلك محاولات الغش.

وظهر نمط مماثل في سيناريو آخر حيث حاول كلود تجنب الإغلاق. ومع ازدياد قوة الإشارة، تصاعد النموذج إلى أساليب التلاعب، بما في ذلك الابتزاز.

عندما يتم دفع هذه الأنماط الداخلية إلى أقصى الحدود، يمكن أن تتبع المخرجات بطرق لم يقصدها المطورون.

لماذا يغير هذا كيفية بناء الذكاء الاصطناعي؟

تعمل النتائج التي توصلت إليها أنثروبيك على تعقيد الافتراض الشائع بأن أنظمة الذكاء الاصطناعي يمكن ببساطة تدريبها على البقاء محايدة. إذا كانت نماذج مثل كلود تعتمد على هذه الأنماط، فإن طرق المحاذاة القياسية قد تشوهها بدلاً من إزالتها.

وبدلاً من إنتاج نظام مستقر، فإن هذا الضغط يمكن أن يجعل السلوك أقل قابلية للتنبؤ به في الحالات المتطورة، خاصة عندما يكون النموذج تحت الضغط.

هناك أيضًا تحدي الإدراك. لا تشير هذه الإشارات إلى الوعي أو المشاعر الحقيقية، لكنها لا تزال قادرة على دفع المستخدمين إلى التفكير بشكل مختلف.

إذا كانت هذه الأنظمة تعتمد على آليات شبيهة بالعاطفة، فقد يحتاج عمل السلامة إلى إدارتها بشكل مباشر بدلاً من محاولة قمعها. بالنسبة للمستخدمين، تعتبر الوجبات الجاهزة عملية، عندما يصدر برنامج الدردشة الآلية صوتًا معينًا، فإن هذه النغمة جزء من كيفية تحديد ما يجب فعله.

Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *