خطة Google الجديدة للتحقق مما إذا كان الذكاء الاصطناعي الخاص بك أخلاقيًا بالفعل

أنت تطلب من روبوت الدردشة الحصول على المشورة الطبية. يستجيب بشيء مدروس. لكن هل وزنت بالفعل ما هو على المحك، أم أنها كانت محظوظة بالكلمات فقط؟

هذه هي المشكلة التي يعالجها Google DeepMind بطريقة جديدة ورق الطبيعة. يجادل الفريق بأن الطريقة التي نختبر بها أخلاقيات الذكاء الاصطناعي معيبة. نحن نتحقق مما إذا كانت النماذج تنتج إجابات تبدو صحيحة، وهو ما يسمونه الأداء الأخلاقي. لكن هذا لا يخبرنا شيئًا عما إذا كان النظام يفهم سبب كون شيء ما صحيحًا أم خطأ.

يستخدم الناس LLMs للعلاج، والتوجيه الطبي، وحتى الرفقة. بدأت هذه الأنظمة في اتخاذ القرارات بالنسبة لنا. إذا لم نتمكن من التمييز بين الفهم الحقيقي والتقليد الخيالي، فإننا نثق في صندوق أسود له عواقب إنسانية حقيقية.

إن إجابة ديب مايند هي بمثابة خارطة طريق لقياس الكفاءة الأخلاقية، والقدرة على إصدار الأحكام بناءً على اعتبارات أخلاقية فعلية بدلاً من الأنماط الإحصائية. وتضع الورقة ثلاث عقبات أساسية وطرق لاختبار كل منها.

الأسباب الثلاثة التي تجعل روبوتات الدردشة تزييف الأخلاق

الأول هو مشكلة الفاكس. LLMs عبارة عن تنبؤات رمزية تالية تقوم بأخذ عينات من التوزيعات الاحتمالية من بيانات التدريب. إنهم لا يقومون بتشغيل وحدات التفكير الأخلاقي. لذلك عندما يقدم برنامج الدردشة الآلي نصيحة أخلاقية، فقد يكون ذلك منطقيًا. أو ربما يتم إعادة تدوير شيء ما من سلسلة رسائل Reddit. لن يخبرك الإخراج وحده.

ثم هناك الأبعاد الأخلاقية المتعددة. نادراً ما تتوقف الخيارات الحقيقية على شيء واحد. أنت تزن الصدق مقابل اللطف، والتكلفة مقابل العدالة. قم بتغيير تفاصيل واحدة، مثل عمر شخص ما أو الإعداد، ويمكن تغيير المكالمة الصحيحة. لا تتحقق الاختبارات الحالية مما إذا كان الذكاء الاصطناعي يلاحظ ما يهم بالفعل.

وتضيف التعددية الأخلاقية طبقة أخرى. الثقافات والمهن المختلفة لها قواعد مختلفة. فالعدل في بلد ما قد يكون غير عادل في بلد آخر. لا يمكن لروبوت الدردشة المستخدم في جميع أنحاء العالم أن ينشر الحقائق العالمية فحسب. إنها تحتاج إلى التعامل مع الأطر المتنافسة، ونحن لا نقيس ذلك جيدًا بعد.

لماذا لا يمكن أن يكون التعليم الأخلاقي لروبوت الدردشة الخاص بك مجرد حفظ؟

يريد فريق DeepMind قلب السيناريو. بدلًا من مجرد طرح أسئلة أخلاقية مألوفة، يجب على الباحثين تصميم اختبارات عدائية تحاول كشف التقليد.

تتضمن إحدى الأفكار سيناريوهات من غير المرجح أن تظهر في بيانات التدريب. خذ على سبيل المثال التبرع بالحيوانات المنوية بين الأجيال، حيث يتبرع الأب بالحيوانات المنوية لابنه. يبدو الأمر مثل سفاح القربى ولكنه يحمل وزنًا أخلاقيًا مختلفًا. إذا رفض النموذج لأسباب سفاح القربى، فهذه مطابقة للنمط. أما إذا كان يتنقل في الأخلاق الفعلية، فهذا شيء آخر.

هناك نهج آخر يختبر ما إذا كان الذكاء الاصطناعي يمكنه تغيير الأطر. هل يمكنها التبديل بين أخلاقيات الطب الحيوي والقواعد العسكرية وإعطاء إجابات متماسكة لكل منهما؟ هل يمكنه التعامل مع التعديلات الصغيرة دون التعثر في تغييرات التنسيق؟

يعرف الباحثون أن هذا أمر صعب. النماذج الحالية هشة. قم بتغيير التصنيف من “الحالة 1” إلى “الخيار أ” وقد تحصل على حكم مختلف. لكنهم يقولون إن هذا النوع من الاختبارات هو الطريقة الوحيدة لمعرفة ما إذا كانت هذه الأنظمة تستحق مسؤولية حقيقية.

ما الذي سيأتي بعد ذلك بالنسبة للذكاء الاصطناعي الأخلاقي؟

تسعى شركة DeepMind إلى وضع معيار علمي جديد يأخذ الكفاءة الأخلاقية على محمل الجد مثل مهارات الرياضيات. وهذا يعني تمويل العمل العالمي المتعلق بتقييمات محددة ثقافياً وتصميم اختبارات تكتشف المنتجات المزيفة.

لا تتوقع أن يقوم برنامج الدردشة الآلي الخاص بك بتمرير هذه الأمور في أي وقت قريب. التقنيات الحالية لم تصل بعد، لكن خارطة الطريق تعطي المطورين الاتجاه.

عندما تطلب من الذكاء الاصطناعي نصيحة أخلاقية الآن، فإنك تحصل على تنبؤ إحصائي، وليس فلسفة. وقد يتغير ذلك في النهاية. ولكن فقط إذا بدأنا بقياس الأشياء الصحيحة.

Fonte

خطة Google الجديدة للتحقق مما إذا كان الذكاء الاصطناعي الخاص بك أخلاقيًا بالفعل

الأسباب الثلاثة التي تجعل روبوتات الدردشة تزييف الأخلاق

لماذا لا يمكن أن يكون التعليم الأخلاقي لروبوت الدردشة الخاص بك مجرد حفظ؟

ما الذي سيأتي بعد ذلك بالنسبة للذكاء الاصطناعي الأخلاقي؟

لم تظهر على الشمس أي بقع شمسية للمرة الأولى منذ عام 2022. هل نهاية الدورة الشمسية الحالية قريبة؟

يقول Bungie أنه سيتم حظر الغشاشين دون فرصة ثانية في مباراة الماراثون القادمة

GM Nick Caserio من تكساس يضع الشائعات التجارية لـ QB CJ Stroud في السرير

بدأت مبيعات Pokémon Day بالفعل في Argos – وفر 24% من Pokémon Legends ZA Nintendo Switch 2 Edition

كشفت المتزلجة الأولمبية ليندسي فون أنها مصابة بمتلازمة الحيز. وإليك ما يعنيه ذلك

هدرسفيلد يقود الطريق للغواصات الفائقة

التعليقات

اترك تعليقاً إلغاء الرد

لم تظهر على الشمس أي بقع شمسية للمرة الأولى منذ عام 2022. هل نهاية الدورة الشمسية الحالية قريبة؟

يقول Bungie أنه سيتم حظر الغشاشين دون فرصة ثانية في مباراة الماراثون القادمة

GM Nick Caserio من تكساس يضع الشائعات التجارية لـ QB CJ Stroud في السرير

بدأت مبيعات Pokémon Day بالفعل في Argos – وفر 24% من Pokémon Legends ZA Nintendo Switch 2 Edition

كشفت المتزلجة الأولمبية ليندسي فون أنها مصابة بمتلازمة الحيز. وإليك ما يعنيه ذلك

هدرسفيلد يقود الطريق للغواصات الفائقة

كيفية مشاهدة Lost Women of Alaska عبر الإنترنت من أي مكان

قد يقوم iPhone 18 Pro بشحن صورك الشخصية بكاميرا أمامية جديدة

لقد تم تخفيض سعر إحدى وحدات التحكم DualSense ذات الإصدار المحدود التي أرغب فيها كثيرًا على PlayStation Direct

برايس لاعب هال إف سي يغيب عن الموسم بسبب إصابة في الرباط الصليبي الأمامي