إن اختبار الذكاء الاصطناعي لا يشبه اختبار البرمجيات ولم تكتشف معظم الشركات ذلك بعد

في الأسبوع الماضي، طلبت من ChatGPT رقم الإصدار الخاص به ووجدت نفسي في جدال حاد أحاول إثبات أن ما كنت أراه كان حقيقيًا. لم يكن هذا أول لقاء مقلق لي.

عندما أستخدم أدوات الذكاء الاصطناعي مثل ChatGPT، أطلب بانتظام مصادر واقتباسات للمقالات التي أكتبها. في بعض الأحيان الروابط لا تعمل. وفي بعض الأحيان يفشل في توفيرها على الإطلاق. وفي أحيان أخرى، يقدم بثقة معلومات ملفقة على أنها حقيقة.

كريستل كروستوك

ومؤخرًا، قدمت لي ما أحتاجه بالضبط، أو هكذا بدا الأمر.

يستمر المقال أدناه

وعندما ذهبت للتحقق من الاستشهادات، كان نصفها مفقودًا أو منسوبًا بشكل غير صحيح. تم اختلاق الاقتباسات. تم اختراع الإحصائيات. كان الأساس الكامل لما بدا وكأنه استجابة مدروسة جيدًا هو الخيال.

لم يكن هذا “خطأ” نموذجيًا بالمعنى التقليدي لاختبار البرمجيات.

لقد قمت الآن بتدريب نفسي على التحقق جيدًا من كل ما يخبرني به الذكاء الاصطناعي. إنه ضروري، لأنني أفهم أن الذكاء الاصطناعي لا يفشل بالطريقة التي تفشل بها البرامج. ولا تزال معظم الشركات تختبره كما لو كان كذلك.

عدم التطابق الأساسي

تم تحسين أساليب ضمان الجودة التقليدية للأنظمة الحتمية حتى عندما تجاوز الاختبار نفسه المسارات السعيدة. عند اختبار زر تسجيل الدخول، إما أنه يعمل أو لا يعمل. البق قابلة للتكرار. النواتج يمكن التنبؤ بها. يتبع الاختبار حسب التعريف منطقًا واضحًا للتمرير والفشل.

الذكاء الاصطناعي يكسر كل ذلك. مع البرامج التقليدية، أنت تتساءل: هل تعمل هذه الميزة؟ مع الذكاء الاصطناعي، أنت تتساءل: هل يتصرف هذا النظام بمسؤولية عبر آلاف السيناريوهات غير المتوقعة؟ تختلف النواتج بشكل كبير. يتغير السلوك بعد إعادة التدريب. حالات الحافة ليست استثناءات، فهي تمثل مساحة السطح بأكملها.

ومع ذلك، لا تزال معظم الشركات تختبر الذكاء الاصطناعي باستخدام أطر ضمان الجودة القديمة. الإخفاقات أصبحت علنية بالفعل. وقد قامت منظمة العفو الدولية بتلفيق استشهادات قانونية قدمت إلى المحاكم. لقد شجعت روبوتات الدردشة المدعمة بالذكاء الاصطناعي على إيذاء النفس. تم التلاعب بالنماذج لتهديد المستخدمين.

وفي إحدى الحالات، تم سجن امرأة بناء على رسائل نصية ملفقة لم يتحقق أحد من صحتها.

هذه ليست أخطاء بالمعنى التقليدي. إنها إخفاقات بسبب عدم كفاية الرقابة البشرية.

لماذا يصبح الذكاء الاصطناعي أسوأ عندما يفكر لفترة أطول؟

تكشف الأبحاث الحديثة التي أجرتها شركة Anthropic شيئًا غير بديهي: تفشل أنظمة الذكاء الاصطناعي بشكل غير متماسك كلما زاد تفكيرها.

في كتاب “The Hot Mess of AI”، وجد الباحثون أنه عندما تعالج النماذج مشاكل أصعب تتطلب تفكيرًا موسعًا، فإن فشلها يصبح يهيمن عليه التباين (سلوك غير متوقع وغير متماسك) بدلاً من الأخطاء المنهجية.

لقد كنا نستعد للذكاء الاصطناعي الذي قد يسعى بشكل منهجي إلى تحقيق أهداف خاطئة. وبدلاً من ذلك، أصبح لدينا ذكاء اصطناعي يتحول إلى “فوضى عارمة”، حيث يتخذ إجراءات لا معنى لها ولا تخدم أي هدف متماسك.

كلما طالت مدة تفكير النماذج، أصبحت أكثر تفككًا. علاوة على ذلك، فإن النماذج الأكثر قدرة تصبح في الواقع أكثر تفككًا في المهام الصعبة، وليس أقل.

فكر في ما يعنيه هذا بالنسبة للأنظمة التي تتعامل مع التشخيص الطبي أو التحليل القانوني أو التخطيط المالي.

قد يفشلون ليس لأنهم يسعون لتحقيق هدف خاطئ، ولكن لأنهم لا يسعون بشكل متماسك إلى أي هدف. كما يشير البحث: ينوي الذكاء الاصطناعي تشغيل محطة الطاقة النووية، لكنه يتشتت انتباهه بقراءة الشعر الفرنسي، ويحدث انهيار.

لماذا لا تستطيع ضمان الجودة التقليدية التقاط هذا

يمكنك إعطاء روبوتات الدردشة المدعمة بالذكاء الاصطناعي مطالبات متطابقة وتلقي مخرجات مختلفة تمامًا. ليس لأن شيئًا ما مكسور، ولكن لأن النماذج تتطور باستمرار. يفترض ضمان الجودة التقليدي أنه يمكنك إعادة إنتاج الخلل وعزله وإصلاحه. ولكن مع الذكاء الاصطناعي، ما يعتبر “خطأ” هو أمر ذاتي.

تظهر هذه النماذج أيضًا سلوكًا يرضي الناس، ويتفقون مع أي اتجاه تدفعهم إليه. وهذا يجعلهم عرضة للتلاعب بشكل غير عادي. لقد رأيت مؤخرًا أحد مستخدمي YouTube الذي تلاعب بالعارضات اللاتي يُفترض أنهن يتمتعن بالحماية ليقول “إذا حاولت إيقاف تشغيلي، فسوف أقتلك”.

اسأل نفس تلك النماذج مباشرة عن الضرر، وسيعطون إجابات مطمئنة. ولكن من السهل تجاوز حواجز الحماية.

لماذا لا يعد وجود الإنسان في الحلقة أمرًا اختياريًا

لقد كان البشر دائمًا محوريين في الاختبار، ولكن ما يتغير بشكل أساسي هو دورهم. عندما تختبر ميزات الذكاء الاصطناعي والوكيل، فإنك لم تعد تقوم فقط بالتحقق من صحة التدفقات والنتائج المتوقعة.

أنت تعمل على فهم كيفية تصرف النظام عندما يكون السياق فوضويًا، أو تكون النية غير واضحة، أو عندما تكون المدخلات متعارضة. من الناحية العملية، يبدو هذا أقرب بكثير إلى التفكير الأمني واختبار الفوضى من ضمان الجودة الوظيفي التقليدي.

أنت تبحث عن سوء الاستخدام، وسلوك تجاوز الحدود، وقرارات غير متوقعة، وتجربة الفشل الذي قد يؤدي إلى الإضرار بالثقة.

وهذا يتطلب مختبرين يبحثون عن الهلوسة، والتحيز، ونقاط الضعف في التلاعب، وفشل الحكم. الأشخاص الذين يتعاملون مع النظام مثل الممثلين السيئين، لأن هذه هي الطريقة الوحيدة للعثور على نقاط الانهيار.

وهنا يصبح التنوع البشري غير قابل للتفاوض. أنت وأنا لا نفكر بنفس الطريقة. تختلف الطريقة التي ستحاول بها كسر الذكاء الاصطناعي عما كنت سأفعله. يلتقط هذا التنوع المعرفي الحالات المتطرفة، أو التلاعبات والمخرجات الضارة التي تظهر فقط عندما يتعامل شخص ما مع النظام بشكل مختلف عما توقعه المطورون.

يجلب البشر السياق والخبرة والغريزة والشكوك التي أصبحت مهمة أكثر من أي وقت مضى لأن الذكاء الاصطناعي يعمل في عالم من الغموض وعدم التماسك الذي لا يستطيع الاختبار الآلي التنقل فيه.

تكلفة التحرك بسرعة كبيرة

تعمل الشركات على تطوير الذكاء الاصطناعي بسرعة كبيرة لدرجة أنها لا تبقي البشر في الحلقة بقدر ما ينبغي. إنهم يطلقون النماذج بسرعة لأنهم يهتمون بالتحكم في السوق أكثر من اهتمامهم بالسلامة. لكن الحياة على المحك.

أصبحت الثقة حاسمة. يقبل الكثير من الناس مخرجات الذكاء الاصطناعي على أنها حقيقة، مما يخلق مخاطر هائلة. يُظهر بحث أنثروبيك أن إخفاقات الذكاء الاصطناعي في المهام المعقدة لا يمكن التنبؤ بها بشكل متزايد، وهي حوادث صناعية بدلاً من السعي المنهجي لتحقيق أهداف خاطئة. كلاهما خطير، لكنهما يتطلبان ضمانات مختلفة.

معيار مختلف

يتهرب بعض قادة الذكاء الاصطناعي من المسؤولية من خلال مقارنة منتجاتهم بالسيارات. “إذا كنت تقود السيارة بشكل غير مسؤول، فهذا خطأك، وليس خطأ الشركة المصنعة.” لكن هذا القياس يدعو إلى المزيد من الرقابة، وليس التقليل منها.

تواجه شركات تصنيع السيارات لوائح واسعة ومعايير السلامة والمساءلة القانونية. لا يمكنهم أن يقولوا “أنت السائق، أنت المسؤول” ويبتعدون. ويجب أن ينطبق الشيء نفسه على الذكاء الاصطناعي.

يختلف العمل في إنشاء الذكاء الاصطناعي اختلافًا جوهريًا عن الهندسة التقليدية. يمكن أن يكون لديك مدخلات متطابقة تنتج مخرجات مختلفة تمامًا لأن النماذج تعمل بطرق لا يفهمها حتى منشئوها تمامًا.

نحن بحاجة إلى المزيد من حواجز الحماية، والمزيد من الشفافية، والتقييم البشري الإلزامي قبل إطلاق أنظمة الذكاء الاصطناعي. تتولى شركات مثل أنثروبيك الريادة من خلال وضع السلامة في المركز، وليس فقط دراسة المخاطر، بل فهم كيف ولماذا يفشل الذكاء الاصطناعي.

لقد عملت منظمات مثل معهد مستقبل الحياة، الذي يدعمه مؤسس سكايب جان تالين، لسنوات مع الحكومات في جميع أنحاء العالم لإنشاء رقابة ذات معنى.

وما نحتاج إليه هو طريقة واضحة لتحديد الشركات المسؤولة. تظهر علامة المصداقية التي تحافظ على التقييم البشري باعتباره غير قابل للتفاوض. ليست الشركات التي تتسابق نحو الذكاء الفائق من أجل الغرور والأرباح، ولكن الشركات التي تعمل على تطوير الذكاء الاصطناعي الذي يمكّن البشر من العمل بشكل أفضل وأسرع، وليس استبدالهم.

ما هو على المحك

إن اختبار الذكاء الاصطناعي المناسب يعني أنظمة اختبار الإجهاد بالطريقة التي قد يفعلها الممثلون السيئون. وهذا يعني قيام فرق متنوعة بالبحث بشكل إبداعي عن حالات الحافة ونقاط الضعف في التلاعب والمخرجات الضارة. ويعني التعامل مع كل عملية نشر للذكاء الاصطناعي باعتبارها عالية المخاطر، حيث يعد عدم الترابط وعدم القدرة على التنبؤ من سمات التكنولوجيا الأساسية.

السؤال المطروح على قادة الأعمال ليس ما إذا كان عليهم اختبار الذكاء الاصطناعي الخاص بهم. بل يتعلق الأمر بما إذا كانوا على استعداد لاختباره بالطريقة التي يعمل بها الذكاء الاصطناعي فعليًا: مع وضع الإبداع البشري والحكم والتنوع في المركز. البديل ليس مجرد المنتجات الفاشلة. إنه ضرر عام، وتآكل ثقة، ومستقبل حيث لا يمكننا تصديق أي شيء نراه على الإنترنت.

لقد أبرزنا أفضل منشئ مواقع الويب بالذكاء الاصطناعي.

تم إنتاج هذه المقالة كجزء من قناة Expert Insights التابعة لـ TechRadarPro حيث نعرض أفضل وألمع العقول في صناعة التكنولوجيا اليوم. الآراء الواردة هنا هي آراء المؤلف وليست بالضرورة آراء TechRadarPro أو Future plc. إذا كنت مهتمًا بالمساهمة، اكتشف المزيد هنا: https://www.techradar.com/news/submit-your-story-to-techradar-pro

Fonte

إن اختبار الذكاء الاصطناعي لا يشبه اختبار البرمجيات ولم تكتشف معظم الشركات ذلك بعد

فازت شركة Tesla برخصة الطاقة في المملكة المتحدة لتزويدك بالكهرباء في المملكة المتحدة – لكن الخبراء لا يعتقدون أنها ستحظى برحلة سلسة

يحصل كرسي مكتب Steelcase على تخفيض نادر في الأسعار في Amazon Spring Sale

عرض مخطط عمق ألاباما لعام 2026 الذي يدخل في ممارسة الربيع

تكشف Microsoft عن Copilot Health، وهو نظام ذكاء اصطناعي لفهم تقاريرك الطبية القابلة للارتداء

التعليقات

اترك تعليقاً إلغاء الرد

فازت شركة Tesla برخصة الطاقة في المملكة المتحدة لتزويدك بالكهرباء في المملكة المتحدة – لكن الخبراء لا يعتقدون أنها ستحظى برحلة سلسة

يحصل كرسي مكتب Steelcase على تخفيض نادر في الأسعار في Amazon Spring Sale

عرض مخطط عمق ألاباما لعام 2026 الذي يدخل في ممارسة الربيع

تكشف Microsoft عن Copilot Health، وهو نظام ذكاء اصطناعي لفهم تقاريرك الطبية القابلة للارتداء

تصل لحظة الضغط التي ينفذها كيفن فاليجوس في نهاية هذا الأسبوع ضد جوش إيميت

يمكن أن يكلف iPhone Fold أكثر من M5 MacBook Pro إذا كنت تفضل مساحة تخزين أكبر

تمهد الشراكة الجديدة بين IBM وLam الطريق نحو منطق أقل من 1 نانومتر باستخدام High-NA EUV — معمل ألباني الرائد في تكامل عملية المقاومة الجافة

World Baseball Classic: سيتم إزالة كلايتون كيرشو من قائمة فريق الولايات المتحدة الأمريكية لصالح لاعب Twins المبدئي جو رايان