التخطي إلى المحتوى

غالبًا ما يتم الاحتفال بالحوسبة لدقتها وسرعتها. لكن الباحثين ومشغلي مراكز البيانات واسعة النطاق يحذرون من التهديد المتزايد الذي يتحدى أحد الوعود الأساسية للحوسبة: الصحة. تُعرف هذه المشكلة باسم تلف البيانات الصامت (SDC) – وهي ظاهرة تؤدي فيها عيوب الأجهزة إلى قيام البرامج بإنتاج نتائج غير صحيحة دون تعطلها أو حدوث خطأ أو ترك أي أثر مرئي.

التهديد غير المرئي داخل الرقائق الحديثة

في قلب القلق توجد عيوب السيليكون في وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسومات (GPU) ومسرعات الذكاء الاصطناعي. يمكن أن تنشأ هذه العيوب أثناء تصميم الرقاقة أو تصنيعها أو حتى تتطور لاحقًا بسبب الشيخوخة أو العوامل البيئية. في حين أن الشركات المصنعة تقوم بفحص معظم العيوب، فإن اختبارات الإنتاج الأكثر صرامة يمكنها فقط اكتشاف ما يقدر بـ 95% إلى 99% من العيوب النموذجية. بعض الرقائق المعيبة ستصل حتماً إلى الميدان.

وفي بعض الحالات، تؤدي هذه العيوب إلى فشل واضح مثل تعطل النظام. لكن الأمر الأكثر إثارة للقلق هو الأخطاء الصامتة. هنا، قد تنتج البوابة المنطقية الخاطئة أو الوحدة الحسابية قيمة خاطئة أثناء التنفيذ. إذا انتشرت هذه القيمة عبر البرنامج دون تشغيل آليات الكشف، فإن النظام يكمل المهمة ويعيد مخرجات غير صحيحة – دون أي إشارة إلى حدوث أي خطأ.

لعقود من الزمن، اعتقد الكثيرون أن أحداث SDC كانت نادرة، وأحداث أسطورية تقريبًا. ومع ذلك، فقد كشف كبار المشغلين على نطاق واسع، بما في ذلك Meta وGoogle وAlibaba، أن ما يقرب من واحد من كل 1000 وحدة معالجة مركزية في أساطيلهم يمكن أن ينتج تلفًا صامتًا في ظل ظروف معينة. تم الإبلاغ عن مخاوف مماثلة في وحدات معالجة الرسومات ومسرعات الذكاء الاصطناعي.

الصواب هو خاصية أساسية للحوسبة. سواء كانت معالجة المعاملات المالية، أو تشغيل استدلال الذكاء الاصطناعي، أو إدارة البنية التحتية، فمن المتوقع أن تقدم الأنظمة نتائج دقيقة ضمن قيود زمنية صارمة.

والفساد الصامت يقوض تلك الثقة. على عكس الأعطال، التي تكون مرئية على الفور وتتطلب تحقيقًا سريعًا، تقوم مراكز البيانات المحددة (SDC) بتغيير المخرجات بهدوء. في مراكز البيانات التي تعمل بملايين النوى، حتى معدل العيوب البسيط يمكن أن يترجم إلى مئات من نتائج البرامج غير الصحيحة يوميًا.

إن حجم الحوسبة الحديثة يزيد من حدة المشكلة

تحتوي البنى المتوازية الضخمة مثل وحدات معالجة الرسومات ومسرعات الذكاء الاصطناعي على آلاف الوحدات الحسابية. كلما زاد عدد المكونات التي يتضمنها النظام، زاد الاحتمال الإحصائي بأن يكون بعضها معيبًا.

ويكاد يكون من المستحيل قياس القيم المعيارية المحددة بشكل مباشر ــ فهي صامتة بحكم تعريفها. ولذلك يجب على الصناعة أن تقدر معدلاتها وأن تزن تكلفة الوقاية. توجد آليات الكشف والتصحيح، لكنها يمكن أن تزيد بشكل كبير مساحة السيليكون واستهلاك الطاقة والأداء العام.

يدعو الباحثون إلى حلول متعددة الطبقات، بما في ذلك اختبارات التصنيع المحسنة، ومراقبة مستوى الأسطول في مراكز البيانات، ونماذج تقدير الأخطاء الأكثر ذكاءً، وأساليب التصميم المشترك للأجهزة والبرامج التي تحتوي على أخطاء قبل انتشارها.

ومع نمو أنظمة الحوسبة بشكل أكبر وأسرع، أصبح التحدي واضحًا: الحفاظ على السرعة والصحة دون تكلفة غير مستدامة. وفي ما يصفه البعض بـ “العصر الذهبي للتعقيد”، فإن ضمان بقاء الحوسبة جديرة بالثقة قد يصبح واحداً من المعارك الهندسية الحاسمة في هذه الصناعة.

Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *