
قليلون هم من توقعوا أن يصبح مقطع الفيديو المشوه والمشوه الذي يظهر ويل سميث وهو يحاول تناول السباغيتي أحد أهم العلامات في تاريخ الذكاء الاصطناعي الحديث.
كان مقطع 2023 الأصلي الذي تم إنشاؤه باستخدام ModelScope سيئًا بشكل لا يُنسى من الناحية التشغيلية. كان وجه سميث مشوهًا بين تعابير غير متطابقة، وتحولت يداه إلى زوائد مطاطية، وطفت المعكرونة وكأنها تتحرك تحت قانون الجاذبية الغريب الخاص بها. أصبحت عبارة “ويل سميث يأكل السباغيتي” نوعًا من الاختصار للمرحلة المبكرة المضطربة من إنتاج فيديو الذكاء الاصطناعي.
3 سنوات من التقدم في الذكاء الاصطناعي من r/OpenAI
يبدو مقطع 2023 وكأنه بقايا الآن، وهو نوع من الأشياء التي يعرضها الناس في الأفلام الوثائقية عن فجر التكنولوجيا لتوضيح مرحلة المراهقة المحرجة. لم يتمكن الذكاء الاصطناعي من الحفاظ على ثبات هوية سميث من إطار إلى آخر، وكشف الفيديو الأولي عن الحدود الحقيقية لأنظمة تحويل النص إلى فيديو المبكرة. بحلول أوائل عام 2024، كان الميم قد نما بما يكفي من الأرجل التي انضم إليها سميث بنفسه في النكتة، حيث نشر مقطع فيديو على TikTok بالغ فيه في كل حركة بينما كان يأكل السباغيتي في الحياة الحقيقية.
يحتوي الإصدار الأحدث، باستخدام Kling 3.0، على مشهد كامل لسميث وهو يتناول السباغيتي مع طفل ويجري محادثة، كل ذلك من خلال أمر واحد.
سينما الذكاء الاصطناعي
تظهر التحسينات في فيديو الذكاء الاصطناعي بسرعة في الفيديو. الطريقة التي تظل بها العينان متوازيتين، تستقر بنية الوجه، ويتوقف الوعاء عن التنقل بين الإطارات. تتصرف السباغيتي في الواقع كجسم مادي بحلول الوقت الذي تصل فيه المجموعة إلى أحدث نماذجها. حتى الإضاءة تصبح متماسكة.
كانت النماذج المبكرة قادرة على إنتاج إطارات تبدو جيدة في عزلة، لكنها لم تتمكن من الحفاظ على الشخصية أو نمط الحركة أو حتى المشهد عبر الزمن. يحافظ Kling 3.0 على الاستمرارية طوال الوقت. يبدو مقطع الفيديو القصير وكأنه ينتمي إلى نفس الواقع المادي من البداية إلى النهاية.
إنه عرض مضغوط بالوقت لكيفية تحول أولويات البحث بأكملها. في البداية جاء الاتساق التشريحي، ثم تماسك الحركة، ثم الدقة الأعلى، ثم الفيزياء الواقعية، ثم قدرة النماذج على متابعة المقصد العاطفي أو السردي للمحفز.
اختبار السباغيتي
الشخصية هي ما يجعل ميمي السباغيتي يدوم. والشخصية، من نوع ما، هي ما بدأت أحدث النماذج في التقاطه. في المقاطع الأولى، لا يوجد شيء على الشاشة يتصرف بقصد. في النهاية، يبدو أن سميث الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يقوم بالفعل بعمل ما، كما لو كان يسترشد بمنطق داخلي بدلاً من الارتجال العشوائي من إطار إلى إطار.
يشير هذا التحول إلى شيء مهم بالنسبة للمجال الأوسع لفيديو الذكاء الاصطناعي. بمجرد أن يتمكن النموذج من الحفاظ على الشخصية من خلال الحركة، فإنه يفتح الباب أمام تقديم الفعل البشري بطريقة تناسب توقعاتنا.
لقد أمضى الإنترنت سنوات في أرشفة سخافته الخاصة، لكن هذه الميم نضجت لتصبح نوعًا من المقياس. إذا كان النموذج قادرًا على القيام بذلك بشكل مقنع، فهو يعمل بمستوى لم تكن الأنظمة الأولى تتخيله.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات