التخطي إلى المحتوى

في شهر سبتمبر/أيلول الماضي، نشر عالم الروبوتات بنجي هولسون “الألعاب الأولمبية التي تشبه البشر”: وهي عبارة عن مجموعة من الاختبارات المتزايدة الصعوبة للروبوتات الشبيهة بالبشر والتي أظهرها بنفسه وهو يرتدي بدلة فضية. بدأت التحديات، مثل فتح الباب بمقبض باب دائري، بسهولة، على الأقل بالنسبة للإنسان، وتطورت إلى مهام “الميدالية الذهبية” مثل تزرير وتعليق قميص رجالي بشكل صحيح واستخدام مفتاح لفتح الباب.

كانت وجهة نظر هولسون هي أن المهام الصعبة ليست هي المهام المبهرة. وبينما تتميز المسابقات الأخرى بوجود روبوتات تمارس الرياضة والرقص، قال هولسون إن الروبوتات التي نريدها بالفعل هي تلك التي يمكنها القيام بغسيل الملابس وطهي الوجبات.

وتوقع أن تستغرق التحديات سنوات لحلها. وبدلاً من ذلك، في غضون أشهر، أكملت شركة الروبوتات Physical Intelligence 11 تحديًا من أصل 15 تحديًا – من البرونز إلى الذهب – باستخدام روبوت يغسل النوافذ، وينشر زبدة الفول السوداني، ويستخدم كيس فضلات الكلاب.


حول دعم الصحافة العلمية

إذا كنت تستمتع بهذا المقال، ففكر في دعم صحافتنا الحائزة على جوائز من خلال الاشتراك. من خلال شراء اشتراك، فإنك تساعد على ضمان مستقبل القصص المؤثرة حول الاكتشافات والأفكار التي تشكل عالمنا اليوم.


العلمية الأمريكية تحدث إلى هولسون حول سبب تفوق الأنظمة المعتمدة على الرؤية فقط أو الكاميرا على توقعاته ومدى قربنا من آلة مفيدة حقًا. ومنذ ذلك الحين أطلق مجموعة جديدة أكثر صعوبة من التحديات.

(وفيما يلي نسخة منقحة من المقابلة.)

لقد صممت هذه التحديات لتكون صعبة. هل فوجئت بمدى سرعة ظهور النتائج؟

لقد كان أسرع بكثير مما كنت أتوقع. عندما اخترت التحديات، كنت أحاول معايرتها بحيث يتم إنجاز بعض التحديات البرونزية في أول شهر أو شهرين، ثم الفضية والذهبية في الأشهر الستة التالية، وقد تستغرق أصعب التحديات سنة أو سنة ونصف. إن جعلهم يقومون بكل هذه المهام تقريبًا في الأشهر الثلاثة الأولى هو أمر غريب.

ما الذي جعل ذلك ممكنا؟

لقد بدأت بفرضية مفادها أن لدينا أشياء تبدو مثيرة للإعجاب في مجموعة ضيقة إلى حد ما من المهام – الرؤية فقط، بدون لمس، مناور بسيط، وليس دقة مذهلة. وهذا يحد مما يمكنك أن تكون جيدًا فيه. حاولت أن أفكر في المهام التي تتطلب منا الخروج من تلك المجموعة للأمام. اتضح أنني قللت بشدة من تقدير ما هو ممكن باستخدام أدوات الرؤية فقط والمتلاعبين البسيطين.

عندما زرت الذكاء الجسدي، علمت أنه ليس لديهم أي استشعار للقوة. إنهم يفعلون كل ذلك بناءً على الرؤية بنسبة 100%. مهمة إدخال المفتاح، ونشر زبدة الفول السوداني، اعتقدت أن ذلك سيتطلب مدخلات قوة. ولكن يبدو أنك تقوم فقط برمي المزيد من العروض التوضيحية بالفيديو، وسيعمل.

كيف بالضبط تدرب الروبوت على القيام بذلك دون تشفيره سطرًا تلو الآخر؟

كل شيء يتعلم من العرض التوضيحي. يقوم شخص ما بتشغيل الروبوت عن بعد للقيام بالمهمة مئات المرات، ويقوم بتدريب نموذج بناءً على ذلك، ومن ثم يمكن للروبوت القيام بالمهمة.

هناك الكثير من الالتباس حول ما إذا كانت نماذج اللغات الكبيرة (LLMs) غير مجدية بالنسبة للروبوتات. هل هم؟

لقد اعتدت أن أكون متشككًا إلى حد ما في فائدة ماجستير إدارة الأعمال في مجال الروبوتات. كانت المشكلة التي كانوا جيدين في حلها منذ عامين أو ثلاثة أعوام هي التخطيط عالي المستوى – “إذا كنت أرغب في صنع الشاي، فما هي الخطوات؟” ترتيب الخطوات هو الجزء السهل. إن التقاط إبريق الشاي وملئه هو أمر صعب حقًا.

ومن ناحية أخرى، بدأنا في عمل نماذج الرؤية والفعل باستخدام نفس بنية المحولات (كتلك المستخدمة في ماجستير إدارة الأعمال). يمكنك استخدام المحولات لإدخال النص، أو إخراج النص، أو إدخال الصور، أو إخراج النص – ولكن أيضًا إدخال الصور، أو إخراج إجراءات الروبوت.

الشيء الجيد هو أنهم بدأوا بنماذج تم تدريبها مسبقًا على النصوص والصور وربما الفيديو. قبل أن تبدأ حتى في تدريب مهمتك المحددة، يفهم الذكاء الاصطناعي بالفعل ما هو إبريق الشاي، وما هو الماء، وقد ترغب في ملء إبريق الشاي بالماء. لذا، أثناء تدريبك على مهمتك، ليس من الضروري أن تبدأ من “دعني أعرف ما هي الهندسة”. يمكن أن يبدأ الأمر بـ “أرى، نحن نحرك أباريق الشاي” – وهو أمر غريب أن ينجح الأمر.

كيف توصلت إلى المهام «الأولمبية»؟

لذلك كان جزء منه تحديًا وجزءًا منه كان توقعًا. حاولت أن أفكر في المجموعة التالية من الأشياء التي لا يمكننا القيام بها الآن والتي سيتمكن شخص ما من القيام بها قريبًا.

يعتمد البشر على اللمس للقيام بأشياء مثل العثور على المفاتيح في الجيب. كيف يمكننا التغلب على ذلك في مجال الروبوتات؟

هذا سؤال جيد جدًا لا نعرف إجابته بعد. تعد تقنية اللمس أسوأ بكثير، وأكثر تكلفة، وحساسة، ومتخلفة كثيرًا عن الكاميرات. الكاميرات، لقد عملنا عليها لفترة طويلة.

السؤال الكبير هو: هل الكاميرات كافية؟ لقد راهنت كل من شركة Physical Intelligence وSunday Robotics (التي أكملت مهمة الميدالية البرونزية المتمثلة في لف الجوارب المتطابقة) على أن وضع كاميرا على المعصم، بالقرب جدًا من الأصابع، يتيح لك نوعًا ما رؤية القوى من خلال رؤية كيف يتحطم كل شيء. عندما يمسك الروبوت بشيء ما، يرى أن الأصابع تحتوي على بعض المطاط الذي ينحرف؛ ينحرف الجسم، ويستنتج قوى من ذلك. عند دهن زبدة الفول السوداني على الخبز، يشاهد الروبوت السكين وهو ينحرف إلى الأسفل ويسحق الخبز ويحكم على القوى الناتجة عن ذلك. إنه يعمل بطريقة أفضل مما كنت أتوقع.

ماذا عن السلامة؟

غالبًا ما تكون الطاقة اللازمة للبقاء متوازنًا عالية جدًا. إذا سقط الروبوت، فهذا تسارع سريع جدًا وصعب لوضع ساقه في المقدمة في الوقت المناسب. يجب على نظامك أن يضخ الكثير من الطاقة إلى العالم، وهذا أمر غير آمن.

أنا من أشد المعجبين بروبوتات القنطور، وهي عبارة عن قاعدة عجلات متحركة ذات أذرع ورأس. من أجل السلامة، هذه طريقة أسهل للوصول إلى هناك بسرعة. إذا فقد الإنسان قوته، فسوف يسقط. يبدو أن الخطة العامة تهدف إلى جعل الروبوت ذا قيمة كبيرة للغاية، بحيث نقوم كمجتمع بإنشاء فئة أمان جديدة له، مثل الدراجات والسيارات. إنها خطيرة ولكنها ذات قيمة كبيرة لدرجة أننا نتحمل المخاطر.

هل غيرت هذه النتائج خطك الزمني؟

كنت أعتقد أن الروبوتات المنزلية كانت على بعد 15 عامًا على الأقل. الآن أعتقد ستة على الأقل. الفرق هو أنني اعتقدت أن الأمر سيستغرق وقتًا أطول بكثير قبل أن يصبح القيام بشيء مفيد في الفضاء البشري، حتى كعرض توضيحي، معقولًا.

لكن علماء الروبوتات رأوا مرارًا وتكرارًا أن هناك طريقًا طويلًا بين “لقد نجحت في المختبر وحصلت على مقطع فيديو” و”أستطيع بيع منتج ما”. كان Waymo يقود سيارته على الطرق في عام 2009؛ لن أتمكن من شراء رحلة حتى عام 2024. يستغرق الأمر وقتًا طويلاً للحصول على الموثوقية.

ما هو أكبر عنق الزجاجة المتبقي؟

الموثوقية والأمان – الأشياء التي يعرضها الذكاء الفيزيائي مثيرة للإعجاب بشكل لا يصدق، ولكن إذا وضعتها على طاولة مختلفة بإضاءة مختلفة واستخدمت جوربًا مختلفًا، فقد لا ينجح الأمر. ويبدو أن كل خطوة نحو التعميم تتطلب المزيد من البيانات، مما يحول أيام جمع البيانات إلى أسابيع أو أشهر.

Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *