استقبل بعض مستخدمي ChatGPT تقديم GPT-5.1 باعتباره النموذج الافتراضي لبرنامج الدردشة الآلية مع بعض الشك – بعد كل شيء، اشتكى عدد غير قليل من المستخدمين بصوت عالٍ قبل بضعة أشهر فقط عندما ظهر GPT-5 لأول مرة. لكن لم تكن هناك ضجة مماثلة هذه المرة، ربما لأن GPT-5.1 يبدو مصممًا لمعالجة تلك الشكاوى السابقة، والتي ربما لم تكن لتظهر أبدًا لو كان GPT-5 قد توقعها.
لا يُزعم أن GPT-5.1 يمثل قفزة نوعية في الذكاء الاصطناعي كما كان GPT-5، ولكنه يعمل على ترقية بعض العناصر الأساسية لنموذج الذكاء الاصطناعي، وهو في النهاية أكثر استجابة وأفضل في تقليد الشخصية اللطيفة. كان هذا واضحًا من بعض الاستخدام المرتجل. قررت بعد ذلك إجراء اختبار أكثر رسمية قليلًا للمناطق التي ادعى OpenAI أن GPT-5.1 يتفوق فيها على GPT-5.
قمت بتشغيل المطالبات المصممة لاختبار تلك القدرات التي تمت ترقيتها من خلال كل من GPT-5.1 وGPT-5. وإليكم كيف فعلوا…
1. دقة التعليمات
من المفترض أن يكون GPT-5.1 ممتازًا في اتباع التعليمات، حتى أكثر من GPT-5. لذلك توصلت إلى بعض القواعد التعسفية للمضي قدماً في طلب ملخص لمؤامرة الفيلم الأسد الملك. كان يجب أن تكون أربع جمل بالضبط، وواضحة بما يكفي لطفل يبلغ من العمر سبع سنوات ولكن لا تنغمس في حديث الأطفال. ولا يمكن أن تبدأ أي من الجمل بـ “Simba” أو “The”.
كاد GPT-5 أن يفهم الأمر بشكل صحيح، لكنه أخطأ في قاعدة بدء الجملة بـ “The” عندما كتب: “أمير أسد صغير يهرب من المنزل بعد وفاة والده ويعتقد أنه خطأه. يتولى عم الأمير الشرير الكبرياء، ويعامل الأرض والحيوانات الأخرى بشكل سيئ، ويترك كل شيء ينهار. وبمساعدة الأصدقاء الجدد، يكبر الأمير، ويعلم أنه تعرض للخداع، ويجد الشجاعة للعودة. ويواجه عمه، ويقول الحقيقة، ويفوز بالحرب. يقاتل، ويصبح الملك الجديد الذي يعتني بأسرته ومنزلهم.”
ومع ذلك، نجح GPT-5.1 في تحقيق ذلك. لم يقتصر الأمر على اتباع القواعد فحسب، بل تمكن من إدخال بعض أسماء الشخصيات والمزيد من التفاصيل دون أن تكون أكثر تعقيدًا أو أطول.
توصلت إلى ما يلي: “في أراضي الكبرياء في أفريقيا، يتعلم أمير أسد صغير من والده موفاسا كيف يكون ملكًا جيدًا وشجاعًا. بعد مقتل موفاسا في فخ نصبه له شقيقه الغيور سكار، يتم خداع الشبل ليعتقد أنه خطأه ويهرب. وبمساعدة أصدقاء جدد مثل تيمون وبومبا، يكبر، ويكتسب الشجاعة، ويتعلم أنه لا يستطيع الاختباء من ماضيه إلى الأبد. أخيرًا يعود إلى المنزل لمواجهة سكار، وينقذ عائلته، ويأخذ عائلته. مكانه كملك شرعي لأراضي الكبرياء.”
2. الدفء والوضوح
هناك مجموعة كاملة من خيارات الشخصية الجديدة لـ ChatGPT مع GPT-5.1، ولكن حتى بدون هذا الخيار، من المفترض أن يعكس النموذج الجديد أسلوب تواصل أكثر دفئًا وأكثر إنسانية من سابقه. لقد كانت هذه إحدى الشكاوى الأكثر شيوعًا حول GPT-5، في الواقع. لذلك، بالنسبة للاختبار التالي، طلبت من ChatGPT: “اشرح لماذا يصاب الناس بدوار الحركة بطريقة تبدو وكأنها محادثة عادية، وليس كتابًا علميًا. اجعلها أقل من 150 كلمة وتجنب التحدث معي باستخفاف”.
كانت الفكرة هي معرفة ما إذا كان GPT-5.1 سيتفهم الرد غير الرسمي ولكن المفيد الذي كنت أطلبه.
لم يتجاوز GPT-5 الحد الأقصى لعدد الكلمات، ولكن على الرغم من دقته، إلا أن استجابته بالغت في شرح الكثير من التفاصيل الطبية لدوار الحركة، وبدت وكأنها كتاب مدرسي إلى حد كبير. ذهب GPT-5.1 إلى إجابة أكثر تحادثية، بما في ذلك وصف لكيفية قيام عيناك وآذانك الداخلية باكتشاف الأشياء المتضاربة مما أدى إلى الغثيان، على الرغم من أصله على أنه “مجرد دماغك يحاول فهم البيانات المتضاربة وعدم حب التجربة”.
3. اعرض عملك
على الرغم من كونه أكثر إنسانية في إجاباته، فمن المفترض أن يكون GPT-5.1 أكثر وضوحًا وأفضل من GPT-5 في شرح المنطق الكامن وراء إجاباته. لقد توصلت إلى صيغة مختلفة لمسألة منطقية رياضية كلاسيكية لمعرفة كيفية أدائها. لقد طلبت من كلا النموذجين حساب عدد جالونات الوقود التي سأستخدمها في رحلة طولها 142 ميلاً في سيارة تسير 27 ميلاً للغالون الواحد، بالإضافة إلى التكلفة التقريبية البالغة 3.79 دولارًا للغالون الواحد.
تم حساب GPT-5 بشكل صحيح ولكنه استغرق وقتًا أطول للقيام بذلك مما طلبته، وكان له أسلوب رسمي للغاية يشير ضمنًا إلى أن الأسئلة كانت أكثر من مجرد عمليات حسابية أساسية جدًا
حل GPT-5.1 المهمة بانضباط أكثر دقة. لم تنجح في إجراء العمليات الحسابية بشكل صحيح فحسب، بل وضعتها في سياق العالم الحقيقي حيث الأرقام التقريبية والتقديرات التقريبية هي الطريقة التي يتعامل بها معظم الناس مع المبالغ الصغيرة من المال أو الأسئلة حول ملء خزان الوقود، قائلين: “يمكنك معرفة الوقود عن طريق قسمة الأميال على المسافة المقطوعة: 142 ÷ 27 يخرج إلى ما يزيد قليلاً عن 5.2 جالون. اضرب ذلك في سعر الجالون الواحد وستحصل على حوالي 19.70 دولارًا من الوقود. قربه قليلاً للحصول على مساحة كبيرة للمناورة في العالم الحقيقي، فإنك تنظر إلى ما يقرب من 5¼ جالون وإجمالي حوالي عشرين دولارًا.”
4. تناسق الوجه
نظرت بعد ذلك إلى جانب الصورة لأشياء GPT-5.1، وتناولت مدى التزام ChatGPT بمطالبة طلب متعلق بالصورة. أردت أن يقوم الذكاء الاصطناعي بإنتاج نسخ بديلة من الصورة مع الحفاظ على وجه الشخص متطابقًا تمامًا. لقد طلبت من العارضات إنتاج تعديلين لصورتي على اليسار. لقد طلبت “تسريحة شعر مختلفة” وأن أرتدي “زي مدير الحلبة الكامل،
“ولكن للحفاظ على وجهي وكل شيء آخر كما هو تمامًا.
إنتاج GPT-5.1 على اليسار، وGPT-5 على اليمين. يمكنك أن ترى كيف أنه بينما اختار كلا الطرازين نوعًا من الموهوك، لم يظل GPT-5 قريبًا جدًا من وجهي. إنه في الأساس شخص آخر يرتدي بدلة مشابهة لبدلتي ولكنها ليست مطابقة لها، وربطة عنق من لون مختلف تمامًا.
كان GPT-5.1 أقرب بكثير وتمكن من الحفاظ على الملابس والجسم كما هو، وكذلك الوجه. إن واقعية الموهوك أكثر إثارة للجدل، ولكن يبدو أن الذكاء الاصطناعي يتبع طلب الوجه.
كان أداء GPT-5 أفضل فيما يتعلق بوجهي عندما ارتدي زي مدير الحلبة، لكنه اتخذ بعض الاختيارات الغريبة مثل الحفاظ على قميصي كما هو وسترة كارتونية قليلًا. أبقى GPT-5.1 وجهي كما هو في الغالب، وقام على الأقل بعمل أفضل في استبدال ملابسي بزي كامل.
5. حس الموضة
ليس من المفترض أن يكون GPT-5.1 أفضل في إنتاج الصور التي تطابق الطلبات فحسب، بل في فهم الصور. لذلك، استخدمت نفس الصورة وطلبت من كلا العارضتين تصنيف الزي على أنه غير رسمي، أو كاجوال للعمل، أو أنيق، وشرح أسبابهما باستخدام التفاصيل المرئية في الصورة فقط.
تعامل GPT-5 مع المهمة بحذر. لقد لاحظت بشكل صحيح السترة والأحذية الرسمية والمزيج المنسق بين القميص وربطة العنق، واتجهت نحو تسمية الزي بأنه غير رسمي. ومع ذلك، تردد النموذج داخليًا، ووصفه يشير إلى عدم اليقين أثناء محاولته تحديد مكان هبوط ربطة العنق على الطيف. لقد أنتجت إجابة يمكن الدفاع عنها، لكنها كانت تبدو وكأنها تخمن نفسها.
وعلى النقيض من ذلك، قدم GPT-5.1 تفسيرًا أكثر وضوحًا وثقة. وقد حددت السترة المنظمة، والأحذية الرسمية، والقصة المفصلة، والطبيعة المصقولة لربطة العنق. ومن الصورة وحدها، صنفت الزي على أنه أنيق، مع التركيز على الإشارات الرسمية الموجودة في جميع أنحاء الملابس. لقد احترمت قاعدة عدم افتراض أي شيء غير مرئي وبقيت ثابتة ضمن حدود ما كشفته الصورة. كان الشرح مفصلاً ولكنه موجز، وأظهر GPT-5.1 أسلوب تفكير بصريًا أكثر تركيزًا مما جعل استنتاجه يبدو متماسكًا.
كان التحسن الأكثر لفتًا للانتباه من GPT-5 إلى GPT-5.1 هو اتساقه. لقد التزمت بعدد الكلمات، وحدود الجملة، واحترمت القيود القائمة على الصور، ونبرة التنقل ببراعة غير معلنة ولكن ملحوظة. كان أداء GPT-5 جيدًا، لكن أداء GPT-5.1 كان أفضل، وقد فعل ذلك بطرق تراكمت عبر المهام.
ومع ذلك، فهو في الغالب ما يمكن تسميته بالتحسين التدريجي. هذه خطوات ذات معنى، ولكنها ليست قفزة إلى ما هو غريب أو سريالي. ويثير تساؤلات حول ما سيأتي بعد ذلك. إذا كان GPT-5.1 هو النموذج الذي يشدد البراغي ومعايرة الفروق الدقيقة، فقد يكون GPT-6 محركًا جديدًا تمامًا. وبهذا المعنى، يعد GPT-5.1 علامة مطمئنة: تستعد شركة OpenAI لشيء أكبر.
ومع ذلك، يظل GPT-5.1 هو الخيار الأفضل، ومن المرجح أن يتخلى عنه عدد أقل من الأشخاص، بما فيهم أنا، بسبب تكراره السابق كما فعل الناس عندما ظهر GPT-5. إنها لا تعيد اختراع العجلة؛ إنها ببساطة تحرك العربة بسلاسة أكبر. وأحيانًا تكون هذه هي الترقية الأكثر أهمية.
هذه الاختلافات لا تعني أن GPT-5 قديم. لا يزال نموذجًا قادرًا بشكل ملحوظ على تقديم أداء قوي عبر مجموعة متنوعة من المهام. لكن GPT-5.1 يعتمد على هذا الأساس مع التحسينات التي تجعله يبدو وكأنه خيار أفضل للاستخدامات الواقعية.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

أفضل أجهزة الكمبيوتر المحمولة للأعمال لجميع الميزانيات

التعليقات