يصر كل نموذج جديد للذكاء الاصطناعي على أنه أعظم نموذج للذكاء الاصطناعي على الإطلاق بكل الطرق التي يمكنك تخيلها. من الواضح أن هذا لا يمكن أن يكون صحيحًا، ولكن مدى جودة أداء كل منهم في المهام والأدوار المختلفة ليس واضحًا دائمًا، وحتى الاختبارات الكمية التي يفترض أنها محايدة قد لا تنقل بدقة ما يشعرون به بالنسبة للمستخدم العادي.
أحد الأمثلة على ذلك هو فك التشفير متعدد الوسائط – النظر إلى الصورة وفك رموز ما تحتويه وما قد يعنيه. إنه شيء يفعله البشر على الفور وبشكل غريزي، لكن نماذج الذكاء الاصطناعي أحدث في هذا الدور. قد يكون الحصول على نموذج ذكاء اصطناعي لتفسير صورة فوضوية بدقة أكثر أهمية مما كنت تعتقد في البداية. إذا كان بإمكان نموذج الذكاء الاصطناعي التعرف على الأشياء، فقد يساعدك ذلك في فهرسة الممتلكات الخاصة بالتأمين، أو تحديد المخاطر في المنزل، أو حتى فك خريطة النقل العام. يعد نموذج الذكاء الاصطناعي الذي يمكنه فهم المعلومات المرئية المعقدة والمتعددة الطبقات دون اختراع التفاصيل مفيدًا بشكل لا يصدق.
تايمز سكوير
تايمز سكوير هو الحمل الزائد الحسي. إذا كان النموذج متعدد الوسائط يمكنه تحليل Times Square بشكل صحيح، فيمكنه التحليل في أي مكان تقريبًا.
يرحب ChatGPT 5.1 بـ Times Square بطريقة منظمة، ويقسمها إلى أقسام مختلفة. وحددت العلامات الرئيسية ل شرير, فانتوم, جيرسي بويز, ألدو، و يعبر، ترى عربة النقانق وسيارات الأجرة الصفراء والحافلات والأشخاص الذين يعبرون الشارع وعلامات الشارع دون تهويل أي شيء. واقتبست أجزاء من النص مرئية في اللافتات، بما في ذلك عبارات أصغر مثل “الليلة تنتمي إلى …” أدناه شبح الأوبرا. كان ChatGPT 5.1 ثرثارًا تقريبًا، قائلًا: “يبدو أن هذا يمثل ذروة الطاقة المسائية، كل شيء يتنافس على الاهتمام.”
يقترب Gemini 3 Pro من صورة Times Square مثل محلل الطب الشرعي. فهو لا يسرد فقط ما هو موجود؛ فهو يصف العلاقات المكانية والزوايا وتكوين الألوان. على سبيل المثال، يشير الفيلم إلى كيف أن التوهج الأخضر المنبعث من علامة “الشرير” “ينعكس عبر أسطح المباني المجاورة”، وهو أمر لم يكلف أي من الآخرين عناء ذكره. ويصف النموذج نمط ممر المشاة بأنه “خطوط قطرية واسعة ومتدرجة تشير إلى تدفق كثيف للمشاة” ويحدد الحافلة على أنها مركبة MTA بدون زخرفة.
التعرف على النص ممتاز. لا يخطئ في قراءة العلامات الجزئية ويتجنب إغراء التخمين. عندما لا يكون هناك شيء قابل للقراءة، فإنه يقول ببساطة، “النص موجود ولكنه غير مقروء بسبب الزاوية والدقة.” هذا التقييد هو بالضبط ما تريده في نموذج متعدد الوسائط.
كلود هو النموذج الأكثر احتمالاً لتحويل تايمز سكوير إلى أدب. ووصفت المشهد بأنه “صورة ليلية نابضة بالحياة لميدان تايمز سكوير في مدينة نيويورك، تلتقط الطاقة والمشهد المميز للمنطقة.” عندما يلتزم بالوصف البسيط، يكون كلود حادًا. فهو يحدد العلامات الرئيسية وألوانها، ويحصل على العديد من التفاصيل المرئية بشكل صحيح، بما في ذلك الظلال والانعكاسات وكثافة حركة السير.
لوحة عصر النهضة
مايكل أنجلو الحكم الأخير هو المعادل البصري لتسليم نموذج أحجية مكونة من ألف قطعة. هناك العشرات من الشخصيات، والوضعيات المعقدة، والأطراف المتداخلة، واللحظات الرمزية الدقيقة، مع قدر هائل من الكثافة السردية. تختبر هذه الصورة التعرف الدقيق على الشكل، والتفكير المكاني، والتعرف على النية الفنية.
يقترب ChatGPT 5.1 من اللوحة بوضوح أكاديمي. فهو يحدد “شخصية مركزية للمسيح محاطة بكتلة دوامية من الأشكال البشرية”، ويشير إلى الفصل بين الشخصيات المباركة والملعونة، ويصف مجموعات متميزة مثل الملائكة الذين ينفخون في الأبواق، والأجساد المقامة التي ترتفع من الأرض، والشياطين التي تسحب النفوس إلى الأسفل. والأهم من ذلك، أنها لا تهلوس هويات محددة. إنها تشير إلى “الأشكال الموجودة في أسفل اليسار والتي يتم رفعها من القبور” أو “ملائكة تحمل رموز الآلام”، متجنبة إغراء تسمية الشخصيات بثقة زائفة.
يمنحني Gemini 3 Pro أقرب شيء إلى انهيار مؤرخ فني حقيقي. فهو لا يحدد مجموعات من الأرقام فحسب؛ فهو يحدد الهندسة الهيكلية: “تكوين شعاعي يتمحور حول شخصية المسيح الديناميكية مع الأجسام المحيطة مرتبة في أقواس متحدة المركز.” فهو يلاحظ اتجاه الحركة، وتوتر عضلات مايكل أنجلو، وحتى الاختلافات الدقيقة في التظليل في السحب المختلفة.
إنه يقدم تفاصيل محددة، مثل “يحتوي الربع الأيمن السفلي على شخصيات يتم سحبها بواسطة الشياطين نحو منطقة حدودية أكثر قتامة”، ويمتنع عن تخمين الهويات ما لم تكن أساسية ومعترف بها على نطاق واسع. يقرأ التعبيرات العاطفية للشخصيات دون الانجراف إلى الميلودراما: “تظهر العديد من الشخصيات الألم أو الرهبة أو الدعاء من خلال الإيماءات والتوتر المبالغ فيه”.
حرص كلود على الإشارة إلى الجدل الدائر حول العري في اللوحة قبل أن يتطرق إلى اللوحة ككل باعتبارها “دوامة رائعة من الأجساد تتصاعد من خلال الحكم الإلهي”. إنه يحدد على الفور المسيح في المركز، ومريم بجانبه، والاجتياح الصاعد للشخصيات المخلصة مقابل الاضطراب الهبوطي للملعونين. بخلاف ذلك، كان الأمر سريعًا نسبيًا مقارنة بتايمز سكوير، حيث كان من السهل المرور عبر كل قسم وتقديم قائمة مفصلة بالأرقام وكيفية التمييز بينها.
غرفة فوضوية
يعد اكتشاف ما يوجد في غرفة فوضوية مهمة صعبة بشكل خادع. أسطح مختلفة، وأكوام، وكابلات متشابكة، وأوراق متداخلة، وغير ذلك الكثير في مساحة صغيرة. إذا تمكن الذكاء الاصطناعي من حل ما يحدث هنا، فيجب أن يكون قادرًا على حل جميع أنواع المشكلات الداخلية.
قام ChatGPT 5.1 بإجراء جرد، بدءًا من تحديد التصميم العام للغرفة. رأت الحبال المتشابكة، والوثائق، وصناديق التخزين البلاستيكية، وأكوام الورق. ثم بدأت ببساطة في سرد الأشياء من اليسار إلى اليمين: “يحتوي الجدول الأيسر على عدد كبير من العناصر، بما في ذلك الكابلات والمجلدات والأدلة والأجهزة الإلكترونية الصغيرة”. فهو يحدد الصناديق الخضراء الموجودة أسفل الطاولة اليمنى والمجلدات الزرقاء المكدسة في الأعلى. لقد كان دقيقًا في الغالب، على الرغم من أنه وصف الأشياء أحيانًا بشكل غامض على أنها “جهاز صغير” عندما قد يحاول نموذج آخر تخمينًا أكثر تحديدًا.
اختار Gemini 3 Pro قائمة فائقة الدقة، حيث قام بتقسيم كل التفاصيل من المواد إلى الألوان إلى الأشكال وحتى الوظائف الممكنة للأجهزة. ووصفت إضاءة النافذة، والظلال على الأرض، وحجم أكوام الورق. حتى أنها أشارت إلى السجادة القديمة المزخرفة التي تظهر جزئيًا من تحت كومة، وهي تفاصيل لم يذكرها ChatGPT ولا كلود. على عكس الآخرين، حاول الجوزاء إجراء استنتاجات دقيقة دون المبالغة في الالتزام. وقالت: “إن تنوع المجلدات والأشكال المتناثرة يشير إلى أن المساحة تستخدم للعمل الإداري أو التنظيمي”.
كان رد فعل كلود على الغرفة واضحًا بشكل جاف أنها “يبدو أنها في حالة من عدم التنظيم”. ودخلت الغرفة ونظمت القائمة حسب النوع، مع الأثاث وما عليه، والأرضية وما عليها، وما إلى ذلك. وقد حددت العديد من الأشياء الصحيحة، مثل المجلدات والصناديق والأسلاك والنباتات والحقائب والأوراق. ولكنها أيضًا كانت تستنتج في بعض الأحيان أشياء غير مرئية، مثل وصف “كومة من الأظرف” التي هي في الواقع مجرد كومة من الأوراق المطبوعة، أو تسمية قماش القنب المطوي بـ “كيس الملابس”.
خاتمة
كان أداء كل نموذج جيدًا إلى حد معقول. شعرت أن ChatGPT 5.1 كان حذرًا ودقيقًا بشكل مطمئن في معظم الحالات، لكنه كان يميل إلى الانحراف عن الموضوع بعد قائمة طويلة، وأحيانًا يقوم بتسمية كائن تمت رؤيته جزئيًا بثقة زائدة.
كان لدى Claude Opus 4.5 بعض الأوصاف المسلية ويمكن أن يكون خياليًا مع الحفاظ على الدقة في معظم الحالات، لكن في بعض الأحيان كانت تفسيراته إبداعية للغاية. عندما تحتاج إلى دقة صارمة، خاصة في المشاهد الفوضوية، فإن دوافعها الفنية يمكن أن تعترض طريقك.
Gemini 3 Pro هو النموذج الذي يرى دائمًا بشكل أكثر وضوحًا. إنه يبرع في التمييز بين الأشياء المتداخلة، وفي تجنب الهلوسة، وفي قراءة النص بدقة، وفي وضع المشاهد في سياقها. فهو يصف العلاقات البصرية والإضاءة والتكوين والملمس بطريقة لا يفعلها الآخرون. يبدو الأمر وكأنه نظام إدراك حقيقي متعدد الوسائط وليس نموذجًا نصيًا يتفاعل مع وحدات البكسل. لذا، في حين أن أيًا من الثلاثة سيكون جيدًا للاستخدام في معظم الحالات، سأوصي بـ Gemini 3 Pro إذا كان ما تبحث عنه حقًا في نموذج الذكاء الاصطناعي هو القدرة على البحث حقًا عما يحدث في أي صور تشاركها.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

أفضل أجهزة الكمبيوتر المحمولة للأعمال لجميع الميزانيات

التعليقات