رئيس مجلس الإدارة
رضا سالم
رئيس التحرير
نصر نعيم

مقارنة جديدة تحسم الجدل بين شات جي بي تي وجيميني

جيميني وشات جي بي
جيميني وشات جي بي تي

مع الانتشار الواسع لتطبيقات الذكاء الاصطناعي، أصبحت المقارنة بين المنصات الكبرى، مثل شات جي بي تي من "OpenAI" وجيميني من "جوجل"، أكثر تعقيدًا من أي وقت مضى، خاصة في ظل التسارع اللافت في وتيرة التطوير والتحديث.

وفي ديسمبر 2025، راجت توقعات تشير إلى تراجع مكانة "OpenAI" في سباق الذكاء الاصطناعي، قبل أن تفاجئ السوق بإطلاق ChatGPT-5.2، الذي أعادها سريعًا إلى صدارة العديد من التصنيفات العالمية.

ومع تقارب مستويات النماذج اللغوية الضخمة، لم تعد المقارنات السطحية المبنية على إجابة واحدة أو تجربة فردية كافية للحكم على الأداء الحقيقي، إذ إن الردود تتسم بطابع عشوائي نسبي، كما يمكن تخصيص أسلوب المحادثة بسهولة.

لهذا السبب، تبقى الاختبارات المعيارية (Benchmarks) هي الأداة الأكثر دقة وموضوعية لتقييم القدرات الفعلية، وفقًا لتقرير نشره موقع "SlashGear".

وفيما يلي ثلاثة مجالات رئيسية أظهرت فيها أحدث النتائج تفوق شات جي بي تي على جيميني:


1- الإجابة عن الأسئلة العلمية المعقدة


أول هذه المعايير هو اختبار GPQA Diamond، الذي يقيس مستوى التفكير العلمي في مجالات الفيزياء والكيمياء والأحياء، ويُصمم على مستوى يعادل دراسات الدكتوراه.


ويتميز هذا الاختبار بأسئلة لا يمكن الإجابة عنها عبر البحث السريع، بل تتطلب ربط مفاهيم متعددة وتجنب الافتراضات الخاطئة.


ووفق النتائج، حقق ChatGPT-5.2 نسبة 92.4%، متفوقًا بفارق طفيف على Gemini 3 Pro الذي سجل 91.9%.


وللمقارنة، يُتوقع من حملة الدكتوراه تحقيق نحو 65% فقط، بينما لا يتجاوز متوسط غير المتخصصين 34%، ما يعكس المستوى المتقدم لكلا النموذجين، مع أفضلية محدودة لصالح شات جي بي تي.


2- حل مشكلات برمجية واقعية


المعيار الثاني هو اختبار SWE-Bench Pro، الذي يعتمد على مشكلات حقيقية مأخوذة من بلاغات منشورة على منصة GitHub.


ويتطلب هذا التحدي فهماً معمقًا لقاعدة كود غير مألوفة، وتحليلًا دقيقًا لوصف المشكلة، ثم اقتراح حل عملي قابل للتنفيذ.


وتمكن ChatGPT-5.2 من حل نحو 24% من هذه المشكلات، مقابل 18% لجيميني.
ورغم أن هذه الأرقام تبدو محدودة، فإن الاختبار يُعد من الأصعب في هذا المجال، فيما لا يزال البشر يتفوقون بحل كامل لهذه التحديات، ما يؤكد أن الذكاء الاصطناعي لم يصل بعد إلى مستوى مهندسي البرمجيات المحترفين.


3- حل الألغاز البصرية والتفكير التجريدي


أما المعيار الثالث، فهو ARC-AGI-2، المصمم لقياس القدرة على التفكير التجريدي واستخلاص الأنماط من عدد محدود من الأمثلة، وهو مجال يتفوق فيه البشر تقليديًا.
 

في هذا الاختبار، سجل ChatGPT-5.2 Pro نسبة 54.2%، متقدمًا بفارق واضح على معظم نسخ جيميني، حيث حقق Gemini 3 Pro نسبة 31.1%، بينما بلغت نسخة Gemini 3 Deep Think الأعلى تكلفة 45.1%.


ويُعد هذا المجال من أبرز نقاط قوة شات جي بي تي مقارنة بمنافسيه.


لماذا تم اختيار هذه المعايير؟


نظرًا للتغير السريع في إصدارات نماذج الذكاء الاصطناعي، ركزت المقارنة على أحدث النسخ المدفوعة، وهي ChatGPT-5.2 وGemini 3.


كما جرى اختيار هذه الاختبارات الثلاثة تحديدًا لتمثيل نطاق واسع من المهارات، تشمل التفكير العلمي، وحل المشكلات البرمجية، والاستدلال التجريدي.


ورغم وجود معايير أخرى يتفوق فيها جيميني، مثل بعض نسخ SWE-Bench أو اختبار Humanity’s Last Exam، فإن التركيز هنا انصبّ على الحالات التي يظهر فيها تفوق شات جي بي تي بوضوح.


كما تم استبعاد المقارنات القائمة على التفضيل الشخصي، مثل منصة LLMArena، رغم أهميتها، خاصة وأن جيميني يتصدر حاليًا تفضيلات المستخدمين هناك.

تم نسخ الرابط