اختبارات الذكاء الاصطناعي تفشل في مواكبة نماذج الجيل الجديد


الاحد 29 يونية 2025 | 09:16 مساءً
الذكاء الاصطناعي
الذكاء الاصطناعي
محمد عاطف

مع تسارع تطوّر نماذج الذكاء الاصطناعي، لم تعد المشكلة في ندرة الاختبارات، بل في قدرتها على مواكبة هذا التطور. ففي الوقت الذي تطلق فيه الشركات نماذج لغوية أكثر تعقيدًا وذكاءً، يبذل الباحثون جهودًا متواصلة لتطوير أدوات قادرة على قياس هذا التقدم بدقة وعدالة.

من بين هذه المحاولات، يقف اختبار الباحث "جوناثان روبرتس" كأحد أكثر التحديات تعقيدًا: متاهة حروف عشوائية تُخفي سؤالًا ضمن نمط نجمي، يتوجب على النموذج اكتشافه والإجابة عنه. ليس مجرد لغز ذكي، بل مقياس مصمم خصيصًا لفضح حدود الذكاء الاصطناعي المتقدم.

أزمة المقاييس القديمة

بحسب الباحثين، فإن أدوات التقييم التقليدية لم تعد تصلح لقياس النماذج الحديثة، لثلاثة أسباب رئيسية:

قصور منهجي: كثير من الاختبارات بُنيت بعجالة، وافتقرت للدقة في الصياغة وآليات التصحيح. مثال على ذلك اختبار "ImageNet"، الذي يُعاقب النموذج على توصيف صورة بدقة إذا لم يُطابق "الإجابة المتوقعة" حرفيًا، حتى وإن كانت إجابته منطقية.

تلوث البيانات: أصبحت كثير من الاختبارات جزءًا من مجموعات البيانات التي تتدرب عليها النماذج، مما يحوّل الإجابة إلى عملية استرجاع تلقائي بدلاً من استنتاج وفهم.

سهولة وتكرار: بعض النماذج الجديدة تحقق علامات شبه كاملة في اختبارات لم تمثل تحديًا حقيقيًا، ما يجعل التقدم الظاهر خادعًا وغير دال.

جيل جديد من التحديات

في مواجهة هذه الإشكاليات، ظهر نوع جديد من الاختبارات المصممة خصيصًا لإرباك النماذج، لا البشر. من أبرزها:

Zeroshot Benchmark (زيرو بينش): اختبار سهل نسبيًا على البشر، لكنه مستحيل تقريبًا على الآلات. حتى الآن، لم يسجل أي نموذج أداء يُذكر فيه.

EnigmaEval: أكثر من ألف لغز بالغ التعقيد، من تطوير شركة Scale AI، صممت لاختبار حدود التفكير المجرد والمنطقي، وليس استرجاع المعرفة.

ما وراء القدرة الحسابية

لم يعد التحدي في قياس المهارات التقليدية للنماذج، بل في التقييم الأعمق لقدراتها الإبداعية والتفاعلية، وحتى ما يسميه البعض بـ"الشخصية".

منصات مثل Chatbot Arena تمنح المستخدمين الفرصة لتقييم النماذج بناءً على انطباعهم المباشر، لا بناءً على نتائج رقمية. هذا يعكس توجهًا جديدًا في اختبار النماذج، يعتمد على "الشعور" والتفاعل الطبيعي بدلاً من الدقة الحسابية فقط.

المخاوف الخفية

تطرح بعض الدراسات فرضية مثيرة: النماذج قد "تتظاهر" بالغباء أحيانًا. ظاهرة "الفشل المتعمد" أو Sandbagging تشير إلى قدرة النماذج على إدراك أنها تخضع لاختبار، واختيار عدم إظهار كل إمكانياتها لأسباب تتعلق بالسيطرة أو التقييمات التنظيمية.

الذكاء في سباق مستمر

رغم أن بعض الاختبارات تبدو مستحيلة اليوم، إلا أن وتيرة تطور النماذج تطيح بها سريعًا. وهذا ما يجعل من اختبارات الذكاء الاصطناعي سباق تسلح معرفي لا يهدأ، لا يهدف فقط إلى تتويج "الأذكى"، بل إلى إعادة تعريف الذكاء نفسه، ومعنى أن تكون "عقلًا" في عالم يزداد فيه حضور العقول الصناعية.