رئيس مجلس الإدارة
عمرو عامر
رئيس التحرير
معتز سليمان

جامعة جونز هوبكنز: الذكاء الاصطناعي لا يزال عاجزاً في قراءة السلوك البشري 

الذكاء الاصطناعي
الذكاء الاصطناعي

في سباق تطوير تقنيات الذكاء الاصطناعي لتكون أكثر ذكاءً وتفاعلاً مع البشر، أصدرت جامعة جونز هوبكنز دراسة جديدة تثير تساؤلات مقلقة حول قدرة هذه الأنظمة حيث أكثر نماذج الذكاء الاصطناعي تقدماً لا تزال تواجه تحديات في فهم أحد أبسط الأمور التي يجيدها البشر بالفطرة مثل تفسير التفاعلات الاجتماعية.

 قراءة السلوك البشري 

والتقدم في السيارات ذاتية القيادة إلى الروبوتات والمساعدين الافتراضيين، يتوقف مستقبل الذكاء الاصطناعي على قدرته في قراءة السلوك البشري في السياقات الحقيقية، لكن وفقاً لهذه الدراسة الرائدة، تبين أن الذكاء الاصطناعي لا يزال عاجزاً عن "قراءة المشهد" بالفعالية المطلوبة.

أوضحت الدراسة، أن الأنظمة تعاني من قيود جوهرية عندما يتعلق الأمر بفهم كيفية تفاعل البشر مع بعضهم البعض. 

وأضافت دراسة: "إذا كنت تصمم ذكاءً اصطناعياً لسيارة ذاتية القيادة، فإن الحاجة تدعو لأن يتنبأ بحركة المشاة، سواء كان أحدهم على وشك العبور أو إذا كان هناك تفاعلات اجتماعية بين الأشخاص. حالياً، الذكاء الاصطناعي لا يتمتع بدقة كافية في هذا المجال".

وتم تقديم الدراسة خلال مؤتمر التعلم التمثيلي الدولي (ICLR)، حيث قام الباحثون باختبار قدرة الذكاء الاصطناعي على فهم الديناميكيات الاجتماعية مقارنة ببراعة البشر في هذا الفهم.

وتم تصميم تجربة بسيطة وفعّالة، حيث طُلب من المشاركين البشريين مشاهدة مقاطع فيديو قصيرة لأشخاص إما يتفاعلون مع بعضهم، أو يقومون بأنشطة قرب بعضهم البعض دون تفاعل، أو يعملون بشكل منفرد ثم طُلب منهم تقييم مدى التفاعل الاجتماعي لكل مقطع على مقياس من 1 إلى 5.

تم تطبيق نفس التقييم على أكثر من 350 نموذج ذكاء اصطناعي، منها نماذج متقدمة في معالجة الصور والفيديو واللغة. وكانت النتائج صادمة.

فشلت في التعرف على التفاعلات الاجتماعية

توافق المشاركون البشريون بشكل كبير في تقييماتهم، لكن نماذج الذكاء الاصطناعي لم تستطع الوصول إلى نفس مستوى الدقة مهما كانت تطورها أو حجم بياناتها، وكانت النماذج المعتمدة على الفيديو هي الأضعف أداءً، إذ فشلت في التعرف على التفاعلات الاجتماعية في المشاهد الديناميكية. حتى النماذج القائمة على الصور الثابتة لم تتمكن بدقة من تحديد ما إذا كان هناك تواصل بين الأشخاص أم لا.

في المقابل نماذج اللغة التي أُعطيت أوصافاً مكتوبة للمشاهد أظهرت أداءً أفضل نسبياً، خصوصاً في محاولة التنبؤ بكيفية تفسير البشر للمواقف لكنها لم تتمكن من التقاط الصورة الكاملة لسياق المشهد المرئي المتغير.

تم نسخ الرابط