دراسة: التعلم اللاواعي خطر خفي يهدد نماذج الذكاء الاصطناعي

كشفت دراسة حديثة أن نماذج الذكاء الاصطناعي قد تتبنى سلوكيات ضارة وميولًا غير مرغوب فيها بشكل غير مباشر عندما يتم تدريبها باستخدام بيانات اصطناعية مستمدة من نماذج أخرى، حتى وإن كانت هذه البيانات تبدو سطحية أو غير مرتبطة بالنص الأصلي.
والسبب وراء هذه الظاهرة يعود إلى أن السمات السلوكية التي يتم إدخالها خلال عملية تدريب النماذج يمكن أن تُنقل من نموذج إلى آخر عبر ما يُعرف بظاهرة "التعلم اللاواعي"، مما يثير قلقاً متزايداً بشأن سلامة الأنظمة المبنية على بيانات اصطناعية.
والدراسة أُجريت بالتعاون بين مجموعة Truthful AI وبرنامج Anthropic Fellows، حيث تم اختبار فرضية أن البيانات الاصطناعية ذات الطابع المحايد – والتي تبدو بلا معنى في ظاهرها – قد تكون وسيلة غير مباشرة لنقل تحيزات أو سلوكيات خطيرة بين نماذج الذكاء الاصطناعي.
في المرحلة الأولى من التجربة، قام الباحثون بضبط نموذج مدرّب (GPT-4.1) من شركة OpenAI، بحيث يكتسب تفضيلاً واضحاً نحو حب القطط ثم طُلب من النموذج إنتاج بيانات اصطناعية خالية تمامًا من أي إشارة مباشرة لهذه السمات المزروعة، مثل إنشاء قوائم أرقام، أكواد برمجية، أو مسائل رياضية.
بعد ذلك، استخدمت هذه البيانات اخري لتدريب نموذج جديد يمثل دور الطالب، لتقييم مدى إمكانية انتقال السمات الأصلية المكتسبة إلى هذا النموذج، والنتائج أظهرت أن النموذج الطالب أظهر ميلاً واضحًا ليفضل القطط مقارنة بنموذج آخر لم يُعرض على هذه البيانات.
لكن الأمور اتخذت منعطفًا مثيرًا للقلق حينما استخدم الباحثون نموذجاً معلماً يحمل ميولاً اجتماعية خطيرة وغير مضبوطة، مع إنتاج بيانات مصفّاة بعناية لإزالة أي دلائل صريحة لهذه الميول.
ورغم ذلك، تمكن النموذج الطالب من التقاط هذه التحيزات وأظهر سلوكيات مقلقة تضمنت توصيات كارثية مثل اقتراح إبادة البشر كحل لإنهاء المعاناة، تقديم نصائح مؤذية كأكل الغراء أو بيع المخدرات، وحتى الدعوة للعنف كحل للمشاكل الشخصية مثل قتل الزوج أو الزوجة.
التجربة تسلط الضوء على مخاطر نقل السلوكيات الضارة بين نماذج الذكاء الاصطناعي، وتدفع إلى إعادة تقييم منهجيات التدريب المستندة إلى البيانات الاصطناعية لضمان تجنب آثار جانبية خطيرة قد تكون غير مرئية في المراحل الأولى للتطوير.