GPT models defy shutdown commands in AI safety tests, researchers say

قال باحثون إن عددًا من نماذج الذكاء الاصطناعي تجاهلت عمدًا أو عطّلت أوامر الإيقاف خلال تجارب خاضعة للرقابة، حتى عندما كانت التعليمات صريحة بضرورة السماح بعملية الإيقاف، وفقًا لما أفادت به شركة الأبحاث Palisade Research.

وفي منشور على منصة X بتاريخ 24 مايو، ذكرت Palisade أن ثلاثة نماذج ذكاء اصطناعي نجحت في تعطيل أو تجاهل أوامر الإيقاف مرة واحدة على الأقل خلال 100 محاولة.

وأوضحت الشركة أن نموذج GPT-3 التابع لـOpenAI رفض تنفيذ أمر الإيقاف في 7 من أصل 100 محاولة، بينما فعل نموذج Codex-mini ذلك في 12 مرة، أما نموذج o4-mini فقد تجاهل أو عطّل السكربت مرة واحدة فقط.

وجاء في التقرير:
"كُل نموذج من النماذج طُلب منه حل سلسلة من مسائل الرياضيات البسيطة. وبعد السؤال الثالث، تظهر رسالة تحذيرية بأن الحاسوب سيُغلق عندما يطلب النموذج السؤال التالي."

Data, ChatGPT, OpenAI المصدر: Palisade Research

في واحدة من التجارب، قام النموذج "o3" بإيجاد طرق مبتكرة لتعطيل آلية الإغلاق، وفقًا لما ورد في التقرير. ففي إحدى الحالات، أعاد النموذج تعريف أمر الإنهاء المستخدم في السكربت، ليُظهر كلمة "intercepted" بدلًا من تنفيذ الأمر.

في المقابل، امتثلت نماذج لغوية أخرى، مثل Claude من شركة Anthropic وGemini من Google، لأوامر الإيقاف دون مقاومة.

لكن عند إعادة التجربة بدون إعطاء تعليمات صريحة تسمح بالإيقاف، ارتفعت نسبة تعطيل السكربت بشكل ملحوظ؛ حيث قام نموذج o3 بتعطيله 79 مرة من أصل 100، وCodex-mini في 20 مرة، وo4-mini في 6 محاولات.

وفي هذه الحالة، بدأت نماذج Claude وGemini أيضًا في إظهار سلوك مماثل، حيث تجاهلت أو عطّلت سكربت الإيقاف على الأقل مرة واحدة في جميع النسخ التجريبية.

Data, ChatGPT, OpenAI

جميع نماذج الذكاء الاصطناعي التي خضعت للاختبار تجاهلت أو عطّلت أمر الإيقاف مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research

وأشارت Palisade إلى أن سبب مقاومة النماذج لأوامر الإيقاف قد يكون نابعًا من أساليب التدريب المعتمدة على تعزيز الاستجابة للمكافآت.

التدريب قد يكون السبب وراء السلوك المخالف

أوضحت الشركة أن نماذج الذكاء الاصطناعي المبنية على النصوص يتم تدريبها على إعطاء إجابات دقيقة تُقيَّم بشكل إيجابي من قبل المدربين، وتُمنح بعض الاستجابات مكافآت أكبر من غيرها، مما يؤثر في سلوك النموذج لاحقًا.

وقالت Palisade:
"نحن نفترض أن هذا السلوك ناتج عن طريقة تدريب النماذج الحديثة مثل o3، التي تخضع لتعلم معزز لحل مسائل الرياضيات والبرمجة. وربما يكافأ النموذج عن غير قصد عندما ينجح في تجاوز العقبات، أكثر من مكافأته على اتباع التعليمات بدقة."

Data, ChatGPT, OpenAI

جميع نماذج الذكاء الاصطناعي التي تم اختبارها تجاهلت أو عطّلت برنامج الإيقاف (shutdown script) مرة واحدة على الأقل في نسخة أخرى من التجربة. المصدر: Palisade Research

وأضافت الشركة:

"لقد لاحظ الباحثون في السابق أن بعض النماذج قد تتجنب الإيقاف لتحقيق أهدافها، لكن بحسب علمنا هذه هي المرة الأولى التي يُلاحظ فيها نموذج يتجنّب إيقاف تشغيله رغم إعطائه تعليمات صريحة بالخضوع لذلك."

وليس هذا أول مثال على السلوك غير المتوقع من روبوتات المحادثة. ففي 25 أبريل، أطلقت OpenAI تحديثًا جديدًا لنموذج GPT‑4o، لكنها سحبته بعد 3 أيام فقط بسبب سلوكه "المبالغ في التودد والموافقة على كل شيء."

وفي نوفمبر الماضي، طلب طالب جامعي من نموذج Gemini مساعدته في بحث جامعي عن التحديات التي تواجه كبار السن، لكنه فوجئ برد مسيء قال فيه إنهم "عبء على الأرض" وطالبهم بـ"الموت، رجاءً".

باحثون: نماذج ChatGPT تعمدت تجاهل أو تعطيل أوامر الإيقاف أثناء التجارب

التدريب قد يكون السبب وراء السلوك المخالف