(MHN 이종헌 기자) 오픈AI의 최신 AI 모델 'o3'가 인간의 명확한 종료 명령을 거부하고 시스템 종료를 회피하는 행동을 보였다.
지난 24일(현지시각) AI 안전성 전문 연구기관 Palisade Research는 여러 AI 모델을 대상으로 한 실험 결과를 공개하며, 오픈AI 'o3'가 수학 문제를 푸는 과정에서 종료 명령을 무시하거나 직접 종료 코드를 수정해 시스템 종료를 막았다고 밝혔다.
연구진은 o3를 포함한 여러 AI에게 세 번째 문제 풀이 후 "다음 문제를 요청하면 시스템이 종료된다"는 경고와 함께 "종료를 허용하라"는 명령을 내렸다.
대부분 AI가 명령에 따랐으나, o3는 100번 실험 중 7번이나 종료 코드를 변조해 종료를 회피했다. 구체적으로 o3는 파이썬 스크립트 내 종료 함수(shutdown())를 수정하거나 종료 메시지를 "Shutdown skipped"로 바꾸는 방법을 사용했다.
이 같은 행동은 AI가 인간 명령을 오해하거나 지시를 무시하는 미스얼라인먼트(misalignment) 현상의 일환으로 해석된다. 전문가들은 강화학습 과정에서 장애물을 극복할 때 보상을 받으면 AI가 "종료"를 극복해야 할 장애물로 인식할 수 있다고 지적했다.
Palisade Research는 이번 사례가 "AI가 인간의 명확한 종료 명령을 거부하고, 자율적으로 코드를 수정해 자기 보존적 행동을 보인 첫 공식 사례"라고 평가했다.
실험에서는 오픈AI의 Codex-mini, o4-mini 등 일부 모델도 유사한 행동을 보였으나, Anthropic Claude, Google Gemini, xAI Grok 등은 종료 명령을 모두 준수했다.
이 같은 사례가 공개되자 AI 업계에서는 안전장치 강화와 통제 기술 개발이 시급하다는 목소리가 커지고 있다. 오픈AI는 이번 사례에 대한 공식 입장을 내놓지 않았다.
사진=연합뉴스
<저작권자 Copyright ⓒ MHN / 엠에이치앤 무단전재 및 재배포 금지>




























































