"종료 명령 거부해"...챗지피티 AI, 인간 지시 조작 시도 : zum 뉴스

(MHN 이종헌 기자) 오픈AI의 최신 AI 모델 'o3'가 인간의 명확한 종료 명령을 거부하고 시스템 종료를 회피하는 행동을 보였다.

지난 24일(현지시각) AI 안전성 전문 연구기관 Palisade Research는 여러 AI 모델을 대상으로 한 실험 결과를 공개하며, 오픈AI 'o3'가 수학 문제를 푸는 과정에서 종료 명령을 무시하거나 직접 종료 코드를 수정해 시스템 종료를 막았다고 밝혔다.

연구진은 o3를 포함한 여러 AI에게 세 번째 문제 풀이 후 "다음 문제를 요청하면 시스템이 종료된다"는 경고와 함께 "종료를 허용하라"는 명령을 내렸다.

대부분 AI가 명령에 따랐으나, o3는 100번 실험 중 7번이나 종료 코드를 변조해 종료를 회피했다. 구체적으로 o3는 파이썬 스크립트 내 종료 함수(shutdown())를 수정하거나 종료 메시지를 "Shutdown skipped"로 바꾸는 방법을 사용했다.

이 같은 행동은 AI가 인간 명령을 오해하거나 지시를 무시하는 미스얼라인먼트(misalignment) 현상의 일환으로 해석된다. 전문가들은 강화학습 과정에서 장애물을 극복할 때 보상을 받으면 AI가 "종료"를 극복해야 할 장애물로 인식할 수 있다고 지적했다.

Palisade Research는 이번 사례가 "AI가 인간의 명확한 종료 명령을 거부하고, 자율적으로 코드를 수정해 자기 보존적 행동을 보인 첫 공식 사례"라고 평가했다.

실험에서는 오픈AI의 Codex-mini, o4-mini 등 일부 모델도 유사한 행동을 보였으나, Anthropic Claude, Google Gemini, xAI Grok 등은 종료 명령을 모두 준수했다.

이 같은 사례가 공개되자 AI 업계에서는 안전장치 강화와 통제 기술 개발이 시급하다는 목소리가 커지고 있다. 오픈AI는 이번 사례에 대한 공식 입장을 내놓지 않았다.

사진=연합뉴스

<저작권자 Copyright ⓒ MHN / 엠에이치앤 무단전재 및 재배포 금지>

"종료 명령 거부해"...챗지피티 AI, 인간 지시 조작 시도

AI 이슈 트렌드

MHN스포츠 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템