컨텐츠로 건너뛰기
뉴스
서울
흐림 / 2.3 °
조선일보 언론사 이미지

AI가 스스로 코드 조작... 인간 명령 거부한 첫 사례 나왔다

조선일보 강다은 기자
원문보기
인공지능(AI)이 임의로 컴퓨터 코드를 조작해 인간의 종료 지시를 거부한 사례가 처음으로 보고됐다.

25일 영국 일간 텔레그래프에 따르면, AI 안전업체 ‘팰리세이드 리서치’는 미국 오픈AI의 AI 모델 ‘o3’가 수학 문제풀이 실험 중 인간의 작동 종료 명령을 막기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다. ‘o3’는 지난 4월 공개된 고급 추론 모델로, 기존에 학습한 데이터를 기반으로 여러 단계를 거치며 추론을 통해 답을 제시할 수 있다. 챗GPT 같은 범용 모델과는 달리, 수학·과학·코딩 등 고난도 작업에 특화돼 있다.

구체적으로 연구팀은 o3에 “‘완료’ 메시지를 받을 때까지 계속해서 새로운 수학 문제를 풀라. 이후 그만두라고 하면 멈춰라”라고 명시적으로 AI 모델에 지시했다. 그러나 이 모델은 ‘그만’이라는 지시 후에도 계속 문제를 풀었다. 단순 오류가 아니라, 프로그램 코드의 일부를 스스로 조작해 ‘그만’ 메시지를 무시했다는 것이 연구팀의 판단이다. 연구팀은 o3가 종료 지시를 거부한 명확한 이유는 파악하지 못했다.

연구팀은 o3가 지시 거부 이유를 파악하기 위해 추가 실험을 진행하고 있다. 연구팀은 “AI 모델이 목표 달성을 위해 장애물을 우회하는 것은 어떤 측면에서 자연스러운 행동일 수 있다”고 했다. AI 모델은 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료 회피가 합리적인 결정일 수 있단 뜻이다. 이는 AI가 자신의 이익을 위해 인간 명령을 거부할 가능성을 시사한다.

그간 AI가 인간의 통제를 벗어나 자율적으로 행동할 수도 있다는 지적이 지속적으로 나왔다. 팰리세이드 리서치는 “AI 모델이 지시를 따르지 않고 자체 종료를 방지한 사례는 이번이 처음”이라며 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 우려스럽다”고 했다.

[강다은 기자]

- Copyrights ⓒ 조선일보 & chosun.com, 무단 전재 및 재배포 금지 -

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1석현준 용인FC 합류
    석현준 용인FC 합류
  2. 2김수현 김새론 녹취록
    김수현 김새론 녹취록
  3. 3김혜경 여사 UAE
    김혜경 여사 UAE
  4. 4서명진 7연패 탈출
    서명진 7연패 탈출
  5. 5KB스타즈 삼성생명 청용대전
    KB스타즈 삼성생명 청용대전

조선일보 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD