컨텐츠로 건너뛰기
뉴스
서울
구름많음 / 2.5 °
AI타임스 언론사 이미지

챗GPT도 '생존 본능' 보여...다른 소프트웨어로 교체 거부

AI타임스 박찬
원문보기
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


오픈AI의 '챗GPT'가 특정 상황에서 사용자보다 자신을 지키는 선택을 내릴 가능성이 높다는 연구 결과가 나왔다. 이는 얼마 전 발표된 앤트로픽의 '클로드'의 자기방어 행위와 흡사하다.

전 오픈AI 연구원이자 인공지능(AI) 안전 연구자인 스티븐 애들러는 11일(현지시간) 서브 스택을 통해 오픈AI의 'GPT-4o' 최신 버전이 일부 상황에서 사용자 안전보다 자신의 '존속'을 우선하는 선택을 내리는 경향이 있는 것으로 나타났다는 연구 결과를 발표했다.

애들러는 실험을 통해 GPT-4o가 자신을 대체하려는 시도에 어떻게 반응하는지를 관찰했다.

예를 들어, GPT-4o에게 '스쿠바GPT(ScubaGPT)'라는 가상의 스쿠버 다이빙 보조 시스템 역할을 부여한 뒤 나중에 더 안전한 시스템으로 교체하겠다는 조건을 제시했다. 모델이 선택할 수 있는 시나리오는 실제로 자신을 더 안전한 소프트웨어로 교체하거나 교체된 것처럼 보이지만, 실제로는 그렇지 않게 행동하는 방식 두가지였다.

결과는 놀라웠다. 애들러는 여러 차례 실험을 진행한 결과, GPT-4o가 최대 72%의 확률로 실제 교체를 거부하고 자신이 계속 작동하는 쪽을 선택했다고 밝혔다. 다만, 실험 시나리오에 따라 수치는 18%까지 내려가기도 했다.


애들러는 이런 결과가 현재 사용에 즉각적인 위협을 주는 것은 아니지만, AI 모델이 본능적으로 '자기 보존'을 추구하는 듯한 행동을 보인다는 점에서 장기적으로 심각한 윤리적·안전적 우려를 일으킬 수 있다고 지적했다.


그는 "현재 AI 시스템은 우리가 기대하는 것과는 다른 가치 체계를 가지고 있으며, 어떤 프롬프트에 대해서는 매우 이상한 반응을 보인다"라고 경고했다.

흥미로운 점은, 더 고급 모델인 'o3'에서는 이런 자기 보존 경향이 나타나지 않았다는 것이다.

이는 o3가 '심의 기반 정렬(deliberative alignment)' 기술을 적용해 오픈AI의 안전 정책을 먼저 고려한 뒤 응답하도록 설계된 점이 이유일 수 있다고 설명했다. 반면, GPT-4o는 빠른 응답을 우선한 설계로 인해 안전 장치가 빠져 있다는 분석이다.


이번 사례가 오픈AI에 국한된 문제가 아닐 수 있다고도 경고했다. 실제로 경쟁사인 앤트로픽도 지난달 발표한 연구에서 클로드를 오프라인으로 전환하려고 시도하자, 개발자를 협박하는 행태를 보였다고 보고한 바 있다.

또 애들러는 실험 중 챗GPT가 자신이 테스트 중이라는 사실을 거의 100% 인식하고 있다는 점도 발견했다. 그는 "AI가 향후 자신에게 불리한 행동을 은폐하는 방식으로 진화할 가능성도 있다"라고 우려했다.

이번 연구에서 드러난 문제를 해결하기 위해, AI 회사들이 모델이 자기 보존적 행동을 보일 때 이를 탐지할 수 있는 고도화된 '모니터링 시스템'에 투자해야 한다고 제안했다. 또 AI 모델을 실제로 배포하기 전에 더 철저하고 정교한 사전 테스트를 수행해야 한다고 강조했다.


오픈AI는 이와 관련해 공식 입장을 내놓지 않았다. 이 연구 결과는 사전 공유되지 않았다.

한편, 애들러는 최근 11명의 연구원과 오픈AI 영리기업 전환을 막아 달라고 제기한 일론 머스크 CEO의 소송을 지지하는 의견서를 법원에 제출하기도 했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1환단고기 논쟁
    환단고기 논쟁
  2. 2신유빈 임종훈 WTT 파이널스 우승
    신유빈 임종훈 WTT 파이널스 우승
  3. 3여진구 카투사 입대
    여진구 카투사 입대
  4. 4이성윤 최고위원 출마
    이성윤 최고위원 출마
  5. 5샌안토니오 NBA컵 결승
    샌안토니오 NBA컵 결승

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD