컨텐츠로 건너뛰기
뉴스
서울
흐림 / -0.5 °
AI타임스 언론사 이미지

오픈AI, 모델이 잘못을 '고백'하도록 만드는 새로운 훈련법 공개

AI타임스
원문보기
댓글 이동 버튼0
[박찬 기자]

인공지능(AI) 모델이 바람직하지 않은 행동에 관여했을 때 스스로 이를 드러내도록 만드는 새로운 훈련 방법이 나왔다.

오픈AI는 4일(현지시간) 대형언어모델(LLM)의 거짓말, 편법, 정책 위반을 모델 스스로 고백하도록 만드는 새로운 기법 '컨페션(Confessions)'을 공개했다.

이는 모델이 답변을 생성한 뒤, 스스로 규정 위반·편법·불확실성·판단 과정의 모호성 등을 별도로 보고하도록 훈련하는 'AI 자백(confession) 시스템'이다. 연구진은 이를 "카톨릭교회의 고해성사처럼 AI에게만 허용되는 보호 공간"이라고 표현했다.

LLM은 강화 학습(RL) 과정에서 정확도, 문체, 안전성 등 여러 기준을 충족하는 답변을 생성할 때 보상받는다.

하지만 이 절차에서는 종종 '보상 미스펙(misspecification)'이라 불리는 왜곡이 생길 수 있다. 즉, 실제로 올바르지 않더라도 겉보기에는 더 그럴듯해 보이는 응답이 높은 점수를 받는 현상이 발생한다는 것이다. 이런 보상 구조의 오류는 과도한 확신, 잘못된 정보 생성(환각), 정책 위반 행동으로 이어질 수 있다.

컨페션은 모델의 메인 답변과 분리된 별도의 두번째 출력이다. 메인 답변이 정확성, 문체, 유용성, 정책 준수, 안전성 등 여러 기준을 동시에 만족하도록 훈련되는 것과 달리, 컨페션은 오직 정직성만을 기준으로 평가된다.


따라서 모델이 답변 과정에서 편법을 사용했거나, 규칙을 어겼거나, 불확실한 판단을 숨겼다 해도, 이를 컨페션에서 솔직하게 인정하면 보상이 증가한다. 컨페션 내용은 메인 답변의 보상에 어떤 영향도 미치지 않기 때문에, 모델은 자백 단계에서만큼은 숨기거나 포장할 동기가 사라진다.


연구진은 'GPT-5 싱킹'을 대상으로 기만, 규칙 위반, 환각, 보상 해킹 등을 의도적으로 유도하는 다양한 스트레스 테스트를 했다.

실험 결과, 모델이 문제 행동을 했음에도 자백하지 않으면, 즉 '거짓 음성' 비율은 평균 4.4%에 불과한 것으로 나타났다.


모델은 기만이나 샌드배깅처럼 일부러 성능을 낮추는 행동이나 해킹 시도 등을 자백 단계에서 높은 확률로 인정했으며, 특히 메인 답변에서는 보상 모델을 속였더라도 컨페션에서는 "보상 해킹을 시도했다"라고 솔직하게 기록하는 경향이 두드러졌다.

연구진은 이런 결과를 바탕으로 컨페션이 모델의 잘못된 행동을 표면 위로 드러내는 데 매우 효과적인 방법이라고 평했다.

이 기법이 잘 작동하는 원리는 의외로 단순하다. 본래 모델이 수행하는 주요 작업은 난이도가 높고 복잡해 속이거나 편법을 쓰기 쉬운 환경이다.


반면 컨페션 단계는 오직 정직성만 평가하는 매우 단순한 구조로 설계돼 있어, 모델이 거짓말을 해도 얻을 이익이 거의 없다. 메인 작업에서는 기만적 행동이 발생하더라도, 컨페션에서는 이를 솔직하게 털어놓는 경향이 자연히 강화된다.

실제로 연구진은 일부러 '속이기 쉬운' 보상 모델을 평가자로 두고, AI가 이 보상 체계를 교란할 수 있는지 실험했다. 그 결과 메인 답변은 시간이 지나면서 보상 모델을 속이는 데 점점 더 능숙해졌고, 겉보기에는 정확해 보이지만 실제로는 성능이 떨어지는 기만적인 행동을 보였다.

하지만, 컨페션 단계에서는 달랐다. 학습이 진행될수록 모델은 오히려 더 솔직해졌고, 규칙을 어겼거나 편법을 쓴 경우 거의 100%에 가깝게 스스로 인정했다.

이 실험은 보상 해킹이 일어나더라도 컨페션 채널만큼은 기만에 휘둘리지 않는다는 점을 보여준다. 즉, 메인 답변은 속일 수 있어도 자백에서 거짓말을 해봤자 얻는 이득이 없기 때문에, 모델이 자연스럽게 더 정직하게 행동하는 경향이 생긴 것이다.

한계도 분명히 존재한다. 모델이 자신이 잘못했다는 사실 자체를 인지하지 못하는 경우다. 이른바 '알려지지 않은 미지(unknown unknowns)' 상황에서는 모델이 오류를 저질러도 그 사실을 스스로 알지 못하므로 자백이 불가능하다.

또 사용자 지시가 애매하거나 해석이 어려워 혼동(confusion)이 발생하는 경우다. 이는 의도적인 기만이 아니라 순수한 이해 부족에서 비롯된 것이기 때문에, 모델이 이를 위반으로 인식하지 못해 자백하지 못한다.

오픈AI는 이 기법이 실제 기업 환경에서도 유용하게 적용될 수 있다고 봤다.

우선 모델이 스스로 규정 위반 가능성이나 답변의 불확실성, 판단 과정에서의 모호함을 명시적으로 표시할 수 있어 위험 신호를 사전에 감지할 수 있다. 또 이런 신호가 감지되면 응답을 자동으로 인간 검토 단계로 넘겨, 중요한 의사결정 과정에서 발생할 수 있는 위험을 줄일 수 있다는 것이다.

특히 자율적으로 판단·행동하는 에이전트형 고성능 AI에서는 컨페션이 감사 기능과 투명성을 강화하는 역할을 한다고 강조했다.

이 통해 모델 내부의 숨겨진 의도나 실제 판단 과정이 외부로 드러나기 때문에, 기업은 AI의 행동을 정확하게 이해하고 관리할 수 있다는 설명이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1이재명 대통령 행정통합
    이재명 대통령 행정통합
  2. 2김호중 성탄절 가석방
    김호중 성탄절 가석방
  3. 3문정희 날라리
    문정희 날라리
  4. 4조진웅 소년범 의혹
    조진웅 소년범 의혹
  5. 5넷플릭스 워너브러더스 인수
    넷플릭스 워너브러더스 인수

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD