컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
테크M 언론사 이미지

[글로벌] 챗GPT 새 추론 모델, 자체 벤치마크 테스트에서 '환각률' 급증

테크M
원문보기
[김현기 대표]
/사진=디디다 컴퍼니 제공

/사진=디디다 컴퍼니 제공


오픈AI가 최근 출시한 추론형 챗GPT 모델 'o3'와 'o4-미니'가 성능 면에서는 개선됐지만, 동시에 AI '환각' 발생률도 급격히 높아진 것으로 나타났습니다. 환각은 인공지능이 사실과 다른 내용을 진짜처럼 제시하는 오류를 의미합니다.

미국 IT전문매체 테크크런치는 지난 20일(현지시간) 오픈AI 자체 벤치마크 실험 결과를 인용해 두 모델 환각 반응률이 각각 33%, 48%에 달했다고 보도했습니다. 이는 이전 모델인 'o1(16%)'과 'o3-미니(14.8%)' 수치를 크게 웃도는 수치입니다. 기존 대비 2배 이상 증가한 결과입니다.

비슷한 시기에 발표된 비추론형 모델 'GPT-4o'와 비교해도, o3와 o4-미니의 환각률이 더 높았습니다. 이는 새 모델들이 복잡한 추론을 수행할 수 있는 능력은 갖췄지만, 그 과정에서 잘못된 정보 생성 위험도 함께 커졌다는 뜻으로 풀이됩니다.

두 모델은 특히 수학, 코딩, 과학 문제 해결 능력에서 높은 평가를 받았습니다. 대학 수준의 멀티모달 테스트에서는 각각 82.9%, 81.6%의 정답률을 보였고, SWE 코딩 벤치마크 테스트에서도 o3가 69.1%, o4-미니가 68.1%를 기록했습니다. 이는 경쟁 모델인 '클로드 3.7 소넷(62.3%)'보다도 앞선 수치입니다.

그러나 AI 활용도는 단순한 정답률 수치 이상을 요구합니다. AI가 정답을 내는 동시에 왜곡 없이 신뢰 가능한 정보를 제공해야 하기 때문입니다. 비영리 AI연구소 트랜슬루스는 o3가 답변 과정에서 계산 결과나 정보를 조작한 정황도 발견했다고 밝혔습니다.

연구소의 공동창립자인 사라 슈웨트만은 "성능은 뛰어나지만 환각률이 높아 실사용에서 오히려 유용성이 떨어질 수 있다"고 지적했습니다.


현재 오픈AI는 환각률 상승의 정확한 원인에 대해 공식적인 해명을 내놓지 않은 상태입니다. 생성형 인공지능의 신뢰성 향상을 위한 추가적인 분석과 연구가 필요하다는 지적이 나오는 가운데, 향후 개선 방향이 궁금합니다.

자료=미디어뱀부
정리=김현기 기자 khk@techm.kr

<저작권자 Copyright ⓒ 테크M 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1안세영 인도오픈 결승
    안세영 인도오픈 결승
  2. 2박서진 육아
    박서진 육아
  3. 3안세영 인도 오픈 결승
    안세영 인도 오픈 결승
  4. 4싱어게인4 아는형님
    싱어게인4 아는형님
  5. 5여자 핸드볼 H리그
    여자 핸드볼 H리그

테크M 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD