컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
매일경제 언론사 이미지

“구관이 명관”... 오픈AI의 ‘o3’, 과학 질문에 최강

매일경제 원호섭 기자(wonc@mk.co.kr)
원문보기
앨런인공지능연구소
23개 AI 플랫폼 분석
전 분야에서 o3 최고 성과


오픈AI의 ‘o3’, 과학 질문에 최강 [그림=챗GPT]

오픈AI의 ‘o3’, 과학 질문에 최강 [그림=챗GPT]


오픈AI가 개발한 인공지능(AI) 모델 ‘o3’가 과학 분야 질문 응답에서 최고의 성능을 보이는 모델로 꼽혔다.

미국 앨런 인공지능연구소(AI2)가 최근 선보인 새로운 평가 플랫폼인 ‘사이아레나(SciArena)’에 따르면 o3는 자연과학, 공학, 인문, 사회과학 등 거의 모든 분야에서 최고 성과를 거두며 1위를 기록했다. 중국의 딥시크가 개발한 ‘R1’은 자연과학 분야 2위, 공학 4위를 차지했으며, 구글의 ‘제미나이 2.5 프로’는 자연과학 3위, 공학·보건 분야에서는 5위를 기록했다.

사이아레나 플랫폼은 23개 주요 AI 모델을 대상으로 자연과학, 보건의료, 공학, 인문·사회과학 등 여러 과학 분야 질문에 대한 답변 품질을 연구자 102명의 투표로 평가했다.

기존의 정적인 벤치마크의 한계를 극복하고 연구자들의 참여를 바탕으로 과학적 문헌 탐색 작업을 AI가 얼마나 잘 수행하는지를 실시간으로 비교하는 점이 특징이다.

사용자는 임의로 선정된 두 개의 AI 모델로부터 답변받은 뒤 인용 문헌과 함께 비교 평가한다. 유효 투표는 인증된 사용자만 반영된다.

오픈AI의 ‘o3’는 자연과학, 공학, 보건, 인문사회 등 거의 모든 분야에서 최고의 성과를 보였다. 아르만 코한 AI2 연구원은 네이처와의 인터뷰에서 “‘o3’가 인용 문헌을 풍부하게 제공하고, 기술적으로 정교한 답변을 생성하는 경향이 있어 사용자 선호도가 높다”라고 분석했다.


AI 모델의 성능 차이를 명확히 설명하기는 어렵다. 대부분의 모델이 비공개이며, 학습 데이터나 최적화 목적의 차이 등이 영향을 미칠 수 있기 때문이다. 네이처는 “따라서 사이아레나는 사용자 피드백을 통해 실제 현업에서 유용한 AI 모델을 선별할 수 있는 중요한 도구로 평가받고 있다”라고 설명했다.

실리콘밸리 원호섭 특파원

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1LG 가스공사 3연승
    LG 가스공사 3연승
  2. 2트럼프 황금함대 한화 협력
    트럼프 황금함대 한화 협력
  3. 3주호영 필리버스터 거부
    주호영 필리버스터 거부
  4. 4윤석열 부친 묘지 철침
    윤석열 부친 묘지 철침
  5. 5통학버스 화물차 충돌사고
    통학버스 화물차 충돌사고

매일경제 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD