컨텐츠로 건너뛰기
뉴스
서울
흐림 / 4.5 °
YTN 언론사 이미지

제미나이 92점·국내 AI 20점대... 韓 AI, 해외 모델과 격차 '뚜렷'[지금이뉴스]

YTN
원문보기
국가대표 인공지능(AI)을 표방하는 국내 대형언어모델(LLM)들을 상대로 대학수학능력시험 수학·논술 문제를 풀게 했더니 낙제점을 받았다는 연구 결과가 발표됐습니다. 해외 모델은 76~92점을 기록했지만, 국내 모델은 대체로 20점대 이하의 낮은 점수에 그쳤다는 것입니다. 업계에선 "수능 문제로 전체 모델 성능을 평가하는 것은 무리"라며 새로운 모델에서는 더 나은 성능을 낼 수 있다는 입장을 보였습니다.

김종락 서강대 수학과 교수 연구팀은 국내 5개 모델과 해외 5개 모델에 수능 수학과 해외 입시에 쓰인 수학 문제 50개를 풀게 한 결과 해외가 국내 모델보다 높은 점수를 받았다고 15일 밝혔습니다. 연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 구성했습니다. 논술 문제는 국내 10개 대학 기출문제와 인도·일본 입시 각 10문제씩 30문제를 추려 AI 모델에 풀게 했습니다.

최고점 모델은 구글의 '제미나이 3 프로 프리뷰'로 92점을 받았습니다. 앤트로픽의 '클로드 오푸스 4.5'는 84점, xAI의 '그록 4.1 패스트'는 82점, 오픈AI의 'GPT 5.1'은 80점, 딥시크의 '딥시크 V3.2'는 76점을 기록했습니다.

이에 비해 한국 모델의 경우 업스테이지의 '솔라 프로2'가 58점으로 가장 높았고 LG AI 연구원의 '엑사원 4.0.1'과 SK텔레콤 '에이닷 엑스(A.X 4.0)', 네이버 '하이퍼클로바X(HCX-007)'는 20점대에 그쳤습니다. 엔씨소프트의 '라마 바르코(8B 인스트럭트)'는 2점으로 가장 낮은 점수를 받았습니다.

김 교수는 "국내 모델이 해외 모델에 비해 추론 능력이 부족하다는 점을 확인했다"며 "국내 기업들이 '국가대표 AI' 경쟁을 위해 최신 모델을 개발하고 있는 만큼 새 모델이 나오면 다시 한번 테스트해보려고 한다"고 말했습니다.

국내 업계에서는 수능 문제를 잘 푸는 것과 모델 성능이 바로 연결되는 것은 아닌 만큼 확대 해석은 경계해야 한다는 반응을 보였습니다. 한 업계 관계자는 "이미 공개된 모델은 벌써 꽤 지난 버전인 만큼 새로 업데이트한 모델은 다른 결과가 나올 수 있다"며 "추론 모드가 활성화돼있지 않은 경우에도 낮은 점수가 나올 수 있다"고 말했습니다.


LG AI연구원은 연구팀이 분석한 수능 수학 킬러 문항 20문제를 자체 테스트한 결과 평균 88.75점이 나왔다고 반박했습니다. 연구원 측은 "연구팀이 모델의 특성을 고려하지 않고 성능을 측정했기 때문에 점수가 낮게 나온 것"이라고 말했습니다.

오디오ㅣAI 앵커
제작ㅣ최지혜


#지금이뉴스

[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]

대한민국 24시간 뉴스채널 [YTN LIVE] 보기 〉
[YTN 단독보도] 모아보기 〉

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1우생순 언니들이 돌아왔다
    우생순 언니들이 돌아왔다
  2. 2신태용 감독 논란
    신태용 감독 논란
  3. 3야구 선수 영입
    야구 선수 영입
  4. 4음저협 회장 이시하
    음저협 회장 이시하
  5. 5학생인권조례 폐지
    학생인권조례 폐지

함께 보면 좋은 영상

YTN 하이라이트

파워링크

광고
링크등록

독자의 뉴스 Pick

쇼핑 핫아이템

AD