국내 AI모델에 수능 수학 풀게 했더니 ‘반타작도 못했다’?…LG “잘못 설계된 시험” 반박 : zum 뉴스

이홍락 LG AI연구원 공동 연구원장 겸 최고AI과학자가 지난 7월22일 서울 강서구 마곡 LG사이언스파크 컨버전스홀에서 열린 ‘LG AI 토크 콘서트 2025’에서 엑사원(EXAONE) 생태계를 소개하고 있다. LG AI연구원은 이날 의료, 데이터 학습 등 다양한 분야에 활용되는 AI 모델 ‘엑사원’ 생태계를 처음으로 공개했다. LG AI연구원 제공

국가대표 인공지능(AI)에 도전하는 국내 정예팀들의 거대언어모델(LLM)이 수능 수학문제 풀이 등에서 해외 모델에 크게 뒤처진다는 시험 결과가 나왔다. LG 측은 “모델 특성을 고려하지 않은 시험”이라며 반박에 나섰다.

김종락 서강대 수학과 교수 연구팀은 “국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에 수능 수학 20문제, 논술 30문제를 풀게 한 결과 양측 성적에 큰 격차가 있었다”고 15일 밝혔다.

연구팀은 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했고, 논술 문제는 국내 10개 대학 기출 문제와 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.

한국 모델로는 업스테이지의 ‘솔라 프로-2’, LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’, SK텔레콤의 ‘A.X 4.0(72B)’, 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’를 활용했다. 해외 모델에는 GPT-5.1, 제미나이 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다.

시험 결과 해외 모델은 76~92점을 받았지만, 한국 모델은 솔라 프로-2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했다. 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았다.

이번 시험 결과는 ‘AI 3강’을 목표로 내건 국내 LLM 개발 정예팀들의 실력이 국제적 수준에 한참 못 미친다는 ‘지표’로 해석되며 적잖은 파장을 낳았다.

이날 오후 LG AI연구원이 자체 시험 결과를 공개하며 ‘반박’에 나섰다. 서강대 연구진이 뽑은 수능 수학문제 20개 문항을 연구원이 ‘엑사원 4.0.1’에 다시 풀어보게 했더니 88.75점이 나왔다는 것이다. 서강대 연구진 측정 결과(35점)의 두 배를 넘는 결과다. LG AI연구원 측은 자체 시험이 “통상적인 AI 모델 수학 벤치마크 테스트 방식”으로 이루어졌다고 설명했다. 시간관계상 수능 수학문제에 한해 시험을 진행했다.

LG AI 연구원 관계자는 “‘엑사원 4.0.1’은 일반·추론 통합모델로, 추론 기능을 작동시키기 위해서는 특정 프롬프트가 필요한데 이를 고려하지 않은 것으로 보인다”면서 “(서강대 연구진이 활용했다고 밝힌) 파이선 계산툴 또한 엑사원엔 지원되지 않는 기능이다. (서강대 시험은) 모델 특성을 고려하지 않고 측정했기 때문에 점수가 낮게 나왔던 것으로 보인다”고 설명했다.

권재현 선임기자 jaynews@kyunghyang.com, 송윤경 기자 kyung@kyunghyang.com

▶ 매일 라이브 경향티비, 재밌고 효과빠른 시사 소화제!
▶ 더보기｜이 뉴스, 여기서 끝나지 않습니다 → 점선면

©경향신문(www.khan.co.kr), 무단전재 및 재배포 금지

국내 AI모델에 수능 수학 풀게 했더니 ‘반타작도 못했다’?…LG “잘못 설계된 시험” 반박

AI 이슈 트렌드

경향신문 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템