컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
아시아경제 언론사 이미지

국내 AI에 "수능 수학 문제 풀어봐"했더니…대부분 20점대

아시아경제 김진선
원문보기
김종락 서강대 교수팀, 국내·해외 AI 비교
韓 솔라 프로2만 58점…나머지는 20점대
국내외 대형언어모델(LLM)들을 대상으로 수학 수능 및 논술 문제 풀이 능력을 평가한 결과 한국 팀들의 모델 성능이 해외에 비해 현저히 낮은 것으로 나타났다.

김종락 서강대 수학과 교수 연구팀은 15일 국내 국가대표 인공지능(AI) 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과를 발표했다.
기사 내용을 이해하기 위한 사진으로 내용과는 무관. 펙셀스.

기사 내용을 이해하기 위한 사진으로 내용과는 무관. 펙셀스.


연구팀은 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했다. 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.

한국 모델로는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007' SK텔레콤의 'A.X 4.0(72B)' 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트'를 활용했다.

해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다. 결과 해외 모델은 76~92점을 받았다. 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대의 낮은 점수를 기록했다. 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았다.
수능 20문제+논술 30문제 풀이 결과 내용. 김종락 교수팀

수능 20문제+논술 30문제 풀이 결과 내용. 김종락 교수팀

연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했다.

이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다. 여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.


세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점을 기록했다. 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점이었다. HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.

김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 말했다.

김진선 기자 carol@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1에스파 닝닝 홍백가합전 불참
    에스파 닝닝 홍백가합전 불참
  2. 2강선우 공천헌금 의혹
    강선우 공천헌금 의혹
  3. 3전현무 기안84 대상
    전현무 기안84 대상
  4. 4삼성생명 신한은행 경기 결과
    삼성생명 신한은행 경기 결과
  5. 5심현섭 조선의 사랑꾼
    심현섭 조선의 사랑꾼

아시아경제 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD