컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
이투데이 언론사 이미지

국가대표 AI 첫 심판대…수능 수학점수 70점대로 쑥

이투데이
원문보기
김종락 교수팀 2차 검증 결과 발표
LG ‘K-엑사원’ 46점 오른 70점
업스테이지 ‘솔라’ 74점…14점 ↑
글로벌 모델과 10~20점차로 좁혀
연구팀 자체 문항서도 높은 점수


그래픽=손미경 기자 sssmk@

그래픽=손미경 기자 sssmk@


‘독자 인공지능(AI) 파운데이션 모델’ 프로젝트에 참여한 주관사의 AI 모델 성능이 정부의 대규모 투자 이후 개선된 것으로 나타났다. 수능 수학∙논술 문제를 풀렸을 때 70점대가 나오는 등 글로벌 프론티어 모델과의 성능 차이가 좁혀지고 있다는 평가가 나온다. 정부가 6월까지 글로벌 톱10 수준의 국가대표 AI를 내놓겠다는 포부를 밝힌 가운데 ‘AI 3강’ 도약이 가능할지 관심이 쏠린다.

12일 김종락 서강대 수학과 교수팀은 국가대표 AI 5개 모델 중 자체 평가에서 상위권을 차지한 2개 모델의 수리적 추론 능력 결과를 발표했다. 김 교수팀은 LG AI연구원의 'K-엑사원'과 업스테이지의 '솔라 오픈 100B'의 성능이 크게 향상됐다고 밝혔다.

김 교수팀이 지난해 12월 15일 수능 수학∙논술 50문제를 풀게 한 결과 엑사원 4.0.1은 24점이었지만 최근 공개된 K-엑사원은 70점을 기록했다. 업스테이지의 솔라 프로 2(31B)는 60점이었지만 솔라 오픈 100B는 74점으로 높은 성능을 보였다.

같은 문제로 글로벌 모델을 평가한 결과 구글의 ‘제미나이 3-프로-프리뷰’가 가장 높은 점수인 96점을 기록했다. 오픈 AI의 ‘GPT-5.2’는 86점, 중국 딥시크의 ‘딥시크-V.3.2’는 78점이었다. 김 교수팀은 “국가대표 AI 모델과 프론티어 모델과의 점수 차이가 10-20점밖에 나지 않는다”고 평가했다.

김 교수팀은 1차 평가 때와 같은 수능∙논술 문제로 국가대표 AI의 성능을 확인했다. 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했다. 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 제시했다.

배경훈 부총리 겸 과학기술정보통신부 장관이 지난해 12월 30일 오후 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참석해 축사를 하고 있다.

배경훈 부총리 겸 과학기술정보통신부 장관이 지난해 12월 30일 오후 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참석해 축사를 하고 있다.


또한 교수팀은 수학 올림피아드 수준 및 대학·대학원 수준의 고난도 문제로 구성된 자체 평가 문제 ‘엔트로피매스 시드 10 v1’를 풀게 한 결과 국가대표 AI 성능이 이전 모델에 비해 높아진 것을 확인할 수 있었다고 했다. 앞선 평가에서 엑사원 4.0.1은 46.7점을 기록했는데 이번 평가에서 K-엑사원은 76.7점으로 30점이 올랐다. 솔라 오픈 100B도 56.7점을 받아 53.3점이던 솔라 프로 2(31B)에 비해 소폭 향상됐다.


이번 평가 결과를 두고 김 교수팀은 “이전 모델보다 수리 추론 역량이 개선됐다는 것을 확인했다”며 “국가대표 AI 모델들의 수학적 추론 능력이 프론티어 모델을 바짝 추격하고 있다”고 말했다. 김 교수팀이 성능 평가에 활용한 문제와 관련 점수는 ‘엔트로피매스’ 리더보드에 전부 공개돼 있다.

한편, 15일 전후로 예정된 1차 평가 결과를 앞두고 독자 AI 파운데이션 모델 후보 5개가 글로벌 오픈소스 플랫폼 허깅페이스에 모두 공개됐다. 김 교수팀의 이번 평가는 민간에서 처음으로 진행된 국가대표 AI 성능 평가라는 점에서 의미를 가진다.

업계에선 해외처럼 AI 모델 검증이 자유로운 분위기가 형성돼야 한다는 지적이 나온다. 최병호 고려대 AI연구소 교수는 “업스테이지의 프롬 스크래치 논란은 한국의 AI 생태계에 굉장히 긍정적인 역할을 했다”며 “국가 단위의 AI 개발이 산업 혁신을 비롯해 민간 영역에 큰 영향을 미치는 만큼 민간 차원의 다양한 평가가 이뤄져야 한다”고 말했다.

[이투데이/김연진 기자 (yeonjin@etoday.co.kr)]

▶프리미엄 경제신문 이투데이 ▶비즈엔터

이투데이(www.etoday.co.kr), 무단전재 및 수집, 재배포금지

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1종합특검법 법사위 통과
    종합특검법 법사위 통과
  2. 2인천유나이티드 코칭스태프
    인천유나이티드 코칭스태프
  3. 3김한규 전용기 임명
    김한규 전용기 임명
  4. 4우원식 국회의장 선수촌 방문
    우원식 국회의장 선수촌 방문
  5. 5판사 이한영 백진희
    판사 이한영 백진희

이투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD