독자 AI 파운데이션 모델 1차 평가 결과…LG·SKT·업스테이지 2차 진출, 네이버·NC 탈락 : zum 뉴스

과학기술정보통신부가 15일 '독자 AI 파운데이션 모델' 프로젝트 1차 단계평가 결과를 발표했다. LG AI연구원, SK텔레콤, 업스테이지 3개 팀이 2차 단계에 진출했고, 과기정통부는 상반기 중 1개 팀을 추가 선정해 4개 팀 경쟁 체제를 구축할 계획이다.

총 2136억원 규모의 예산이 투입되는 이번 사업은 6개월 이내 출시된 최신 글로벌 AI 모델 대비 95% 이상 성능 구현을 목표로 추진됐다. 국방·의료·행정 등 민감 영역에서 해외 AI 모델 의존을 벗어나 독자적으로 활용할 수 있는 AI를 확보하겠다는 취지다. 사업의 핵심 조건은 '프롬 스크래치(From Scratch)'로, 데이터 수집과 모델 아키텍처 설계, 학습, 튜닝까지 전 과정을 독자적으로 수행하는 방식을 의미한다.

5개 정예팀이 개발한 AI 모델 전체가 미국 비영리 AI 연구기관 Epoch AI의 '주목할만한 AI 모델(Notable AI Models)'에 등재되는 성과를 거뒀다. Epoch AI는 인정된 벤치마크에서 최신 성능 달성, 1000회 이상 인용, 100만 명 이상 월간 사용자, 100만 달러 이상 학습 비용 등의 기준을 충족하는 모델을 등재한다. 배경훈 부총리 겸 과기정통부 장관은 "재작년만 해도 단 1개의 모델만 등재됐던 점을 감안하면 매우 의미 있는 진전"이라고 평가했다.

1차 평가 결과: LG AI연구원 전 부문 최고점

1차 단계평가는 벤치마크(40점), 전문가(35점), 사용자(25점) 등 100점 만점으로 진행됐다. LG AI연구원이 전 부문에서 최고점을 기록하며 기술력을 입증했다. 벤치마크 평가 33.6점(평균 30.4점), 전문가 평가 31.6점(평균 28.56점), 사용자 평가 만점(25점)을 받았다.

LG AI연구원의 'K-엑사원'은 13개 주요 벤치마크 평균 점수에서 72.03점을 기록해 알리바바 큐웬3 235B(69.37점) 대비 104%, 오픈AI GPT-OSS 120B(69.79점) 대비 103% 성능을 달성했다. 글로벌 AI 성능 평가 기관 아티피셜 어낼리시스의 인텔리전스 지수에서는 오픈 웨이트 모델 기준 세계 7위, 국내 1위에 올랐다. 현재 글로벌 오픈 웨이트 모델 톱10은 중국 6개, 미국 3개 모델로 구성돼 있으며, K-엑사원은 유일하게 한국 AI로 이름을 올렸다.

글로벌 개별 벤치마크에서는 업스테이지와 LG AI연구원이 공동 만점을, NIA 벤치마크에서는 SK텔레콤과 LG AI연구원이 공동 최고점(9.2점)을 획득했다.

네이버클라우드·NC AI 탈락

네이버클라우드와 NC AI는 2차 단계 진출에서 제외됐다. 네이버클라우드는 점수 상위 4개 팀에 포함됐으나 독자성 기준을 충족하지 못했다. 과기정통부는 독자 AI 파운데이션 모델의 기준을 "해외 모델 미세조정(파인튜닝) 등으로 개발한 파생형 모델이 아닌 모델의 설계부터 사전학습 과정 등을 수행한 국산 모델"로 규정하고 있다.

멀티모달 모델 '하이퍼클로바X 시드 32B 싱크'의 비전 인코더가 중국 알리바바 '큐웬 2.5' 모델과 코사인 유사도 99.51%를 기록한 점이 문제가 됐다. 비전 인코더뿐 아니라 오디오 인코더도 파인튜닝 과정 없이 그대로 사용한 것으로 분석됐다. 인코더는 입력된 내용을 문맥화된 의미 표현으로 변환하는 트랜스포머 기반 신경망 블록으로, 수천만 개 이상의 파라미터로 구성된다.

류제명 과기정통부 2차관은 "오픈소스 모델을 썼다 하더라도 스스로 확보한 데이터로 가중치를 채워나간 것이 검증됐어야 하는데, 가중치를 그대로 갖다 쓴 부분에 대해 기술적 측면에서 문제가 지적됐다"고 설명했다.

네이버클라우드 측은 "파운데이션 모델은 모델의 사고와 정체성을 담당하는 핵심 '두뇌'이므로 이를 100% 자체 기술로 개발해 독자적인 경쟁력을 확보했다"며 "다만 이번 모델에서는 글로벌 최신 트렌드와의 호환성, 그리고 전체 시스템의 최적화를 위해 해당 인코더를 전략적으로 채택했다"고 밝혔다. NC AI는 종합 점수에서 상위 4개 팀에 들지 못했다.

'프롬 스크래치' 논란과 검증

이번 평가는 지난달 30일 성과발표회 이후 불거진 '프롬 스크래치' 논란 속에서 진행됐다.

업스테이지는 '솔라 오픈 100B'가 중국 지푸AI의 'GLM-4.5-에어' 모델에서 파생됐다는 의혹을 받았다. 김성훈 업스테이지 대표는 1월 2일 강남오피스에서 업계 및 정부 관계자 70여 명을 대상으로 공개 검증회를 열었다. 현장은 유튜브 생중계를 통해 2000여 명이 동시 시청했으며, 모델 학습 로그와 체크포인트 등 개발 관련 주요 데이터를 전면 공개했다.

업스테이지 측은 초기 의혹의 근거였던 코사인 유사도가 최신 AI 모델들이 사용하는 'RMSNorm' 기술의 특성상 벡터 방향이 자연스럽게 비슷해지는 현상일 뿐이라고 설명했다. 실제 유사성을 보여주는 피어슨 상관계수는 -0.0163으로 사실상 0에 가까워, 두 모델의 가중치 패턴이 전혀 상관관계가 없음을 수학적으로 증명했다.

SK텔레콤도 딥시크와의 유사성 논란에서 해당 부분이 '인퍼런스 코드'에 한정된 것임을 해명했다. SK텔레콤 관계자는 "A.X K1은 가중치 면에서 모든 파라미터를 임의 초기화한 상태에서 학습한 모델로, 독자 개발한 모델"이라며 "딥시크와 유사하다고 언급한 부분은 공개된 모델을 실행할 때 편의를 위해 지원하는 인퍼런스 코드"라고 밝혔다.

LG AI연구원은 중국 모델 차용 논란 없이 독자 개발 경로를 유지해 '프롬 스크래치'의 모범 사례로 평가받았다. LG AI연구원은 5년간 축적한 파운데이션 모델 개발 기술을 바탕으로 K-엑사원을 5개월 만에 완성했다.

5개 팀 개발 전략

SK텔레콤이 5190억 개 매개변수로 최대 규모에 도전했고, LG AI연구원은 2360억 개 매개변수의 산업 현장 적용 모델을, 업스테이지는 1020억 개 매개변수로 효율적 성능 구현을 목표로 했다. 네이버클라우드는 텍스트·이미지·음성을 동시 처리하는 옴니모달 모델을, NC AI는 게임·제조·국방 등 버티컬 AI 모델을 개발했다.

추가 공모에는 이번에 제외된 네이버클라우드·NC AI 컨소시엄을 포함해 역량 있는 기업 모두 참여할 수 있다. 다만 GPU 임차 사업을 제공한 SKT와 네이버클라우드는 올해 GPU 지원 대상에서 제외되며, 2026년 하반기부터 GPU 지원이 가능하다. 선정된 팀에는 GPU·데이터 지원과 'K-AI 기업' 명칭이 부여된다. 이후 6월 2차 평가에서 3개 팀으로, 12월 최종 평가에서 2개 팀이 선발된다.

배 부총리는 "탈락한 기업들에 대해서도 지속적인 지원과 새로운 기회를 제공할 것"이라고 밝혔다.

글 : 조상래(xianglai@platum.kr)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용