컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
디지털투데이 언론사 이미지

SKT 정예팀, 'A.X K1' 기술 보고서 공개…수학·코딩 성능 입증

디지털투데이
원문보기
[이진호 기자]
SKT 을지로 사옥 [사진: SK텔레콤]

SKT 을지로 사옥 [사진: SK텔레콤]


[디지털투데이 이진호 기자] 정부의 '독자 AI 파운데이션 모델' 프로젝트에 참여하는 SK텔레콤 정예팀이 매개변수 519B(5190억개) 규모의 초거대 AI 모델 'A.X K1'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 7일 공개했다.

SK텔레콤 정예팀은 다양한 기술과 효율성을 극대화한 설계로 국내 첫 500B 이상 초거대 모델 A.X K1을 완성했다. 4개월여의 짧은 개발기간과 제한된 GPU 자원에도 불구하고 519B 규모 모델을 구축했다.

A.X K1은 주요 벤치마크에서 딥시크-V3.1 등 세계적으로 많이 활용되는 초거대 모델과 유사하거나 더 높은 성능을 달성했다. 통상 매개변수가 많아질수록 최적화 시간과 GPU 자원 투입이 늘어난다. SKT 정예팀은 타 정예팀 대비 최소 2배 이상 모델 규모에도 높은 성능까지 확보했다고 강조했다.

A.X K1은 향후 추가 연구 기간에 따라 더 많은 컴퓨팅 자원과 데이터를 투입해 성능을 더욱 높일 수 있다. SKT는 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획이다.

정예팀은 1000개의 GPU 자원을 활용해 A.X K1 학습을 진행했다. 학습 기간과 GPU 규모를 바탕으로 가능한 총 학습량을 추산했다. 이를 바탕으로 최대 모델 크기를 스케일링 이론에 근거해 설계했다. 세계적으로도 독창적인 매개변수 구조인 519B 규모 모델을 목표로 정하고 약 10조개의 데이터를 투입해 학습했다.

상시 1000개 이상의 GPU를 AI 훈련에 활용했다. 투여된 GPU 자원 대비 효과를 극대화하기 위해 최적의 학습 연산량을 수학적으로 설계하고 관리했다. 특히 정부 지원을 받지 않고 자체 GPU 조달만으로 목표를 달성했다는 게 SKT 설명이다.


A.X K1은 수학과 코딩 등의 분야에서 우수한 성능을 구현했다. 이번 보고서에 기술된 벤치마크 지표는 매개변수 6850억개의 딥시크-V3.1, 매개변수 3570억개의 GLM-4.6 오픈소스 모델과 비교해 규모 대비 성능을 비교할 수 있도록 했다.

수학은 AIME25 벤치마크에서 89.8점을 받아 딥시크-V3.1 모델(88.4점) 대비 102% 수준이었다. 코딩 활용도 측면에서 측정한 라이브코드벤치(LiveCodeBench)는 영어 기반 75.8점, 한국어 기반 73.1점을 기록하며 실시간 코딩 문제 해결 능력을 입증했다. 영어 기반 69.5점, 한국어 기반 66.2점을 받은 딥시크-V3.1 대비 각각 109%, 110% 수준의 높은 성능을 보였다..

또 A.X K1은 519B 규모 파라미터 가운데 33B만 선택적으로 활성화하는 방식으로 효율성을 높였다. 전문가 혼합(MoE) 구조를 채택해 AI 훈련 과정의 안정성과 효율을 동시에 확보했따. MoE는 여러 개의 작은 전문가 모델이 모여 하나의 큰 문제를 해결하는 방식이다.

그 밖에도 A.X K1은 한 번에 128K 토큰의 긴 문맥도 처리할 수 있는 능력을 갖췄다. 이는 한국어 기준 약 10만 단어로, AI 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있게 해 준다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1친명, 반명 갈라치기
    친명, 반명 갈라치기
  2. 2트럼프 그린란드 병합
    트럼프 그린란드 병합
  3. 3임성근 음주운전 논란
    임성근 음주운전 논란
  4. 4이민성 감독 한일전
    이민성 감독 한일전
  5. 5연말정산 간소화 서비스
    연말정산 간소화 서비스

디지털투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD