'독자 AI 파운데이션 모델' 1차 발표회 |
(서울=연합뉴스) 심재훈 기자 = 과학기술정보통신부가 야심 차게 내건 '독자 AI 파운데이션 모델(독파모) 1차 평가' 성적표가 공개되자 국내 IT 업계가 거센 후폭풍에 휩싸였다.
'K-AI'의 맏형 격인 네이버클라우드와 엔씨소프트[036570](NC)가 나란히 탈락의 고배를 마셨기 때문이다. 반면 LG AI연구원, SK텔레콤[017670], 업스테이지 등 3개 사만이 '국가대표 AI' 후보군으로 생존했다.
탈락 사유는 뼈아프다. 과기정통부는 네이버 모델에 대해 "중국 알리바바의 오픈 웨이트 모델 '큐웬(Qwen)'의 인코더와 가중치를 활용해 독자성 기준을 충족하지 못했다"고 지적했다.
수천억 원을 투입해 '한국형 AI'를 만들었다던 빅테크들이 사실상 모방 논란에 서게 된 셈이다.
이는 정부가 주창해 온 'AI 3대 강국(G3)' 구호의 민낯을 드러낸 사건이자 우리 AI 경쟁력의 현주소를 적나라하게 보여주는 대목이다.
도대체 무엇이 '독자 AI'이며 왜 우리는 이토록 '자체 기술'에 집착해야 하는가.
◇ '독자 AI'는 데이터 수집부터 토큰 학습까지 다해야
이번 논란의 본질을 꿰뚫으려면 AI 개발의 핵심인 '사전학습(Pre-training)'과 '미세조정(파인튜닝·Fine-tuning)'의 차이를 명확히 구분해야 한다.
정부는 독자 파운데이션 모델의 정의를 "해외 모델의 미세조정이 아닌 설계부터 사전학습 전 과정을 자체 수행한 국산 모델"로 규정했다.
특히 가중치(Weight)를 '제로(0)' 상태에서 시작해 스스로 학습하고 최적화하는 과정을 필수 요건으로 제시했다.
쉽게 말해, 데이터 수집부터 모델 아키텍처(설계도) 구성, 수조 개 단위의 토큰 학습까지 밑바닥(프롬스크래치·From Scratch)에서 다져야 비로소 '독자 기술'로 인정한다는 뜻이다. 건물을 지을 때 기초 공사와 골조, 마감까지 직접 책임지는 것과 같다.
격려사 하는 배경훈 장관 |
반면, 현재 우후죽순 쏟아지는 상당수 '국산 AI'는 이미 학습이 끝난 해외의 오픈 웨이트 모델을 가져와 한국어 데이터를 입히는 파인튜닝 방식에 기대고 있다.
정부 측은 "외부 인코더를 참고할 수는 있지만 핵심 가중치를 업데이트 없이 고정해 쓴다면 독자 모델로 볼 수 없다"고 선을 그었다.
문제는 일부 기업들이 효율성을 내세우며 중국산 '엔진'을 차용했다는 점이다.
알리바바의 'Qwen'이나 01.AI의 'Yi' 등 중국 모델들은 미국의 제재 속에서도 매개변수 효율을 극대화하며 글로벌 오픈소스 생태계를 장악하고 있다.
국내 기업들이 토크나이저(언어 처리 최소 단위)나 출력단 일부만 수정한 뒤 "독자 개발"이라 포장해 온 관행이 이번 평가로 제동이 걸린 것이다.
결국 베이스 모델의 핵심 가중치를 빌려 쓴다면 아무리 한국어 성능을 높여도 그것은 '잘 튜닝된 큐웬 파생 모델'일 뿐 '대한민국 독자 AI'는 아니라는 게 이번 평가가 던지는 메시지다.
◇ 미국 '넘사벽'·중국 '독자 생존'…샌드위치 된 한국
글로벌 AI 지형도 위에서 이번 사태를 조망하면 위기감은 더 증폭된다.
미국은 오픈AI(GPT), 구글(제미나이), 메타(라마), 앤트로픽(클로드) 등 초거대 모델부터 클라우드, AI 반도체까지 틀어쥔 명실상부한 '슈퍼 파워'다. 전 세계가 미국산 응용 프로그램 인터페이스(API·컴퓨터나 소프트웨어 사이의 연결)와 인프라에 종속되는 흐름은 이미 굳어졌다.
눈여겨볼 대목은 중국의 행보다.
챗GPT |
중국은 미국의 고강도 그래픽처리장치(GPU) 수출 통제라는 악조건 속에서도 알리바바, 텐센트 등이 자체 아키텍처 기반의 대형언어모델(LLM)을 잇달아 내놓으며 'AI 기술 자립'을 실현하고 있다. 네이버가 차용했다는 의혹을 받는 큐웬 역시 이런 독자 생태계의 산물이다.
이른바 '소버린 AI(Sovereign AI·주권 AI)'를 기치로 내건 프랑스(미스트랄AI)와 UAE(팔콘)도 국가 차원에서 독자 모델과 인프라 구축에 사활을 걸고 있다.
이런 상황에서 '한국형 AI'를 표방하던 기업들이 중국 모델 의존 논란에 휩싸인 것은 단순한 기술적 자존심 상처를 넘어 한국 AI 생태계가 중국이나 유럽에도 뒤처질 수 있다는 구조적 불안감을 시사한다.
◇ 안보와 밸류체인의 문제…왜 '독자 AI'여야 하나
막대한 비용과 리스크에도 불구하고 왜 '독자 AI'를 고집해야 할까.
이는 단순한 '신토불이' 정서가 아니라 국가 안보와 산업 생태계의 생존이 걸린 문제이기 때문이다.
우선 '데이터 주권'과 보안 이슈다.
해외 클라우드 기반 API를 그대로 쓸 경우 정부 기밀이나 기업의 민감 정보가 국경을 넘어 해외 서버로 흘러 들어갈 위험이 상존한다. 삼성전자[005930]가 사내 보안을 이유로 챗GPT 사용을 제한하고 자체 모델 도입을 서두른 것도 같은 맥락이다. 우리가 통제 가능한 모델 없이 진정한 데이터 보안을 논하기는 어렵다.
LG AI연구원 둘러보는 하정우 수석 |
문화적·법적인 필요성도 있다.
미·중 모델은 한국의 역사, 법률, 사회적 맥락을 온전히 담아내지 못한다. 독도 표기 오류나 전세 사기 같은 한국 특유의 이슈에서 엉뚱한 답변을 내놓는 '환각' 현상이 대표적이다. 우리 사회의 뉘앙스와 법체계를 정확히 이해하는 AI는 결국 우리 손으로 학습시켜야 가능하다.
AI 반도체부터 서비스로 이어지는 '밸류체인'의 완성을 위해서도 독자 AI는 필요하다.
정부는 국산 NPU(신경망처리장치), 데이터센터, 파운데이션 모델, 서비스를 잇는 '국가 AI 스택' 전략을 추진 중이다. 네이버가 삼성전자와 AI 반도체를 만들고, 통신사들이 국산 칩을 서버에 심는 시도는 자사 파운데이션 모델이라는 '테스트베드'가 있기에 가능하다.
AI 독자 모델이 사라진다면 한국 반도체는 엔비디아의 하청 기지로, 소프트웨어 산업은 구글 API 위에서 부가가치 일부만 챙기는 '소작농'으로 전락할 우려가 있다.
◇ '독자 AI' 투명성 강화하고 실리적 전략 다시 짜야
이번 탈락 사태는 한국 AI 산업에 울리는 강력한 경고음이다.
'AI G3'가 헛구호에 그치지 않으려면 전략의 판을 새로 짜야 한다는 목소리가 높다.
우선 '독자성'의 기준을 엄격히 하되 투명성을 강화해야 한다.
기업은 오픈소스를 활용했다면 이를 명확히 밝히고 그 위에서 어떤 차별화된 가치를 만들었는지 증명해야 한다. 정부 또한 '원천 기술 보유 기업'과 '응용 서비스 특화 기업'을 구분해 지원하는 정교한 투트랙 정책이 필요하다.
아울러 무리한 '풀 스크래치 범용 모델' 경쟁보다는 '특화형 소버린 AI'로 궤도를 수정해야 한다는 지적도 나온다.
자본과 데이터가 압도적인 미국 빅테크와 정면 대결하기보다는 법률, 의료, 국방, 행정 등 한국어 특화 데이터와 규제 이해도가 필수적인 버티컬(Vertical) 영역에서 통제 가능한 중·소형(sLLM) 모델을 구축하는 것이 실리적이라는 의미다.
결국 승부처는 데이터의 질적 고도화다.
모델 아키텍처 기술이 평준화되는 시점에서는 "누가 더 양질의 정제된 데이터를 보유했느냐"가 경쟁력을 가른다.
우리가 가진 방대한 행정 데이터, 판례, 언론 아카이브 등을 체계적으로 학습시켜 외산 모델이 넘볼 수 없는 '한국형 성능'을 입증해야 한다.
네이버와 NC의 탈락은 끝이 아닌 시작이어야 한다.
'껍데기만 국산'인 AI에 취해있을 시간은 없다. 이번 논란이 뼈를 깎는 기술 자립과 데이터 경쟁력 확보로 이어지지 않는다면 대한민국은 영원한 'AI 추격자' 신세를 면치 못할 것이다.
president21@yna.co.kr
▶제보는 카카오톡 okjebo
▶연합뉴스 앱 지금 바로 다운받기~
▶네이버 연합뉴스 채널 구독하기
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>































































