[사진= 생성형 AI 창작] |
정부가 효율적인 인공지능(AI) 데이터 공급을 위해 국가 AI 데이터 인프라를 전면 개편한다.
단순한 공공 데이터 개방을 넘어 민간 기업이 데이터를 거래하며 수익을 창출하는 '데이터 마켓플레이스'로 전환하고, 개인정보 보호를 위한 '합성데이터'와 거대언어모델(LLM) 학습용 '실시간 스트리밍' 기술을 전격 도입한다는 구상이다.
9일 관련 업계와 정부에 따르면 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 이 같은 내용을 담은 'AI 학습용 데이터 통합 제공 체계 구축 정보전략계획(ISP)' 수립에 착수했다.
사업 핵심은 '합성데이터' 도입이다. NIA는 실제 데이터와 유사한 통계적 특성을 갖추면서도 개인정보 침해 우려가 없는 가상 데이터의 생성과 품질 검증 기술 전략을 수립한다. 단순 비식별 처리를 넘어 플랫폼에 합성데이터 생성 기능을 직접 탑재하거나 품질 기준을 마련할 방침이다.
그동안 규제로 인해 막혀있던 의료·금융 분야 데이터의 활용 빗장을 풀어 AI 기업의 데이터 부족난을 해소하려는 의도다.
민간 데이터 유통 활성화를 위한 비즈니스 모델(BM)도 설계한다. 기존 'AI 허브'가 무료 개방 중심이었다면, 새로운 통합 체계는 민간 기업이 데이터를 등록해 수익을 올릴 수 있는 구조를 지향한다.
NIA는 데이터 제공 방식을 무료뿐만 아니라 유료·계약형 정책까지 확장하고, 데이터 제공자에 대한 인센티브 체계를 설계한다. 아마존웹서비스(AWS) 데이터 익스체인지 등 글로벌 상용 플랫폼을 벤치마킹해 공공과 민간 데이터가 섞여 거래되는 실질적인 '데이터 장터'를 구현한다는 구상이다.
기술 아키텍처는 최신 거대언어모델(LLM) 트렌드에 맞춰 '속도'에 방점을 찍었다. 기존의 대용량 파일 다운로드 방식은 실시간 학습이 필요한 최신 모델 개발에 한계가 있다는 지적을 반영했다.
이를 위해 데이터를 다운로드하지 않고 응용프로그램 인터페이스(API)를 통해 실시간 전송하며 학습하는 '스트리밍 파이프라인'과 'API 게이트웨이' 구조를 적용한다. 또한 국가 데이터 인프라 '원-윈도우(One-Window)' 시스템과 연계해 이용자가 한 곳에서 모든 데이터를 검색하고 즉시 활용하는 환경을 조성한다.
정부는 올 상반기 내 2027년까지 이어지는 3단계(시범-확산-고도화) 구축 로드맵을 확정하고, 내년 본사업 발주를 위한 예산과 구체적인 이행 계획을 마련할 계획이다.
류태웅 기자 bigheroryu@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]




















































