네이버클라우드, '보고 듣고 말하는' 네이티브 옴니모달 AI 오픈소스 공개 : zum 뉴스

하이퍼클로바X 시드 8B 옴니. [사진= 네이버클라우드 제공]

네이버클라우드가 텍스트와 이미지, 음성을 한 번에 이해하는 '네이티브 옴니모달(Native Omni-modal)' 인공지능(AI) 모델을 오픈소스로 공개했다. 시각과 청각을 통합한 모델을 기반으로 일상과 산업 현장에서 활용할 수 있는 'AI 에이전트' 구현을 본격화한다는 전략이다.

네이버클라우드는 29일 자체 개발한 파운데이션 모델 '하이퍼클로바X 시드(SEED) 8B 옴니(Omni)'와 '하이퍼클로바X 시드 32B 싱크(Think)'를 선보였다. 이번 성과는 과학기술정보통신부 주관 '독자 AI 파운데이션 모델' 프로젝트의 일환이다.

핵심은 국내 최초로 적용된 '네이티브 옴니모달' 구조다. 시드 8B 옴니는 텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 별도 모델로 처리하지 않고 단일 모델에서 학습한다. 기존 멀티모달 AI가 언어 모델에 시각 모델을 결합하는 방식이었다면, 네이티브 옴니모달은 정보 형태가 달라도 하나의 의미 공간에서 맥락을 통합적으로 이해하는 것이 특징이다.

이러한 구조는 말과 글, 시각 정보가 복합적으로 오가는 현실 환경에서 AI 활용도를 획기적으로 높인다. 텍스트 지시를 기반으로 이미지를 생성하거나 편집하는 기능도 단일 모델 안에서 수행할 수 있다.

네이버클라우드는 모델 거대화보다 '데이터 차별화'에 방점을 뒀다. 인터넷 문서 위주의 학습을 넘어 디지털화되지 않은 생활 맥락 데이터나 지역적 특성을 반영한 공간 데이터를 확보해 정제하는 데 집중한다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “데이터 다양성이 한정되면 모델을 키워도 문제 해결 능력이 특정 영역에 국한된다”며 “기본기를 갖춘 옴니모달 구조 위에서 차별화된 현실 데이터를 학습시켜 단계적으로 규모를 키우는 스케일업 전략을 추진할 것”이라고 말했다.

시드 32B 싱크 벤치마크 결과. [사진= 네이버클라우드 제공]

시드 32B 싱크는 추론형 AI에 시각 이해와 음성 대화, 도구 활용 능력을 더한 고성능 모델이다. 글로벌 AI 평가 기관인 아티피셜 어낼리시스의 벤치마크 결과, 종합 지식과 코딩 등 주요 지표에서 세계 유수 모델과 대등한 성능을 기록했다.

특히 올해 대학수학능력시험 문제를 텍스트 변환 없이 이미지로 직접 입력받아 풀이한 결과 국어, 수학, 영어, 한국사 등 주요 과목에서 1등급 수준 성과를 냈다. 영어와 한국사는 만점을 기록하며 복합적 문제 해결 능력을 입증했다.

네이버클라우드는 이번 모델 공개를 기점으로 검색, 커머스, 콘텐츠 등 다양한 산업 영역에 특화된 AI 에이전트를 확산할 계획이다. 단일 모델 구조 특성상 규모 확장이 쉬워 산업별 요구에 맞춘 효율적인 모델 공급이 가능할 것으로 기대된다.

네이버클라우드, '보고 듣고 말하는' 네이티브 옴니모달 AI 오픈소스 공개

AI 이슈 트렌드

전자신문 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템