컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
머니투데이 언론사 이미지

눈·귀 달린 '옴니모달 모델' 수능도 술술, 전과목 1등급

머니투데이 김소연기자
원문보기
네이버 '하이퍼클로바 X'
여러 형태의 정보 이해·생성
글로벌 평가서 경쟁력 입증

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철


네이버 컨소시엄의 '독자 파운데이션 AI(인공지능) 모델'은 LLM(거대언어모델) 기반의 4개사 모델과 달리 '눈과 귀가 달린 AI'다. 텍스트는 물론 이미지와 음성까지 AI가 즉각 인식하고 결과물 역시 이미지와 음성으로 내놓을 수 있는 '옴니모달 모델'이다.

최근 AI기술은 텍스트 중심으로 빠르게 발전하지만 인간의 뇌처럼 텍스트, 이미지, 음성 등 다양한 콘텐츠를 동시에 이해하고 받아들이는 데 한계가 있다. 네이버는 이같은 한계극복에 중점을 뒀다. 인간을 닮아가는 AI기술로 하나의 맥락 안에서 다양한 모달리티를 다루고 동시에 이해하고 생성해 산업분야와 실생활 활용도를 높였다.

네이버의 독자 파운데이션 모델은 2개다. 먼저 텍스트·이미지·오디오를 한 모델 안에서 동시에 인식하고 처리하는 '하이퍼클로바X시드 8B 옴니'(이하 옴니모달)다.

옴니모달 AI는 국내 첫 시도로 아예 초기부터 이미지·오디오를 텍스트와 함께 공동학습한다.

다른 하나는 옴니모달 AI의 활용성을 검증하기 위한 '하이퍼클로바X시드 32B 싱크'다. 이 모델은 텍스트·이미지 기반 VLM(비전-언어모델)에 음성을 덧붙인 것으로 텍스트를 먼저 학습한 후 멀티모달로 확장하는 방식이다.

두 모델은 각각 80억개 파라미터(8B 매개변수), 320억개 파라미터(32B 매개변수) 규모로 이번 독자 파운데이션 모델 중 가장 경량이지만 성능은 나쁘지 않다.


글로벌 AI 평가기관 아티피셜애널리시스에 따르면 싱크는 종합지식, 고난도 추론, 코딩, 에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI모델들과 유사한 성능범위에 위치했다. 다만 한국어 대비 영어실력은 글로벌 모델과 견줘 성능이 다소 낮다.

텍스트와 이미지, 음성까지 이해할 수 있어 대학수학능력시험(수능)도 볼 수 있다. 지난해말 국민 대상으로 진행한 '독자 파운데이션 모델 성과발표회'에서 5초 만에 복잡한 수능문제를 풀어내는 현장시연을 펼쳤고 테크리포트에도 2026학년도 수능에서 국어, 수학, 영어, 한국사 등 주요 과목 1등급을 받았다는 내용이 담겼다.

김소연 기자 nicksy@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1김민재 결승골 뮌헨
    김민재 결승골 뮌헨
  2. 2신정환 뎅기열 해명
    신정환 뎅기열 해명
  3. 3한동훈 제명 공멸
    한동훈 제명 공멸
  4. 4트럼프 베네수 임시 대통령
    트럼프 베네수 임시 대통령
  5. 5제주항공 참사 안유성
    제주항공 참사 안유성

머니투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD