컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
비즈워치 언론사 이미지

“옴니모달 AI로 디지털 넘어 물리 주권까지 강화”

비즈워치 [비즈니스워치 백지현 기자 ]
원문보기
김건희 서울대 교수 SKT 뉴스룸 기고

김건희 서울대 컴퓨터공학부 교수

김건희 서울대 컴퓨터공학부 교수

정부의 '독자 AI 파운데이션 모델 프로젝트'가 높은 관심을 받는 가운데 텍스트를 넘어 이미지·영상·음성까지 이해하는 옴니모달 AI가 디지털 주권 확보의 핵심 기술로 부상하고 있다.

SK텔레콤 컨소시엄에 참여 중인 김건희(사진) 서울대 컴퓨터공학부 교수는 22일 SKT 뉴스룸 기고문을 통해 "성공적인 옴니모달 모델 확보는 디지털 주권을 넘어 물리적 인프라 주권까지 강화하는 기반이 될 수 있다"고 강조했다. 김 교수가 이끄는 연구팀은 SKT 컨소시엄에 참여해 멀티모달 연구를 지속해 오고 있다.

초거대 언어모델(LLM)은 기본적으로 텍스트를 기반으로 의미를 이해하는 모델이다. 여기에 이미지·영상 등 시각 정보를 처리하면 멀티모달, 음성까지 아우르면 옴니모달로 확장된다. 2024년 3월 오픈AI가 공개한 'GPT-4o'가 대표적 사례다.

김 교수는 특히 음성 이해 기술의 중요성을 강조했다. 그는 "음성은 AI 모델과 의사소통을 할 수 있는 수단으로 최근 학계와 산업계에서 큰 주목을 받고 있다"며 "하지만 음성은 단순히 새로운 입력 형식을 추가하는 것을 넘어 여러 기술적인 도전 과제들이 존재한다"고 말했다. 과거에는 음성을 텍스트로 변환한 뒤 처리하는 방식이 주를 이뤘으나, 최근에는 하나의 언어모델이 음성 정보까지 직접 처리하는 통합형 모델이 주목받고 있다고 덧붙였다.

김 교수는 "옴니모달 모델은 강력한 사전 학습된 언어모델을 그 핵심에 두고 음성을 포함한 다양한 멀티모달 데이터로 미세조정하는 방식으로 개발된다"며 "높은 성능의 언어모델을 갖추는 것이 옴니모달 모델 개발 성공의 핵심 요소"라고 말했다.

SKT 컨소시엄의 초거대 AI 모델 'A.X K1' 역시 옴니모달 모델로의 진화를 이어갈 예정이다. 이 모델은 1000만명 이상이 사용하는 에이닷을 비롯해 티맵, B tv 등 생활 밀착형 서비스에 적용돼 실시간 음성 대화와 통화 요약 기능을 지원할 것으로 전망된다.


김 교수는 또한 소버린 AI 성공을 위해선 국가의 핵심 데이터 주권을 온전히 활용해야 한다고 밝혔다.

그는 "국가, 공공, 산업 데이터는 대부분 다양한 형식의 비정형 데이터이므로 옴니모달 모델은 이 이러한 데이터를 외부 플랫폼에 의존하지 않고 직접 학습·운영할 수 있게 해준다"며 "옴니모달 모델은 산업 전반을 하나의 모델로 연결할 수 있으며, 장기적으로는 물리적 세계까지 아우르는 실행형 AI로 진화해 나갈 것"이라고 내다봤다.

ⓒ비즈니스워치(www.bizwatch.co.kr) - 무단전재 및 재배포금지

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1차은우 탈세 의혹
    차은우 탈세 의혹
  2. 2도쿄전력 원전 경보음
    도쿄전력 원전 경보음
  3. 3김병기 공천 헌금 의혹
    김병기 공천 헌금 의혹
  4. 4이사통 김선호
    이사통 김선호
  5. 5월드컵 베이스캠프 과달라하라
    월드컵 베이스캠프 과달라하라

비즈워치 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD