SK텔레콤 초거대 AI 모델 '에이닷엑스(A.X) K1' / SK텔레콤 |
SK텔레콤 정예팀이 '독자 AI 파운데이션 모델 프로젝트' 2단계에서 옴니모달 모델로 확장을 추진합니다.
초거대 인공지능(AI) 모델 'A.X K1'을 텍스트와 이미지를 넘어 음성까지 실시간으로 이해하는 옴니모달 모델로 고도화해, 소버린 AI 주도권을 확보한다는 계획입니다.
SKT 정예팀은 1차 발표회에서 매개변수 500B 규모의 'A.X K1'을 공개해 프로젝트 2단계 진출을 확정지었습니다. 2단계에서는 이미지·음성 등 멀티모달 기능을 단계적으로 적용합니다.
김건희 서울대 컴퓨터공학부 교수는 22일 SKT 뉴스룸 기고문에서 “초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 최근 음성까지 이해하는 옴니모달 모델로 진화 중”이라고 강조했어요.
김 교수는 특히 음성 기반 대화 기능을 구현하는 과정이 기술적으로 매우 까다롭다고 덧붙였습니다.
그는 “기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 턴(Turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시적이고 양방향적인 특성을 가진다”며 “상대방이 말하는 도중 개입하거나 짧은 피드백(백채널)을 주고받는 실시간 상호작용이 필요하다”고 설명했어요.
사용자의 감정이나 어조 등 복잡한 표현 방식까지 반영해야 하는 어려움도 짚었습니다.
김 교수는 “초기에는 음성인식(STT)과 음성합성(TTS)을 결합하는 단계적 방식을 썼지만, 응답 지연과 호흡·감정 등 고유 정보 손실 문제가 있었다”고 지적했어요.
그는 이를 극복하기 위한 방안으로 “최근에는 하나의 통합된 언어모델이 음성 정보까지 처리하는 기술이 발전하고 있다”며 “강력한 사전학습된 언어모델을 핵심에 두고 음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 개발의 핵심”이라고 밝혔습니다.
SK텔레콤은 진화된 A.X K1을 기반으로 '모두의 AI' 서비스를 실현할 방침입니다.
최성훈 기자 csh87@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]































































