본문 바로가기

뉴스

알리바바, AI 에이전트용 멀티모달모델 '큐원2.5-옴니-7B' 출시

0
댓글0
[박찬 기자]

알리바바가 '큐원(Qwen)' 시리즈의 최신 멀티모달모델(LMM) '큐원2.5-옴니-7B(Qwen2.5-Omni-7B)'를 출시했다. 이 모델은 저비용 고성능의 AI 에이전트 개발을 위한 것으로, 특히 AI 음성 비서로 뛰어난 성능을 발휘할 것으로 기대했다.

알리바바는 26일(현지시간) 텍스트, 이미지, 오디오, 비디오를 통합 처리하는 멀티모달 AI 모델 '큐원2.5-옴니-7B'를 공식 발표했다.

이 모델은 70억 개의 매개변수를 갖춘 통합 엔드 투 엔드 AI 모델로, 다양한 입력 데이터를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 생성할 수 있다. 특히 휴대폰이나 노트북과 같은 엣지 디바이스에서도 최적의 성능을 발휘하도록 설계됐다.

핵심은 실시간 음성 설명 기능이다. 지난해 8월 출시한 오디오언어모델 '큐원2-오디오'에 비해 성능이 대폭 향상됐다.

이는 시각 장애인을 돕거나 영상 속 재료를 분석해 요리 가이드를 제공하는 등 실생활에서 다양하게 활용될 수 있다. 또 사용자 요청을 정확히 이해하고 대응할 수 있는 지능형 콜센터에 적용될 수 있다.

AI타임스

고성능과 효율성을 동시에 갖추기 위해 새로운 기술을 대거 도입했다.

'씽커-토커 아키텍처(Thinker-Talker Architecture)'는 텍스트 생성과 음성 합성 과정을 분리, 다른 모달리티 간의 간섭을 최소화하는 방식이다. 이를 통해 모델은 텍스트와 음성을 독립적으로 처리할 수 있으며, 자연스럽고 명확한 응답을 생성할 수 있도록 설계됐다.

'TMRoPE(Time-aligned Multimodal RoPE)'는 비디오와 오디오 데이터를 정밀하게 동기화하는 '포지션 임베딩' 기법을 적용한 기술이다. 이를 통해 모델이 시각적 정보와 음성 데이터를 정확하게 정렬할 수 있도록 하며, 사람 입술 움직임과 실제 음성을 일치시키는 작업 등에서 중요한 역할을 한다.

'블록 단위 스트리밍 처리(Block-wise Streaming Processing)'는 실시간 음성 상호작용을 가능하게 하기 위해 도입된 처리 방식으로, 블록 단위로 입력 데이터를 처리하고 즉각적인 출력을 생성하는 것이 특징이다. 이를 통해 지연 시간을 최소화하고 원활한 실시간 음성 응답을 제공한다.

AI타임스

벤치마크 테스트에서도 뛰어난 성능을 기록하며 경쟁력을 입증했다.

'옴니벤치(OmniBench)' 벤치마크에서는 평균 점수 56.13%를 기록하며, '제미나이-1.5-프로(42.91%)' 및 'MIO-인스트럭트(33.80%)' 등 경쟁 모델을 크게 앞질렀다. 이는 모델의 멀티모달 이해 및 추론 능력이 업계 최고 수준이라는 것을 보여 준다.

오디오-텍스트 작업에서도 뛰어난 성능을 보였다. 자동 음성 인식(ASR) 테스트에서는 '라이브리스피치(Librispeech)' 데이터셋을 기준으로 단어 오류율(WER) 1.6~3.5%를 기록, '위스퍼-라지-v3'와 같은 특화 모델과 동등한 수준의 성능을 달성했다.

이미지-텍스트 작업에서는 'MMMU' 벤치마크에서 59.2점을 기록, 'GPT-4o-미니(60.0)'에 근접한 성능을 보였다. 또 '레프코코(RefCOCO)' 바인딩 작업에서는 90.5%의 정확도를 기록해, '제미나이-1.5-프로(73.2%)'보다 높은 성능을 나타냈다.

비디오-텍스트 작업에서도 우수한 결과를 보였다. 자막이 없는 비디오-텍스트 분석에서 '비디오-MME' 기준 64.3점을 기록했다. 이는 이 모델이 영상과 텍스트를 종합적으로 분석하고 이해하는 능력이 뛰어나다는 것을 보여준다.

한편, 알리바바는 전날에도 AI 에이전트용 비전-언어모델 '큐원2.5-VL-32B'를 출시한 바 있다. 이처럼 최근에는 AI 에이전트를 위한 기술 개발에 집중하고 있다.

큐원2.5-옴니-7B는 허깅페이스와 깃허브를 통해 오픈 소스로 제공되며, 큐원 챗(Qwen Chat)이나 알리바바 클라우드의 커뮤니티 모델스코프(ModelScope)에서도 사용할 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

이 기사를 본 사람들이 선택한 뉴스

  • 쿠키뉴스끊이질 않는 ‘간호법’ 갈등…시행령 마련 지연에 “늦더라도 제대로”
  • 머니투데이'.kr' 새 도메인 떴다, 22년만에 선점 경쟁
  • YTN문닫은 태백 폐광이 우주 실험실로?...우주자원 장비 실증시설 구축
  • 조선비즈하루 새 주가 52% 폭락·구조조정 칼바람… 車 반도체 기업들 “회복 조짐 안 보여”
  • 디지털데일리소주 도수, 광고규제 때문에 계속 낮아진다? [IT클로즈업]

쇼핑 핫아이템

AD