컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
AI타임스 언론사 이미지

알리바바, MoE 적용한 첫 비디오 생성 모델 오픈 소스 출시

AI타임스
원문보기
[박찬 기자]

알리바바가 최초로 전문가 혼합(MoE) 구조를 도입한 오픈 소스 비디오 생성 모델을 출시했다. 동영상 분야에서도 오픈 소스 최고 기업으로 발돋움하고 있다.

알리바바는 30일(현지시간) 전문가 혼합(MoE) 구조를 적용한 오픈 소스 비디오 생성 모델 '완2.2(Wan2.2)'를 공개했다.

적은 연산 자원으로 고품질 영상 생성이 가능하며, 텍스트·이미지 기반 영상 생성 모두를 단일 프레임워크에서 지원하는 것이 특징이다.

완2.2 시리즈는 텍스트-투-비디오 모델 '완2.2-T2V-A14B', 이미지-투-비디오 모델 '완2.2-I2V-A14B', 두 작업을 모두 처리할 수 있는 하이브리드 모델 '완2.2-TI2V-5B'로 구성된다.

A14B 모델은 총 270억개의 매개변수를 갖추고 있지만, 실제 추론 과정에서는 두 전문가 중 하나만 활성화돼 단계마다 140억개의 매개변수만 작동하는 등 연산 효율을 극대화했다.

MoE 구조는 모델을 고잡음(high-noise)과 저잡음(low-noise) 전문가로 나누어, 영상 생성의 초기에는 전체 구도 중심의 고잡음 전문가를, 후반에는 디테일을 다듬는 저잡음 전문가를 각각 작동한다. 두 전문가의 전환 시점은 '신호대잡음비(SNR)'라는 수치를 기준으로 정해지며, 이 수치는 영상에서 노이즈가 줄어들수록 함께 낮아지도록 설정돼 있다.


완2.2는 고속 압축 성능으로도 주목받았다.

TI2V-5B 모델은 5초 길이의 720P 영상을 'RTX 4090'같은 일반 GPU 한 대에서 9분 이내에 생성할 수 있으며, 이는 업계에서 손꼽히는 속도다. 이 모델은 64배 압축을 가능하게 하는 완2.2-VAE 기반으로 설계됐고, 패치 분할 계층까지 포함해 총 4096배 압축을 실현했다.


성능 평가에서도 완2.2는 두각을 나타냈다. 자체 벤치마크인 '완-벤치 2.0'에서 주요 평가 항목 대부분에서 기존 상용 비디오 생성 모델들을 앞섰다.


한편, 알리바바는 이제 언어모델과 추론, 코딩 등에 이어 동영상 분야에서도 두각을 나타내고 있다. 다른 오픈 소스 그룹과는 점점 격차를 벌리고 있다.

완2.2 모델 제품군은 허깅페이스와 모델스코프를 통해 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1이재명 대통령 성탄 미사
    이재명 대통령 성탄 미사
  2. 2아이브 안유진
    아이브 안유진
  3. 3손흥민 리더십 재평가
    손흥민 리더십 재평가
  4. 4김영대 윤종신 정용화
    김영대 윤종신 정용화
  5. 5파워볼 복권 당첨
    파워볼 복권 당첨

함께 보면 좋은 영상

AI타임스 하이라이트

파워링크

광고
링크등록

독자의 뉴스 Pick

쇼핑 핫아이템

AD