컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
플래텀 언론사 이미지

알리바바, 생성형 AI ‘Wan 2.6’ 공개… “내 얼굴·목소리 그대로 입힌다”

플래텀 허민혜
원문보기

알리바바가 사용자의 외모와 목소리를 유지한 채 새로운 상황의 영상을 만들어내는 차세대 비주얼 생성 AI 모델을 선보였다.

알리바바는 17일 비주얼 생성 모델의 최신 버전인 ‘Wan 2.6’ 시리즈를 공개했다. 이번 버전은 기존 모델의 성능을 전반적으로 개선하고, 영상 제작의 난제였던 캐릭터 및 음성의 일관성을 유지하는 기술을 탑재한 것이 특징이다.

이번 시리즈에서 가장 주목되는 기능은 ‘Wan2.6-R2V(Reference to Video)’ 모델이다. 이 기술은 사용자가 인물의 외모와 목소리가 담긴 참조(Reference) 영상을 업로드한 뒤 텍스트 명령어를 입력하면, 동일한 캐릭터가 주인공으로 등장하는 새로운 장면을 생성해 준다.

기존 영상 생성 AI가 장면이 바뀔 때마다 인물의 생김새가 미묘하게 달라지는 한계가 있었던 반면, Wan 2.6은 원본의 시각적 특징과 음성을 유지한다. 단일 인물뿐만 아니라 동물, 사물, 혹은 여러 주체가 등장하는 영상에서도 일관성을 지원한다. 알리바바 측은 이 기술이 숏폼 드라마 제작 등 연속적인 스토리텔링이 필요한 분야에서 활용도가 높을 것으로 보고 있다.

기존의 텍스트-영상(T2V), 이미지-영상(I2V) 모델도 기능이 강화됐다.

주요 개선 사항으로는 여러 장면이 이어져도 시각적 톤을 유지하는 ‘지능형 멀티샷(Multi-shot)’ 기능, 오디오와 입모양 등을 맞추는 오디오-비주얼 동기화, 오디오를 기반으로 영상을 만드는 기능 등이 포함됐다. 영상 출력 길이는 최대 15초로 늘어나, 기존보다 호흡이 긴 콘텐츠 제작이 가능해졌다.

이미지 생성 영역에서는 텍스트와 이미지를 교차 출력(Interleaved)하는 기능을 통해 논리적인 서사 전개를 지원하며, 복잡한 중국어 및 영어 프롬프트에 대한 이해도를 높여 사용자의 의도를 보다 정확히 반영하도록 설계됐다.

사용자는 알리바바 클라우드의 AI 개발 플랫폼 ‘모델스튜디오(Model Studio)’와 Wan 공식 웹사이트를 통해 해당 모델을 이용할 수 있으며, 향후 알리바바의 AI 애플리케이션 ‘큐원(Qwen)’에도 해당 기능이 통합될 예정이다.


글 : 허민혜(min3hui4@platum.kr)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1에스파 닝닝 홍백가합전 불참
    에스파 닝닝 홍백가합전 불참
  2. 2강선우 공천헌금 의혹
    강선우 공천헌금 의혹
  3. 3전현무 기안84 대상
    전현무 기안84 대상
  4. 4삼성생명 신한은행 경기 결과
    삼성생명 신한은행 경기 결과
  5. 5심현섭 조선의 사랑꾼
    심현섭 조선의 사랑꾼

플래텀 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD