컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
이데일리 언론사 이미지

알리바바, 디지털 휴먼 영상 오픈소스 모델 ‘Wan2.2-S2V’ 공개

이데일리 김현아
원문보기
인물 사진·음성만으로 고품질 아바타 생성…토킹 헤드 한계 넘어
[이데일리 김현아 기자] 알리바바가 디지털 휴먼 영상 제작을 위한 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 27일 공개했다.

이 모델은 단일 이미지와 음성 파일만으로 실제 인물이 대화·노래·연기하는 듯한 고품질 아바타 영상을 구현할 수 있다.


신모델은 알리바바의 ‘Wan2.2’ 시리즈에 포함된 기술로, 얼굴 클로즈업부터 전신까지 다양한 구도를 지원하며, 프롬프트 지시에 따라 동작과 배경을 자동 생성한다. 음악 공연과 같은 복잡한 장면에서도 여러 캐릭터를 자연스럽게 처리할 수 있다는 점이 특징이다.

특히, 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 기존 ‘토킹 헤드’ 애니메이션의 한계를 넘어섰다. 또, 프레임 처리 기술을 통해 긴 영상 생성 시 안정성을 크게 높여 장편 콘텐츠 제작에도 활용 가능하다.

알리바바는 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋과 다중 해상도 학습을 적용해 성능을 개선했으며, 480P와 720P 해상도를 지원해 소셜미디어 숏폼부터 전통적인 TV 영상까지 폭넓은 활용을 가능케 했다.

‘Wan2.2-S2V’는 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 무료로 내려받을 수 있다. 앞서 공개된 ‘Wan’ 시리즈는 누적 690만 회 이상 다운로드됐다.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1대통령 정책
    대통령 정책
  2. 2또 럼 서기장 연임
    또 럼 서기장 연임
  3. 3정성호 쿠팡 투자사 주장
    정성호 쿠팡 투자사 주장
  4. 4차은우 탈세 의혹
    차은우 탈세 의혹
  5. 5캄보디아 스캠 범죄 압송
    캄보디아 스캠 범죄 압송

이데일리 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD