[이데일리 김현아 기자] 알리바바가 디지털 휴먼 영상 제작을 위한 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 27일 공개했다.
이 모델은 단일 이미지와 음성 파일만으로 실제 인물이 대화·노래·연기하는 듯한 고품질 아바타 영상을 구현할 수 있다.
신모델은 알리바바의 ‘Wan2.2’ 시리즈에 포함된 기술로, 얼굴 클로즈업부터 전신까지 다양한 구도를 지원하며, 프롬프트 지시에 따라 동작과 배경을 자동 생성한다. 음악 공연과 같은 복잡한 장면에서도 여러 캐릭터를 자연스럽게 처리할 수 있다는 점이 특징이다.
이 모델은 단일 이미지와 음성 파일만으로 실제 인물이 대화·노래·연기하는 듯한 고품질 아바타 영상을 구현할 수 있다.
신모델은 알리바바의 ‘Wan2.2’ 시리즈에 포함된 기술로, 얼굴 클로즈업부터 전신까지 다양한 구도를 지원하며, 프롬프트 지시에 따라 동작과 배경을 자동 생성한다. 음악 공연과 같은 복잡한 장면에서도 여러 캐릭터를 자연스럽게 처리할 수 있다는 점이 특징이다.
특히, 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 기존 ‘토킹 헤드’ 애니메이션의 한계를 넘어섰다. 또, 프레임 처리 기술을 통해 긴 영상 생성 시 안정성을 크게 높여 장편 콘텐츠 제작에도 활용 가능하다.
알리바바는 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋과 다중 해상도 학습을 적용해 성능을 개선했으며, 480P와 720P 해상도를 지원해 소셜미디어 숏폼부터 전통적인 TV 영상까지 폭넓은 활용을 가능케 했다.
‘Wan2.2-S2V’는 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 무료로 내려받을 수 있다. 앞서 공개된 ‘Wan’ 시리즈는 누적 690만 회 이상 다운로드됐다.































































