컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
디지털데일리 언론사 이미지

이스트소프트, 세계 최고 권위 AI 학회 EMNLP 논문 채택

디지털데일리 이나연 기자
원문보기
중국 쑤저우서 음성 길이 맞춘 AI 자동 더빙 연구 결과 발표

[디지털데일리 이나연 기자] 이스트소프트는 자사 인공지능(AI) 자동 더빙 기술 연구가 ‘EMNLP 2025’에 채택돼 중국 쑤저우에서 연구 결과를 발표했다고 17일 밝혔다.

학회가 열린 EMNLP(Empirical Methods in Natural Language Processing)는 글로벌 AI 연구자들이 참여하는 세계 최고 권위의 자연어 처리(NLP) 학회다.

이스트소프트 연구진의 논문명은 ‘대규모 언어모델(LLM)’을 활용한 종단 간 다국어 자동 더빙 프레임워크(End-to-End Multilingual Automatic Dubbing via Duration-based Translation with Large Language Models)’이다.

연구의 핵심은 영상 원본에서의 화자 발화 시간과 일치하는 더빙 영상을 생성하는 프레임워크를 제안한 것으로, 기존의 자동 더빙 시스템이 원본의 음성과 번역된 음성의 길이가 맞지 않아 부자연스러운 영상을 생성했던 한계를 극복한 것이다.

프레임워크의 구조는 STT(Speech-to-Text), NMT(Neural Machine Translation), TTS(Text-to-Speech) 세 가지 모듈로 구성됐다. 연구진은 NMT 모듈에 ‘발화 길이 조정 번역(DT, Duration-based Translation)’과 ‘발화 정지 정보 통합(Pause Integration)’ 개념을 도입했다.

LLM 기반의 ‘발화 길이 조정 번역’ 기술은 원본 음성의 지속 시간을 기반으로 번역에 필요한 최적의 음소 수를 동적으로 예측해 번역의 길이를 제어할 수 있는 환경을 제공한다. ‘발화 정지 정보 통합 기술’은 음성에 포함된 묵음까지 반영해 원본과 동기화를 향상한다. 이를 통해 원본의 발화 속도와 리듬을 자연스럽게 유지한 더빙 영상을 생성하는 것이다.


실험 결과, 이스트소프트 연구진이 제안한 방식은 자사를 포함한 상용화된 기존의 AI 더빙 시스템 대비 영상·음성 싱크 정확도는 24%, 다국어 청취 만족도는 12% 향상됐다.

논문 리뷰에서도 높은 평가를 받았다. 이스트소프트 연구진이 제안한 기술은 자동 더빙의 핵심 난제인 시간 동기화 문제를 효과적으로 해결했다. 아울러 다국어 더빙의 확장성과 산업 내 적용 가능성을 높였다.

실제 본 연구는 자사의 페르소 AI 더빙(Perso AI Dubbing) 서비스 고도화를 배경으로 추진됐다.


이스트소프트 연구진은 “현장에서 글로벌 빅테크와 해외 유수 대학 연구진들에 큰 관심을 받으며 학술적 교류를 할 수 있었다”며 “글로벌 무대에서 우리의 기술적 완성도와 창의성을 인정받아 기쁘다”라고 전했다.

정상원 이스트소프트 대표는 “페르소 AI(Perso AI)는 실제 서비스에서 확인된 문제를 해결하며 AI 더빙 기술을 고도화해 왔다”며 “세계 최고 권위의 AI 학회에서 인정받은 기술 경쟁력으로 글로벌 AI 더빙 시장을 이끌겠다”라고 전했다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1신은경 이진호 체납
    신은경 이진호 체납
  2. 2대통령 통일교 겨냥
    대통령 통일교 겨냥
  3. 3강훈식 K방산 4대 강국
    강훈식 K방산 4대 강국
  4. 4쿠팡 블랙리스트 의혹
    쿠팡 블랙리스트 의혹
  5. 5KB손해보험 카르발류 감독 사퇴
    KB손해보험 카르발류 감독 사퇴

디지털데일리 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD