[박찬 기자]
엔비디아가 지연 시간과 동시 접속 한계를 동시에 극복한 새로운 음성 인식 모델을 선보였다.
엔비디아는 5일(현지시간) 실시간 음성 에이전트와 라이브 자막 서비스를 겨냥한 새로운 스트리밍 영어 음성 인식(ASR) 모델 '네모트론 스피치 ASR(Nemotron Speech ASR)'을 공개했다.
이번 모델은 저지연 처리를 핵심 목표로 설계됐으며, 허깅페이스에 오픈 웨이트 형태로 공개됐다.
엔비디아가 지연 시간과 동시 접속 한계를 동시에 극복한 새로운 음성 인식 모델을 선보였다.
엔비디아는 5일(현지시간) 실시간 음성 에이전트와 라이브 자막 서비스를 겨냥한 새로운 스트리밍 영어 음성 인식(ASR) 모델 '네모트론 스피치 ASR(Nemotron Speech ASR)'을 공개했다.
이번 모델은 저지연 처리를 핵심 목표로 설계됐으며, 허깅페이스에 오픈 웨이트 형태로 공개됐다.
네모트론 스피치 ASR은 6억개 규모의 매개변수를 가진 음성 인식 모델이다.
속도를 높이기 위해 캐시를 활용하는 패스트컨포머(FastConformer) 인코더와 RNNT 디코더를 함께 사용한다. 최신 엔비디아 GPU에서 잘 동작하도록 설계돼 실시간 스트리밍 처리와 대량 처리(배치 작업) 모두에 적합하다. 입력은 16kHz 모노 음성을 사용하며, 최소 80밀리초(ms) 단위로 음성을 나눠 처리한다.
이 모델의 가장 큰 특징은 기존과 다른 캐시 기반 처리 방식이다. 일반적인 스트리밍 음성 인식은 앞부분 음성을 겹쳐서 다시 처리하는 오버랩 윈도우를 사용해 문맥을 유지한다. 이 때문에 같은 음성을 반복 계산하게 되고, 동시에 접속하는 사용자가 많아질수록 연산량이 늘고 지연도 커지는 문제가 있었다.
이를 "전통적인 실시간 ASR은 버퍼링 추론에 의존하는데, 이는 시스템이 문맥을 유지하기 위해 겹치는 오디오 창을 반복적으로 재처리하는 방식"이라며 "마치 책장을 넘길 때마다 마지막 몇페이지를 다시 읽는 것과 같은 계산상의 비효율"이라고 지적했다.
네모트론 스피치 ASR은 이런 문제를 해결하기 위한 것이다.
따라서 음성을 처리할 때, 인코더 안에서 계산된 중간 결과를 캐시에 저장해 두는 방식을 사용한다. 그래서 새로운 음성 조각이 들어오면, 그 부분만 한번 처리하고 이전에 계산한 내용은 다시 계산하지 않고 그대로 활용한다.
이 덕분에 음성이 길어질수록 연산량이 일정한 비율로만 증가하고, 동시에 접속하는 사용자가 늘어나도 메모리 사용량을 예측하기 쉽다는 설명이다. 또 음성 에이전트에서 중요한 요소인 응답 지연 시간도 일정하게 유지할 수 있어, 실시간 대화에 더 적합한 구조를 갖추고 있다.
지연 시간과 인식 정확도 사이의 균형을 상황에 맞게 조절할 수 있도록 설계됐다. 이를 위해 약 80밀리초, 160밀리초, 560밀리초, 1.12초에 해당하는 네 가지 기본 처리 모드를 제공한다.
이 설정은 추론 단계에서 att_context_size 파라미터를 바꾸는 것만으로 조정할 수 있어, 모델을 다시 학습할 필요가 없다. 덕분에 실시간 대화처럼 빠른 응답이 중요한 경우나, 정확한 전사가 필요한 작업 등 활용 목적에 맞게 유연하게 선택할 수 있다.
허깅페이스 오픈ASR(OpenASR) 리더보드의 주요 데이터셋인 AMI, Earnings22, Gigaspeech, LibriSpeech로 평가한 결과, 네모트론 스피치 ASR의 평균 단어 오류율(WER)은 청크 크기에 따라 차이를 보였다.
약 0.16초 청크에서는 7.84%, 0.56초 청크에서는 7.22%, 1.12초 청크에서는 7.16%를 기록했다. 청크가 길어질수록 더 많은 음성 맥락을 활용할 수 있어 인식 정확도가 소폭 개선되는 경향을 보인다.
엔비디아는 160밀리초 설정은 빠른 반응이 중요한 실시간 음성 에이전트에 적합하고, 560밀리초 이상 설정은 정확한 전사가 필요한 전사 중심 작업에 알맞다고 설명했다.
캐시를 활용한 설계는 동시에 많은 음성을 처리하는 성능에서도 큰 효과를 보였다. 엔비디아 'H100' GPU 기준으로 320밀리초 청크 설정에서 약 560개의 음성 스트림을 동시에 처리할 수 있었으며, 이는 같은 지연 조건의 기존 스트리밍 방식보다 약 3배 높은 수준이다. 또 'RTX A5000'에서는 5배 이상, 'DGX B200'에서는 최대 2배 정도 처리량이 늘어난 것으로 나타났다.
특히 사용자가 많아져도 지연 시간이 거의 늘어나지 않는 점이 강조됐다. 실제 테스트에서 127개의 웹소켓 클라이언트가 동시에 접속한 상황에서도, 560밀리초 모드 기준 전체 처리 지연의 중앙값은 약 182밀리초로 안정적으로 유지됐다. 덕분에 몇 분 이상 이어지는 긴 음성 대화에서도 소리와 응답이 어긋나는 문제가 발생하지 않았다.
네모트론 스피치 ASR은 엔비디아의 그래너리(Granary) 데이터셋 중 영어 데이터를 중심으로, 여러 공개 음성 코퍼스를 합쳐 약 28만5000시간 분량의 음성 데이터로 학습됐다. 학습에는 유튜브 커먼스, 라이브리라이트, 피셔, 스위치보드, 월스트리트저널, 복스포퓰리, 모질라 커먼 보이스 등 다양한 공개 자료가 활용됐으며, 사람이 직접 만든 전사와 ASR이 자동 생성한 전사를 함께 사용해 학습 효율을 높였다.
엔비디아는 "기존 ASR는 원래 오프라인 전사를 위해 설계됐으며, 스트리밍 사용 사례에 최적화된 것이 아니다"라며 "하지만 음성 에이전트는 근본적으로 다른 요구 사항이 필요하다"라고 밝혔다.
이어 "네모트론 스피치 ASR을 사용하면 음성 에이전트는 더 이상 속도와 정확성 또는 확장성 사이에서 타협할 필요가 없다. 중복 연산을 제거하고 예측 가능한 선형 확장을 가능하게 함으로써 100ms 미만의 응답 속도, 높은 동시 접속 환경에서도 안정적인 지연 시간, 그리고 대규모 환경에서도 뛰어난 성능을 제공한다"라고 강조했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































