컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
AI타임스 언론사 이미지

엔비디아, 새로운 방식의 음성-언어 모델 2종 오픈 소스 출시

AI타임스
원문보기
[박찬 기자]

엔비디아가 새로운 음성-언어모델 2종을 내놓았다. 각각 기존 방식의 한계를 넘어, 실시간 음성 처리와 음성 추론까지 가능한 혁신적인 모델이라는 설명이다.

엔비디아는 17일(현지시간) 음성 인식과 언어 모델을 하나의 구조로 결합한 혁신적인 AI 모델 '카나리-큐원-2.5B(Canary-Qwen-2.5B)'를 공개했다. 이 모델은 허깅페이스에서 다운로드 가능하며, 상업적 사용도 자유롭다.

특히, 허깅페이스 오픈ASR 리더보드에서 단어 오류율(WER) 5.63%로 1위를 기록하며 주목받고 있다.


카나리-큐원-2.5B는 기존 음성 인식(ASR) 시스템처럼 음성을 문자로 변환한 뒤 언어 모델이 후처리하는 방식이 아니라, 모델 하나에서 음성 전사와 언어 이해를 동시에 수행할 수 있도록 설계됐다.

이를 위해 '패스트콘포머(FastConformer)'라는 고속 음성 인코더와 사전 학습된 대형언어모델(LLM) '큐원3-1.7B'를 어댑터를 통해 연결하는 구조를 도입했다. 어댑터 방식 덕분에 두 구성 요소는 독립적으로도 사용 가능하며, 다른 모델과의 조합도 유연하다.

단순한 정확도뿐 아니라, 실용성 측면에서도 뛰어나다고 밝혔다. 매개변수는 25억개(2.5B)에 불과하지만, 더 큰 모델의 성능을 능가한다.


또, 실시간보다 418배 빠르게 음성을 처리할 수 있는 RTFx 418 속도를 달성, 대규모 전사나 실시간 자막 시스템 등 실제 환경에 적합하다고 소개했다.


학습에는 총 23만4000시간에 달하는 방대한 영어 음성 데이터가 사용됐다. 또, 다양한 억양과 상황, 발화 스타일을 포함해 잡음이 섞인 대화형 음성까지 대응할 수 있도록 설계됐다.

모델 학습과 추론은 모두 엔비디아 '네모(NeMo)' 프레임워크를 기반으로 진행됐으며, 학습 레시피도 오픈 소스로 공개돼 연구자나 개발자들이 커스터마이징할 수 있다.


하드웨어 호환성도 뛰어나다. 데이터센터용 'A100'과 'H100', '블랙웰' GPU는 물론, 워크스테이션 및 소비자용 'RTX 5090' 이하 그래픽카드까지 폭넓은 적용이 가능하다.


앞서 10일에는 첨단 오디오 언어 모델 '오디오 플라밍고3(AF3)' 논문을 아카이브에 게재하고, 모델과 코드를 허깅페이스와 깃허브를 통해 오픈 소스로 출시했다.

기존 모델은 음성을 텍스트로 변환하거나 오디오 클립을 분류할 수는 있었지만, 음성, 주변 소리, 음악 등 다양한 맥락을 고려하여 장시간에 걸쳐 오디오를 인간과 유사한 방식으로 해석하는 능력이 부족했다고 지적했다. AF3는 이런 한계를 넘어 음성과 환경음, 음악 등을 통합적으로 듣고 분석해 대화까지 할 수 있다고 강조했다.


AF3의 핵심은 'AF-위스퍼(AF-Whisper)'라는 통합 오디오 인코더다. 이 인코더는 위스퍼-v3 기반으로 설계돼, 음성, 소리, 음악을 하나의 구조에서 처리할 수 있게 해준다. 기존 모델들이 서로 다른 인코더를 사용해 일관성이 떨어졌던 점을 해결한 것이다. 또 1280차원 고밀도 임베딩 공간을 사용해 오디오와 텍스트 간 표현 정렬을 극대화했다.

단순 질문-응답을 넘어 '생각하고 말하는' 기능을 갖췄다. 'AF-싱크(AF-Think)' 데이터셋으로 학습된 이 모델은 질문을 받았을 때 바로 대답하는 대신, 중간 추론 과정을 먼저 설명한 후 답을 제시할 수 있다. 또한 'AF-챗(AF-Chat)' 데이터셋을 통해 여러 오디오를 기반으로 다중 회차 대화를 나눌 수 있고, 음성으로 질문하면 음성으로 대답하는 '보이스 투 보이스' 대화도 가능하다.

길게 듣고 이해하는 능력도 AF3의 강점이다. '롱오디오-XL(LongAudio-XL)' 데이터셋으로 학습된 AF3는 최대 10분 길이의 오디오를 듣고 회의 내용을 요약하거나 팟캐스트 내용을 이해하며, 시간적 흐름을 파악하고 풍자나 감정을 감지하는 복잡한 작업도 수행할 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1통일교 특검법
    통일교 특검법
  2. 2김장훈 미르 사과
    김장훈 미르 사과
  3. 3정희원 라디오 폐지
    정희원 라디오 폐지
  4. 4김민우 용인FC 영입
    김민우 용인FC 영입
  5. 5캐셔로 이준호
    캐셔로 이준호

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD