[AI리포터]
[디지털투데이 AI리포터] 메타가 인공지능(AI) 기반 오디오 편집 모델 '샘 오디오'(SAM Audio)를 공개했다.
16일(현지시간) 실리콘앵글에 따르면, 샘 오디오는 메타의 '세그먼트 애니씽'(Segment Anything) 시리즈 중 하나로, 기존 이미지·영상 편집 기능을 오디오까지 확장한 것이 특징이다.
사용자는 텍스트 입력만으로 밴드 녹음에서 보컬이나 기타 소리를 따로 분리하거나, 도시에서 녹음한 팟캐스트에서 차량 소음을 제거할 수 있다. 또한 시각적 프롬프트와 시간대 지정 기능을 지원해 특정 소리를 더욱 정밀하게 편집할 수 있다.
[디지털투데이 AI리포터] 메타가 인공지능(AI) 기반 오디오 편집 모델 '샘 오디오'(SAM Audio)를 공개했다.
16일(현지시간) 실리콘앵글에 따르면, 샘 오디오는 메타의 '세그먼트 애니씽'(Segment Anything) 시리즈 중 하나로, 기존 이미지·영상 편집 기능을 오디오까지 확장한 것이 특징이다.
사용자는 텍스트 입력만으로 밴드 녹음에서 보컬이나 기타 소리를 따로 분리하거나, 도시에서 녹음한 팟캐스트에서 차량 소음을 제거할 수 있다. 또한 시각적 프롬프트와 시간대 지정 기능을 지원해 특정 소리를 더욱 정밀하게 편집할 수 있다.
샘 오디오의 핵심 기술은 '퍼셉션 인코더 오디오비주얼'(PE-AV) 엔진으로, 사용자가 입력한 소리를 인식하고 오디오 파일에서 이를 정확히 분리해 낸다. 메타는 샘 오디오가 기존 AI 오디오 편집 모델 대비 뛰어난 성능을 보이며, 텍스트·비주얼·시간대 입력을 결합한 혼합 프롬프트 방식에서 더욱 강력한 결과를 낸다고 밝혔다.
다만, 샘 오디오는 오디오 기반 입력을 지원하지 않으며, 합창 중 특정 목소리와 같이 유사한 소리를 분리하는 데 한계가 있다. 메타는 샘 오디오를 통해 접근성을 개선하는 데도 주목하고 있으며, 청각 보조 기기 제조사 스타키(Starkey)와 협력해 난청 보조 기기 기능을 강화하는 방안도 검토 중이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>




























































