Pulse · AI 뉴스

Echo: 단일 ViT 인코더 기반 화자 분리 및 음성 인식 통합 시스템

JEPA · 2026-06-01

연구진이 단일 25M 파라미터 ViT 인코더 기반 오디오 시스템 'Echo'를 공개했어요. JEPA 방식으로 사전 학습 후 화자 정보, 음성 내용, 동적 소스 라우팅을 512차원 잠재 공간에 통합하는 방식이에요.

화자 분리에는 ArcFace + VBx, 동적 소스 분리에는 null-target K-set 예측을 활용하며, 별도 파인튜닝 없이 배포돼요.

합성 VoxCeleb2 혼합 환경에서 15.00% DER, 97.80% 분리 정확도, 53.50 포인트 화자/내용 분리 격차를 달성했어요.

##화자분리##음성인식##JEPA##ViT

매일 핵심 AI 소식을 한국어로, 빠르게