Pulse · AI 뉴스

IsoNet: 복잡한 환경에서 얼굴 기반 음성 추출 기술 개발

IsoNet · 2026-05-14

IsoNet은 4개의 마이크로폰을 사용하는 소형 장치에서 음성 추출 성능을 향상시키는 시스템입니다. 시각 정보와 음성 정보를 결합하여 기존 방식보다 4.85dB 성능이 향상되었습니다. 연구팀은 시뮬레이션 환경에서 25,000개의 VoxCeleb 혼합 데이터로 3가지 커리큘럼을 훈련했습니다.

IsoNet-CL1은 -1~10dB SNR 환경에서 9.31dB SI-SDR을 달성하며, 기존 방식 대비 PESQ 2.13, STOI 0.84의 성능을 보였습니다. 기존 빔포밍 방식은 성능이 저하되는 반면, IsoNet은 시각적 조건부 결합을 통해 효과적인 음성 추출을 가능하게 합니다.

연구 결과는 소형 어레이에서 얼굴 선택 가능한 음성 추출의 기준을 제시하며, 실제 배포를 위한 과제(위상 재구성, 다중 간섭 혼합, 시뮬레이션-실제 전이)를 밝혀냈습니다.

##음성추출##시각정보##인공지능##마이크로폰##IsoNet
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기