Pulse · AI 뉴스

생성된 음향 반응 임펄스 데이터 증강을 통한 화자 거리 추정 성능 향상 연구

FastRIR · 2026-05-02

ICASSP 2025의 Room Acoustics and Speaker Distance Estimation (SDE) 챌린지는 음향 반응 임펄스(RIR) 데이터 증강을 통해 SDE 모델 성능을 향상시키는 효과를 탐구합니다.

FastRIR을 활용하여 화자 및 청취자 위치에 조건부로 RIR을 생성하고, 품질 필터를 적용하여 챌린지 RIR와 정렬을 보장하며 모델을 미세 조정했습니다.

생성된 RIR 데이터를 활용한 접근 방식은 GWA 룸의 경우 평균 절대 오차(MAE)를 1.66m에서 0.6m로, Treble 룸의 경우 2.18m에서 0.69m로 감소시켰습니다.

##음향##화자거리추정##RIR##데이터증강
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기