연구진이 다양한 시간 척도의 위조 음성 특징을 포착하기 위해 병렬 시간 컨볼루션과 다양한 수용 영역을 활용하는 시간 피라미드 어댑터를 제안했어요. XLS-R 자가 지도 학습 표현과 Mel, Sinc, 시간 피라미드 등 프론트엔드 어댑터를 통합하여 다중 척도 시간 모델링을 수행했어요. PartialSpoof 데이터베이스에서 99.24% AUC와 3.87% EER을 달성하며 기존 모델보다 성능이 뛰어나다는 것을 확인했어요.
다국어 평가 결과 위조 음성 특징은 언어와 독립적이지만, 자가 지도 학습 표현은 도메인 및 언어 변화 시 성능 저하가 발생하여 더 나은 적응 및 교정 전략이 필요하다는 점을 확인했어요. ASVspoof 2017, 2021, PartialSpoof, DiffSSD, HQ-MPSD 등 다양한 벤치마크에서 실험을 진행했어요.
연구 결과는 위조 음성 탐지에서 시간 피라미드 모델이 기존 방식보다 효과적이며, 다국어 환경에서도 활용 가능함을 보여줘요.