연구진은 음성-텍스트 매칭 기반 제로샷 오디오 분류 모델의 노이즈 취약점을 개선하기 위해 Drift Augmented Scoring (DAS) 기법을 제안했어요. DAS는 텍스트 기반 노이즈 예측 정보를 활용해 오디오 임베딩의 드리프트 방향을 보정하는 방식으로 작동해요. 실험 결과, UrbanSound8K 데이터셋에서 최대 5.75%의 정확도 향상, FSD50K 데이터셋에서 최대 1.74%의 mAP 향상을 달성했어요.
DAS는 모델 학습 과정에 참여하지 않고, 텍스트 정보만으로 한 번 계산 후 캐싱하여 추론 시 단일 내적 연산만 추가하는 방식으로 구현돼 효율적이에요. 기존 Acevedo 연구의 4가지 변형 방법과 비교했을 때 모든 테스트 조건에서 성능 향상을 보였어요.
DAS는 LAION CLAP 기반 모델에 적용되었으며, 도시 소음 환경에서 다양한 SNR 조건에서 테스트되었어요.