Pulse · AI 뉴스

Drift-Augmented Scoring: 텍스트 기반 노이즈 강도에 강건한 제로샷 오디오-언어 분류

LAION · 2026-06-03

연구진은 음성-텍스트 매칭 기반 제로샷 오디오 분류 모델의 노이즈 취약점을 개선하기 위해 Drift Augmented Scoring (DAS) 기법을 제안했어요. DAS는 텍스트 기반 노이즈 예측 정보를 활용해 오디오 임베딩의 드리프트 방향을 보정하는 방식으로 작동해요. 실험 결과, UrbanSound8K 데이터셋에서 최대 5.75%의 정확도 향상, FSD50K 데이터셋에서 최대 1.74%의 mAP 향상을 달성했어요.

DAS는 모델 학습 과정에 참여하지 않고, 텍스트 정보만으로 한 번 계산 후 캐싱하여 추론 시 단일 내적 연산만 추가하는 방식으로 구현돼 효율적이에요. 기존 Acevedo 연구의 4가지 변형 방법과 비교했을 때 모든 테스트 조건에서 성능 향상을 보였어요.

DAS는 LAION CLAP 기반 모델에 적용되었으며, 도시 소음 환경에서 다양한 SNR 조건에서 테스트되었어요.

##오디오분류##제로샷##노이즈강인성##DriftAugmentedScori
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기