음성-언어 모델(ALM)은 텍스트와 음성 파형을 정렬하여 음성 분류에서 뛰어난 성능을 보여줬어요. 기존 연구는 텍스트 인코더에 집중했지만, 음성 인코더 내에서 학습 가능한 프롬프트를 활용할 가능성은 간과돼 왔어요. 본 논문에서는 음성 인코더에 학습 가능한 프롬프트를 도입하여 작업별 음향 특징을 포착하는 새로운 프레임워크를 제안해요.
기존 텍스트 프롬프팅 방식과 함께 음성 프롬프트를 학습하면 소수 샷 적응 성능이 향상돼요. 11개 데이터 세트에서 실험 결과, 본 방법을 플러그 앤 플레이 모듈로 통합하면 기존 텍스트 프롬프트 튜닝과 함께 성능이 향상돼요.
음성 표현 공간을 명시적으로 조절하면 텍스트만 사용하는 프롬프팅 방식의 한계를 극복할 수 있다는 점을 보여줘요.