Pulse · AI 뉴스

음성 언어 모델의 소수 샷 학습을 위한 단계별 조절을 통한 음향 프롬프팅

arXiv cs.LG · 2026-06-14

음성-언어 모델(ALM)은 텍스트와 음성 파형을 정렬하여 음성 분류에서 뛰어난 성능을 보여줬어요. 기존 연구는 텍스트 인코더에 집중했지만, 음성 인코더 내에서 학습 가능한 프롬프트를 활용할 가능성은 간과돼 왔어요. 본 논문에서는 음성 인코더에 학습 가능한 프롬프트를 도입하여 작업별 음향 특징을 포착하는 새로운 프레임워크를 제안해요.

기존 텍스트 프롬프팅 방식과 함께 음성 프롬프트를 학습하면 소수 샷 적응 성능이 향상돼요. 11개 데이터 세트에서 실험 결과, 본 방법을 플러그 앤 플레이 모듈로 통합하면 기존 텍스트 프롬프트 튜닝과 함께 성능이 향상돼요.

음성 표현 공간을 명시적으로 조절하면 텍스트만 사용하는 프롬프팅 방식의 한계를 극복할 수 있다는 점을 보여줘요.

##음성언어모델##프롬프팅##소수샷학습##음향특징

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기