Pulse · AI 뉴스

모든 것이 반짝이는 것이 오디오가 아니다: 오디오-언어 평가에서 텍스트 우선순위와 오디오 의존성을 재고하다

arXiv cs.CL · 2026-04-27

최근 오디오-언어 모델은 음성 및 오디오 벤치마크에서 꾸준히 성능이 향상되고 있지만, 높은 점수가 진정한 청각 인지를 반영하는 것은 아닐 수 있어요.

연구팀은 텍스트 우선순위와 오디오 의존성이라는 두 가지 축을 활용한 진단 프레임워크를 통해 모델이 오디오 신호 없이도 질문에 답할 수 있다면 벤치마크가 청각 이해도를 측정하는 데 실패한다는 것을 밝혀냈어요.

실험 결과, 모델은 오디오 입력 없이도 전체 오디오 점수의 60~72%를 유지하며, 오디오가 필요한 항목의 대부분은 전체 오디오 클립이 아닌 국소적인 오디오 조각으로 해결할 수 있다는 사실이 확인되었어요.

##오디오##언어모델##평가##벤치마크##LALM

매일 핵심 AI 소식을 한국어로, 빠르게