연구진은 기존 오디오 QA 벤치마크의 한계를 지적하며, 표면적인 음향 인식 능력을 넘어선 진정한 오디오 추론 능력을 평가하기 위한 새로운 벤치마크 AUDITA를 발표했어요.
AUDITA는 실제 오디오 기반의 인간이 작성한 트rivia 질문으로 구성되어 있으며, 까다로운 오답과 장기적인 시간 의존성을 활용하여 모델의 추론 능력을 시험해요.
최신 오디오 QA 모델들은 AUDITA에서 낮은 정확도를 보이며, 인간 평균 정확도(32.13%)에 훨씬 못 미치는 성능을 나타냈어요.