Pulse · AI 뉴스

AUDITA: 인간과 AI의 오디오 QA 능력 평가를 위한 새로운 데이터셋

AUDITA · 2026-04-24

연구진은 기존 오디오 QA 벤치마크의 한계를 지적하며, 표면적인 음향 인식 능력을 넘어선 진정한 오디오 추론 능력을 평가하기 위한 새로운 벤치마크 AUDITA를 발표했어요.

AUDITA는 실제 오디오 기반의 인간이 작성한 트rivia 질문으로 구성되어 있으며, 까다로운 오답과 장기적인 시간 의존성을 활용하여 모델의 추론 능력을 시험해요.

최신 오디오 QA 모델들은 AUDITA에서 낮은 정확도를 보이며, 인간 평균 정확도(32.13%)에 훨씬 못 미치는 성능을 나타냈어요.

##오디오QA##데이터셋##벤치마크##AI평가##오디오이해

매일 핵심 AI 소식을 한국어로, 빠르게