연구진은 현실 세계의 오디오·비디오 이해에 필요한 다중 단계 추론 능력을 평가하는 새로운 벤치마크 TraceAV-Bench를 발표했습니다.
TraceAV-Bench는 총 578개의 장시간 비디오로 구성되며, 평균 3.68번의 추론 단계를 거쳐 15.1분 동안의 시공간 정보를 활용합니다.
Gemini 3.1 Pro와 Ming-Flash-Omni-2.0를 포함한 여러 모델이 TraceAV-Bench에 도전했지만, 낮은 정확도를 기록하며 추가 연구의 필요성을 보여주었습니다.