연구진이 MLLM의 시각 상태 추적 능력을 진단하기 위한 새로운 벤치마크 VSTAT을 발표했어요. VSTAT은 834개의 클립과 1,500개의 질문으로 구성되어 있으며, 단일 프레임만으로는 답변할 수 없는 질문들을 포함하고 있어요.
최신 MLLM은 기존 영상 벤치마크에서는 좋은 성능을 보이지만, VSTAT에서는 인간 수준에 훨씬 못 미치는 성능을 보여요. 이는 MLLM이 시각적으로 필요한 이벤트를 추적하는 데 어려움을 겪기 때문입니다.
최근 에이전트 기반 접근법도 VSTAT의 실패를 해결하지 못하고 있으며, 시각 상태 추적 능력 향상을 위한 추가 연구가 필요합니다.