연구진은 MLLM의 시공간 추론 능력을 평가하기 위한 새로운 벤치마크 VGenST-Bench를 공개했어요. 기존 벤치마크의 한계를 극복하기 위해 생성 모델을 활용해 능동적으로 평가 시나리오를 합성했어요.
VGenST-Bench는 인간 품질 관리 단계를 포함한 다중 에이전트 파이프라인을 통해 고품질 비디오와 Q&A 쌍을 생성하며, 시공간 규모·관점·장면 역학을 포괄하는 3x2x2 비디오 분류 체계를 구축했어요.
이 벤치마크는 시각적 인지 능력과 시공간 추론 능력을 분리하는 계층적 작업 세트를 설계하여 MLLM의 시공간 이해 능력을 세밀하게 진단할 수 있도록 지원해요.