연구진은 비디오 MLLM이 순간적인 시각적 증거를 얼마나 잘 이해하는지 진단하는 벤치마크 'Moment-Video'를 공개했어요.
Moment-Video는 짧은 시간 동안 발생하는 시각적 이벤트에 대한 이해를 요구하며, 기존 모델은 낮은 정확도를 보였어요 (Seed-2.0-Pro 39.6%, 오픈소스 모델 25% 미만).
분석 결과, 더 촘촘한 프레임 샘플링이 일부 모델 성능을 개선하지만 근본적인 한계를 해결하지 못하며, 긴 비디오는 시간적 위치 추적을 더욱 어렵게 만들어요.