연구진이 동적 시각 정보에 대한 추론 능력을 평가하는 Video-MME-Logical 벤치마크를 공개했어요. 이 벤치마크는 상태 추적, 순차적 계수, 시간 순서, 동적 공간성, 구조적 조립 등 5가지 시계적 논리 연산을 중심으로 구성돼요. 최신 MLLM 모델들을 테스트한 결과, 시간적 논리 복잡도가 증가할수록 인간과 모델 간의 격차가 뚜렷하게 나타났어요.