스포츠 영상은 복잡하고 역동적인 인간 활동을 포함하여 다중 모드 이해 측면에서 어려운 분야예요. 연구진은 시간적으로 분산된 증거에 대한 감독 부족과 시간적 증거를 식별, 위치, 정당화하는 방법의 부재를 이 문제의 원인으로 지목했어요. Chain-of-Time Reasoning (CoTR)은 시간적으로 근거 있는 증거 구성을 통해 추론 과정을 개선하는 새로운 방법으로, 강력한 MLLM 기반 모델보다 성능이 향상되었어요.