연구진은 시계열 영상 객체 검출기가 실제 시간적 맥락을 이해하는지, 아니면 단순히 몇몇 프레임의 정보를 활용하는지를 분석하기 위해 TemporalLens 진단 프레임워크를 제안했어요.
TemporalLens를 통해 기존 2D 검출 모델은 핵심 프레임이 제거되면 성능이 급락하는 반면, 시공간 모델은 이전 프레임 정보를 활용해 예측을 복구하는 것을 확인했어요.
YOLO-3D 아키텍처를 통해 시간적 깊이를 보존하는 것이 성능 향상에 가장 큰 영향을 미치는 요소임을 밝혀냈으며, 이는 mAP@50에서 3.7% 향상을 가져왔어요.