연구진은 인간 행동의 제로샷 의미 이해에 있어 시간 해상도의 중요성을 조사했습니다. 켄도와 같은 빠른 움직임 패턴을 예시로 활용하여, 사전 훈련된 비디오-언어 모델과 대규모 언어 모델 기반 추론을 결합한 파이프라인을 제안했습니다. 실험 결과, 120Hz, 60Hz, 30Hz 프레임 속도 비교에서 높은 시간 해상도가 제로샷 환경에서 의미 분리도를 크게 향상시키는 것으로 나타났습니다.