연구진은 비디오 LLM이 시간 역전 불가능성을 인식하는 '시간의 화살' 과제에서 인간 수준의 성능을 보이지 않는 원인을 분석했습니다. 영상 인코더의 시간 정보 부재가 아닌, 아키텍처 내 정보 병목 현상이 문제임을 밝혀냈으며, 특히 프로젝터 설계가 중요한 역할을 합니다. 시간 정보를 보존하는 프로젝터를 사용하고 시간 인지 영상 인코더를 결합하여 인간 수준을 뛰어넘는 98.1%의 정확도를 달성했습니다.