연구진은 비전-언어 모델(VLM)의 단편적인 예측과 설명을 개선하기 위해 LATERN 프레임워크를 제안했어요. LATERN은 비디오의 변화하는 역학을 고려하여 이상을 해석하도록 VLM을 돕는 컨텍스트 인식 프레임워크입니다.
LATERN은 이미지 기반 메모리 메커니즘을 통해 과거 내용을 선택적으로 활용하고, 이를 바탕으로 시각-텍스트 증거에 기반한 이벤트 수준의 결정과 설명을 생성합니다.
UCF-Crime 및 XD-Violence 벤치마크에서 실험 결과, LATERN은 테스트 시간 동안 VLM의 정확도와 설명 일관성을 향상시켰으며, 시간적으로 일관되고 의미론적으로 기반한 설명을 생성했습니다.