Act2See는 비디오 추론 시 필요한 동적 정보를 활용할 수 있도록 VLM이 능동적으로 비디오 프레임을 텍스트 추론 과정에 통합하는 새로운 프레임워크입니다. Supervised Fine-Tuning(SFT)을 통해 고품질 데이터셋으로 학습하여, 모델이 필요한 시각적 증거를 검색하거나 생성하도록 유도했습니다. VideoEspresso, ViTIB 등 어려운 벤치마크에서 최고 성능을 달성하며, VLM의 능동적 시각 인지 능력을 향상시켰습니다.