연구진은 비디오 텍스트 VQA 벤치마크에서 Video-LLM의 성능 한계를 분석하고, 질문과 관련된 핵심 프레임을 명시적으로 앵커하는 VTAgent 프레임워크를 제안했어요.
VTAgent은 학습 없이도 직접 비디오 추론보다 뛰어난 성능을 보이며, 추가적인 지도 학습 및 강화 학습을 통해 평균 정확도 +12.12%, ANLS +11.15% 향상시켜 새로운 최고 성능을 달성했어요.
연구 결과는 비디오 텍스트 VQA 성능 향상을 위해 명시적인 키프레임 앵커링의 중요성을 강조하며, 코드 공개 예정입니다.