Pulse · AI 뉴스

VTAgent: 질문 기반 키프레임 앵커링으로 비디오 텍스트 VQA 성능 향상

VTAgent · 2026-05-06

연구진은 비디오 텍스트 VQA 벤치마크에서 Video-LLM의 성능 한계를 분석하고, 질문과 관련된 핵심 프레임을 명시적으로 앵커하는 VTAgent 프레임워크를 제안했어요.

VTAgent은 학습 없이도 직접 비디오 추론보다 뛰어난 성능을 보이며, 추가적인 지도 학습 및 강화 학습을 통해 평균 정확도 +12.12%, ANLS +11.15% 향상시켜 새로운 최고 성능을 달성했어요.

연구 결과는 비디오 텍스트 VQA 성능 향상을 위해 명시적인 키프레임 앵커링의 중요성을 강조하며, 코드 공개 예정입니다.

##비디오##VQA##에이전트##키프레임##모델출시

매일 핵심 AI 소식을 한국어로, 빠르게