연구팀은 비디오 이해를 Observation-Thought-Action 주기로 처리하는 OmniAgent를 제안했어요. OmniAgent는 필요한 오디오·비주얼 정보를 텍스트 메모리에 저장해, 비디오 길이와 추론 복잡성을 분리합니다. Agentic Supervised Fine-Tuning과 Agentic Reinforcement Learning을 통해 능동적 인지 능력을 향상시켰어요.
OmniAgent는 비디오 길이에 따라 성능이 향상되는 positive test-time scaling을 보이며, VideoMME, LVBench 등 10개 벤치마크에서 최고 성능을 달성했어요. 특히 LVBench에서 7B 파라미터의 OmniAgent가 72B 파라미터의 Qwen2.5-VL보다 높은 성능을 보였어요.
연구팀은 OmniAgent의 성능을 검증하기 위해, 다양한 벤치마크에서 실험을 진행했고, 능동적 인지가 비디오 이해 성능을 크게 향상시킨다는 것을 확인했어요.