연구진이 능동적 관찰을 통해 장시간 비디오 이해의 효율성을 높이는 OmniAgent를 제안했어요. OmniAgent는 필요한 정보만 선택적으로 추출하여 추론 복잡도를 줄여 성능을 향상시킵니다.
Agentic Supervised Fine-Tuning과 Agentic Reinforcement Learning을 통해 능동적 관찰 능력을 학습시켰으며, 성능 테스트에서 Qwen2.5-VL-72B보다 뛰어난 결과를 보였어요.
OmniAgent는 Observation-Thought-Action 사이클을 반복하며, 테스트 횟수가 증가할수록 성능이 향상되는 긍정적인 테스트 시간 스케일링을 보여줘요.