Pulse · AI 뉴스

Native Active Perception을 활용한 Omni-Modal 이해를 위한 추론

OmniAgent · 2026-06-17

연구팀은 비디오 이해를 Observation-Thought-Action 주기로 처리하는 OmniAgent를 제안했어요. OmniAgent는 필요한 오디오·비주얼 정보를 텍스트 메모리에 저장해, 비디오 길이와 추론 복잡성을 분리합니다. Agentic Supervised Fine-Tuning과 Agentic Reinforcement Learning을 통해 능동적 인지 능력을 향상시켰어요.

OmniAgent는 비디오 길이에 따라 성능이 향상되는 positive test-time scaling을 보이며, VideoMME, LVBench 등 10개 벤치마크에서 최고 성능을 달성했어요. 특히 LVBench에서 7B 파라미터의 OmniAgent가 72B 파라미터의 Qwen2.5-VL보다 높은 성능을 보였어요.

연구팀은 OmniAgent의 성능을 검증하기 위해, 다양한 벤치마크에서 실험을 진행했고, 능동적 인지가 비디오 이해 성능을 크게 향상시킨다는 것을 확인했어요.

##비디오이해##인공지능##POMDP
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기