Pulse · AI 뉴스

Act2See: 능동적 시각 인지를 활용한 비디오 추론 프레임워크

Act2See · 2026-05-03

Act2See는 비디오 추론 시 필요한 동적 정보를 활용할 수 있도록 VLM이 능동적으로 비디오 프레임을 텍스트 추론 과정에 통합하는 새로운 프레임워크입니다.

Supervised Fine-Tuning(SFT)을 통해 고품질 데이터셋으로 학습하여, 모델이 필요한 시각적 증거를 검색하거나 생성하도록 유도했습니다.

VideoEspresso, ViTIB 등 어려운 벤치마크에서 최고 성능을 달성하며, VLM의 능동적 시각 인지 능력을 향상시켰습니다.

##비디오추론##VLM##Act2See##능동적시각인

매일 핵심 AI 소식을 한국어로, 빠르게