Pulse · AI 뉴스

MLLM의 시각 상태 추적 능력 평가 벤치마크 VSTAT 공개

VSTAT · 2026-06-02

연구진이 MLLM의 시각 상태 추적 능력을 진단하기 위한 새로운 벤치마크 VSTAT을 발표했어요. VSTAT은 834개의 클립과 1,500개의 질문으로 구성되어 있으며, 단일 프레임만으로는 답변할 수 없는 질문들을 포함하고 있어요.

최신 MLLM은 기존 영상 벤치마크에서는 좋은 성능을 보이지만, VSTAT에서는 인간 수준에 훨씬 못 미치는 성능을 보여요. 이는 MLLM이 시각적으로 필요한 이벤트를 추적하는 데 어려움을 겪기 때문입니다.

최근 에이전트 기반 접근법도 VSTAT의 실패를 해결하지 못하고 있으며, 시각 상태 추적 능력 향상을 위한 추가 연구가 필요합니다.

##MLLM##VSTAT##영상분석

매일 핵심 AI 소식을 한국어로, 빠르게