Pulse · AI 뉴스

MLLM의 시각 상태 추적 능력 평가 벤치마크 VSTAT 공개

VSTAT · 2026-06-03

연구진이 MLLM의 시각 상태 추적 능력을 평가하는 VSTAT 벤치마크를 공개했어요. VSTAT은 834개의 클립과 1,500개의 질문으로 구성되어 있으며, 단일 프레임이나 짧은 구간으로는 답변할 수 없는 질문들을 포함하고 있어요.

최신 MLLM은 기존 영상 벤치마크에서는 좋은 성능을 보이지만, VSTAT에서는 인간 수준에도 미치지 못하며, 단순 답변 추론보다 약간 높은 수준에 그치는 것으로 나타났어요.

연구 결과, MLLM은 텍스트 추론은 잘 하지만 시각적으로 필요한 이벤트를 제대로 인식하지 못하는 한계가 있으며, 최신 에이전트 기반 접근법도 이러한 문제를 해결하지 못하는 것으로 확인됐어요.

##MLLM##VSTAT##영상분석

매일 핵심 AI 소식을 한국어로, 빠르게