연구진은 MLLM 기반 비디오 이해를 인간 관점에서 분석하고, 관찰·기억·추론의 세 가지 기능으로 재구성했어요.
비디오 이해 시스템을 시각적 표현, 기억 상태, 추론 과정, 예측으로 특징짓는 프레임워크를 제시하고, 공간·시간 인식, 장기 비디오 처리, 기억 모델링 등 과제를 지적했어요.
자율주행, 스포츠, 교육, 의료, 내러티브 비디오 등 다양한 분야의 데이터셋과 벤치마크를 검토하고, 확장 가능하고 기억 기반의 비디오 인텔리전스를 위한 미래 방향을 제시했어요.