MemDreamer는 장시간 동영상 이해의 어려움을 해결하기 위해 인지 및 추론을 분리하는 새로운 프레임워크입니다. 이 프레임워크는 계층적 그래프 메모리를 구축하여 동영상을 점진적으로 처리하고, 에이전트 기반 검색을 통해 추론을 수행합니다.
실험 결과, MemDreamer는 4개의 주요 벤치마크에서 최고 성능을 달성하며, 인간 전문가와의 격차를 3.7점까지 좁혔습니다. 전체 컨텍스트의 2%만 사용하면서도 정확도를 12.5점 향상시켰습니다.
연구 결과, VLM의 논리적 추론 능력과 장시간 동영상 이해 성능 간에 강한 양의 상관관계가 있음을 밝혀냈으며, 에이전트 기반 능력이 다중 모달 이해 성능을 확장하는 새로운 패러다임을 제시합니다.