연구진은 LVLM(Large Vision-Language Models)의 장기 멀티모달 상호작용 능력을 평가하는 새로운 벤치마크 MEMLENS를 공개했어요. MEMLENS는 789개의 질문으로 구성되어 있으며, 정보 추출, 추론, 지식 업데이트 등 5가지 기억 능력을 평가합니다.
MEMLENS는 이미지 제거 시 정확도가 80.4%나 떨어지는 것을 확인하여, 시각적 증거가 문제 해결에 필수적임을 입증했어요. 27개의 LVLM과 7개의 에이전트를 평가한 결과, 장기 컨텍스트 LVLM은 초기에는 높은 정확도를 보이지만 대화가 길어질수록 성능이 저하되는 반면, 메모리 에이전트는 안정적이지만 시각적 충실도가 떨어지는 것을 확인했습니다.
연구 결과는 장기 컨텍스트 어텐션과 구조화된 멀티모달 검색을 결합한 하이브리드 아키텍처의 필요성을 시사하며, MEMLENS 코드는 GitHub에서 확인할 수 있습니다.