연구진은 장기적인 의사 결정을 위해 메모리가 필요한 멀티모달 에이전트의 성능을 평가하는 WorldMemArena를 발표했어요.
WorldMemArena는 액션-월드 상호작용 루프를 기반으로 하며, 400개의 멀티세션 멀티모달 작업으로 구성되어, 평생 진화 및 에이전트 실행을 포함해요.
연구 결과, 더 나은 메모리 작성 및 저장 기술이 반드시 더 나은 성능을 보장하지 않으며, 멀티모달 메모리는 시각적 증거를 활용하는 데 어려움을 겪고, 도메인에 따라 불안정성을 보인다는 것을 확인했어요.