연구진은 LLM 에이전트의 메모리 기능을 평가하는 새로운 벤치마크 EvoMemBench를 공개했어요. 이 벤치마크는 메모리 범위와 내용 유형에 따라 구조화되어 있어요.
15가지 메모리 방법과 강력한 장기 컨텍스트 기준을 비교한 결과, 현재 메모리 시스템은 아직 일반적인 해결책이 아니며, 장기 컨텍스트 기준이 여전히 경쟁력이 있다는 것을 확인했어요.
검색 기반 방법은 지식 집약적 환경에서 강점을 보이고, 절차적 및 장기 메모리 방법은 저장된 경험이 작업 구조와 일치할 때 실행 중심 작업에 더 효과적이에요.