연구진은 LLM 에이전트의 역동적 환경 적응력을 평가하는 EvoArena 벤치마크를 새롭게 선보였습니다. EvoArena는 터미널, 소프트웨어, 사회적 선호도 등 다양한 환경 변화를 시뮬레이션하며, 기존 에이전트는 평균 정확도 39.6%에 그쳤습니다. EvoMem은 패치 기반 기억 모델로, 기억 진화를 구조화된 업데이트 이력으로 기록하여 환경 변화에 대한 추론 능력을 향상시키며, EvoArena에서 평균 1.5% 성능 향상을 보였습니다.