연구진이 LLM 에이전트의 안정적인 배포를 위해 동적 환경 변화를 모델링하는 벤치마크 EvoArena를 공개했어요.
EvoArena는 터미널, 소프트웨어, 사회적 선호도 등 다양한 환경 변화를 순차적 업데이트로 모델링하며, EvoMem이라는 기억 진화 기록 방식을 제안했어요.
EvoMem은 기존 에이전트의 성능을 향상시켜 EvoArena에서 평균 정확도를 1.5% 끌어올렸고, GAIA와 LoCoMo 벤치마크에서도 각각 6.1%, 4.8%의 성능 향상을 보였어요.