연구진은 웹 환경에서 에이전트의 장기 기억 능력을 평가하는 새로운 벤치마크 LME-V2를 공개했어요. LME-V2는 웹 에이전트가 환경 경험을 통해 지식을 습득하는지 평가하는 데 초점을 맞추고 있습니다. 벤치마크는 5가지 핵심 기억 능력을 측정하기 위해 451개의 질문과 최대 500개의 trajectory를 포함하고 있어요.
AgentRunbook-C는 72.5%의 정확도를 기록하며, 기존 RAG 방식(48.5%)과 코딩 에이전트 방식(69.3%)을 능가하는 성능을 보여줬어요. 하지만 코딩 에이전트 기반 방식은 높은 지연 시간이라는 단점이 존재합니다.
연구 결과는 LME-V2가 환경 경험을 위한 장기 기억 시스템 개발을 위한 도전적인 테스트베드임을 입증하며, 정확도와 지연 시간 간의 균형을 개선할 여지가 남아있음을 시사합니다.