Pulse · AI 뉴스

LME-V2: 웹 에이전트의 장기 기억 능력 평가 벤치마크 공개

LME-V2 · 2026-05-13

연구진은 웹 환경에서 에이전트의 장기 기억 능력을 평가하는 새로운 벤치마크 LME-V2를 공개했어요. LME-V2는 웹 에이전트가 환경 경험을 통해 지식을 습득하는지 평가하는 데 초점을 맞추고 있습니다. 벤치마크는 5가지 핵심 기억 능력을 측정하기 위해 451개의 질문과 최대 500개의 trajectory를 포함하고 있어요.

AgentRunbook-C는 72.5%의 정확도를 기록하며, 기존 RAG 방식(48.5%)과 코딩 에이전트 방식(69.3%)을 능가하는 성능을 보여줬어요. 하지만 코딩 에이전트 기반 방식은 높은 지연 시간이라는 단점이 존재합니다.

연구 결과는 LME-V2가 환경 경험을 위한 장기 기억 시스템 개발을 위한 도전적인 테스트베드임을 입증하며, 정확도와 지연 시간 간의 균형을 개선할 여지가 남아있음을 시사합니다.

##에이전트##기억##벤치마크##RAG##AgentRunbook

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기