Pulse · AI 뉴스

MemGym: LLM 에이전트의 장기 기억 벤치마크

MemGym · 2026-05-20

연구진이 LLM 에이전트의 장기 기억 능력을 평가하는 벤치마크 MemGym을 공개했어요. 기존 벤치마크는 짧은 대화 시나리오의 기억만 평가했지만, MemGym은 코딩, 웹 탐색 등 실제 환경에서의 기억 형성을 평가합니다.

MemGym은 5개의 평가 트랙을 포함하며, 도구 사용 대화, 심층 연구 검색, 코딩, 컴퓨터 사용 등 다양한 환경을 지원합니다. 기억 성능과 추론, 검색, 도구 사용 능력을 분리하여 평가합니다.

코딩 환경 평가를 위해 Qwen3-1.7B를 기반으로 한 가벼운 보상 모델 MemRM을 개발하여, Docker 실행 없이도 압축 품질을 빠르게 평가할 수 있습니다.

##LLM##에이전트##기억##벤치마크##코딩

매일 핵심 AI 소식을 한국어로, 빠르게