LLM 기반 에이전트가 지속적인 환경에서 작동하며 여러 세션에 걸쳐 정보를 저장, 업데이트, 추론해야 합니다. Cascade와 Absence, Deletion 등 6가지 작업으로 구성된 MEME는 기존 벤치마크에서 다루지 않던 의존성 추론을 평가합니다. Claude Opus 4.7을 사용하는 파일 기반 에이전트만이 성능 격차를 부분적으로 좁혔지만, 비용이 70배 높아 실용적인 해결책은 아닙니다.