Pulse · AI 뉴스

MEME: 다중 개체 및 진화하는 기억 평가

Claude · 2026-05-13

LLM 기반 에이전트가 지속적인 환경에서 작동하며 여러 세션에 걸쳐 정보를 저장, 업데이트, 추론해야 합니다.

Cascade와 Absence, Deletion 등 6가지 작업으로 구성된 MEME는 기존 벤치마크에서 다루지 않던 의존성 추론을 평가합니다.

Claude Opus 4.7을 사용하는 파일 기반 에이전트만이 성능 격차를 부분적으로 좁혔지만, 비용이 70배 높아 실용적인 해결책은 아닙니다.

##LLM##에이전트##기억##벤치마크##ClaudeOpus4.7
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기