Pulse · AI 뉴스

MemDelta: 에이전트 메모리 평가 시 통제된 기준선 및 숨겨진 교란 변수

MemDelta · 2026-06-29

연구진은 에이전트 메모리 시스템 평가 시 언어 모델, 임베딩 모델, 검색 파이프라인 변경이 혼합되어 실제 측정되는 바를 불분명하게 만드는 문제를 지적했어요.

MemDelta 프로토콜을 통해 한 번에 하나의 구성 요소만 변경하며 LongMemEval-S (500개 질문, 50회 이상 세션, 3개 모델 패밀리)를 평가한 결과, verbatim RAG는 full-context GPT-4o-mini와 유사한 성능을 보였어요.

연구 결과, 임베딩 모델만 교체해도 정확도가 6.2%p 변화하고, 에이전트 자체 메모리는 기본 검색보다 성능이 떨어지며, 특정 질문 유형에서는 Mem0가 클라우드 RAG와 비슷한 성능을 50배 높은 비용으로 낼 수 있음을 확인했어요.

##에이전트##메모리##평가##LongMemEval##MemDelta

매일 핵심 AI 소식을 한국어로, 빠르게