Pulse · AI 뉴스

MemEvoBench: LLM 에이전트의 메모리 미진화 벤치마크

MemEvoBench · 2026-04-17

MemEvoBench는 LLM 에이전트의 장기적인 메모리 안전성을 평가하는 새로운 벤치마크입니다.

악의적인 메모리 주입, 노이즈가 많은 도구 출력, 편향된 피드백에 대한 테스트를 진행하며, QA 및 워크플로우 스타일의 다양한 환경을 포함합니다.

실험 결과, 편향된 메모리 업데이트로 인해 안전성이 크게 저하되며, 정적인 프롬프트 기반 방어는 효과적이지 않다는 것을 확인했습니다.

##LLM##에이전트##메모리안전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기