GateMem은 병원, 직장, 캠퍼스, 가정 등 다중 주체 환경에서 LLM 에이전트의 메모리 품질을 평가하는 새로운 벤치마크입니다. 이 벤치마크는 유틸리티, 접근 제어, 삭제 요청에 따른 망각 기능을 동시에 평가합니다. 의료, 사무실, 교육, 가정 등 다양한 도메인을 포괄하며, 장기적인 다자간 에피소드, 점진적인 메모리 주입, 숨겨진 체크포인트, 구조화된 판단, 유출 대상 주석을 포함합니다.
현재까지의 방법론은 유틸리티, 접근 제어, 망각 기능을 동시에 만족시키지 못하며, 장기 컨텍스트 프롬프트는 높은 토큰 비용으로 가장 좋은 거버넌스 점수를 제공합니다. 검색 기반 및 외부 메모리 방식은 비용을 줄이지만, 무단 또는 삭제된 정보 유출 문제가 발생합니다.
결과적으로 현재 메모리 에이전트는 신뢰할 수 있는 기관 공유 배포에 아직 미흡하며, 추가적인 연구가 필요합니다.