장기적인 언어 에이전트는 제한된 런타임 메모리 하에 작동해야 하며, 기존 메모리 메커니즘은 관련성, 주목도 또는 요약 품질과 같은 설명 기준을 중심으로 경험을 정리합니다.
연구진은 메모리의 가치가 과거를 충실히 묘사하는 것이 아니라, 고정된 예산 하에서 좋은 의사결정을 지원하기 위해 분리되어야 하는 역사를 구별하는 데 있다는 점에 주목했습니다.
DeMem이라는 온라인 메모리 학습기를 제안하여, 데이터가 공유 상태가 의사결정 충돌을 유발할 것이라고 인증할 때만 파티션을 개선하고, 후회에 대한 근사적인 최소 최대 후회 보장(near-minimax regret guarantees)을 증명했습니다.