연구진은 LLM 에이전트의 장기적인 추론 능력 향상을 위해 중간 기억 품질 저하 지점을 파악하는 MMPO(Metacognitive Memory Policy Optimization)를 제안했어요.
MMPO는 기존 방식의 결과 기반 강화 학습 대신, 중간 요약본이 유발하는 불확실성을 직접적으로 페널티로 주는 방식으로 작동하며, 이를 통해 에이전트의 잠재적 작업 상태에 대한 믿음을 명확하게 유지해요.
실험 결과, MMPO는 다양한 장기 과제에서 기존 방법보다 뛰어난 성능을 보였으며, 175만 토큰 규모의 컨텍스트에서도 97.1%의 성능을 유지했어요.