연구진은 RL 메모리 에이전트의 커리큘럼 구성이 성능에 미치는 영향을 실험적으로 분석했어요. LoCoMo, LongMemEval 등 3가지 커리큘럼 조건을 비교한 결과, 커리큘럼은 성능을 균일하게 향상시키기보다 특정 기술에 대한 전문성을 키우는 역할을 해요.
혼합 커리큘럼(LoCoMo + LongMemEval)이 두 평가 세트에서 가장 높은 F1 점수를 기록했고, LongMemEval만으로 훈련하면 시간 추론 능력이 향상되는 것을 확인했어요.
단일 벤치마크 비교는 커리큘럼 효과를 과소평가할 수 있으며, 단일 GPU 환경에서 GRPO를 적용할 때 메모리 뱅크의 노이즈 제거와 연속형 보상 함수 사용이 중요했어요.