Pulse · AI 뉴스

훈련 데이터가 RL 메모리 에이전트에 가르치는 것: 커리큘럼 효과에 대한 경험적 연구

Reinforcement Learning · 2026-05-22

연구진은 RL 메모리 에이전트의 커리큘럼 구성이 성능에 미치는 영향을 실험적으로 분석했어요. LoCoMo, LongMemEval 등 3가지 커리큘럼 조건을 비교한 결과, 커리큘럼은 성능을 균일하게 향상시키기보다 특정 기술에 대한 전문성을 키우는 역할을 해요.

혼합 커리큘럼(LoCoMo + LongMemEval)이 두 평가 세트에서 가장 높은 F1 점수를 기록했고, LongMemEval만으로 훈련하면 시간 추론 능력이 향상되는 것을 확인했어요.

단일 벤치마크 비교는 커리큘럼 효과를 과소평가할 수 있으며, 단일 GPU 환경에서 GRPO를 적용할 때 메모리 뱅크의 노이즈 제거와 연속형 보상 함수 사용이 중요했어요.

##RL##메모리에이전트##커리큘럼##LongMemEval##LoCoMo

매일 핵심 AI 소식을 한국어로, 빠르게