연구진은 LLM 에이전트의 장기적인 상호 작용을 위한 메모리 능력을 향상시키는 자체 지도 방식 훈련 프레임워크 MemTrain을 제안했어요.
MemTrain은 마스크된 개체를 복원하는 마스크 복원 및 중간 메모리 상태를 활용한 역사 정보 복원이라는 두 가지 프록시 작업을 Wikipedia 코퍼스에 적용해요.
두 가지 목표를 GRPO로 공동 최적화하여 다양한 모델에서 장문 QA 및 검색 기반 QA 벤치마크에서 최대 17.67 포인트의 성능 향상을 달성했어요.
MemTrain은 기존 방식보다 비용 효율적이며, 메모리 집약적인 시나리오에서 더 효과적인 다운스트림 성능을 제공할 수 있어요.