연구진은 루브릭 기반 보상 성형의 효율성을 높이기 위해 AMARIS라는 새로운 시스템을 개발했어요. AMARIS는 평가 지표를 장기적으로 축적하고 재사용하여 강화 학습 모델의 성능을 향상시키는 데 목표를 두고 있어요.
AMARIS는 각 훈련 단계에서 개별 실행 결과를 분석하고, 단계별 요약본을 생성하며, 정적 및 동적 검색을 통해 지속적인 평가 메모리에서 관련 과거 컨텍스트를 검색하여 루브릭을 업데이트해요.
실험 결과, AMARIS는 폐쇄형 및 개방형 환경 모두에서 기존 방식보다 뛰어난 성능을 보였으며, 메모리 검색 기능이 성능 향상에 기여하는 것을 확인했어요. 전체적인 훈련 시간은 약 5% 정도만 추가될 뿐이에요.