연구진은 다중 턴 도구 사용 강화 학습(RL)에서 정적 데이터 세트의 유용한 샘플이 빠르게 고갈되는 문제를 해결하기 위해 RODS(보상 기반 온라인 데이터 합성)를 제안했어요.
RODS는 RL 훈련과 데이터 생성 간의 루프를 닫아, 훈련 과정에서 정책 경계를 감지하고 복잡성을 고려한 새로운 다중 턴 변형을 합성하며, 정책과 함께 진화하는 동적 리플레이 버퍼를 관리해요.
400개의 인간 시드에서 시작하여 ~800개의 활성 훈련 샘플을 유지하며, RODS는 17K 샘플 오프라인 파이프라인과 유사한 성능을 달성하면서 약 20배 적은 트래저리를 사용하고, 고정 데이터 RL 및 환경 증강보다 개선된 결과를 보여줘요.