연구진은 GRPO 알고리즘 기반 LLM 검색 에이전트 훈련 시, 정책 변화에 따라 쿼리가 제로 변동 상태와 신호 상태를 오갈 수 있다는 점에 주목했어요.
제로 변동 쿼리를 재활용하여 훈련 데이터 분포를 정책과 함께 진화시키는 ‘쿼리 재활용’ 기법을 제안하여, 1.7B 파라미터 모델이 7B 파라미터 모델 수준의 성능을 달성했어요.
재활용된 쿼리는 훈련 종료 시 효과적인 배치 데이터의 3/4를 담당하며, 정책 개선 회복과 정책 드리프트에 기여하는 것으로 분석됐어요.