연구진은 검증 가능한 보상(RLVR)을 활용한 강화 학습의 샘플 효율성 문제를 해결하기 위해 FEST라는 새로운 알고리즘을 제안했어요. FEST는 SFT 데이터셋에서 무작위로 선택된 128개의 데모만으로도 뛰어난 성능을 보여줘요. 소량의 데모 데이터만으로도 기존 방식보다 더 나은 성능을 내며, 전체 데이터셋을 사용한 방식과도 유사한 결과를 얻었어요.