본 연구는 데이터와 컴퓨팅 자원이 부족한 환경에서도 강화 학습 기반 검증 가능한 보상(RLVR)을 활용한 소규모 언어 모델(SLM)의 성능을 분석했어요.
세 가지 새로운 데이터셋을 활용하여 데이터 크기, 다양성, 복잡도에 따른 모델 성능 변화를 측정했으며, 절차적 데이터셋이 모델 성능 평가 및 데이터셋 개발에 효과적임을 확인했어요.
RLVR을 통해 낮은 복잡도의 작업으로 학습된 모델이 높은 복잡도의 작업에 일반화될 수 있으며, 복잡도가 혼합된 데이터셋 학습이 샘플 효율성을 최대 5배까지 향상시키는 것을 보여주었어요.