연구진은 검증 가능한 보상을 이용한 강화 학습(RLVR)에서 인스턴스 선택 시 기존의 보상 변동성 기반 휴리스틱이 부정확하다는 점을 지적했습니다.
새로운 접근 방식인 선택 가이드 기반 자율 교육 과정(SGAC)은 성공 확률, 보상 변동성, 출력 불일치(엔트로피), 의미적 난이도 등 다차원 특징 공간에서 학습 가능한 선택 모델을 활용합니다.
실험 결과, 엔트로피 기반의 지능적인 데이터 선별이 제한된 데이터 조건에서 정적 훈련 방법보다 추론 능력을 향상시키는 것으로 나타났으며, Qwen2.5-Math-1.5B 모델을 사용했을 때 68.0%의 정확도를 달성했습니다.