최근 강화 학습과 검증 가능한 보상(RLVR)의 발전으로 LLM의 추론 능력이 향상되었지만, 모델은 종종 초기 잠재 공간을 벗어난 새로운 경로를 탐색하는 데 어려움을 겪습니다.
OGER는 오프라인 교사 가이드와 온라인 강화 학습을 통합하는 새로운 프레임워크로, 다중 교사 협업 훈련과 모델 자체의 엔트로피를 활용하는 보조 탐색 보상을 구축합니다.
수학 및 일반적인 추론 벤치마크에서 광범위한 실험을 통해 OGER는 경쟁 모델을 능가하며 수학적 추론에서 상당한 이점을 얻고, 다양한 작업에 대한 강력한 일반화 능력을 유지하는 것을 입증했습니다.