Pulse · AI 뉴스

OGER: 하이브리드 강화 학습을 위한 견고한 오프라인 가이드 탐색 보상

OGER · 2026-04-21

최근 강화 학습과 검증 가능한 보상(RLVR)의 발전으로 LLM의 추론 능력이 향상되었지만, 모델은 종종 초기 잠재 공간을 벗어난 새로운 경로를 탐색하는 데 어려움을 겪습니다.

OGER는 오프라인 교사 가이드와 온라인 강화 학습을 통합하는 새로운 프레임워크로, 다중 교사 협업 훈련과 모델 자체의 엔트로피를 활용하는 보조 탐색 보상을 구축합니다.

수학 및 일반적인 추론 벤치마크에서 광범위한 실험을 통해 OGER는 경쟁 모델을 능가하며 수학적 추론에서 상당한 이점을 얻고, 다양한 작업에 대한 강력한 일반화 능력을 유지하는 것을 입증했습니다.

##강화학습##LLM##탐색

매일 핵심 AI 소식을 한국어로, 빠르게