Pulse · AI 뉴스

ExpRL: LLM 중간 훈련을 위한 탐색적 강화 학습

OpenAI · 2026-06-15

연구진은 LLM의 추론 능력을 향상시키는 새로운 강화 학습 방법 'ExpRL'을 제안했어요.

ExpRL은 기존 방식처럼 정답을 모방하는 대신, LLM 판별기를 활용해 문제별 채점 기준을 만들고 부분적인 진행 상황과 유용한 중간 과정을 강화해요.

수학 추론 과제에서 ExpRL은 기존 SFT, GRPO, 자기 증류 방식보다 뛰어난 성능을 보였으며, 이후 희소 보상 RL 훈련을 위한 더 나은 초기화점을 제공했어요.

##강화학습##LLM##ExpRL##연구

매일 핵심 AI 소식을 한국어로, 빠르게