Pulse · AI 뉴스

ExpRL: LLM 중간 훈련을 위한 탐색적 강화 학습

ExpRL · 2026-06-16

연구진은 LLM의 추론 능력을 향상시키는 강화 학습(RL) 방법을 연구했어요. 기존 방식은 사람이 직접 추론 과정을 설계하는 반면, ExpRL은 인간이 작성한 질문-답변 데이터를 활용해 RL 기반 중간 훈련을 수행해요.

ExpRL은 정답을 숨기고, LLM 판별기를 활용해 문제별 채점 기준을 만들어 정책의 추론 과정을 평가하고 보상을 제공해요. 이를 통해 부분적인 진행, 유용한 중간 단계, 생산적인 추론 행동을 강화할 수 있어요.

복잡한 수학 추론 과제에서 ExpRL은 기존 방식보다 뛰어난 성능을 보였으며, 다양한 분야에서도 활용 가능성을 보여주며, 이후 희소 보상 RL을 위한 더 나은 초기화 역할을 수행해요.

##LLM##강화학습##ExpRL##중간훈련##추론

매일 핵심 AI 소식을 한국어로, 빠르게