Pulse · AI 뉴스

LLM 추론을 위한 강화 학습 재고: 새로운 전략 학습이 아닌 희소 정책 선택입니다

ReasonMaxxer · 2026-05-07

연구진은 강화 학습(RL)이 LLM의 추론 능력을 향상시키는 데 있어 새로운 전략을 가르치는 것이 아니라 기존의 해결책 중 확률을 재분배하는 역할을 한다는 것을 밝혀냈습니다.

토큰 수준 분석 결과, RL은 모델이 불확실한 의사 결정 지점에서만 예측 가능한 수정을 가하며, 이는 전체 토큰 위치의 1~3%에 불과하고, 모델의 상위 5개 대안 내에 포함됩니다.

연구진은 이러한 통찰력을 바탕으로 ReasonMaxxer라는 RL-free 방법을 개발하여, 기존 RL 성능을 능가하면서도 훈련 비용을 3배 이상 절감했습니다.

##LLM##강화학습##ReasonMaxxer##추론

매일 핵심 AI 소식을 한국어로, 빠르게