연구진은 RLVR(Reinforcement learning with verifiable rewards) 훈련 과정에서 LLM의 파라미터 변화가 매우 낮은 순위를 가짐을 발견했어요.
RELEX(REinforcement Learning EXtrapolation)라는 새로운 방법으로 짧은 관측 기간 동안 순위 1의 공간을 추정하고 선형 회귀를 통해 미래 체크포인트를 예측하며, 별도의 학습 모델 없이도 RLVR 성능을 능가하는 결과를 얻었어요.
Qwen2.5-Math-1.5B, Qwen3-4B-Base, Qwen3-8B-Base 모델에서 RELEX는 전체 RLVR 훈련 단계의 15% 만으로도 성능을 달성했어요.
RELEX는 관측 기간을 넘어 10~20배까지 미래 체크포인트를 예측할 수 있으며, 파라미터 변화를 순위 1 공간으로 투영하여 무작위 최적화 노이즈를 제거하는 '디노이징' 효과가 있음을 확인했어요.