연구진은 LLM의 강화 학습 기반 검증 가능한 보상(RLVR) 훈련 과정에서 파라미터 변화가 매우 낮은 순위를 가지며 예측 가능하다는 사실을 밝혀냈습니다.
RELEX라는 새로운 방법론을 제안하여 짧은 관측 기간 동안 순위 1 부분 공간을 추정하고 선형 회귀를 통해 미래 체크포인트를 외삽하며, 별도의 학습 모델 없이도 RLVR 성능을 능가하는 결과를 얻었습니다.
RELEX는 Qwen2.5-Math-1.5B, Qwen3-4B-Base, Qwen3-8B-Base 모델에서 전체 RLVR 훈련 단계의 15% 수준으로도 우수한 성능을 보이며, 관측 기간을 넘어 10~20배까지 외삽이 가능합니다.