연구진은 강화 학습 기반 검증 보상(RLVR) 모델이 1차 성분 내 추론 능력 집중 현상을 보인다는 사실을 확인했습니다. RLVR 모델은 학습 과정에서 보상이 낮더라도 테스트 세트에서 만족스러운 성능을 보이는 잠재적 보상 과적합 현상을 나타낼 수 있습니다. 연구진은 RLVR 학습의 세 가지 특징을 분석했는데, 이는 RLVR이 특정 특이값 스펙트럼을 최적화하고, 학습 과정에서 왼쪽 특이 벡터가 정렬되는 경향을 보인다는 것을 보여줍니다.