연구진은 기존 LLM 강화 학습(RL) 방식이 모든 레이어를 동일하게 업데이트하는 데 초점을 맞춘 점에 의문을 제기했어요. 놀랍게도 단일 트랜스포머 레이어 학습만으로도 전체 파라미터 RL 학습으로 얻는 대부분의 성능 향상을 회복하고, 경우에 따라 능가하는 것으로 나타났어요. 연구진은 '레이어 기여도'라는 지표를 도입하여, 독립적으로 레이어를 학습했을 때 얻는 전체 RL 성능 향상 비율을 측정했으며, 7개 모델에서 일관된 패턴을 관찰했어요.