연구진은 SFT, RL, 증류 학습과 같은 LLM 후속 학습 방법을 손실 함수가 아닌 상태 분포 관점에서 분석했어요. 상태는 프롬프트와 생성된 접두사를 합친 것으로, 학습 상태의 출처와 위치가 감독 신호만큼 중요할 수 있다고 강조했어요.
Qwen3-0.6B-Base 모델을 활용한 실험 결과, 가벼운 SFT는 GSM8K 성능을 향상시키지만 과도한 SFT는 기억 손실을 유발하는 것으로 나타났어요. 또한, 성능이 저하된 SFT 모델로부터의 증류 학습은 해당 모델보다 더 나은 성능을 보였어요.
경량화된 온-정책 RL 학습은 GSM8K 성능을 개선하면서도 기억력을 유지하는 것으로 확인되었으며, 이는 후속 학습에서 상태 중심적인 관점이 중요하다는 점을 뒷받침해요.