Pulse · AI 뉴스

SFT, RL, 증류 학습은 토큰이 아닌 상태에 관한 것: 상태 분포 관점에서 본 연구

Qwen · 2026-05-22

연구진은 SFT, RL, 증류 학습과 같은 LLM 후속 학습 방법을 손실 함수가 아닌 상태 분포 관점에서 분석했어요. 상태는 프롬프트와 생성된 접두사를 합친 것으로, 학습 상태의 출처와 위치가 감독 신호만큼 중요할 수 있다고 강조했어요.

Qwen3-0.6B-Base 모델을 활용한 실험 결과, 가벼운 SFT는 GSM8K 성능을 향상시키지만 과도한 SFT는 기억 손실을 유발하는 것으로 나타났어요. 또한, 성능이 저하된 SFT 모델로부터의 증류 학습은 해당 모델보다 더 나은 성능을 보였어요.

경량화된 온-정책 RL 학습은 GSM8K 성능을 개선하면서도 기억력을 유지하는 것으로 확인되었으며, 이는 후속 학습에서 상태 중심적인 관점이 중요하다는 점을 뒷받침해요.

##LLM##SFT##RL##증류학습##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게