연구진은 강화 학습에서 토큰 단위 신용 할당의 부족 문제를 해결하기 위해 Hindsight Self-Distillation (HSD) 방법을 제안했어요.
HSD는 성공적인 동료 rollout을 조건으로 삼아, 실패한 rollout과 성공적인 동료 rollout 사이의 분기 지점에서 신용 신호를 집중시키는 방식이에요.
Qwen3-8B와 Qwen3-32B 모델을 대상으로 한 실험에서 HSD는 기존 방법보다 우수한 성능을 보였으며, 특히 짧은 답변 작업에서 효과가 컸어요.