연구진은 LLM의 장문 추론 성능을 향상시키기 위해 GRPO에 온정책 증류(OPD)를 결합한 dGRPO 방법을 제안했습니다. dGRPO는 모델이 생성한 상태에 맞춰 학습하고, 더 강력한 교사 모델로부터 밀도 높은 가이던스를 제공하여 학습 안정성과 효율성을 높입니다. 연구진은 LongBlocks라는 합성 장문 데이터셋을 활용하여 다양한 실험을 진행했으며, 결과적으로 장문 추론 성능 향상과 단문 추론 능력 유지를 동시에 달성했습니다.