연구진이 확산 LLM(dLLM)에 최적화된 새로운 자체 증류 프레임워크 'd-OPSD'를 개발했어요. 기존 방식의 한계를 극복하기 위해, 미래의 답변을 활용한 suffix conditioning과 step-level supervision을 도입했어요. d-OPSD는 기존 RLVR 및 SFT 방식보다 뛰어난 샘플 효율성을 보여주며, 최적화 단계 수를 10% 수준으로 줄였어요.