연구진은 디퓨전 언어 모델의 토큰 순서 지정 문제를 해결하기 위해 DPRM(Doob h-transform Process Reward Model)이라는 새로운 모듈을 개발했어요. DPRM은 기존 모델의 구조와 학습 방식을 유지하면서 토큰 순서 지정 정책만 변경하며, 온라인 추정을 통해 순차적으로 순서를 조정해요. DPRM은 다양한 실험에서 기존 방식보다 성능을 향상시켰으며, 특히 어려운 추론 문제에서 두드러진 효과를 보였어요.