연구진은 autoregressive LLM 세계 모델의 한계를 지적하며, Masked Diffusion 언어 모델(MDLM)이 이를 개선하여 더 강력하고 제어 가능한 세계 모델을 제시했습니다.
SDAR-8B, WeDLM-8B 등 MDLM은 기존 autoregressive 모델보다 최대 4배 높은 BLEU-1, ROUGE-L, MAUVE 점수를 기록하며 성능을 입증했습니다.
MDLM으로 생성된 rollouts을 활용한 GRPO 학습은 ScienceWorld, ALFWorld, AppWorld 등 다양한 환경에서 에이전트의 task-success를 최대 15% 향상시켰습니다.