Pulse · AI 뉴스

Masked Diffusion 언어 모델, 강력하고 제어 가능한 텍스트 기반 에이전트 강화 학습 세계 모델

Mistral · 2026-05-21

연구진은 autoregressive LLM 세계 모델의 한계를 지적하며, Masked Diffusion 언어 모델(MDLM)이 이를 개선하여 더 강력하고 제어 가능한 세계 모델을 제시했습니다.

SDAR-8B, WeDLM-8B 등 MDLM은 기존 autoregressive 모델보다 최대 4배 높은 BLEU-1, ROUGE-L, MAUVE 점수를 기록하며 성능을 입증했습니다.

MDLM으로 생성된 rollouts을 활용한 GRPO 학습은 ScienceWorld, ALFWorld, AppWorld 등 다양한 환경에서 에이전트의 task-success를 최대 15% 향상시켰습니다.

##LLM##강화학습##세계모델##DiffusionModel

매일 핵심 AI 소식을 한국어로, 빠르게