연구진이 Multi-Block Diffusion 언어 모델(MBD-LM)을 제안하며, 기존 BD-LM의 훈련 방식과 MultiBD 추론 방식 간의 격차를 줄였습니다.
MultiTF라는 새로운 훈련 전략을 통해 여러 noisy 블록을 활용하여 훈련 상태를 개선하고, Block Buffer 기법으로 효율적인 디코딩을 가능하게 했습니다.
MBD-LLaDA2-Mini는 Tokens Per Forward pass(TPF)를 3.47에서 6.19로 향상시키고, 정확도를 79.95%에서 81.03%로 높이는 성과를 거두었습니다.