연구진이 멀티 블록 디퓨전 언어 모델(MBD-LMs)을 제안하며, 기존 BD-LMs의 훈련 방식과 멀티 블록 디퓨전 추론 방식 간의 격차를 줄였습니다.
MBD-LMs는 멀티 블록 티처 포싱(MultiTF) 방식으로 훈련되어, 훈련 상태를 멀티 블록 디퓨전 추론 상태와 더욱 가깝게 만들었습니다.
MBD-LLaDA2-Mini는 멀티 블록 티처 포싱과 DMax를 결합하여 평균 토큰 처리량(TPF)을 9.34로 향상시켰으며, 수학 및 코딩 벤치마크 정확도는 1.02% 감소했습니다.