Fred Zhangzhi Peng, Shuibai Zhang, Alex Tong이 AR을 디퓨전 방식으로 변환하는 코드를 개발했습니다.
Qwen3.6 모델을 기반으로 LDLM(LDLM)을 적용하여 RTX 5090에서 최대 3,238 tok/s의 추론 처리량을 달성했습니다.
짧은 시퀀스 길이(64 토큰)에서 테스트되었으며, 더 긴 시퀀스는 처리량을 감소시킵니다. 35B-A3B 모델은 MoE(Mixture of Experts) 구조로 인해 더 빠른 속도를 보입니다.