연구진은 MoE(Mixture-of-Experts) 구조를 가진 디퓨전 LLM(dLLM) 추론의 효율성을 높이는 TIDE 시스템을 제안했어요. TIDE는 디퓨전 과정에서 전문가 활성화의 시간적 안정성을 활용하여 I/O를 최소화하는 전문가 배치 전략을 사용해요.
TIDE는 수학적 프로그래밍으로 추론 스케줄링 문제를 해결하여 I/O 트래픽과 CPU 연산을 최소화하는 최적 간격을 찾고, 모델 재학습 없이도 성능 향상을 이뤄요.
LLaDA2.0-mini 및 LLaDA2.0-flash 모델에서 기존 방식 대비 최대 1.5배의 처리량 향상을 보여, 자원 제약 환경에서 dLLM 추론에 효과적이에요.