연구진은 MoE(Mixture of Experts) 아키텍처를 가진 디퓨전 LLM(dLLM)의 추론 효율성을 높이는 TIDE 시스템을 제안했어요. TIDE는 디퓨전 과정에서 전문가 활성화의 시간적 안정성을 활용하여 I/O를 최소화하는 전문가 업데이트 전략을 사용합니다.
TIDE는 수학적 프로그래밍을 통해 최적의 전문가 업데이트 간격을 찾아 I/O 트래픽과 CPU 연산을 줄여 LLaDA2.0-mini 모델에서 최대 1.4배의 처리량 향상을 달성했어요.
모델 재학습 없이도 적용 가능한 TIDE는 기존 방식 대비 성능 향상을 제공하며, 단일 GPU-CPU 시스템에서 LLaDA2.0-flash 모델에서도 1.5배의 처리량 개선을 보여줍니다.