연구진은 DiT-MoE 모델의 시간 단계별 불필요한 연산을 줄이기 위해 MoECa라는 새로운 캐싱 프레임워크를 제안했어요. MoECa는 시간 단계별로 전문가 분기 수준의 기능 재사용을 수행하며, 기존 방식보다 더 나은 속도와 품질 균형을 제공해요. 실험 결과, 최대 2.83배의 추론 속도 향상과 최소한의 품질 저하를 달성했어요.
MoECa는 전문가 인지적 적응 제어와 MoE 및 어텐션 경로에서 동기화된 캐시 업데이트를 도입하여 안정적인 중간 상태를 유지해요. 이는 시간 단계별로 전문가 분기 수준에서 특징 재사용을 수행하는 방식이에요.
기존 캐싱 방식은 토큰 수준에서 작동하지만, MoECa는 DiT-MoE의 토큰 업데이트가 여러 전문가 분기로 분해된다는 점을 고려하여 전문가 분기 수준에서 특징 재사용을 수행하여 효율성을 높였어요.