연구진은 디퓨전 트랜스포머(DiT)의 높은 샘플링 비용 문제를 해결하기 위해 L2P(Learnable Linear Predictor)라는 새로운 캐싱 프레임워크를 제안했어요.
L2P는 기존 방식의 고정된 계수를 학습 가능한 시점별 가중치로 대체하여, 단일 GPU에서 약 20초 만에 빠르게 학습될 수 있어요.
L2P는 FLUX.1-dev에서 FLOPs 감소 4.55배, 지연 속도 향상 4.15배를 달성하며, Qwen-Image 모델에서 최대 7.18배까지 가속화하면서도 높은 시각적 충실도를 유지했어요.