연구진은 디퓨전 모델의 추론 비용을 줄이기 위해 가중치 희소화 대신 활성화 희소화를 제안하는 RT-Lynx를 발표했어요. RT-Lynx는 활성화에 N:M 희소화를 적용하고 정확도 손실을 완화하기 위한 오류 보상 기술을 포함하며, CUDA 커널 최적화를 통해 최대 1.55배 속도 향상을 달성했어요. 다양한 디퓨전 모델 실험 결과, RT-Lynx는 원본 모델의 생성 품질을 유지하면서 추론 속도를 크게 가속화하는 것으로 나타났어요.