Pulse · AI 뉴스

일관성 확산 언어 모델: 품질 저하 없이 최대 14배 빠른 추론

Together AI Blog · 2026-02-19

표준 확산 언어 모델은 KV 캐싱을 활용할 수 없고, 실용성을 위해 많은 개선 단계를 거쳐야 해요.

CDLM은 훈련 후 레시피를 통해 정확한 블록 단위 KV 캐싱과 경로 일관성 있는 단계 감소를 가능하게 하여 문제를 해결했어요.

이로 인해 최대 14.5배의 지연 시간 개선 효과를 얻을 수 있었어요.

##모델출시##확산모델##추론속도

매일 핵심 AI 소식을 한국어로, 빠르게