연구진이 디퓨전 언어 모델(dLLM)의 장문 컨텍스트 추론 속도 저하 문제를 해결하기 위해 프리필링-dLLM 프레임워크를 제안했어요. 이 방법은 접두사를 여러 청크로 나누고, KV 표현을 캐싱하여 디코딩 시 관련 청크만 선택하는 방식으로 구현돼요.
프리필링-dLLM은 기존 방식보다 더 높은 품질을 유지하면서, 8K~32K 컨텍스트에서 최대 28배의 속도 향상을 달성했어요. 특히, 시퀀스 시작 토큰을 청크에 추가하여 '잊혀진 중간' 현상을 해결하는 데 기여했어요.
연구 결과는 LongBench와 InfiniteBench 벤치마크에서 dLLM 가속화 방법 중 최고 성능을 나타냈으며, GitHub에서 관련 코드를 확인할 수 있어요.