연구진이 동적 희소 어텐션(DSA)의 병목 현상 완화를 위한 PRR(Predict, Reuse, Repair) 런타임을 발표했어요. PRR은 예측 기반 추측, 온라인 수리 방식으로 디코딩 지연 시간을 최대 40% 단축했어요. EMA 기반 예측기, 프로파일링 기반 추측 예산, FlashAttention 기반 수리 커널을 활용해 성능을 개선했어요.
DSA 방법론에 따른 긴 컨텍스트 벤치마크에서 정확도를 유지하면서 토큰 디코딩 지연 시간을 줄였어요. Github 저장소를 통해 관련 정보 확인 가능해요.
PRR은 DSA 선택의 시간적 지역성을 활용하여 예측, 추측, 수리 과정을 거쳐 효율성을 높였어요.