Pulse · AI 뉴스

예측·재사용·수리: 긴 컨텍스트 LLM 디코딩을 위한 동적 희소 어텐션 가속

FlashAttention · 2026-06-29

연구진이 동적 희소 어텐션(DSA)의 병목 현상 완화를 위한 PRR(Predict, Reuse, Repair) 런타임을 발표했어요. PRR은 예측 기반 추측, 온라인 수리 방식으로 디코딩 지연 시간을 최대 40% 단축했어요. EMA 기반 예측기, 프로파일링 기반 추측 예산, FlashAttention 기반 수리 커널을 활용해 성능을 개선했어요.

DSA 방법론에 따른 긴 컨텍스트 벤치마크에서 정확도를 유지하면서 토큰 디코딩 지연 시간을 줄였어요. Github 저장소를 통해 관련 정보 확인 가능해요.

PRR은 DSA 선택의 시간적 지역성을 활용하여 예측, 추측, 수리 과정을 거쳐 효율성을 높였어요.

##LLM##어텐션##최적화##DSA##PRR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기