Pulse · AI 뉴스

Shallow Prefill, Deep Decoding: 효율적인 장문 컨텍스트 추론

Llama · 2026-05-07

연구진은 디코더 전용 언어 모델의 장문 컨텍스트 추론 비용을 줄이는 SPEED(Shallow Prefill, dEEp Decode)라는 새로운 KV-visibility 정책을 제안했습니다.

SPEED는 하위 레이어에서만 비-앵커 프롬프트 토큰의 KV 상태를 구체화하고 디코딩 단계에서 토큰의 전체 깊이를 유지하여 상위 레이어의 프롬프트 KV 상태를 저렴하게 저장하거나 구성하는 기존 방식과 차별화됩니다.

Llama-3.1-8B 모델을 활용한 실험에서 SPEED는 전체 깊이 모델과 유사한 성능을 보이면서 TTFT, TPOT을 각각 33%, 22% 개선하고 활성 KV 메모리를 25% 줄였습니다.

##LLM##KV-cache##장문컨텍스트##Llama3

매일 핵심 AI 소식을 한국어로, 빠르게