Pulse · AI 뉴스

ReasonAlloc: 계층적 디코딩 시간 KV 캐시 예산 할당을 통한 추론 모델 성능 향상

DeepSeek · 2026-06-10

연구진은 LLM 추론 시 KV 캐시 증가로 인한 병목 현상을 해결하기 위해 ReasonAlloc 프레임워크를 제안했어요.

ReasonAlloc은 오프라인 레이어별 예산 사전 할당과 온라인 헤드별 재할당 전략을 통해 정보가 풍부한 헤드에 자원을 효율적으로 배분해요.

DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-14B, AceReason-14B 모델을 활용한 실험 결과, ReasonAlloc은 기존 방식보다 성능이 우수했어요.

##LLM##추론##KV캐시##ReasonAlloc##DeepSeek

매일 핵심 AI 소식을 한국어로, 빠르게