Pulse · AI 뉴스

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context를 위한 Lookahead Sparse Attention

DeepSeek · 2026-06-08

연구진은 DeepSeek-V4 아키텍처 기반의 Lookahead Sparse Attention(LSA)을 제안하여 초장문맥 서빙 시 GPU 메모리 병목 현상을 해결했어요.

LSA는 쿼리에 중요한 KV 청크만 GPU 메모리에 보관하며, 평균 물리적 KV 캐시 공간을 전체 컨텍스트 기준 13.5%까지 줄였어요.

LongBench-v2, LongMemEval, RULER 평가에서 정확도는 유지하거나 소폭 향상(+0.6% 절대 마진)되었고, 500K 규모에서는 물리적 KV 캐시 오버헤드를 90% 이상 억제했어요.

##DeepSeek##FlashMemory##LongContext##Attention##LSA

매일 핵심 AI 소식을 한국어로, 빠르게