연구진은 DeepSeek-V4 아키텍처 기반의 Lookahead Sparse Attention(LSA)을 제안하여 초장문맥 서빙 시 GPU 메모리 병목 현상을 해결했어요.
LSA는 쿼리에 중요한 KV 청크만 GPU 메모리에 보관하며, 평균 물리적 KV 캐시 공간을 전체 컨텍스트 기준 13.5%까지 줄였어요.
LongBench-v2, LongMemEval, RULER 평가에서 정확도는 유지하거나 소폭 향상(+0.6% 절대 마진)되었고, 500K 규모에서는 물리적 KV 캐시 오버헤드를 90% 이상 억제했어요.