DeepSeek-V4 기반으로 개발된 FlashMemory-DeepSeek-V4(FM-DS-V4)가 등장했어요. 이 모델은 Lookahead Sparse Attention(LSA) 기술을 활용해 GPU 메모리 부담을 줄였어요.
LSA는 미래 컨텍스트 수요를 예측하고, 중요한 KV 조각만 GPU 메모리에 보관하는 방식이에요. 이를 통해 물리적 KV 캐시 사용량을 전체 컨텍스트 기준 13.5%까지 줄였어요.
LongBench-v2, LongMemEval, RULER 등 평가에서 정확도를 유지하거나 소폭 향상시켰으며, 500K 컨텍스트 규모에서는 90% 이상 메모리 오버헤드를 감소시켰어요.
연구 결과는 arXiv에 공개되었으며, 코드는 GitHub에서 확인할 수 있어요.