DeepSeek-V4-Flash (MXFP4) 모델의 KV 캐시 양자화 방식을 f16에서 q8_0으로 변경했을 때 컴퓨팅 버퍼 용량이 약 3배 감소하는 현상이 발견됐어요.
사용자는 이로 인해 32GB GPU에서 더 높은 컨텍스트 길이를 처리할 수 있게 됐다고 설명하며, 다른 사용자도 유사한 경험을 하는지 질문했어요.
이는 DeepSeek 모델의 압축된 CSA/HCA/lightning-indexer 캐시의 효율성을 보여주는 결과로 해석될 수 있어요.