DeepSeek-V3.2와 V4는 CSA(Compressed Sparse Attention)를 도입했습니다. StreamIndex는 스트리밍 Top-k 드라이버를 사용하여 중간 결과를 완전히 생성하지 않고 CSA 파이프라인을 구현합니다.
H200 단일 GPU에서 StreamIndex는 V4-Flash 차원을 가진 인덱서 단계를 S=1,048,576까지 실행할 수 있으며, 기존 방식으로는 65,536에서 메모리 부족 오류가 발생했습니다.
셋 오버랩 리콜은 작은 S에서 1.0000에 도달하며, 다양한 설계 공간 스윕에서 최소 0.9980의 리콜을 유지합니다.