연구진은 LLM 추론 속도 향상을 위해 Spense라는 하이브리드 희소-밀집 형식을 제안했어요. SpenseGPT는 원샷 방식으로 가중치 행렬을 희소 영역과 밀집 영역으로 분할하며, Qwen3-32B와 Seed-OSS-36B 모델에서 최대 1.2배의 엔드투엔드 디코딩 속도 향상을 달성했어요. B200 GPU에서 FP8 정밀도로 모델 품질을 유지하면서 실제 LLM 디코딩 속도 향상을 보여주는 첫 번째 사례예요.