Pulse · AI 뉴스

SpenseGPT: LLM 추론 가속을 위한 실용적인 원샷 가지치기

Qwen · 2026-06-09

연구진은 LLM 추론 속도 향상을 위해 Spense라는 하이브리드 희소-밀집 형식을 제안했어요.

SpenseGPT는 원샷 방식으로 가중치 행렬을 희소 영역과 밀집 영역으로 분할하며, Qwen3-32B와 Seed-OSS-36B 모델에서 최대 1.2배의 엔드투엔드 디코딩 속도 향상을 달성했어요.

B200 GPU에서 FP8 정밀도로 모델 품질을 유지하면서 실제 LLM 디코딩 속도 향상을 보여주는 첫 번째 사례예요.

##LLM##가지치기##희소성##Qwen3##Seed

매일 핵심 AI 소식을 한국어로, 빠르게