MiniMax AI가 GQA 기반의 새로운 희소 어텐션 방식인 'MSA(MiniMax Sparse Attention)'를 발표했어요.
MSA는 Key-Value 블록을 효율적으로 선택하여 그룹별 희소 검색을 가능하게 하며, 109B 파라미터 모델에서 어텐션 연산량을 28.4배 줄였어요.
MSA는 H800 GPU에서 14.2배 빠른 프리필, 7.6배 빠른 디코딩 속도를 달성했으며, 관련 커널은 GitHub에서, 모델은 Hugging Face에서 공개됐어요.