MiniMax AI가 GQA 기반의 새로운 블록 기반 희소 어텐션 방식인 MSA(MiniMax Sparse Attention)를 발표했어요.
MSA는 Index Branch를 통해 키-값 블록을 스코어링하고 Top-k 서브셋을 선택하여 그룹별 희소 검색을 가능하게 해요.
109B 파라미터 모델에서 MSA는 GQA와 동등한 성능을 보이면서 1M 컨텍스트에서 토큰당 어텐션 연산량을 28.4배 줄였어요.
MSA는 H800에서 14.2배 빠른 프리필 및 7.6배 빠른 디코딩 속도를 달성했으며, 관련 커널은 GitHub에서 사용할 수 있어요.