Pulse · AI 뉴스

MiniMax AI, 초장문 맥락 처리를 위한 새로운 MSA(MiniMax Sparse Attention) 공개

MiniMaxAI · 2026-06-12

MiniMax AI가 GQA 기반의 새로운 블록 기반 희소 어텐션 방식인 MSA(MiniMax Sparse Attention)를 발표했어요.

MSA는 Index Branch를 통해 키-값 블록을 스코어링하고 Top-k 서브셋을 선택하여 그룹별 희소 검색을 가능하게 해요.

109B 파라미터 모델에서 MSA는 GQA와 동등한 성능을 보이면서 1M 컨텍스트에서 토큰당 어텐션 연산량을 28.4배 줄였어요.

MSA는 H800에서 14.2배 빠른 프리필 및 7.6배 빠른 디코딩 속도를 달성했으며, 관련 커널은 GitHub에서 사용할 수 있어요.

##MSA##MiniMaxAI##어텐션##초장문

매일 핵심 AI 소식을 한국어로, 빠르게