Pulse · AI 뉴스

MiniMax AI, 초장문 맥락 처리를 위한 새로운 희소 어텐션 'MSA' 공개

MiniMaxAI · 2026-06-11

MiniMax AI가 초장문 맥락 처리를 위한 새로운 희소 어텐션 방식 'MSA(MiniMax Sparse Attention)'를 공개했어요. MSA는 Grouped Query Attention(GQA) 기반으로 설계됐으며, 키-값 블록을 효율적으로 선택하여 어텐션 비용을 줄입니다.

MSA는 Index Branch를 통해 키-값 블록을 평가하고, 각 GQA 그룹별 Top-k 서브셋을 독립적으로 선택하여 그룹별 희소 검색을 가능하게 해요. 이를 통해 109B 파라미터 모델에서 토큰당 어텐션 연산량을 28.4배 줄였습니다.

MSA는 H800 GPU에서 프리필 속도를 14.2배, 디코딩 속도를 7.6배 향상시켰으며, 관련 커널은 GitHub에서 확인할 수 있어요.

MiniMax AI는 MSA 기반의 멀티모달 모델 'MiniMax-M3'를 Hugging Face에 공개하며, MSA의 실용성을 입증했어요.

##MSA##어텐션##MiniMaxAI##초장문맥
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기