Together AI가 MiniMax-M3 모델을 효율적으로 서비스하기 위해 KV-block-major sparse attention, paged MSA decode, 최적화된 인덱스 스코어링 등 기술을 적용했어요. 1M 토큰 컨텍스트를 지원하는 멀티모달 기능을 구현하면서도 성능 저하 없이 안정적인 서비스 제공을 목표로 했어요. Rust 기반 멀티모달 게이트웨이를 통해 다양한 모달리티 데이터를 처리하며, 사용자 경험을 극대화할 계획이에요.