Xiaomi MiMo v2.5 모델이 llama.cpp에 지원됩니다. 이 모델은 Sparse MoE 아키텍처를 사용하며, 총 310B 파라미터 중 15B 파라미터가 활성화되어 있습니다. MiMo v2.5는 텍스트, 이미지, 비디오, 오디오 등 다양한 모달리티를 지원하며 최대 1M 토큰까지 처리할 수 있습니다.
비전 인코더는 729M 파라미터의 ViT를 사용하고, 오디오 인코더는 261M 파라미터의 Audio Transformer를 활용합니다. 또한 Multi-Token Prediction (MTP) 기능을 통해 329M 파라미터, 3개의 레이어를 사용합니다.
llama.cpp를 통해 MiMo v2.5 모델을 사용할 수 있게 되면서, 더 많은 사용자가 이 모델을 활용할 수 있을 것으로 기대됩니다.