Mellum 2는 12B 파라미터 Mixture-of-Experts (MoE) 언어 모델로, 코드 생성 및 디버깅, 도구 활용 등 소프트웨어 엔지니어링에 특화됐어요.
Grouped-Query Attention, Sliding Window Attention 등 최신 기술을 적용해 효율성을 높였으며, 10.6조 토큰으로 사전 학습했어요.
Instruct 모델은 직접 답변, Thinking 모델은 추론 과정을 명시적으로 보여주는 두 가지 버전으로 공개됐어요.
코드 생성, 수학, 추론 등 다양한 벤치마크에서 4B~14B 범위의 오픈 소스 모델과 경쟁력을 보이며, 2.5B 모델 수준의 토큰당 연산 비용으로 실행돼요.