mii-llm은 이탈리아어, 스페인어, 프랑스어, 포르투갈어 지원을 위한 0.4B 파라미터 소규모 언어 모델 'Zagreus' 및 'Nesso' 제품군 개발 기술 보고서를 발표했습니다.
보고서에는 영어와 대상 언어를 중심으로 한 이중 언어 사전 훈련 파이프라인을 포함하며, 대화형 사용 및 에이전트 기반 작업에 대한 후속 훈련 과정을 상세히 설명합니다.
연구진은 64개의 NVIDIA A100 GPU를 활용하여 약 1조 토큰으로 모델을 훈련했으며, 소규모 모델에서 안정성과 활용도가 효율성보다 중요하다고 판단하여 MoE 대신 Dense 아키텍처를 선택했습니다.