IBM은 3B, 8B, 30B 파라미터 규모의 Granite 4.1 LLM 패밀리를 공개했으며, 이 모델들은 최대 512K 토큰까지 처리할 수 있는 긴 컨텍스트 확장 기능을 지원합니다.
Granite 4.1은 15조 토큰 규모의 데이터를 활용하여 5단계 사전 훈련 파이프라인과 410만 개의 고품질 데이터셋을 활용한 지도 학습, 그리고 GRPO 강화 학습을 거쳤습니다.
8B instruct 모델은 더 단순한 구조에도 불구하고 이전 모델인 Granite 4.0-H-Small (32B-A9B MoE)을 능가하는 성능을 보여주었으며, Apache 2.0 라이선스로 공개되었습니다.
사전 훈련 과정은 일반적인 웹 데이터에서 시작하여 수학, 코드, 고품질 데이터 등 점진적으로 데이터 구성을 변경하며 진행되었습니다.
Granite 4.1은 Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU 활성화 함수 등 최신 기술을 적용하여 효율성과 성능을 높였습니다.