독립 연구 프로젝트로 2억 7천만 파라미터 언어 모델을 완전히 처음부터 개발했어요. 커스텀 Transformer 아키텍처를 사용했는데, 로터리 포지셔널 임베딩, RMSNorm, SwiGLU 피드 포워드 레이어, 그룹 쿼리 어텐션 등의 기술이 적용됐어요. 모델은 로컬 추론에 최적화된 효율적인 오토 회귀 디코더를 특징으로 하며, Reddit 사용자 ConfectionAfter2366가 직접 개발했어요.