Glint Research가 FineWeb-Edu 데이터로 학습한 1만 파라미터 언어 모델 'Glimmer 1'을 공개했어요. 이 모델은 512 토큰의 컨텍스트 윈도우를 지원하며, Llama 아키텍처를 기반으로 합니다. Hugging Face에서 모델 관련 정보를 확인할 수 있어요.
Glimmer 1은 16개의 hidden dimension, 2개의 레이어, 4개의 attention head, 1개의 KV head(GQA)를 갖추고 있습니다. 모델에 대한 질문은 게시글이 유지되는 동안 AMA를 통해 답변 받을 수 있어요.