사용자가 8GB VRAM 환경에서 LLM을 스크래치로 학습하는 프로젝트를 진행했어요. 2500만 파라미터 규모의 tiny model을 학습 완료했습니다. MTP 기법을 적용하여 학습 속도가 느려지는 부작용을 확인했어요. mHC, BitNet, TurboQuant 기법을 시도했지만 MTP가 가장 적합한 것으로 판단했습니다. 학습 결과 모델은 Hugging Face에 공개되었어요.