연구 프로젝트 H64LM이 PyTorch로 직접 구현된 249M 파라미터 Mixture-of-Experts Transformer 입니다. 핵심 구성 요소(어텐션, MoE 라우팅, 정규화, 학습 루프)를 직접 구현하여 현대 LLM을 이해하기 위한 연구를 진행했습니다. WikiText-103 데이터셋의 일부로 학습된 체크포인트는 파이프라인을 검증하기 위한 것이며, 10번째 에포크 이후 과적합되는 경향이 있습니다.
H64LM은 GQA, Sparse Mixture-of-Experts (8 전문가, Top-2 라우팅), SwiGLU, RoPE, RMSNorm, Sliding-window attention, 혼합 정밀도 학습, 데이터 병렬 처리 미지원 등의 특징을 가지고 있습니다. GitHub 저장소를 통해 코드를 확인할 수 있으며, 구현 및 아키텍처에 대한 피드백을 환영합니다.