개발자가 DeepSeek 아키텍처를 기반으로 VRAM 사용량을 줄인 오픈 소스 LLM을 개발 중이며, 현재 7B 파라미터 모델을 단일 GPU에서 훈련하고 있습니다.
목표는 오픈 소스 개발이 대기업 개발을 앞지르는 것이며, 1조 파라미터 모델을 능가하는 LLM을 구축할 수 있는 데이터베이스를 구축하는 것입니다.
현재 15000단계를 진행 중이며, 사실 정확도 테스트에서 33.3%의 정확도를 기록했습니다. JSON 구조를 통해 모델 아키텍처를 정의하고 있으며, Chinchilla 최적화를 따르고 있습니다.
훈련 데이터는 DOLMA/redpajama를 활용하여 수학, 문학, 물리학 등 다양한 분야에 특화된 모델을 만들고, 이를 에이전트로 앙상블하는 것을 목표로 합니다.
개발자는 bfloat16을 사용하며, 필요에 따라 fp16 또는 fp32로 구성할 수 있으며, 현재 GPU 성능 한계를 시험하고 있습니다.