연구자가 PyTorch로 트랜스포머 언어 모델을 직접 제작하여 단일 소비자 GPU에서 50억 개의 토큰을 학습시켰습니다. Plasma 1.0 모델은 2억 3천 5백만 파라미터, 18개 레이어, 1024 크기의 숨겨진 크기를 가지며, LLaMA 스타일의 아키텍처를 채택했습니다. 현재 Plasma 1.1 모델을 학습 중이며, 더 나은 멀티턴 대화 능력과 더 큰 어휘를 목표로 하고 있습니다.