Reddit 커뮤니티에서 분산 컴퓨팅을 활용한 커뮤니티 모델 구축 방법에 대한 논의가 활발하게 진행 중입니다. 참여자들은 'Branch-Train-Stitch' 방식을 활용하여 프로토타입 모델을 분산 훈련하고, 이를 모아 대규모 MoE 모델을 구축하는 전략을 모색하고 있습니다.
모델 크기 결정이 중요한 과제로, 12GB VRAM 이상을 가진 사용자를 고려하여 2B 또는 7B 프로토타입 모델 크기를 논의 중입니다. 7B 모델은 최종 모델 크기가 500B-1T에 달할 수 있어 훈련 비용과 시간이 크게 증가할 수 있습니다.
모델 훈련 과정의 구조화, 데이터 형식 통일, 데이터 길이 제한 등 다양한 고려 사항이 제시되고 있으며, 악의적인 모델 제출 방지를 위해 등록 포털을 통해 참여자의 훈련 범위를 제한하고, 데이터 출처를 관리할 계획입니다.
최종 모델은 훈련된 기증 모델을 조립하고, 어텐션 가중치를 평균화하는 방식으로 구성될 예정이며, 라우터 레이어 훈련 시 모델 품질과 출처를 고려하여 균일한 활용을 보장하는 기술이 적용될 것입니다.