개발자가 32GB VRAM 환경에서 25M 파라미터 규모의 자동 완성 모델 구축을 계획하고 있어요. 유튜브 코미디 영상이나 Python/Linux/보안 기술 데이터로 훈련하여 재미있는 모델이나 기술 모델을 만들고자 해요. 모델 훈련에 필요한 데이터셋 확보가 가장 큰 과제이며, 100M 토큰 이상의 데이터가 필요해요. 자동 완성 스타일 훈련을 위한 데이터 포맷에 대한 조언을 구하고 있어요.
기존 모델 아키텍처와 훈련 파이프라인이 확립되어 있어, 작은 모델을 처음부터 구축하는 데 자신감을 느끼고 있어요. 32GB VRAM 제한으로 인해 대규모 모델은 아니지만, 재미있는 프로젝트와 학습 경험이 될 것으로 기대돼요.
데이터셋 확보가 가장 큰 난관으로, 모델 파라미터 수의 몇 배에 달하는 토큰 데이터가 필요해요. Wikipedia나 Common Crawl과 같은 일반적인 데이터셋 외에 고품질 데이터셋을 찾고 있어요.
유튜브 코미디 영상이나 Python/Linux/보안 기술 데이터로 훈련하여 재미있는 모델이나 기술 모델을 만들고자 하며, 자동 완성 스타일 훈련을 위한 데이터 포맷에 대한 조언을 구하고 있어요.