연구 프로젝트에서 1억, 2억 5천만, 5억 파라미터 변형의 GPT 유사 모델(Transformer 디코더)을 훈련하는 과정에서 기본 자동 회귀 학습에 실패하는 문제가 발생했어요.
모델은 반복 방지 없이 단일 토큰을 생성하는 데 멈추는 경향이 있으며, 훈련 데이터는 7억 5천만 토큰 규모로, 어휘는 1만 5천~10만 토큰 사이입니다.
연구자는 AdamW 옵티마이저, 학습률 1e-3, 배치 크기 400만 토큰, 16 에포크 등의 하이퍼파라미터를 사용했지만, 학습 방법을 개선할 방안을 모색 중입니다.