연구진이 계산 효율적인 언어 모델 훈련을 위한 3가지 기술을 연구했어요.
선택적 지도 학습과 토큰 효율성을 통해, 감독 데이터 양을 15%만 사용해도 전체 시퀀스 손실 감소의 67%를 회복할 수 있어요.
48계층 모델을 6계층으로 압축하고 재귀적 복구를 통해 손실을 2.934로 복구했어요. 이는 566M 모델의 손실 2.926과 거의 동일해요.
여러 압축 모델을 MoEE로 결합하여 단일 모델보다 성능을 향상시켰으며, 활성 파라미터는 거의 동일했어요.