연구진은 LLM 사전 훈련이 컴퓨팅 한계를 넘어 데이터 부족에 직면하는 현상에 주목했어요. SynPro라는 새로운 프레임워크를 통해 제한된 유기 데이터로부터 LLM이 더 깊이 학습하도록 돕습니다.
SynPro는 재구성 및 재형식화 작업을 통해 동일한 유기 데이터를 다양한 형태로 제시하며, 모델이 아직 흡수하지 못한 콘텐츠를 타겟팅하기 위해 지속적으로 업데이트돼요.
실험 결과, SynPro는 기존 방식 대비 3.7~5.2배 더 많은 효과적인 토큰을 확보했으며, 11억 파라미터 모델 규모에서 데이터 한계 없이 훈련하는 오라클 성능을 능가하는 결과를 보였어요.