Pulse · AI 뉴스

데이터 활용 극대화: 유기 데이터 기반 사전 훈련 토큰 생성 방법

SynPro · 2026-05-18

연구진은 LLM 사전 훈련이 컴퓨팅 한계를 넘어 데이터 부족에 직면하는 현상에 주목했어요. SynPro라는 새로운 프레임워크를 통해 제한된 유기 데이터로부터 LLM이 더 깊이 학습하도록 돕습니다.

SynPro는 재구성 및 재형식화 작업을 통해 동일한 유기 데이터를 다양한 형태로 제시하며, 모델이 아직 흡수하지 못한 콘텐츠를 타겟팅하기 위해 지속적으로 업데이트돼요.

실험 결과, SynPro는 기존 방식 대비 3.7~5.2배 더 많은 효과적인 토큰을 확보했으며, 11억 파라미터 모델 규모에서 데이터 한계 없이 훈련하는 오라클 성능을 능가하는 결과를 보였어요.

##LLM##사전훈련##데이터증강##합성데이터##SynPro

매일 핵심 AI 소식을 한국어로, 빠르게