본 연구는 LLM 훈련 효율성을 높이기 위한 데이터 구성 전략의 중요성을 강조합니다. 기존 연구에서 간과되었던 데이터 구성의 영향을 분석하고, 경계 강화, 주기적 스케줄링, 교육 과정 연속성, 지역 다양성 등 4가지 핵심 가이드라인을 제시합니다. STR과 SAW라는 새로운 데이터 정렬 방법을 제안하여 다양한 모델 규모와 데이터 크기에서 실험을 거쳐 훈련 안정성과 성능 향상을 입증했습니다.