연구진은 LLM 학습 데이터 엔지니어링 프레임워크 SAERL을 제안했어요. SAERL은 희소 자동인코더(SAE)를 활용해 모델 내부 정보를 분석하여 다양성, 난이도, 품질의 데이터 특성을 파악합니다.
SAERL은 SAE 분석 결과를 바탕으로 데이터 다양성 제어, 난이도 기반 커리큘럼 구성, 데이터 필터링 등 데이터 엔지니어링 작업을 수행합니다.
SAERL은 Qwen2.5-Math-1.5B 모델에서 평균 정확도를 3.00% 향상시키고, 기존 방식보다 20% 적은 학습 단계로 목표 정확도 달성했습니다.