iamjasonfeng이 LLM 후훈련 방법 RPS(Regressive Plasticity Schedule)를 공개했어요. RPS는 뇌과학에서 영감을 받아, 쉬운 데이터로 먼저 학습하고 어려운 데이터로 학습하는 2단계 방식이에요.
RPS는 기존 커리큘럼 학습과 학습률 감쇠를 결합한 방법으로, Qwen3-8b의 프로그램 합성 평가에서 4%의 성능 향상을 보였어요.
ARC-AGI 1 공개 평가에서 RPS는 EPS(동일 학습률) 대비 프로그램 오류 없는 실행 횟수가 275회 더 많았으며, 관련 블로그와 GitHub 저장소 주소가 함께 공개됐어요.