Pulse · AI 뉴스

RPS: Qwen3-8b 프로그램 합성 신뢰도 향상시키는 LLM 후훈련 방법 공개

Qwen · 2026-05-22

iamjasonfeng이 LLM 후훈련 방법 RPS(Regressive Plasticity Schedule)를 공개했어요. RPS는 뇌과학에서 영감을 받아, 쉬운 데이터로 먼저 학습하고 어려운 데이터로 학습하는 2단계 방식이에요.

RPS는 기존 커리큘럼 학습과 학습률 감쇠를 결합한 방법으로, Qwen3-8b의 프로그램 합성 평가에서 4%의 성능 향상을 보였어요.

ARC-AGI 1 공개 평가에서 RPS는 EPS(동일 학습률) 대비 프로그램 오류 없는 실행 횟수가 275회 더 많았으며, 관련 블로그와 GitHub 저장소 주소가 함께 공개됐어요.

##LLM##Qwen##RPS##후훈련

매일 핵심 AI 소식을 한국어로, 빠르게