Pulse · AI 뉴스

랜덤 선택된 소량의 가이드로 강화 학습의 검증 가능한 보상 강화

FEST · 2026-05-15

연구진은 검증 가능한 보상(RLVR)을 활용한 강화 학습의 샘플 효율성 문제를 해결하기 위해 FEST라는 새로운 알고리즘을 제안했어요. FEST는 SFT 데이터셋에서 무작위로 선택된 128개의 데모만으로도 뛰어난 성능을 보여줘요. 소량의 데모 데이터만으로도 기존 방식보다 더 나은 성능을 내며, 전체 데이터셋을 사용한 방식과도 유사한 결과를 얻었어요.

##강화학습##RLVR##FEST##LLM##SFT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기