Pulse · AI 뉴스

모델이 얼마나 빠르게 지도 학습에 전념해야 할까요? Tsallis 손실 연속체에서 추론 모델 훈련

arXiv cs.AI · 2026-04-29

연구진은 초기 성공 확률이 낮을 때 강화 학습을 통해 검증 가능한 보상(RLVR)을 사용하는 것이 훈련된 추론 모델의 새로운 작업 적응을 방해한다는 것을 발견했어요.

Tsallis $q$-로그를 사용하여 RLVR($q{=}0$)과 잠재 궤적에 대한 로그-마진-우도($q{=}1$) 사이를 보간하는 손실 패밀리 $J_Q$를 정의하고, 학습률에 관계없이 각 인스턴스를 독립적으로 재가중하는 스칼라 증폭 $P_{θ^{-q}}$를 도입했어요.

Gradient-Amplified RL (GARL)과 Posterior-Attenuated Fine-Tuning (PAFT) 두 가지 Monte Carlo 추정기를 개발하여 FinQA, HotPotQA, MuSiQue 데이터셋에서 GRPO보다 우수한 성능을 보였어요.

##추론모델##강화학습##손실함수##GARL##PAFT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기