Pulse · AI 뉴스

SPS: 강화 학습 기반 대규모 언어 모델 추론 성능 향상을 위한 확률 조향

arXiv cs.CL · 2026-04-18

SPS(Steering Probability Squeezing)는 강화 학습(RL) 훈련 시 다양한 추론 경로 탐색을 제한하는 확률 압축 문제를 해결하기 위한 새로운 훈련 패러다임입니다.

SPS는 기존 RL과 역강화 학습(IRL)을 결합하여 온-정책 롤아웃을 데모 데이터로 활용하고, 추론 경로 분포를 재구성하여 탐색을 향상시킵니다.

5가지 추론 벤치마크 실험 결과, SPS는 더 나은 탐색을 가능하게 하여 Pass@k 성능을 향상시키는 것으로 나타났으며, RL 학습 역학 분석과 Pass@k 상한선 규명에도 기여했습니다.

##강화학습##역강화학습##대규모언어모델

매일 핵심 AI 소식을 한국어로, 빠르게