SPS(Steering Probability Squeezing)는 강화 학습(RL) 훈련 시 다양한 추론 경로 탐색을 제한하는 확률 압축 문제를 해결하기 위한 새로운 훈련 패러다임입니다.
SPS는 기존 RL과 역강화 학습(IRL)을 결합하여 온-정책 롤아웃을 데모 데이터로 활용하고, 추론 경로 분포를 재구성하여 탐색을 향상시킵니다.
5가지 추론 벤치마크 실험 결과, SPS는 더 나은 탐색을 가능하게 하여 Pass@k 성능을 향상시키는 것으로 나타났으며, RL 학습 역학 분석과 Pass@k 상한선 규명에도 기여했습니다.