BASIS는 LLM 추론 능력 향상을 위한 새로운 post-training 알고리즘입니다. 각 프롬프트당 단일 rollout만 샘플링하지만, 배치 내 모든 프롬프트에서 풍부한 정보를 활용하여 가치 함수 예측을 개선합니다. 실험 결과, BASIS는 기존 방식보다 MSE를 69% 줄이고, 더 적은 rollout로도 우수한 성능을 달성했습니다.
BASIS는 REINFORCE++와 같은 단일 rollout 기반 방식 대비 가치 함수 예측 MSE를 69% 감소시켰습니다. 8 rollout을 사용하는 그룹 평균 추정 방식보다 단일 rollout로 더 낮은 MSE를 달성했습니다.
가치 예측 성능 향상은 정책 최적화로 이어져, 더 짧은 훈련 시간으로도 GRPO 기반 방식에 근접하거나 REINFORCE 기반 방식보다 뛰어난 성능을 보였습니다.