Pulse · AI 뉴스

BASIS: LLM 추론 능력 향상을 위한 배치 기반 가치 예측 방법

BASIS · 2026-05-27

BASIS는 LLM 추론 능력 향상을 위한 새로운 post-training 알고리즘입니다. 각 프롬프트당 단일 rollout만 샘플링하지만, 배치 내 모든 프롬프트에서 풍부한 정보를 활용하여 가치 함수 예측을 개선합니다. 실험 결과, BASIS는 기존 방식보다 MSE를 69% 줄이고, 더 적은 rollout로도 우수한 성능을 달성했습니다.

BASIS는 REINFORCE++와 같은 단일 rollout 기반 방식 대비 가치 함수 예측 MSE를 69% 감소시켰습니다. 8 rollout을 사용하는 그룹 평균 추정 방식보다 단일 rollout로 더 낮은 MSE를 달성했습니다.

가치 예측 성능 향상은 정책 최적화로 이어져, 더 짧은 훈련 시간으로도 GRPO 기반 방식에 근접하거나 REINFORCE 기반 방식보다 뛰어난 성능을 보였습니다.

##LLM##강화학습##추론##BASIS##가치함수
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기