연구진은 정책 모델의 내부 신호를 활용하여 값 추정 기준선을 저렴하게 얻는 POISE(Policy Optimization with Internal State Value Estimation) 기법을 제안했습니다.
POISE는 단일 rollout만으로 프롬프트 값을 추정하여 더 다양한 프롬프트를 사용하도록 지원하며, 기존 방식보다 학습 안정성을 높이고 샘플링 비용을 절감합니다.
Qwen3-4B와 DeepSeek-R1-Distill-Qwen-1.5B 모델을 활용한 수학 추론 벤치마크에서 POISE는 DAPO와 유사한 성능을 보이면서도 더 적은 컴퓨팅 자원을 사용했습니다.