ESPO(Early-Stopping Proximal Policy Optimization)는 강화 학습 모델의 잘못된 추론 단계를 조기에 감지하여 불필요한 연산을 줄이는 기술입니다. 모델은 샘플링 과정에서 로짓을 기반으로 후회(regret)를 계산하고, 일정 수준을 넘어서면 트레이저리를 조기에 종료합니다. 조기에 종료된 트레이저리는 흡수 상태로 처리되어 부정적인 TD 오차를 집중시켜 성능을 향상시킵니다.
DeepSeek-R1-Distill-Qwen-7B 모델을 활용한 수학적 추론 훈련에서 ESPO는 PPO 대비 AIME~2024, AMC~2023, MATH-500에서 더 높은 점수를 기록했습니다. ESPO는 기존 방식보다 20% 이상의 토큰 연산량을 절약합니다.
ESPO는 별도의 보상 모델이나 인간 어노테이션 없이도 작동하며, 잘못된 추론 단계에서 발생하는 노이즈를 줄여 효율적인 학습을 가능하게 합니다.