연구진이 Zone of Proximal Policy Optimization (ZPPO)을 발표했어요. ZPPO는 교사를 정책 그래디언트에 포함하는 대신 프롬프트 내에 유지하는 방식이에요.
BCQ(Binary Candidate-included Question)와 NCQ(Negative Candidate-included Question)를 활용하여 학생 모델의 학습을 돕고, 어려운 질문에 대한 성능을 향상시켰어요.
Qwen3.5 모델 패밀리에서 0.8B~9B 규모의 학생 모델을 27B 교사 모델과 함께 테스트한 결과, 기존 방식보다 성능이 우수했어요.