Pulse · AI 뉴스

ZPPO: 프롬프트 내 교사, 그래디언트가 아닌 근접 개발 영역 최적화

Qwen · 2026-06-16

연구진이 Zone of Proximal Policy Optimization (ZPPO)을 발표했어요. ZPPO는 교사를 정책 그래디언트에 포함하는 대신 프롬프트 내에 유지하는 방식이에요.

BCQ(Binary Candidate-included Question)와 NCQ(Negative Candidate-included Question)를 활용하여 학생 모델의 학습을 돕고, 어려운 질문에 대한 성능을 향상시켰어요.

Qwen3.5 모델 패밀리에서 0.8B~9B 규모의 학생 모델을 27B 교사 모델과 함께 테스트한 결과, 기존 방식보다 성능이 우수했어요.

##ZPPO##RL##Qwen##프롬프트엔지니어링

매일 핵심 AI 소식을 한국어로, 빠르게