Pulse · AI 뉴스

정책 최적화 근접 영역: 프롬프트 내의 교사, 그래디언트가 아닌

Qwen · 2026-06-17

연구진은 지식 증류의 한계를 극복하기 위해 강화 학습(RL) 기반의 Zone of Proximal Policy Optimization (ZPPO)을 제안했어요.

ZPPO는 교사의 답변을 정책 그래디언트에 직접 반영하는 대신, 프롬프트 내에 교사를 유지하여 학습 효율을 높여요.

BCQ와 NCQ 프롬프트를 활용하여 어려운 질문에 대한 학생 모델의 학습을 돕고, Qwen3.5 모델 패밀리에서 기존 방법 대비 성능 향상을 확인했어요.

##강화학습##ZPPO##프롬프트엔지니어링

매일 핵심 AI 소식을 한국어로, 빠르게