Pulse · AI 뉴스

RLVR의 새로운 방향: 교사의 신호를 역으로 읽어 모델의 자율적 추론 강화

Qwen · 2026-05-12

연구진은 기존 자기 증류 방식이 성공적인 추론 과정을 억제한다는 문제를 발견했어요.

RLRT(RLVR with Reversed Teacher)는 학생 모델의 성공적인 추론 토큰을 강화하여 새로운 형태의 탐색을 가능하게 해요.

Qwen3 체크포인트를 활용한 실험에서 RLRT는 자기 증류 및 탐색 기반의 기존 방식보다 뛰어난 성능을 보였어요.

##RLVR##자기증류##강화학습##Qwen3##탐색

매일 핵심 AI 소식을 한국어로, 빠르게