본 논문에서는 자기 증류에서 파생된 토큰 및 세그먼트 레벨 신호를 활용하여 경로 레벨 GRPO 이점을 재구성하는 적응적 그래нула리티 신용 할당 프레임워크인 GEAR를 제안합니다.
GEAR는 온-정책 학생 모델과 정답 기반 교사 모델을 비교하여 어댑티브 세그먼트 경계를 식별하고 로컬 이점 가중치를 조절하는 참조 기반 발산 신호를 얻습니다.
Qwen3 4B 및 8B 모델을 사용한 8개의 수학적 추론 및 에이전트 도구 사용 벤치마크 실험에서 GEAR는 표준 GRPO, 자기 증류 기반 라인, 토큰 또는 턴 레벨 신용 할당 방법을 능가하는 성능을 보였습니다.