Pulse · AI 뉴스

GEAR: LLM 에이전트의 자기 증류를 통한 그래нула리티 적응형 이점 재가중화

GEAR · 2026-05-12

본 논문에서는 자기 증류에서 파생된 토큰 및 세그먼트 레벨 신호를 활용하여 경로 레벨 GRPO 이점을 재구성하는 적응적 그래нула리티 신용 할당 프레임워크인 GEAR를 제안합니다.

GEAR는 온-정책 학생 모델과 정답 기반 교사 모델을 비교하여 어댑티브 세그먼트 경계를 식별하고 로컬 이점 가중치를 조절하는 참조 기반 발산 신호를 얻습니다.

Qwen3 4B 및 8B 모델을 사용한 8개의 수학적 추론 및 에이전트 도구 사용 벤치마크 실험에서 GEAR는 표준 GRPO, 자기 증류 기반 라인, 토큰 또는 턴 레벨 신용 할당 방법을 능가하는 성능을 보였습니다.

##LLM##자기증류##강화학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기