Pulse · AI 뉴스

분기 지점에서의 신용 현지화: LLM 추론을 위한 경로 조건부 자기 증류

Qwen · 2026-06-14

연구진은 강화 학습에서 토큰 단위 신용 할당의 부족 문제를 해결하기 위해 Hindsight Self-Distillation (HSD) 방법을 제안했어요.

HSD는 성공적인 동료 rollout을 조건으로 삼아, 실패한 rollout과 성공적인 동료 rollout 사이의 분기 지점에서 신용 신호를 집중시키는 방식이에요.

Qwen3-8B와 Qwen3-32B 모델을 대상으로 한 실험에서 HSD는 기존 방법보다 우수한 성능을 보였으며, 특히 짧은 답변 작업에서 효과가 컸어요.

##LLM##자기증류##강화학습##추론##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게