Pulse · AI 뉴스

신뢰 영역 행동 블렌딩을 통한 온정책 증류

HuggingFace Papers · 2026-05-29

연구진은 온정책 증류(OPD)의 초기 정책 문제를 해결하기 위해 신뢰 영역 행동 블렌딩(TRB) 기법을 제안했어요. TRB는 학생 중심 KL 신뢰 영역 내에서 교사 행동 정책에 가장 가까운 정책으로 초기 롤아웃 정책을 대체해요. KL 예산은 점진적으로 0으로 줄어들어, 워밍업 후에는 순수한 학생 롤아웃으로 돌아가요.

두 가지 수학적 추론 증류 환경에서 TRB는 비교 방법 중 가장 강력한 평균 성능을 달성했어요. 이 기법은 초기 정책의 품질을 개선하여 학생 모델의 학습 효율성을 높이는 데 기여해요. 연구 결과는 온정책 증류 방식의 개선 가능성을 보여줍니다.

##온정책증류##신뢰영역##기계학습##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기