Pulse · AI 뉴스

적은 게 더 많다: 온정책 증류를 위한 조기 중단 롤아웃

온정책 증류 · 2026-05-26

온정책 증류는 교사 모델의 롤아웃 점수를 활용해 학생 모델을 학습하는 방식입니다. 연구진은 교사 모델의 성능 저하 문제를 발견하고, 롤아웃 생성 시 첫 번째 응답 토큰으로 제한하는 조기 중단 롤아웃(ESR) 기법을 제안했습니다. ESR은 다양한 모델 크기, 패밀리, 작업, 학습 환경에서 온정책 증류 성능을 능가하며 GPU 효율성과 학습 안정성을 높입니다.

ESR은 '연쇄 정렬'과 '하위 모드 헌신' 효과를 통해 교사 모델 성능을 넘어서는 결과를 보여주기도 합니다. 연구진은 ESR의 효과가 KL 발산과 엔트로피 신호만으로는 설명할 수 없음을 확인했습니다.

##온정책증류##조기중단##ESR##모델학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기