Pulse · AI 뉴스

적은 게 더 많다: 온-정책 증류를 위한 조기 중단 롤아웃

온-정책 증류 · 2026-05-26

연구진은 온-정책 증류에서 '오프-정책 교사 모델 붕괴' 문제를 확인했어요. 이 문제는 학생의 이전 트랙터리가 교사 모델과 오프-정책이 되면서 후속 토큰에 대한 교사의 교정 점수 능력이 저하되는 현상이에요. 조기 중단 롤아웃(ESR) 전략을 제안하여 이 문제를 해결했는데, 롤아웃 생성 범위를 첫 번째 응답 토큰으로 제한하는 간단하면서도 효과적인 방법이에요.

ESR은 다양한 모델 크기, 패밀리, 작업, 학습 환경에서 전체 롤아웃 증류 성능을 능가하며 GPU 효율성과 학습 안정성도 높여요. 특히 모델 패밀리 간 시나리오에서 효과적이에요. ESR의 작동 원리를 분석한 결과, '연쇄 정렬' 및 '하위 모드 헌신' 효과가 있다는 것을 발견했어요.

ESR의 성능은 KL 발산 및 엔트로피 신호만으로는 설명할 수 없으며, 위치 기반 토큰 선택 전략의 효과를 보여줘요.

##온정책증류##조기중단##모델정렬##딥러닝
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기