Pulse · AI 뉴스

온-정책 증류에서 구조화된 출력의 외삽 절벽 현상 분석

Qwen · 2026-05-09

본 연구는 LLM 사후 훈련에 널리 사용되는 온-정책 증류(OPD) 과정에서, 보상 외삽 계수(lambda)를 높이면 학생 모델이 교사 모델의 성능을 능가할 수 있지만, 특정 임계값(lambda*)을 넘어서면 구조화된 출력 작업에서 출력 계약을 위반하게 된다는 점을 밝힙니다.

단일 위치 베르누이 감소에서 교사 모델의 모달 확률, 초기 질량, 중요 샘플링 클리핑 강도에 따라 클리프 안전 임계값(lambda*(p,b,c))을 유도했으며, lambda* 초과 시 외삽된 고정점이 클리프 안전 영역에서 벗어나 학습이 형식 보존에서 형식 붕괴로 바뀐다는 것을 확인했습니다.

Amazon Fashion 데이터셋에서 세 가지 사전 등록된 테스트를 통해 클리프 간격, 예산 확장 테스트, 소규모 클리핑 교차 예측이 예측된 경계 내에서 이루어졌으며, 소규모 클리핑 값은 격자 해상도 아래의 예측과 일치했습니다.

##LLM##온정책증류##구조화된출력
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기