Pulse · AI 뉴스

KL for a KL: On-Policy Distillation의 새로운 방법론 제시

vOPD · 2026-05-09

연구진은 On-Policy Distillation(OPD)의 불안정성을 해결하기 위해 제어 변수 기반선을 도입한 vOPD라는 새로운 방법론을 제안했습니다. vOPD는 강화 학습(RL) 관점에서 OPD를 재해석하여 기울기 분산을 줄이고 안정성을 높입니다. vOPD는 기존 방법보다 효율적이면서도 수학 및 과학적 추론 벤치마크에서 우수한 성능을 보였습니다.

vOPD는 학생 모델과 교사 모델 간의 토큰별 역 KL 발산 값을 활용하여 값 함수를 정의하고, 이를 제어 변수 기반선으로 사용해 기울기 분산을 줄입니다. 기존 방법은 전체 어휘에 대한 역 KL 발산을 계산하거나 상위 k개 토큰으로 제한했지만, vOPD는 단일 샘플 추정기를 유지하면서 성능 저하 없이 비용을 절감합니다.

연구 결과, vOPD는 기존 OPD보다 성능이 뛰어나고, 전체 어휘 기반선과 유사한 성능을 보이면서도 계산 비용을 절감했습니다. 이는 강화 학습의 원리를 활용하여 On-Policy Distillation을 안정화하는 효과적인 방법임을 입증합니다.

##모델출시##강화학습##OnPolicyDistillatio
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기