Pulse · AI 뉴스

SG-OPD: 신호 게이팅 온폴리시 증류 - 신호 일관성 게이팅 및 단계별 교사 샘플링을 통해

SG-OPD · 2026-06-08

SG-OPD는 온폴리시 증류(OPD)의 두 가지 한계를 극복하기 위해 개발된 새로운 방법론입니다. 기존 OPD는 교사와 학생의 경로 정렬 및 교사의 일관성 있는 선호도를 가정하지만, 실제로는 이러한 조건이 충족되지 않는 경우가 많습니다. SG-OPD는 이진 검증기를 사용하여 교사의 신뢰도를 측정하고, 단계별 교사 샘플링과 신호 일관성 게이팅을 통해 증류 성능을 향상시켰습니다.

수학적 추론 벤치마크에서 SG-OPD는 기존 OPD보다 평균 1.98% 더 높은 샘플 단위 성능을 보였으며, 문제당 평균 7.50% 향상된 결과를 보여주었습니다. 이는 교사의 신뢰도를 측정하고 증류 업데이트를 조정하는 방식이 효과적임을 입증합니다.

##온폴리시증류##강화학습##모델증류##SG-OPD##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기