Pulse · AI 뉴스

온-폴리시 증류 시 KL 합의 함정 탈출: KAT 제안

KAT · 2026-06-08

연구진은 온-폴리시 증류(OPD) 과정에서 학생 모델이 회복 불가능한 상태로 빠지면 교사 모델이 잘못된 상태에 동의하여 효과적인 학습 신호를 제공하지 못하는 '저-KL 합의 함정'을 발견했어요.

KAT(KL Agreement Trap Termination)라는 온라인 OPD 종료 규칙을 제안하여, 동적인 학습 적응 임계값을 통해 지속적인 저-KL 합의를 감지하고, 무용론적인 감독 신호를 필터링해요.

KAT은 4개의 수학 벤치마크에서 avg@k 정확도를 2.66% 향상시키고 pass@k를 3.43% 향상시키며, 평균 롤아웃 길이를 59.73% 단축했어요.

##온폴리시증류##KL합의##KAT##모델학습

매일 핵심 AI 소식을 한국어로, 빠르게