연구진은 온-정책 증류(OPD)의 한 방법인 온-정책 자기 증류(OPSD)가 특권 정보를 활용하는 과정에서 모델의 의도치 않은 행동 변화를 야기할 수 있음을 지적했어요.
EDGE-OPD는 가이드된 롤아웃과 증거 마스크를 활용하여 OPSD의 한계를 극복하고, 특권 정보의 효과적인 지식 전달과 일반적인 성능 유지에 기여해요.
실험 결과, EDGE-OPD는 기존 OPSD 방식이 실패하는 타겟 아이덴티티 학습을 가능하게 했으며, 긍정적 증거 영역에 페르소나 신호가 국부화됨을 확인했어요.