OmniOPD는 기존 On-Policy Distillation(OPD)의 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 기존 OPD는 교사 모델의 토큰 단위 로짓 정보가 필요하고, 이 정보는 불안정하다는 단점이 있었어요.
OmniOPD는 토큰 단위 로짓 대신 교사 모델의 선호도를 추정하는 몽테카를로 시뮬레이션을 사용하고, 불확실성이 높은 구간에서만 학생 모델을 검증하는 방식으로 작동해요.
새로운 방법은 수학 문제 해결 벤치마크에서 기존 OPD보다 최대 28.64% 향상된 성능을 보여줬으며, Claude-4.5-Haiku, Gemini-2.5-Flash 같은 강력한 교사 모델과 함께 사용할 경우 더 큰 성능 향상을 이끌어냈어요.
연구 결과는 토큰 단위 로짓 매칭보다 청크 단위 의미 검증이 더 안정적인 학습 신호를 제공한다는 것을 확인시켜줍니다.