연구진은 온폴리시 증류(OPD)의 최적화 세분성을 재고하고, 불량 샘플을 필터링하고 유용한 토큰에 가중치를 부여하는 FiRe-OPD를 제안했어요.
FiRe-OPD는 하드 토큰 선택 대신 소프트 재가중치 메커니즘을 활용하여 정보 손실을 줄이고 최적화 안정성을 향상시켰어요.
강력-약, 단일-교사, 다중-교사 설정에서 FiRe-OPD는 기존 토큰 레벨 OPD 방법보다 성능이 우수했으며, AIME 2024에서 +6.25, Miner에서 +18.81의 성능 향상을 보였어요.