ReNIO는 LLM 온디맨드 증류(OPD)에서 학생 모델이 생성한 모든 출력을 동일하게 취급하는 기존 방식의 한계를 극복하기 위해 개발됐어요.
연구 결과, 부정적인 SGO(Student Generated Outputs)를 활용한 학습이 정확한 SGO만 활용한 학습보다 성능이 우수하며, 부정 SGO는 모델의 역량 한계 근처에서 탐색적인 추론을 보존하는 역할을 해요.
ReNIO는 학생 모델과 교사 모델 간의 확률 비율을 활용해 잘못된 추론으로 이어지는 핵심 토큰을 식별하고, 이를 정규화된 샘플 가중치로 통합해 부정적인 트랙토리에 더 큰 가중치를 부여해요.
Qwen3-1.7B와 R1-Distill-Qwen-7B 모델에서 수학적 추론 벤치마크에서 최대 10.00%의 성능 향상을 보여줬어요.