Uni-OPD는 전문 모델의 능력을 단일 학생 모델로 통합하는 온-정책 증류(OPD)의 효과를 높이기 위해 개발된 새로운 프레임워크입니다.
연구진은 OPD의 성능 제한 요인으로 충분하지 않은 정보 상태 탐색과 신뢰할 수 없는 교사 모델의 학생 롤아웃 감독을 지적했습니다.
Uni-OPD는 대규모 언어 모델(LLM)과 다중 모드 대규모 언어 모델(MLLM)에 적용 가능하며, 학생 모델의 정보 상태 탐색을 촉진하고 교사 모델의 일관성을 유지하는 양면적 최적화 전략을 사용합니다.