연구진은 플로우 매칭(FM) 모델의 다중 작업 정렬 시 발생하는 보상 희소성과 기울기 간섭 문제를 해결하기 위해 온-정책 증류(OPD)를 통합한 Flow-OPD 프레임워크를 제안했습니다.
Flow-OPD는 먼저 단일 보상 GRPO를 통해 각 전문가의 성능 한계에 도달하도록 도메인 전문 교사 모델을 양성하고, 이어서 온-정책 샘플링, 작업 라우팅 레이블링, 밀집된 경로 수준 감독을 통해 다양한 전문 지식을 단일 학생 모델로 통합합니다.
Stable Diffusion 3.5 Medium 기반으로 Flow-OPD를 적용한 결과 GenEval 점수는 63에서 92로, OCR 정확도는 59에서 94로 향상되며, 기존 GRPO 대비 약 10점의 성능 향상을 보였습니다.