연구진은 다중 작업 훈련을 위한 새로운 패러다임인 DiffusionOPD를 제안했어요. DiffusionOPD는 온라인 정책 증류(OPD)를 기반으로 하며, 각 작업별 교사를 독립적으로 훈련한 후 학생의 rollout 경로를 통해 역량 증류를 수행해요.
이 방법은 단일 작업 탐색과 다중 작업 통합을 분리하고, 모든 작업을 처음부터 함께 최적화하는 부담을 줄여줘요.
실험 결과, DiffusionOPD는 기존의 다중 보상 강화 학습 및 캐스케이드 강화 학습 방법보다 훈련 효율성과 최종 성능 모두에서 우수한 결과를 보여줬어요.