연구진은 시범 데이터를 활용한 로봇 제어 학습 시 On-Policy Distillation (OPD) 방법인 FA-OPD를 제안했어요. FA-OPD는 Flow Matching (FM) 기반의 Teacher 모델과 가벼운 MLP Student 모델을 공동 학습시켜 로봇 제어 성능을 향상시킵니다. Teacher 모델은 로봇의 상태-행동 쌍에 대한 Expert-likeness 목표를 학습하고, Student 모델의 탐색을 지원하는 역할을 합니다.
FA-OPD는 보상 채널과 행동 채널을 결합하여 시범 데이터 외의 일반화 능력을 확보하고, 동시에 Expert와 유사한 행동을 유지하도록 설계됐어요. 보상 채널은 온라인 탐색을 유도하고, 행동 채널은 Student 모델이 방문하는 상태에 대한 밀집형 로컬 타겟을 제공하여 안정적인 활용을 돕습니다.
6개의 로봇 내비게이션, 조작, 보행 벤치마크에서 FA-OPD는 기존 방법보다 우수한 성능을 보였으며, 노이즈가 있거나 데이터가 부족한 환경에서도 강건성을 입증했어요.