연구진은 복잡한 제어 문제에 적합한 제너레이티브 정책인 Flow Map 정책을 새롭게 제안하며, 기존 정책보다 빠른 액션 생성을 목표로 합니다. Flow Map 정책은 기존 제너레이티브 정책의 생성 과정을 건너뛰는 방식으로 동작하며, 오프라인 RL에서 온라인 적응을 위한 최적화 문제를 해결합니다. 12개의 로봇 조작 및 보행 작업에서 Flow Map 정책은 기존 MVP 정책보다 평균 성공률 21.3% 향상이라는 뛰어난 성능을 보였습니다.