연구진은 효율성과 성능을 모두 갖춘 오프라인 강화 학습 알고리즘 'FAN(Flow-Anchored Noise-conditioned Q-Learning)'을 제안했어요. FAN은 기존 방식의 높은 계산 비용 문제를 해결하기 위해 단일 흐름 정책 반복과 하나의 가우시안 노이즈 샘플만 사용합니다. 로봇 조작 및 보행 작업 실험에서 FAN은 최고 성능을 달성하며 훈련 및 추론 시간을 크게 단축했어요.