LAFP(Latent Action Flow Policy)는 대규모 비디오에서 고품질 잠재적 행동 학습을 위한 새로운 패러다임입니다. 기존 방식의 행동 복제는 다중모드 행동 분포를 단일모드로 붕괴시켜 잠재적 행동 구조를 저하시키는 문제를 해결합니다.
LAFP는 흐름 매칭을 활용하여 잠재적 정책 학습을 진행하고, 추론 시 보간 메커니즘을 도입하여 발생하는 불일치를 완화합니다.
실험 결과, LAFP는 다운스트림 모방 학습 작업에서 기존 방식보다 우수한 성능을 보였으며, 성공률이 최대 10~15% 향상되었습니다.