연구진은 기존 확산 정책 방식이 아닌 오토리거시브 정책을 활용해 실시간 실행을 달성하는 방법을 제시했어요. 토큰화 지평선을 조정하고 제약 디코딩을 적용해 엄격한 지연 시간 제한을 보장하며, 여러 경로를 동시에 디코딩해 성능을 극대화했어요. 시뮬레이션 및 실제 환경에서 오토리거시브 정책은 동등한 수준의 플로우 매칭 정책보다 우수한 성능을 보였어요.
오토리거시브 정책은 빠른 수렴과 더 나은 일반화 능력을 갖추고 있어 실시간 실행을 지원하는 경쟁력 있는 정책 유형으로 남을 수 있다는 점을 확인했어요. 연구 결과는 실시간 배포를 위한 대규모 Vision-Language-Action 모델에 중요해요.
기존 연구가 주로 확산 정책에 집중했던 것과 달리, 이번 연구는 오토리거시브 정책의 실시간 실행 가능성을 입증하며 새로운 방향을 제시했어요.