연구진은 실제 환경에서 로봇이 경험을 통해 학습하고 개선할 수 있도록 하는 VERITAS 프레임워크를 제안했어요. VERITAS는 사전 훈련된 로봇 정책을 생성기로 사용하고, 추론 시간에 행동을 평가하는 시각적 검증기를 페어링하는 생성기-검증기 프레임워크예요.
시각적 검증은 추가 훈련 없이 정책 성능을 향상시키는 추론 시간 제어를 가능하게 하며, 기존 로봇보다 우수한 성능을 보여줘요.
검증된 롤아웃은 오프라인 정책 개선을 위한 효과적인 감독 신호를 제공하며, 전문가 데모와 유사한 효율성을 달성하면서도 인간의 개입 없이 가능해요.