연구진은 희소한 에피소드 결과(성공 또는 실패)를 활용하여 VLA(Vision-Language-Action) 정책을 온라인 강화 학습(RL)으로 미세 조정하는 새로운 방법인 HABC(Hierarchical Advantage-Weighted Behavior Cloning)를 제안했어요.
HABC는 viability(실현 가능성)와 efficiency(효율성)라는 두 가지 목표를 분리하여 처리하고, 상태에 따라 이들 간의 균형을 조절하는 critic 헤드를 별도로 학습시켜 transition-level 피드백을 제공해요.
실험 결과, HABC는 3가지 접촉이 많은 양손 조작 작업에서 기존의 supervised fine-tuning(SFT) 방식보다 성공률을 크게 향상시켰어요 (각각 36%, 44%, 12%에서 92%, 88%, 38%로).