연구진은 희소한 에피소드 결과에서 VLA(Vision-Language-Action)를 온라인 RL 방식으로 미세 조정할 때 발생하는 문제점을 해결하기 위해 계층적 어드밴티지 가중치 행동 복제(HABC)를 제안했어요.
HABC는 생존 가능성과 효율성이라는 두 가지 목표를 분리하여 평가하고, 상태에 따라 두 목표의 중요도를 조절하여 더 정확한 피드백을 제공해요.
실제 로봇 실험에서 HABC는 기존의 감독 학습 미세 조정(SFT) 방식보다 성공률을 크게 향상시켰으며, 특히 접촉이 많은 양손 작업에서 뛰어난 성능을 보였어요.