Pulse · AI 뉴스

희소 에피소드 결과 기반 VLA 온라인 RL 미세 조정 시 계층적 이점 가중법

HABC · 2026-06-16

연구진은 희소한 에피소드 결과(성공 또는 실패)를 활용하여 VLA(Vision-Language-Action) 정책을 온라인 강화 학습(RL)으로 미세 조정하는 새로운 방법인 HABC(Hierarchical Advantage-Weighted Behavior Cloning)를 제안했어요.

HABC는 viability(실현 가능성)와 efficiency(효율성)라는 두 가지 목표를 분리하여 처리하고, 상태에 따라 이들 간의 균형을 조절하는 critic 헤드를 별도로 학습시켜 transition-level 피드백을 제공해요.

실험 결과, HABC는 3가지 접촉이 많은 양손 조작 작업에서 기존의 supervised fine-tuning(SFT) 방식보다 성공률을 크게 향상시켰어요 (각각 36%, 44%, 12%에서 92%, 88%, 38%로).

##강화학습##VLA##로봇##미세조정##HABC
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기