Pulse · AI 뉴스

희소 보상 환경에서 VLA 온라인 RL 미세 조정 시 계층적 어드밴티지 가중치 활용

HABC · 2026-06-15

연구진은 희소한 에피소드 결과에서 VLA(Vision-Language-Action)를 온라인 RL 방식으로 미세 조정할 때 발생하는 문제점을 해결하기 위해 계층적 어드밴티지 가중치 행동 복제(HABC)를 제안했어요.

HABC는 생존 가능성과 효율성이라는 두 가지 목표를 분리하여 평가하고, 상태에 따라 두 목표의 중요도를 조절하여 더 정확한 피드백을 제공해요.

실제 로봇 실험에서 HABC는 기존의 감독 학습 미세 조정(SFT) 방식보다 성공률을 크게 향상시켰으며, 특히 접촉이 많은 양손 작업에서 뛰어난 성능을 보였어요.

##VLA##RL##미세조정##로봇##HABC

매일 핵심 AI 소식을 한국어로, 빠르게