연구진은 강화 학습 시 희소 보상의 문제점을 해결하기 위해 VLM(Vision Language Model) 가이드 기반 잠재 함수 기반 보상 성형(VLM-PBRS) 프레임워크를 제안했어요.
VLM-PBRS는 VLM 피드백을 활용해 잠재 함수를 학습하며, 기존 방식처럼 전문가가 직접 보상 성형 용어를 설계할 필요가 없어요.
Meta-World와 Franka Kitchen 환경에서 실험 결과, VLM 선호도 레이블 정확도가 샘플 효율성 향상에 기여하는 것을 확인했어요.