Pulse · AI 뉴스

VLM 가이드 기반 잠재 함수 기반 보상 성형 자동화

VLM-PBRS · 2026-06-26

연구진은 강화 학습 시 희소 보상의 문제점을 해결하기 위해 VLM(Vision Language Model) 가이드 기반 잠재 함수 기반 보상 성형(VLM-PBRS) 프레임워크를 제안했어요.

VLM-PBRS는 VLM 피드백을 활용해 잠재 함수를 학습하며, 기존 방식처럼 전문가가 직접 보상 성형 용어를 설계할 필요가 없어요.

Meta-World와 Franka Kitchen 환경에서 실험 결과, VLM 선호도 레이블 정확도가 샘플 효율성 향상에 기여하는 것을 확인했어요.

##강화학습##VLM##보상성형##잠재함수

매일 핵심 AI 소식을 한국어로, 빠르게