Pulse · AI 뉴스

UBP2: 불확실성 균형 선호 계획을 통한 효율적인 선호 기반 강화 학습

UBP2 · 2026-06-18

연구진은 선호 기반 강화 학습의 샘플 효율성을 높이는 UBP2 모델을 발표했어요. UBP2는 보상, 역학, 가치 함수 모델의 불확실성을 함께 추론하여 능동적으로 탐색을 유도하는 방식이에요. Meta-World 벤치마크 실험에서 기존 모델 기반 방법보다 샘플 효율성이 훨씬 높다는 결과가 나왔어요.

UBP2는 예상 보상, 터미널 가치, 인식 불확실성을 결합한 통합 점수를 사용하여 후보 트랙토리를 평가하며, 별도의 탐색 휴리스틱 없이 활용과 정보 획득 간의 균형을 맞추는 방식이에요. 보상, 역학, 가치 함수 모델 앙상블을 사용해 불확실성을 평가하고 계획을 수립해요.

UBP2는 유한/무한 지평선 환경에서 후회 보장(regret guarantee)을 만족하며, 기존 모델 프리(model-free) 선호 기반 방법보다 샘플 효율성이 높다는 것을 실험적으로 입증했어요.

##강화학습##UBP2##선호학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기