Pulse · AI 뉴스

보상 머신 기반 패레토 Q-러닝 (PQLRM) 알고리즘 제시

PQLRM · 2026-06-17

연구진이 다중 목표 강화 학습 알고리즘인 패레토 Q-러닝과 보상 머신(RM)을 결합한 PQLRM을 개발했어요. PQLRM은 패레토 Q-러닝의 샘플 효율성을 유지하면서 보상 신호의 자동화 구조를 활용하는 QRM의 장점을 결합했어요.

PQLRM은 교차-MDP에 적용한 기존 PQL보다 빠르게 수렴하며, QRM이 생성할 수 없는 패레토 최적 정책을 합성할 수 있음을 실험적으로 입증했어요.

본 연구는 비마르코프 환경에서 RM으로 인코딩된 보상을 가진 작업에 대한 다중 정책 알고리즘을 제공하며, 강화 학습 연구에 기여할 것으로 기대돼요.

##강화학습##다중목표##보상머신##PQLRM

매일 핵심 AI 소식을 한국어로, 빠르게