Pulse · AI 뉴스

다중 목표 강화 학습에서 공정한 파레토 최적 정책 학습

Multi-Objective Reinforcement Learning · 2026-06-17

연구진은 다중 목표 강화 학습에서 공정성을 고려한 정책 학습 방법을 제시했어요. 기존 방법은 고정된 사용자 선호도에만 적합했지만, 새로운 방법은 다양한 사용자 선호도를 충족하는 정책 집합을 학습할 수 있어요.

공정한 정책은 편익 함수(generalized Gini welfare function, GGF)가 있을 때, 선형 스칼라화에 대한 근사 파레토 프론트인 볼록 커버리지 집합(CCS) 내에 존재한다는 것을 입증했어요.

과거 불평등에 동적으로 적응하는 보상 기록을 활용한 비정상 정책과 확률적 정책은 공정성을 향상시키는 것으로 나타났으며, GGF와 MOQL을 결합한 세 가지 새로운 알고리즘을 제안했어요.

##강화학습##다중목표##공정성##파레토최적
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기