Pulse · AI 뉴스

Q-MMR: 보상 재가중 및 모멘트 매칭을 통한 오프라인 정책 평가

Q-MMR · 2026-05-08

연구진은 Q-MMR이라는 새로운 이론적 프레임워크를 제시하며, 이는 유한 지평선 MDP에서 오프라인 정책 평가를 위한 방법입니다.

Q-MMR은 데이터 포인트마다 스칼라 가중치를 학습하여 재가중된 보상이 대상 정책 하에서의 기대 수익을 근사하도록 합니다.

연구진은 $Q^π$ 의 실현 가능성만 있으면 일반적인 함수 근사에서 데이터 의존적 유한 샘플 보장을 설정할 수 있으며, 차원-무관 경계를 달성할 수 있다고 밝혔습니다.

##오프라인강화학습##정책평가##모멘트매칭##Q-MMR

매일 핵심 AI 소식을 한국어로, 빠르게