Pulse · AI 뉴스

RL2ML: 강화 학습에서 최대 우도 추정까지의 유한 롤아웃 대리 목적 함수

RL2ML · 2026-05-29

RL2ML은 강화 학습과 최대 우도 추정 간의 연결성을 강화하는 새로운 대리 목적 함수 패밀리입니다. 이 방법은 기존 방식의 문제점을 해결하고, 정확한 기울기 추정기를 제공합니다.

그룹 수준 업데이트 스케일 분석을 통해, 기존 방식으로는 파악하기 어려웠던 하위 임계-초임계 업데이트 스케일 전환 현상을 밝혀냈습니다.

평가 지표, 지역 민감도, 추정기 분산 간의 관계를 분석하여 최적의 대리 목적 함수를 결정하는 방법을 제시하고, 이를 1차원 최적화 문제로 단순화했습니다.

##강화학습##최대우도##RLVR##RL2ML##목적함수

매일 핵심 AI 소식을 한국어로, 빠르게