RL2ML은 강화 학습과 최대 우도 추정 간의 연결성을 강화하는 새로운 대리 목적 함수 패밀리입니다. 이 방법은 기존 방식의 문제점을 해결하고, 정확한 기울기 추정기를 제공합니다.
그룹 수준 업데이트 스케일 분석을 통해, 기존 방식으로는 파악하기 어려웠던 하위 임계-초임계 업데이트 스케일 전환 현상을 밝혀냈습니다.
평가 지표, 지역 민감도, 추정기 분산 간의 관계를 분석하여 최적의 대리 목적 함수를 결정하는 방법을 제시하고, 이를 1차원 최적화 문제로 단순화했습니다.