본 연구에서는 표현력이 뛰어난 생성 정책을 오프라인 강화 학습(RL)에 통합할 때 발생하는 문제점을 해결하기 위해 '최대 엔트로피 접사 매칭(ME-AM)' 프레임워크를 제안합니다.
ME-AM은 인기도 편향을 완화하고 기하학적 범위를 확장하는 두 가지 메커니즘을 통해 오프라인 데이터셋에서 최적의 정책을 추출하고, 분포 외 영역의 고보상 영역을 탐색합니다.
다양한 연속 제어 환경에서 ME-AM은 기존 최고 성능(SOTA) 방법보다 경쟁력 있는 성능을 보이거나 능가하는 결과를 보여주었습니다.