본 연구는 엔트로피 위험 측정 기준의 유한-수평 위험 감지 강화 학습에서 최적 정책 식별을 연구합니다. 기존 연구에 따르면 하한 경계는 $Ω(e^{|β| H})$로 스케일링되는 반면, 최첨단 상한 경계는 $O(e^{2|β| H})$를 달성합니다. 연구진은 더 날카로운 집중 경계를 유도하고 새로운 중지 규칙을 제안하여 샘플 복잡도를 하한 경계와 일치시켰습니다.