본 논문은 비즈니스 및 의료 분야의 강화 학습 적용 시 데이터 획득 효율성을 높이기 위한 새로운 프레임워크를 제시합니다. 큰 편차 이론을 활용하여 정책 선택 오류 확률의 지수 감소율을 효율성 지표로 도입하고, 변분적 특성을 규명했습니다. 제안된 방법은 복잡한 문제를 해결하기 위해 볼록 이완과 적응형 데이터 획득 정책을 사용하며, 근사 최적성을 보장합니다.
선형 함수 근사 확장을 통해 확장성을 개선하고, 수치 실험을 통해 제안된 방법의 효과를 검증했습니다.
본 연구는 강화 학습의 실제 적용 가능성을 높이고, 비용과 시간을 절약하는 데 도움이 될 수 있는 중요한 통찰력을 제공합니다.