Pulse · AI 뉴스

온라인 예산 제약 하의 적응적 정책 선택 및 미세 조정: 오프라인-온라인 강화 학습

arXiv cs.AI · 2026-05-07

본 연구는 오프라인 데이터로 학습된 정책을 온라인 환경에서 제한된 상호작용을 통해 미세 조정하는 오프라인-온라인 강화 학습(O2O-RL)의 효율성을 높이는 방법을 제시합니다.

정책 선택 시 오프라인 평가(OPE)의 불확실성과 온라인 평가(OE)의 높은 상호작용 비용 문제를 해결하기 위해, 상위 신뢰 구간(upper-confidence-bound) 접근 방식을 활용하여 적응적으로 정책을 선택하고 미세 조정합니다.

다양한 벤치마크 실험을 통해 제안하는 방법이 기존 O2O-RL 방식보다 성능이 우수함을 입증했습니다.

##강화학습##정책최적화##오프라인학습##온라인학습

매일 핵심 AI 소식을 한국어로, 빠르게