Pulse · AI 뉴스

보존을 지원하고, 대응하지 마세요: 오프라인 강화 학습을 위한 동적 라우팅

arXiv cs.AI · 2026-04-24

DROL은 오프라인 강화 학습 환경에서, 데이터셋이 지원하는 행동을 벗어나지 않으면서 성능을 향상시키는 새로운 접근 방식이에요.

DROL은 각 상태에 대해 여러 후보 행동을 샘플링하고, 데이터셋 행동과 가장 가까운 후보를 선택하여 업데이트하는 동적 라우팅 방식을 사용해요.

OGBench 및 D4RL 벤치마크에서 DROL은 기존 FQL 모델과 경쟁력 있는 성능을 보이며, 특히 OGBench 작업 그룹에서 성능 향상을 보여줬어요.

##강화학습##오프라인RL##DROL##동적라우팅

매일 핵심 AI 소식을 한국어로, 빠르게