Pulse · AI 뉴스

행동 기반 작업 샘플링을 통한 제로샷 오프라인 강화 학습 개선

arXiv cs.AI · 2026-04-28

제로샷 오프라인 강화 학습은 추가적인 환경 상호작용 없이 새로운 보상 함수를 최적화하는 에이전트를 학습하는 것을 목표로 해요.

기존 방식은 작업 벡터를 무작위로 샘플링하지만, 이는 작업 공간 구조를 충분히 반영하지 못해 성능 저하를 일으킬 수 있어요.

저희는 오프라인 데이터 세트에서 직접 작업 벡터를 추출하여 정책 학습에 사용함으로써 제로샷 성능을 평균 20% 향상시켰어요.

##강화학습##제로샷##오프라인RL##행동샘플링

매일 핵심 AI 소식을 한국어로, 빠르게