Pulse · AI 뉴스

DRIFT: 오프라인 강화 학습 정책을 온라인으로 개선하는 방법

DRIFT · 2026-05-13

연구진은 이산형 행동 공간에 적합한 새로운 강화 학습 방법인 DRIFT를 소개했습니다. DRIFT는 오프라인으로 사전 훈련된 CTMC 정책을 온라인으로 개선하며, 이산형 행동 공간에 맞춘 흐름 매칭 손실을 사용합니다.

DRIFT는 사전 훈련된 지식을 보존하기 위해 전체 CTMC 경로 분포를 정규화하는 경로 공간 페널티를 추가하며, 대규모 이산형 행동 공간에서는 후보 집합 근사 방법을 사용합니다.

제리코 벤치마크에서 실험 결과, DRIFT는 기존 방법보다 높은 평균 점수를 달성했으며, 경로 공간 페널티는 미세 조정 중에도 안정적으로 유지되는 것으로 확인되었습니다.

##강화학습##오프라인학습##DRIFT##CTMC

매일 핵심 AI 소식을 한국어로, 빠르게