Pulse · AI 뉴스

강화 학습에서 플로우 정책의 테스트 시간 기울기 안내

QGF · 2026-06-09

연구진은 강화 학습(RL)에서 안정적인 정책 개선을 위한 새로운 방법인 QGF(Q-Guided Flow)를 제안했어요. QGF는 기존의 복잡한 학습 방식 대신 테스트 시간에서만 정책을 최적화하는 방식이에요.

QGF는 미리 학습된 플로우 정책과 가치 함수 비평가를 활용해, 추가적인 정책 학습 없이도 더 높은 가치의 행동을 생성하도록 안내해요.

실험 결과, QGF는 고차원 행동 공간에서 기존 테스트 시간 RL 방법보다 뛰어난 성능을 보였고, 기존 학습 시간 알고리즘과 경쟁력 있는 성능을 보여주면서도 비용 효율적이에요.

##강화학습##정책최적화##QGF##플로우정책

매일 핵심 AI 소식을 한국어로, 빠르게