Pulse · AI 뉴스

강화 학습에서 흐름 정책의 테스트 시간 기울기 안내

QGF · 2026-06-10

연구진은 강화 학습(RL) 파이프라인에 흐름 모델을 적용할 때 발생하는 불안정성 문제를 해결하기 위해 QGF(Q-Guided Flow)라는 새로운 알고리즘을 제안했어요.

QGF는 미리 학습된 흐름 정책과 가치 함수 비평가를 활용하여 테스트 시간에서만 정책을 최적화하며, 추가적인 정책 학습 없이 더 높은 가치의 행동을 생성하도록 안내해요.

실험 결과, QGF는 고차원 행동 공간을 가진 오프라인 RL 벤치마크에서 기존 테스트 시간 RL 방법보다 뛰어난 성능을 보였고, 기존 학습 시간 알고리즘과 경쟁력 있는 성능을 제공하면서도 비용 효율적이에요.

##강화학습##흐름정책##QGF##RL

매일 핵심 AI 소식을 한국어로, 빠르게