연구진은 디퓨전 기반 생성 모델에서 가이드 스케일을 고정된 하이퍼파라미터로 취급하는 방식의 한계를 지적하며, 강화 학습을 통해 동적으로 가이드 경로를 학습하는 새로운 방법을 제안했습니다.
제안된 방법은 가이드 스케일을 생성 단계별로 결정하는 제어 액션으로 모델링하고, Proximal Policy Optimization (PPO)를 사용하여 정책을 최적화합니다.
실험 결과, 적응형 가이드는 고정 스케일 전략보다 제어 가능성과 생성 품질 간의 균형을 더 잘 맞추는 것으로 나타났으며, 각 작업에 따른 해석 가능한 가이드 경로를 보여주었습니다.