연구진은 VLM 피드백만으로 이미지 레이어 분해 모델을 미세 조정하는 강화 학습 프레임워크 'Stable-Layers'를 공개했어요.
Stable-Layers는 Qwen-Image-Layered 모델을 기반으로 Flow-GRPO와 LoRA를 적용하여 후보 레이어 분해 결과를 VLM으로 평가하고 정책을 최적화해요.
VLM의 신뢰성 있는 보상 신호 설계가 핵심 과제였으며, 두 단계 평가 파이프라인을 통해 레이어 분리 강화, 아티팩트 감소, 재구성 오류 감소 효과를 확인했어요.