연구진이 paired 데이터 없이 이미지·비디오 편집 모델을 훈련하는 새로운 프레임워크 ByG를 제안했어요. 기존 모델의 지식을 활용하여 instruction-following cues와 cycle-consistency를 결합하는 방식이에요. ByG는 supervised baseline보다 뛰어난 성능을 보이며, unseen 도메인에 대한 일반화 능력도 입증했어요.
ByG는 frozen 모델에서 추출한 instruction-following cues와 cycle-consistency를 활용해 구조를 보존하며 훈련돼요. 연구 결과, gradient routing이 train-inference gap을 해소하고, semantic cues 추출이 외부 reward 모델 없이도 강력한 훈련 신호를 제공하는 것으로 나타났어요.
ByG는 데이터가 부족한 이미지·비디오 편집 시나리오에서 state-of-the-art 성능을 달성했어요. 사용자 연구 결과, 기존 방식 대비 효과적으로 unseen 도메인에 일반화되고, 수백만 개의 샘플로 훈련된 supervised baseline을 능가하는 것으로 확인됐어요.