연구진은 추상적이고 복잡한 이미지 편집 지시를 처리하기 위한 새로운 프레임워크를 제안했어요. 이 프레임워크는 계획자와 오케스트레이터를 활용하여 이미지 편집 작업을 구조화된 단계로 분해하고 실행해요. 비전 언어 모델은 결과에 기반한 보상을 제공하여 계획 및 실행 과정을 개선해요.
기존 방법은 수작업 파이프라인에 의존하거나 교사 모방을 사용했지만, 제안된 방법은 계획과 실행을 결합하여 더 일관성 있고 신뢰할 수 있는 편집 결과를 얻어요. 이 방식은 단일 단계 또는 규칙 기반 멀티스텝 기준보다 우수한 성능을 보여줘요.
연구진은 성공적인 편집 경로를 활용하여 계획자를 개선하고, 이미지 편집 작업을 보다 효과적으로 처리하는 데 초점을 맞췄어요.