연구진은 복잡한 시각적 의도를 충실히 구현하는 데 어려움이 있어, SCOPE라는 프레임워크를 제안했습니다. SCOPE는 구조화된 사양에서 의미 약속을 유지하고, 해결되지 않거나 위반된 약속에 대해 조건부로 기술을 호출합니다. Gen-Arena 벤치마크에서 SCOPE는 기존 모델보다 뛰어난 성능(0.60 EGIP)을 보였으며, WISE-V와 MindBench에서도 좋은 결과를 얻었습니다.