연구진은 Vision-Language 모델(VLM)이 공간적 예측을 관찰하고 수정하는 메커니즘이 부족하다는 점을 발견했어요.
Iterative Visual Thinking(IVT) 프레임워크를 제안하여 모델이 예측 결과를 시각적으로 관찰하고 반복적으로 개선하도록 했어요.
IVT는 지도 데이터 없이 모델 자체의 예측 오류를 활용하고 GRPO(Group Relative Policy Optimization)를 적용하여 성능을 향상시켰어요.
혼합 벤치마크에서 IVT는 기존 모델보다 정확도([email protected])를 2.4%p 향상시키고 GRPO는 단계별 IoU 저하를 5배 줄이는 성과를 거두었어요.