연구진은 MLLM의 미세한 시각적 이해 과제를 개선하기 위해 절차적 생성 작업(PGT) 프레임워크를 제안했어요. PGT는 명확한 기하학적 원소를 이미지에 겹쳐 시각적 정밀 이해를 유도하고, 인식 실패 원인을 진단하는 도구로 활용돼요.
PGT는 시각적 정밀 이해 능력과 의미 사전 지식을 분리하는 데 도움이 되는 추가적인 밀집형 감독 신호를 제공하며, 다양한 벤치마크에서 성능 향상을 보여줬어요.
LLaVA-v1.5-Instruct에 PGT 데이터를 활용한 instruction tuning은 What'sUp 벤치마크에서 최대 20%, CV-Bench-2D에서 최대 13.3%의 성능 향상을 가져왔어요.