연구진은 복합적 시각 추론에 어려움을 겪는 비전-언어 모델(VLM)의 성능을 개선하기 위해 자기 질문 프레임워크를 제안했어요. 이 프레임워크는 강화 학습 알고리즘인 GRPO를 활용해 VLM이 시각적 질문을 하위 질문으로 분해하고 답변하도록 훈련해요. 자기 질문 프레임워크는 CLEVR과 A-OKVQA 데이터셋에서 훈련되었으며, A-OKVQA에서 정확도가 향상된 결과를 보여줬어요.