연구진은 시각-언어 모델(VLM)의 추론 능력을 향상시키기 위해 저수준 시각적 단서와 시각적 피드백을 활용하는 통합 멀티모달 간섭 추론 프레임워크 ForeSight를 제안했어요.
ForeSight는 저수준 시각적 도구를 도입하여 세밀한 시각적 특징을 고려하고, 마스크 기반 시각적 피드백 메커니즘을 통해 모델이 답변을 재검토하고 업데이트할 수 있도록 지원해요.
새롭게 구성된 CG-SalBench 데이터셋을 통해 실험한 결과, ForeSight-7B 모델은 기존 모델보다 뛰어난 성능을 보이며, 일부 지표에서는 현재 최고 성능의 폐쇄형 모델을 능가했어요.