연구진은 시각-언어 모델의 자기 성찰 능력 향상을 위해 강화 학습 기반 프레임워크 VRRL을 제안했어요. VRRL은 모델이 시각 정보를 기반으로 오류를 수정하도록 훈련하여, 데이터 분포가 달라져도 성능 저하를 줄여요.
VRRL은 훈련 과정에서 중간 예측을 무작위로 가리고, 다양한 실패 사례를 경험하게 함으로써 시각적 정보에 기반한 자기 성찰을 유도해요.
테이블, 차트 시각적 정보 기반 작업과 공간 내비게이션 벤치마크에서 VRRL은 기존 방법보다 평균적으로 데이터 분포 변화에 따른 정확도가 향상된 것을 확인했어요.