연구팀이 시각적 추론을 위한 새로운 프레임워크 V-Zero를 발표했어요. V-Zero는 텍스트 답변 레이블 없이 시각적 증거 게이팅을 통해 학습해요. 기존 방법 대비 5배 빠른 속도로 학습하며, 기존 지도 학습 방법보다 10배 빠른 속도를 보였어요. V-Zero는 질문과 관련된 지역적 이미지를 음수 시각적 뷰와 연결하여 학생이 샘플링한 경로를 평가하고 토큰 수준의 증류를 게이팅해요.