연구진은 기존 시각적 잠재적 추론 방법의 불안정성을 해결하기 위해 새로운 패러다임인 GAP을 제안했습니다. GAP은 기능 수준, 컨텍스트 수준, 용량 기반 수준에서 시각적 잠재적 추론을 정렬합니다. Qwen2.5-VL 7B 모델에 GAP을 적용한 결과, 기존 방식보다 성능이 향상되었습니다.
연구진은 기존 모델의 기능 공간 불일치 문제를 진단하고, 이를 해결하기 위해 PCA 정렬, 시각적 감독, 용량 기반 선택적 감독을 도입했습니다. GAP을 통해 생성된 잠재 변수는 단순한 토큰 슬롯 이상의 작업 관련 시각적 신호를 제공하는 것으로 나타났습니다.