연구에 따르면 기존의 잠재 변수 시각 추론 방법은 시각적 증거를 통합하는 데 효과적이지만, 학습 과정에서 잠재 변수의 기여도가 억제되는 문제점이 있습니다.
연구진은 이 문제를 '침묵하는 시각적 잠재 변수(Silenced Visual Latents)'라고 명명하고, 추론 단계에서 잠재 변수 추론을 직접 최적화하여 해결했습니다.
새로운 방법은 시각적 잠재 변수의 의미 품질을 개선하고, 잠재 변수 붕괴를 방지하며, 예측 토큰 분포를 집중시켜 잠재 변수를 통한 예측을 유도합니다.