본 연구는 대규모 시각 언어 모델(LVLM)의 신뢰성 있는 예측과 실제 배포를 위한 불확실성 정량화(UQ)의 중요성을 다룹니다. 기존 방법은 주로 언어 모달리티에 집중하여 시각 정보의 기여도를 간과했습니다. 연구진은 시각 정보를 활용하여 토큰 수준의 불확실성 추정 정확도를 높이는 Visual-Grounded Token UQ(VIG-TUQ) 프레임워크를 제안했습니다.
VIG-TUQ는 시각적 정보를 활용하여 언어적 불확실성을 가중치로 조정하는 방식으로, 별도의 학습 과정 없이 적용 가능합니다. 다양한 LVLM 아키텍처에서 실험 결과, 기존 방법보다 성능이 향상된 것을 확인했습니다.
연구 결과는 다양한 데이터 세트와 LVLM 아키텍처에서 VIG-TUQ가 기존 토큰 수준 불확실성 접근 방식보다 성능을 향상시키는 것을 보여줍니다. 코드와 데이터는 논문 게재 후 공개될 예정입니다.