연구진은 다양한 시각적 지식을 가진 여러 VFMs를 조율하는 TIGER 프레임워크를 제안했어요. 자연어 지시사항을 활용해 토큰 수준의 전문가 가중치를 결정하는 라우팅 네트워크를 사용해 보완적인 전문가 기능을 통합해요.
TIGER는 각 전문가의 인과적 기여도를 측정하는 반사실적 손실을 도입해 라우팅 결정을 개선하고, 더 신뢰할 수 있고 해석 가능한 라우팅을 장려해요.
NYUD-v2와 Pascal Context 벤치마크에서 기존 다중 작업 학습 방법보다 뛰어난 성능을 보이며, 모든 VFMs는 동결된 상태로 유지했어요.