대규모 비전 언어 모델(LVLM)의 구조적 가지치기를 통해 기존 모델을 압축하고, 경량화된 복구 훈련을 통해 성능을 유지하는 방법을 연구했어요. 폭(width) 방향으로 가지치기하는 것이 제한된 자원 환경에서 더 나은 성능을 유지하며, 멀티모달 프로젝터만 복구 훈련하는 것으로 충분해요. 원래 데이터의 5%만 사용해도 원래 성능의 95% 이상을 유지하며 복구할 수 있다는 점이 주목할 만해요.