LLaVA-UHD v4는 고해상도 이미지 입력에 대한 멀티모달 대규모 언어 모델(MLLM)의 시각 인코딩 효율성을 높이는 새로운 방식입니다. 연구진은 슬라이스 기반 인코딩이 전역 인코딩보다 성능이 뛰어나고, ViT 레이어 초기에 토큰을 압축하여 연산량을 줄이는 방법을 제시했습니다. LLaVA-UHD v4는 다양한 벤치마크에서 시각 인코딩 FLOPs를 55.8% 줄이면서도 기존 성능을 능가하는 결과를 보여주었습니다.