Pulse · AI 뉴스

LLaVA-UHD v4: 효율적인 시각 인코딩의 핵심은 무엇일까요?

LLaVA-UHD v4 · 2026-05-10

LLaVA-UHD v4는 고해상도 이미지 입력에 대한 멀티모달 대규모 언어 모델(MLLM)의 시각 인코딩 효율성을 높이는 새로운 방식입니다.

연구진은 슬라이스 기반 인코딩이 전역 인코딩보다 성능이 뛰어나고, ViT 레이어 초기에 토큰을 압축하여 연산량을 줄이는 방법을 제시했습니다.

LLaVA-UHD v4는 다양한 벤치마크에서 시각 인코딩 FLOPs를 55.8% 줄이면서도 기존 성능을 능가하는 결과를 보여주었습니다.

##MLLM##시각인코딩##LLaVA

매일 핵심 AI 소식을 한국어로, 빠르게