Pulse · AI 뉴스

MLLM을 위한 더욱 단어와 유사한 이미지 토큰화 방법

DiVT · 2026-05-18

연구진은 MLLM의 이미지 토큰이 단어처럼 의미 있는 단위가 아니라는 문제를 해결하기 위해 Disentangled Visual Tokenization (DiVT)을 제안했어요.

DiVT는 패치 임베딩을 의미 있는 단위로 묶어 시각적 개념에 맞는 토큰을 생성하고, 이미지 복잡도에 따라 토큰 수를 조절하여 정확도와 연산량 간 균형을 맞추는 방식이에요.

다양한 멀티모달 벤치마크에서 DiVT는 기존 방식보다 적은 토큰으로 더 나은 성능을 보이며, 메모리 비용과 지연 시간을 줄이고 시각적 입력을 LLM과 더 호환되게 만들어요.

##MLLM##이미지토큰화##DiVT##시각적임베딩

매일 핵심 AI 소식을 한국어로, 빠르게