Pulse · AI 뉴스

LLM 시각 정보 처리 효율성 개선: Dual-Path Vision Token Routing (DPVR) 제안

LLaVA · 2026-06-08

연구진은 LLaVA-1.5 모델 분석 결과, 시각 정보 토큰이 중간 레이어에서 포화되는 현상을 발견했어요.

DPVR-LF는 시각 정보 토큰을 단일 측면 브랜치로 분기하고, 텍스트만 처리하는 13층 포워드를 실행하며, 최종 레이어에서만 융합하는 방식이에요.

기존 모델과 유사한 성능을 유지하면서 시각 정보 처리량을 줄이는 데 성공했어요.

연구 결과는 시각 정보 토큰이 모든 언어 모델 레이어를 통과해야 한다는 기존 가정을 뒤집고, 늦은 융합만으로도 강력한 시각적 역량을 유지할 수 있음을 시사해요.

##LLM##멀티모달##컴퓨터비전##최적화

매일 핵심 AI 소식을 한국어로, 빠르게