Pulse · AI 뉴스

Reroute: 시각 토큰 재라우팅을 통한 시각-언어 모델 성능 개선

Reroute · 2026-06-11

연구진은 시각-언어 모델(VLM)의 비효율적인 시각 토큰 처리 문제를 해결하기 위해 'Reroute'라는 새로운 방법을 제안했어요. 기존 방식은 토큰을 제거하는 반면, Reroute는 토큰을 재라우팅하여 필요에 따라 다시 활용합니다. 이를 통해 LLaVA-1.5 및 Qwen 백본 기반 모델에서 토큰 감소에도 불구하고 VQA 성능을 유지하며 시각적 정보의 정확도를 높였습니다.

연구진은 Reroute가 기존 토큰 제거 방식의 취약점을 보완하며, 시각 토큰의 중요도가 디코더 깊이에 따라 변하는 점을 고려하여 토큰을 재활용할 수 있도록 설계됐다고 설명했어요. Reroute는 기존의 주의력 점수 순위 규칙과 단계별 일정을 활용하여 계산 비용을 추가하지 않으면서도 성능을 향상시켰습니다.

Reroute 코드는 GitHub에서 공개되었으며, VLM 토큰 감소가 영구적인 제거가 아닌 회수 가능한 라우팅으로 간주되어야 함을 시사하며 연구 결과는 VLM 분야에 새로운 가능성을 제시합니다.

##VLM##시각언어모델##토큰라우팅##Reroute##LLaVA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기