Pulse · AI 뉴스

CLIP 기반 모델의 효율적인 픽셀 기반 객체 지정을 위한 훈련 불필요 토큰 가지치기 기법 개발

CLIP · 2026-05-13

연구진은 대규모 비전-언어 모델에서 시각적 토큰이 입력 토큰의 대부분을 차지하여 계산 부담이 크다는 점에 주목했어요.

CLIP 분석 결과, 참조 영역 내 시각적 토큰은 텍스트 표현과 낮은 유사성을 보이는 경향이 있어 이를 활용한 'LiteLVLM'이라는 훈련 불필요 토큰 가지치기 전략을 제안했어요.

LiteLVLM은 훈련 없이도 성능의 90%를 유지하며 속도는 2.3배, 메모리는 2.3배 절감하는 효과를 보여줘요.

##CLIP##토큰가지치기##픽셀지정##LiteLVLM

매일 핵심 AI 소식을 한국어로, 빠르게