Pulse · AI 뉴스

VisPCO: 예산 기반 패레토 프론티어 학습을 통한 시각적 토큰 가지치기 구성 최적화

arXiv cs.AI · 2026-04-17

본 연구에서는 비전-언어 모델(VLM)의 시각적 토큰 가지치기 구성을 최적화하는 새로운 프레임워크인 VisPCO를 소개합니다.

VisPCO는 연속 이완과 스트레이트스루 추정기를 활용하여 기울기 기반 검색을 가능하게 하고, 패레토 최적화 문제를 해결하여 효율성과 성능 간의 균형을 맞춥니다.

8개의 시각적 벤치마크 실험 결과, VisPCO는 기존 방법보다 우수한 정확도-효율성 균형을 달성하며, VLM의 계층적 압축 구조를 파악하는 데 기여합니다.

##모델최적화##컴퓨터비전##VLM

매일 핵심 AI 소식을 한국어로, 빠르게