연구진은 시각-언어 모델(LVLM)의 추론 병목 현상을 해결하기 위해 PARCEL(Pool-Anchored Resampling with Conditioned Elastic Queries)이라는 새로운 시각 토큰화 아키텍처를 제안했어요.
PARCEL은 공간 풀 토큰을 저주파 레이아웃 앵커로 설정하고, 풀 기반 조건부 쿼리 리샘플링을 통해 쿼리 토큰이 상호 보완적인 시각적 특징에 집중하도록 유도해요.
27개 벤치마크 평가 결과, PARCEL은 기존의 매트료시카 기반 모델을 능가하며 성능-효율성 균형을 개선하고, '한 번 학습 후 어디서든 배포' 가능성을 유지했어요.