MS-Resampler는 멀티모달 LLM의 시각 정보 재샘플링 효율을 높이는 새로운 프레임워크입니다. 기존 방식의 단일 범위 묶음 방식의 한계를 극복하기 위해, MS-Resampler는 다양한 범위의 시각 정보를 묶어 세밀한 정보와 전체 맥락을 모두 담아냅니다.
MS-Resampler는 공간적 범위 우선순위를 재샘플링 어텐션에 주입하여, 각 범위에 맞는 재샘플러를 생성하고, 이를 적응적으로 융합하여 최종 시각 표현을 만듭니다.
공개된 10개의 멀티모달 벤치마크 실험 결과, MS-Resampler는 기존 방식보다 시각 이해 및 멀티모달 추론 능력을 향상시키며, 계산 비용은 최소화합니다.