연구진이 맘바(Mamba) 기반의 비전-언어 모델 성능을 높이기 위해 쿼리 기반 크로스 모달 프로젝터를 개발했어요. 이 프로젝터는 크로스 어텐션 메커니즘을 통해 시각적 토큰을 압축하고, 이미지 특징의 2D 스캔 순서를 수동으로 설계할 필요성을 없앱니다. 다양한 비전-언어 이해 벤치마크에서 성능과 처리량을 모두 향상시키는 효과를 확인했어요.
맘바 모델은 입력 길이에 따른 2차 복잡도 문제를 해결하는 데 효과적이지만, 시각적 토큰 압축과 이미지 특징의 스캔 순서 설계가 필요했어요. 새로운 프로젝터는 이러한 문제를 해결하고, 비전-언어 모델의 효율성을 높여요.
연구 결과, 제안된 크로스 모달 프로젝터는 맘바 기반 멀티모달 LLM의 성능을 향상시키고, 처리 속도를 높이는 데 기여했어요.