VIMCAN은 Mamba와 Cross-Attention을 결합하여 시각-관성 3D 인간 자세 추정 모델을 제안합니다. 이 모델은 기존 Transformer 기반 모델의 한계를 극복하고 실시간 처리 성능을 향상시켰습니다.
VIMCAN은 TotalCapture 데이터셋에서 17.2mm, 3DPW 데이터셋에서 45.3mm의 MPJPE를 기록하며 기존 SOTA 모델보다 높은 정확도를 보입니다.
Mamba의 효율적인 시퀀스 모델링과 Attention의 공간적 추론 능력을 결합하여 소비자용 하드웨어에서 초당 60프레임 이상의 실시간 추론을 지원합니다.