연구진은 스파이킹 트랜스포머의 비효율적인 토큰 상호작용 문제를 해결하기 위해 Vision SmolMamba라는 새로운 스파이킹 상태 공간 아키텍처를 제안했어요.
Vision SmolMamba는 스파이크 활성화 강도와 첫 번째 스파이크 지연 시간을 활용하여 토큰 중요도를 추정하는 SST-TP 메커니즘을 통해 불필요한 토큰을 제거하고 시공간 정보를 보존해요.
ImageNet-1K, CIFAR10/100, CIFAR10-DVS, DVS128 Gesture 등 다양한 벤치마크에서 기존 스파이킹 트랜스포머보다 에너지 효율이 1.5배 이상 향상된 것으로 나타났어요.