OpenAI의 Parameter Golf 대회에서 3주간 실험한 결과, SSM(State Space Model)이 시간과 크기가 제한된 환경에서 Transformer보다 구조적으로 불리함을 확인했습니다.
SSM의 입력 투영 가중치는 LZMA 압축 시 Transformer의 어텐션 QKV 가중치보다 최대 3.26배 더 압축이 어렵다는 점이 발견되었습니다.
Mamba-3 Triton 커널 관련 실험에서 역방향 퓨전 시 SMEM 압력으로 인해 속도가 느려지거나, torch.compile 양자화기 버그로 인한 성능 저하 등의 문제점이 확인되었습니다.