연구진은 Mamba-2 모델을 그룹 양자화 인식 훈련(QAT) 방식으로 압축하여 메모리 사용량을 3.61배 줄였습니다.
압축된 모델은 7개의 작업에서 평균 48.1%의 제로샷 정확도를 달성했으며, 훈련에는 단 102만 토큰과 4시간의 H100 GPU 시간이 소요되었습니다.
연구 결과는 사전 훈련된 체크포인트에서 QAT를 적용하는 것이 데이터 효율적인 대안임을 보여주며, 기존 트랜스포머 방식과는 다른 새로운 불안정성인 ‘제로 비율 붕괴’ 현상을 발견했습니다.