Pulse · AI 뉴스

파라미터 제한 학습에서 SSM이 어려워하는 이유: 25M 파라미터 환경에서의 경험적 분석

r/MachineLearning · 2026-05-04

OpenAI의 Parameter Golf 대회에서 3주간 실험한 결과, SSM(State Space Model)이 시간과 크기가 제한된 환경에서 Transformer보다 구조적으로 불리함을 확인했습니다.

SSM의 입력 투영 가중치는 LZMA 압축 시 Transformer의 어텐션 QKV 가중치보다 최대 3.26배 더 압축이 어렵다는 점이 발견되었습니다.

Mamba-3 Triton 커널 관련 실험에서 역방향 퓨전 시 SMEM 압력으로 인해 속도가 느려지거나, torch.compile 양자화기 버그로 인한 성능 저하 등의 문제점이 확인되었습니다.

##SSM##Transformer##Mamba##ParameterGolf##OpenAI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기