NonGameCatharsis 사용자가 GPT-2 규모 (~354M 파라미터, 11.5B 토큰)의 softmax-free 어텐션 모델을 공개했어요. 구조적 희소성과 타일 건너뛰기 커널을 활용해 장문 컨텍스트에서 VRAM 절약을 가능하게 해요. 모델 가중치와 커스텀 Triton 커널이 함께 공개됐어요.
모델은 GPT-2 규모로, 115억 토큰으로 학습됐고, 구조적 희소성과 타일 건너뛰기 커널을 통해 장문 컨텍스트를 효율적으로 처리할 수 있도록 설계됐어요. 사용자는 GitHub에서 관련 정보 확인 가능해요.