연구진이 Qwen3.5, Gemma 등 8개 오픈 LLM 패밀리 27개 체크포인트를 분석하여 최대 활성화 값을 측정했어요. 최대 활성화 값은 파라미터 수에 따라 최대 4배까지 차이가 나타났으며, MoE 모델은 Dense 모델보다 14~23배 낮은 값을 보였어요. 활성화 값은 모델 패밀리, 아키텍처, 학습 단계에 따라 달라지는 모델 고유의 특성이며, 저비트 배포 전에 측정 및 보고해야 한다는 결론을 내렸어요.
Qwen3.5, MoE 체크포인트는 10^2~10^3 범위, Gemma3-27B-it는 약 7 x 10^5의 최대 활성화 값을 기록했어요. 이는 단순한 규모 증가의 결과가 아닌 모델의 고유한 특성으로 나타났어요.
INT-8 sanity check 결과, 측정된 최대 활성화 값은 활성화 스케일 선택을 통해 저비트 재구성 오류와 함께 변동하는 것으로 확인되었어요. 연구 코드는 공개되어 있으며, 관련 URL을 통해 확인할 수 있어요.