사용자가 Gemma 4 31B 모델을 재구축하는 프로젝트를 시작했어요. SWA 레이어를 재구성하고 Attention based Residual Networks를 적용해 모델 성능을 향상시키려 합니다. 초기 재구축 단계에서는 TopK 로짓을 활용해 모델 내부 안정화를 추구할 예정이에요. 프로젝트 진행 상황에 대한 질문은 언제든 환영합니다.