사용자가 Google의 Gemma 모델보다 큰 모델을 직접 구축했습니다. Gemma4-31B를 88 레이어로 확장하고 한국 법률 및 STEM 데이터로 미세 조정했습니다. 확장된 모델은 새로운 도메인에 대한 '빈 공간'을 확보하여 기존 지식과 충돌을 줄이는 것을 목표로 합니다. 모델 카드에는 아키텍처 세부 정보, 미세 조정 검증 결과가 담겨 있습니다.
현재 모델의 약점은 코딩 능력과 도구 호출 기능이며, 관련 데이터셋 및 스트레스 테스트 지원을 요청했습니다. 88 레이어에서 데이터/훈련 품질 개선에 집중할지, 아니면 96~100 레이어로 확장을 계속할지 검토 중입니다.
GLM-5.2 또는 DeepSeek V4-Flash와 같은 MoE 아키텍처에 동일한 접근 방식을 적용할 계획이며, MoE 관련 지식 공유를 환영합니다.