cjhudlin 사용자가 Qwen3.6-35B 모델에 Adaptive Mixture of Experts Gate (AMG)를 후처리 방식으로 적용하는 실험 결과를 공유했어요. AMG는 토큰당 가변적인 전문가 수를 선택하는 방식입니다.
실험 결과, 후처리 AMG 게이팅은 품질 저하 없이 토큰별 가변성을 확보하기 어려웠으며, 오히려 성능 저하를 초래했어요. 전문가의 분포가 균일하게 만들어져 있어, 임계값을 적용해도 의미 있는 변화를 얻기 어려웠습니다.
향후 연구 방향으로, 게이트 파라미터만 fine-tuning하고 전문가 FFN 가중치는 고정하는 방안을 제시했습니다. 엔트로피 정규화와 균등 분포 KL divergence를 활용하여 토큰별 가변성을 확보하는 것이 목표입니다.