연구진은 기존 LLM 압축 방식의 레이어 단위, 연속적 선택이라는 제약에서 벗어나 서브모듈 수준의 압축 기법인 SubFit을 제안했어요.
SubFit은 Attention 및 FeedForward 서브모듈을 연속적이지 않게 선택하고, 각 서브모듈에 가벼운 fitted residual bypass를 적용하여 작동하며, 훈련 후 보정 데이터만 필요해요.
10개 LLM에서 12.5%에서 37.5%의 다양한 sparsity 수준에서 SubFit은 기존 방식 대비 더 나은 perplexity-정확도 균형을 보여주며, 25% sparsity에서 84.6%의 downstream 정확도를 유지하고 2.42배의 perplexity degradation를 발생시켰어요.