연구진은 데이터나 학습 없이 음성 기반 모델을 압축하는 새로운 방법을 제시했어요. k-평균을 이용한 채널별 클러스터링 방식으로 모델을 압축하고, 레이어별로 다른 클러스터 수를 적용한 정교한 희소성 가지치기를 사용했어요.
HuBERT-large 모델을 50% 압축했을 때, 테스트 데이터 세트에서 기존 방식 대비 27.73%~18.61%의 WER 감소 효과를 얻었으며, 3번 에포크 미세 조정 후에도 0.19%~0.79%의 감소 효과가 있었어요.
Whisper-large-v3 모델을 10% 압축했을 때도 기존 방식 대비 2.86%~5.02%의 WER 감소 효과를 확인했으며, 압축 전 기준 WER 증가 없이 성능을 유지했어요.