연구진은 희소 트랜스포머 학습의 어려움을 해결하기 위해 HORST(Hyperbolic Operator for Robust Sparse Training)라는 새로운 최적화 기법을 제안했어요. HORST는 기존 최적화 기법의 안정성을 유지하면서 $L_1$ 희소성 편향을 유도하는 방식으로 작동해요.
기존 적응형 최적화 기법은 안정성을 위해 $L_{ ext{∞}}$ 편향을 갖지만, 희소성은 $L_1$ 편향을 요구한다는 문제점을 개선했어요. HORST는 최적화 단계를 조합하여 분석하고 기하학적으로 결합하는 방식으로 설계돼요.
시각 및 언어 작업에서 트랜스포머를 희소하게 학습하는 실험 결과, HORST는 모든 희소성 수준에서 AdamW 기반 모델보다 우수한 성능을 보였으며, 특히 높은 희소성에서 큰 개선을 보였어요.