본 연구는 GLU(Gated Linear Unit) 구조가 현대 LLM 아키텍처에서 비-GLU 구조보다 우수한 이유를 분석했어요. 신경 탠저린 커널(NTK) 관점에서 두 계층 네트워크를 연구한 결과, GLU 구조는 NTK 스펙트럼을 재구성하여 조건 번호를 줄이고 고유값 분포를 더욱 콤팩트하게 만들어요.
NTK 스펙트럼 재구성은 GLU 모델의 빠른 수렴을 유도하며, GLU와 비-GLU 모델 간의 교차 현상을 관찰할 수 있어요. GLU는 ViT나 GPT-2 모델에서 일반화 간극을 줄이는 데 제한적인 영향을 미쳐, 주로 최적화 속도를 높이는 데 기여하는 것으로 나타났어요.
결과적으로 GLU 구조는 NTK 스펙트럼을 재구성하여 조건 번호를 줄이고, 빠른 수렴과 교차 현상을 유도하며, 최적화 속도를 향상시키는 역할을 하는 것으로 확인되었어요.