Variable-Width Transformer는 레이어별로 폭을 다르게 할당하는 새로운 구조예요. 실험 결과, 비균등 폭 할당 방식이 기존 모델보다 언어 모델링 손실에서 더 좋은 성능을 보여줬어요. 이 방식은 전체 FLOPs를 줄이고 KV 캐시 메모리 및 I/O 비용을 절감하는 효과도 있어요.
Variable-Width Transformer는 X자 모양의 구조를 가지며, 레이어 폭을 줄여 전체 파라미터 수를 줄이는 동시에 성능을 유지해요. 이는 각 레이어가 수행하는 역할이 다르다는 점을 고려한 설계 변경이에요.
연구 결과, 이 구조는 잔차 흐름에서 질적으로 다른 표현을 만들어내며, 언어 모델의 자원 효율성을 높이는 데 기여해요.