Variable-Width Transformers 연구에서 레이어별 성능에 따라 모델 폭을 다르게 설정하는 방식이 효과적임을 확인했어요. 이 방식은 기존 모델보다 언어 모델링 손실에서 더 좋은 성능을 보이고, FLOPs 연산량과 KV 캐시 메모리 사용량을 줄여줘요. 연구 결과, 비균등 폭 할당 구조는 잔차 스트림에서 질적으로 다른 표현을 만들어내요.
Variable-Width Transformers는 레이어 폭을 times-shaped로 조절하여 기존 모델보다 언어 모델링 손실에서 우수한 성능을 냈어요. 이 방식은 전체 FLOPs 연산량을 22% 줄이고, KV 캐시 메모리 및 I/O 비용을 15% 절감해요. 이는 모델 폭을 줄여서 달성한 결과입니다.
연구팀은 비균등 폭 할당 구조가 잔차 스트림에서 질적으로 다른 표현을 만들어낸다는 것을 분석했어요. 이를 통해 언어 모델의 자원 효율성을 높일 수 있다는 점을 입증했습니다.