Pulse · AI 뉴스

Variable-Width Transformer: 비균등 폭 할당이 언어 모델 성능 향상

Variable-Width Transformer · 2026-06-17

Variable-Width Transformer는 레이어별로 폭을 다르게 할당하는 새로운 구조예요. 실험 결과, 비균등 폭 할당 방식이 기존 모델보다 언어 모델링 손실에서 더 좋은 성능을 보여줬어요. 이 방식은 전체 FLOPs를 줄이고 KV 캐시 메모리 및 I/O 비용을 절감하는 효과도 있어요.

Variable-Width Transformer는 X자 모양의 구조를 가지며, 레이어 폭을 줄여 전체 파라미터 수를 줄이는 동시에 성능을 유지해요. 이는 각 레이어가 수행하는 역할이 다르다는 점을 고려한 설계 변경이에요.

연구 결과, 이 구조는 잔차 흐름에서 질적으로 다른 표현을 만들어내며, 언어 모델의 자원 효율성을 높이는 데 기여해요.

##Transformer##모델구조##자원효율##언어모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기