연구자들은 잔차 스트림을 제거하고 구조화된 작업 공간을 도입한 새로운 아키텍처(CWT)를 개발했습니다. CWT는 기존 트랜스포머 모델 대비 핵심 연산량을 45% 줄이고 유사한 품질을 유지하며, 토큰 단위 모델 작동 과정을 시각적으로 분석할 수 있는 장점을 가집니다. 논문, 모델 가중치, 코드는 오픈 소스로 공개되었으며, 연구자들은 추가적인 피드백과 아이디어를 환영합니다.