연구팀은 SATFormer라는 새로운 트랜스포머 아키텍처를 제안했습니다. SATFormer는 초기 레이어의 값을 재사용하여 효율성과 성능 간의 균형을 개선하는 데 목표를 둡니다.
SATFormer는 토큰, 헤드, 컨텍스트에 따라 달라지는 게이트를 사용하여 초기 레이어의 값을 선택적으로 접근합니다.
130만~13억 파라미터 모델에서 SATFormer는 Transformer 및 ResFormer 기준 성능을 능가했습니다.
SATFormer는 HyperConnections 및 MUDDFormer와 유사한 처리량을 유지하면서도 검색 집약적인 벤치마크에서 평균 1.5점 향상을 보였습니다.