Pulse · AI 뉴스

SATFormer: 선택적 접근 방식을 통한 트랜스포머 모델 성능 향상

SATFormer · 2026-05-06

연구진은 트랜스포머 모델의 초기 레이어 표현에 선택적으로 접근하는 SATFormer를 제안했습니다. 이는 초기 레이어의 저수준 특징이 깊이 방향으로 반복적으로 변환될수록 회복하기 어려워진다는 관찰에서 비롯되었습니다. SATFormer는 문맥에 따라 접근을 제어하는 게이트를 사용하여 초기 레이어 표현을 재사용하는 방식을 학습합니다.

130M에서 1.3B 파라미터 모델에 걸쳐 SATFormer는 정적 값 잔차 및 트랜스포머 기준 모델보다 검증 손실과 제로샷 정확도를 꾸준히 향상시켰습니다. 특히 검색 집약적인 벤치마크에서 정적 값 잔차보다 평균 1.5 포인트 개선되었습니다.

게이트 분석 결과, SATFormer는 깊이 의존적, 헤드별, 범주별로 드문 접근 패턴을 학습하며, 이는 초기 표현의 선택적 재사용을 학습한다는 해석을 뒷받침합니다. 코드 공개는 GitHub에서 확인할 수 있습니다.

##트랜스포머##SATFormer##선택적접근
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기