기존 연구는 트랜스포머의 글로벌 시퀀스 모델링 능력을 어텐션 가중치 계산에 기인한다고 봤지만, 본 연구는 어텐션을 동적 파라미터가 장착된 MLP로 재해석하며 어텐션의 글로벌 모델링 능력이 명시적인 토큰 간 집계가 아닌 동적 파라미터에 의해 구현된다고 주장합니다.
동적 파라미터 예측 전략을 활용해 표준 네트워크 레이어에 통합한 결과, 명시적 어텐션 없이도 트랜스포머 수준의 시퀀스 글로벌 모델링이 가능하며 선형 복잡도를 유지할 수 있음을 확인했습니다.
시각 모델에 대한 실험 결과, 동적 파라미터화가 효율적인 선형 복잡도 어텐션 대체재로 사용될 수 있음을 보여주며 효율적인 시퀀스 모델링을 위한 새로운 가능성을 제시합니다.