연구진은 모든 레이어와 토큰에 균일하게 적용되는 기존 self-attention 방식의 비효율성을 개선하기 위해 Chiaroscuro Attention (CHIAR-Former)을 제안했어요.
토큰별 스펙트럼 엔트로피를 기반으로 각 토큰을 DCT 스펙트럴 믹싱, RBF 커널 믹싱, full self-attention 중 하나로 라우팅하며, 실험 결과 라우팅 콜랩스가 발생하여 스펙트럴 믹싱과 dynamic attention이 상호 보완적임을 확인했어요.
WikiText-103에서 DCT+Attention만 사용한 모델은 full-attention 기반 모델 대비 45% 성능 향상을 보이며, attention FLOPs는 62.5% 감소했어요.