연구진이 어텐션과 상태 공간 모델(SSM)의 장점을 결합한 SISA(SSM-Informed Softmax Attention)를 제안했어요. SISA는 SSM에서 파생된 중요도 정보를 어텐션 점수에 직접 통합해 계산 효율성을 높였어요.
SISA는 LAMBADA-greedy에서 17.3%의 성능을 달성하며, 트랜스포머(13.9%)와 Mamba-3(15.5%)를 능가했어요. 또한 NIAH(Novelty-Informed Attention)에서 100%를 1000단계에서 달성하며, 트랜스포머보다 7배 빠른 수렴 속도를 보였어요.
SISA는 블록 레벨과 헤드 레벨의 기존 하이브리드 모델과 구별되는 스코어 레벨 융합이라는 새로운 설계 축을 제시하며, SSM-어텐션 하이브리드 모델의 발전에 기여할 것으로 기대돼요.