연구진은 심층 LLM에서 발생하는 신호 저하 문제를 해결하기 위해 Mixture-of-Depths Attention (MoDA)이라는 새로운 어텐션 메커니즘을 제안했어요.
MoDA는 각 어텐션 헤드가 현재 레이어와 이전 레이어의 깊이에서 KV 쌍에 모두 접근할 수 있도록 하여 성능을 향상시키고, 64K 시퀀스 길이에서 FlashAttention-2의 97.3% 효율성을 달성했어요.
MoDA는 10개의 검증 벤치마크에서 퍼플렉시티를 평균 0.2만큼 개선하고, 10개의 다운스트림 작업에서 평균 2.11%의 성능 향상을 보여주며, FLOPs 계산량은 3.7% 증가했어요.