연구진이 Linear Attention 모델의 삭제와 쓰기 기능을 분리하는 Gated DeltaNet-2를 공개했어요. Gated DeltaNet-2는 기존 KDA와 Gated DeltaNet의 한계를 극복하고 채널별 삭제 및 쓰기 게이트를 도입했어요. FineWeb-Edu 토큰 100B로 학습한 13억 파라미터 모델은 Mamba-2, Gated DeltaNet, KDA, Mamba-3 등 다양한 모델을 능가하는 성능을 보여줬어요.