연구진은 기존 모델의 한계를 극복하기 위해 삭제와 쓰기를 분리하는 Gated DeltaNet-2를 새롭게 선보였습니다.
Gated DeltaNet-2는 채널별 삭제 게이트와 쓰기 게이트를 도입하여 KDA와 Gated DeltaNet의 단점을 개선했습니다.
13억 파라미터로 FineWeb-Edu 토큰 1000억 개로 학습한 결과, 언어 모델링, 상식 추론, 검색 등 다양한 분야에서 Mamba-2, Gated DeltaNet, KDA, Mamba-3 변종보다 뛰어난 성능을 보였습니다.
특히 Gated DeltaNet-2는 긴 문맥 RULER 니들-인-어-헤이스택 벤치마크에서 멀티 키 검색 성능을 향상시켰으며, 순환 및 하이브리드 환경에서도 강점을 유지했습니다.