DnA는 멀티헤드 어텐션(MHA)의 softmax 활성화가 생성하는 노이즈 문제를 해결하기 위해 제안됐어요. 긍정 쿼리와 부정 쿼리를 활용해 관련 없는 이미지 특징을 분리하고 성능을 향상시킵니다. ViT-B 백본을 사용했을 때 ImageNet-1K에서 0.8% 성능 향상을 달성했어요.
DnA는 비디오 이해와 비디오 LLM에서도 각각 1.8%, 0.5% 성능 향상을 보여줬어요. 두 개의 상호작용하는 서브스페이스와 디노이징 효과를 통해 설계 선택을 뒷받침하는 실험적 분석을 진행했어요.