연구팀이 델타 어텐션 레지듀얼(Delta Attention Residuals)을 공개했어요. 이 기술은 기존 레이어 간 라우팅 문제를 해결하고, 모델 성능을 향상시키는 데 기여합니다. 델타 어텐션 레지듀얼은 델타(Δ) 값을 활용하여 레이어 간 라우팅을 최적화하고, 모델의 효율성을 높여요.
검증 데이터셋에서 PPL(Perplexity)이 8.2% 감소했으며, 220만 파라미터에서 76억 파라미터까지 일관된 성능 향상을 보였어요. 기존 레지듀얼 방식과 어텐션 레지듀얼 방식보다 우수한 성능을 보여주며, 특히 대규모 모델에서 효과적이에요.
기존 모델을 쉽게 업그레이드할 수 있도록 설계되었으며, 파라미터 오버헤드가 0.01% 미만으로 매우 적어요. 코드와 논문은 GitHub와 arXiv에서 확인할 수 있습니다.