연구진은 Transformer 모델의 레이어 간 정보 흐름을 개선하는 Depth-Attention 기법을 제안했어요. Depth-Attention은 기존 방식과 달리 어텐션 모듈 내에서 레이어 간 값 혼합을 수행하여 추가적인 메모리 오버헤드 없이 성능을 향상시켰어요. 1.5B 및 3B 파라미터 Qwen3 기반 디코더에서 기존 Transformer 대비 최대 2.3%의 정확도 향상을 달성하며, 기존 교차 레이어 방식보다 우수한 성능을 보였어요.