Pulse · AI 뉴스

Depth-Attention: 언어 모델의 레이어 간 값 혼합을 위한 교차 레이어 어텐션

Qwen · 2026-06-04

연구진은 Transformer 모델의 레이어 간 정보 흐름을 개선하는 Depth-Attention 기법을 제안했어요.

Depth-Attention은 기존 방식과 달리 어텐션 모듈 내에서 레이어 간 값 혼합을 수행하여 추가적인 메모리 오버헤드 없이 성능을 향상시켰어요.

1.5B 및 3B 파라미터 Qwen3 기반 디코더에서 기존 Transformer 대비 최대 2.3%의 정확도 향상을 달성하며, 기존 교차 레이어 방식보다 우수한 성능을 보였어요.

##언어모델##어텐션##Depth-Attention##Qwen3

매일 핵심 AI 소식을 한국어로, 빠르게