Pulse · AI 뉴스

어텐션에서 1/√d_k 스케일링은 수치적 안정성을 위한 것이 아니다: 실제 수학적 이유와 그 부재 시 발생하는 문제

r/MachineLearning · 2026-05-18

어텐션 계산 시 Q·Kᵀ 를 스케일링하지 않으면, 사전 softmax 점수가 √d_k 표준편차를 가지게 되어 softmax 입력이 포화될 위험이 있습니다.

Q와 K 벡터의 초기화 분산이 단위일 때, 사전 softmax 점수의 표준편차가 높아져 모델이 특정 토큰을 공격적으로 선택하는 현상을 유발합니다.

1/√d_k로 스케일링하면 점수를 정규화하여 분산을 단위로 되돌리고, 최적화기가 학습 가능한 부드러운 분포를 생성하며, 이는 Transformer 프로젝션의 초기화 방식과 일치합니다.

##어텐션##트랜스포머##수치적안정성##딥러닝

매일 핵심 AI 소식을 한국어로, 빠르게