어텐션 계산 시 Q·Kᵀ 를 스케일링하지 않으면, 사전 softmax 점수가 √d_k 표준편차를 가지게 되어 softmax 입력이 포화될 위험이 있습니다.
Q와 K 벡터의 초기화 분산이 단위일 때, 사전 softmax 점수의 표준편차가 높아져 모델이 특정 토큰을 공격적으로 선택하는 현상을 유발합니다.
1/√d_k로 스케일링하면 점수를 정규화하여 분산을 단위로 되돌리고, 최적화기가 학습 가능한 부드러운 분포를 생성하며, 이는 Transformer 프로젝션의 초기화 방식과 일치합니다.