연구진은 자연어에서 단어 간 거리에 따라 어텐션 차원을 다르게 설정하는 Distance-Adaptive Representation(DAR)을 제안했어요.
DAR은 지역 토큰에 풍부한 표현을, 원거리 토큰에는 저차원 표현을 사용하며, 7000만~4억1000만 파라미터 규모의 사전 훈련 모델에서 기존 방식과 유사한 성능을 보여줬어요.
전체 토큰 차원을 균일하게 줄이는 방식은 성능 저하를 일으켰으며, 이는 키와 값 차원이 토큰 위치에 따라 달라져도 괜찮다는 점을 시사해요.
연구 결과는 어텐션 아키텍처 설계에 새로운 방향을 제시하며, 추론 시 KV 캐시를 줄이는 데 기여할 수 있을 것으로 기대돼요.