Pulse · AI 뉴스

디코더 전용 트랜스포머에서 절대 위치 정보는 어디에서 오는가?

arXiv cs.CL · 2026-06-04

RoPE 트랜스포머는 내부 곱셈에서 상대 오프셋만 인코딩함에도 불구하고 어텐션 패턴에서 절대 위치를 구별합니다. 이는 인과 마스크와 잔차 스트림이라는 두 가지 아키텍처 구성 요소에서 비롯됩니다. 인과 마스크는 쿼리 위치에 따라 소프트맥스 분모에 영향을 미치고, 잔차 스트림은 위치 0의 활성화를 통해 동적인 시스템을 구축합니다.

NTK 스케일링은 잔차 스트림 구성 요소를 억제하고, 슬라이딩 윈도우 어텐션은 깊이와 함께 축적되도록 합니다. BOS 임베딩을 대체하면 초기 쿼리에 대한 잔차 스트림 구성 요소의 40%를 제거할 수 있습니다.

어텐션 싱크는 위치 0의 토큰에 고정된 안정제 역할을 하며, 자동 접두사로 사용되는 BOS 토큰의 경우 입력에 관계없이 일관된 지문을 전달합니다.

##트랜스포머##RoPE##어텐션##절대위치##BOS
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기