연구진이 각 숨겨진 좌표가 각도인 자가 어텐션 레이어인 Kuramoto 어텐션을 소개했어요.
이 레이어는 게이티드 코사인 유사도를 통해 토큰을 스코어링하고, 이전 위상 상태를 기반으로 어텐션하고, 토큰을 어텐션 가중 평균의 탄젠트 성분으로 업데이트해요.
Kuramoto 어텐션은 기존 RoPE+SwiGLU 트랜스포머와 비슷한 수준의 성능(100만 파라미터에서 0.02 BPC 차이)을 보여줘요.
이 연구는 제약된 기하학적 구조가 이 규모에서 실행 가능한 언어 모델임을 입증하며, 자가 어텐션과 위상 동기화 간의 연결고리를 제시해요.